La modélisation du processus de décision judiciaire dans le domaine de la réparation du préjudice corporel permet de tester la validité de l’hypothèse selon laquelle une offre trop basse pourrait exposer le payeur à devoir régler un montant d’indemnisation plus élevé que s’il avait choisi de se montrer plus généreux.

Il est tout d’abord important de noter qu’une telle hypothèse ne peut pas être étudiée à l’aide de simples statistiques : en effet, pour mesurer l’influence de la proposition d’indemnisation sur le montant accordé, il faudrait disposer de décisions concernant des dossiers similaires sauf précisément en ce qui concerne cette proposition. Avec deux cents critères nécessaires pour caractériser une situation de dommage corporel, on voit qu’il est extrêmement peu probable que l’on trouve ne serait-ce que deux dossiers identiques sauf pour la proposition de l’assureur. Même si on en trouvait une dizaine, ce serait loin d’être suffisant pour tirer des conclusions robustes.

C’est un exemple typique de l’intérêt d’un modèle mathématique : puisque l’intelligence artificielle a appris à reproduire le raisonnement des magistrats, on peut lui présenter une série de dossiers sur lesquels on n’a fait varier que certains paramètres, et obtenir la distribution des décisions possibles dans chaque cas.

Les graphes ci-dessous décrivent les montants, estimés par le modèle, alloués au titre du déficit fonctionnel permanent dans un dossier de dommage corporel. Les courbes sont obtenues de la façon suivante : on a repris les éléments d’un dossier effectivement soumis à la cour d’appel de Paris, sur lequel on a interrogé la machine en faisant varier un seul critère, à savoir le montant d’indemnisation proposé par l’assureur. Celui-ci peut en principe varier entre zéro et le montant demandé par la victime, ici 17 500 euros.

L’intelligence artificielle va produire, pour chaque simulation, l’éventail des décisions qui seraient prises par la cour. Le graphe noir représente l’évolution du montant le plus probable en fonction du montant proposé par l’assureur. Par exemple, le premier point de la courbe, à gauche, nous informe du fait que, si l’assureur ne compte pas indemniser la victime au titre de ce poste de préjudice (valeur 0 sur l’axe horizontal), le montant le plus probable décidé par la cour sera d’environ 15 000 euros (valeur sur l’axe vertical). Quand, à l’opposé (le point noir le plus à droite de la courbe), l’assureur propose un montant de 17 500 euros, qui coïncide avec la demande de la victime, la cour accorde évidemment ce même montant. Comme on le voit, le graphe noir prend peu ou prou la forme d’un sourire, ce qui signifie qu’il y a bien une proposition « optimale » (figurée par le symbole jaune sur le graphe) qui minimise le montant le plus probable que l’assureur devra payer, ici à peu près 12 500 euros s’il propose un peu moins de 7 500 euros (valeurs respectivement sur les axes verticaux et horizontaux).

Il est tout aussi important de remarquer que le sourire n’apparaît pas si l’on considère les décisions les plus et les moins « sévères » : la courbe bleue représente le montant maximal que l’assureur devra payer selon les 10 % de magistrats accordant l’indemnité la plus faible, et la rouge le montant maximal que l’assureur devra payer selon les 10 % de magistrats accordant l’indemnité la plus forte. Dans les deux cas, les montants croissent régulièrement, ce qui invalide l’hypothèse d’un effet sourire.

Ainsi, la réponse à la question « est-ce que l’assureur a intérêt à se montrer généreux pour minimiser le montant qu’il devra payer pour indemniser la victime » est : « Cela dépend. » C’est oui si l’on se fonde sur le montant le plus probable, et non si l’on considère les valeurs extrêmes.

Comment peut-on vérifier les prédictions du modèle, puisque nous ne disposons pas de décisions réelles correspondantes ? L’idéal serait de pouvoir réaliser une expérience de terrain en présentant les dossiers virtuels à la cour d’appel de Paris, et de noter les résultats. Nous espérons qu’un jour, ce genre d’expérience sera possible, mais pour le moment ce n’est pas le cas. A défaut, la validité des réponses du modèle est vérifiée suivant plusieurs axes :

  • pour créer le modèle, on met en œuvre des algorithmes d’intelligence artificielle qui apprennent à partir de décisions réelles. Dans le cas qui nous occupe ici, le modèle a été entraîné sur 5 000 des 7 000 arrêts de notre base. Il est alors possible de tester ses réponses sur les 2 000 décisions restantes, celles qu’il n’a pas vu lors de l’apprentissage, et de vérifier que les sorties obtenues coïncident à peu près avec les montants réellement accordés. Cette vérification de niveau général permet, dans une certaine mesure, d’asseoir un niveau de confiance raisonnable dans le modèle. Dans le cas du préjudice corporel, la fiabilité oscille entre 80 et 90 %, ce qui signifie que l’intelligence artificielle donne une réponse erronée une à deux fois sur 10 ;
  • on peut réaliser des versions réduites de l’expérience de terrain décrite ci-dessus : en présentant un dossier à un groupe suffisamment grand de magistrats (une trentaine au moins), on peut vérifier que l’ensemble des “décisions” rendues est similaire à la distribution estimée par le modèle. Cette procédure est intéressante, même si elle souffre de plusieurs limites : échantillon de taille réduite, “décisions” prises dans des conditions très différentes des situations réelles (en particulier en l’absence de plaidoiries des avocats), … Quand nous menons ce type d’expérience, sur le préjudice corporel comme sur d’autres sujets, les résultats sont la plupart du temps satisfaisants :  les distributions des décisions réelles et virtuelles sont raisonnablement proches ;
  • enfin, sur le sujet précis du sourire d’indemnisation, on peut tout simplement sonder les magistrats et leur demander leur avis, ce que nous avons fait de manière très informelle, en échangeant avec une quarantaine de juges et conseillers traitant ces affaires. Nous précisions qu’il ne s’agit en rien d’une étude rigoureuse, et qu’un travail plus scientifique serait certainement à mener. Notre mini-enquête fait apparaître que :
  • environ un tiers des magistrats interrogés sont effectivement gêné par une demande ou une proposition manifestement peu réaliste (par exemple un assureur qui offre un montant nul), et "corrige" son évaluation en conséquence ;
  • un autre tiers explique que, au moment de prendre sa décision, il regarde en particulier la demande et la proposition. Si l'une des deux est déraisonnable, alors il est naturellement porté à se rapprocher de celle qui est réaliste ;
  • enfin un dernier tiers dit n'être pas sensible aux montants proposés et demandés autrement que dans le respect de la règle ultra petita.

Ces réponses informelles sont à la fois parfaitement corroborées par le modèle (c'est l'explication des courbes des trois couleurs) et en plein accord avec de très nombreuses expériences de psychologie, qui pointent toutes sur un effet ou biais d'ancrage dans la prise de décisions des juges.

Dans un monde idéal, on aimerait que les magistrats choisissent un montant en toute "objectivité" qui correspondrait à la juste réparation intégrale. En pratique, celle-ci est difficile à évaluer, et c'est pourquoi il est crucial de mettre en œuvre des outils mathématiques fins pour comprendre les pratiques, étape indispensable pour les améliorer et se rapprocher de cet idéal. C'est en tout cas ce qui nous anime chez Case Law Analytics.

# jurimetrie #droit #dommagecorporel #legaltech #intelligenceartificielle #modelisation