Cet article est paru aux Cahiers de la Justice, Revue trimestrielle de l'Ecole nationale de la magistrature #2020/4 dans le dossier L'office du juge.

Le contexte

Outil aux services des sciences depuis plusieurs siècles, la modélisation mathématique voit son champ d’application s’étendre rapidement depuis quelques dizaines d’années, grâce, entre autres, aux progrès intrinsèques de sous-disciplines - comme le calcul différentiel stochastique ou l’analyse harmonique -, à l’augmentation importante des performances des ordinateurs et enfin à la disponibilité croissante de données facilement utilisables.

Ainsi, de nombreux nouveaux domaines, particulièrement en sciences humaines et sociales, ont pu bénéficier récemment des apports de cette méthodologie, qui complète utilement les voies plus traditionnelles d’étude. En ingénierie financière, par exemple, de vastes quantités de données permettent de tester et de délimiter les plages de validité de divers macro- et micro-modèles. Les macro-modèles rendent compte du comportement des marchés à travers des quantités agrégées, comme les prix ou les volumes de transaction des divers actifs, alors que les micro-modèles s’attachent à décrire les actions individuelles des divers intervenants. Dans les deux cas, les bénéfices attendus incluent par exemple la possibilité d’éclairer les régulateurs dans le choix de leurs politiques destinées à assurer la robustesse et la transparence des marchés financiers ainsi que l’opportunité pour les acteurs de minimiser leurs risques. En sociologie, la modélisation mathématique a pris son essor dans les années 1960 et répond par exemple à des questions concernant la structure des interactions locales et leur prévisibilité à partir de l'analyse des réseaux sociaux : en construisant des modèles à partir d’hypothèses sur certains phénomènes, et en validant leurs prédictions viades comparaisons avec les données empiriques pertinentes, on peut mettre en évidence l’influence de telle ou telle caractéristique des réseaux (Edling, 2002).

Modélisation mathématique et intelligence artificielle

Parmi les nombreuses techniques permettant de construire des modèles mathématiques, il en est une qui fait couler beaucoup d’encre ces dernières années : il s’agit de l’intelligence artificielle (IA). Il n’entre pas dans notre propos de considérer les divers courants de l’IA, et, dans cet article, nous ne nous intéresserons qu’à ce qu’on appelle « l’apprentissage automatique » : il s’agit d’une méthode par laquelle on fournit d’une part des données en nombre à un ordinateur et d’autre part des méthodes qui vont lui permettre de constituer en autonomie un modèle permettant de mener des actions ou de faire des choix qui sont normalement effectués par des humains. L’exemple le plus célèbre est peut-être celui du jeu d’échecs : en entraînant la machine à partir de grandes quantités de parties déjà jouées, puis en la faisant « jouer » contre une autre machine, elle « apprend » une stratégie qui lui permet de battre les plus grands maîtres mondiaux.

Les dénominations « intelligence artificielle », et, dans une moindre mesure, « apprentissage automatique » sont consacrées mais quelque peu malheureuses, car elles induisent dans le grand public aussi bien des attentes extraordinaires que des appréhensions naturelles. Nous retiendrons qu’il s’agit de méthodes certes très puissantes, mais qui ont, évidemment, aussi leurs limites que nous pointerons dans la suite lorsqu’elles seront pertinentes pour notre propos.

Pour le moment, nous nous contentons de présenter quelques applications de cette technique. Celles-ci peuvent être classées de diverses manières, et dans le cadre de cet article, il nous semble approprié de choisir la catégorie « pertinence » pour ce faire.

L’exemple typique d’application pertinente, ou utile, est celui de l’analyse de données médicales. Il est par exemple possible, à partir de l’étude d’un grand nombre d’électrocardiogrammes, préalablement annotés par des cardiologues, de construire un modèle qui permet de détecter très finement et rapidement diverses pathologies comme des arythmies (Smith, et al., 2019). D’autres applications dans ce domaine concernent l’aide au diagnostic de cancer du sein à partir de mammographies (Dembrower, et al., 2020) ou la dermatologie (Gomolin, Netchiporouk, Gniadecki, & Litvinov, 2020).

Les applications « neutres » comprennent en particulier les jeux : développer une IA qui bat les humains au jeu de Go ou au poker permet surtout aux chercheurs dans ce domaine d’affiner leurs techniques, d’en éprouver et repousser les limites et de mieux comprendre les objets qu’ils fabriquent.

Enfin, il existe aussi des applications dont l’apport est soit ambivalent, soit clairement néfaste. Dans le premier cas, mentionnons les outils de recommandation : quand on écoute de la musique ou regarde un film en ligne, quand on achète un livre sur Internet, les plateformes marchandes nous proposent systématiquement des produits qui sont censés nous plaire, en construisant un modèle. Celui-ci se fonde sur divers éléments comme notre comportement sur le site, celui de clients ayant fait les mêmes acquisitions que nous, et d’autres paramètres. S’il peut parfois être agréable d’être ainsi guidé, il est aussi gênant de penser que c’est une IA qui va orienter nos prochaines lectures ou écoutes.

Quand on parle d’IA, on pense immédiatement à des problématiques liées à l’éthique. A ce sujet, il est important de comprendre que, la plupart du temps, garantir un « bon » usage n’est nullement aisé. Un exemple extrême est celui de la voiture autonome, qui, de façon inattendue, rend urgent de répondre à la question jusqu’ici théorique du célèbre dilemme du tramway : en cas d’accident inévitable, qui l’IA doit-elle préserver du passager ou du piéton ? Une vaste enquête en ligne a montré que  les règles éthiques qui semblent naturelles sont fortement dépendantes du pays du répondant (Awad, et al., 2018).

Modélisation probabiliste et droit

Le droit est probablement l’un des derniers champs dans lequel la modélisation mathématique, et en particulier l’IA, commence à être utilisée. L’un des objectifs de cet article est d’esquisser une voie possible pour que les juristes se saisissent de ce type d’outil et en comprennent les avantages et les limites.

Le point de départ de toute modélisation est de bien définir le phénomène que l’on cherche à étudier. Celui-ci doit être délimité de façon précise afin de pouvoir déployer l’analyse mathématique. En particulier, on doit prêter une attention spéciale aux « entrées » et aux « sorties » : quel est l’objet que l’on cherche à comprendre, et quelles sont les variables qui influent sur celui-ci ? Dans le cadre de ce texte, notre « sortie » sera une décision d’appel rendue dans un domaine spécifique du droit, et les « entrées » seront les éléments sur lesquels se fondent les magistrats pour prendre cette décision.

On peut interroger ce choix de diverses manières, et en particulier concernant l’hypothèse implicite qu’il fait, à savoir qu’il est possible de faire la liste de tous les critères présidant à la prise de décision : c’est le moment de se rappeler qu’un modèle est par définition faux, puisqu’il est une simplification de la réalité. Il est par exemple évident que de nombreux éléments influent à l’audience sur la décision, de la plus ou moins grande éloquence des avocats ce jour-là à l’état d’esprit du juge (Danziger, Levav, & Avnaim-Pesso, 2015), éléments qui ne peuvent pas raisonnablement être captés par un modèle. Il est ainsi utile, conceptuellement, de séparer les critères expliquant la décision en deux catégories : d’une part les critères factuels, par exemple la durée du mariage et la disparité de revenus dans le cas de l’octroi d’une prestation compensatoire, ou les points de souffrance endurée dans le cas de l’indemnisation d’un préjudice corporel, qui seront pris en compte par le modèle ; d’autre part les critères ineffables, qui englobent entre autres tout ce qui peut se passer lors d’une audience, mais aussi des éléments extraordinaires (uniques à un dossier) ou bien généralement non mentionnés dans les décisions, et qui seront ignorés par la modélisation.

Les mathématiciens ont développé depuis plusieurs siècles des outils pour travailler dans des telles situations d’information incomplète : ils parlent alors de modèles probabilistes. Un exemple permettra de comprendre ce dont il s’agit et comment on peut appliquer ce type de modèle dans notre cadre. Supposons que nous disposions d’un dé non pipé et que nous le lancions cinq fois. Le modèle probabiliste « uniforme » (c’est-à-dire pour lequel on considère que toutes les faces du dé ont la même chance d’apparaître) indique que la probabilité que nous n’obtenions que des « 6 » est d’un peu plus d’un dix millième. Admettons maintenant que le dé ait été lesté sur la face du « 6 », de telle sorte que le dé a maintenant trois chances sur quatre de présenter le « 6 » après un lancer.  Dans ce nouveau modèle probabiliste, le calcul montre que nous observerons cinq « 6 » d’affilée dans environ vingt-quatre pour cent des cas. Il est bien sûr impossible de prédire quelle face va présenter le dé dans l’une ou l’autre de ces deux situations, mais, alors que dans la première, l’événement qui nous intéresse, à savoir observer cinq « 6 » d’affilée est extrêmement peu probable, il se produit presqu’une fois sur quatre dans la seconde. Si on ne sait rien a priori sur le dé, il peut sembler naturel de parier sur la première situation et donc d’écarter raisonnablement la possibilité d’observer cinq « 6 », mais si on est informé qu’il a été lesté, les conséquences éventuelles de cet événement doivent être prises en compte. Dans ces expériences, il n’y a qu’un seul critère factuel, à savoir le caractère standard ou lesté du dé, alors que l’ensemble des critères ineffables comprend tous les paramètres physiques que l’on ne peut pas mesurer et qui représentent le hasard gouvernant le mouvement du dé.

Une transposition possible à la modélisation des décisions de justice est la suivante : supposons que nous nous intéressons au montant de la prestation compensatoire qui sera octroyée par un magistrat. Si on ne sait rien sur le dossier, c’est-à-dire si nous n’avons aucun critère factuel, la palette des montants possibles est très large, de zéro à plusieurs millions d’euros. Si en revanche nous savons que le mariage a duré deux ans et que les revenus des époux sont sensiblement les mêmes ainsi que leurs patrimoines, alors la probabilité de voir un montant élevé être accordé est très faible. Pour une durée de mariage longue et de fortes disparités de revenus et de patrimoine, cette probabilité sera au contraire forte. On ne peut pas connaître exactement à l’avance le montant qui sera décidé, car, par exemple, le travail des avocats sera de nature à le modifier, mais les critères factuels connus le contraignent à être modéré dans la première situation et grand dans la seconde. Ces considérations sont extrêmement banales et tout magistrat ou avocat appréhendera en un instant l’éventail des montants plausibles en consultant le dossier. Toutefois, ce que peut apporter la modélisation, c’est une quantification des possibilités à l’intérieur de cet éventail :  dans l’exemple du dé ci-dessus, il est évident que la probabilité est bien plus élevée d’observer cinq « 6 » d’affilée dans le second cas que dans le premier, mais le modèle permet de calculer exactement combien c’est plus probable. De même, pour l’appréciation du montant d’une prestation compensatoire, les critères ineffables rendront toujours impossible de prédire quelle décision sera prise, mais les critères factuels permettront d'estimer précisément les probabilités que telle ou telle somme soit octroyée.

Application de la modélisation

L’objectif de cette modélisation peut paraître modeste : en résumé, il s’agit, pour un domaine donné du droit, d’identifier les critères factuels sur lesquels se fondent les magistrats pour rendre leurs décisions, puis de calculer la distribution de probabilités des issues possibles, distribution qui reflète le caractère aléatoire de l’influence des critères ineffables. Il est pourtant crucial de comprendre qu’il n’est ni possible ni souhaitable de tenter d’aller plus loin :  ceci signifierait en effet d’introduire dans l’analyse mathématique des aspects humains de la prise de décision, et donc de transférer à une machine la tâche de quantifier une partie des éléments purement aléatoires qui se jouent à l’audience.  En d’autres termes, de lui confier une partie de l’office du juge. Ce ne peut être le rôle d’un modèle mathématique.

Les étapes de la fabrication d’un modèle probabiliste ont été décrites ailleurs (Gayte Papon de Lameigné, Legrand, & Lévy Véhel, 2020) (Belleil & Lévy Véhel, 2020), et nous ne reviendrons pas dessus ici. Mentionnons plutôt, brièvement, quels peuvent être des usages possibles de cette approche.

Tout d’abord, en présentant l’ensemble des décisions prises sur un dossier par une cour donnée (la cour est en effet un critère factuel et non pas ineffable), le modèle offre à un magistrat un miroir des pratiques de sa juridiction : il peut alors mettre en perspective sa décision, et, le cas échéant, s’éloigner des issues typiques en toute connaissance de cause, par exemple en remarquant un biais dans celles-ci qu’il souhaite contribuer à corriger, ou bien en notant que son dossier présente des éléments singuliers non pris en compte par le modèle. Il est important de garder à l’esprit que le modèle ne doit en rien contraindre une décision future, mais simplement l’éclairer. Comme le modèle est en sus capable d’indiquer l’influence de chaque critère sur l’éventail des décisions proposées, le magistrat peut aussi comparer son raisonnement à ceux présentés par la machine pour comprendre pourquoi il s’écarte de la distribution estimée ou au contraire s’y conforme. La modélisation permet de comparer les pratiques des différentes cours et de comprendre pourquoi elles sont éventuellement différentes. Enfin, et c’est l’intérêt principal d’un modèle dans tous les domaines d’application des mathématiques, cette approche permet de faire des « expériences numériques » et de mettre ainsi en évidence des effets qui sont parfois insoupçonnés, parfois connus mais non quantifiés, ainsi que des biais qu’il peut être souhaitable de corriger[1]. Donnons un exemple dans le domaine des clauses de non-concurrence. Un des principaux critères permettant au magistrat d’apprécier la validité d’une telle clause est le montant de sa rémunération : si cette dernière est trop faible, la clause sera souvent considérée comme non valide. Ainsi, pour un ensemble de critères factuels donnés, comme l’étendue géographique de la clause, son étendue temporelle, la convention collective, etc., une rémunération à hauteur de 3 % conduira très probablement la plupart des magistrats à rejeter la validité de la clause, quels que soient les critères ineffables, alors que l’inverse se produira si la rémunération est de 20 %. A priori, on pourrait penser qu’au fur et à mesure que la rémunération augmente entre 3 et 20 %, la probabilité de validité croît régulièrement. Le modèle montre qu’il n’en est rien : on observe plutôt un effet de seuil : en-deçà de, par exemple, 8 %, la plupart des magistrats considèreront la clause non valide, alors qu’au-delà, ce sera l’inverse. Il est aussi notable que le seuil n’est pas fixe, mais dépend des autres critères factuels : il augmentera naturellement par exemple avec l’étendue géographique ou temporelle. Une application intéressante de cet effet est la suivante : au moment de rédiger la clause, l’employeur peut consulter le modèle pour connaître le seuil correspondant à ses autres critères factuels, et régler la rémunération juste au-dessus, afin de s’assurer (toujours dans un sens probabiliste) que, dans le cas où un contentieux naîtrait, la validité de sa clause ne sera généralement pas remise en question.

La possibilité de procéder à de telles expériences numériques est, à notre connaissance, nouvelle en droit, et semblera peut-être peu naturelle dans un premier temps aux juristes. Nous pensons toutefois qu’elles constituent, comme ailleurs, un précieux outil pour interroger les pratiques, les améliorer le cas échéant, et dans tous les cas accéder à une connaissance et une compréhension plus profonde de l’activité des juridictions.

Post-Scriptum

Les arguments développés ici ne doivent pas faire perdre de vue un élément essentiel, à savoir que la modélisation mathématique ne fournit pas des vérités intangibles. Au contraire, comme rappelé ci-dessus, tout modèle est, par nature, « faux », car il n’est qu’une représentation simplifiée de la réalité. En sus de cet aspect, le modèle peut être erroné pour de multiples raisons : les données ont été mal analysées, les hypothèses sur lesquelles il se fonde sont erronées, il est tellement sensible à diverses conditions que la moindre perturbation conduit à des conclusions très différentes, etc. Les mathématiciens se prémunissent contre ces problèmes en utilisant un riche arsenal : dans le cas de modèles probabilistes, démonstration de théorèmes dit « limites » (qui assurent la convergence de la distribution de probabilité estimée vers la distribution réelle quand le nombre de données augmente), étude de la sensibilité du modèle à une variation de ses paramètres, vérification empirique des prédictions. Ainsi, un modèle conçu dans les règles de l’art évitera ce type d’erreurs. Mais cela ne signifie pas pour autant qu’il sera adéquat : la modélisation mathématique n’a pas un statut particulier, et n’est qu’une manière spécifique d’étudier un phénomène, dont il est nécessaire de questionner et critiquer la pertinence (diverses propositions à ce sujet sont évoquées dans (Saltelli, 2019)). En particulier, celle-ci ne saurait être fondée uniquement sur le fait qu’il sera utile uniquement à une certaine catégorie de potentiels usagers, qui pourrait alors l’instrumentaliser dans leur propre intérêt. Il est crucial que le bien général soit pris en compte avant d’adopter une telle approche. Dans le domaine du droit, le questionnement sur la pertinence pourrait à notre avis prendre la forme de « sondages » : une bonne manière de vérifier les effets prédits par le modèle serait de demander régulièrement à un ensemble suffisamment grand de magistrats de statuer sur un panel de cas réels, puis de comparer la distribution de leurs décisions à celle estimée par le modèle. Tant que les deux coïncident à peu près, on peut faire confiance au modèle jusqu’à la prochaine évaluation. Cette solution nous semble représenter une procédure acceptable, en termes de coût, de complexité et de fiabilité, en regard des bénéfices apportés par la modélisation mathématique : en particulier, la possibilité de consulter l’éventail de décisions possibles sur un dossier et d’expérimenter les effets de diverses stratégies sont de nature à contribuer à un meilleur accès au droit pour tous.

Bibliographie

Awad, E., Dsouza, S., Kim, R., Schulz, J., Henrich, J., Shariff, A., . . . Rahwan, I. (2018). The Moral Machine experiment. Nature, 59-64.

Belleil, L., & Lévy Véhel, J. (2020). Sur la modélisation des décisions de justice. L’algorithmisation de la Justice, Larcier.

Danziger, S., Levav, J., & Avnaim-Pesso, L. (2015). « Qu'a mangé le juge à son petit-déjeuner ? » De l'impact des conditions de travail sur la décision de justice. Les Cahiers de la Justice, 579-587.

Dembrower, K., Wahlin, E., Salim, Y. L., Smith, K., Lindholm, P., Eklund, M., & Strand, F. (2020). Effect of artificial intelligence-based triaging of breast cancer screening mammograms on cancer detection and radiologist workload: a retrospective simulation study. The Lancet Digital Health, 468-474.

Edling, C. R. (2002). Mathematics in Sociology. Annual Review of Sociology, 197-220.

Gayte Papon de Lameigné, A., Legrand, P., & Lévy Véhel, J. (2020). La modélisation de l'indemnisation du préjudice corporel. Le Big Data et le Droit, Dalloz.

Gomolin, A., Netchiporouk, E., Gniadecki, R., & Litvinov, I. V. (2020). Artificial Intelligence Applications in Dermatology: Where Do We Stand? Frontiers in Medicine.

Saltelli, A. (2019). A short comment on statistical versus mathematical modelling. Nature Communications.

Smith, S. W., Rapin, J., Li, J., Fleureau, Y., Fennell, W., Walsh, B. M., . . . Gardella, C. (2019). A deep neural network for 12-lead electrocardiogram interpretation outperforms a conventional algorithm, and its physician overread, in the diagnosis of atrial fibrillation. IJC Heart & Vasculature.  


[1] A ce propos, on entend souvent que l’IA introduit des biais : bien que ce soit parfois le cas, c’est assez rare pourvu que le modèle soit soigneusement construit. Ce qui est beaucoup plus fréquent est que le modèle expose crûment des biais déjà présents dans les pratiques mais ignorés ou mal quantifiés. C’est à notre sens une vertu, car cela permet de les corriger.