Une étude récente menée par des chercheurs de l'Université de Stanford met en lumière les défis persistants auxquels sont confrontés les outils d'intelligence artificielle (IA) utilisés dans la recherche juridique. Malgré l'émergence de ces outils, basés sur les grands modèles de langage (LLM) et les systèmes de recherche d'informations, les résultats de cette étude révèlent qu'ils restent sujets à des hallucinations, produisant des résultats incorrects dans un pourcentage significatif de cas.
Cette étude, présentée comme la première "évaluation empirique préenregistrée des outils de recherche juridique pilotés par l'IA", a testé les performances de plusieurs produits proposés par des fournisseurs majeurs, tels que Lexis+ AI de LexisNexis, Westlaw AI-Assisted Research et Ask Practical Law AI de Thomson Reuters. Les chercheurs ont comparé ces outils à GPT-4 d'OpenAI sur plus de 200 requêtes juridiques construites manuellement.
Les résultats ont révélé que, bien que les outils juridiques AI utilisent des techniques de génération assistée par récupération (RAG)* pour atténuer les hallucinations, ces outils hallucinent encore à un taux alarmant. Entre 17 et 33% des requêtes ont produit des résultats erronés, malgré les améliorations apportées par le RAG par rapport à GPT-4 sans RAG.
Les chercheurs ont identifié plusieurs défis majeurs auxquels sont confrontés ces outils d'IA dans le domaine juridique. Tout d'abord, les requêtes juridiques sont souvent complexes et ne peuvent pas être réduites à une simple question et réponse. La nature des cas juridiques peut nécessiter la récupération d'informations provenant de multiples sources et documents dans le temps, ce qui rend la tâche des outils d'IA encore plus difficile.
De plus, définir ce qui constitue une hallucination dans le contexte juridique peut être complexe. Les chercheurs considèrent qu'une réponse est une hallucination si elle est incorrecte ou mal fondée, ce qui signifie que les faits sont corrects mais ne s'appliquent pas dans le contexte de l'affaire juridique en discussion. Cette distinction subtile nécessite une analyse approfondie et peut être difficile à automatiser pour les outils d'IA.
Une autre difficulté réside dans la pertinence des documents récupérés par les systèmes de RAG. Contrairement aux systèmes basés sur la similarité textuelle, la pertinence des documents en droit ne repose pas uniquement sur le texte lui-même. Récupérer des documents qui semblent textuellement pertinents mais qui sont en réalité non pertinents peut avoir un impact négatif sur la performance du système.
Ces voix critiques s’ajoutent aux affaires récentes d’avocats ayant eu recours à l’IA dans leurs plaidoiries. De simples erreurs, excès de confiance, voire des manipulations de l’IA pour citer une jurisprudence fictive ont régulièrement défrayé la chronique ces derniers mois outre atlantique., confirmant la capacité de Bard comme ChatGPT à fabriquer des affaires, sur commande ou à l’insu de leurs utilisateurs
Malgré ces défis, les chercheurs de Stanford reconnaissent que les outils d'IA pour la recherche juridique peuvent apporter une valeur ajoutée par rapport aux méthodes traditionnelles. Ils peuvent aider les avocats à accéder plus rapidement à des informations pertinentes et à analyser de vastes ensembles de données juridiques. Cependant, il est important de reconnaître leurs limites et de les utiliser avec discernement.
Dans une déclaration à VentureBeat, Daniel E. Ho, professeur de droit à Stanford et co-auteur de l'étude, souligne l'importance d'une plus grande transparence et d'un benchmarking dans l'IA juridique. Il souligne que l'industrie de la legal tech doit être plus ouverte quant à la performance réelle de ses produits, afin d'éviter des conséquences néfastes pour les avocats et leurs clients.
En réponse à cette étude, les fournisseurs d'outils d'IA juridique ont exprimé des points de vue variés. Certains ont souligné les efforts déployés pour améliorer la qualité de leurs produits et ont proposé des solutions pour relever les défis identifiés par l'étude. D'autres ont remis en question les conclusions de l'étude et ont souligné les limitations de la méthodologie utilisée.
Une approche collaborative et transparente entre chercheurs et grands acteurs legaltech reste essentielle pour relever les défis actuels et améliorer la qualité des outils d'IA dans le domaine juridique. Un débat sur les performances alimenté par de nombreuses autres sources : une étude menée par la Cour des comptes française fin 2023 , comme rapporté dans cet article de CIO Online, soulignait également les limitations des technologies d'IA, en particulier dans le domaine de la détection de la fraude fiscale.
Le marché de la legal tech est estimé par Gartner à plus de 50 millards de dollars à horizon 2027. Plus de 7 directeurs juridiques sur 10 utiliseraient déjà un ou plusieurs outils, dont la moitié… quotidiennement,
(*) Les systèmes de RAG, ou génération assistée par récupération, sont une approche dans le domaine de l'intelligence artificielle où les modèles de langage sont alimentés par des informations récupérées à partir d'une base de connaissances plutôt que de simplement s'appuyer sur les données qu'ils ont apprises pendant leur entraînement. Dans le contexte de la recherche juridique, cela signifie que les outils d'IA récupèrent d'abord des documents pertinents à partir d'une base de données juridiques, puis utilisent ces documents comme contexte pour générer des réponses aux requêtes des utilisateurs. Cette approche vise à réduire les "hallucinations", c'est-à-dire les réponses incorrectes ou mal fondées, en fournissant au modèle plus d'informations contextuelles pour guider sa génération de réponses.
Photo ©AdobeStock