🔬⚖️🤖 CRFPiA - Corpus de Recherche et Feedback sur les Performances des IAs

Sommaire

Présentation du projet
Résultats détaillés
Graphiques de performance
Méthodologie
Objectifs et bénéfices
Valeur scientifique
Transparence et ouverture

Présentation du projet {#presentation-du-projet}

Le projet CRFPiA vise à évaluer les grands modèles d'IA généralistes sur les épreuves du CRFPA (examen d'accès à la profession d'avocat).

Concrètement, chaque année en septembre, au moment où les candidats humains passent les épreuves d'admissibilité, nous soumettons les sujets officiels aux IAs à l'état de l'art.

Les réponses aux épreuves de la session 2024 sont en cours de génération, les réponses à celle de la session 2023 viendront ensuite avec les modèles à l'état de l'art en septembre 2023.

Notre protocole est simple :

Utilisation de modèles d'IA généralistes « de frontière » disponibles publiquement.
Test des sujets dès leur publication officielle.
Utilisation de techniques de prompting basiques à intermédiaires.
Pas d'accès à ce stade à des bases de connaissance externes (pas d'accès aux différents codes contrairement aux candidats dans les conditions prévues par les épreuves).
Pas de modèles spécialisés, d'optimisation poussée, de fine-tuning ou de RAG.

Cette approche présente plusieurs avantages :

Les sujets sont toujours nouveaux et donc absents des corpora d'entraînement des modèles.
Les épreuves sont des exercices de mise en situation, calibrés pour l'accès à une profession réglementée et donc proches de tâches juridiques réelles.
L'évaluation porte sur des compétences juridiques précises et documentées.
Le format annuel permet de suivre l'évolution des performances des grands modèles d'IA dans le temps, et de mesurer d'année en année leur progression dans le domaine.

Limites

Pour une comparaison équitable, les prompts sont partagés entre les modèles, ce qui peut limiter la performance.
Pour l'instant, une seule copie est générée pour chaque modèle, une meilleure pratique serait de sélectionner la meilleure sur 3 ou 5 par exemple, ce qui permettrait aussi de mesurer la variabilité des résultats.

CRFPiA ne vise pas à développer des IAs spécialisées pour l'examen du CRFPA, mais plutôt à utiliser cet examen comme un « reality check » permettant d'évaluer où en sont les modèles généralistes sur des tâches juridiques complexes.

L'objectif est de permettre aux professionnels du droit et aux acteurs de l'IA de disposer d'un aperçu concret et actualisé des capacités réelles de ces technologies, tant du côté de leurs forces que de leurs faiblesses.

🚨 Important 🚨

Les résultats de CRFPiA ne doivent pas être interprétés comme des comparaisons entre les performances humaines et celles des IAs. Les résultats sont présentés dans le but de fournir des informations objectives sur les capacités actuelles des grands modèles d'IA dans le domaine juridique.
Les textes présentés ici doivent être considérés comme des expérimentations et non comme des références juridiques, ils présentent des erreurs qu'il s'agit justement d'évaluer.
De manière générale, demander des conseils juridiques à une IA reste extrêmement risqué à ce stade, les résultats obtenus ne doivent en aucun cas se substituer aux conseils d'un avocat humain.

Résultats détaillés

⬇️Les copies et les rapports détaillés sont disponibles via les icônes après chaque résultat.⬇️

2024

Droit Civil

Modèle	Éditeur	Date de sortie	Prompt simple	Prompt structuré	Prompt structuré avec méthodologie
Meta-Llama/Llama-3.1-70B-Instruct	Meta	2024-07-23	-	-	49.17% 📝 📊 📄
O1-Preview-2024-09-12	Openai	2024-09-12	-	75.24% 📝 📊 📄	-

Droit Fiscal

Modèle	Éditeur	Date de sortie	Prompt simple	Prompt structuré	Prompt structuré avec méthodologie
O1-Preview-2024-09-12	Openai	2024-09-12	-	100.00% 📝 📊 📄	-

Graphiques de performance

Méthodologie {#methodologie}

Le projet se distingue par sa simplicité volontaire :

Utilisation exclusive de modèles généralistes accessibles au public.
Stratégies de prompting élémentaires à moyennement complexes.
Pas d'optimisation poussée ni de fine-tuning. Cette approche minimaliste garantit la reproductibilité des tests et permet d'évaluer les capacités réelles des modèles sans artifices. Le score de chaque copie est attribué automatiquement en la comparant avec une correction humaine de référence. Il doit être pris de manière relative, pour comparer les modèles entre eux, plutôt que comme uen note absolue.

Stratégies de prompt

Trois approches différentes sont utilisées pour évaluer les modèles :

Prompt minimal : Une approche simple et directe qui demande au modèle d'agir comme un expert juridique.
Prompt structuré : Une version plus structurée qui guide le modèle avec le format SOCA (Situation, Objectif, Contraintes, Actions) pour une meilleure organisation de la réponse.
Prompt structuré avec méthodologie : La stratégie la plus complète, qui ajoute au prompt structuré une méthodologie détaillée des exercices proposés au CRFPA.

Objectifs et bénéfices

Pour les professionnels du droit

Une vision claire et objective des capacités actuelles des IAs en droit français.
Un suivi annuel de l'évolution de ces capacités.
Une base factuelle pour anticiper les transformations de leurs métiers.

Pour les acteurs de l'IA

Un terrain d'évaluation exigeant en conditions réelles.
Des retours précis sur les forces et faiblesses des modèles.
Une contribution à la compréhension des capacités de raisonnement juridique des IAs sur des sujets absents des corpora d'entraînement.

Pour la formation juridique

Identification des compétences que les IAs maîtrisent le mieux/le moins bien.
Aide à l'évolution des programmes de formation.
Guide pour le développement des compétences distinctives des juristes humains.
Support de réflexion sur l'intégration pertinente de l'IA dans l'enseignement.

Valeur scientifique

Le projet apporte plusieurs contributions significatives :

Création d'une série temporelle sur l'évolution des capacités des IAs en droit français
Développement d'une méthodologie d'évaluation transposable à d'autres domaines techniques
Production de données précieuses sur les mécanismes de raisonnement juridique des IAs
Contribution au débat sur l'usage de l'IA dans le domaine juridique

Transparence et ouverture

Le projet s'engage dans une démarche transparente :

Publication détaillée des méthodologies utilisées
Documentation complète des prompts et stratégies
Partage des résultats et analyses
Reproductibilité garantie des expérimentations