
Les benchmarks LLM
Les benchmarks LLM sont des cadres normalisés conçus pour évaluer la performance des grands modèles de langage (LLM). Ils se composent d’échantillons de données, d’un ensemble de questions ou de tâches permettant de tester les compétences spécifiques des LLM, d’indicateurs d’évaluation des performances et d’un mécanisme de notation.
ÉMISSION – Évaluation des IA : souffler dans l’algotest
Jeudi 11 septembre 2025 FRANCE CULTURE
Depuis quelques années, les intelligences artificielles s’immiscent dans le quotidien des populations occidentales. Les prouesses des agents conversationnels fascinent mais comment évaluer leurs performances ? C’est le rôle qu’endossent désormais les “benchmarks”.
Avec
- Alban Leveau-Vallier, docteur en philosophie, chargé de cours à Sciences Po Paris
- Clémentine Fourrier, chercheuse en IA à HuggingFace, spécialiste de l’évaluation des grands modèles de langue
Les prouesses des IA génératives- ChatGpt, Claude, DeepSeek, Grok ou Gemini, provoquent toutes chez nous la stupéfaction. Mais comment leur « intelligence » est-elle évaluée ?
Historiquement, le développement des IA s’inscrit dans une volonté d’imiter les compétences du cerveau humain. Pour mesurer cette proximité avec l’intelligence humaine, on utilise désormais des « benchmarks », des tests standardisés pour comparer les performances des LLM (des grands modèles de langage). C’est un champ de bataille et les enjeux financiers sont de taille. Ces évaluations tiennent un rôle crucial dans l’orientation de la recherche. Le dernier né de ces benchmarks, élaboré cet hiver, porte un nom évocateur : « le dernier examen de l’humanité ». Comment tester les capacités de raisonnement analytique d’une IA ?
Tester les IA : de Turing au “dernier test de l’humanité”
ARC-AGI The General Intelligence Benchmark
Vidéo > Comment parler intelligemment d’intelligence ? (Monsieur Phi)
IA : le quiz ultime (Epsiloon, mars 2025)
Site Internet « Le dernier examen de l’humanité »
OpenAI obtient des résultats comparables à ceux d’un humain sur un test évaluant l’« intelligence générale » – décryptage (The Conversation)
Intelligence artificielle et humaine sont-elles comparables ? (Polytechnique Insight)
IA : l’intuition et la création à l’épreuve des algorithmes par Alban Leveau-Vallier (Champ Vallon)
De la mesure de l’intelligence par François Chollet
LIEN VERS L’ÉMISSION