COMMENT ÉVALUER LES INTELLIGENCES ARTIFICIELLES

Les benchmarks LLM

Les benchmarks LLM sont des cadres normalisés conçus pour évaluer la performance des grands modèles de langage (LLM). Ils se composent d’échantillons de données, d’un ensemble de questions ou de tâches permettant de tester les compétences spécifiques des LLM, d’indicateurs d’évaluation des performances et d’un mécanisme de notation.

ÉMISSION – Évaluation des IA : souffler dans l’algotest

Jeudi 11 septembre 2025 FRANCE CULTURE

Depuis quelques années, les intelligences artificielles s’immiscent dans le quotidien des populations occidentales. Les prouesses des agents conversationnels fascinent mais comment évaluer leurs performances ? C’est le rôle qu’endossent désormais les “benchmarks”.

Avec

Alban Leveau-Vallier, docteur en philosophie, chargé de cours à Sciences Po Paris
Clémentine Fourrier, chercheuse en IA à HuggingFace, spécialiste de l’évaluation des grands modèles de langue

Les prouesses des IA génératives- ChatGpt, Claude, DeepSeek, Grok ou Gemini, provoquent toutes chez nous la stupéfaction. Mais comment leur « intelligence » est-elle évaluée ?

Historiquement, le développement des IA s’inscrit dans une volonté d’imiter les compétences du cerveau humain. Pour mesurer cette proximité avec l’intelligence humaine, on utilise désormais des « benchmarks », des tests standardisés pour comparer les performances des LLM (des grands modèles de langage). C’est un champ de bataille et les enjeux financiers sont de taille. Ces évaluations tiennent un rôle crucial dans l’orientation de la recherche. Le dernier né de ces benchmarks, élaboré cet hiver, porte un nom évocateur : « le dernier examen de l’humanité ». Comment tester les capacités de raisonnement analytique d’une IA ?