Aller au contenu principal

COMMENT ÉVALUER LES INTELLIGENCES ARTIFICIELLES

Les benchmarks LLM

Les benchmarks LLM sont des cadres normalisés conçus pour évaluer la performance des grands modèles de langage (LLM). Ils se composent d’échantillons de données, d’un ensemble de questions ou de tâches permettant de tester les compétences spécifiques des LLM, d’indicateurs d’évaluation des performances et d’un mécanisme de notation.

ÉMISSION – Évaluation des IA : souffler dans l’algotest

Jeudi 11 septembre 2025 FRANCE CULTURE

Depuis quelques années, les intelligences artificielles s’immiscent dans le quotidien des populations occidentales. Les prouesses des agents conversationnels fascinent mais comment évaluer leurs performances ? C’est le rôle qu’endossent désormais les “benchmarks”.

Avec

  • Alban Leveau-Vallier, docteur en philosophie, chargé de cours à Sciences Po Paris
  • Clémentine Fourrier, chercheuse en IA à HuggingFace, spécialiste de l’évaluation des grands modèles de langue

Les prouesses des IA génératives- ChatGpt, Claude, DeepSeek, Grok ou Gemini, provoquent toutes chez nous la stupéfaction. Mais comment leur « intelligence » est-elle évaluée ?

Historiquement, le développement des IA s’inscrit dans une volonté d’imiter les compétences du cerveau humain. Pour mesurer cette proximité avec l’intelligence humaine, on utilise désormais des « benchmarks », des tests standardisés pour comparer les performances des LLM (des grands modèles de langage). C’est un champ de bataille et les enjeux financiers sont de taille. Ces évaluations tiennent un rôle crucial dans l’orientation de la recherche. Le dernier né de ces benchmarks, élaboré cet hiver, porte un nom évocateur : « le dernier examen de l’humanité ». Comment tester les capacités de raisonnement analytique d’une IA ?

Tester les IA : de Turing au “dernier test de l’humanité”

ARC-AGI The General Intelligence Benchmark

Vidéo >  Comment parler intelligemment d’intelligence ?  (Monsieur Phi)

IA : le quiz ultime (Epsiloon, mars 2025)

Site Internet « Le dernier examen de l’humanité »

FrontierMath : un outil de référence pour évaluer le raisonnement mathématique avancé dans le domaine de l’IA (Arxiv)

OpenAI obtient des résultats comparables à ceux d’un humain sur un test évaluant l’« intelligence générale » – décryptage (The Conversation)

Intelligence artificielle et humaine sont-elles comparables ?  (Polytechnique Insight)

IA : l’intuition et la création à l’épreuve des algorithmes par Alban Leveau-Vallier (Champ Vallon)

De la mesure de l’intelligence par François Chollet

LIEN VERS L’ÉMISSION

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.