SimpleQA, la nouvelle référence d'OpenAI, évalue l'exactitude factuelle des modèles d'IA

L’IA a souvent des hallucinations.

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale Je découvre le livre blanc

Notes clés

  • Le benchmark SimpleQA d'OpenAI teste la précision des modèles d'IA sur des questions courtes et factuelles.
  • L'ensemble de données comprend 4,326 XNUMX questions, avec plusieurs formateurs d'IA vérifiant les réponses.
  • Les résultats montrent que les modèles plus grands fonctionnent mieux, mais des améliorations supplémentaires sont nécessaires pour une précision fiable.
OpenAI, ChatGPT

OpenAI vient d'annoncer un nouveau benchmark appelé SimpleQA, conçu pour évaluer l'exactitude factuelle des modèles d'IA.

L'entreprise soutenue par Microsoft annoncé SimpleQA mesure la capacité des modèles à répondre à des questions brèves et factuelles. Il se concentre sur des requêtes concises avec des réponses claires et vérifiables, simplifiant ainsi l'évaluation de la factualité.

« La factualité est un sujet compliqué car elle est difficile à mesurer. Évaluer la factualité de toute affirmation arbitraire donnée peut être difficile, et les modèles de langage génèrent souvent de longues complétions contenant des dizaines d'affirmations factuelles », explique OpenAI dans le document de page 14 de la référence.

L'ensemble de données contient 4,326 XNUMX questions sur divers sujets, dont les réponses ont été vérifiées par plusieurs formateurs en IA pour en vérifier l'exactitude. Les premiers résultats montrent que les modèles de plus grande taille sont plus performants, mais il reste encore beaucoup à faire pour améliorer leur capacité à donner des réponses claires et correctes.

Lorsqu'une IA « hallucine », cela signifie qu'elle génère des informations fausses ou inexactes qui ne reposent sur aucune donnée réelle ou preuve factuelle. En effet, l'IA ne comprend pas toujours parfaitement les faits et comble parfois les lacunes avec des suppositions ou des informations incorrectes, en particulier lorsqu'elle manque de données fiables pour étayer sa réponse ou qu'elle dispose d'une date limite de connaissance.

C'est essentiellement ce qui se passe avec beaucoup de ridicule qu'apporte une IA, comme dans Présentation de l'IA de Google, ChatGPT, ou même copilote parfois. Et c'est pourquoi SimpleQA est publié, pour s'assurer que de telles hallucinations ne se produiront pas et que toutes les réponses de l'IA sont factuelles.

Forum des utilisateurs

Messages 0