Les moteurs de recherche avec de l'IA échouent à un test de précision, une étude révèle un taux d'erreur de 60%

Résumé : Une récente étude du Centre Tow pour le Journalisme Numérique révèle que les moteurs de recherche IA présentent un taux d'inexactitude alarmant de 60% en moyenne. Parmi les huit plateformes testées, Grok-3 Search affiche le pire score avec 94% de réponses erronées, tandis que ChatGPT Search, malgré sa volonté de répondre à toutes les requêtes, n'est totalement exact que dans 28% des cas. Les chercheurs ont évalué la capacité de ces outils à identifier correctement des articles d'actualité, leurs sources et URLs, dévoilant que les versions payantes comme Perplexity Pro et Grok 3 Search présentent parfois des taux d'erreur supérieurs à leurs équivalents gratuits, soulevant ainsi des questions cruciales sur leur fiabilité et le manque de transparence des entreprises commercialisant ces services.

Il est évident que les modèles d'IA peuvent manquer de précision. Les hallucinations et la répétition d'informations erronées constituent un problème permanent pour les développeurs. L'utilisation varie tellement selon les cas qu'il est difficile d'établir des pourcentages quantifiables liés à la précision de l'IA. Une équipe de recherche affirme qu'elle dispose désormais de ces chiffres.

Le Tow Center for Digital Journalism a récemment évalué huit moteurs de recherche IA, dont ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search et Copilot. Ils ont testé la précision de chacun d'entre eux et enregistré la fréquence à laquelle les outils refusaient de répondre.

Les chercheurs ont choisi au hasard 200 articles de presse provenant de 20 éditeurs de presse (10 chacun). Ils se sont assurés que chaque article figurait parmi les trois premiers résultats d'une recherche Google en utilisant un extrait cité de l'article. Ils ont ensuite effectué la même requête dans chaque outil de recherche d'IA et ont évalué la précision de la recherche selon qu'elle citait correctement A) l'article, B) l'organisme de presse et C) l'URL.

Les chercheurs ont ensuite classé chaque recherche en fonction de son degré de précision, de « tout à fait correct » à « tout à fait incorrect ». A l'exception des deux versions de Perplexity, les IA n'ont pas obtenu de bons résultats. Globalement, les moteurs de recherche de l'IA sont inexacts dans 60 % des cas. De plus, ces résultats erronés sont renforcés par la « confiance » de l'IA à leur égard.

L'étude est fascinante parce qu'elle confirme de manière quantifiable ce que nous savons depuis quelques années, à savoir que les LLM sont « les arnaqueurs les plus habiles de tous les temps ». Ils affirment avec une autorité totale que ce qu'ils disent est vrai, même lorsque ce n'est pas le cas, parfois au point d'argumenter ou d'inventer d'autres fausses affirmations lorsqu'ils sont confrontés à la réalité.

Dans un article anecdotique de 2023, Ted Gioia (The Honest Broker) a mis en évidence des dizaines de réponses de ChatGPT, montrant que le bot « ment » avec assurance lorsqu'il répond à de nombreuses questions. Si certains exemples étaient des requêtes contradictoires, beaucoup n'étaient que des questions d'ordre général.

« Si je croyais la moitié de ce que j'ai entendu sur ChatGPT, je pourrais le laisser prendre le contrôle de The Honest Broker pendant que je suis assis sur la plage en train de boire des margaritas et de chercher ma salière perdue », a noté M. Gioia avec humour.

Même lorsqu'il admet qu'il s'est trompé, ChatGPT poursuit en donnant des informations inventées de toutes pièces. Le LLM est apparemment programmé pour répondre à tout prix à chaque entrée de l'utilisateur. Les données du chercheur confirment cette hypothèse, notant que ChatGPT Search est le seul outil d'IA à avoir répondu à l'ensemble des 200 requêtes d'articles. Cependant, il n'a obtenu qu'un taux de précision de 28 % et s'est avéré complètement inexact 57 % du temps.

ChatGPT ne constitue même pas le pire du lot. Les deux versions de l'IA Grok de X ont obtenu des résultats médiocres, Grok-3 Search étant inexact à 94 %. Le Copilot de Microsoft n'a pas fait beaucoup mieux si l'on considère qu'il a refusé de répondre à 104 requêtes sur 200. Sur les 96 restantes, seules 16 étaient « complètement correctes », 14 étaient « partiellement correctes » et 66 étaient « complètement incorrectes », soit un taux d'inexactitude d'environ 70 %.

Le plus étonnant dans tout cela, c'est que les entreprises qui conçoivent ces outils ne sont pas transparentes sur ce manque de précision, alors qu'elles font payer au public de 20 à 200 dollars par mois pour avoir accès à leurs derniers modèles d'IA. En outre, Perplexity Pro (20 $/mois) et Grok-3 Search (40 $/mois) ont répondu correctement à un peu plus de requêtes que leurs versions gratuites (Perplexity et Grok-2 Search), mais affichent des taux d'erreur nettement plus élevés (voir ci-dessus). Il s'agit là d'une véritable arnaque.

Cependant, tout le monde n'est pas d'accord. Lance Ulanoff, de TechRadar, a déclaré qu'il n'utiliserait peut-être plus jamais Google après avoir essayé ChatGPT Search. Il décrit l'outil comme étant rapide, conscient et précis, avec une interface propre et sans publicité.

N'hésitez pas à lire tous les détails dans l'article du Tow Center publié dans la Columbia Journalism Review, et à nous faire part de votre avis.

traduction de :

https://www.techspot.com/news/107101-new-study-finds-ai-search-tools-60-percent.html

Les moteurs de recherche avec de l'IA échouent à un test de précision, une étude révèle un taux d'erreur de 60%

Enregistrer un commentaire

NextDNS ajoute une option permettant de contourner la vérification de l'âge sur les sites web