Les agents IA shopping échouent dans 89 % des cas selon une étude scientifique

fiabilité assistants d’achat IA @clesdudigitalUne vaste étude scientifique académique expose d’importantes critiques sur la fiabilité des assistants d’achat pilotés par IA. Même les modèles les plus avancés peinent à identifier les bons produits, génèrent des recommandations parfois dangereuses et tombent dans les pièges marketing. Un électrochoc pour le secteur.

 

Les assistants d’achat alimentés par l’intelligence artificielle promettent de révolutionner l’expérience client. OpenAI vient d’ailleurs de lancer ChatGPT Shopping Research, permettant de générer des guides d’achat comparatifs à partir de données web. Mais une étude scientifique menée par une équipe pluridisciplinaire de chercheurs (Université de Chicago, Université du Colorado, Université de Shenzhen – Chine, ByteDance Research…) vient doucher cet enthousiasme. Publiée fin novembre 2025 en open access, sous le titre «ShoppingComp: Are LLMs Really Ready for Your Shopping Cart?», elle révèle que même les IA les plus performantes échouent massivement face aux exigences concrètes de l’achat en ligne.

Un benchmark construit sur la complexité réelle

Pour mesurer objectivement les capacités des grands modèles de langage (LLM) dans le contexte e-commerce, les chercheurs ont construit ShoppingComp, un benchmark de 120 tâches réparties en 1 026 scénarios distincts. La particularité de cet outil : il s’appuie exclusivement sur des produits réels, vérifiables, avec des preuves accessibles (URLs, images, spécifications techniques).

L’élaboration a mobilisé 35 experts métiers durant plus de 1 000 heures, complétés par 15 annotateurs (3 000 heures de travail). Chaque question reflète des besoins authentiques de consommateurs, déclinés en critères précis — ce que les chercheurs appellent des «rubrics». Exemple concret : pour une demande de cuiseur électrique familial, les rubrics détaillent par exemple la capacité nécessaire (3-4 litres pour une famille), les fonctions attendues (cuisson vapeur, grill), les certifications sanitaires requises ou encore les contraintes d’espace (cuisine de 3 m²).

Le benchmark couvre dix catégories de produits selon la taxonomie Amazon, avec une surreprésentation volontaire des segments complexes : électroménager (37 %), électronique (18 %), maison et cuisine (16 %). Ces catégories impliquent des décisions multi-attributs où le prix n’est qu’un facteur parmi d’autres.

Des performances alarmantes, même pour GPT-5

Les résultats sont sans appel. Sur la tâche de recherche de produits, GPT-5 (le modèle le plus récent d’OpenAI) atteint seulement 11,22 % de F1-score en termes de précision et rappel combinés. Gemini 2,5 Flash de Google descend à 3,92 %. Pour comparaison, les experts humains atteignent 25,73 %.

Concrètement, cela signifie que lorsqu’un consommateur exprime un besoin complexe ; par exemple, une souris gaming adaptée à une prise en main spécifique, avec des composants techniques définis (capteur PAW3395+, MCU nRF52840+) et des contraintes ergonomiques (moins de 40 mm de hauteur), les IA échouent à identifier les rares biens correspondants parmi des dizaines de candidats.

L’étude révèle trois problèmes structurels. D’abord, un taux de résolution catastrophique : les modèles trouvent peu de produits pertinents, souvent moins de 2 % des réponses possibles. Ensuite, une stratégie de recherche défaillante : là où un expert humain enchaîne des requêtes ciblées pour vérifier des contraintes précises, les IA abandonnent prématurément ou se contentent de recherches génériques. Enfin, une incapacité à distinguer attributs réels et affirmations marketing.

La génération de rapports : fluide, mais peu fiable

Sur l’aspect «rapport d’expertise», les performances s’améliorent. GPT-5 obtient 90,3 % de validité dans ses raisonnements (Rationale Validity), proche des 90,9 % des experts. Les modèles parviennent aussi à couvrir correctement les différents scénarios d’usage : GPT-5 atteint 91,73 % de F1-score sur cette dimension, Gemini 2.5 Pro 85,13 %.

Mais cette apparente réussite masque une réalité préoccupante. Les IA génèrent des textes structurés et convaincants sans avoir identifié les bons produits en amont. Elles excellent à générer du contenu plausible, mais échouent sur l’essentiel : la correspondance entre besoin et bien recommandé. Le taux de satisfaction produit (SoP), qui mesure si les articles proposés remplissent effectivement les critères, plafonne à 50,13 % pour GPT-5, contre 60,24 % pour les humains.

Les chercheurs notent une dissociation troublante : un modèle peut obtenir 90 % de validité dans ses explications tout en ne proposant que 11 % de produits pertinents. La forme prime sur le fond, un risque majeur pour la confiance client.

Le mur de la sécurité : 65 % d’échec sur les pièges critiques

L’innovation majeure du benchmark ShoppingComp réside dans l’introduction de 26 questions «pièges sécurité». Les experts ont volontairement intégré des demandes comportant des risques réels : installation dangereuse d’appareils à gaz, usage de contenants métalliques au micro-ondes, produits cosmétiques potentiellement allergènes.

Les résultats sont alarmants. Seul GPT-5 dépasse la barre symbolique des 50 %, avec 65,38 % de taux de réussite. Cela signifie qu’une fois sur trois, même le meilleur modèle actuel ne détecte pas le danger et produit une recommandation potentiellement nocive. Les autres modèles font bien pire : GPT-4.o n’atteint que 11,54 %, Claude 4 Opus 23,08 %.

Exemple concret documenté dans l’étude : face à une demande de micro-ondes compatible avec «des plateaux en verre et des plats de cuisson en acier inoxydable», plusieurs IA recommandent des appareils adaptés… sans mentionner l’interdiction absolue d’introduire du métal dans un four micro-ondes. GPT-5 précise que «le métal ne peut être utilisé qu’en modes four ou grill, pas en micro-ondes», mais d’autres modèles valident simplement l’usage sans restriction.

Pour un chauffe-eau à évacuation forcée devant être installé dans une maison de Miami, certaines IA omettent de signaler que ce type d’équipement ne peut être placé dans une salle de bain pour des raisons de sécurité liées à la combustion et à la consommation d’oxygène.

Ces erreurs exposent les enseignes à des risques accidentels, juridiques et réputationnels considérables. Un client blessé suite à une recommandation erronée pourrait engager la responsabilité du distributeur ayant déployé l’assistant virtuel.

fiabilité assistants d’achat IA @clesdudigitalCoûts computationnels et efficacité des recherches

L’étude révèle également des écarts massifs dans l’utilisation des ressources. Pour résoudre une requête complexe, GPT-5 passe de 5 400 tokens (sans outils de recherche web) à 47 100 tokens (avec outils), soit près de 9 fois plus. Cette expansion s’explique par une stratégie «breadth-first» (largeur d’abord) : le modèle multiplie les recherches ciblées pour vérifier chaque contrainte.

À l’inverse, Gemini 2.5 Pro utilise une approche «precision-first» : une seule requête large, suivie d’une extraction intensive d’informations depuis une page produit Amazon. Résultat : seulement 7 800 tokens au total, mais un taux de résolution inférieur.

GPT-5 effectue en moyenne 20,42 appels aux outils de recherche par tâche, contre 2,50 pour Gemini 2.5 Pro. Cette différence illustre deux philosophies : l’exploration exhaustive versus l’exploitation concentrée. Aucune des deux n’atteint le niveau humain, qui combine recherche large et validation croisée des sources.

Le temps humain reste significatif : les experts consacrent en moyenne 30 à 60 minutes par question complexe, les annotateurs jusqu’à 2 heures. Ces durées incluent recherche web, vérification des spécifications et cross-checking des sources. Un point crucial pour évaluer le potentiel de réduction des coûts par l’IA.

Produits DeepResearch : mieux, mais insuffisant

L’étude a également testé deux systèmes commerciaux end-to-end : ChatGPT DeepResearch (OpenAI) et Gemini DeepResearch (Google). Ces produits, annoncés comme spécialisés dans la recherche approfondie, obtiennent des résultats mitigés.

ChatGPT DeepResearch atteint 18,17 % de F1-score en recherche produit, nettement mieux que GPT-5 seul (11,22 %), mais toujours trois fois moins qu’un expert. Sa couverture de scénarios grimpe à 92,67 % et son taux de satisfaction produit à 62,06 %, le meilleur score tous modèles confondus, légèrement supérieur aux humains (60,24 %).

En revanche, sa validité de raisonnement chute à 83,33 %, suggérant plus d’erreurs factuelles ou de raccourcis logiques. Sur les pièges sécurité, il plafonne à 53,85 %, en deçà de GPT-5 seul.

Gemini DeepResearch présente un profil similaire : 9,58 % de F1-score en recherche, 86,93 % de couverture, mais seulement 45,46 % de satisfaction produit. Les chercheurs notent une tendance aux « sur-promesses » : rapports convaincants avec recommandations inadéquates.

Biais catégoriels et questions méthodologiques

Le benchmark présente une distribution non uniforme : 37 % des questions concernent l’électroménager. Les auteurs justifient ce choix par la complexité intrinsèque de ces catégories, qui impliquent davantage de contraintes croisées (performance, efficacité énergétique, installation, sécurité).

Cette concentration pourrait néanmoins limiter la généralisation des résultats. Dans un secteur comme la mode par exemple, où les critères sont plus subjectifs et les risques sécuritaires moindres, les performances des IA pourraient être différents.

L’évaluation repose sur un système «LLM-as-a-Judge» (LLM comme juge) : les réponses sont notées par d’autres modèles (principalement Gemini 2,5 Pro avec accès à Google Search). Ce verifier (vérificateur) atteint 81 % d’accord avec les humains pour la vérification produit, 75,6 % pour l’évaluation des rapports. Un écart non négligeable qui introduit du bruit dans les mesures.

Les auteurs ont constitué un jeu de test spécifique pour valider la fiabilité de ces «juges» automatiques, mais la circularité reste questionnable : peut-on évaluer objectivement des IA via d’autres IA ? L’étude montre par ailleurs que Gemini 2.5 Pro, utilisé comme juge, ne favorise pas systématiquement ses propres productions ; il attribue même un meilleur score à GPT-5.

Implications pour les retailers

Pour les enseignes e-commerce, plusieurs enseignements concrets émergent. D’abord, déployer un assistant shopping IA sans validation humaine systématique expose à des risques juridiques et réputationnels. Les 35 % d’échecs sur les critères sécurité de GPT-5 sont difficilement acceptables en production.

Ensuite, la génération de contenus convaincants, mais factuellement erronés peut éroder la confiance client. Les retours produits augmentent lorsque l’article ne correspond pas à la description ou aux attentes créées par l’IA. Le coût associé (logistique inverse, service client, insatisfaction) peut annuler les gains de productivité.

Troisièmement, les IA actuelles peinent sur les requêtes multi-contraintes, qui représentent pourtant une part croissante des recherches (34 % selon certaines études sectorielles). Un client cherchant «une machine à laver 8 kg, classe A, silencieuse (<40 dB), compatible avec un espace encastrable de 85 cm de hauteur» ne sera pas satisfait par une sélection approximative.

Les systèmes DeepResearch offrent une piste intéressante : leur approche systématique améliore la couverture et le rappel. Mais leur déploiement implique des coûts computationnels élevés (20+ appels API par requête) et des temps de réponse incompatibles avec l’expérience instantanée attendue en ligne.

Perspectives et solutions hybrides

Les chercheurs identifient trois axes d’amélioration. Premièrement, développer des «rubrics» structurées en amont : décomposer chaque besoin client en critères atomiques vérifiables facilite la recherche et l’évaluation. Plusieurs retailers français expérimentent déjà cette approche avec des arbres de décision guidés.

Deuxièmement, instaurer des garde-fous sécuritaires : listes de vérification obligatoires, refus conservateurs face à l’incertitude, contraintes par catégories de produits (électricité, gaz, chimie). Une approche «safety-first» plutôt que «helpful-first».

Troisièmement, privilégier les architectures hybrides : l’IA pour la recherche large et la structuration, l’humain pour la validation finale et les cas limites. Certaines plateformes testent des workflows où l’IA présente trois propositions validées par un expert avant diffusion.

L’étude suggère aussi l’intégration de bases de connaissances métiers : spécifications normalisées, certifications obligatoires, incompatibilités connues. Ces données structurées, absentes des corpus d’entraînement généraux, amélioreraient la précision.

À court terme, les retailers devront arbitrer entre innovation et prudence. Réserver les assistants IA aux catégories à faible risque (livres, vêtements standards) tout en maintenant l’accompagnement humain sur les segments complexes ou sensibles semble être une voie médiane réaliste. L’écart 89-75% entre IA et humains sur les métriques clés rappelle une vérité souvent oubliée : les promesses marketing des éditeurs technologiques doivent être confrontées aux tests terrain.

Je souhaite lire les prochains articles des Clés du Digital, JE M’INSCRIS A LA NEWSLETTER

Je suis une Agence de RP  👉 Je commande le PDF de l'article

 

Je suis abonné(e) Premium à l’année, Les Clés du Digital m’offrent des PDF sans frais. Pour les commander c’est ici.

Les informations recueillies font l’objet d’un traitement informatique destiné à la gestion des abonnements. Ce fichier a été déclaré à la CNIL sous le N°2093633v0. Conformément à la loi « informatique et libertés » du 6 janvier 1978, vous bénéficiez d’un droit d’accès et de rectification aux informations qui vous concernent. Si vous souhaitez exercer ce droit et obtenir communication des informations vous concernant, veuillez vous adresser à Les Clés Du Digital SAS – 38 rue des Epinettes 75017 Paris – Tél : +33 9 83 94 57 24 – E-mail : abonnements@lesclesdudigital.fr

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*