IA intentionnelle : pourquoi la plupart des IA conversationnelles échouent et comment y remédier

9

La plupart des projets d’IA d’entreprise échouent non pas à cause de modèles faibles, mais à cause d’une architecture défectueuse. Les organisations se précipitent pour déployer des solutions de recherche basées sur le Large Language Model (LLM), mais une incompréhension fondamentale de la manière dont les utilisateurs interagissent réellement avec ces systèmes fait augmenter les coûts et frustre les clients. Une étude récente de Coveo a révélé que 72 % des requêtes de recherche d’entreprise échouent dès la première tentative, et Gartner prédit que de nombreux déploiements ne répondront pas aux attentes. Le problème central ? Un recours à la génération augmentée par récupération (RAG) sans d’abord comprendre ce que veut l’utilisateur.

Le problème avec le RAG standard : intention ignorée

L’approche RAG standard (intégrer une requête, récupérer un contenu similaire, puis le transmettre à un LLM) fonctionne dans les démos, mais s’effondre dans les applications réelles. Cela est dû à trois échecs clés : l’écart d’intention, l’inondation de contexte et l’angle mort de fraîcheur.

Le RAG standard traite l’intention comme si c’était la même chose que le contexte, mais ce n’est pas le cas. Par exemple, un utilisateur tapant « annuler » peut signifier annuler un service, une commande ou un rendez-vous. Sans s’en rendre compte, les systèmes renvoient souvent des documents non pertinents, ce qui entraîne de la frustration.

Les entreprises regorgent de données : catalogues de produits, articles d’assistance, politiques, etc. Les modèles RAG récupèrent toutes les sources sans discernement, enfouissant les informations utiles sous le bruit. Si un client demande comment activer un nouveau téléphone, il n’a pas besoin de FAQ sur la facturation.

Enfin, les plongements vectoriels sont aveugles au temps. La promotion du dernier trimestre semble identique à celle de ce trimestre, mais présenter des offres obsolètes érode la confiance.

Intention d’abord : classer avant la récupération

La solution est un nouveau modèle architectural : Intent-First. Au lieu de récupérer puis de router, classifiez avant la récupération. Cela signifie utiliser un modèle de langage léger pour analyser l’intention et le contexte de la requête, puis la distribuer aux sources les plus pertinentes.

Il ne s’agit pas de meilleurs modèles ; il s’agit d’une meilleure architecture. Les architectures Intent-First utilisent un modèle de langage léger pour analyser une requête en termes d’intention et de contexte, avant de la distribuer aux sources de contenu les plus pertinentes (documents, API, agents).

Comment ça marche : une analyse étape par étape

Un système Intent-First fonctionne selon un processus en deux étapes :

  1. Service de classification des intentions :
  2. Normalise et étend la requête.
  3. Prédit l’intention principale à l’aide d’un modèle de transformateur.
  4. Extrait la sous-intention en fonction de la sous-intention principale (par exemple, ORDER_STATUS, DEVICE_ISSUE ).
  5. Détermine les sources cibles en fonction du mappage d’intention.

  6. Service de récupération contextuel :

  7. Récupère des sources filtrées, à l’exclusion de celles non pertinentes.
  8. Personnalise les résultats si l’utilisateur est authentifié.
  9. Évalue les documents en fonction de leur pertinence, de leur récence, de leur personnalisation et de leur correspondance d’intention.

Sauvegardes critiques : les soins de santé comme exemple

Dans des secteurs comme la santé, des garanties supplémentaires sont cruciales. Les catégories d’intention doivent inclure les requêtes cliniques, de couverture, de planification, de facturation et liées au compte. Les questions cliniques doivent inclure des avertissements et ne remplacent jamais un avis médical professionnel. Les requêtes complexes doivent toujours être acheminées vers une assistance humaine.

Gestion des cas extrêmes : détection de frustration

Le système doit gérer les cas extrêmes en détectant la frustration. Des mots clés tels que « terrible », « haineux » ou « ne fonctionne pas » devraient déclencher une escalade immédiate vers une assistance humaine, en contournant complètement la recherche.

Résultats et impératif stratégique

Les premiers utilisateurs de l’architecture Intent-First ont constaté des améliorations significatives en matière de fidélisation des utilisateurs. Lorsque la recherche fonctionne, les utilisateurs reviennent. En cas d’échec, ils abandonnent la chaîne.

Le marché de l’IA conversationnelle est en plein essor, mais les entreprises qui continuent de déployer des architectures RAG standard continueront d’échouer. L’IA donnera en toute confiance de mauvaises réponses, les utilisateurs abandonneront les canaux numériques et les coûts de support augmenteront. L’intention d’abord ne concerne pas de meilleurs modèles ; il s’agit de comprendre ce qu’un utilisateur veut avant d’essayer de l’aider.

La démo est simple. La production est difficile. Mais le modèle de réussite de la production est clair : L’intention d’abord.