La maggior parte dei progetti di intelligenza artificiale aziendale falliscono non a causa di modelli deboli, ma a causa di un’architettura difettosa. Le organizzazioni si stanno affrettando a implementare soluzioni di ricerca basate sul Large Language Model (LLM), ma un’incomprensione fondamentale su come gli utenti interagiscono effettivamente con questi sistemi sta facendo aumentare i costi e frustrando i clienti. Un recente studio di Coveo ha rilevato che il 72% delle query di ricerca aziendali fallisce al primo tentativo e Gartner prevede che molte implementazioni non soddisferanno le aspettative. Il problema principale? Fare affidamento sulla Retrieval-Augmented Generation (RAG) senza prima capire cosa vuole l’utente.
Il problema con RAG standard: intento ignorato
L’approccio RAG standard, ovvero incorporare una query, recuperare contenuti simili e quindi trasmetterli a un LLM, funziona nelle demo, ma fallisce nelle applicazioni del mondo reale. Ciò è dovuto a tre fallimenti principali: il divario di intenti, il flusso di contesto e il punto cieco della freschezza.
Il RAG standard tratta l’intento come se fosse uguale al contesto, ma non lo è. Ad esempio, un utente che digita “annulla” potrebbe significare annullare un servizio, un ordine o un appuntamento. Senza discernere ciò, i sistemi spesso restituiscono documenti irrilevanti, causando frustrazione.
Le aziende sono inondate di dati: cataloghi di prodotti, articoli di supporto, policy e altro ancora. I modelli RAG recuperano da tutte le fonti indiscriminatamente, seppellendo le informazioni utili sotto il rumore. Se un cliente chiede come attivare un nuovo telefono, non ha bisogno delle domande frequenti sulla fatturazione.
Infine, gli incorporamenti di vettori sono vincolati al tempo. La promozione dell’ultimo trimestre sembra identica a quella di questo trimestre, ma la presentazione di offerte obsolete mina la fiducia.
Prima l’intento: classificare prima del recupero
La soluzione è un nuovo modello architetturale: Intent-First. Invece di recuperare e poi instradare, classifica prima del recupero. Ciò significa utilizzare un modello linguistico leggero per analizzare la query in termini di intento e contesto, quindi inviarla alle fonti più pertinenti.
Non si tratta di modelli migliori; si tratta di un’architettura migliore. Le architetture Intent-First utilizzano un modello linguistico leggero per analizzare una query in termini di intento e contesto, prima di inviarla alle fonti di contenuto più rilevanti (documenti, API, agenti).
Come funziona: un’analisi dettagliata
Un sistema Intent-First opera attraverso un processo in due fasi:
- Servizio di classificazione degli intenti:
- Normalizza ed espande la query.
- Prevede l’intento primario utilizzando un modello di trasformatore.
- Estrae l’intento secondario in base a quello primario (ad esempio,
ORDER_STATUS,DEVICE_ISSUE). -
Determina le origini target in base alla mappatura degli intenti.
-
Servizio di recupero sensibile al contesto:
- Recupera da fonti filtrate, escluse quelle irrilevanti.
- Personalizza i risultati se l’utente è autenticato.
- Assegna un punteggio ai documenti in base a pertinenza, attualità, personalizzazione e corrispondenza di intenti.
Misure di salvaguardia fondamentali: l’assistenza sanitaria come esempio
In settori come quello sanitario, ulteriori garanzie sono cruciali. Le categorie di intenti devono includere query cliniche, di copertura, di pianificazione, di fatturazione e relative all’account. Le domande cliniche devono includere dichiarazioni di non responsabilità e non sostituire mai la consulenza medica professionale. Le query complesse dovrebbero sempre essere indirizzate al supporto umano.
Gestire i casi limite: rilevamento della frustrazione
Il sistema deve gestire i casi limite rilevando la frustrazione. Parole chiave come “terribile”, “odio” o “non funziona” dovrebbero innescare un’immediata escalation al supporto umano, ignorando completamente la ricerca.
Risultati e imperativo strategico
I primi ad adottare l’architettura Intent-First hanno riscontrato miglioramenti significativi nella fidelizzazione degli utenti. Quando la ricerca funziona, gli utenti ritornano. Quando fallisce, abbandonano il canale.
Il mercato dell’intelligenza artificiale conversazionale è in forte espansione, ma le aziende che continuano a implementare architetture RAG standard continueranno a fallire. L’intelligenza artificiale darà con sicurezza risposte sbagliate, gli utenti abbandoneranno i canali digitali e i costi di supporto aumenteranno. Intent-First non riguarda modelli migliori; si tratta di capire cosa vuole un utente prima di provare ad aiutarlo.
La dimostrazione è semplice. La produzione è dura. Ma lo schema del successo produttivo è chiaro: L’intento innanzitutto.




























