The Rise of Shadow AI 2.0: perché l’inferenza del modello locale è un nuovo punto cieco della sicurezza informatica

17

Negli ultimi 18 mesi, i Chief Information Security Officer (CISO) hanno fatto affidamento su un semplice playbook per gestire l’IA generativa: *controllare il browser. Utilizzando Cloud Access Security Brokers (CASB) e monitorando il traffico di rete verso endpoint noti AI, i team di sicurezza potrebbero osservare, registrare e bloccare i dati sensibili prima che lasciassero la rete aziendale.

Tuttavia, un cambiamento fondamentale nell’hardware e nel software sta rendendo obsoleta questa difesa basata sul perimetro. Stiamo entrando nell’era di * * “Bring Your Own Model” (BYOM)**—un fenomeno in cui i dipendenti eseguono potenti modelli linguistici di grandi dimensioni (LLM) direttamente sul loro hardware locale.

Poiché questa attività avviene offline o tramite processi locali, non lascia alcuna firma di rete, bypassa i tradizionali strumenti di prevenzione della perdita di dati (DLP) e crea un enorme divario di visibilità per la sicurezza aziendale.

Perché l’inferenza locale è improvvisamente possibile

La transizione dall’IA basata su cloud all’esecuzione locale non è solo una tendenza; è guidata da tre convergenze tecniche che hanno reso l’IA ad alte prestazioni pratica su un laptop standard:

      • Accelerazione hardware: * * I moderni laptop consumer, in particolare quelli con memoria unificata ad alta capacità (come MacBook Pro), possono ora eseguire sofisticati modelli di classe 70B che in precedenza richiedevano enormi cluster di server.
      • Quantizzazione mainstream: * * Le tecniche per comprimere i modelli in formati più piccoli e più efficienti sono maturate, consentendo AI di alta qualità di funzionare entro i limiti di memoria di un dispositivo portatile.
      • Distribuzione senza attrito: * * I modelli open-weight sono ora incredibilmente facili da scaricare e distribuire. Con un singolo comando, un ingegnere può passare da un terminale vuoto a un assistente AI privato completamente funzionale.

Questo crea un flusso di lavoro” silenzioso”: un ingegnere può scaricare un modello, disconnettersi dal Wi-Fi e utilizzare codice sorgente sensibile o set di dati regolamentati per riassumere documenti o codice di controllo, il tutto senza che un singolo pacchetto colpisca mai un proxy aziendale.

I tre rischi critici di “inferenza non verificata”

Quando l’IA si sposta dal cloud all’endpoint, la minaccia primaria si sposta. Non si tratta più solo di data exfiltration (dati che lasciano l’azienda); ora si tratta di integrità, conformità e provenienza.

1. Rischio di integrità: contaminazione da codice e decisione

Quando gli sviluppatori utilizzano modelli non modificati e sintonizzati dalla comunità per” ripulire ” o ottimizzare il codice, introducono un rischio silenzioso alla catena di fornitura del software. Un modello potrebbe produrre codice che sembra funzionale e supera i test unitari ma contiene sottili difetti di sicurezza, come la convalida di input debole o modelli di concorrenza non sicuri. Se ciò accade localmente, il team di sicurezza non ha alcuna traccia di controllo per collegare una vulnerabilità futura all’IA che l’ha generata.

2. Rischio di conformità: licenze e proprietà intellettuale

Non tutti i modelli “aperti” sono gratuiti per uso aziendale. Molti modelli ad alte prestazioni sono dotati di licenze restrittive che vietano l’applicazione commerciale. Se un dipendente utilizza un modello non commerciale per generare documentazione o codice pronto per la produzione, la società eredita una significativa responsabilità legale e finanziaria che può emergere solo durante una verifica o una due diligence di M&A.

3. Rischio di provenienza: il modello di Supply Chain

Scaricare un modello non è come scaricare un file di testo; è più simile a scaricare un eseguibile.
* * * Payload dannosi: * * Formati di file più vecchi (come alcuni file “Pickle” di PyTorch) possono eseguire codice dannoso semplicemente caricandolo.
* * * Mancanza di inventario: * * La maggior parte delle aziende manca di una “Distinta base software” (SBOM) per l’IA. Non possono tenere traccia di quali versioni del modello vengono utilizzate, da dove provengono o se sono state scansionate per sicurezza.

Una nuova strategia per la governance dell’IA

Poiché il blocco degli URL non è più una soluzione efficace, i CISO devono spostare l’attenzione dalla rete all’endpoint. Per gestire Shadow AI 2.0, le organizzazioni dovrebbero adottare tre strategie chiave:

1. Implementare controlli endpoint-Aware
I team di sicurezza dovrebbero monitorare i “segnali” dell’utilizzo dell’IA locale attraverso gli strumenti di rilevamento e risposta degli endpoint (EDR) esistenti:
– Scansione di file di modello di grandi dimensioni (ad esempio, .file gguf o .pt ).
– Rilevamento di server di inferenza locali (ad esempio, processi in esecuzione sulla porta 11434 utilizzata da Oama).
– Monitoraggio per insoliti modelli di utilizzo GPU o NPU (Neural Processing Unit).

2. Creare una ” strada asfaltata “( l’hub del modello curato)
L’ombra AI è di solito una risposta all’attrito. Se gli strumenti ufficiali sono troppo lenti o restrittivi, gli sviluppatori troveranno il proprio. Le organizzazioni possono mitigare questo fornendo un catalogo interno e curato di:
– Modelli approvati per compiti specifici(codifica, sintesi, ecc.).
– Licenze verificate e commercialmente sicure.
– Versioni sicure e con hash dei modelli (dando priorità a formati sicuri come Safetensors ).

3. Modernizzare il linguaggio delle politiche
Le tradizionali “Politiche di utilizzo accettabile” si concentrano su SaaS e servizi cloud. Le nuove politiche devono indirizzare esplicitamente il download e l’esecuzione di artefatti del modello sui dispositivi aziendali, comprese le regole per la gestione dei dati e le origini del modello approvate.

** Conclusione: * * Il perimetro AI si sta spostando verso il basso per il silicio sulla scrivania del dipendente. Per mantenere la sicurezza senza soffocare l’innovazione, le aziende devono smettere di cercare di bloccare il cloud e iniziare a governare gli artefatti e i processi che avvengono direttamente sul dispositivo.