Nell’ultimo episodio della Bitrock Tech Radio abbiamo affrontato il tema della sostenibilità economica dell’Intelligenza Artificiale. Non nel senso astratto del dibattito pubblico, ma andando ad analizzare quanto costa davvero l’AI che le aziende stanno usando, chi sta coprendo la differenza tra prezzo di mercato e costo reale, e cosa succede quando quella copertura si riduce.
In questo articolo riprendiamo i punti principali analizzando il meccanismo economico attuale, i rischi legati al modello flat rate adottato dalla maggior parte delle aziende e proponendo un approccio architetturale alternativo che garantisca visibilità e controllo dei costi legati all’AI.
La Token Economy: il meccanismo economico dell’AI Generativa
L’unità di misura fondamentale dell’AI generativa è il token: ogni input inviato a un modello e ogni risposta ricevuta vengono conteggiati e fatturati in base a questa unità. Un milione di token corrisponde a circa 750.000 parole. I provider fatturano separatamente i token in ingresso e quelli in uscita, con tariffe che variano significativamente da modello a modello.
Negli ultimi due anni, il mercato ha registrato un crollo storico di questi prezzi. GPT-4o, a titolo di esempio, si pagava 5 dollari per milione di token in input: oggi la tariffa è scesa a 2,50. Su scala enterprise, il costo medio per milione di token tra i principali provider è passato da circa 10 dollari a 2,50 in un solo anno — una deflazione così pronunciata che alcuni analisti hanno coniato il termine “LLMflation” per descriverla.
La causa di questa deflazione, tuttavia, non è un miglioramento strutturale nell’economia di produzione dei modelli. È il risultato di una competizione di mercato condotta deliberatamente a scapito della redditività, con l’obiettivo di acquisire posizione e costruire adoption. Una distinzione che nel breve orizzonte temporale può sembrare irrilevante, ma che nel medio periodo diventa determinante per le scelte architetturali delle aziende.
Sostenibilità del modello economico e rischi del modello flat-rate
I dati economici dei principali provider AI sono di dominio pubblico, anche se raramente enfatizzati nelle comunicazioni ufficiali. Il quadro che emerge è uniforme: i fornitori di LLM operano oggi in perdita strutturale. Il costo di servire miliardi di inference request al giorno supera sistematicamente i ricavi e le proiezioni di break-even dei principali player si collocano non prima della fine del decennio. I prezzi praticati al mercato sono tenuti artificialmente sotto il costo di produzione, una scelta deliberata per costruire adoption, finanziata da venture capital e dai sussidi incrociati degli hyperscaler.
A complicare ulteriormente il quadro, l’evoluzione verso i flussi agentic – sistemi AI che operano in autonomia su task complessi, ragionano, invocano strumenti esterni, si auto-correggono – introduce un moltiplicatore di consumo rilevante. Secondo una stima Gartner di marzo 2026, questo tipo di architettura consuma tra 5 e 30 volte più token rispetto a una normale interazione conversazionale. L’effetto è già visibile nei dati di mercato: i prezzi per token sono scesi dell’80% in un anno, ma la spesa media mensile in AI delle aziende enterprise è cresciuta del 36%. Le due curve si muovono in direzioni opposte: quando la discesa dei prezzi si arresterà, il volume di consumo già costruito si trasformerà in un moltiplicatore di rischio finanziario.
In questo contesto, la risposta più diffusa all’incertezza sui costi AI consiste nell’adozione di modelli flat-rate e abbonamenti: una soluzione efficace nel breve periodo ma strutturalmente fragile nel medio. L’abbonamento offre prevedibilità di spesa, ma genera al tempo stesso una dipendenza operativa che tende a consolidarsi nel tempo. Integrazioni, workflow automatizzati e competenze del team costruite intorno a uno strumento specifico producono un lock-in progressivo, il cui costo reale emerge solo nel momento in cui il provider decide di modificare le condizioni contrattuali secondo i propri tempi e priorità trascurando completamente le esigenze dei clienti. A quel punto il prezzo di exit, sistematicamente sottostimato in fase di adozione, può diventare un vincolo significativo proprio quando la pressione sui costi è più alta.
In altre parole, i modelli che le grandi aziende stanno adottando per gestire i costi in fase pilota come abbonamenti flat, contratti standardizzati, accesso diretto ai singoli provider, mostrano i propri limiti non appena i volumi crescono e i casi d’uso si moltiplicano.
Il problema centrale è la mancanza di visibilità e controllo sui costi. Senza strumenti adeguati, la spesa AI rimane difficile da allocare per business unit, per processo o per tipologia di richiesta. Non è possibile confrontare il ROI di strumenti diversi, identificare sprechi o prendere decisioni di ottimizzazione basate su dati reali. Il risultato è una voce di budget che cresce senza che l’azienda abbia piena contezza di dove e perché.
A questo si aggiunge il rischio di concentrazione: molte aziende hanno costruito la propria operatività AI intorno a un numero limitato di provider, spesso uno solo, senza aver valutato le implicazioni di una eventuale discontinuità — di prezzo, di servizio o di strategia commerciale. In un mercato in rapida evoluzione, una dipendenza concentrata su uno o due provider, senza un piano di uscita definito, è una posizione difficile da difendere quando le condizioni cambiano.
Riacquistare il controllo sui costi dell’AI: la risposta architetturale di Fortitude Group
La negoziazione contrattuale e la diversificazione dei provider sono tattiche che hanno senso, ma non risolvono la vulnerabilità strutturale. L’approccio che Fortitude Group propone ai propri clienti parte da un livello diverso: una scelta architetturale e non di natura commerciale.
Il principio è costruire un layer tecnico che si interpone tra le applicazioni e i modelli AI, indipendente da qualsiasi singolo provider. Questo è il ruolo dell‘AI Gateway di Radicalbit, che permette l’ottimizzazione dei costi AI e la gestione delle spese tramite limiting, caching e throttling configurabili.
Sul piano del controllo dei costi, il Gateway agisce su quattro dimensioni.
- Routing intelligente: un sistema di routing che alloca ogni richiesta al modello più adeguato in base a qualità attesa, costo e latenza permette di ridurre la spesa complessiva in token del 40-70% a parità di output utile. Su volumi enterprise, la differenza si misura in centinaia di migliaia di euro annui.
- Caching semantico: una quota significativa delle query inviate ai modelli in contesti aziendali è semanticamente identica o molto simile a richieste già elaborate: report periodici, domande standard su documentazione interna, interazioni di supporto ricorrenti. Il Gateway identifica queste ridondanze e restituisce la risposta già calcolata senza generare nuovi token. Il principio è semplice: non pagare due volte per la stessa risposta.
- Portabilità architetturale: quando il Gateway astrae i modelli dalle applicazioni che li utilizzano, sostituire un provider diventa un’operazione di configurazione, non di riscrittura del codice. Questa indipendenza operativa vale nel momento in cui emergono modelli più economici, quando un provider modifica i propri prezzi o quando si vuole sperimentare nuove architetture senza impattare la business logic. Questa funzione risponde direttamente al rischio di lock-in: con un layer di astrazione in posizione, la capacità di migrare verso alternative non è più un’incognita ma una caratteristica by design del sistema.
- Visibilità e governance della spesa: senza un layer di controllo centrale, la spesa AI è difficile da quantificare: non è possibile allocarla per use case, per business unit o per tipologia di richiesta, né misurare con precisione il ROI di ciascun investimento. Il Gateway trasforma una voce di costo difficile da governare in una spesa strutturata e misurabile, creando le condizioni per decisioni strategiche fondate su dati reali.
Conclusione
Il quadro descritto contiene un elemento che può sembrare controintuitivo. Nonostante le fragilità strutturali del modello economico attuale, raramente le condizioni di mercato sono state così favorevoli per costruire un’adozione AI con margini reali di sperimentazione.
I prezzi sono storicamente bassi, il mercato è in forte competizione e i provider hanno un interesse diretto ad acquisire clienti. Questo crea le condizioni per sperimentare, costruire architetture, comprendere quali use-case generano valore reale a costi che difficilmente si ripresenteranno. La raccomandazione è quindi di accompagnare l’AI fin dall’inizio con scelte architetturali che preservino l’autonomia operativa.
In questa fase, costruire dipendenze strutturali da un singolo provider, attratti dalla semplicità dell’abbonamento o dalla comodità dell’integrazione preconfigurata, significa accumulare un rischio che si manifesterà quando i prezzi smetteranno di scendere.
Il controllo dei costi AI non è un problema contrattuale né una questione di policy interna: è un problema architetturale e come tutti i problemi architetturali, il costo di affrontarlo aumenta proporzionalmente al tempo trascorso a ignorarlo.
In Fortitude Group affianchiamo le aziende in questo percorso: se stai iniziando a chiederti quanto controllo hai davvero sulla tua spesa AI è il momento giusto per parlarne. Contattaci
Autore: Michele Ridi, Chief Strategy & Presale Officer @ Fortitude Group