Minimalismo del modello: la nuova strategia di intelligenza artificiale che fa risparmiare milioni alle aziende

Questo articolo fa parte del numero speciale di VentureBeat, "Il vero costo dell'intelligenza artificiale: prestazioni, efficienza e ROI su larga scala". Scopri di più su questo numero speciale.
L'avvento dei modelli linguistici di grandi dimensioni (LLM) ha reso più facile per le aziende immaginare i tipi di progetti che possono intraprendere, determinando un'ondata di programmi pilota che ora passano alla fase di implementazione.
Tuttavia, man mano che questi progetti prendevano piede, le aziende si resero conto che i precedenti LLM che avevano utilizzato erano poco maneggevoli e, cosa ancora peggiore, costosi.
Entrano in gioco i modelli linguistici di piccole dimensioni e la distillazione. Modelli come la famiglia Gemma di Google , Phi di Microsoft e Small 3.1 di Mistral hanno permesso alle aziende di scegliere modelli rapidi e accurati adatti a compiti specifici. Le aziende possono optare per un modello più piccolo per casi d'uso specifici, riducendo i costi di gestione delle applicazioni di intelligenza artificiale e ottenendo potenzialmente un migliore ritorno sull'investimento.
Karthik Ramgopal, illustre ingegnere di LinkedIn , ha dichiarato a VentureBeat che le aziende optano per modelli più piccoli per diversi motivi.
"I modelli più piccoli richiedono meno risorse di elaborazione, memoria e tempi di inferenza più rapidi, il che si traduce direttamente in minori spese operative (OPEX) e spese in conto capitale (CAPEX) per l'infrastruttura, dati i costi, la disponibilità e i requisiti energetici delle GPU", ha affermato Ramgoapl. "I modelli specifici per attività hanno un ambito più limitato, il che rende il loro comportamento più allineato e manutenibile nel tempo, senza complesse attività di prompt engineering."
Gli sviluppatori di modelli stabiliscono il prezzo dei loro piccoli modelli di conseguenza. La versione o4-mini di OpenAI costa 1,1 dollari per milione di token per gli input e 4,4 dollari per milione di token per gli output, rispetto alla versione completa o3 che costa 10 dollari per gli input e 40 dollari per gli output.
Oggi le aziende hanno a disposizione una gamma più ampia di modelli compatti, modelli specifici per attività specifiche e modelli distillati tra cui scegliere . Oggigiorno, la maggior parte dei modelli di punta offre una gamma di dimensioni. Ad esempio, la famiglia di modelli Claude di Anthropic comprende Claude Opus, il modello più grande, Claude Sonnet, il modello multiuso , e Claude Haiku, la versione più piccola. Questi modelli sono sufficientemente compatti da poter essere utilizzati su dispositivi portatili, come laptop o telefoni cellulari.
Quando si parla di ritorno sull'investimento, tuttavia, la domanda è sempre: a cosa corrisponde il ROI? Dovrebbe essere un ritorno sui costi sostenuti o il risparmio di tempo che si traduce in denaro risparmiato nel tempo? Gli esperti intervistati da VentureBeat hanno affermato che il ROI può essere difficile da valutare perché alcune aziende ritengono di averlo già raggiunto riducendo il tempo dedicato a un'attività, mentre altre aspettano di vedere effettivamente il risparmio o di acquisire più clienti per dire se gli investimenti nell'intelligenza artificiale hanno effettivamente funzionato.
Normalmente, le aziende calcolano il ROI con una semplice formula, come descritto da Ravi Naarla, capo tecnico di Cognizant , in un post : ROI = (Benefici-Costi)/Costi. Ma con i programmi di intelligenza artificiale, i benefici non sono immediatamente evidenti. Naarla suggerisce alle aziende di identificare i benefici che si aspettano di ottenere, stimarli sulla base di dati storici, essere realistiche riguardo al costo complessivo dell'intelligenza artificiale, inclusi assunzione, implementazione e manutenzione, e comprendere che è necessario impegnarsi a lungo termine.
Gli esperti sostengono che con modelli di piccole dimensioni si riducono i costi di implementazione e manutenzione, soprattutto quando si perfezionano i modelli per fornire loro un contesto più ampio per l'azienda.
Arijit Sengupta, fondatore e CEO di Aible , ha affermato che il modo in cui le persone inseriscono il contesto nei modelli determina l'entità del risparmio sui costi che possono ottenere. Per chi necessita di contesto aggiuntivo per i prompt, come istruzioni lunghe e complesse, questo può comportare costi di token più elevati.
"Bisogna fornire contesto ai modelli in un modo o nell'altro; non ci sono pasti gratis. Ma con modelli di grandi dimensioni, di solito questo si fa inserendolo nel prompt", ha detto. "Pensate al fine-tuning e al post-addestramento come a un modo alternativo per fornire contesto ai modelli. Potrei dover sostenere 100 dollari di costi post-addestramento, ma non è una cifra astronomica."
Sengupta ha affermato di aver riscontrato una riduzione dei costi di circa 100 volte solo grazie alla fase di post-formazione, spesso riducendo i costi di utilizzo del modello "da diverse decine di milioni a circa 30.000 dollari". Ha tuttavia sottolineato che questa cifra include le spese operative del software e i costi correnti del modello e dei database vettoriali.
"In termini di costi di manutenzione, se si esegue il lavoro manualmente con esperti umani, la manutenzione può risultare costosa perché i modelli di piccole dimensioni devono essere ulteriormente addestrati per produrre risultati paragonabili a quelli dei modelli di grandi dimensioni", ha affermato.
Gli esperimenti condotti da Aible hanno dimostrato che un modello specifico per un'attività e ottimizzato funziona bene per alcuni casi d'uso, proprio come gli LLM, dimostrando che è più conveniente implementare diversi modelli specifici per un caso d'uso anziché modelli di grandi dimensioni per fare tutto.
L'azienda ha confrontato una versione post-addestrata di Llama-3.3-70B-Instruct con un'opzione più piccola con 8 parametri dello stesso modello. Il modello 70B, post-addestrato al costo di 11,30 dollari, ha raggiunto un'accuratezza dell'84% nelle valutazioni automatiche e del 92% in quelle manuali. Una volta perfezionato a un costo di 4,58 dollari, il modello 8B ha raggiunto un'accuratezza dell'82% nella valutazione manuale, il che lo renderebbe adatto a casi d'uso più limitati e mirati.
Il dimensionamento corretto dei modelli non deve necessariamente andare a discapito delle prestazioni. Oggi, le organizzazioni hanno compreso che la scelta del modello non significa solo scegliere tra GPT-40 o Llama-3.1; significa anche sapere che alcuni casi d'uso, come la sintesi o la generazione di codice, sono più adatti a un modello di piccole dimensioni .
Daniel Hoske, direttore tecnico di Cresta , fornitore di prodotti di intelligenza artificiale per contact center, ha affermato che avviare lo sviluppo con LLM consente di ottenere informazioni più precise sui potenziali risparmi sui costi.
"Dovresti iniziare con il modello più grande per vedere se ciò che hai immaginato funziona davvero, perché se non funziona con il modello più grande, non significa che funzionerà con i modelli più piccoli", ha affermato.
Ramgopal ha affermato che LinkedIn segue uno schema simile perché la prototipazione è l'unico modo in cui questi problemi possono iniziare a emergere.
"Il nostro approccio tipico per i casi d'uso agentici inizia con LLM generici, poiché la loro ampia generalizzabilità ci consente di prototipare rapidamente, convalidare ipotesi e valutare l'adattamento prodotto-mercato", ha affermato Ramgopal di LinkedIn. "Man mano che il prodotto matura e incontriamo vincoli di qualità, costo o latenza, passiamo a soluzioni più personalizzate".
Nella fase di sperimentazione, le organizzazioni possono determinare cosa apprezzano di più dalle loro applicazioni di intelligenza artificiale. Capire questo aspetto consente agli sviluppatori di pianificare meglio su cosa risparmiare e di selezionare le dimensioni del modello più adatte al loro scopo e al loro budget.
Gli esperti hanno avvertito che, sebbene sia importante costruire con modelli che funzionino al meglio con ciò che si sta sviluppando, i LLM ad alti parametri saranno sempre più costosi. I modelli di grandi dimensioni richiederanno sempre una potenza di calcolo significativa.
Tuttavia, anche l'eccessivo utilizzo di modelli di piccole dimensioni e specifici per attività pone problemi. Rahul Pathak, vicepresidente di Data and AI GTM presso AWS , ha affermato in un post sul blog che l'ottimizzazione dei costi non deriva solo dall'utilizzo di un modello con basse esigenze di potenza di calcolo, ma piuttosto dall'abbinamento di un modello alle attività. I modelli più piccoli potrebbero non avere una finestra di contesto sufficientemente ampia per comprendere istruzioni più complesse, con conseguente aumento del carico di lavoro per i dipendenti e costi più elevati.
Sengupta ha anche avvertito che alcuni modelli distillati potrebbero essere fragili, pertanto l'uso a lungo termine potrebbe non comportare risparmi.
Indipendentemente dalle dimensioni del modello, gli operatori del settore hanno sottolineato la flessibilità necessaria per affrontare potenziali problemi o nuovi casi d'uso. Pertanto, se si parte da un modello di grandi dimensioni e da uno più piccolo con prestazioni simili o migliori e costi inferiori, le organizzazioni non possono essere esigenti riguardo al modello scelto.
Tessa Burg, CTO e responsabile dell'innovazione presso l'azienda di marketing del marchio Mod Op , ha dichiarato a VentureBeat che le organizzazioni devono comprendere che qualsiasi cosa costruiscano ora sarà sempre sostituita da una versione migliore.
" Siamo partiti dalla convinzione che la tecnologia alla base dei flussi di lavoro che stiamo creando, i processi che stiamo rendendo più efficienti, sarebbero cambiati. Sapevamo che qualsiasi modello avessimo utilizzato sarebbe stata la versione peggiore di un modello."
Burg ha affermato che i modelli più piccoli hanno contribuito a far risparmiare tempo alla sua azienda e ai suoi clienti nella ricerca e nello sviluppo di concept. Il tempo risparmiato, ha aggiunto, si traduce in un risparmio di budget nel tempo. Ha aggiunto che è una buona idea suddividere i casi d'uso ad alto costo e ad alta frequenza per i modelli leggeri.
Sengupta ha osservato che i fornitori stanno ora semplificando il passaggio automatico da un modello all'altro, ma ha consigliato agli utenti di cercare piattaforme che facilitino anche la messa a punto, in modo da non incorrere in costi aggiuntivi.
venturebeat