Google Gemini: tutto quello che devi sapere sui modelli di intelligenza artificiale generativa

Google sta cercando di fare ondate con Gemini, la sua suite di punta di modelli, app e servizi di intelligenza artificiale generativa. Ma cos'è Gemini? Come puoi utilizzarlo? E come si confronta con altri strumenti di intelligenza artificiale generativa come ChatGPT di OpenAI, Llama di Meta e Copilot di Microsoft?

Per rendere più semplice restare aggiornati sulle ultime novità di Gemini, abbiamo creato questa pratica guida, che aggiorneremo man mano che verranno rilasciati nuovi modelli Gemini, nuove funzionalità e novità sui piani di Google per Gemini.

Gemini è la famiglia di modelli di intelligenza artificiale generativa di nuova generazione, promessa da tempo da Google. Sviluppata dai laboratori di ricerca di intelligenza artificiale di Google DeepMind e Google Research, è disponibile in quattro varianti:

Gemini Ultra , un modello molto grande.
Gemini Pro , un modello grande, anche se più piccolo di Ultra. L'ultima versione, Gemini 2.0 Pro Experimental, è il fiore all'occhiello di Google.
Gemini Flash , una versione più veloce e "distillata" di Pro. È disponibile anche in una versione leggermente più piccola e veloce, chiamata Gemini Flash-Lite, e una versione con capacità di ragionamento, chiamata Gemini Flash Thinking Experimental.
Gemini Nano , due piccoli modelli: Nano-1 e il leggermente più capace Nano-2 , che è pensato per funzionare offline

Tutti i modelli Gemini sono stati addestrati per essere multimodali in modo nativo, ovvero in grado di lavorare e analizzare più di un semplice testo. Google afferma che sono stati pre-addestrati e perfezionati su una varietà di audio, immagini e video pubblici, proprietari e concessi in licenza; un set di basi di codice; e testo in diverse lingue.

Ciò distingue Gemini da modelli come LaMDA di Google , che è stato addestrato esclusivamente su dati di testo. LaMDA non può comprendere o generare nulla oltre al testo (ad esempio, saggi, e-mail e così via), ma questo non è necessariamente il caso dei modelli Gemini.

Qui noteremo che l' etica e la legalità dei modelli di training sui dati pubblici, in alcuni casi senza la conoscenza o il consenso dei proprietari dei dati, sono poco chiare. Google ha una politica di indennizzo AI per proteggere determinati clienti Google Cloud da cause legali qualora dovessero affrontarle, ma questa politica contiene delle eccezioni. Procedere con cautela, in particolare se si intende utilizzare Gemini a fini commerciali.

Gemini è un'app separata e distinta dalle app Gemini sul web e sui dispositivi mobili ( in precedenza Bard ).

Le app Gemini sono client che si collegano a vari modelli Gemini e vi sovrappongono un'interfaccia simile a un chatbot. Pensate a loro come front-end per l'intelligenza artificiale generativa di Google, analoga a ChatGPT e alla famiglia di app Claude di Anthropic.

Applicazione mobile Google Gemini — **Crediti immagine:** Google

Gemini sul web vive qui . Su Android, l' app Gemini sostituisce l'app Google Assistant esistente. E su iOS, le app Google e Google Search fungono da client Gemini di quella piattaforma.

Su Android, è anche diventato di recente possibile far apparire la sovrapposizione Gemini in cima a qualsiasi app per fare domande su ciò che è sullo schermo (ad esempio, un video di YouTube). Basta premere e tenere premuto il pulsante di accensione di uno smartphone supportato o dire "Hey Google"; vedrai apparire la sovrapposizione.

Le app Gemini possono accettare immagini, comandi vocali e testo, inclusi file come PDF e presto video, caricati o importati da Google Drive, e generare immagini. Come ci si aspetterebbe, le conversazioni con le app Gemini sui dispositivi mobili vengono trasferite a Gemini sul Web e viceversa se si è effettuato l'accesso allo stesso account Google in entrambi i posti.

Le app Gemini non sono l'unico mezzo per reclutare l'assistenza dei modelli Gemini per le attività. Lentamente ma inesorabilmente, le funzionalità imbevute di Gemini stanno facendo il loro ingresso nelle app e nei servizi Google di base come Gmail e Google Docs.

Per sfruttare la maggior parte di queste, avrai bisogno del Google One AI Premium Plan. Tecnicamente parte di Google One , l'AI Premium Plan costa 20 $ e fornisce l'accesso a Gemini nelle app di Google Workspace come Docs, Maps, Slides, Sheets, Drive e Meet. Abilita anche ciò che Google chiama Gemini Advanced, che porta i modelli Gemini più sofisticati dell'azienda alle app Gemini.

Anche gli utenti di Gemini Advanced ottengono extra qua e là, come l'accesso prioritario a nuove funzionalità, la possibilità di eseguire e modificare codice Python direttamente in Gemini e una "finestra di contesto" più ampia. Gemini Advanced può ricordare il contenuto di - e ragionare su - circa 750.000 parole in una conversazione (o 1.500 pagine di documenti). Questo rispetto alle 24.000 parole (o 48 pagine) che l'app Gemini vanilla può gestire.

Screenshot di uno spot pubblicitario di Google Gemini — **Crediti immagine:** Google

Gemini Advanced offre inoltre agli utenti l'accesso alla funzionalità Deep Research di Google, che utilizza "ragionamento avanzato" e "capacità di contesto lungo" per generare brief di ricerca. Dopo aver sollecitato il chatbot, questo crea un piano di ricerca in più fasi, ti chiede di approvarlo e poi Gemini impiega alcuni minuti per cercare sul Web e generare un report completo basato sulla tua query. È pensato per rispondere a domande più complesse come "Puoi aiutarmi a riprogettare la mia cucina?"

Google offre inoltre agli utenti di Gemini Advanced una funzione di memoria , che consente al chatbot di utilizzare le tue vecchie conversazioni con Gemini come contesto per la conversazione attuale. Gli utenti di Gemini Advanced ottengono anche un utilizzo maggiore per NotebookLM, il prodotto dell'azienda che trasforma i PDF in podcast generati dall'intelligenza artificiale.

Gli utenti di Gemini Advanced hanno anche accesso alla versione sperimentale di Gemini 2.0 Pro di Google, il modello di punta dell'azienda, ottimizzato per problemi di matematica e di programmazione complessi.

Un'altra esclusiva di Gemini Advanced è la pianificazione del viaggio in Google Search, che crea itinerari di viaggio personalizzati a partire da richieste. Tenendo conto di cose come gli orari dei voli (da email nella posta in arrivo di Gmail di un utente), le preferenze per i pasti e le informazioni sulle attrazioni locali (dai dati di Google Search e Maps), così come le distanze tra tali attrazioni, Gemini genererà un itinerario che si aggiorna automaticamente per riflettere eventuali modifiche.

Gemini tra i servizi Google è disponibile anche per i clienti aziendali tramite due piani, Gemini Business (un componente aggiuntivo per Google Workspace) e Gemini Enterprise. Gemini Business costa appena 6 $ per utente al mese, mentre Gemini Enterprise, che aggiunge la possibilità di prendere appunti durante le riunioni e di tradurre le didascalie, nonché la classificazione e l'etichettatura dei documenti, è generalmente più costoso, ma il prezzo è basato sulle esigenze aziendali. (Entrambi i piani richiedono un impegno annuale.)

In Gmail, Gemini risiede in un pannello laterale che può scrivere e-mail e riassumere thread di messaggi. Troverai lo stesso pannello in Docs, dove ti aiuta a scrivere e perfezionare i tuoi contenuti e a fare brainstorming di nuove idee. Gemini in Slides genera diapositive e immagini personalizzate. E Gemini in Google Sheets traccia e organizza i dati, creando tabelle e formule.

Il chatbot con intelligenza artificiale di Google è arrivato di recente su Maps , dove Gemini può riassumere le recensioni sui bar o offrire consigli su come trascorrere una giornata visitando una città straniera.

La portata di Gemini si estende anche a Drive, dove può riassumere file e cartelle e fornire informazioni rapide su un progetto. In Meet, nel frattempo, Gemini traduce le didascalie in altre lingue.

Gemelli in Gmail — **Crediti immagine:** Google

Gemini è arrivato di recente sul browser Chrome di Google sotto forma di uno strumento di scrittura basato sull'intelligenza artificiale. Puoi usarlo per scrivere qualcosa di completamente nuovo o riscrivere un testo esistente; Google afferma che prenderà in considerazione la pagina web in cui ti trovi per fare delle raccomandazioni.

Altrove, troverete accenni di Gemini nei prodotti di database di Google, negli strumenti di sicurezza cloud e nelle piattaforme di sviluppo app (tra cui Firebase e Project IDX ), così come in app come Google Foto (dove Gemini gestisce le query di ricerca in linguaggio naturale), YouTube (dove aiuta a fare brainstorming di idee video) e nell'assistente per prendere appunti NotebookLM .

Code Assist (in precedenza Duet AI for Developers ), la suite di strumenti di assistenza basati sull'intelligenza artificiale di Google per il completamento e la generazione di codice, sta trasferendo un pesante lavoro computazionale a Gemini. Così come i prodotti di sicurezza di Google supportati da Gemini , come Gemini in Threat Intelligence, che può analizzare grandi porzioni di codice potenzialmente dannoso e consentire agli utenti di eseguire ricerche in linguaggio naturale per minacce in corso o indicatori di compromissione.

Annunciato al Google I/O 2024, gli utenti Gemini Advanced possono creare Gems , chatbot personalizzati basati sui modelli Gemini. Le Gems possono essere generate da descrizioni in linguaggio naturale, ad esempio "Sei il mio allenatore di corsa. Dammi un piano di corsa giornaliero", e condivise con altri o tenute private.

Le gemme sono disponibili su desktop e dispositivi mobili in 150 paesi e nella maggior parte delle lingue. Alla fine, saranno in grado di attingere a un set ampliato di integrazioni con i servizi Google, tra cui Google Calendar, Tasks, Keep e YouTube Music, per completare attività personalizzate.

Gemme Gemelli — **Crediti immagine:** Google

Parlando di integrazioni, le app Gemini sul web e sui dispositivi mobili possono attingere ai servizi Google tramite ciò che Google chiama "estensioni Gemini". Gemini oggi si integra con Google Drive, Gmail e YouTube per rispondere a domande come "Potresti riassumere le mie ultime tre e-mail?" Più avanti quest'anno, Gemini sarà in grado di eseguire azioni aggiuntive con Google Calendar, Keep, Tasks, YouTube Music e Utilities, le app esclusive per Android che controllano le funzionalità del dispositivo come timer e sveglie, controlli multimediali, torcia, volume, Wi-Fi, Bluetooth e così via.

Un'esperienza chiamata Gemini Live consente agli utenti di avere chat vocali "approfondite" con Gemini. È disponibile nelle app Gemini su dispositivi mobili e Pixel Buds Pro 2 , dove è possibile accedervi anche quando il telefono è bloccato.

Con Gemini Live abilitato, puoi interrompere Gemini mentre il chatbot sta parlando (con una delle diverse nuove voci) per fare una domanda chiarificatrice, e si adatterà ai tuoi schemi di linguaggio in tempo reale. A un certo punto, Gemini dovrebbe acquisire una comprensione visiva, che gli consente di vedere e rispondere all'ambiente circostante, tramite foto o video catturati dalle fotocamere dei tuoi smartphone.

Gemelli in diretta — **Crediti immagine:** Google

Live è anche progettato per fungere da una specie di coach virtuale, aiutandoti a provare per gli eventi, fare brainstorming di idee e così via. Ad esempio, Live può suggerire quali competenze evidenziare in un prossimo colloquio di lavoro o di stage e può dare consigli su come parlare in pubblico.

Puoi leggere la nostra recensione di Gemini Live qui . Attenzione spoiler: pensiamo che la funzionalità abbia ancora molta strada da fare prima di essere super utile, ma è ancora presto, lo ammetto.

Gli utenti Gemini possono generare opere d'arte e immagini utilizzando il modello Imagen 3 integrato di Google.

Google afferma che Imagen 3 riesce a comprendere in modo più accurato i prompt di testo che traduce in immagini rispetto al suo predecessore, Imagen 2 , ed è più "creativo e dettagliato" nelle sue generazioni. Inoltre, il modello produce meno artefatti ed errori visivi (almeno secondo Google) ed è il miglior modello Imagen finora per il rendering del testo.

Immagine Google 3 — Un campione da Imagen 3. **Crediti immagine:** Google

A febbraio 2024, Google è stata costretta a sospendere la capacità di Gemini di generare immagini di persone dopo che gli utenti si sono lamentati di inesattezze storiche . Ma ad agosto, la società ha reintrodotto la generazione di persone per determinati utenti, in particolare gli utenti di lingua inglese iscritti a uno dei piani Gemini a pagamento di Google (ad esempio, Gemini Advanced ) come parte di un programma pilota.

A giugno, Google ha introdotto un'esperienza Gemini rivolta agli adolescenti, consentendo agli studenti di registrarsi tramite i propri account scolastici di Google Workspace for Education.

Gemini, incentrato sugli adolescenti, ha "politiche e misure di sicurezza aggiuntive", tra cui un processo di onboarding personalizzato e una "guida all'alfabetizzazione AI" per (come la definisce Google) "aiutare gli adolescenti a usare l'AI in modo responsabile". Altrimenti, è quasi identico all'esperienza Gemini standard, fino alla funzione di "doppio controllo" che esamina il Web per vedere se le risposte di Gemini sono accurate.

Un numero crescente di dispositivi Google sfrutta Gemini per funzionalità avanzate, da Google TV Streamer a Pixel 9 e 9 Pro fino al nuovissimo Nest Learning Thermostat .

Su Google TV Streamer, Gemini utilizza le tue preferenze per selezionare i contenuti suggeriti per tutti i tuoi abbonamenti e riepilogare recensioni e persino intere stagioni di programmi TV.

Configurazione di Google TV Streamer — **Crediti immagine:** Google

Sull'ultimo termostato Nest (nonché sugli speaker, sulle telecamere e sui display intelligenti Nest), Gemini potenzierà presto le capacità di conversazione e di analisi di Google Assistant.

Gli abbonati al piano Nest Aware di Google più avanti quest'anno riceveranno un'anteprima delle nuove esperienze basate su Gemini, come descrizioni AI per i filmati delle telecamere Nest, ricerca video in linguaggio naturale e automazioni consigliate. Le telecamere Nest capiranno cosa sta succedendo nei feed video in tempo reale (ad esempio, quando un cane sta scavando in giardino), mentre l'app Google Home companion mostrerà video e creerà automazioni per dispositivi in base a una descrizione (ad esempio, "I bambini hanno lasciato le loro biciclette nel vialetto?", "Fai accendere il riscaldamento al mio termostato Nest quando torno a casa dal lavoro ogni martedì").

Google Gemini nella casa intelligente — Gemini sarà presto in grado di riassumere i filmati delle telecamere di sicurezza dei dispositivi Nest. **Crediti immagine:** Google

Inoltre, più avanti quest'anno, Google Assistant riceverà alcuni aggiornamenti sui dispositivi Nest-branded e altri dispositivi smart home per rendere le conversazioni più naturali. Sono in arrivo voci migliorate, oltre alla possibilità di porre domande di follow-up e "[andare] avanti e indietro più facilmente".

Poiché i modelli Gemini sono multimodali, possono eseguire una serie di attività multimodali, dalla trascrizione del parlato alla sottotitolazione di immagini e video in tempo reale. Molte di queste capacità hanno raggiunto la fase di prodotto (come accennato nella sezione precedente) e Google promette molto di più in un futuro non troppo lontano.

Naturalmente, è un po' difficile prendere l'azienda in parola. Google ha decisamente deluso le aspettative con il lancio originale di Bard. Più di recente, ha scosso le acque con un video che pretendeva di mostrare le capacità di Gemini, ma che era più o meno ambizioso, non dal vivo.

Inoltre, Google non offre alcuna soluzione per alcuni dei problemi di fondo della tecnologia AI generativa odierna, come i suoi pregiudizi codificati e la tendenza a inventare cose (ad esempio, allucinare ). E nemmeno i suoi rivali, ma è qualcosa da tenere a mente quando si considera di usare o pagare per Gemini.

Supponendo, ai fini di questo articolo, che Google sia sincero con le sue recenti affermazioni, ecco cosa possono fare ora i diversi livelli di Gemini e cosa saranno in grado di fare una volta raggiunto il loro pieno potenziale:

Google afferma che Gemini Ultra , grazie alla sua multimodalità, può essere utilizzato per svolgere compiti di fisica, risolvere problemi passo dopo passo su un foglio di lavoro e segnalare possibili errori in risposte già compilate.

Tuttavia, non abbiamo visto molto di Gemini Ultra negli ultimi mesi. Il modello non appare nell'app Gemini e non è elencato nella pagina dei prezzi API di Google Gemini. Tuttavia, ciò non significa che Google non riporterà Gemini Ultra in prima linea nelle sue offerte in futuro.

Ultra può anche essere applicato a compiti come l'identificazione di articoli scientifici pertinenti a un problema, afferma Google. Il modello può estrarre informazioni da diversi articoli, ad esempio, e aggiornare un grafico da uno generando le formule necessarie per ricreare il grafico con dati più tempestivi.

Gemini Ultra supporta tecnicamente la generazione di immagini. Ma questa capacità non è ancora entrata nella versione prodotta del modello, forse perché il meccanismo è più complesso di come app come ChatGPT generano immagini. Invece di inviare prompt a un generatore di immagini (come DALL-E 3 , nel caso di ChatGPT), Gemini produce immagini "nativamente", senza un passaggio intermedio.

Ultra è disponibile come API tramite Vertex AI, la piattaforma di sviluppo AI completamente gestita da Google, e AI Studio, lo strumento basato sul Web di Google per sviluppatori di app e piattaforme.

Google afferma che il suo ultimo modello Pro, Gemini 2.0 Pro , è il suo modello migliore finora per le prestazioni di codifica e i prompt complessi. È attualmente disponibile come versione sperimentale, il che significa che potrebbe presentare problemi imprevisti.

Gemini 2.0 Pro supera il suo predecessore, Gemini 1.5 Pro , nei benchmark che misurano la codifica, il ragionamento, la matematica e l'accuratezza dei fatti. Il modello può accettare fino a 1,4 milioni di parole, due ore di video o 22 ore di audio e può ragionare su o rispondere a domande su quei dati ( più o meno ).

Tuttavia, Gemini 1.5 Pro supporta ancora la funzionalità Deep Research di Google.

Gemini 2.0 Pro funziona insieme a una funzionalità chiamata esecuzione del codice, rilasciata a giugno insieme a Gemini 1.5 Pro , che mira a ridurre i bug nel codice generato dal modello, perfezionando iterativamente tale codice in diversi passaggi. (L'esecuzione del codice supporta anche Gemini Flash.)

All'interno di Vertex AI, gli sviluppatori possono personalizzare Gemini Pro in base a contesti e casi d'uso specifici tramite un processo di messa a punto o "grounding". Ad esempio, Pro (insieme ad altri modelli Gemini) può essere istruito a utilizzare dati da provider terzi come Moody's, Thomson Reuters, ZoomInfo e MSCI, o a reperire informazioni da set di dati aziendali o Google Search anziché dalla sua più ampia banca dati di conoscenze. Gemini Pro può anche essere collegato ad API esterne di terze parti per eseguire azioni particolari, come l'automazione di un flusso di lavoro di back-office.

AI Studio offre modelli per creare prompt di chat strutturati con Pro. Gli sviluppatori possono controllare la gamma creativa del modello e fornire esempi per dare istruzioni su tono e stile, oltre a regolare le impostazioni di sicurezza di Pro.

Vertex AI Agent Builder consente alle persone di creare "agenti" basati su Gemini all'interno di Vertex AI. Ad esempio, un'azienda potrebbe creare un agente che analizza le campagne di marketing precedenti per comprendere lo stile di un marchio e quindi applicare tale conoscenza per aiutare a generare nuove idee coerenti con lo stile.

Google chiama Gemini 2.0 Flash il suo modello AI per l'era agentica. Il modello può generare immagini e audio in modo nativo, oltre al testo, e può usare strumenti come Google Search e interagire con API esterne.

Il modello Flash 2.0 è più veloce della precedente generazione di modelli Gemini e supera persino alcuni dei modelli Gemini 1.5 più grandi nei benchmark che misurano la codifica e l'analisi delle immagini. Puoi provare Gemini 2.0 Flash nell'app web o mobile Gemini e tramite le piattaforme di sviluppo AI di Google.

A dicembre, Google ha rilasciato una versione "pensante" di Gemini 2.0 Flash , in grado di "ragionare", in cui il modello di intelligenza artificiale impiega alcuni secondi per elaborare a ritroso un problema prima di fornire una risposta.

A febbraio, Google ha reso disponibile Gemini 2.0 Flash thinking nell'app Gemini. Lo stesso mese, Google ha anche rilasciato una versione più piccola chiamata Gemini 2.0 Flash-Lite. L'azienda afferma che questo modello supera le prestazioni del suo modello Gemini 1.5 Flash, ma funziona allo stesso prezzo e alla stessa velocità.

Un derivato di Gemini Pro, piccolo ed efficiente, progettato per carichi di lavoro AI generativi ristretti e ad alta frequenza, Flash è multimodale come Gemini Pro, il che significa che può analizzare audio, video, immagini e testo (ma può solo generare testo). Google afferma che Flash è particolarmente adatto per attività come riepiloghi e app di chat, oltre a sottotitoli di immagini e video ed estrazione di dati da documenti e tabelle lunghi.

Gli sviluppatori che utilizzano Flash e Pro possono facoltativamente sfruttare il caching del contesto, che consente loro di archiviare grandi quantità di informazioni (ad esempio, una knowledge base o un database di documenti di ricerca) in una cache a cui i modelli Gemini possono accedere rapidamente e relativamente a basso costo. Tuttavia, il caching del contesto è una tariffa aggiuntiva in aggiunta alle altre tariffe di utilizzo del modello Gemini.

Gemini Nano è una versione molto più piccola dei modelli Gemini Pro e Ultra, ed è abbastanza efficiente da funzionare direttamente su (alcuni) dispositivi invece di inviare l'attività a un server da qualche parte. Finora, Nano alimenta un paio di funzionalità su Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24 , tra cui Summarize in Recorder e Smart Reply in Gboard.

L'app Recorder, che consente agli utenti di premere un pulsante per registrare e trascrivere l'audio, include un riepilogo basato su Gemini di conversazioni registrate, interviste, presentazioni e altri frammenti audio. Gli utenti ricevono riepiloghi anche se non hanno un segnale o una connessione Wi-Fi e, in un cenno alla privacy, nessun dato lascia il telefono durante l'elaborazione.

Nano è anche in Gboard, la sostituzione della tastiera di Google. Lì, alimenta una funzionalità chiamata Smart Reply, che aiuta a suggerire la prossima cosa che vorrai dire quando hai una conversazione in un'app di messaggistica come WhatsApp.

Nell'app Google Messaggi sui dispositivi supportati, Nano gestisce Magic Compose, che può creare messaggi in stili come "emozionato", "formale" e "lirico".

Google afferma che una futura versione di Android utilizzerà Nano per avvisare gli utenti di potenziali truffe durante le chiamate. La nuova app meteo sui telefoni Pixel utilizza Gemini Nano per generare report meteo personalizzati. E TalkBack, il servizio di accessibilità di Google, utilizza Nano per creare descrizioni uditive di oggetti per utenti ipovedenti e non vedenti.

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite sono disponibili tramite la Gemini API di Google per la creazione di app e servizi, tutti con opzioni gratuite. Tuttavia, le opzioni gratuite impongono limiti di utilizzo e tralasciano alcune funzionalità, come la memorizzazione nella cache del contesto e il batching .

I modelli Gemini sono altrimenti pay-as-you-go. Ecco i prezzi base, esclusi componenti aggiuntivi come il caching del contesto, a settembre 2024:

Gemini 1.5 Pro: $ 1,25 per 1 milione di token di input (per prompt fino a 128K token) o $ 2,50 per 1 milione di token di input (per prompt più lunghi di 128K token); $ 5 per 1 milione di token di output (per prompt fino a 128K token) o $ 10 per 1 milione di token di output (per prompt più lunghi di 128K token)
Gemini 1.5 Flash: 7,5 centesimi per 1 milione di token di input (per prompt fino a 128K token), 15 centesimi per 1 milione di token di input (per prompt più lunghi di 128K token), 30 centesimi per 1 milione di token di output (per prompt fino a 128K token), 60 centesimi per 1 milione di token di output (per prompt più lunghi di 128K token)
Gemini 2.0 Flash: 10 centesimi per 1 milione di token di input, 40 centesimi per 1 milione di token di output. Per l'audio in particolare, costa 70 center per 1 milione di token di input e anche 40 center per 1 milione di token di output.
Gemini 2.0 Flash-Lite: 7,5 centesimi per 1 milione di token in input, 30 centesimi per 1 milione di token in output.

I token sono bit suddivisi di dati grezzi, come le sillabe "fan", "tas" e "tic" nella parola "fantastic"; 1 milione di token equivale a circa 700.000 parole. Input si riferisce ai token immessi nel modello, mentre output si riferisce ai token generati dal modello.

Il prezzo della versione 2.0 Pro non è ancora stato annunciato e Nano è ancora in accesso anticipato .

Project Astra è lo sforzo di Google DeepMind per creare app e "agenti" basati sull'intelligenza artificiale per una comprensione multimodale in tempo reale. Nelle demo, Google ha mostrato come il modello di intelligenza artificiale può elaborare simultaneamente video e audio in diretta. Google ha rilasciato una versione app di Project Astra a un piccolo numero di tester fidati a dicembre, ma al momento non ha in programma una versione più ampia.

L'azienda vorrebbe mettere Project Astra in un paio di occhiali intelligenti . Google ha anche dato un prototipo di alcuni occhiali con Project Astra e capacità di realtà aumentata ad alcuni tester fidati a dicembre. Tuttavia, al momento non c'è un prodotto chiaro e non è chiaro quando Google rilascerà effettivamente qualcosa del genere.

Il progetto Astra è ancora solo questo, un progetto, e non un prodotto. Tuttavia, le demo di Astra rivelano cosa Google vorrebbe che i suoi prodotti AI facessero in futuro.

Potrebbe.

Apple ha affermato di essere in trattativa per utilizzare Gemini e altri modelli di terze parti per una serie di funzionalità nella sua suite Apple Intelligence . Dopo una presentazione principale al WWDC 2024, l'SVP di Apple Craig Federighi ha confermato i piani di lavorare con modelli , tra cui Gemini, ma non ha divulgato ulteriori dettagli.

Questo post è stato originariamente pubblicato il 16 febbraio 2024 e viene aggiornato regolarmente.

techcrunch

Google Gemini: tutto quello che devi sapere sui modelli di intelligenza artificiale generativa

Notizie simili

Sondaggio CNET: il 43% degli americani usa le VPN, citando la privacy come motivo principale. Gli esperti prevedono che il numero aumenterà

Risposte al mini cruciverba del NYT di oggi per giovedì 27 febbraio

Meta si scusa dopo che gli utenti di Instagram hanno segnalato un'ondata di contenuti grafici e violenti

I nuovi modelli Phi-4 AI di Microsoft offrono grandi prestazioni in piccoli pacchetti

Wordle oggi: risposta, suggerimenti per il 27 febbraio 2025