Google ha da qualche giorno annunciato l’arrivo di Gemini, il modello di intelligenza artificiale più performante di Mountain View ed un ulteriore passo in avanti nel rendere questa nuova tecnologia fruibile per tutti. Costruito partendo da zero, Gemini è in grado di comprendere e lavorare senza soluzione di continuità e combinare diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice, grazie alle sue avanzate capacità di elaborazione e codifica. Per garantire la flessibilità di applicazione, che va dai data center fino ai dispositivi mobili, Gemini vanta tre diverse diverse tipologie: Ultra, Pro e Nano.
Sundar Pichai, Ceo di Google, sostiene che Gemini offra già dalla sua prima versione, prestazioni all’avanguardia rispetto a molti benchmark leader di settore. Questa nuova era, aggiunge Pichai nella sua nota, rappresenta uno dei più grandi sforzi scientifici e ingegneristici che Google abbia intrapreso e si dichiara entusiasta delle opportunità che Gemini offrirà per le persone in tutto il mondo.
Esso è il risultato di una collaborazione su larga scala che ha coinvolto molti team dell’azienda, compreso il Team di Google Research, afferma invece Demis Hassabis, Ceo e Co-fondatore di Google DeepMind, che aggiunge come le sue funzionalità all’avanguardia miglioreranno in modo significativo il modo in cui gli sviluppatori e le aziende costruiscono e scalano i loro progetti con l’intelligenza artificiale. Dai test risulta, infatti, come le prestazioni di Gemini Ultra, riferite ad una grande varietà di compiti, dalla comprensione naturale delle immagini, dell’audio e dei video, al ragionamento matematico, superino i migliori modelli oggi disponibili in 30 dei 32 benchmark accademici di settore utilizzati più comunemente nella ricerca e sviluppo dei grandi modelli linguistici (Llm).
Fino ad ora, l’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento separato di componenti dedicate a ciascuna modalità, e un loro successivo raccordo. Questi modelli a volte possono essere efficaci nello svolgimento di determinati compiti come la descrizione delle immagini, ma hanno difficoltà con ragionamenti più concettuali e complessi. Di contro, Gemini è addestrato fin dall'inizio ad operare su diverse modalità; questo gli permette di comprendere e ragionare su ogni tipo di input in modo strutturale e senza discontinuità, elevando le sue capacità al vertice della categoria in quasi tutti gli ambiti.
Le sofisticate capacità di ragionamento multimodale di Gemini possono aiutare a dare senso a complesse informazioni scritte e visive. Questo rende Gemini particolarmente abile nel fare emergere conoscenze che possono essere difficili da individuare all’interno di una grande quantità di dati. L’addestramento per riconoscere e comprendere testo, immagini, audio e altro contemporaneamente, e di conseguenza comprende meglio le sfumature tra le informazioni, consente a Gemini di rispondere anche a domande relative ad argomenti complicati, e questo lo rende particolarmente utile per spiegare ragionamenti complessi, per esempio in matematica e fisica. La sua straordinaria capacità di estrarre informazioni rilevanti da centinaia di migliaia di documenti attraverso la lettura, il filtraggio e la comprensione dei contenuti, contribuirà a realizzare nuove scoperte ad alta velocità in molti campi, dalla scienza alla finanza. Gemini, inoltre, Ultra eccelle in molti benchmark di coding e può essere utilizzato come motore per sistemi di programmazione più avanzati.
Gemini è da subito disponibile con Bard, che ne utilizzerà una versione dedicata per elaborazioni avanzate, pianificazione, comprensione e altro. Questo è l’aggiornamento più importante di Bard da quando è stato annunciato, sarà inizialmente disponibile in inglese in più di 170 paesi e, nei prossimi mesi si aggiungeranno nuova lingue e aree geografiche. Google sta portando Gemini anche su Pixel 8 Pro, che sarà il primo smartphone progettato per incorporare Gemini Nano, e nei prossimi sarà disponibile su prodotti e servizi Google come la Ricerca, Ads, Chrome e Duet Ai.
Nonostante i notevoli progressi di Gemini, Google si sta adoperando per estendere ulteriormente le sue capacità nelle versioni future, inclusi progressi su pianificazione e memoria, e aumentando l’ampiezza di contesto per elaborare ancora più informazioni e dare risposte migliori.