Gemini è una famiglia di modelli linguistici di grandi dimensioni multimodali sviluppata da Google DeepMind, che rappresenta il successore di LaMDA e PaLM 2. Presentato nelle tre versioni Gemini Ultra, Gemini Pro e Gemini Nano, è stato annunciato il 6 dicembre 2023, come contendente di GPT-4 di OpenAI.
Gemini software | |
---|---|
Genere | Modello linguistico di grandi dimensioni (non in lista) |
Sviluppatore | Google DeepMind |
Data prima versione | 6 dicembre 2023 |
Ultima versione | 6 dicembre 2023 |
Sistema operativo | |
Licenza | Software proprietario (licenza non libera) |
Lingua | Inglese |
Sito web | deepmind.google/technologies/gemini/ |
Storia
Sviluppo
Google ha annunciato Gemini durante la presentazione di apertura del Google I/O del 10 maggio 2023. È stato presentato dall'amministratore delegato di Google Sundar Pichai come un successore più potente di PaLM 2, anch'esso presentato nello stesso evento, pur essendo ancora nelle fasi iniziali di sviluppo.[1][2] A differenza di altri LLM, Gemini presentava delle caratteristiche peculiari in quanto non era addestrato solo su un corpus di testo, ma era progettato per essere multimodale, potendo elaborare più tipi di dati contemporaneamente, come testo, immagini, audio, dati SEO, video e linguaggi di programmazione.[3][4] È nato da una collaborazione tra DeepMind e Google Brain, due rami di Google successivamente fusi in Google DeepMind.[5] In un'intervista con Wired, il CEO di DeepMind Demis Hassabis ha evidenziato le capacità evolute di Gemini, in grado secondo lui di surclassare ChatGPT di OpenAI, basato su GPT-4 e la cui crescente popolarità era stata aggressivamente contrastata da Google con LaMDA e Bard. Hassabis ha evidenziato i punti di forza del programma AlphaGo di DeepMind, che ha attirato l'attenzione di tutto il mondo nel 2016 quando ha sconfitto il campione di go Lee Sedol, affermando che Gemini avrebbe combinato la potenza di AlphaGo e di altri LLM di Google-DeepMind.[6]
Nell'agosto 2023, il sito web The Information ha pubblicato un rapporto che svelava la tabella di marcia di Google per Gemini, rivelando che la società aveva come obiettivo una data di lancio verso la fine del 2023. Secondo il rapporto, Google sperava di superare OpenAI e altri concorrenti combinando le funzionalità di testo conversazionale presenti nella maggior parte degli LLM con la generazione di immagini basata sull’intelligenza artificiale, consentendogli di creare immagini contestuali e di adattarsi a una gamma più ampia di casi d’uso.[7] Come per Bard,[8] il co-fondatore di Google Sergey Brin è stato richiamato per assistere allo sviluppo di Gemini, insieme a centinaia di altri ingegneri di Google Brain e DeepMind.[9] Dato che Gemini era addestrato sulle trascrizioni dei video di YouTube, sono stati coinvolti anche dei legali per filtrare qualsiasi materiale potenzialmente protetto da copyright. Dylan Patel e Daniel Nishball, della società di ricerca SemiAnalysis, hanno pubblicato un post dichiarando che il rilascio di Gemini avrebbe "mangiato il mondo" e surclassato GPT-4, spingendo il CEO di OpenAI Sam Altman a ridicolizzare i due su X (ex Twitter).[10][11] Elon Musk, co-fondatore di OpenAI, è intervenuto chiedendo: "I numeri sono sbagliati?"[12]
Con la notizia dell'imminente lancio di Gemini, OpenAI ha accelerato il suo lavoro sull'integrazione di GPT-4 con funzionalità multimodali simili a quelle di Gemini.[13] The Information riportava a settembre che a diverse società era stato concesso l'accesso anticipato a "una versione anticipata" di LLM, che Google intendeva rendere disponibile ai clienti tramite il servizio Vertex AI di Google Cloud. La pubblicazione affermava inoltre che Google puntava con Gemini a competere sia con GPT-4 che con GitHub Copilot di Microsoft.[14][15] Il 2 dicembre, ha riferito che Google aveva ritardato il lancio di Gemini dalla settimana successiva al gennaio 2024 a causa di problemi con gli input non in inglese, aggiungendo che erano stati pianificati tre eventi di lancio a New York City, Washington, DC e California.[16][17]
Lancio
Il 6 dicembre 2023, Pichai e Hassabis hanno annunciato "Gemini 1.0" in una conferenza stampa virtuale. Erano proposti tre modelli: Gemini Ultra, progettato per "compiti altamente complessi"; Gemini Pro, progettato per "una vasta gamma di compiti"; e Gemini Nano, progettato per "uso su dispositivi locali". Al momento del lancio, Gemini Pro e Nano erano integrati rispettivamente nello smartphone Bard e Pixel 8 Pro, mentre Gemini Ultra finalizzato a supportare "Bard Advanced" e diventare disponibile per gli sviluppatori di software all'inizio del 2024. Altri prodotti che Google intendeva incorporare Gemini in Google includevano Search, Ads, Chrome, Duet AI su Google Workspace e AlphaCode 2.[18] Presentato come il "modello di intelligenza artificiale più grande e capace" di Google, la società ha dichiarato che Gemini, disponibile solo in inglese, non sarebbe stato reso pubblicamente disponibile fino all'anno successivo a causa della necessità di "test di sicurezza approfonditi".[19][20][21][22]
Secondo delle fonti, Gemini Ultra avrebbe superato GPT-4 su una varietà di benchmark di settore, mentre Gemini Pro avrebbe mostrato prestazioni migliori di GPT-3.5. Gemini Ultra è stato anche il primo modello linguistico a superare gli esperti umani nel test Massive Multitask Language Understanding (MMLU) da 57 soggetti, ottenendo un punteggio del 90%. I clienti Google Cloud avranno accesso al modello Pro il 13 dicembre In conformità con l' ordine esecutivo 14110 firmato dal presidente Joe Biden in ottobre, Google ha dichiarato che condividerà i risultati dei test del modello Ultra con il governo federale degli Stati Uniti . Allo stesso modo, la società è stata impegnata in discussioni con il governo del Regno Unito per conformarsi ai principi stabiliti durante l’ AI Safety Summit a Bletchley Park a novembre.[23][24]
Prima del suo lancio, Hugh Langley di Business Insider ha evidenziato come Gemini rappresenti un momento decisivo per Google, dicendo: "Se Gemini risplenderà, aiuterà Google a cambiare la narrativa secondo cui è stato colto di sorpresa da Microsoft e OpenAI. Se deluderà, sosterrà i critici che sostengono che Google è in ritardo."[25]
Note
Collegamenti esterni
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.