Google najavljuje Gemini, svoj "multimodalni" odgovor na ChatGPT

Google je najavio Gemini, svoj novi multimodali jezički model izgrađen od strane kompanije za veštačku inteligenciju, DeepMind. Među mnogim funkcijama, Gemini će biti osnova za Google Bard, koji je ranije imao problema da izađe iz senke svog prethodnika, chatbota OpenAI-a, ChatGPT. Prema blog postu iz 6. decembra od izvršnog direktora Google-a Sundara Pichaija i suosnivača i izvršnog direktora DeepMinda, Demisa Hasabisa, tehnički postoje tri verzije ovog jezičkog modela – Gemini Ultra, Pro i Nano – namenjene različitim aplikacijama. „Fine tuned“ Gemini Pro sada podržava Bard, dok će varijanta Nano biti prisutna u proizvodima poput Pixel Pro pametnih telefona. Varijante Geminija stići će i na Google pretragu, oglase i Chrome u narednim mesecima, iako javni pristup Ultra verziji neće biti dostupan pre prvog kvartala 2024. godine.

Za razliku od mnogih svojih konkurenata, Gemini je treniran da bude „multimodalan“ od samog početka, što znači da već može obrađivati tekstualne, zvučne i slikovne upite. U pratećem video demostraciji, Gemini je verbalno zadat da prepozna predmet ispred njega (komad papira) i zatim tačno prepoznaje korisnikovu skicu patke u stvarnom vremenu. Druge sposobnosti uključuju zaključivanje o tome koje radnje slede u video snimcima kada su pauzirani, generisanje muzike na osnovu vizuelnih uputa i ocenjivanje domaćih zadataka dece – često sa blago šaljivim i igračkim tonom. Važno je napomenuti, međutim, da opis videa sadrži napomenu: „U svrhu ove demostracije, latencija je smanjena, a izlazi Geminija su skraćeni zbog sažetosti.“

U nastavku blog posta, Google je potvrdio da Gemini zapravo reaguje samo na kombinaciju statičkih slika i pisanih korisničkih upita, i da je njihov demo video editovan kako bi prikazao glađu interakciju sa zvučnim mogućnostima.

Prateći tehnički izveštaj Geminija ukazuje da najmoćnija verzija ovog jezičkog modela, Ultra, „prevazilazi trenutne rezultate na 30 od 32 široko korišćena akademska benchmarka korišćena u istraživanju i razvoju [LLM]“. Međutim, poboljšanja se čine prilično skromnim – Gemini Ultra tačno je odgovorio na multidisciplinarna pitanja 90 posto vremena, u odnosu na 86,4 posto kod ChatGPT-a. Bez obzira na statističke nijanse, rezultati ukazuju da bi ChatGPT mogao imati pravu konkurenciju sa Geminijem. Kao što se i očekivalo, Google je upozorio u srećnoj najavi od srede da njihova nova zvezda među AI modelima daleko od savršenstva, i da je još uvek sklona „halucinacijama“ koje pogađaju ovu novu tehnologiju – odnosno, LLM će povremeno nasumično izmišljati netačne ili besmislene odgovore. Google je takođe izložio Geminija „najkompletnijim procenama sigurnosti bilo kojeg Google AI modela“, prema rečima Elija Collinsa, potpredsednika proizvoda u Google DeepMind, koji je govorio na događaju lansiranja 6. decembra. To uključuje izlaganje Geminija „stvarnim otrovnim upitima“, testom koji je razvio Allen Institute for AI, uključujući preko 100.000 problematičnih unosa kako bi se procenili potencijalni politički i demografski pristrasnost velikih jezičkih modela.

Gemini će nastaviti da se integriše u Google-ov set proizvoda u narednim mesecima uz niz faza zatvorenih testiranja. Ako sve ide prema planu, Bard Advanced pokrenut pomoću Geminija Ultra postaće dostupan javnosti negde sledeće godine – ali, kao što je već dobro utvrđeno, teško je prognozirati tok ovog trke za veštačkom inteligencijom. Kada je Bard upitan da li se pokreće pomoću Geminija, odgovorio je PopSci-u da „nažalost“ nema pristup informacijama „o internim projektima Google-a“.

„Ako želite saznati više o… ‘Geminiju’, preporučujem traženje informacija putem zvaničnih Google kanala ili kontaktiranje nekog unutar kompanije koji ima pristup takvim informacijama“, napisao je Bard za PopSci. „Izvinjavam se na neprijatnosti i nadam se da vam je ova informacija korisna.“