Google ha dimostrato sistemi di intelligenza artificiale in grado di interpretare le informazioni contenute nelle foto tramite la fotocamera del telefono, nei video, nei suoni e nel linguaggio parlato.
In una dimostrazione, un prototipo di un assistente AI in esecuzione su un telefono è stato in grado di rispondere all’annosa domanda “dove ho messo gli occhiali”.
Arriva il giorno dopo che la rivale OpenAI ha lanciato il suo ultimo sistema di intelligenza artificiale, GPT-4o, che includeva una presentazione accattivante in cui legge le espressioni umane attraverso la fotocamera del telefono e parla – e flirta – fluentemente.
Google sembra desideroso di sottolineare che i suoi strumenti sono in grado di raggiungere questo tipo di comprensione “multimodale” tanto quanto la concorrenza.
A testimonianza del suo approccio alla concorrenza “qualunque cosa tu possa fare, posso fare meglio”, Google ha stuzzicato la capacità dei suoi sistemi di funzionare su dispositivi mobili poco prima dell’annuncio di OpenAI.
Truffatore di frodi
L’azienda ha dimostrato le funzionalità multimediali di Gemini Nano, l’assistente AI “on-device” del telefono Pixel e dell’app Gemini.
Ha anche mostrato un prototipo di una funzione di avviso di truffa in fase di test per il Gemini Nano in grado di ascoltare una telefonata e avvisare che si tratta di una truffa, senza alcuna informazione sulla chiamata proveniente dal telefono.
Le nuove demo basate sull’intelligenza artificiale sono state presentate al Google I/O, la presentazione annuale dell’azienda per gli sviluppatori di software.
Una rapida trascrizione delle azioni basate sull’intelligenza artificiale, effettuata da BBC News, ha suggerito che la parola “multimodale” è apparsa almeno 22 volte.
Relatori come Sir Demis Hassabis, capo di Google Deepmind, hanno ripetutamente sottolineato l’interesse di lunga data dell’azienda per l’intelligenza artificiale multimodale e hanno sottolineato che i suoi modelli sono “nativi” in grado di gestire immagini, video e suoni e di creare connessioni tra loro.
Ha presentato il progetto Astra, che esplora il futuro degli assistenti di intelligenza artificiale. In un video dimostrativo delle sue capacità, è stato in grado di rispondere a domande vocali su ciò che vedeva attraverso la fotocamera del telefono. Alla fine della demo, un Googler ha chiesto all’assistente virtuale dove avevano lasciato le proprie specifiche e lui ha risposto che le aveva appena viste su una scrivania lì vicino.
C’era anche una demo “dal vivo” dell’utilizzo dei video durante la ricerca su Google. Una ricerca su Google è riuscita a suggerire modi per riparare un giradischi rotto, dopo che si è rivelato difettoso.
Inoltre nell’annuncio:
-
Le panoramiche generate dall’intelligenza artificiale (testo che risponde alle domande di ricerca prima che i risultati vengano elencati) verranno implementate in tutti gli Stati Uniti e presto in altri paesi. Eccoli Attualmente è in fase di test nel Regno Unito.
-
Ricerca basata sull’intelligenza artificiale per Google Immagini per semplificare la ricerca nella tua raccolta di scatti.
-
Nuovi sistemi di intelligenza artificiale per la creazione di immagini, video e musica saranno rilasciati in anteprima a musicisti, artisti e registi selezionati
Nuove funzionalità di intelligenza artificiale come il riepilogo di tutte le email su un determinato argomento saranno disponibili per potenti programmi Google come Gmail.
Guardando molto più lontano nel futuro, c’è stata anche la dimostrazione di un sistema prototipo che creerebbe un “compagno di squadra” virtuale a cui potrebbe essere chiesto di svolgere determinati compiti come partecipare a più riunioni online contemporaneamente.