Un giorno, potresti volere che il tuo robot domestico porti un carico di vestiti sporchi al piano di sotto e li metta nella lavatrice nell’angolo più a sinistra del seminterrato. Il robot dovrà combinare le tue istruzioni con il suo feedback visivo per determinare quali passaggi dovrebbe eseguire per completare questa attività.
Per un agente AI, questo è più facile a dirsi che a farsi. Gli approcci esistenti spesso utilizzano più modelli di machine learning realizzati manualmente per affrontare diverse parti di un’attività, la cui realizzazione richiede una quantità significativa di impegno umano e competenze. Questi approcci, che utilizzano rappresentazioni visive per prendere direttamente decisioni di navigazione, richiedono enormi quantità di dati visivi per la formazione, che spesso sono difficili da ottenere.
Per superare queste sfide, i ricercatori del Massachusetts Institute of Technology (MIT) e del MIT-IBM Watson AI Lab hanno creato un metodo di navigazione che trasforma le rappresentazioni visive in frammenti di linguaggio, che vengono poi inseriti in un unico grande modello linguistico che soddisfa tutte le esigenze. parti importanti. Navigazione in più passaggi.
Invece di codificare le caratteristiche visive delle immagini che circondano il robot come rappresentazioni visive, il che richiede un utilizzo intensivo del calcolo, il loro metodo genera didascalie di testo che descrivono il punto di vista del robot. Un modello linguistico di grandi dimensioni utilizza le didascalie per prevedere le azioni che un robot dovrebbe intraprendere per eseguire istruzioni utente basate sulla lingua.
Poiché il loro metodo utilizza rappresentazioni puramente basate sul linguaggio, possono utilizzare un modello linguistico di grandi dimensioni per generare in modo efficiente un’enorme quantità di dati di addestramento sintetici.
Sebbene questo approccio non superi le tecniche che utilizzano funzionalità visive, funziona bene in situazioni in cui mancano dati visivi sufficienti per l’addestramento. I ricercatori hanno scoperto che la combinazione di input linguistici con segnali visivi porta a migliori prestazioni di navigazione.
“Utilizzando solo il linguaggio come rappresentazione cognitiva, il nostro approccio è più diretto. Poiché tutti gli input possono essere codificati come linguaggio, possiamo creare un percorso che un essere umano possa comprendere”, afferma Bowen Pan, esperto di ingegneria elettrica e informatica (EECS) scienziato. Studente laureato e autore principale di A Articolo su questo approccio.
I coautori di Ban includono il suo consulente, Audie Oliva, direttore dell’impegno strategico del settore presso la Schwarzman School of Computing del MIT, direttore del MIT-IBM Watson AI Laboratory e ricercatore senior presso il Computer Science and Artificial Intelligence Laboratory (CSAIL). . ); Philip Isola, professore associato all’EECS e membro del CSAIL; Autore senior Yoon Kim, professore assistente presso EECS e membro di CSAIL; e altri presso il MIT-IBM Watson AI Lab e il Dartmouth College. La ricerca sarà presentata alla conferenza del capitolo nordamericano dell’Association for Computational Linguistics.
Risolvere il problema della visione con il linguaggio
Poiché i modelli linguistici su larga scala sono i modelli di apprendimento automatico più potenti disponibili, i ricercatori hanno cercato di incorporarli nel complesso compito noto come navigazione visiva-linguaggio, afferma Pan.
Ma tali modelli accettano input di testo e non possono elaborare i dati visivi dalla fotocamera del robot. Quindi, il team doveva trovare un modo per utilizzare la lingua.
La loro tecnica utilizza un semplice modello di annotazione per ottenere descrizioni testuali del feedback visivo del robot. Queste didascalie sono combinate con istruzioni basate sulla lingua e inserite in un modello linguistico di grandi dimensioni, che decide quale passaggio di navigazione successivo il robot dovrà intraprendere.
Il modello linguistico di grandi dimensioni produce un commento della scena che il robot dovrebbe vedere dopo aver completato quel passaggio. Viene utilizzato per aggiornare il track record in modo che il robot possa tracciare la sua posizione.
Il modello ripete questi processi per creare un percorso che guida il robot verso il suo obiettivo, passo dopo passo.
Per semplificare il processo, i ricercatori hanno progettato modelli in modo che le informazioni di monitoraggio siano presentate al modello in una forma standard, come una serie di scelte che il robot può fare in base all’ambiente circostante.
Ad esempio, la didascalia potrebbe dire “30 gradi alla tua sinistra c’è una porta con una pianta in vaso accanto, alla tua schiena c’è una piccola scrivania con una scrivania e un computer” e così via. Il modello sceglie se il robot deve muoversi verso oppure no. Porta o ufficio.
“Una delle sfide più grandi è stata capire come codificare questo tipo di informazioni nel linguaggio in modo appropriato per far capire all’agente qual era il compito e come avrebbe dovuto rispondere”, afferma Pan.
Vantaggi della lingua
Quando hanno testato questo approccio, sebbene non potesse superare le prestazioni delle tecniche basate sulla visione, hanno scoperto che offriva numerosi vantaggi.
Innanzitutto, poiché il testo richiede meno risorse computazionali per la compilazione rispetto a dati di immagini complessi, il loro approccio può essere utilizzato per generare rapidamente dati di addestramento sintetici. In un test, hanno creato 10.000 percorsi sintetici basati su 10 percorsi visivi del mondo reale.
Questa tecnologia può anche colmare il divario che può impedire a un agente addestrato in un ambiente simulato di ottenere buone prestazioni nel mondo reale. Questo divario si verifica spesso perché le immagini generate al computer possono apparire molto diverse dalle scene del mondo reale a causa di elementi come l’illuminazione o il colore. Ma Pan sostiene che il linguaggio che descrive un’immagine sintetica da un’immagine reale sarà difficile da distinguere tra loro.
Le rappresentazioni utilizzate dal loro modello sono facili da comprendere anche per gli esseri umani perché sono scritte in linguaggio naturale.
“Se un agente non riesce a raggiungere il suo obiettivo, possiamo facilmente determinare dove ha fallito e perché. Forse le informazioni sulla cronologia non sono abbastanza chiare o la nota tralascia alcuni dettagli importanti”, afferma Pan.
Inoltre, il loro metodo può essere applicato più facilmente a compiti e ambienti diversi perché utilizza un solo tipo di input. Finché i dati possono essere codificati come una lingua, possono utilizzare la stessa forma senza alcuna modifica.
Ma uno svantaggio è che il loro metodo naturalmente perde alcune informazioni che possono essere catturate da modelli basati sulla visione, come le informazioni di profondità.
Tuttavia, i ricercatori sono rimasti sorpresi nel vedere che la combinazione di rappresentazioni basate sul linguaggio con metodi basati sulla visione ha migliorato la capacità di navigazione dell’agente.
“Ciò potrebbe significare che il linguaggio può catturare alcune informazioni di livello superiore che non possono essere catturate da caratteristiche puramente visive”, afferma.
Questa è un’area che i ricercatori vorrebbero esplorare ulteriormente. Vogliono anche sviluppare un annotatore orientato alla mobilità che possa migliorare le prestazioni del metodo. Inoltre, vogliono esplorare la capacità dei modelli linguistici di grandi dimensioni di dimostrare la consapevolezza spaziale e vedere come ciò potrebbe aiutare la navigazione basata sulla lingua.
Questa ricerca è in parte finanziata dal MIT-IBM Watson AI Lab.
“Fan zombi sottilmente affascinante. Fanatico della TV. Creatore devoto. Amico degli animali ovunque. Praticante del caffè.”