I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT e Google Research potrebbero aver appena eseguito la magia digitale, sotto forma di un modello di diffusione in grado di modificare le proprietà fisiche degli oggetti nelle immagini.
Soprannominato Alchimista, il sistema consente agli utenti di modificare quattro attributi sia delle immagini reali che delle immagini generate dall’intelligenza artificiale: rugosità, metallicità, albedo (il colore di base iniziale dell’oggetto) e trasparenza. Come modello di pubblicazione da immagine a immagine, è possibile inserire qualsiasi immagine e quindi regolare ciascuna proprietà all’interno di una scala continua da -1 a 1 per creare una nuova immagine visiva. Queste capacità di editing delle immagini potrebbero estendersi al miglioramento dei modelli nei videogiochi, all’espansione delle capacità di intelligenza artificiale negli effetti visivi e all’arricchimento dei dati di addestramento delle macchine.
La magia dietro Alchemist inizia con un modello di diffusione che riduce il rumore: in pratica, i ricercatori hanno utilizzato Stable Diffusion 1.5, un modello text-to-image elogiato per i suoi risultati realistici e le capacità di editing. Il lavoro precedente si basava sul modello popolare per consentire agli utenti di apportare modifiche di livello superiore, come lo scambio di oggetti o la modifica della profondità delle immagini. Al contrario, il metodo CSAIL e Google Research applica questo modello per concentrarsi sugli attributi di livello inferiore, esaminando i dettagli più fini delle proprietà materiali di un oggetto attraverso un’interfaccia unica basata su slider che supera le sue controparti.
Mentre i precedenti sistemi di diffusione potevano estrarre un coniglio dal cappello per ottenere un’immagine, un chimico poteva far sembrare trasparente lo stesso animale. Il sistema può anche far sembrare metallica una papera di gomma, rimuovere il colore dorato da un pesce rosso e lucidare una vecchia scarpa. Programmi come Photoshop hanno capacità simili, ma questo modello può modificare le proprietà dei materiali in modo molto più evidente. Ad esempio, la modifica dell’aspetto metallico di un’immagine richiede diversi passaggi nell’applicazione ampiamente utilizzata.
“Quando guardi un’immagine che hai creato, il risultato spesso non è esattamente quello che avevi in mente”, afferma Praful Sharma, dottorando del MIT in ingegneria elettrica e informatica e autore principale di un nuovo articolo che descrive i risultati . il lavoro. “Vuoi controllare l’immagine mentre la modifichi, ma i controlli nel software di editing delle immagini non sono in grado di cambiare i materiali. Con Alchemist, sfruttiamo il realismo dell’output dei modelli da testo a immagine e creiamo un controllo a scorrimento che ci consente di modificare una proprietà specifica dopo che l’immagine è stata resa “primaria”.
Controllo preciso
“I modelli generativi da testo a immagine hanno consentito agli utenti comuni di creare immagini con la stessa facilità con cui scrivevano una frase”, afferma Jun-Yan Zhou, assistente professore alla Carnegie Mellon University, che non è stato coinvolto nello studio. “Tuttavia, controllandoli i modelli possono essere difficili. . “Sebbene creare un vaso sia semplice, fabbricarne uno con proprietà fisiche specifiche come trasparenza e ruvidità richiede agli utenti di trascorrere ore a sperimentare diversi messaggi di testo e semi casuali. Ciò può essere frustrante, soprattutto per gli utenti professionali che necessitano di precisione nel loro lavoro. Offre una soluzione “Praticare questa sfida consentendo un controllo capillare delle texture delle immagini di input sfruttando al tempo stesso la prototipazione basata sui dati per modelli di diffusione su larga scala, ispirando il lavoro futuro per integrare perfettamente i modelli generativi nelle interfacce esistenti con i software di creazione di contenuti di uso comune.”
Le funzionalità di progettazione dell’alchimista possono aiutare a modificare l’aspetto di diversi modelli nei videogiochi. L’applicazione di questo modello di diffusione in quest’area può aiutare i creatori ad accelerare il processo di progettazione e a ottimizzare le texture per adattarle al gameplay del livello. Inoltre, Sharma e il suo team di progetto possono aiutare a modificare elementi di progettazione grafica, video ed effetti cinematografici per migliorare il fotorealismo e ottenere esattamente l’aspetto fisico desiderato.
Questo metodo può anche migliorare i dati di addestramento della macchina per attività come l’elaborazione. Esponendo le macchine a più texture, possono comprendere meglio i vari elementi che possono comprendere nel mondo reale. Il chimico può anche aiutare con la classificazione delle immagini, analizzando i punti in cui la rete neurale non riesce a riconoscere i cambiamenti fisici nell’immagine.
Il lavoro di Sharma e del suo team è andato oltre modelli simili modificando attentamente solo l’argomento di interesse richiesto. Ad esempio, quando un utente ha chiesto a vari modelli di modificare il delfino per raggiungere la massima trasparenza, solo il chimico è riuscito a realizzare questa impresa lasciando inalterato lo sfondo dell’oceano. Quando i ricercatori hanno addestrato il modello di diffusione comparativa InstructPix2Pix sugli stessi dati utilizzati nel loro metodo di confronto, hanno scoperto che Alchemist ha ottenuto punteggi di precisione superiori. Allo stesso modo, uno studio sugli utenti ha rivelato che il modello del MIT è stato preferito e percepito come più realistico rispetto al suo omologo.
Mantenerlo reale con i dati sintetici
Secondo i ricercatori, la raccolta di dati reali era poco pratica. Invece, hanno addestrato il loro modello su un set di dati sintetico, modificando in modo casuale gli attributi materiali di 1.200 materiali applicati a 100 oggetti 3D unici disponibili pubblicamente in Blender, un popolare strumento di progettazione grafica per computer.
“Il controllo della sintesi generativa delle immagini dell’intelligenza artificiale è stato finora limitato a ciò che il testo può descrivere”, afferma Fredo Durand, professore di informatica presso il Dipartimento di ingegneria elettrica e informatica (EECS) del MIT e membro del CSAIL. Autore senior del giornale. “Questo lavoro apre la strada a un controllo nuovo e più preciso delle caratteristiche visive ereditate da decenni di ricerca sulla grafica computerizzata”.
“Alchemist è il tipo di tecnologia necessaria per rendere i modelli di machine learning e diffusione pratici e utili alla comunità CGI e ai grafici”, aggiunge Mark Matthews, ingegnere software senior presso Google Research e coautore. “Senza di esso, sei bloccato in questo tipo di casualità incontrollabile. Potrebbe essere divertente per un po’, ma a un certo punto, devi portare a termine il vero lavoro e farlo obbedire a una visione creativa.”
L’ultimo progetto di Sharma arriva un anno dopo aver guidato la ricerca Materiale, che è un metodo di apprendimento automatico in grado di riconoscere materiali simili in un’immagine. Questo lavoro precedente ha mostrato come i modelli di intelligenza artificiale possono migliorare le loro capacità di comprensione dei materiali e, come con Alchemist, è stato messo a punto su un set di dati sintetici di modelli 3D di Blender.
Tuttavia, Alchemist presenta alcune limitazioni al momento. Il modello ha difficoltà a dedurre correttamente l’illuminazione, quindi a volte non riesce a seguire l’input dell’utente. Sharma sottolinea che questo metodo a volte genera anche trasparenze fisicamente non plausibili. Immagina, ad esempio, una mano parzialmente all’interno di una scatola di cereali: quando regoli l’impostazione massima dell’alchimista per questo attributo, vedrai un contenitore trasparente senza che le dita lo raggiungano.
I ricercatori vogliono approfondire il modo in cui questo modello migliora le risorse 3D per la grafica a livello di scena. Può anche aiutare il chimico a dedurre le proprietà dei materiali dalle immagini. Secondo Sharma, in futuro questo tipo di lavoro potrebbe aprire collegamenti tra le caratteristiche ottiche e meccaniche degli oggetti.
William T. Freeman, professore del MIT EECS e membro CSAIL, è anche un autore senior, insieme a Varun Jampani e agli scienziati di Google Research Yuanzhen Li PhD ’09, Xuhui Jia e Dmitry Lagun. Questo lavoro è stato sostenuto in parte da una sovvenzione della National Science Foundation e da donazioni di Google e Amazon. Il lavoro del gruppo sarà messo in evidenza al CVPR di giugno.
“Esperto di Internet. Fan della TV. Analista esasperatamente umile. Pioniere di Twitter impenitente. Fanatico del caffè freelance.”