Mentre Mark Hasegawa Johnson esaminava i dati per il suo ultimo progetto, è rimasto piacevolmente sorpreso di scoprire una ricetta per le uova alla fiorentina. Ha detto che l’esame di centinaia di ore di discorsi registrati rivelerebbe uno o due tesori.
Hasegawa Johnson guida lo Speech Accessibility Project, un’iniziativa presso l’Università dell’Illinois Urbana-Champaign per rendere i dispositivi di riconoscimento vocale più utili per le persone con disabilità linguistiche.
Nel primo studio pubblicato dal progetto, i ricercatori hanno chiesto a un riconoscitore vocale automatico di ascoltare 151 ore di audio; Circa sei giorni e mezzo -; Dalle registrazioni di persone con disturbi del linguaggio legati alla malattia di Parkinson. Il loro modello ha replicato un nuovo set di dati di registrazioni simili con una precisione del 30% maggiore rispetto a un modello di controllo che non ascoltava le persone con malattia di Parkinson.
Questo studio appare in Giornale di ricerca sulla parola, il linguaggio e l’udito. Le registrazioni vocali utilizzate nello studio sono liberamente disponibili per ricercatori, organizzazioni no-profit e aziende che desiderano migliorare i propri dispositivi di riconoscimento vocale.
“I nostri risultati suggeriscono che un ampio database di discorsi atipici potrebbe migliorare significativamente la tecnologia vocale per le persone con disabilità”, ha affermato Hasegawa Johnson, professore di ingegneria elettrica e informatica all’Illinois e ricercatore presso il Beckman Institute for Advanced Science and Technology dell’università. Dove si trova il progetto. “Non vedo l’ora di vedere come altre organizzazioni utilizzeranno questi dati per rendere i dispositivi di riconoscimento vocale più inclusivi”.
Dispositivi come smartphone e assistenti virtuali utilizzano il riconoscimento vocale automatico per estrarre significato dalle espressioni, consentendo alle persone di creare una playlist, dettare messaggi a mani libere, partecipare senza problemi a riunioni virtuali e comunicare chiaramente con amici e familiari.
La tecnologia di riconoscimento vocale non funziona bene per tutti; In particolare, quelli con disturbi neurologici del movimento come il morbo di Parkinson che possono causare una serie di modelli di linguaggio tesi o incoerenti, chiamati collettivamente disartria.
“Sfortunatamente, questo significa che molte persone che hanno maggiormente bisogno di dispositivi di controllo vocale potrebbero avere più difficoltà a usarli bene”, ha detto Hasegawa-Johnson.
“Sappiamo dalla ricerca esistente che se si addestra un ASR sulla voce di qualcuno, inizierà a capirla in modo più accurato. Abbiamo chiesto: è possibile addestrare un riconoscitore vocale automatico a comprendere le persone con disartria di Parkinson esponendolo a un piccolo gruppo di persone che lo sono. le persone con schemi linguistici simili?
Hasegawa-Johnson e colleghi hanno reclutato circa 250 adulti con vari gradi di disartria associata alla malattia di Parkinson. Prima di unirsi allo studio, i potenziali partecipanti hanno incontrato un logopedista che ha valutato la loro idoneità.
“Molte persone con disturbi della comunicazione a lungo termine, soprattutto progressivi, possono ritirarsi dalla comunicazione quotidiana”, ha affermato Clarion Mendez, logopedista del team. “Potrebbero condividere i loro pensieri, bisogni e idee unici troppo spesso, credendo che la loro comunicazione sia troppo influenzata per impegnarsi in conversazioni significative.
“Queste sono esattamente le persone che stiamo cercando”, ha detto.
I partecipanti selezionati hanno utilizzato i loro personal computer e smartphone per inviare registrazioni audio. Hanno lavorato al proprio ritmo e con l’assistenza facoltativa di un caregiver, ripetendo banali comandi vocali come “Imposta la sveglia”, leggendo brani di romanzi e offrendo opinioni aperte come “Per favore, spiega i passaggi per preparare la colazione per quattro persone. “
In risposta all’ultima domanda, un partecipante ha enumerato i passaggi per preparare le uova alla fiorentina -; Salsa olandese e tutto -; Mentre un altro praticamente consigliava di ordinare da asporto.
“Abbiamo sentito molti partecipanti che hanno affermato che il processo di coinvolgimento non è stato solo divertente, ma ha dato loro la sicurezza necessaria per connettersi nuovamente con le loro famiglie”, ha affermato Mendez. “Questo progetto ha portato speranza, entusiasmo ed energia – qualità tipicamente umane – a molti partecipanti e ai loro cari”.
Ha affermato che il team si è consultato con esperti della malattia di Parkinson e membri della comunità per sviluppare contenuti rilevanti per la vita dei partecipanti. Le richieste erano specifiche e spontanee: addestrare un algoritmo vocale a riconoscere i nomi dei farmaci, ad esempio, potrebbe aiutare un utente finale a comunicare con una farmacia, mentre chi inizia una conversazione casuale imitava il ritmo della chat quotidiana.
“Diciamo ai partecipanti: sappiamo che potete rendere il vostro discorso più intelligibile mettendoci tutto il vostro impegno, ma forse siete stanchi di dover cercare di farvi capire a beneficio degli altri”, ha detto Mendez. “Cercate di rilassarvi e comunica come se stessi parlando con la tua famiglia al “Divano”.
Per misurare quanto bene l’algoritmo ascoltava e apprendeva il parlato, i ricercatori hanno diviso i campioni in tre gruppi. Il primo gruppo di 190 partecipanti, ovvero 151 ore registrate, ha addestrato il modello. Man mano che le sue prestazioni miglioravano, i ricercatori hanno confermato che il modello stava seriamente imparando (e non solo memorizzando le risposte dei partecipanti) introducendolo in un secondo set di registrazioni più piccolo. Quando il modello ha raggiunto le massime prestazioni nel secondo set, i ricercatori lo hanno messo alla prova con il set di test.
I membri del gruppo di ricerca hanno trascritto manualmente una media di 400 registrazioni per partecipante per verificare che il modello funzionasse.
Hanno scoperto che dopo aver ascoltato il set di addestramento, il sistema ASR ha copiato le registrazioni dal set di test con un tasso di errore delle parole del 23,69%. Per fare un confronto, un sistema addestrato su campioni vocali di persone senza Parkinson ha copiato il set di test con un tasso di errore di parola del -36,3%; Quasi il 30% meno preciso.
Anche i tassi di errore sono diminuiti per quasi tutti gli individui nel gruppo di prova. Anche i parlanti con un linguaggio parkinsoniano meno tipico, come un linguaggio insolitamente rapido o balbettante, hanno notato miglioramenti modesti.
“Ero entusiasta di vedere un vantaggio così straordinario”, ha detto Hasegawa-Johnson.
Ha aggiunto che il suo entusiasmo è stato rafforzato dai commenti dei partecipanti:
“Ho parlato con uno dei partecipanti che era interessato al futuro di questa tecnologia”, ha detto. “La cosa più bella di questo progetto è vedere quanto le persone siano entusiaste di poter essere comprese dagli altoparlanti intelligenti e dai loro telefoni cellulari. Questo è proprio quello che stiamo cercando di fare.”