“La prossima cosa che vedremo è che il cancello per consentire ai cavalli di partecipare a questa corsa è stato aperto pochi giorni fa”, ha detto. “È il PC abilitato all’intelligenza artificiale e lo smartphone abilitato all’intelligenza artificiale.”
Pollack si riferiva ai computer Copilot+ annunciati da Microsoft la scorsa settimana, che la società descrive come una “nuova era” nel campo dei computer. Sono laptop incentrati sull’intelligenza artificiale che, almeno per ora, funzionano esclusivamente con chip Qualcomm.
Entro la fine dell’anno utilizzeranno anche chip di produttori di chip come Intel e AMD, ma la prima generazione di PC Copilot+ sarà tutta basata su Qualcomm quando sarà in vendita a giugno.
Nel frattempo, gli smartphone AI, che hanno iniziato ad emergere alla fine dell’anno scorso quando Google ha lanciato il suo Pixel 8 e hanno accelerato all’inizio di quest’anno con il lancio del Galaxy S24 da parte di Samsung, dovrebbero raggiungere il loro picco il mese prossimo quando… Apple dovrebbe annunciare cambiamenti nell’intelligenza artificiale nella sua iPhone. Questi tipi di dispositivi utilizzano chipset Qualcomm o, nel caso di queste tre aziende specifiche, utilizzano chipset appartenenti alla stessa famiglia di chipset Qualcomm.
Ma per capire come tutto ciò si collega a Nvidia, bisogna prima capire la differenza tra i due maggiori consumatori di potenza del processore nell’era dell’intelligenza artificiale: training e inferenza.
Addestrare un modello di intelligenza artificiale, che nel caso dei modelli di intelligenza artificiale generativa costruiti da aziende come Google, OpenAI, Microsoft e Meta, implica la raccolta di tutti i dati del mondo e la ricerca di relazioni statistiche tra le cose, il che è così intensivo dal punto di vista computazionale che ho ho visto i clienti fare la fila per riempire i loro data center con i potenti sistemi Nvidia.
Ma l’inferenza, che implica prendere un modello e fargli fare qualcosa di utile come scriverti un’e-mail, non richiede tanti calcoli. L’inferenza viene generalmente eseguita centralmente in enormi data center alimentati da chip Nvidia (o simili), ma le cose stanno iniziando a cambiare.
Ciò che hanno in comune i telefoni AI di Google, Samsung e (presto) Apple (e anche il PC Copilot+ di Microsoft) è che tutti eseguono la loro inferenza AI localmente, su chip a basso consumo all’interno del dispositivo anziché su chip ad alta potenza nel cloud .
Unità di elaborazione neurale
La formazione generalmente rimane nel cloud, ma l’inferenza si diffonde ai dispositivi edge.
Per qualificarsi per il marchio Copilot+ PC, ad esempio, i laptop devono disporre di un chip di inferenza noto come unità di elaborazione neurale, in grado di eseguire 40 trilioni di operazioni al secondo, o 40 TOPS.
Il Qualcomm Snapdragon
Non si tratta di molta potenza di calcolo rispetto agli 800 TOP di cui sono capaci le GPU per laptop Nvidia, ma Microsoft scommette che è sufficiente per l’inferenza dell’intelligenza artificiale, anche se non è sufficiente per addestrare l’intelligenza artificiale.
Infatti, per aiutare l’inferenza a funzionare in modo più efficace su dispositivi consumer come PC e telefoni basati sull’intelligenza artificiale, Microsoft, Google e altri stanno addestrando nuove versioni leggere dei loro modelli che funzionano velocemente su unità di elaborazione neurale a basso consumo, ma hanno ancora una precisione sufficiente per soddisfare… I consumatori.
I computer Copilot+ di Microsoft avranno 40 modelli diversi in diverse dimensioni, e allo stesso modo Google ha più dimensioni per il suo modello Gemini, alcuni dei quali saranno abbastanza piccoli da fare la sua inferenza “sul dispositivo”, e alcuni dei quali sono così grandi che continuano a funzionare. devono essere eseguiti nei data center nel cloud.
Dal punto di vista dell’investimento azionario nell’intelligenza artificiale, Pollack di Loftus afferma che c’è ancora una domanda aperta su quanto sarà prezioso questo passaggio all’inferenza NPU allontanandosi da Nvidia, consegnandola ad aziende come Qualcomm.
Ma ciò che fa è aprire la possibilità di un’intera nuova generazione di applicazioni che sfrutteranno l’inferenza dell’intelligenza artificiale locale per produrre risultati che altrimenti sarebbero impossibili o poco pratici da ottenere utilizzando il cloud.
Anche se l’inferenza locale per modelli piccoli presenta lo svantaggio che l’inferenza cloud per modelli di grandi dimensioni è imprecisa, ha il chiaro vantaggio di essere veloce, economica e, soprattutto, privata.
Alla domanda su quale di queste app potrebbe valere la pena investire, Pollack era riluttante a rispondere. Siamo agli inizi e dobbiamo ancora vedere come gli sviluppatori di app trarranno vantaggio dai nuovi PC e smartphone.
Come è avvenuto agli albori di Internet e degli smartphone, probabilmente si tratterà di applicazioni a cui nessuno ha ancora pensato.
“Esperto di Internet. Fan della TV. Analista esasperatamente umile. Pioniere di Twitter impenitente. Fanatico del caffè freelance.”