Ecco cosa leggerai in questa newsletter:
Sondaggio (Ritieni vi siano più rischi o benefici derivanti dal lancio di una tecnologia in grado di clonare la voce umana?)
News: Stability AI ha appena rilasciato Stable Audio 2.0; Jony Ive (ex-Apple) e Sam Altman (OpenAI) vogliono creare un nuovo “dispositivo” alimentato dall’Intelligenza Artificiale; Meta ha appena annunciato il rilascio di due versioni più piccole di Llma 3; Vision Pro consente alle aziende di creare esperienze che prima non erano possibili; BrightEdge ha pubblicato un’indagine piuttosto interessante su Perplexity; Apple ha stretto un accordo commerciale con Shutterstock.
Community: esplora subito nuove opportunità lavorative; confronta e scegli il tuo prossimo percorso formativo.
Una tecnologia vecchia di 40 anni
Se OpenAI non avesse annunciato di essere riuscita a “clonare” la voce umana, avremmo potuto tranquillamente aprire questo nuovo episodio di Tech Demons dicendovi che la possibilità di generare una voce sintetica a partire da un testo scritto è una tecnologia vecchia di 40 anni!
Già negli anni ’80, infatti, la sperimentazione in questo settore era avanzatissima. Nel 1980 venne lanciato Stratovox, il primo videogioco della storia (del tipo “sparatutto”, a schermata fissa, sviluppato dalla Sun Electronics) ad utilizzare la sintesi vocale, e solo quattro anni più tardi, la Kurzweil Applied Intelligence avrebbe rilasciato il primo software di riconoscimento vocale per personal computer disponibile in commercio.
Poi, arrivò AT&T Natural Voices, un sistema di sintesi vocale che utilizzava reti neurali per generare un parlato a partire dal suono naturale e, in tempi più recenti, Speech Application Programming Interface (SAPI) 5.0, un'interfaccia standard per lo sviluppo di applicazioni vocali su piattaforme Windows.
Ma cosa è cambiato rispetto a dieci o a venti anni fa? In passato, per aggiungere naturalezza alla voce artificiale era necessario effettuare un certosino lavoro manuale di armonizzazione del timbro, dell’intensità e dell’intonazione. Oggi, grazie ai prodigi del deep learning e all’incremento esponenziale delle dimensioni e, quindi, delle prestazioni degli LLM (Large Language Model), è possibile configurare in automatico l’esatto ritmo, la pronuncia o l’intonazione di una voce.
Più facile a dirsi che a farsi
Voice Engine - è questo il nome scelto da OpenAI per il suo nuovo modello di Intelligenza Artificiale text-to-speech - è in grado di creare voci sintetiche - del tutto simili a quelle originali - a partire da un semplice input testuale (prompt) e un campione audio di soli 15 secondi, addestrandosi su un mix di dati pubblici e concessi in licenza.
Sebbene questa tecnologia sia stata sviluppata verso la fine del 2022, trovando applicazione in strumenti come ChatGPT Voice e Read Aloud, anche OpenAI (e già questa è una notizia!) ha riconosciuto i potenziali rischi associati alla generazione di voci sintetiche in grado di “replicare fedelmente” quelle degli esseri umani, figuriamoci in un periodo di elezioni!
[Reference audio]
[Generated audio]
Insomma, da quanto si legge sul comunicato stampa ufficiale, l’azienda americana vorrebbe procedere con cautela, collaborando con partner internazionali e adottando policy molto restrittive, che vietino la clonazione delle voci di individui o organizzazioni senza consenso o base giuridica.
I “contratti di collaborazione” che OpenAI ha già stipulato o stipulerà in futuro con partner certificati richiederanno il consenso esplicito ed informato del “titolare” della voce originale e, agli sviluppatori, verrà richiesto di non creare strumenti che consentano agli utenti finali di sintetizzare voci autonomamente. Più facile a dirsi che a farsi.
A differenza di una immagine, che, ovviamente, di questi tempi, può essere “facilmente” manipolata, la voce è sempre stato uno dei principali caratteri distintivi della “singolarità” delle persone. Almeno, fino a questo momento. Immaginate di essere un personaggio pubblico e di ritrovare una vostra audio intervista sul web senza, però, averla mai rilasciata. Ecco, i rischi sono, per così dire, “palpabili”.
Sondaggio
La prudenza non è mai troppa
Al di là dell’inesauribile slancio innovativo che da sempre ci contraddistingue, riteniamo che Voice Engine abbia oggettivamente più di qualche controindicazione. Demandare al giudizio degli utenti (più o meno selezionati) responsabilità etiche di tale portata è sempre un rischio. La storia ci ha insegnato che, se il “controllato” e il “controllore” sono lo stesso soggetto, soprattutto quando si ha a che fare con una tecnologia potenzialmente molto remunerativa, le conseguenze di un suo uso improprio potrebbero essere irreversibili.
Eppure, provando ad astrarci solo per un attimo da questi obiettivi limiti etici ed osservando le cose “sotto una luce diversa”, è pur vero che il nuovo modello di OpenAI potrebbe rivoluzionare completamente il mercato. Dalla possibilità di tradurre in più lingue contenuti come video e podcast (ampliando, di fatto, la portata del proprio messaggio, promozionale o non) a quella di fornire supporto a persone con problemi di comunicazione verbale o disabilità visive, Voice Engine è una tecnologia in grado di proiettarci avanti nel futuro, ma, visti i potenziali rischi di cui parlavamo, la prudenza è d’obbligo.
Le risorse di questa settimana
News
Stability AI ha appena rilasciato Stable Audio 2.0, un nuovo modello di Intelligenza Artificiale (disponibile gratuitamente!) che consente di creare tracce di tre minuti, di alta qualità (44.1kHz stereo), a partire da campioni audio liberi da diritti d’autore. L’azienda ha dichiarato che l’addestramento di Stable Audio si basa sui dati di AudioSparx, che dispone di una libreria di oltre 800.000 file audio. Lo abbiamo provato. Che ne pensate?
Jony Ive (ex-Apple) e Sam Altman (OpenAI) stanno cercando finanziamenti per lanciare una nuova azienda che produrrà un innovativo "dispositivo alimentato dall’Intelligenza Artificiale". Sebbene non si sappia ancora molto in merito, una cosa è certa: non assomiglierà ad uno smartphone!
Meta ha rilasciato due versioni più piccole di Llma 3, il cui rollout definitivo è previsto per quest’estate. Llama 3 è l'ultima generazione di modelli linguistici di grandi dimensioni (LLM) open source sviluppati da Meta.
Secondo Apple, grazie ad una vasta gamma di modelli avanzati di machine learning e AI in grado di abilitare capacità fondamentali come il tracciamento delle mani e la mappatura degli ambienti, Vision Pro consente alle aziende di creare esperienze che prima non erano possibili, come, ad esempio, personalizzare gli spazi di lavoro, favorire la collaborazione su progetti 3D ed erogare formazione specializzata per i dipendenti.
BrightEdge ha pubblicato un’indagine piuttosto interessante su Perplexity, il nuovo “motore di risposta” basato su Intelligenza Artificiale di cui vi abbiamo già parlato qui, secondo la quale, da gennaio 2024, il traffico organico verso le fonti citate negli output generati dal tool è aumentato di circa il 40%. Questo suggerisce che Perplexity non viene utilizzato solo per generare contenuti, ma anche come motore di ricerca alternativo a quelli tradizionali.
Apple ha stretto un accordo del valore di 25-50 miliardi di dollari con Shutterstock per addestrare i suoi modelli di Intelligenza Artificiale. E non è la prima a farlo. Altre grandi aziende tecnologiche, tra cui Meta, Google e Amazon, hanno già stipulato accordi di licenza con la ben nota piattaforma che fornisce contenuti fotografici, filmati di repertorio, musica e strumenti di editing. La “guerra dell’addestramento“ è appena cominciata!
Community
Esplora subito nuove opportunità lavorative. Scopri nuove opportunità e trova il lavoro perfetto per il tuo futuro. Naviga tra le offerte di lavoro e trova la carriera che hai sempre sognato per fare il grande salto.
Confronta e scegli il tuo prossimo percorso formativo. Abbiamo selezionato i migliori corsi italiani ed internazionali per farti scegliere quello che più si adatta alle tue esigenze. Vieni a scoprirli sul nostro sito web!
Questa tecnologia è incredibile, ma fa una certa paura. A mio avviso, le controindicazioni sono molteplici.