OpenAI, il creatore di ChatGPT, ha svelato una nuova forma di intelligenza artificiale che crea video realistici basati su istruzioni di testo, suscitando reazioni sbalordite online.
Il modello testo-video, chiamato Sora, ha “una profonda comprensione del linguaggio” e può generare “personaggi avvincenti che esprimono emozioni vibranti”, ha affermato OpenAI in un post sul blog giovedì.
“Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo”, ha affermato la startup sostenuta da Microsoft.
“Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico.”
Il CEO di OpenAI Sam Altman su X ha invitato gli utenti a suggerire suggerimenti per Sora prima di pubblicare risultati che includevano video realistici di due golden retriever che fanno podcast in cima a una montagna, una nonna che prepara gnocchi e animali marini che prendono parte a una corsa ciclistica in cima all’oceano .
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) 15 febbraio 2024
La qualità iperrealistica dei video ha suscitato reazioni sbalordite sui social media, con gli utenti che hanno definito i risultati “fuori dal mondo” e un “punto di svolta”.
“Sono passate due ore e il mio cervello non riesce ancora a elaborare questi video OpenAI Sora generati”, ha detto l’utente X Allen T.
La manifestazione ha anche suscitato preoccupazioni sui potenziali rischi, soprattutto in un anno di elezioni attentamente monitorate in tutto il mondo, comprese le elezioni presidenziali americane di novembre.
OpenAI ha affermato nel suo post sul blog che prenderà diverse importanti misure di sicurezza prima di rilasciare Sora al grande pubblico.
“Stiamo lavorando con i red teamer – esperti di dominio in aree come disinformazione, contenuti che incitano all’odio e pregiudizi – che testeranno in modo contraddittorio il modello”, ha affermato la società.
“Stiamo anche costruendo strumenti per aiutare a rilevare contenuti fuorvianti, come un classificatore di rilevamento in grado di individuare quando un video è stato generato da Sora.”
OpenAI ha anche riconosciuto che Sora presenta dei punti deboli, tra cui la difficoltà di continuità e di distinguere la sinistra dalla destra.
“Ad esempio, una persona potrebbe dare un morso a un biscotto, ma dopo il biscotto potrebbe non lasciare il segno del morso”, ha detto la startup con sede a San Francisco.
Anche i rivali di OpenAI Meta e Google hanno dimostrato la tecnologia AI text-to-video, ma i loro modelli non hanno prodotto risultati realistici come quelli di Sora.
SORA è appena fuori da questo mondo.
Il nuovo modello text-to-video di OpenAI è appena uscito ed è pazzesco.
Altri esempi qui sotto ⬇️ pic.twitter.com/qbMy5Rz5Mc
— Linus (→ᴗ→) (@LinusEkenstam) 15 febbraio 2024