Vă prezentăm Voicebox: AI versatilă pentru generarea vorbirii

Astăzi, anunțăm o descoperire în inteligența artificială a vorbirii generative. Am dezvoltat Voicebox, un model AI de ultimă generație care poate îndeplini sarcini de generare a vorbirii — cum ar fi editarea, eșantionarea și stilizarea — pe care nu a fost instruit în mod special să le facă prin învățarea contextuală.

Voicebox poate produce clipuri audio de înaltă calitate și poate edita sunetul înregistrat anterior – cum ar fi îndepărtarea claxoanelor de mașină sau lătratul câinilor – toate, păstrând în același timp conținutul și stilul vocii. Modelul este, de asemenea, multilingv și poate produce vorbire în șase limbi.

În viitor, modelele multifuncționale AI, cum ar fi Voicebox, ar putea oferi voci naturale asistenților virtuali și personajelor nejucatoare din metavers. Ele pot permite persoanelor cu deficiențe de vedere să audă mesajele scrise de la prieteni citite de AI în vocea lor, le pot oferi creatorilor noi instrumente pentru a crea și edita cu ușurință clipuri audio pentru videoclipuri și multe altele.

Versatilitatea Voicebox permite o mare varietate de sarcini, inclusiv:

Sintaxa text-to-speech în context: Cu un eșantion de voce de doar 2 secunde, Voicebox poate potrivi modelul vocal și îl poate folosi pentru a genera text în vorbire.

Editarea vorbirii și reducerea zgomotului: Cutia vocală poate recrea o porțiune de vorbire care a fost întreruptă de zgomot sau poate înlocui cuvintele pronunțate greșit fără a fi nevoie să reînregistreze întregul discurs. De exemplu, puteți selecta un fragment de vorbire întrerupt de lătratul unui câine, îl puteți decupa și puteți indica Voicebox să recreeze acel fragment, ca o radieră pentru editarea audio.

READ  Supapa arată exact când vă puteți finaliza comanda Steam Deck

Transfer de modele între limbi: când este dat O mostră de vorbire a cuiva și o bucată de text în engleză, franceză, germană, spaniolă, poloneză sau portugheză, Voicebox poate produce o citire a textului în oricare dintre aceste limbi, chiar și atunci când exemplul de vorbire și textul sunt în limbi diferite. Această capacitate ar putea fi folosită în viitor pentru a ajuta oamenii să comunice într-un mod mai natural și mai autentic, chiar dacă nu vorbesc aceleași limbi.

Luați diverse mostre de vorbire: După ce a învățat din diferitele date, Voicebox poate genera un discurs care este mai reprezentativ pentru modul în care oamenii vorbesc în lumea reală și în cele șase limbi de mai sus.

Voicebox este un pas important înainte în cercetarea noastră generativă în domeniul inteligenței artificiale și așteptăm cu nerăbdare să continuăm explorarea în spațiul vocal și să vedem cum alți cercetători se bazează pe munca noastră.

Află mai multe despre mesagerie vocala.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *