Esteu interessats en ells GRATU .T? Estalvia amb els nostres cupons activats QUÈ TAL o TELEGRAMA!

Microsoft VALL-E imitarà la nostra veu després de només 3 segons de parlar

Gener 11 2023

En només 3 segons, una IA que mai t'hagi sentit parlar pot imitar la teva veu perfectament. Aquest és l'últim assoliment de la intel·ligència artificial de Microsoft: el model de text a veu VALL-E, que pot copiar la veu de qualsevol persona a voluntat amb només 3 segons de parla.

Microsoft VALL-E imitarà la nostra veu després de només 3 segons de parlar

Es va originar a DALL E, però s'especialitza en el camp de l'àudio, i l'efecte de text a veu es va fer popular després de ser llançat en línia.

Alguns usuaris van dir que si es combinen VALL·E i ChatGPT, el resultat serà sorprenent. Per a d'altres, sembla que no queda lluny el dia en què es podran fer videotrucades amb IA. Fins i tot hi ha qui bromeja que després que l'IA s'hagi ocupat dels escriptors i pintors, els següents són els actors de veu.

Però, com imita VALL·E un so “inaudit” en 3 segons?

VALL-E analitza l'àudio amb models lingüístics. Sintetitza la parla a partir de sons "no escoltats" de l'IA, és a dir, un aprenentatge de mostra zero.

La solució tradicional de text a veu és bàsicament un mode de preentrenament juntament amb un ajustament. Si s'utilitza en un escenari de mostra zero, es produirà una poca semblança i naturalitat del discurs generat.

A partir d'això, VALL-E va sorgir del no-res, proposant una idea diferent del model vocal tradicional.

En comparació amb el model tradicional que utilitza l'espectre Mel per extreure característiques, VALL-E pren directament la síntesi de la parla com una tasca del model de llenguatge, el primer és continu i el segon és discret.

En particular, el procés tradicional de síntesi de la parla és sovint el camí de "fonema → espectrograma mel (espectrograma mel) → forma d'ona".

Però VALL -E va transformar aquest procés en "fonema → codificació d'àudio discreta → forma d'ona":

Pel que fa al disseny del model, VALL-E també és similar a VQVAE. Quantifica l'àudio en una sèrie de fitxes discretes. El primer quantificador s'encarrega de capturar el contingut d'àudio i les característiques d'identitat de l'altaveu, mentre que els segons quantificadors són els responsables del perfeccionament del senyal. que sona més natural:

A continuació, condicionat pel text i la indicació d'àudio de 3 segons, emet de manera autoregressiva una codificació d'àudio discreta:

Però no només això, a més de la síntesi de veu de mostra zero, VALL-E també admet l'edició de veu i la creació de contingut de veu combinada amb GPT-3.

També es pot restaurar el so de fons ambiental

A jutjar pels efectes vocals sintetitzats, VALL-E pot restaurar més que només el timbre de l'altaveu.

No només s'imita el to al moment, sinó que també admet una varietat de velocitats de parla diferents. Per exemple, aquestes són dues velocitats de parla diferents proporcionades per VALL-E quan la mateixa frase es pronuncia dues vegades, però la similitud tonal encara és alta:

Al mateix temps, el so ambiental de fons de l'altra part també es pot restaurar amb precisió.

A més, VALL-E pot imitar una varietat d'emocions de l'orador, incloent-hi diversos tipus, com ara enfadat, adormit, neutral, alegria i nàusees.

Val a dir que el conjunt de dades utilitzat per a la formació VALL·E no és especialment gran.

En comparació amb el Whisper d'OpenAI, que va requerir 680.000 hores de formació d'àudio i només utilitzava més de 7.000 altaveus i 60.000 hores de formació, VALL-E va superar el text a veu entrenat prèviament en termes de similitud amb el text a veu Model YourTTS.

A més, YourTTS va escoltar les veus de 97 de 108 parlants per endavant durant l'entrenament, però encara no arriba a VALL-E a la prova real.

Pel que fa als camps en què es pot aplicar:

No només es pot utilitzar per imitar la teva pròpia veu, com ara ajudar les persones amb discapacitat a completar una conversa amb altres, sinó que també pots utilitzar-la per parlar per tu quan no vulguis. Per descomptat, també es pot utilitzar per gravar llibres d'àudio.

Tanmateix, VALL-E encara no és de codi obert i potser haureu d'esperar una mica més per provar-ho.