Modelul de limbaj numit Vall-E (a nu se confunda cu filmul animat Wall-E) este o altă versiune a sistemului bazat pe inteligență artificială dezvoltat de Microsoft. Acest sistem Se concentrează pe recunoașterea limbajului natural și pe vorbirea umană. Cea mai recentă versiune a Vall-E depășește eforturile anterioare ale companiei în ceea ce privește „naturalitatea”, precum și asemănarea vorbirii cu sursa originală – în acest caz, difuzorul pe care se bazează și dezvoltat tehnologia.
Aici intervine problema. Deși poate ar fi mai bine să o spunem altfel: provocare. Se dovedește Vall-E a atins paritatea cu oamenii în ultima ediție. Arată ca un om, vorbește ca un om și, practic, nu se poate distinge de un om. Modelul lingvistic a fost dezvoltat până în punctul în care Microsoft a luat decizia responsabilă de a nu-l pune la dispoziția publicului.
Un model lingvistic al clonării umane
Noul model AI al Microsoft a primit două îmbunătățiri fundamentale care i-au îmbunătățit semnificativ performanța. În primul rând, a obținut așa-numita modelare colectivă a simbolurilor, care permite O mai bună organizare a probelor audio și duce la creșterea vitezei de inferență. Drept urmare, AI învață mai repede și face corecțiile corespunzătoare.
A doua îmbunătățire este o eșantionare mai bună, luând în considerare redundanța. Aici, punctul important este ca AI să învețe în primul rând pe materiale din ce în ce mai noi și să nu „reproceseze” același material sursă de mai multe ori. În același timp, acest proces Ajută la stabilizarea funcționării întregului model.
Microsoft a testat Vall-E 2.0 pe instrumentele de evaluare a modelelor AI LibriSpeech și, respectiv, VCTK.
LibriSpeech este un set de date utilizat în cercetarea recunoașterii vorbirii, care conține… Mii de ore de înregistrări ale vorbirii engleze cu copii ale cărților disponibile public din Proiectul Gutenberg. Este utilizat pe scară largă pentru antrenarea și testarea recunoașterii vorbirii și a algoritmilor de sinteză a vorbirii.
Citeste si: Proiectul Gutenberg vrea cărți audio să fie citite în vocea ta. Va citi inteligența artificială o carte unui copil?
VCTK Corpus, pe de altă parte, este o bază de date de vorbire care conține… Înregistrări rostite de diferiți vorbitori din diferite regiuni, care sunt utilizate pentru a cerceta structura vorbirii și identificarea vorbitorului. Cu marea sa varietate de dialecte și sunete, VCTK este o resursă valoroasă pentru modelele de formare care trebuie să se ocupe de diferite forme de vorbire engleză.
Ambele teste ale Vall-E 2.0 au fost foarte reușite. Mai mult, Microsoft susține că instrumentul AI a atins niveluri umane, performând mai bine decât mostrele sursă în ceea ce privește asemănarea și naturalețea. Cu alte cuvinte, Instrumentul poate genera vorbire naturală care este practic identică cu vorbirea unui vorbitor nativ.
Pare foarte realist
Microsoft dovedește eficiența Vall-E, abonat Mostre ale sistemului de inteligență artificială pe site-ul proiectului. Nu ne putem crea propriile înregistrări acolo, dar putem asculta multe înregistrări deja pregătite.
In realitate, Înregistrările postate de Microsoft arată foarte realiste Nu se distinge de un vorbitor uman. AI chiar nu are nicio problemă în a observa diverse subtilități, cum ar fi concentrarea asupra cuvântului potrivit într-o propoziție, ceea ce oamenii fac în mod inconștient atunci când vorbesc. Pe scurt: pare uman.
Versiunea mai nouă a Vall-E va rămâne doar un proiect de cercetare. Microsoft a învățat cum să creeze generatoare de vorbire surprinzător de eficiente și „umane” și va păstra aceste abilități pentru sine. Compania a subliniat că nu intenționează să integreze tehnologia în produsele de larg consum și nu o va pune la dispoziția publicului larg. Sunt foarte periculoase deoarece pot genera multe mesaje false și pot cădea rapid în mâinile infractorilor cibernetici din cauza activităților ilegale (cum ar fi uzurparea identității și recunoașterea vocii).
Nu este clar dacă Microsoft va folosi tehnologia de generare a vorbirii în propriul avantaj. De exemplu, compania poate crea și oferi soluții potrivite pentru industria filmului Dublarea vocilor actorilor și actrițelor care nu mai trăiescSau creați conținut educațional vorbit la costuri reduse. Desigur, problema sistemelor juridice, a eticii și a receptării publice rămâne, dar posibilitățile sunt foarte largi.
Deocamdată, vă puteți baza pe faptul că Microsoft are o securitate puternică. Un generator de vorbire din această categorie pur și simplu nu poate cădea în mâini greșite.
Autor: Grzegorz Kobra, jurnalist la Business Insider Polska
„Fanatic pe tot parcursul vieții. Cititor devotat. Jucător. Antreprenor extrem.”