Modelele de inteligență artificială (AI) eșuează atunci când sunt antrenate pe date generate de inteligență artificială, spun oamenii de știință în Nature. De asemenea, ei subliniază necesitatea de a folosi date fiabile pentru a antrena modele AI.
Folosirea seturilor de date generate de AI pentru a antrena generațiile viitoare de modele de învățare automată le poate polua rezultatele, un concept cunoscut sub numele de „colapsul modelului”. Cercetările arată că de-a lungul „duratei de viață” a mai multor generații de modele AI, conținutul original este înlocuit cu prostii irelevante.
Instrumentele AI generative, cum ar fi modelele lingvistice mari (LLM), au crescut în popularitate și sunt instruite în principal folosind date generate de oameni. Cu toate acestea, spun cercetătorii, pe măsură ce aceste modele AI se răspândesc pe Internet, conținutul generat de computer ar putea fi folosit pentru a antrena alte modele AI – sau pe ei înșiși – în ceea ce este cunoscut sub numele de buclă recursivă.
Ilya Shumilov de la Universitatea Oxford din Marea Britanie și colegii săi au folosit modele matematice pentru a arăta cum se pot deteriora modelele AI. Autorii au arătat că AI poate omite anumite rezultate (de exemplu, fragmente de text mai puțin obișnuite) din datele de antrenament, rezultând că antrenamentul este efectuat doar pe o parte a setului de date.
Cercetătorii au examinat, de asemenea, modul în care modelele AI au răspuns la un set de date de antrenament care a fost în mare parte generat de AI. Ei au descoperit că alimentarea modelului cu date generate de inteligență artificială deteriorează capacitatea generațiilor următoare de a învăța, determinând în cele din urmă eșecul modelului. Aproape toate modelele de limbaj instruite frecvent pe care cercetătorii le-au testat au arătat o tendință de a repeta fraze. Cercetătorii au dat exemplul unui test în care a fost folosit pentru antrenament un text despre arhitectura medievală. Se pare că în generația 9, AI-ul a furnizat informații despre iepuri în loc de arhitectură.
Autorii studiului subliniază că eșecul modelului este inevitabil dacă seturile de date create de generațiile anterioare sunt folosite pentru instruirea AI. În opinia lor, nu este imposibil să antrenezi cu succes AI pe propriile rezultate, dar filtrarea datelor rezultate ar trebui luată în serios. În același timp, potrivit oamenilor de știință, companiile de tehnologie care vor folosi doar conținut generat de oameni pentru a instrui AI vor câștiga un avantaj față de concurenții care vor adopta o strategie diferită.
mai multe informatii În materialul sursă. (uşă)
Urszula Kaczorowska
Marea Britanie/fag/
Fundația PAP permite retipărirea gratuită a articolelor de pe site-ul Nauka w Polsce, cu condiția să ne informați prin e-mail o dată pe lună despre utilizarea site-ului și să furnizați sursa articolului. Pe portaluri și site-uri web, vă rugăm să includeți următorul link: Sursa: Naukawpolsce.pl, iar în reviste, explicații: Sursa: Nauka w Polsce – Naukawpolsce.pl. Permisiunea de mai sus nu se aplică: informațiilor din categoria „Lumea” și oricăror fotografii și materiale video.
„Creator. Bursă de alcool. Maven web extrem de umil. Scriitor rău. Tv ninja.”