Zadie Smith, Stephen King şi Elena Ferrante, printre miile de autori ale căror opere piratate au fost folosite pentru a antrena inteligenţa artificială

Zadie Smith, Stephen King, Rachel Cusk si Elena Ferrante se numara printre miile de autori ale caror opere piratate au fost folosite pentru a antrena instrumente de inteligenta artificiala, se arata într-un articol publicat în The Atlantic. Mai mult de 170.000 de titluri au fost introduse în modelele gestionate de companii precum Meta si Bloomberg, potrivit unei analize a „Books3” - setul de date folosit de aceste firme pentru a-si construi instrumentele de inteligenta artificiala. Books3 a fost folosit pentru a antrena LLaMA al Meta, unul dintre modelele lingvistice de mari dimensiuni - cel mai cunoscut dintre acestea fiind ChatGPT al OpenAI - care poate genera continut pe baza modelelor identificate în exemple de texte. Setul de date a fost utilizat, de asemenea, pentru a antrena BloombergGPT de la Bloomberg, GPT-J de la EleutherAI si „probabil” ca a fost utilizat în alte modele de inteligenta artificiala. Titlurile continute în Books3 sunt aproximativ o treime fictiune si doua treimi non-fictiune, iar majoritatea au fost publicate în ultimele doua decenii. Alaturi de scrierile lui Smith, King, Cusk si Ferrante, lucrarile protejate de drepturi de autor din setul de date includ 33 de carti de Margaret Atwood, cel putin noua de Haruki Murakami, noua de Bell Hooks, sapte de Jonathan Franzen, cinci de Jennifer Egan si cinci de David Grann. De asemenea, figureaza carti de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit si Jon Krakauer, precum si 102 romane de tip pulp ale fondatorului scientologiei L. Ron Hubbard si 90 de carti ale pastorului John MacArthur. Titlurile cuprind edituri mari si mici, inclusiv peste 30.000 publicate de Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press si 600 de Verso. Acest lucru vine dupa un proces intentat luna trecuta de trei scriitori - Sarah Silverman, Richard Kadrey si Christopher Golden - care au sustinut ca operele lor protejate de drepturi de autor „au fost copiate si incluse ca parte a formarii” LLaMA de la Meta. Analiza a aratat ca scrierile celor trei reclamanti fac într-adevar parte din Books3. OpenAI, compania din spatele chatbot-ului AI ChatGPT, a fost, de asemenea, acuzata ca si-a antrenat modelul pe opere protejate de drepturi de autor. Indiciile privind sursele datelor de antrenament ale OpenAI se afla într-o lucrare publicata de companie în 2020, care mentioneaza doua „corpusuri de carti bazate pe internet”, dintre care unul se numeste Books2 si se estimeaza ca ar contine aproape 300.000 de titluri. Un proces din iunie afirma ca singurele site-uri care ofera atât de mult material sunt „bibliotecile din umbra”, cum ar fi Library Genesis (LibGen) si Z-Library, prin care cartile pot fi asigurate în vrac prin intermediul sistemelor torrent. Shawn Presser, dezvoltatorul independent de inteligenta artificiala care a creat initial Books3, a declarat ca, desi întelege îngrijorarile autorilor, a creat baza de date pentru ca oricine sa poata dezvolta instrumente de inteligenta artificiala generativa si îsi face griji cu privire la riscurile pe care le presupune faptul ca marile companii detin controlul asupra tehnologiei. În timp ce un purtator de cuvânt al Meta a refuzat sa comenteze pentru The Atlantic utilizarea Books3 de catre firma, un purtator de cuvânt al Bloomberg a confirmat ca firma a folosit setul de date. „Nu vom include setul de date Books3 printre sursele de date utilizate pentru antrenarea viitoarelor versiuni ale BloombergGPT”, au adaugat acestia.  


Citește articolul complet pe Ziarul de Iasi

Alte știri din Ziarul de Iasi