Obuka AI na OpenSubtitles: Etnički i pravni izazovi
Brief news summary
Upotreba skupa podataka OpenSubtitles u obuci generativnih AI modela postala je tačka spora, posebno među holivudskim piscima, zbog potencijalnog neovlaštenog korištenja kreativnih djela. Ovaj skup podataka, koji koriste kompanije kao što su Apple, Meta i Nvidia, uključuje dijalog iz preko 53.000 filmova i 85.000 televizijskih epizoda, nudeći bogate konverzacijske podatke za unapređenje AI modela. Međutim, njegova javna dostupnost postavlja značajna etička i pravna pitanja u vezi s autorskim pravima i "pravičnom upotrebom". Iako se tvrdi da je za nekomercijalnu upotrebu, pravni postupci dovode u pitanje da li to krši autorska prava, podstičući debate o atribuciji i etici. Kompanije kao što su Anthropic, Meta i Apple integrirale su ove titlove u veće skupove podataka, poput The Pile, pomažući napretku AI, ali istovremeno predstavljajući potencijalne izazove sa autorskim pravima. Ovi razvojni događaji pokreću ključne diskusije o saglasnosti umetnika, tehnološkim uticajima i nerešenim pitanjima koja se tiču kompenzacije i kontrole nad kreativnim radovima.Istraga časopisa The Atlantic o OpenSubtitles skupu podataka otkriva da su mnogi generativni AI sistemi obučeni koristeći scenarije TV serija i filmova, uključujući one iz više od 53. 000 filmova i 85. 000 epizoda serija. Ovi sistemi su razvijeni od strane velikih kompanija kao što su Apple, Meta, Nvidia i Salesforce, koristeći skup podataka koji uključuje dijaloge iz filmova i serija kao što su "Kum", "Simpsonovi" i "Breaking Bad". Podaci, preuzeti sa OpenSubtitles. org, sastoje se od datoteka titlova koje su korisnici izdvojili i učitali. Ova metoda obezbjeđuje bogat izvor dijaloga, ključan za obuku AI u oponašanju prirodnog govora. Različiti AI modeli, kao što je Claude od Anthropic i Apple-ovi LLM-ovi kompatibilni sa iPhone-om, su obučeni korištenjem ovih podataka. Međutim, ovi razvojni procesi izazivaju zabrinutost među holivudskim piscima i umjetnicima, koji se plaše da se njihov rad koristi bez dozvole.
Pravne izazove u vezi sa korištenjem zaštićenog materijala u obuci AI-ja su u toku, a transparentnost tehnoloških kompanija ostaje ograničena. Dok su neki stvaraoci poput Jörga Tiedenna, začetnika skupa podataka OpenSubtitles, zadovoljni njegovim širim korištenjem, drugi to vide kao kršenje intelektualnog vlasništva. Skup podataka OpenSubtitles je dio veće kolekcije nazvane The Pile, koja uključuje različite tekstove i široko je korištena od strane AI programera. Uprkos svojoj dostupnosti, njegov sadržaj je složen i zahtijeva specifične alate za navigaciju. Kako se AI nastavlja razvijati, upotreba kreativnog sadržaja bez pristanka ili naknade, postavlja etičke i pravne dileme koje ostaju neriješene.
Watch video about
Obuka AI na OpenSubtitles: Etnički i pravni izazovi
Try our premium solution and start getting clients — at no cost to you