Metas etiske dilemma: Bruk av Library Genesis for AI-trening

**Redaktørens bemerkning**: Denne analysen er en del av The Atlantic sin undersøkelse av Library Genesis-datasettet. Tilgang til The Atlantic sitt søkeverktøy for film- og TV-skriving brukt til å trene AI, finner du her. Da Meta begynte å utvikle sin AI-modell, Llama 3, sto teamet overfor et etisk dilemma: å skaffe en stor mengde kvalitetstekst lovlig var tidkrevende og kostbart. De vurderte å piratkopiere data etter å ha vært misfornøyde med lisensieringsalternativene, med henvisning til høye kostnader og forsinket levering fra potensielle partnere. Interne diskusjoner viste et sterkt ønske om å bruke bøker, som de så på som essensielle for trening, noe som fikk dem til å utforske Library Genesis (LibGen), et stort lager av piratkopiert litteratur og forskning. Interne kommunikasjoner viste at Meta-ansatte søkte godkjenning fra CEO Mark Zuckerberg for å bruke LibGens datasett, som nå er offentliggjort på grunn av en opphavsrettssak fra flere forfattere. I tillegg har OpenAI vært assosiert med LibGen i tidligere bruksområder. Selv om omfanget av tekstene de to selskapene har trent på, ikke er helt klart—LibGens innhold oppdateres kontinuerlig—inneholder databasen millioner av titler, inkludert betydelige verker og akademiske artikler. Meta og OpenAI forsvarer sine tilnærminger under påstanden om "rimelig bruk", og hevder at deres generative AI forvandler kilder til nytt innhold. Imidlertid reiser bruken av LibGen kritiske spørsmål, spesielt siden interne dokumenter indikerer at Meta lastet ned data via BitTorrent, som medfører juridiske risikoer på grunn av potensiell distribusjon av piratkopiert innhold.
Meta har insistert at de tok forhåndsregler mot å dele filer. Ansatte erkjente de juridiske risikoene, og diskuterte strategier for å skjule aktivitetene sine, som å unngå referanser til opphavsrettsbeskyttede verker og filtrere ut identifiserbar informasjon. LibGen, som er betydelig større enn andre piratsamlinger, appellerer til AI-utviklere på grunn av sitt brede utvalg, inkludert samtidslitteratur og akademiske tidsskrifter. Etablert i 2008 av russiske forskere, fungerer LibGen i områder med begrenset tilgang til utdanningsressurser. Dets vekst har vært drevet av bidrag av piratkopierte materialer, noe som har ført til en overvekt av engelske tekster over tid. Til tross for flere forsøk fra forlag på å begrense piratvirksomhet, inkludert betydelige dommer og bøter mot LibGen, vedvarer lagret. Denne tilgjengeligheten reiser etiske bekymringer angående det underliggende arbeidet til forfattere, som ofte ikke får kreditt eller kompensasjon. Generative AI-teknologier risikerer å avkontekstualisere kunnskap og undergrave anerkjennelsen som tilkommer originale skapere. Den sentrale utfordringen er hvordan man effektivt kan balansere formidlingen av kunnskap og kreativt arbeid for samfunnets beste, mens selskaper som Meta kapitaliserer på disse ressursene for profitt, noe som potensielt kan redusere verdien av menneskelig intellektuell engasjement.
Brief news summary
Metas nylige lansering av Llama 3 AI-modellen har reist store etiske bekymringer angående brudd på opphavsrett. Rapportene indikerer at Meta kan ha brukt piratkopiert innhold fra Library Genesis (LibGen), som tilbyr over 7,5 millioner uautoriserte verk, i sitt forsøk på å konkurrere med ChatGPT. Denne strategien skal ifølge rapportene ha vært motivert av de høye kostnadene og utfordringene ved å anskaffe data lovlig. Interne diskusjoner avslørte at noen Meta-ansatte var klar over de potensielle juridiske konsekvensene, men administrerende direktør Mark Zuckerberg støttet initiativet. Som et resultat står selskapet overfor søksmål fra forfattere som Sarah Silverman og Junot Díaz. Mens både Meta og OpenAI hevder at deres handlinger faller inn under "rettferdig bruk", og at deres AI-modeller forbedrer originalinnhold, ligner den omfattende mengden nedlastet materiale ulovlig fildeling, noe som kompliserer deres forsvar. I mellomtiden fortsetter LibGen å operere, noe som illustrerer spenningen mellom ønsket om tilgjengelig informasjon og håndhevelsen av opphavsrett i den digitale tidsalder, noe som utgjør betydelige utfordringer for både teknologibransjen og opphavsrettsregulering.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

XRP sin globale gjenoppretting og veksten av blok…
Etter hvert som kryptomarkedet utvikler seg, reemmer Ripples XRP-token seg som en sterk kandidat for mainstream-aksept.

Kunstig intelligens i transport: autonome kjøretø…
Kunstig intelligens (KI) utvikler seg raskt som en transformerende kraft i omforming av transport, og tilbyr betydelige fremskritt for å forbedre sikkerhet, effektivitet og bekvemmelighet for alle trafikanter.

Investering i blockchain-boomen
Siden Bitcoin debuterte i 2009 har blockchain- og distribuert register-teknologi utviklet seg fra nisjecuriositeter til fundamentale komponenter i finanssystemer, forsyningskjeder og digitale økosystemer.

AI-eksoarmor gir rullestolbrukere friheten til å …
Caroline Laubach, en overlevende etter ryggmargsslag og fulltids rullestolbruker, fungerer som testpilot for Wandercraft sin AI-drevne exoskelettprototype, som tilbyr mer enn bare ny teknologi – det gjenoppretter frihet og forbindelse, noe som ofte mangler for rullestolbrukere.

AI-drevet cyberkriminalitet forårsaker rekordstor…
Nylig FBI-rapport viser en kraftig økning i AI-drevet cyberkriminalitet, noe som har forårsaket rekordstore økonomiske tap estimert til 16,6 milliarder dollar.

Hvordan kan USA komme til fronten av AI-utvikling…
Deltar i diskusjonen Logg inn for å legge igjen kommentarer på videoer og være en del av spenningen

Klassen av 2025 har problemer med å finne jobber.…
Klassen av 2025 feirer avslutningssesongen, men realiteten med å sikre seg en jobb er spesielt utfordrende på grunn av markedsusikkerhet under president Donald Trump, økningen i kunstig intelligens som eliminerer entry-level stillinger, og den høyeste arbeidsledigheten blant nyutdannede siden 2021.