Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

March 20, 2025, 10:15 a.m.
69

Le dilemme éthique de Meta : Utiliser Library Genesis pour l'entraînement de l'IA.

**Note de l’éditeur** : Cette analyse fait partie de l'exploration par The Atlantic du jeu de données de Library Genesis. Accédez ici à l'outil de recherche de The Atlantic pour les écrits de films et de télévision utilisés pour former l'IA. Lorsque Meta a commencé à créer son modèle d’IA, Llama 3, l’équipe a été confrontée à un dilemme éthique : acquérir légalement un vaste corpus de textes de qualité était lent et coûteux. Ils ont envisagé de pirater des données après avoir été insatisfaits des options de licence, citant des coûts élevés et des délais de livraison prolongés de la part de partenaires potentiels. Les discussions internes ont révélé un fort désir d'utiliser des livres, jugés essentiels pour l'entraînement, les poussant à explorer Library Genesis (LibGen), un vaste répertoire de littérature et de recherche piratées. Les communications internes ont montré que des employés de Meta cherchaient à obtenir l'approbation du PDG Mark Zuckerberg pour utiliser l’ensemble de données de LibGen, désormais public en raison d’un procès pour copyright intenté par plusieurs auteurs. De plus, OpenAI a également été associée à LibGen dans des cas d'utilisation passés. Bien que la portée exacte des textes sur lesquels les deux entreprises se soient entraînées ne soit pas claire—le contenu de LibGen étant en constante mise à jour—la base de données contient des millions de titres, y compris des œuvres significatives et des articles académiques. Meta et OpenAI défendent leurs approches sur la base de l’assertion de « l'utilisation équitable », arguant que leur IA générative transforme les sources en nouveau contenu. Cependant, l'utilisation de LibGen soulève d'importantes questions, notamment parce que des documents internes indiquent que Meta a téléchargé des données via BitTorrent, ce qui comporte des risques juridiques liés à la distribution potentielle de contenu piraté.

Meta a insisté sur le fait qu'elle avait pris des précautions contre le partage de fichiers. Les employés ont reconnu les risques juridiques, discutant de stratégies pour dissimuler leurs activités, telles que l'évitement des références à des œuvres sous copyright et le filtrage des informations identifiables. LibGen, nettement plus vaste que d'autres collections de piratage, attire les développeurs d'IA en raison de sa large sélection, y compris la littérature contemporaine et les revues académiques. Établi en 2008 par des scientifiques russes, LibGen sert les zones avec un accès limité aux ressources éducatives. Sa croissance a été alimentée par les contributions de matériaux piratés, entraînant une prédominance de textes en anglais au fil du temps. Malgré de multiples tentatives de la part des éditeurs pour freiner le piratage, y compris des décisions judiciaires significatives et des amendes contre LibGen, le répertoire persiste. Cette accessibilité soulève des préoccupations éthiques concernant le travail sous-jacent des auteurs, qui ne reçoivent souvent ni crédit ni compensation. Les technologies d'IA générative risquent de décontextualiser les connaissances et de diminuer la reconnaissance due aux créateurs originaux. Le principal défi reste de trouver un équilibre efficace entre la diffusion des connaissances et le travail créatif au bénéfice de la société, alors que des entreprises comme Meta tirent profit de ces ressources, risquant ainsi de diminuer la valeur de l'engagement intellectuel humain.



Brief news summary

Le récent lancement par Meta du modèle d'IA Llama 3 a soulevé d'importantes préoccupations éthiques concernant les violations du droit d'auteur. Des rapports indiquent que Meta aurait pu utiliser du contenu piraté provenant de Library Genesis (LibGen), qui propose plus de 7,5 millions d'œuvres non autorisées, dans ses efforts pour rivaliser avec ChatGPT. Cette stratégie aurait été motivée par les coûts élevés et les défis liés à l'acquisition légale de données. Des discussions internes ont révélé que certains employés de Meta étaient conscients des conséquences juridiques potentielles, mais le PDG Mark Zuckerberg a soutenu l'initiative. En conséquence, la société fait face à des poursuites de la part d'auteurs comme Sarah Silverman et Junot Díaz. Bien que Meta et OpenAI soutiennent que leurs actions relèvent de « l'utilisation équitable », affirmant que leurs modèles d'IA améliorent le contenu original, la quantité considérable de matériel téléchargé ressemble à un partage de fichiers illégal, compliquant leur défense. Pendant ce temps, LibGen continue de fonctionner, illustrant la tension persistante entre le désir d'information accessible et l'application des lois sur le droit d'auteur à l'ère numérique, posant des défis significatifs tant pour l'industrie technologique que pour la régulation des droits d'auteur.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

June 20, 2025, 2:26 p.m.

Ford explore le stockage décentralisé de données …

La société Ford Motor, une entreprise du Fortune 500, s'est associée à Iagon et Cloud Court pour lancer une preuve de concept (PoC) axée sur le stockage décentralisé des données juridiques, selon une annonce datée du 18 juin.

June 20, 2025, 2:22 p.m.

Le pape Léon XIV exprime ses préoccupations sur l…

Le pape Léon XIV a exprimé de profonds inquiétudes concernant les effets de l'intelligence artificielle (IA) sur le développement intellectuel, neurologique et spirituel des enfants.

June 20, 2025, 10:47 a.m.

Deezer met en place des balises de chansons basée…

Deezer, le principal service de streaming musical basé à Paris, s’attaque activement au problème croissant de la fraude liée à l’IA sur sa plateforme.

June 20, 2025, 10:40 a.m.

Coinbase cherche l'approbation de la SEC pour des…

Coinbase, une plateforme d’échange de cryptomonnaies de premier plan, cherche à obtenir l’approbation de la Securities and Exchange Commission (SEC) des États-Unis pour proposer des « actions tokenisées » à ses utilisateurs, comme l’a révélé Paul Grewal, directeur juridique de Coinbase, dans une interview avec Reuters.

June 20, 2025, 6:29 a.m.

Les PDG mettent en garde contre l'impact de l'IA …

Le dernier bulletin Axios AM couvre les principales actualités dans les domaines de la technologie, de la politique et des affaires internationales.

June 20, 2025, 6:14 a.m.

Le ZIGChain Summit 2025 dévoile la plateforme RWA…

Le sommet inaugural ZIGChain Summit 2025, tenu à Dubaï, a marqué une étape importante dans la finance décentralisée, rassemblant des leaders des secteurs de la finance traditionnelle (TradFi), Web2 et Web3.

June 18, 2025, 6:28 a.m.

Le PDG d'Amazon met en garde contre des suppressi…

Le PDG d'Amazon, Andy Jassy, a lancé un avertissement majeur concernant la stratégie future de la main-d'œuvre de l'entreprise face à son intégration croissante de l'intelligence artificielle (IA) dans ses opérations.

All news