None
Brief news summary
Des chercheurs de l'UC Santa Cruz ont développé une méthode pour exécuter de grands modèles linguistiques (LLM) avec une faible consommation d'énergie. Ils ont réussi en utilisant du matériel FGPA personnalisé et en supprimant la multiplication de matrices des processus d'entraînement et d'inférence du LLM. L'équipe a converti le système numérique en un système "ternaire" et introduit un calcul basé sur le temps, ce qui a permis d'améliorer les performances et l'efficacité. Les chercheurs se sont concentrés sur le LLM LLaMa de Meta et se sont inspirés d'un article de Microsoft sur les nombres ternaires dans les réseaux neuronaux. Cette approche a le potentiel de transformer le paysage de l'IA en réduisant considérablement la consommation d'énergie. Cette percée pourrait répondre aux demandes croissantes en énergie des entreprises d'IA et nous rapprocher de la réalisation d'une fonctionnalité de niveau humain en intelligence artificielle.Un document de recherche accompagné d'un exposé de l'UC Santa Cruz discute de la réalisation des chercheurs en IA qui ont réussi à mettre en œuvre des modèles linguistiques (LLMs) modernes à l'échelle de milliards de paramètres en utilisant seulement 13 watts de puissance. Cette consommation d'énergie est comparable à celle d'une ampoule LED de 100 W, mais beaucoup plus efficace que les 700 W nécessaires aux GPU des centres de données tels que le Nvidia H100 et H200, sans parler du prochain Blackwell B200, qui peut consommer jusqu'à 1200 W par GPU. Les chercheurs ont utilisé des circuits intégrés programmables (FPGA) personnalisés pour leurs travaux, mais ils soulignent que la plupart des gains d'efficacité peuvent être réalisés grâce à des logiciels open source et à des ajustements des configurations existantes. Les principaux gains proviennent de l'élimination de la multiplication matricielle (MatMul) dans les processus d'entraînement et d'inférence des LLM. Pour supprimer MatMul du réseau neuronal tout en maintenant les performances et la précision, les chercheurs ont utilisé deux méthodes. Tout d'abord, ils ont converti le système numérique en un système "ternaire", codant les nombres comme -1, 0 et 1. Cela a permis le calcul par sommation plutôt que par multiplication traditionnelle. De plus, l'introduction d'un calcul basé sur le temps a doté le réseau d'une "mémoire" efficace, lui permettant de fonctionner plus rapidement avec moins d'opérations. Les chercheurs ont utilisé le modèle LLaMa LLM de Meta comme modèle de référence pour la comparaison. Ce travail a été inspiré par un document de Microsoft sur l'utilisation de nombres ternaires dans les réseaux neuronaux.
Cependant, les chercheurs de l'UC Santa Cruz sont allés plus loin en éliminant la multiplication matricielle et en rendant leur modèle open source. Fondamentalement, cette réalisation se résume à un problème d'optimisation. Rui-Jie Zhu, l'un des étudiants diplômés impliqués dans le projet, explique : "Nous avons remplacé l'opération coûteuse par des opérations moins chères. " Bien que l'applicabilité universelle de cette approche aux solutions d'IA et de LLM reste à voir, elle a le potentiel d'avoir un impact significatif sur le paysage de l'IA. Les récents développements dans l'industrie de l'IA ont montré une forte demande en énergie. Cette recherche suggère que grande partie de cette demande a été motivée par une course pour être le premier à adopter des méthodes de traitement inefficaces. Des personnalités réputées, comme le PDG d'Arm, ont exprimé des préoccupations selon lesquelles le rythme actuel de croissance de la demande en énergie de l'IA pourrait représenter un quart de la consommation électrique des États-Unis d'ici 2030. Réduire la consommation d'énergie à 1/50e du montant actuel représenterait une amélioration substantielle. L'espoir est que les principaux acteurs de l'industrie de l'IA, tels que Meta, OpenAI, Google et Nvidia, sauront exploiter cette percée open source. Un traitement plus rapide et plus efficace des charges de travail de l'IA nous rapprocherait de niveaux de fonctionnalité comparables au cerveau humain, qui, selon certaines estimations, fonctionne avec environ 0, 3 kWh par jour, soit 1/56e de l'énergie requise par un Nvidia H100. Cependant, il est crucial de noter que de nombreux LLM nécessitent des dizaines de milliers de ces GPU et des mois d'entraînement, ce qui signifie que notre propre matière grise n'est pas encore dépassée.
Watch video about
None
Try our premium solution and start getting clients — at no cost to you