June 26, 2024, 11:01 a.m.
6

Pesquisadores de IA encontraram uma maneira de executar LLMs em 13 watts semelhantes a uma lâmpada, sem perda de desempenho - Tom's Hardware.

Um artigo de pesquisa e um relatório complementar da UC Santa Cruz discutem o feito de pesquisadores de IA que conseguiram implementar com sucesso Modelos de Linguagem (LLMs) modernos em escala de bilhões de parâmetros, utilizando apenas 13 watts de energia. Esse nível de consumo de energia é comparável ao de uma lâmpada LED equivalente a 100W, mas significativamente mais eficiente do que os 700W necessários pelas GPUs de centros de dados como a Nvidia H100 e H200, sem falar na próxima Blackwell B200, que pode consumir até 1200W por GPU. Os pesquisadores usaram hardware FPGA personalizado para seu trabalho, mas enfatizam que a maioria dos ganhos de eficiência pode ser alcançada por meio de software de código aberto e ajustes em configurações existentes. Os principais ganhos surgem da eliminação da multiplicação de matrizes (MatMul) tanto no treinamento quanto no processo de inferência do LLM. Para remover o MatMul da rede neural, mantendo o desempenho e a precisão, os pesquisadores utilizaram dois métodos. Primeiro, eles converteram o sistema numérico em um sistema "ternário", codificando números como -1, 0 e 1. Isso permitiu a computação por meio de soma em vez da multiplicação tradicional. Além disso, a introdução da computação baseada em tempo forneceu à rede uma "memória" efetiva, possibilitando um desempenho mais rápido com menos operações. Os pesquisadores usaram o LLM LLaMa da Meta como modelo padrão para comparação. Este trabalho foi inspirado por um artigo da Microsoft sobre a utilização de números ternários em redes neurais.

No entanto, os pesquisadores da UC Santa Cruz foram além, eliminando a multiplicação de matrizes e tornando seu modelo de código aberto. No final, essa conquista se resume a um problema de otimização. Rui-Jie Zhu, um dos estudantes de pós-graduação envolvidos no projeto, explica: "Substituímos a operação cara por operações mais baratas. " Embora a aplicabilidade universal dessa abordagem em soluções de IA e LLM ainda precise ser vista, ela tem o potencial de impactar significativamente o panorama da IA. Desenvolvimentos recentes na indústria de IA têm mostrado alta demanda por energia. Essa pesquisa sugere que grande parte dessa demanda tem sido impulsionada pela corrida para ser o primeiro a adotar métodos de processamento ineficientes. Figuras respeitáveis, como o CEO da Arm, demonstraram preocupações de que a taxa atual de aumento na demanda de energia para IA possa consumir um quarto da energia dos Estados Unidos até 2030. Reduzir o consumo de energia para 1/50 do valor atual representaria uma melhoria substancial. A esperança é que grandes players da indústria de IA, como Meta, OpenAI, Google e Nvidia, encontrem maneiras de aproveitar essa descoberta de código aberto. O processamento mais rápido e eficiente das cargas de trabalho de IA nos aproximaria de atingir níveis de funcionalidade semelhantes aos do cérebro humano, que, segundo algumas estimativas, opera com aproximadamente 0, 3 kWh por dia, ou 1/56 da energia exigida por uma Nvidia H100. No entanto, é crucial observar que muitos LLMs requerem dezenas de milhares dessas GPUs e meses de treinamento, o que significa que nossa própria matéria cinzenta ainda não foi ultrapassada.

News source



Create a post

based on this news in the Content Maker

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

sidebar banner