NVIDIA impulsiona a inferência no Meta Llama 3

A NVIDIA anunciou, nodia 18 de abril, otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM) da Meta.

A colaboração entre as duas empresas tem o intuito democratizar o acesso à inteligência artificial de ponta, permitindo que desenvolvedores, pesquisadores e empresas de todos os portes explorem o potencial dessa tecnologia numa ampla gama de aplicações.

Nvidia impulsiona a inferência no meta llama 3

Treinado com poder NVIDIA

O Meta Llama 3 foi treinado em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand.

Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para otimizar o desempenho do LLM. A empresa planeia escalar ainda mais sua infraestrutura para 350.000 GPUs H100, impulsionando ainda mais o desenvolvimento da IA generativa.

Meta Llama 3 em ação: Do cloud computing aos dispositivos móveis

Versões do Meta Llama 3 aceleradas por GPUs NVIDIA estão disponíveis para uso em diversos ambientes: nuvem, data centers, dispositivos de borda e até mesmo PCs.

Nuvem: Desenvolvedores podem experimentar o Llama 3 na nuvem através da plataforma ai.nvidia.com. O modelo é empacotado como um microsserviço NVIDIA NIM com interface de programação de aplicações padrão, facilitando sua implantação em qualquer lugar.
Data centers: Empresas podem personalizar o Llama 3 com seus próprios dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server.
Dispositivos de borda: O Meta Llama 3 também funciona no NVIDIA Jetson Orin, ideal para aplicações de robótica e computação de borda, possibilitando a criação de agentes interativos como os do Jetson AI Lab.
PCs: GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs também aceleram a inferência no Llama 3, oferecendo aos desenvolvedores um vasto alcance de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Desempenho otimizado para diferentes necessidades

O desempenho ideal do Meta Llama 3 varia de acordo com a aplicação. Para um chatbot, por exemplo, é crucial equilibrar baixa latência, alta velocidade de leitura e uso eficiente da GPU para reduzir custos.

Em testes iniciais, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo (o equivalente aproximado de palavras para um LLM) – suficiente para atender cerca de 300 utilizadores simultâneos – na versão do Llama 3 com 70 biliões de parâmetros. Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia suportar mais de 2.400 utilizadores em simultâneo.

Para dispositivos de borda, a versão do Llama 3 com oito biliõess de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Compromisso com a comunidade de código aberto

A NVIDIA, como contribuidora ativa de código aberto, está comprometida em otimizar o software da comunidade para auxiliar os utilizadores nos seus desafios. Modelos de código aberto promovem a transparência na IA e permitem que os utilizadores partilhem os seus trabalhos sobre segurança e resiliência da IA.

Comentário do Diretor da NVIDIA para América Latina

Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda.
Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina

Conclusão:

A colaboração entre NVIDIA e Meta representa um passo importante na democratização da inteligência artificial, tornando essa tecnologia acessível a um público mais amplo e impulsionando o desenvolvimento de novas soluções inovadoras em diversos setores.

Para mais informações leia este artigo publicado no blog da NVIDIA

Outros artigos interessantes:

NVIDIA impulsiona a inferência no Meta Llama 3

Alfredo Beleza

Artigos relacionados

ChatGPT fica mais inteligente na saúde com o novo GPT-5.5

Dataland: O primeiro museu de arte gerada por IA do mundo

Anthropic suspende modelos Fable 5 e Mythos 5 por ordem dos EUA

Últimas notícias

Oppo Find N7 Wide: O próximo dobrável foca-se num ecrã sem vinco

Linux Foundation lança Appia Foundation para padronizar auditorias de IA

Hackathon policial identifica redes de exploração sexual em plataformas de subscrição

Prime Day antecipado: Soundcore Anker P30i por menos de 27 euros.

Turismo de autocaravana gera receita recorde de 1,6 mil milhões

Discord testa verificação de idade com cartões e Google Wallet

Huawei Watch Fit 5: Chegam novas ferramentas de saúde feminina

Prime Day antecipado: poupa 477 euros no iRobot Roomba Plus 505.

Xiaomi HyperOS 4: a lista de smartphones que vão receber a atualização

Ugreen lança carregador GaN de 65W ultra fino com três portas

Prime Day antecipado: Samsung Galaxy Watch Ultra com 325 euros de desconto

Samsung Galaxy S26 Ultra é o “Melhor do Teste”

Relatório de ciberameaças da INTERPOL revela escala industrial do cibercrime na Ásia

Novo trojan de acesso remoto ameaça ecossistema Android

Apple: O preço do iPhone 18 Pro pode assustar

Queda de preço no Xiaomi Pad 8 Pro: poupa mais de 150 euros

HP revela novo ecossistema de colaboração baseado em IA

ChatGPT fica mais inteligente na saúde com o novo GPT-5.5

Dataland: O primeiro museu de arte gerada por IA do mundo

Anthropic suspende modelos Fable 5 e Mythos 5 por ordem dos EUA