NVIDIA apresenta solução inovadora de memória para IA e supera gargalos de armazenamento

A evolução da IA Agentic, que se afasta dos chatbots sem estado para fluxos de trabalho mais complexos, está exigindo uma nova arquitetura de memória. À medida que os modelos de base se expandem para trilhões de parâmetros e as janelas de contexto alcançam milhões de tokens, o custo computacional para manter o histórico está crescendo mais rápido do que a capacidade de processá-lo. As organizações enfrentam um gargalo: o volume de “memória de longo prazo” (conhecida tecnicamente como cache de chave-valor) está sobrecarregando as arquiteturas de hardware existentes.

Atualmente, as infraestruturas obrigam a escolher entre armazenar o contexto de inferência na escassa e cara memória de alta largura de banda dos GPUs (HBM) ou relegá-lo a um armazenamento mais lento e geral. A primeira opção é inviável para grandes contextos, enquanto a segunda cria uma latência que inviabiliza interações em tempo real. Para resolver essa disparidade, a NVIDIA introduziu a plataforma Inference Context Memory Storage (ICMS) dentro de sua arquitetura Rubin, propondo um novo nível de armazenamento projetado para lidar com a natureza efêmera e de alta velocidade da memória de IA.

O desafio operacional reside no comportamento específico dos modelos baseados em transformadores. Para evitar recalcular todo o histórico da conversa a cada nova palavra gerada, os modelos armazenam estados anteriores no cache de chave-valor. Nos fluxos de trabalho agentic, esse cache atua como memória persistente, crescendo linearmente com o comprimento da sequência. Isso cria uma classe de dados distinta, essencial para o desempenho imediato, mas que não requer as garantias de durabilidade pesada dos sistemas de arquivos empresariais.

A resposta da indústria envolve a inserção de uma camada construída especificamente para essa hierarquia. A plataforma ICMS estabelece um nível “G3.5” — uma camada de flash conectada por Ethernet projetada explicitamente para inferência em grande escala. Utilizando o processador de dados NVIDIA BlueField-4, a plataforma descarrega a gestão desses dados de contexto do CPU anfitrião. O sistema oferece petabytes de capacidade compartilhada por pod, permitindo que agentes mantenham grandes quantidades de histórico sem ocupar a cara HBM.

A implementação dessa arquitetura requer uma mudança na forma como as equipes de TI veem o armazenamento em rede. A plataforma ICMS depende do Ethernet Spectrum-X da NVIDIA para fornecer a conectividade de alta largura de banda e baixa latência necessária para tratar o armazenamento flash quase como se fosse memória local. Para as equipes de infraestrutura empresarial, o ponto de integração é a camada de orquestração. Ferramentas como o NVIDIA Dynamo e a Inference Transfer Library (NIXL) gerenciam o movimento dos blocos de chave-valor entre os níveis.

Adotar um nível de memória de contexto dedicado impacta o planejamento de capacidade e o design de datacenters. A transição para a IA agentic força uma reconfiguração física do datacenter, permitindo que as empresas desacoplem o crescimento da memória do modelo do custo da HBM dos GPUs. Essa arquitetura para IA agentic permite que múltiplos agentes compartilhem um grande pool de memória de baixo consumo, reduzindo o custo de servir consultas complexas e aumentando a escala ao permitir um raciocínio de alta capacidade.

Fonte:https://www.artificialintelligence-news.com/news/agentic-ai-scaling-requires-new-memory-architecture/

Seu concorrente já está no Google. E você?

Comece agora com 7 dias grátis e 5 artigos bônus. Sem cartão de crédito. Mais de 800 empresas já confiam na Airticles

Seu site na primeira página do Google.

SEO Automatizado para empresas que querem crescer sem depender de anúncios.

Airticles Tecnologia Ltda | 59.780.182/0001-03. © Todos os direitos reservados.