NVIDIA apresenta solução inovadora de memória para IA e supera gargalos de armazenamento

14 de janeiro de 2026

Rodrigo Rosalin

A evolução da IA Agentic, que se afasta dos chatbots sem estado para fluxos de trabalho mais complexos, está exigindo uma nova arquitetura de memória. À medida que os modelos de base se expandem para trilhões de parâmetros e as janelas de contexto alcançam milhões de tokens, o custo computacional para manter o histórico está crescendo mais rápido do que a capacidade de processá-lo. As organizações enfrentam um gargalo: o volume de “memória de longo prazo” (conhecida tecnicamente como cache de chave-valor) está sobrecarregando as arquiteturas de hardware existentes.

Atualmente, as infraestruturas obrigam a escolher entre armazenar o contexto de inferência na escassa e cara memória de alta largura de banda dos GPUs (HBM) ou relegá-lo a um armazenamento mais lento e geral. A primeira opção é inviável para grandes contextos, enquanto a segunda cria uma latência que inviabiliza interações em tempo real. Para resolver essa disparidade, a NVIDIA introduziu a plataforma Inference Context Memory Storage (ICMS) dentro de sua arquitetura Rubin, propondo um novo nível de armazenamento projetado para lidar com a natureza efêmera e de alta velocidade da memória de IA.

O desafio operacional reside no comportamento específico dos modelos baseados em transformadores. Para evitar recalcular todo o histórico da conversa a cada nova palavra gerada, os modelos armazenam estados anteriores no cache de chave-valor. Nos fluxos de trabalho agentic, esse cache atua como memória persistente, crescendo linearmente com o comprimento da sequência. Isso cria uma classe de dados distinta, essencial para o desempenho imediato, mas que não requer as garantias de durabilidade pesada dos sistemas de arquivos empresariais.

A resposta da indústria envolve a inserção de uma camada construída especificamente para essa hierarquia. A plataforma ICMS estabelece um nível “G3.5” — uma camada de flash conectada por Ethernet projetada explicitamente para inferência em grande escala. Utilizando o processador de dados NVIDIA BlueField-4, a plataforma descarrega a gestão desses dados de contexto do CPU anfitrião. O sistema oferece petabytes de capacidade compartilhada por pod, permitindo que agentes mantenham grandes quantidades de histórico sem ocupar a cara HBM.

A implementação dessa arquitetura requer uma mudança na forma como as equipes de TI veem o armazenamento em rede. A plataforma ICMS depende do Ethernet Spectrum-X da NVIDIA para fornecer a conectividade de alta largura de banda e baixa latência necessária para tratar o armazenamento flash quase como se fosse memória local. Para as equipes de infraestrutura empresarial, o ponto de integração é a camada de orquestração. Ferramentas como o NVIDIA Dynamo e a Inference Transfer Library (NIXL) gerenciam o movimento dos blocos de chave-valor entre os níveis.

Adotar um nível de memória de contexto dedicado impacta o planejamento de capacidade e o design de datacenters. A transição para a IA agentic força uma reconfiguração física do datacenter, permitindo que as empresas desacoplem o crescimento da memória do modelo do custo da HBM dos GPUs. Essa arquitetura para IA agentic permite que múltiplos agentes compartilhem um grande pool de memória de baixo consumo, reduzindo o custo de servir consultas complexas e aumentando a escala ao permitir um raciocínio de alta capacidade.

Fonte:https://www.artificialintelligence-news.com/news/agentic-ai-scaling-requires-new-memory-architecture/