A evolução da IA Agentic, que se afasta dos chatbots sem estado para fluxos de trabalho mais complexos, está exigindo uma nova arquitetura de memória. À medida que os modelos de base se expandem para trilhões de parâmetros e as janelas de contexto alcançam milhões de tokens, o custo computacional para manter o histórico está crescendo mais rápido do que a capacidade de processá-lo. As organizações enfrentam um gargalo: o volume de “memória de longo prazo” (conhecida tecnicamente como cache de chave-valor) está sobrecarregando as arquiteturas de hardware existentes.
Atualmente, as infraestruturas obrigam a escolher entre armazenar o contexto de inferência na escassa e cara memória de alta largura de banda dos GPUs (HBM) ou relegá-lo a um armazenamento mais lento e geral. A primeira opção é inviável para grandes contextos, enquanto a segunda cria uma latência que inviabiliza interações em tempo real. Para resolver essa disparidade, a NVIDIA introduziu a plataforma Inference Context Memory Storage (ICMS) dentro de sua arquitetura Rubin, propondo um novo nível de armazenamento projetado para lidar com a natureza efêmera e de alta velocidade da memória de IA.
O desafio operacional reside no comportamento específico dos modelos baseados em transformadores. Para evitar recalcular todo o histórico da conversa a cada nova palavra gerada, os modelos armazenam estados anteriores no cache de chave-valor. Nos fluxos de trabalho agentic, esse cache atua como memória persistente, crescendo linearmente com o comprimento da sequência. Isso cria uma classe de dados distinta, essencial para o desempenho imediato, mas que não requer as garantias de durabilidade pesada dos sistemas de arquivos empresariais.
A resposta da indústria envolve a inserção de uma camada construída especificamente para essa hierarquia. A plataforma ICMS estabelece um nível “G3.5” — uma camada de flash conectada por Ethernet projetada explicitamente para inferência em grande escala. Utilizando o processador de dados NVIDIA BlueField-4, a plataforma descarrega a gestão desses dados de contexto do CPU anfitrião. O sistema oferece petabytes de capacidade compartilhada por pod, permitindo que agentes mantenham grandes quantidades de histórico sem ocupar a cara HBM.
A implementação dessa arquitetura requer uma mudança na forma como as equipes de TI veem o armazenamento em rede. A plataforma ICMS depende do Ethernet Spectrum-X da NVIDIA para fornecer a conectividade de alta largura de banda e baixa latência necessária para tratar o armazenamento flash quase como se fosse memória local. Para as equipes de infraestrutura empresarial, o ponto de integração é a camada de orquestração. Ferramentas como o NVIDIA Dynamo e a Inference Transfer Library (NIXL) gerenciam o movimento dos blocos de chave-valor entre os níveis.
Adotar um nível de memória de contexto dedicado impacta o planejamento de capacidade e o design de datacenters. A transição para a IA agentic força uma reconfiguração física do datacenter, permitindo que as empresas desacoplem o crescimento da memória do modelo do custo da HBM dos GPUs. Essa arquitetura para IA agentic permite que múltiplos agentes compartilhem um grande pool de memória de baixo consumo, reduzindo o custo de servir consultas complexas e aumentando a escala ao permitir um raciocínio de alta capacidade.