Os LLMs utilizam processos de tokenização para transformar caracteres em unidades computacionais, processando trilhões de tokens derivados de HTML durante seu treinamento. Isso lhes permite desenvolver representações internas sofisticadas das estruturas web. Mueller destaca que, se formatos específicos fossem realmente vantajosos, empresas como OpenAI e Anthropic já teriam se manifestado sobre isso. A ausência de diretrizes explícitas sugere que o processamento atual de HTML é suficiente.
A Generative Engine Optimization (GEO) representa uma evolução do SEO tradicional, adaptando-se ao paradigma de busca assistida por IA. Enquanto o SEO foca em rankings em motores de busca, o GEO otimiza para citações em respostas geradas por IA. Estudos indicam que fatores como autoridade de domínio e clareza estrutural influenciam a probabilidade de citação por sistemas de IA.
O uso de Markdown ou JSON para LLMs baseia-se na ideia de simplificação estrutural. No entanto, a manutenção de múltiplas versões de conteúdo pode introduzir complexidade e riscos de inconsistência. Além disso, a tokenização de Markdown ou JSON não oferece vantagens significativas sobre HTML bem estruturado.
O uso de dados estruturados, como Schema markup, é uma abordagem estabelecida para comunicação semântica com sistemas automatizados. Esses dados se integram com HTML, fornecendo contexto adicional sem duplicação. Estudos mostram que uma implementação robusta de schema markup pode aumentar a inclusão em recursos de IA.
O protocolo llms.txt, proposto por Jeremy Howard, sugere um arquivo markdown para destacar conteúdo prioritário para LLMs. No entanto, a adoção ainda é experimental e carece de suporte formal. A proliferação de padrões não oficiais pode criar fragmentação contraproducente.
A declaração de Mueller reforça a importância de uma arquitetura de informação clara e semântica. A evolução dos sistemas de busca para incorporar capacidades generativas não elimina a necessidade de conteúdo fonte de qualidade. Publishers que focam em autoridade e clareza estão bem posicionados, independentemente de mudanças nos formatos de consumo.
Fonte:https://www.conversion.com.br/blog/ohn-mueller-markdown-llms/