
A Cloudflare anunciou uma mudança estratégica na forma como sites podem ser consumidos por robôs automatizados. Após desenvolver mecanismos para cobrar crawlers de inteligência artificial pelo acesso a conteúdos online, a empresa agora passa a oferecer uma alternativa técnica para tornar esse consumo mais eficiente: a entrega de páginas em formato Markdown em vez do tradicional HTML.
A novidade permite que agentes automatizados e crawlers de IA recebam o conteúdo estruturado em Markdown — uma linguagem de marcação simplificada que preserva a organização e a legibilidade do texto, mas elimina grande parte das tags, scripts e elementos de layout presentes no HTML.
Menos ruído, menos tokens e mais eficiência para modelos de IA
Segundo Celso Martinho, diretor de engenharia da Cloudflare, e Will Allen, vice-presidente da companhia, o Markdown reduz significativamente o “ruído” enfrentado por modelos de linguagem ao processar páginas web.
O HTML tradicional inclui uma grande quantidade de tags (<div>, <h2>, classes, identificadores, scripts e barras de navegação) que não agregam valor semântico direto ao conteúdo, mas consomem tokens — a unidade utilizada por modelos de IA para processar texto.
Na prática, a diferença pode ser expressiva. Um título simples como “## About Us” consome cerca de 3 tokens em Markdown. Já a versão equivalente em HTML, com tags e atributos adicionais, pode chegar a 12 ou 15 tokens — sem considerar outros elementos estruturais da página. Em um exemplo divulgado pela própria empresa, um post do blog da Cloudflare foi reduzido de 16.180 tokens em HTML para apenas 3.150 tokens em Markdown, representando uma queda aproximada de 80%.
Como funciona a entrega em Markdown
Para que o conteúdo seja servido nesse novo formato, o crawler precisa incluir no cabeçalho HTTP (Accept header) a opção text/markdown. Caso o editor do site tenha ativado a funcionalidade, a rede da Cloudflare responde automaticamente com o conteúdo convertido.
Além disso, a empresa adiciona um cabeçalho chamado x-markdown-tokens, que informa a quantidade total de tokens do texto entregue. Esse dado é particularmente relevante para agentes de IA que trabalham com janelas de contexto limitadas, permitindo que o sistema decida se processa o conteúdo integralmente ou se precisa dividi-lo em partes menores.
A funcionalidade é válida para páginas HTML e não se aplica a arquivos como PDF.
Content Signals Policy amplia controle sobre uso por IA
A conversão para Markdown complementa outra iniciativa recente da companhia: a Content Signals Policy. O recurso permite que editores adicionem diretrizes no arquivo robots.txt indicando como desejam que seu conteúdo seja utilizado por sistemas de inteligência artificial.
Entre as opções disponíveis, é possível declarar se o material pode ser usado para:
-
Treinamento de IA
-
Busca baseada em IA
-
Aplicações pós-treinamento, como RAG (Retrieval Augmented Generation)
Apesar disso, assim como o robots.txt tradicional, a adesão às diretrizes é voluntária — não se trata de um bloqueio técnico obrigatório.
De acordo com executivos da empresa, agentes de codificação como Claude Code e OpenCode já solicitam conteúdo em Markdown em seus cabeçalhos HTTP. Com a nova funcionalidade, a Cloudflare busca oferecer aos publicadores uma forma de otimizar a entrega de conteúdo para esse público automatizado em expansão.
A medida reforça uma tendência crescente: à medida que a inteligência artificial passa a consumir a web de forma intensiva, a própria estrutura técnica dos sites começa a evoluir para atender essa nova demanda.



