IA & InovaçãoNews
Tendência

Google apresenta TurboQuant: tecnologia que reduz uso de memória em IA e aumenta desempenho

Nova solução comprime dados em até 6 vezes, melhora velocidade de processamento e promete revolucionar o uso de inteligência artificial

Na última terça-feira (24), o Google anunciou o TurboQuant, uma nova tecnologia de compressão altamente eficiente que pode transformar a maneira como sistemas de inteligência artificial gerenciam grandes volumes de dados. A proposta permite que os modelos armazenem muito mais informações simultaneamente, utilizando menos espaço de memória física, sem comprometer a qualidade das respostas.

Para compreender a relevância dessa inovação, é importante conhecer o conceito de KV Cache, que funciona como uma espécie de memória temporária das IAs. Esse recurso armazena os pontos principais de uma conversa ou conteúdo, evitando que o sistema precise reprocessar todas as informações a cada nova interação.

Hoje, esse tipo de memória é um dos principais responsáveis pelo alto consumo de hardware. Quanto maior a quantidade de dados que a IA precisa reter, maior é a exigência por memória RAM de alto desempenho, o que encarece os serviços e limita a escalabilidade dos chatbots. Com o TurboQuant, esses dados podem ser compactados em até seis vezes, permitindo lidar com contextos extensos de forma mais eficiente e econômica.

A tecnologia se apoia em dois fundamentos principais para otimizar o armazenamento:

O primeiro é o PolarQuant, que altera a forma como os dados são organizados. Em vez de utilizar sistemas tradicionais mais complexos, ele converte as informações para um modelo baseado em coordenadas polares (ângulos e raios), simplificando a estrutura e eliminando redundâncias.

O segundo é o QJL, que atua como um mecanismo de verificação. Ele garante que, mesmo após a compressão, os dados essenciais sejam preservados, corrigindo possíveis distorções e mantendo a precisão das respostas da IA.

De acordo com o TechCrunch, essa inovação vem sendo comparada ao chamado “momento DeepSeek” do Google — uma referência ao avanço chinês que demonstrou ser possível atingir alto desempenho com menor custo de hardware. Em testes com modelos como Gemma e Mistral, o TurboQuant não apenas reduziu o uso de memória, como também aumentou a velocidade de processamento em até oito vezes em aceleradores H100.

Apesar de ainda estar em fase experimental e com apresentação prevista na conferência ICLR 2026, a expectativa é que a tecnologia seja incorporada futuramente a ferramentas de busca semântica e modelos como o Gemini. Isso deve tornar as interações com inteligência artificial mais rápidas e eficientes. Vale destacar, no entanto, que o TurboQuant é voltado para otimizar a memória durante o uso (inferência), não reduzindo os requisitos de hardware necessários para o treinamento de novos modelos.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo