
A DeepSeek divulgou um novo artigo científico que descreve uma abordagem mais eficiente para o desenvolvimento de inteligência artificial, reforçando a estratégia da indústria chinesa de competir com líderes globais como a OpenAI, mesmo sob as limitações impostas pelos Estados Unidos ao acesso a semicondutores avançados da Nvidia.
O estudo, assinado por 19 pesquisadores e coassinado pelo fundador da empresa, Liang Wenfeng, apresenta um framework batizado de Manifold-Constrained Hyper-Connections. De acordo com os autores, a proposta busca ampliar a escalabilidade dos modelos de IA ao mesmo tempo em que reduz de forma significativa os custos computacionais e o consumo energético durante o treinamento — dois dos principais desafios enfrentados pela IA de grande escala.
Trabalhos técnicos da DeepSeek costumam antecipar movimentos estratégicos da companhia. Em 2024, a startup chamou a atenção do mercado ao lançar o modelo de raciocínio R1, desenvolvido com um custo muito inferior ao de soluções concorrentes do Vale do Silício. Desde então, a empresa sediada em Hangzhou apresentou versões menores de seus sistemas, enquanto cresce a expectativa em torno do próximo modelo principal, informalmente conhecido como R2, cuja apresentação é esperada para o Festival da Primavera, em fevereiro.
O novo artigo também ilustra como startups chinesas vêm sendo pressionadas a adotar caminhos alternativos de inovação. Diante das restrições ao acesso aos chips mais avançados — considerados fundamentais para treinar e operar modelos de IA em larga escala — pesquisadores passaram a explorar arquiteturas não convencionais e novos métodos de treinamento. No caso da DeepSeek, essa estratégia envolve repensar desde o design dos modelos até a infraestrutura utilizada no processo de aprendizado.
Publicado no repositório aberto arXiv e na plataforma open source Hugging Face, o estudo aborda desafios como instabilidade no treinamento e limitações de escala. Os experimentos foram conduzidos com modelos que variam entre 3 bilhões e 27 bilhões de parâmetros, com base em pesquisas anteriores da ByteDance divulgadas em 2024 sobre arquiteturas de hiperconexão.
Segundo os autores, a nova técnica pode representar um avanço relevante para a evolução dos chamados modelos fundacionais, indicando que eficiência computacional e criatividade arquitetural tendem a se consolidar como vantagens competitivas em um ambiente global cada vez mais restritivo e disputado.



