IA & InovaçãoNews
Tendência

Microsoft lança novos modelos de IA multimodal para texto, voz e imagem

Empresa aposta em soluções mais rápidas e acessíveis para competir com OpenAI e Google

A Microsoft AI, divisão de pesquisa da gigante de tecnologia, anunciou na última quinta-feira o lançamento de três novos modelos fundamentais de inteligência artificial capazes de gerar texto, áudio e imagens.

A novidade reforça a estratégia da empresa em construir sua própria infraestrutura de modelos multimodais, ampliando a competitividade com outros laboratórios de IA — mesmo mantendo sua parceria com a OpenAI.

Entre os destaques está o MAI-Transcribe-1, um modelo capaz de converter fala em texto em 25 idiomas diferentes. Segundo a empresa, ele apresenta desempenho 2,5 vezes superior ao Azure Fast, solução anterior da própria Microsoft. Já o MAI-Voice-1 é focado na geração de áudio, permitindo criar até 60 segundos de fala em apenas um segundo, além de oferecer a possibilidade de personalização de voz. Por sua vez, o MAI-Image-2 atua na geração de imagens.

O modelo de imagem havia sido disponibilizado inicialmente no MAI Playground, uma nova plataforma de testes para grandes modelos de linguagem lançada em 19 de março. Agora, os três modelos passam a integrar o Microsoft Foundry, sendo que os modelos de transcrição e voz também continuam acessíveis no ambiente de testes.

Essas tecnologias foram desenvolvidas pela equipe MAI Superintelligence, liderada por Mustafa Suleyman, CEO da Microsoft AI. O grupo foi oficialmente apresentado em novembro de 2025 como parte da aposta da empresa em avanços mais profundos em inteligência artificial.

Em publicação oficial, Suleyman destacou que a empresa segue uma abordagem centrada no ser humano: a chamada “IA humanista”. Segundo ele, o objetivo é desenvolver soluções alinhadas à forma como as pessoas se comunicam no dia a dia, com foco em aplicações práticas. O executivo também indicou que novos modelos devem ser lançados em breve, tanto na plataforma Foundry quanto diretamente nos produtos da Microsoft.

Em um cenário cada vez mais competitivo no mercado de modelos de linguagem, a Microsoft aposta no custo como diferencial. De acordo com a empresa, seus modelos podem ser mais acessíveis do que os oferecidos por concorrentes como Google e OpenAI.

Os preços iniciais divulgados são: US$ 0,36 por hora para o MAI-Transcribe-1, US$ 22 por milhão de caracteres no MAI-Voice-1, e, no caso do MAI-Image-2, US$ 5 por milhão de tokens de entrada de texto e US$ 33 por milhão de tokens de saída de imagem.

Apesar do avanço em soluções próprias, Suleyman reforçou que a parceria com a OpenAI permanece estratégica. Em entrevistas recentes, ele destacou que ajustes no acordo entre as empresas permitiram à Microsoft ampliar seus investimentos em pesquisas voltadas à superinteligência.

Até o momento, a Microsoft já destinou mais de US$ 13 bilhões à OpenAI e continua integrando os modelos da parceira em diversos produtos. A estratégia da empresa segue um modelo híbrido: desenvolver tecnologias internamente enquanto mantém colaborações externas — prática semelhante à adotada no fornecimento de chips.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo