Microsoft lança novos modelos de IA multimodal para texto, voz e imagem

A Microsoft AI, divisão de pesquisa da gigante de tecnologia, anunciou na última quinta-feira o lançamento de três novos modelos fundamentais de inteligência artificial capazes de gerar texto, áudio e imagens.

A novidade reforça a estratégia da empresa em construir sua própria infraestrutura de modelos multimodais, ampliando a competitividade com outros laboratórios de IA — mesmo mantendo sua parceria com a OpenAI.

Entre os destaques está o MAI-Transcribe-1, um modelo capaz de converter fala em texto em 25 idiomas diferentes. Segundo a empresa, ele apresenta desempenho 2,5 vezes superior ao Azure Fast, solução anterior da própria Microsoft. Já o MAI-Voice-1 é focado na geração de áudio, permitindo criar até 60 segundos de fala em apenas um segundo, além de oferecer a possibilidade de personalização de voz. Por sua vez, o MAI-Image-2 atua na geração de imagens.

O modelo de imagem havia sido disponibilizado inicialmente no MAI Playground, uma nova plataforma de testes para grandes modelos de linguagem lançada em 19 de março. Agora, os três modelos passam a integrar o Microsoft Foundry, sendo que os modelos de transcrição e voz também continuam acessíveis no ambiente de testes.

Essas tecnologias foram desenvolvidas pela equipe MAI Superintelligence, liderada por Mustafa Suleyman, CEO da Microsoft AI. O grupo foi oficialmente apresentado em novembro de 2025 como parte da aposta da empresa em avanços mais profundos em inteligência artificial.

Em publicação oficial, Suleyman destacou que a empresa segue uma abordagem centrada no ser humano: a chamada “IA humanista”. Segundo ele, o objetivo é desenvolver soluções alinhadas à forma como as pessoas se comunicam no dia a dia, com foco em aplicações práticas. O executivo também indicou que novos modelos devem ser lançados em breve, tanto na plataforma Foundry quanto diretamente nos produtos da Microsoft.

Em um cenário cada vez mais competitivo no mercado de modelos de linguagem, a Microsoft aposta no custo como diferencial. De acordo com a empresa, seus modelos podem ser mais acessíveis do que os oferecidos por concorrentes como Google e OpenAI.

Os preços iniciais divulgados são: US$ 0,36 por hora para o MAI-Transcribe-1, US$ 22 por milhão de caracteres no MAI-Voice-1, e, no caso do MAI-Image-2, US$ 5 por milhão de tokens de entrada de texto e US$ 33 por milhão de tokens de saída de imagem.

Apesar do avanço em soluções próprias, Suleyman reforçou que a parceria com a OpenAI permanece estratégica. Em entrevistas recentes, ele destacou que ajustes no acordo entre as empresas permitiram à Microsoft ampliar seus investimentos em pesquisas voltadas à superinteligência.

Até o momento, a Microsoft já destinou mais de US$ 13 bilhões à OpenAI e continua integrando os modelos da parceira em diversos produtos. A estratégia da empresa segue um modelo híbrido: desenvolver tecnologias internamente enquanto mantém colaborações externas — prática semelhante à adotada no fornecimento de chips.

Café com Bytes CCB 4 horas atrás

0 12 2 minutos de leitura

Deixe um comentário Cancelar resposta

Velma Pereira
Ótimo! Vou seguit...
Isabella
Excelente artigo! Agoooraaaaa eu entendi! Parabéns!...
Café com Bytes CCB
Obrigado pelo comentário Diógenes, parabéns @fernada_gregori...
Diógenes
Excelente artigo! A diferenciação entre bancos e instituiçõe...
Luciane Couto
Ótima pergunta! Você tocou em dois pontos essenciais de higi...

Microsoft lança novos modelos de IA multimodal para texto, voz e imagem

Empresa aposta em soluções mais rápidas e acessíveis para competir com OpenAI e Google

Café com Bytes CCB

Deixe um comentário Cancelar resposta

Bancos vs. instituições de pagamento: a nova geração do sistema financeiro brasileiro

Golpe bom não parece golpe.

Por que o Vale do Silício é Único? O Ecossistema que Faz as Coisas Acontecerem

Descentralização dos Estudos Clínicos: Como a Tecnologia Está Revolucionando a Pesquisa na Indústria Farmacêutica

“A Spike Lee Joint”: tradição, provocação e luta de classes no cinema de um autor inquieto

Café com Bytes CCB

Inscreva-se em nossa lista de e-mails para receber as novas atualizações!

Missão Artemis II testa limites da exploração lunar após superar falhas iniciais rumo à Lua

Violação de dados na Hims & Hers expõe informações de clientes: o que se sabe sobre o ataque

Artigos relacionados

O Ponto Cego do Compliance: Por que seu Assessment pode estar te enganando

IA deve fechar até 30% das vendas em 3 anos e expõe novo risco reputacional para o varejo

Cibersegurança como pauta institucional

Cresce no Brasil número de processos por fraudes financeiras e cobranças indevidas

Deixe um comentário Cancelar resposta

Bancos vs. instituições de pagamento: a nova geração do sistema financeiro brasileiro

Golpe bom não parece golpe.

Por que o Vale do Silício é Único? O Ecossistema que Faz as Coisas Acontecerem

Descentralização dos Estudos Clínicos: Como a Tecnologia Está Revolucionando a Pesquisa na Indústria Farmacêutica

“A Spike Lee Joint”: tradição, provocação e luta de classes no cinema de um autor inquieto