Mistral Medium 3.5 e Grok 4.3: Quando Eficiência Vira Vantagem Competitiva

in #pt-br8 days ago

Nem todo avanço em LLMs precisa vir de modelos de um trilhão de parâmetros. O final de abril e início de maio de 2026 trouxeram dois lançamentos que apostam em uma premissa diferente: desempenho de fronteira a custo substancialmente menor, com arquiteturas que fazem escolhas deliberadas sobre o que otimizar.

Mistral Medium 3.5: O Melhor Dense Model Aberto para Código

O Mistral Medium 3.5, lançado em 2 de maio de 2026, é uma aposta contra a maré. Enquanto praticamente todos os modelos grandes de 2026 usam Mixture of Experts, o Mistral Medium 3.5 é um modelo denso — 128 bilhões de parâmetros totais, todos ativos em cada inferência.

A escolha não é ingenuidade arquitetural. É uma decisão de produto: modelos densos têm comportamento mais previsível em hardware variado, latência mais consistente por inferência e ausência dos edge cases que surgem quando roteamentos MoE ativam especialistas incomuns. Para deployment em infraestrutura própria, isso tem valor operacional real.

O Que o Medium 3.5 Entrega

Os números de benchmark são precisos sobre onde o modelo se posiciona. No SWE-Bench, o Medium 3.5 marca 77,6% — melhor que todos os modelos open source densos disponíveis. Fica abaixo do Claude Sonnet 4.6 e do DeepSeek V4 Pro nos modelos de maior capacidade, mas à metade do custo do Sonnet.

O Medium 3.5 roda em quatro GPUs. Não exige cluster de 8 ou 16 GPUs como os modelos MoE maiores. Para operações que não têm infraestrutura de escala de datacenter mas querem desempenho real de código em produção, essa é a proposta: 77,6% SWE-Bench em hardware que cabe em um servidor de quatro GPUs.

Especificações:

  • 128 bilhões de parâmetros (denso)

  • Contexto de 256.000 tokens

  • US$ 1,50 por milhão de tokens de entrada via API

  • Disponível como open weights sob licença MIT modificada

A licença MIT modificada é relevante: permite uso comercial sem restrições para a maioria dos casos, com exigências específicas de atribuição. É mais aberta que a licença Meta Llama, menos aberta que a MIT pura do DeepSeek.

Posicionamento no Ecossistema

O Medium 3.5 substitui o Devstral 2 e o Magistral na linha da Mistral, consolidando capacidades de chat, raciocínio e código em um único modelo. A Mistral comunicou explicitamente que não vai mais manter modelos separados para cada função — Medium 3.5 é o flagship unificado.

Para times de engenharia que preferem um único modelo de produção para tarefas variadas — em vez de rotear entre múltiplos modelos especializados — isso simplifica a arquitetura do sistema.

Grok 4.3: Raciocínio Nativo e Custo Agressivo

O Grok 4.3, da xAI (empresa de Elon Musk), entrou em beta em 17 de abril de 2026, com acesso via API generalizado a partir de 1º de maio. É o lançamento mais relevante da xAI desde o Grok 4.20.

O Que Mudou em Relação ao 4.20

O 4.3 incorpora raciocínio nativo — o modelo "pensa" antes de responder, similar ao approach do DeepSeek R1 e do OpenAI o3. O raciocínio está integrado na inferência padrão, não é um modo separado que precisa ser ativado explicitamente.

A janela de contexto é de 1 milhão de tokens. O input de vídeo nativo — capacidade de processar diretamente arquivos de vídeo, não apenas imagens estáticas — diferencia o 4.3 da maioria dos concorrentes que ainda processam vídeo via frames extraídos.

Benchmarks destacados:

  • Índice de Inteligência: 53 (mediana do mercado: 35)

  • CaseLaw v2: primeiro lugar entre todos os modelos testados

  • CorpFin: primeiro lugar entre todos os modelos testados

  • Ganho de 300+ Elo no GDPval-AA versus o Grok 4.20

O CaseLaw e CorpFin são benchmarks de raciocínio jurídico e financeiro, respectivamente. Liderar nessas categorias indica especialização relevante para setores profissionais específicos.

Preço e Acesso

O preço do Grok 4.3 via API é US$ 1,25 por milhão de tokens de entrada — agressivamente abaixo do GPT-5.5 e do Claude Opus 4.7, e competitivo com o Gemini 3.1 Pro. O modelo não tem pesos abertos; é acessível exclusivamente via API da xAI.

A xAI não tem o ecosistema de integrações da OpenAI ou da Anthropic, mas o preço e os benchmarks em raciocínio jurídico e financeiro criam um nicho claro: empresas de serviços profissionais que precisam de raciocínio sofisticado a custo controlado.

A Lógica da Eficiência

O que o Mistral Medium 3.5 e o Grok 4.3 compartilham é um posicionamento que não compete diretamente com GPT-5.5 ou Claude Opus 4.7 no topo absoluto de performance. Competem no segundo nível — modelos que oferecem 85-90% do desempenho de fronteira a 30-50% do custo.

Para a maioria dos casos de uso em produção, esse segundo nível é suficiente. A diferença entre 87% e 77% no SWE-Bench importa para automação de engenharia de software em escala. Para análise de documentos, geração de conteúdo, atendimento e a maior parte dos workflows empresariais, não importa.

A estratégia de preço agindo como competição técnica é uma das dinâmicas mais importantes de 2026. Não são apenas os melhores modelos que mudam o mercado — são os modelos bons o suficiente a preço que torna a adoção irresistível.