Gemini 3: Como o Flash desbancou o Pro e mudou a relação custo-qualidade

Em dezembro de 2025, o Google lançou o Gemini 3 Flash com uma especificação que parecia impossível: um modelo rápido e barato que superava, em benchmarks científicos, modelos "Pro" de gerações anteriores que custavam 6 a 10 vezes mais por token. O Gemini 3 Flash marcou 90.4% no GPQA Diamond — o mesmo benchmark onde o GPT-4 registrava 53.6% — por US$ 0.50 por milhão de tokens de entrada.

Essa ruptura não é apenas numérica. Ela redefiniu o que o mercado espera de modelos "Flash" (rápidos/baratos) e forçou todos os competidores a reavaliar sua estrutura de preços.

A arquitetura da disrupção

O Gemini 3 Flash é resultado de uma combinação de fatores: melhorias de arquitetura acumuladas desde o Gemini 2.0, destilação de conhecimento dos modelos Pro para variantes menores, e otimizações de inferência que o Google não publicou em detalhes. O resultado prático é 3 vezes mais velocidade que o Gemini 2.5 Pro com desempenho igual ou superior na maioria dos benchmarks avaliados no lançamento.

A janela de contexto é de 1 milhão de tokens — o mesmo que modelos Pro de outros fornecedores. O modelo processa texto, imagens, áudio e vídeo de forma nativa, se tornando o modelo padrão do aplicativo Gemini a partir de dezembro de 2025.

Gemini 3.1 Pro: quando o premium ainda vale

O Gemini 3.1 Pro, lançado em fevereiro de 2026, mantém a posição de flagship do Google para tarefas de fronteira. Com 94.3% no GPQA Diamond — o maior score já registrado nesse benchmark — o modelo lidera o raciocínio científico avançado. Está em segundo lugar no ranking composto global de benchmarks, praticamente empatado com o GPT-5.2 da OpenAI.

O contexto de 1 milhão de tokens (com versão experimental de 2 milhões) e capacidade nativa de processar os cinco tipos de input — texto, imagem, áudio, vídeo e PDF — na mesma chamada de API mantém o Gemini 3.1 Pro como referência para casos de uso multimodal complexo. O preço é US$ 2,00 por milhão de tokens de entrada e US$ 12,00 por milhão de saída para contextos abaixo de 200K.

Gemini 3.5 Flash: o passo seguinte na escada

Em maio de 2026, no Google I/O, foi lançado o Gemini 3.5 Flash — confirmando a cadência de evolução rápida da família. O modelo supera o Gemini 3.1 Pro em benchmarks de agência e codificação (Terminal-Bench 2.1: 76.2% vs 70.3%; MCP Atlas: 83.6% vs 78.2%), com velocidade de saída de tokens 4 vezes maior.

No mesmo evento, o Google anunciou o Gemini 3.5 Pro, previsto para disponibilidade geral em junho de 2026, e o Gemini Omni — um modelo que aceita e gera vídeo fundamentado em conhecimento do mundo real. O Gemini Spark, voltado para agência pessoal, também foi apresentado, com capacidade de executar ações em nome do usuário.

O que o sucesso do Flash significa para o mercado

A ascensão dos modelos Flash expõe um padrão recorrente na história dos LLMs: o que era considerado capacidade premium se torna commodity em 12 a 18 meses. O GPT-4 foi um salto de fronteira em 2023. Em 2026, modelos com desempenho equivalente custam menos de US$ 1 por milhão de tokens.

Para quem decide infraestrutura de IA, a implicação prática é a necessidade de arquitetura em camadas. Não existe mais justificativa para usar o modelo mais caro em toda requisição. A configuração emergente usa modelos ultra-baratos (Flash, DeepSeek Flash) para 70-80% das consultas de baixa complexidade, modelos mid-tier para complexidade média, e modelos Premium apenas quando a tarefa exige raciocínio de fronteira.

O Gemini 3.5 Flash, com preço estimado de US$ 1,50 por milhão de tokens de entrada, representa o novo piso da tier mid: mais rápido que o Pro anterior, mais barato que qualquer opção comparável, com 1 milhão de tokens de contexto. Para produtos de consumo em escala — aplicativos mobile, chatbots com milhões de usuários, sistemas de suporte — esse patamar de custo-qualidade é transformador.

O GPQA Diamond como termômetro

O GPQA Diamond merece atenção como métrica. Diferente do MMLU (questões de múltipla escolha universitária, quase saturado), o GPQA Diamond usa questões de nível de pesquisa de doutorado nas áreas de biologia, química e física, revisadas por pesquisadores ativos para garantir que a resposta correta seja verificável, mas que exija raciocínio profundo para ser encontrada.

Especialistas humanos na área específica da pergunta acertam cerca de 70% das questões. Não especialistas com doutorado em área adjacente acertam 34%. O Gemini 3.1 Pro marca 94.3% — acima dos especialistas humanos na própria disciplina.

Isso não significa que o modelo "entende física melhor que físicos". Significa que, em questões de múltipla escolha estruturadas, o modelo recupera e combina informações de forma mais precisa do que humanos em condições de teste. A distância entre esse desempenho e a capacidade de fazer pesquisa científica original continua sendo imensa.