AlphaEvolve do Google: o agente de IA que recuperou 0,7% da computação do Google – e como copiá-lo

Assine nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder do setor em IA. Saiba mais
O novo AlphaEvolve do Google mostra o que acontece quando um agente de IA passa da demonstração de laboratório para o trabalho de produção, e você tem uma das empresas de tecnologia mais talentosas conduzindo isso.
Desenvolvido pela DeepMind do Google, o sistema reescreve códigos críticos de forma autônoma e já se paga dentro do Google. Ele quebrou um recorde de 56 anos em multiplicação de matrizes (o núcleo de muitas cargas de trabalho de aprendizado de máquina) e recuperou 0,7% da capacidade computacional nos data centers globais da empresa.
Esses feitos notáveis são importantes, mas a lição mais profunda para os líderes de tecnologia empresarial é como a AlphaEvolve os realiza. Sua arquitetura – controlador, modelos de rascunho rápido, modelos de pensamento profundo, avaliadores automatizados e memória versionada – ilustra o tipo de estrutura de nível de produção que torna os agentes autônomos seguros para implantação em escala.
A tecnologia de IA do Google é indiscutivelmente incomparável . Portanto, o segredo é descobrir como aprender com ela, ou mesmo usá-la diretamente. O Google afirma que um Programa de Acesso Antecipado está chegando para parceiros acadêmicos e que uma "disponibilidade mais ampla " está sendo explorada, mas os detalhes são escassos. Até lá, o AlphaEvolve é um modelo de melhores práticas: se você deseja agentes que lidam com cargas de trabalho de alto valor, precisará de orquestração, testes e proteções comparáveis.
Considere apenas a vitória do data center. O Google não estipula um preço para os 0,7% recuperados, mas seu investimento anual em capital (CAPEX) chega a dezenas de bilhões de dólares . Mesmo uma estimativa aproximada estima a economia em centenas de milhões anualmente — o suficiente, como o desenvolvedor independente Sam Witteveen observou em nosso podcast recente, para pagar o treinamento de um dos principais modelos Gemini, estimado em mais de US$ 191 milhões para uma versão como o Gemini Ultra.
A VentureBeat foi a primeira a noticiar a AlphaEvolve no início desta semana. Agora, vamos nos aprofundar: como o sistema funciona, onde a engenharia realmente se encaixa e as medidas concretas que as empresas podem tomar para construir (ou comprar) algo comparável.
O AlphaEvolve é executado no que pode ser melhor descrito como um sistema operacional de agente – um pipeline distribuído e assíncrono, desenvolvido para melhoria contínua em escala. Seus componentes principais são um controlador, um par de grandes modelos de linguagem (Gemini Flash para amplitude; Gemini Pro para profundidade), um banco de dados versionado de memória de programa e uma frota de trabalhadores avaliadores, todos ajustados para alta taxa de transferência em vez de apenas baixa latência.

Esta arquitetura não é conceitualmente nova, mas a execução é. "É simplesmente uma execução incrivelmente boa", diz Witteveen.
O artigo da AlphaEvolve descreve o orquestrador como um “algoritmo evolucionário que desenvolve gradualmente programas que melhoram a pontuação nas métricas de avaliação automatizadas” (p. 3); em suma, um “pipeline autônomo de LLMs cuja tarefa é melhorar um algoritmo fazendo alterações diretas no código” (p. 1).
Lição para empresas: se os planos do seu agente incluem execuções não supervisionadas em tarefas de alto valor, planeje uma infraestrutura semelhante: filas de tarefas, um armazenamento de memória versionado, rastreamento de malha de serviço e sandbox seguro para qualquer código produzido pelo agente.
Um elemento-chave do AlphaEvolve é sua rigorosa estrutura de avaliação. Cada iteração proposta pela dupla de LLMs é aceita ou rejeitada com base em uma função de "avaliação" fornecida pelo usuário, que retorna métricas classificáveis por máquina. Esse sistema de avaliação começa com verificações ultrarrápidas de testes unitários em cada alteração de código proposta – testes simples e automáticos (semelhantes aos testes unitários que os desenvolvedores já escrevem) que verificam se o snippet ainda compila e produz as respostas corretas em um punhado de microentradas – antes de passar os sobreviventes para benchmarks mais rigorosos e revisões geradas pelo LLM. Isso ocorre em paralelo, para que a busca permaneça rápida e segura.
Resumindo: deixe que os modelos sugiram correções e, em seguida, verifique cada uma delas com testes confiáveis. O AlphaEvolve também oferece suporte à otimização multiobjetivo (otimizando latência e precisão simultaneamente), desenvolvendo programas que atingem diversas métricas simultaneamente. Contrariamente ao que se pensa, equilibrar múltiplos objetivos pode melhorar uma única métrica-alvo, incentivando soluções mais diversas.
Lição para empresas: Agentes de produção precisam de controladores de pontuação determinísticos. Sejam testes unitários, simuladores completos ou análise de tráfego canário. Avaliadores automatizados são sua rede de segurança e seu motor de crescimento. Antes de lançar um projeto agêntico, pergunte-se: "Temos uma métrica com a qual o agente possa se autoavaliar?"
O AlphaEvolve aborda todos os problemas de codificação com um ritmo de dois modelos. Primeiro, o Gemini Flash dispara rascunhos rápidos, fornecendo ao sistema um amplo conjunto de ideias para explorar. Em seguida, o Gemini Pro analisa esses rascunhos com mais profundidade e retorna um conjunto menor de candidatos mais fortes. Alimentando ambos os modelos, há um "construtor de prompts" leve, um script auxiliar que monta a pergunta que cada modelo vê. Ele combina três tipos de contexto: tentativas de código anteriores salvas em um banco de dados do projeto, quaisquer guardrails ou regras que a equipe de engenharia tenha escrito e material externo relevante, como artigos de pesquisa ou notas do desenvolvedor. Com esse pano de fundo mais rico, o Gemini Flash pode circular amplamente, enquanto o Gemini Pro se concentra na qualidade.
Ao contrário de muitas demonstrações de agentes que ajustam uma função de cada vez, o AlphaEvolve edita repositórios inteiros. Ele descreve cada alteração como um bloco diff padrão – o mesmo formato de patch que os engenheiros enviam para o GitHub – para que possa acessar dezenas de arquivos sem perder o controle. Posteriormente, testes automatizados decidem se o patch é válido. Ao longo de ciclos repetidos, a memória de sucessos e falhas do agente aumenta, então ele propõe patches melhores e desperdiça menos computação em becos sem saída.
Lição para empresas: deixe que modelos mais baratos e rápidos cuidem do brainstorming e, em seguida, recorra a um modelo mais capaz para refinar as melhores ideias. Preserve cada teste em um histórico pesquisável, pois essa memória acelera o trabalho posterior e pode ser reutilizada entre equipes. Por isso, os fornecedores estão se apressando para fornecer aos desenvolvedores novas ferramentas para coisas como memória. Produtos como o OpenMemory MCP , que fornece um armazenamento de memória portátil, e as novas APIs de memória de longo e curto prazo do LlamaIndex estão tornando esse tipo de contexto persistente quase tão fácil de conectar quanto o registro.
O agente de engenharia de software Codex-1 da OpenAI, também lançado hoje, destaca o mesmo padrão. Ele dispara tarefas paralelas dentro de uma sandbox segura, executa testes unitários e retorna rascunhos de pull-request — efetivamente um eco específico do código do ciclo mais amplo de busca e avaliação do AlphaEvolve.
As vitórias tangíveis da AlphaEvolve – recuperando 0,7% da capacidade do data center, reduzindo o tempo de execução do kernel de treinamento Gemini em 23%, acelerando o FlashAttention em 32% e simplificando o design da TPU – compartilham uma característica: elas direcionam domínios com métricas herméticas.
Para o agendamento de data centers, a AlphaEvolve desenvolveu uma heurística que foi avaliada usando um simulador dos data centers do Google com base em cargas de trabalho históricas. Para a otimização do kernel, o objetivo era minimizar o tempo de execução real nos aceleradores TPU em um conjunto de dados de formas de entrada do kernel realistas.
Lição para empresas: Ao iniciar sua jornada com IA agêntica, observe primeiro os fluxos de trabalho em que "melhor" é um número quantificável que seu sistema pode calcular – seja latência, custo, taxa de erro ou taxa de transferência. Esse foco permite a busca automatizada e a implantação com redução de riscos, pois a saída do agente (geralmente código legível por humanos, como no caso da AlphaEvolve) pode ser integrada aos pipelines de revisão e validação existentes.
Essa clareza permite que o agente se autoaprimore e demonstre valor inequívoco.
Embora as conquistas da AlphaEvolve sejam inspiradoras, o documento do Google também é claro sobre seu escopo e requisitos.
A principal limitação é a necessidade de um avaliador automatizado; problemas que exigem experimentação manual ou feedback de "laboratório molhado" estão atualmente fora do escopo desta abordagem específica. O sistema pode consumir uma quantidade significativa de computação – "na ordem de 100 horas de computação para avaliar qualquer nova solução" (artigo AlphaEvolve, página 8 ), exigindo paralelização e planejamento cuidadoso da capacidade.
Antes de alocar um orçamento significativo para sistemas complexos de agentes, os líderes técnicos devem fazer perguntas críticas:
- Problema classificável por máquina? Temos uma métrica clara e automatizável com a qual o agente pode avaliar seu próprio desempenho?
- Capacidade computacional? Podemos nos dar ao luxo de passar pelo ciclo interno de geração, avaliação e refinamento, potencialmente complexo em termos de computação, especialmente durante as fases de desenvolvimento e treinamento?
- Base de código e prontidão da memória? Sua base de código está estruturada para modificações iterativas, possivelmente baseadas em diffs? E você consegue implementar os sistemas de memória instrumentados essenciais para que um agente aprenda com sua história evolutiva?
Conclusão para empresas: O foco crescente em gerenciamento robusto de identidade e acesso de agentes, como visto em plataformas como Frontegg, Auth0 e outras, também aponta para a infraestrutura madura necessária para implantar agentes que interagem com segurança com vários sistemas empresariais.
A mensagem da AlphaEvolve para equipes corporativas é múltipla. Primeiro, o sistema operacional em torno dos agentes agora é muito mais importante do que a inteligência do modelo. O projeto do Google apresenta três pilares que não podem ser ignorados:
- Avaliadores determinísticos que dão ao agente uma pontuação inequívoca toda vez que ele faz uma alteração.
- Orquestração de longa duração que pode conciliar modelos de "rascunho" rápidos, como o Gemini Flash, com modelos mais lentos e rigorosos, seja a pilha do Google ou uma estrutura como o LangGraph da LangChain.
- Memória persistente para que cada iteração se baseie na anterior em vez de reaprender do zero.
Empresas que já possuem registros, conjuntos de testes e repositórios de código versionados estão mais perto do que imaginam. O próximo passo é conectar esses ativos a um ciclo de avaliação self-service para que múltiplas soluções geradas por agentes possam competir, e apenas o patch com a pontuação mais alta seja lançado.
Como Anurag Dhingra, vice-presidente e gerente geral de Conectividade e Colaboração Empresarial da Cisco, disse à VentureBeat em uma entrevista esta semana: "Está acontecendo, é muito, muito real", disse ele sobre empresas que usam agentes de IA na fabricação, armazéns e centrais de atendimento ao cliente. "Não é algo do futuro. Já está acontecendo hoje." Ele alertou que, à medida que esses agentes se tornam mais difundidos, realizando "trabalhos semelhantes aos humanos", a pressão sobre os sistemas existentes será imensa: "O tráfego de rede vai disparar", disse Dhingra. Sua rede, orçamento e vantagem competitiva provavelmente sentirão essa pressão antes que o ciclo de hype se acalme. Comece a comprovar um caso de uso contido e baseado em métricas neste trimestre – e então dimensione o que funciona.
Assista ao podcast em vídeo que fiz com o desenvolvedor Sam Witteveen, onde nos aprofundamos nos agentes de nível de produção e como o AlphaEvolve está mostrando o caminho:
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais newsletters do VB aqui .
Ocorreu um erro.

venturebeat