Selecione o idioma

Portuguese

Down Icon

Selecione o país

England

Down Icon

AlphaEvolve do Google: o agente de IA que recuperou 0,7% da computação do Google – e como copiá-lo

AlphaEvolve do Google: o agente de IA que recuperou 0,7% da computação do Google – e como copiá-lo

Assine nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder do setor em IA. Saiba mais

O novo AlphaEvolve do Google mostra o que acontece quando um agente de IA passa da demonstração de laboratório para o trabalho de produção, e você tem uma das empresas de tecnologia mais talentosas conduzindo isso.

Desenvolvido pela DeepMind do Google, o sistema reescreve códigos críticos de forma autônoma e já se paga dentro do Google. Ele quebrou um recorde de 56 anos em multiplicação de matrizes (o núcleo de muitas cargas de trabalho de aprendizado de máquina) e recuperou 0,7% da capacidade computacional nos data centers globais da empresa.

Esses feitos notáveis ​​são importantes, mas a lição mais profunda para os líderes de tecnologia empresarial é como a AlphaEvolve os realiza. Sua arquitetura – controlador, modelos de rascunho rápido, modelos de pensamento profundo, avaliadores automatizados e memória versionada – ilustra o tipo de estrutura de nível de produção que torna os agentes autônomos seguros para implantação em escala.

A tecnologia de IA do Google é indiscutivelmente incomparável . Portanto, o segredo é descobrir como aprender com ela, ou mesmo usá-la diretamente. O Google afirma que um Programa de Acesso Antecipado está chegando para parceiros acadêmicos e que uma "disponibilidade mais ampla " está sendo explorada, mas os detalhes são escassos. Até lá, o AlphaEvolve é um modelo de melhores práticas: se você deseja agentes que lidam com cargas de trabalho de alto valor, precisará de orquestração, testes e proteções comparáveis.

Considere apenas a vitória do data center. O Google não estipula um preço para os 0,7% recuperados, mas seu investimento anual em capital (CAPEX) chega a dezenas de bilhões de dólares . Mesmo uma estimativa aproximada estima a economia em centenas de milhões anualmente — o suficiente, como o desenvolvedor independente Sam Witteveen observou em nosso podcast recente, para pagar o treinamento de um dos principais modelos Gemini, estimado em mais de US$ 191 milhões para uma versão como o Gemini Ultra.

A VentureBeat foi a primeira a noticiar a AlphaEvolve no início desta semana. Agora, vamos nos aprofundar: como o sistema funciona, onde a engenharia realmente se encaixa e as medidas concretas que as empresas podem tomar para construir (ou comprar) algo comparável.

O AlphaEvolve é executado no que pode ser melhor descrito como um sistema operacional de agente – um pipeline distribuído e assíncrono, desenvolvido para melhoria contínua em escala. Seus componentes principais são um controlador, um par de grandes modelos de linguagem (Gemini Flash para amplitude; Gemini Pro para profundidade), um banco de dados versionado de memória de programa e uma frota de trabalhadores avaliadores, todos ajustados para alta taxa de transferência em vez de apenas baixa latência.

Uma visão geral de alto nível da estrutura do agente AlphaEvolve. Fonte: artigo do AlphaEvolve.

Esta arquitetura não é conceitualmente nova, mas a execução é. "É simplesmente uma execução incrivelmente boa", diz Witteveen.

O artigo da AlphaEvolve descreve o orquestrador como um “algoritmo evolucionário que desenvolve gradualmente programas que melhoram a pontuação nas métricas de avaliação automatizadas” (p. 3); em suma, um “pipeline autônomo de LLMs cuja tarefa é melhorar um algoritmo fazendo alterações diretas no código” (p. 1).

Lição para empresas: se os planos do seu agente incluem execuções não supervisionadas em tarefas de alto valor, planeje uma infraestrutura semelhante: filas de tarefas, um armazenamento de memória versionado, rastreamento de malha de serviço e sandbox seguro para qualquer código produzido pelo agente.

Um elemento-chave do AlphaEvolve é sua rigorosa estrutura de avaliação. Cada iteração proposta pela dupla de LLMs é aceita ou rejeitada com base em uma função de "avaliação" fornecida pelo usuário, que retorna métricas classificáveis ​​por máquina. Esse sistema de avaliação começa com verificações ultrarrápidas de testes unitários em cada alteração de código proposta – testes simples e automáticos (semelhantes aos testes unitários que os desenvolvedores já escrevem) que verificam se o snippet ainda compila e produz as respostas corretas em um punhado de microentradas – antes de passar os sobreviventes para benchmarks mais rigorosos e revisões geradas pelo LLM. Isso ocorre em paralelo, para que a busca permaneça rápida e segura.

Resumindo: deixe que os modelos sugiram correções e, em seguida, verifique cada uma delas com testes confiáveis. O AlphaEvolve também oferece suporte à otimização multiobjetivo (otimizando latência e precisão simultaneamente), desenvolvendo programas que atingem diversas métricas simultaneamente. Contrariamente ao que se pensa, equilibrar múltiplos objetivos pode melhorar uma única métrica-alvo, incentivando soluções mais diversas.

Lição para empresas: Agentes de produção precisam de controladores de pontuação determinísticos. Sejam testes unitários, simuladores completos ou análise de tráfego canário. Avaliadores automatizados são sua rede de segurança e seu motor de crescimento. Antes de lançar um projeto agêntico, pergunte-se: "Temos uma métrica com a qual o agente possa se autoavaliar?"

O AlphaEvolve aborda todos os problemas de codificação com um ritmo de dois modelos. Primeiro, o Gemini Flash dispara rascunhos rápidos, fornecendo ao sistema um amplo conjunto de ideias para explorar. Em seguida, o Gemini Pro analisa esses rascunhos com mais profundidade e retorna um conjunto menor de candidatos mais fortes. Alimentando ambos os modelos, há um "construtor de prompts" leve, um script auxiliar que monta a pergunta que cada modelo vê. Ele combina três tipos de contexto: tentativas de código anteriores salvas em um banco de dados do projeto, quaisquer guardrails ou regras que a equipe de engenharia tenha escrito e material externo relevante, como artigos de pesquisa ou notas do desenvolvedor. Com esse pano de fundo mais rico, o Gemini Flash pode circular amplamente, enquanto o Gemini Pro se concentra na qualidade.

Ao contrário de muitas demonstrações de agentes que ajustam uma função de cada vez, o AlphaEvolve edita repositórios inteiros. Ele descreve cada alteração como um bloco diff padrão – o mesmo formato de patch que os engenheiros enviam para o GitHub – para que possa acessar dezenas de arquivos sem perder o controle. Posteriormente, testes automatizados decidem se o patch é válido. Ao longo de ciclos repetidos, a memória de sucessos e falhas do agente aumenta, então ele propõe patches melhores e desperdiça menos computação em becos sem saída.

Lição para empresas: deixe que modelos mais baratos e rápidos cuidem do brainstorming e, em seguida, recorra a um modelo mais capaz para refinar as melhores ideias. Preserve cada teste em um histórico pesquisável, pois essa memória acelera o trabalho posterior e pode ser reutilizada entre equipes. Por isso, os fornecedores estão se apressando para fornecer aos desenvolvedores novas ferramentas para coisas como memória. Produtos como o OpenMemory MCP , que fornece um armazenamento de memória portátil, e as novas APIs de memória de longo e curto prazo do LlamaIndex estão tornando esse tipo de contexto persistente quase tão fácil de conectar quanto o registro.

O agente de engenharia de software Codex-1 da OpenAI, também lançado hoje, destaca o mesmo padrão. Ele dispara tarefas paralelas dentro de uma sandbox segura, executa testes unitários e retorna rascunhos de pull-request — efetivamente um eco específico do código do ciclo mais amplo de busca e avaliação do AlphaEvolve.

As vitórias tangíveis da AlphaEvolve – recuperando 0,7% da capacidade do data center, reduzindo o tempo de execução do kernel de treinamento Gemini em 23%, acelerando o FlashAttention em 32% e simplificando o design da TPU – compartilham uma característica: elas direcionam domínios com métricas herméticas.

Para o agendamento de data centers, a AlphaEvolve desenvolveu uma heurística que foi avaliada usando um simulador dos data centers do Google com base em cargas de trabalho históricas. Para a otimização do kernel, o objetivo era minimizar o tempo de execução real nos aceleradores TPU em um conjunto de dados de formas de entrada do kernel realistas.

Lição para empresas: Ao iniciar sua jornada com IA agêntica, observe primeiro os fluxos de trabalho em que "melhor" é um número quantificável que seu sistema pode calcular – seja latência, custo, taxa de erro ou taxa de transferência. Esse foco permite a busca automatizada e a implantação com redução de riscos, pois a saída do agente (geralmente código legível por humanos, como no caso da AlphaEvolve) pode ser integrada aos pipelines de revisão e validação existentes.

Essa clareza permite que o agente se autoaprimore e demonstre valor inequívoco.

Embora as conquistas da AlphaEvolve sejam inspiradoras, o documento do Google também é claro sobre seu escopo e requisitos.

A principal limitação é a necessidade de um avaliador automatizado; problemas que exigem experimentação manual ou feedback de "laboratório molhado" estão atualmente fora do escopo desta abordagem específica. O sistema pode consumir uma quantidade significativa de computação – "na ordem de 100 horas de computação para avaliar qualquer nova solução" (artigo AlphaEvolve, página 8 ), exigindo paralelização e planejamento cuidadoso da capacidade.

Antes de alocar um orçamento significativo para sistemas complexos de agentes, os líderes técnicos devem fazer perguntas críticas:

  • Problema classificável por máquina? Temos uma métrica clara e automatizável com a qual o agente pode avaliar seu próprio desempenho?
  • Capacidade computacional? Podemos nos dar ao luxo de passar pelo ciclo interno de geração, avaliação e refinamento, potencialmente complexo em termos de computação, especialmente durante as fases de desenvolvimento e treinamento?
  • Base de código e prontidão da memória? Sua base de código está estruturada para modificações iterativas, possivelmente baseadas em diffs? E você consegue implementar os sistemas de memória instrumentados essenciais para que um agente aprenda com sua história evolutiva?

Conclusão para empresas: O foco crescente em gerenciamento robusto de identidade e acesso de agentes, como visto em plataformas como Frontegg, Auth0 e outras, também aponta para a infraestrutura madura necessária para implantar agentes que interagem com segurança com vários sistemas empresariais.

A mensagem da AlphaEvolve para equipes corporativas é múltipla. Primeiro, o sistema operacional em torno dos agentes agora é muito mais importante do que a inteligência do modelo. O projeto do Google apresenta três pilares que não podem ser ignorados:

  • Avaliadores determinísticos que dão ao agente uma pontuação inequívoca toda vez que ele faz uma alteração.
  • Orquestração de longa duração que pode conciliar modelos de "rascunho" rápidos, como o Gemini Flash, com modelos mais lentos e rigorosos, seja a pilha do Google ou uma estrutura como o LangGraph da LangChain.
  • Memória persistente para que cada iteração se baseie na anterior em vez de reaprender do zero.

Empresas que já possuem registros, conjuntos de testes e repositórios de código versionados estão mais perto do que imaginam. O próximo passo é conectar esses ativos a um ciclo de avaliação self-service para que múltiplas soluções geradas por agentes possam competir, e apenas o patch com a pontuação mais alta seja lançado.

Como Anurag Dhingra, vice-presidente e gerente geral de Conectividade e Colaboração Empresarial da Cisco, disse à VentureBeat em uma entrevista esta semana: "Está acontecendo, é muito, muito real", disse ele sobre empresas que usam agentes de IA na fabricação, armazéns e centrais de atendimento ao cliente. "Não é algo do futuro. Já está acontecendo hoje." Ele alertou que, à medida que esses agentes se tornam mais difundidos, realizando "trabalhos semelhantes aos humanos", a pressão sobre os sistemas existentes será imensa: "O tráfego de rede vai disparar", disse Dhingra. Sua rede, orçamento e vantagem competitiva provavelmente sentirão essa pressão antes que o ciclo de hype se acalme. Comece a comprovar um caso de uso contido e baseado em métricas neste trimestre – e então dimensione o que funciona.

Assista ao podcast em vídeo que fiz com o desenvolvedor Sam Witteveen, onde nos aprofundamos nos agentes de nível de produção e como o AlphaEvolve está mostrando o caminho:

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow