Agente ChatGPT de plantão: não pergunte apenas, faça acontecer

Uma nova era começou: o ChatGPT não apenas conversa; ele trabalha para você. O novo agente ChatGPT, o ChatGPT Agent, combina a tecnologia da Operator para interação inteligente em sites, recursos de pesquisa na internet em tempo real e habilidades avançadas de conversação em um único sistema. Isso permite que os usuários não apenas façam perguntas, mas também deleguem tarefas complexas à IA do início ao fim.

Por exemplo, os usuários podem fazer solicitações como: "Ver meu calendário e me manter atualizado sobre as próximas reuniões com clientes" ou "Analise três concorrentes e inclua-os em uma apresentação". O sistema intermediário acessa os sites relevantes, seleciona as datas, preenche os formulários, realiza a análise e apresenta os dados resultantes ao usuário em um slide ou planilha bem organizado.

Durante todos esses processos, a segurança e o controle permanecem com o usuário. O ChatGPT sempre obtém consentimento antes de realizar qualquer ação significativa. O usuário pode interromper o processo, intervir no navegador ou assumir o controle total a qualquer momento.

A OpenAI afirma que este sistema é o primeiro passo e que as capacidades do agente serão aprimoradas regularmente nos próximos anos. O objetivo é que esta estrutura intermediária alcance um número crescente de usuários e alivie com eficiência as cargas de trabalho diárias.

O ChatGPT Agent foi criado combinando duas tecnologias poderosas lançadas no início deste ano: o Operator, que interage com o navegador da web, e a Busca Profunda, que é poderosa na síntese de informações. O Operator se destacou em tarefas como clicar, digitar e preencher formulários da web, enquanto a Busca Profunda foi eficaz na análise de dados e na produção de resumos abrangentes. No entanto, cada uma delas apresentava limitações.

Ao combinar os pontos fortes desses dois sistemas, a OpenAI lançou uma IA que pode interagir de forma inteligente com sites e obter resultados eficazes. Os usuários podem solicitar tarefas naturalmente dentro de um único fluxo de conversação, e a IA pode traduzir essas solicitações em ações reais.

O novo sistema fornece ao ChatGPT três ferramentas web separadas:

Interação com o navegador visual,

Navegador simples para consultas baseadas em texto,

O ChatGPT seleciona a ferramenta mais adequada para cada tarefa. Por exemplo, APIs são usadas para dados financeiros, enquanto a interação visual é preferida para sites com foco em humanos. O contexto é mantido durante toda a tarefa, e o sistema otimiza o processo dinamicamente com base na velocidade, precisão e eficiência.

O novo sistema de agentes foi projetado para um fluxo de trabalho iterativo e colaborativo. Os usuários podem intervir, fornecer orientações ou esclarecer objetivos a qualquer momento durante a tarefa. O sistema também pode solicitar proativamente informações adicionais ao usuário, quando necessário.

Por exemplo, para tarefas que exigem login do usuário, o sistema intermediário transfere o navegador para o usuário e fornece acesso seguro. Isso permite que tanto a pesquisa quanto as operações sejam conduzidas de forma mais abrangente e eficiente.

O agente ChatGPT alcançou a pontuação recorde de 43,1 no Último Exame da Humanidade, que aborda questões de conhecimento especializado em nível humano. Ele superou humanos e modelos anteriores no teste DSBench, que abrange tarefas de ciência de dados. Suas habilidades de edição de planilhas foram duas vezes melhores que as do GPT-4o no teste SpreadsheetBench.

Também obteve sucesso significativo em tarefas de modelagem financeira de nível de banco de investimento e tarefas web baseadas em cenários do mundo real, como o WebArena. Também obteve um novo SOTA (melhor pontuação) para "encontrar informações difíceis de encontrar" no teste BrowseComp.

O novo sistema permite que os usuários automatizem tarefas repetitivas, tanto na vida profissional quanto pessoal. Tarefas como apresentações de slides, planejamento de viagens, organização de reuniões e atualização de dados agora podem ser facilmente gerenciadas pelo ChatGPT.

O recurso de agente pode ser ativado durante qualquer conversa. Após os usuários definirem as tarefas, eles podem monitorar o progresso do ChatGPT ao longo do processo. Também é possível criar agendamentos automáticos de repetição para tarefas concluídas.

O ChatGPT solicita o consentimento explícito do usuário antes de qualquer ação efetiva na web. Durante transações sensíveis, o "modo monitor" é ativado, exigindo a aprovação do usuário em cada etapa. Para tarefas de alto risco, como transações financeiras e jurídicas, o sistema é configurado para negar a ação.

Medidas de segurança adicionais incluem:

Proteção contra ataques hostis (solicitação de injeção),

Filtros de política antiabuso,

Os dados do usuário não são armazenados nos servidores ChatGPT,

Inclui a capacidade de excluir dados de navegação e fazer logout.

O novo Agente ChatGPT está disponível para usuários Pro, Plus e Team. Ele estará disponível para usuários Enterprise e Education em julho. Usuários Pro podem executar tarefas ilimitadas, enquanto outros assinantes têm 50 tarefas por mês e podem aumentar esse limite com opções de crédito flexíveis.

Os usuários também podem definir seus próprios conectores para o agente ChatGPT para resumir sua caixa de entrada, agendar reuniões ou conceder acesso a aplicativos específicos. O site de pré-visualização do operador estará disponível por 30 dias.

Alguns recursos ainda em fase beta — principalmente a criação de apresentações de slides — oferecem formatação básica. No entanto, a OpenAI afirma que esses recursos continuarão a ser aprimorados e que sistemas capazes de produzir resultados muito mais robustos estão a caminho.