Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

Los agentes de uso informático de código abierto de OpenCUA rivalizan con los modelos propietarios de OpenAI y Anthropic

Los agentes de uso informático de código abierto de OpenCUA rivalizan con los modelos propietarios de OpenAI y Anthropic

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.

Un nuevo marco de investigación desarrollado por investigadores de la Universidad de Hong Kong (HKU) e instituciones colaboradoras proporciona una base de código abierto para crear agentes de IA robustos capaces de operar computadoras. El marco, llamado OpenCUA , incluye las herramientas, los datos y las fórmulas para escalar el desarrollo de agentes de uso de computadoras (CUA).

Los modelos entrenados con este marco tienen un excelente desempeño en los puntos de referencia de CUA, superando a los modelos de código abierto existentes y compitiendo estrechamente con agentes cerrados de laboratorios de IA líderes como OpenAI y Anthropic.

Los agentes de uso informático están diseñados para realizar tareas de forma autónoma en un ordenador, desde navegar por sitios web hasta operar software complejo. También pueden ayudar a automatizar los flujos de trabajo en la empresa. Sin embargo, los sistemas CUA más potentes son propietarios, y los detalles críticos sobre sus datos de entrenamiento, arquitecturas y procesos de desarrollo se mantienen privados.

“Dado que la falta de transparencia limita los avances técnicos y plantea problemas de seguridad, la comunidad investigadora necesita marcos de CUA verdaderamente abiertos para estudiar sus capacidades, limitaciones y riesgos”, afirman los investigadores en su artículo .

La escalabilidad de la IA alcanza sus límites

Los límites de potencia, el aumento del coste de los tokens y los retrasos en la inferencia están transformando la IA empresarial. Únase a nuestro exclusivo salón para descubrir cómo los mejores equipos:

  • Convertir la energía en una ventaja estratégica
  • Arquitectura de inferencia eficiente para obtener ganancias de rendimiento reales
  • Cómo desbloquear el ROI competitivo con sistemas de IA sostenibles

Reserva tu lugar para estar a la vanguardia : https://bit.ly/4mwGngO

Al mismo tiempo, las iniciativas de código abierto se enfrentan a sus propios obstáculos. No se ha contado con una infraestructura escalable para recopilar los datos diversos y a gran escala necesarios para entrenar a estos agentes. Los conjuntos de datos de código abierto existentes para interfaces gráficas de usuario (GUI) tienen datos limitados, y muchos proyectos de investigación no proporcionan suficientes detalles sobre sus métodos, lo que dificulta que otros repliquen su trabajo.

Según el artículo, “Estas limitaciones obstaculizan colectivamente los avances en las CUA de propósito general y restringen una exploración significativa de su escalabilidad, generalización y posibles enfoques de aprendizaje”.

Marco OpenCUA Fuente: XLANG Lab en HKU

OpenCUA es un marco de código abierto diseñado para abordar estos desafíos escalando tanto la recopilación de datos como los propios modelos. Su núcleo es la herramienta AgentNet para registrar demostraciones humanas de tareas informáticas en diferentes sistemas operativos.

La herramienta optimiza la recopilación de datos al ejecutarse en segundo plano en el ordenador personal del anotador, capturando vídeos de pantalla, entradas de ratón y teclado, y el árbol de accesibilidad subyacente, que proporciona información estructurada sobre los elementos en pantalla. Estos datos sin procesar se procesan posteriormente en "trayectorias de estado-acción", asociando una captura de pantalla del ordenador (el estado) con la acción correspondiente del usuario (un clic, una pulsación de tecla, etc.). Los anotadores pueden revisar, editar y enviar estas demostraciones.

Herramienta AgentNet Fuente: XLang Lab en HKU

Utilizando esta herramienta, los investigadores recopilaron el conjunto de datos AgentNet, que contiene más de 22 600 demostraciones de tareas en Windows, macOS y Ubuntu, abarcando más de 200 aplicaciones y sitios web. «Este conjunto de datos captura fielmente la complejidad de los comportamientos humanos y la dinámica ambiental de los entornos informáticos personales de los usuarios», señala el artículo.

Reconociendo que las herramientas de grabación de pantalla plantean importantes preocupaciones sobre la privacidad de los datos para las empresas, los investigadores diseñaron la herramienta AgentNet pensando en la seguridad. Xinyuan Wang, coautor del artículo y estudiante de doctorado en la HKU, explicó que implementaron un marco de protección de la privacidad multicapa. "Primero, los anotadores pueden observar completamente los datos que generan... antes de decidir si los envían", declaró a VentureBeat. Posteriormente, los datos se someten a una verificación manual para detectar problemas de privacidad y a un análisis automatizado mediante un modelo de gran tamaño para detectar cualquier contenido sensible restante antes de su publicación. "Este proceso en capas garantiza una robustez de nivel empresarial para entornos que gestionan datos sensibles de clientes o financieros", añadió Wang.

Para acelerar la evaluación, el equipo también creó AgentNetBench, un punto de referencia fuera de línea que proporciona múltiples acciones correctas para cada paso, lo que ofrece una forma más eficiente de medir el desempeño de un agente.

El marco OpenCUA introduce una novedosa canalización para procesar datos y entrenar agentes informáticos. El primer paso convierte las demostraciones humanas sin procesar en pares de estado-acción limpios, aptos para entrenar modelos de visión-lenguaje (VLM). Sin embargo, los investigadores descubrieron que entrenar los modelos simplemente con estos pares produce mejoras de rendimiento limitadas, incluso con grandes cantidades de datos.

Canalización de cadena de pensamiento de OpenCUA Fuente: XLang Lab en HKU

La idea clave fue complementar estas trayectorias con razonamiento en cadena de pensamiento (CdP). Este proceso genera un "monólogo interno" detallado para cada acción, que incluye planificación, memorización y reflexión. Este razonamiento estructurado se organiza en tres niveles: una observación detallada de la pantalla, pensamientos reflexivos que analizan la situación y planifican los siguientes pasos, y, finalmente, la acción concisa y ejecutable. Este enfoque ayuda al agente a desarrollar una comprensión más profunda de las tareas.

“Consideramos que el razonamiento en lenguaje natural es crucial para los modelos generalizables de base del uso de computadoras, ayudando a los CUA a internalizar capacidades cognitivas”, escriben los investigadores.

Este flujo de trabajo de síntesis de datos es un marco general que las empresas pueden adaptar para entrenar a sus agentes en sus propias herramientas internas. Según Wang, una empresa puede grabar demostraciones de sus flujos de trabajo propietarios y utilizar el mismo flujo de trabajo de "reflector" y "generador" para crear los datos de entrenamiento necesarios. "Esto les permite crear un agente de alto rendimiento adaptado a sus herramientas internas sin necesidad de crear manualmente trazas de razonamiento", explicó.

Los investigadores aplicaron el marco OpenCUA para entrenar una gama de VLM de código abierto, incluyendo variantes de Qwen y Kimi-VL, con tamaños de parámetros de entre 3000 y 32 000 millones. Los modelos se evaluaron mediante un conjunto de pruebas de rendimiento en línea y fuera de línea que prueban su capacidad para realizar tareas y comprender las interfaces gráficas de usuario (GUI).

El modelo de 32 mil millones de parámetros, OpenCUA-32B, estableció una tasa de éxito sin precedentes entre los modelos de código abierto en el benchmark verificado por OSWorld. Además, superó al CUA basado en GPT-4o de OpenAI y redujo significativamente la brecha de rendimiento con los principales modelos propietarios de Anthropic.

OpenCUA muestra una mejora masiva con respecto a los modelos base (izquierda) al tiempo que compite con los modelos CUA líderes (derecha). Fuente: XLANG Lab en HKU

Para desarrolladores empresariales y líderes de producto, la investigación ofrece varios hallazgos clave. El método OpenCUA es ampliamente aplicable, mejorando el rendimiento en modelos con diferentes arquitecturas (tanto densas como con una mezcla de expertos ) y tamaños. Los agentes entrenados también muestran una sólida capacidad de generalización, con un buen rendimiento en una amplia gama de tareas y sistemas operativos.

Según Wang, el marco es especialmente adecuado para automatizar flujos de trabajo empresariales repetitivos y laboriosos. "Por ejemplo, en el conjunto de datos AgentNet, ya hemos capturado algunas demostraciones del lanzamiento de instancias EC2 en Amazon AWS y la configuración de parámetros de anotación en MTurk", declaró a VentureBeat. "Estas tareas implican muchos pasos secuenciales, pero siguen patrones repetibles".

Sin embargo, Wang señaló que para acortar la distancia hasta la implementación en vivo es necesario abordar desafíos clave en materia de seguridad y confiabilidad. "El mayor desafío en la implementación real es la seguridad y la confiabilidad: el agente debe evitar errores que podrían alterar inadvertidamente la configuración del sistema o provocar efectos secundarios perjudiciales más allá de la tarea prevista", afirmó.

Los investigadores han publicado el código , el conjunto de datos y los pesos de sus modelos.

A medida que los agentes de código abierto basados ​​en marcos como OpenCUA se vuelven más capaces, podrían transformar radicalmente la relación entre los trabajadores del conocimiento y sus computadoras. Wang imagina un futuro donde la competencia en software complejo se vuelve menos importante que la capacidad de articular claramente los objetivos a un agente de IA.

Describió dos modos de trabajo principales: «automatización offline, donde el agente aprovecha su amplio conocimiento de software para completar una tarea de principio a fin», y «colaboración online, donde el agente responde en tiempo real y trabaja codo con codo con el humano, como si fuera un colega». Básicamente, los humanos aportarán el «qué» estratégico, mientras que agentes de IA, cada vez más sofisticados, se encargarán del «cómo» operativo.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow