Агенты OpenCUA с открытым исходным кодом для использования компьютеров конкурируют с проприетарными моделями OpenAI и Anthropic

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Новая платформа, разработанная исследователями из Гонконгского университета (HKU) и сотрудничающих с ним организаций, представляет собой платформу с открытым исходным кодом для создания надежных ИИ-агентов, способных управлять компьютерами. Платформа, получившая название OpenCUA , включает в себя инструменты, данные и рецепты для масштабирования разработки агентов, использующих компьютеры (CUA).
Модели, обученные с использованием этой платформы, демонстрируют высокие результаты на тестах CUA, превосходя существующие модели с открытым исходным кодом и соревнуясь с закрытыми агентами из ведущих лабораторий ИИ, таких как OpenAI и Anthropic.
Агенты, использующие компьютер , предназначены для автономного выполнения задач на компьютере, от навигации по веб-сайтам до управления сложным программным обеспечением. Они также могут помочь автоматизировать рабочие процессы на предприятии. Однако наиболее эффективные системы CUA являются проприетарными, и критически важные сведения об их данных для обучения, архитектуре и процессах разработки остаются конфиденциальными.
«Поскольку отсутствие прозрачности ограничивает технический прогресс и вызывает опасения по поводу безопасности, исследовательскому сообществу необходимы по-настоящему открытые платформы CUA для изучения их возможностей, ограничений и рисков», — утверждают исследователи в своей статье .
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
В то же время, проекты с открытым исходным кодом сталкиваются с собственными трудностями. Отсутствует масштабируемая инфраструктура для сбора разнообразных, масштабных данных, необходимых для обучения этих агентов. Существующие наборы данных с открытым исходным кодом для графических пользовательских интерфейсов (GUI) содержат ограниченное количество данных, а многие исследовательские проекты предоставляют недостаточно подробной информации о своих методах, что затрудняет воспроизведение их работы другими разработчиками.
Согласно статье, «Эти ограничения в совокупности препятствуют развитию универсальных CUA и мешают осмысленному исследованию их масштабируемости, обобщаемости и потенциальных подходов к обучению».

OpenCUA — это фреймворк с открытым исходным кодом, разработанный для решения этих задач путём масштабирования как сбора данных, так и самих моделей. В его основе лежит инструмент AgentNet для записи демонстрационных действий человека, выполняющего компьютерные задачи в различных операционных системах.
Инструмент оптимизирует сбор данных, работая в фоновом режиме на персональном компьютере аннотатора, захватывая видео с экрана, действия мыши и клавиатуры, а также базовое дерево доступности, предоставляющее структурированную информацию об элементах на экране. Эти необработанные данные затем преобразуются в «траектории состояния-действия», сопоставляя снимок экрана компьютера (состояние) с соответствующим действием пользователя (щелчком, нажатием клавиши и т. д.). После этого аннотаторы могут просматривать, редактировать и отправлять эти демонстрации.

Используя этот инструмент, исследователи собрали набор данных AgentNet, содержащий более 22 600 демонстраций задач для Windows, macOS и Ubuntu, охватывающих более 200 приложений и веб-сайтов. «Этот набор данных достоверно отражает сложность человеческого поведения и динамику окружающей среды в персональных вычислительных средах пользователей», — отмечается в статье.
Понимая, что инструменты записи экрана вызывают серьёзные проблемы с конфиденциальностью данных для предприятий, исследователи разработали инструмент AgentNet, уделяя особое внимание безопасности. Синьюань Ван, соавтор статьи и аспирант Гонконгского университета, пояснил, что они реализовали многоуровневую систему защиты конфиденциальности. «Во-первых, аннотаторы сами могут полностью просматривать генерируемые ими данные… прежде чем решить, отправлять ли их», — рассказал он VentureBeat. Затем данные проходят ручную проверку на наличие проблем с конфиденциальностью и автоматическое сканирование с помощью большой модели для обнаружения оставшегося конфиденциального контента перед публикацией. «Этот многоуровневый процесс обеспечивает надёжность корпоративного уровня для сред, обрабатывающих конфиденциальные данные клиентов или финансовые данные», — добавил Ван.
Для ускорения оценки команда также разработала AgentNetBench — автономный тест, который обеспечивает несколько правильных действий для каждого шага, предлагая более эффективный способ измерения производительности агента.
Фреймворк OpenCUA представляет собой новый конвейер для обработки данных и обучения агентов, использующих компьютер. На первом этапе необработанные демонстрационные данные, полученные от человека, преобразуются в чистые пары «состояние-действие», подходящие для обучения моделей зрительного восприятия (VLM). Однако исследователи обнаружили, что простое обучение моделей на этих парах даёт ограниченный прирост производительности даже при работе с большими объёмами данных.

Ключевым открытием стало дополнение этих траекторий рассуждениями типа «цепочка мыслей» (CoT). Этот процесс создаёт подробный «внутренний монолог» для каждого действия, включающий планирование, запоминание и размышление. Структурированное рассуждение состоит из трёх уровней: общее наблюдение за экраном, рефлексивные размышления, анализирующие ситуацию и планирующие дальнейшие шаги, и, наконец, краткое, выполняемое действие. Такой подход помогает агенту глубже понять задачи.
«Мы считаем, что рассуждения на естественном языке имеют решающее значение для обобщаемых базовых моделей использования компьютера, помогая CUA усваивать когнитивные способности», — пишут исследователи.
Этот конвейер синтеза данных представляет собой общую структуру, которую компании могут адаптировать для обучения агентов с использованием собственных уникальных внутренних инструментов. По словам Вана, предприятие может записывать демонстрации своих собственных рабочих процессов и использовать тот же конвейер «рефлектора» и «генератора» для создания необходимых обучающих данных. «Это позволяет им создать высокопроизводительного агента, адаптированного к их внутренним инструментам, без необходимости вручную создавать трассировки рассуждений», — пояснил он.
Исследователи применили фреймворк OpenCUA для обучения ряда моделей VLM с открытым исходным кодом, включая варианты Qwen и Kimi-VL, с размерами параметров от 3 до 32 миллиардов. Модели были оценены с помощью набора онлайн- и офлайн-тестов, проверяющих их способность выполнять задачи и понимать графические интерфейсы.
Модель OpenCUA-32B с 32 миллиардами параметров установила новый высочайший уровень успешности среди моделей с открытым исходным кодом в бенчмарке OSWorld-Verified. Она также превзошла модель CUA от OpenAI на базе GPT-4o и значительно сократила разрыв в производительности с ведущими проприетарными моделями Anthropic.

Для корпоративных разработчиков и руководителей продуктов исследование предлагает несколько важных выводов. Метод OpenCUA широко применим, повышая производительность моделей с различной архитектурой (как плотной, так и смешанной ) и размером. Обученные агенты также демонстрируют высокую степень обобщения, хорошо работая в широком спектре задач и операционных систем.
По словам Вана, эта платформа особенно подходит для автоматизации повторяющихся и трудоёмких корпоративных рабочих процессов. «Например, в наборе данных AgentNet мы уже зафиксировали несколько демонстраций запуска экземпляров EC2 на Amazon AWS и настройки параметров аннотаций на MTurk», — рассказал он VentureBeat. «Эти задачи включают множество последовательных шагов, но следуют повторяющимся шаблонам».
Однако Ван отметил, что для перехода к реальному развёртыванию необходимо решить ключевые проблемы, связанные с безопасностью и надёжностью. «Самая большая проблема при реальном развёртывании — это безопасность и надёжность: агент должен избегать ошибок, которые могут непреднамеренно изменить настройки системы или вызвать опасные побочные эффекты, выходящие за рамки предполагаемой задачи», — сказал он.
Исследователи опубликовали код , набор данных и веса для своих моделей.
По мере того, как агенты с открытым исходным кодом, созданные на основе таких фреймворков, как OpenCUA, становятся всё более функциональными, они могут кардинально изменить взаимодействие между работниками сферы интеллектуального труда и их компьютерами. Ван предвидит будущее, в котором профессиональное владение сложным программным обеспечением станет менее важным, чем способность чётко формулировать цели для агента ИИ.
Он описал два основных режима работы: «автономная автоматизация, где агент использует свои обширные знания программного обеспечения для комплексного выполнения задачи», и «онлайн-сотрудничество, где агент реагирует в режиме реального времени и работает бок о бок с человеком, как коллега». По сути, люди будут отвечать за стратегическое «что», в то время как всё более сложные агенты ИИ будут отвечать за операционное «как».
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat