Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

OpenAGI: Lux превосходит OpenAI и Anthropic

Стартап OpenAGI представил модель Lux, которая достигает 83,6% успеха на бенчмарке Online-Mind2Web и превосходит Operator от OpenAI (61,3%) и Computer Use от Anthropic (56,3%). Модель управляет десктопными приложениями вроде Slack и Excel, обучается на скриншотах и действиях, стоит вдесятеро дешевле и работает локально. Основатель Цзэнъи Цин из MIT уже создал популярные открытые модели JetMoE, OpenVoice и MeloTTS.

14 декабря 2025 г.
7 мин
18

Стартап по разработке искусственного интеллекта OpenAGI, основанный исследователем из Массачусетского технологического института, представил модель, которая, по утверждению компании, управляет компьютерами эффективнее систем от OpenAI и Anthropic, при этом затрачивая гораздо меньше средств.

OpenAGI под руководством генерального директора Цзэнъи Цина выпустил Lux — базовую модель, способную самостоятельно работать с компьютером. Она анализирует скриншоты и выполняет операции в приложениях для рабочего стола. Компания из Сан-Франциско сообщает, что Lux набирает 83,6% успеха на Online-Mind2Web — тесте, ставшем самым строгим в отрасли для проверки ИИ-агентов, управляющих компьютерами.

OpenAGI Lux Thinker 1.0
Автор изображения: OpenAGI Foundation

Этот показатель сильно опережает лидеров от крупных конкурентов с большими бюджетами. Operator от OpenAI, запущенный в январе, имеет 61,3% на том же тесте. Computer Use от Anthropic в модели Claude показывает 56,3%.

"Обычное обучение больших языковых моделей использует огромные объемы текстовых данных. Модель учится генерировать текст, — объясняет Цин. — Наша модель же осваивает выполнение действий. Она тренируется на множестве скриншотов компьютера и последовательностей действий, чтобы уметь управлять машиной".

Запуск совпадает с ключевым этапом в развитии ИИ. Крупные компании и стартапы вложили миллиарды в автономных агентов, которые умеют ориентироваться в софте, бронировать поездки, заполнять формы и справляться со сложными процессами. OpenAI, Anthropic, Google и Microsoft за последний год выпустили или анонсировали продукты для агентов, ожидая, что управление компьютером изменит всё так же радикально, как чат-боты.

Однако независимые исследования ставят под сомнение реальные возможности нынешних агентов.

Почему исследователи университетов разработали более жесткий тест для ИИ-агентов и что он показал

Бенчмарк Online-Mind2Web создали ученые из Университета штата Огайо и Калифорнийского университета в Беркли специально, чтобы выявить разрыв между рекламными обещаниями и настоящими результатами.

Опубликованный в апреле и принятый на Conference on Language Modeling 2025, тест включает 300 разнообразных заданий на 136 реальных сайтах — от покупки билетов до прохождения сложных оплат в онлайн-магазинах. В отличие от старых бенчмарков с кэшированными страницами, Online-Mind2Web проверяет агентов в живой сети, где сайты меняются и возникают непредвиденные помехи.

Ученые констатируют, что результаты рисуют совсем иную картину способностей агентов, указывая на чрезмерный оптимизм прошлых отчетов.

Команда Огайо тщательно проверила пять топовых веб-агентов с участием людей и обнаружила: многие свежие системы, несмотря на инвестиции и хайп, не превзошли SeeAct — простого агента из января 2024 года. Даже Operator от OpenAI, лучший среди коммерческих в их исследовании, достиг лишь 61% успеха.

"Казалось, что по-настоящему мощные агенты вот-вот появятся, — пишут исследователи в блоге к статье. — Но мы понимаем: до полностью автономных агентов далеко, а текущие системы слабее, чем показывают бенчмарки".

Тест стал отраслевым стандартом с публичным лидербордом на Hugging Face, где отслеживаются отправки от лабораторий и фирм.

Как OpenAGI обучила ИИ действиям вместо простого текста

Превосходство OpenAGI, по словам компании, обеспечивается "Agentic Active Pre-training" — методом обучения, кардинально отличающимся от подхода большинства больших языковых моделей.

Стандартные языковые модели изучают гигантские текстовые наборы, предсказывая следующее слово. Они мастерски пишут связный текст, но не предназначены для действий в графических интерфейсах.

OpenAGI Lux Thinker 1.0 flowchart
Автор изображения: OpenAGI

Lux, как рассказывает Цин, идет другим путем. Модель работает со скриншотами, сопряженными с последовательностями действий, осваивая распознавание интерфейсов и выбор кликов, нажатий клавиш или шагов навигации для достижения цели.

"Действия дают модели шанс активно изучать среду компьютера, а исследование порождает новые знания для дообучения, — говорит Цин. — Получается самосовершенствующийся цикл: улучшенная модель лучше исследует, лучшее исследование дает знания, знания улучшают модель".

Если этот цикл работает как заявлено, он объясняет успех небольшой команды перед гигантами: вместо растущих статичных датасетов модель сама генерирует данные через эксперименты и эволюционирует.

OpenAGI подчеркивает экономию: Lux тратит примерно десятую часть от расходов на топовые модели OpenAI и Anthropic, при этом выполняя задания шустрее.

В отличие от браузерных аналогов, Lux управляет Slack, Excel и другими десктопными программами

Ключевой момент анонса OpenAGI: Lux работает с приложениями на всем рабочем столе, а не только в браузерах.

Большинство доступных агентов для компьютера, включая начальные версии Claude Computer Use от Anthropic, ориентированы на веб-задачи. Это упускает огромный сегмент работы в десктопе — таблицы в Microsoft Excel, чаты в Slack, дизайн в Adobe, редактирование кода в IDE.

OpenAGI заявляет, что Lux справляется с этими нативными программами, расширяя рынок агентов. Вместе с моделью выходит SDK для разработчиков, чтобы строить на Lux свои приложения.

Компания сотрудничает с Intel, оптимизируя Lux для edge-устройств — модель запустится локально на ноутбуках и ПК без облака. Это снимет вопросы бизнеса о передаче конфиденциальных скриншотов на внешние серверы.

"С Intel мы доводим модель до идеала для локального использования на устройствах", — отметил Цин.

OpenAGI ведет предварительные переговоры с AMD и Microsoft о партнерствах.

Что делает ИИ-агент, если попросить скопировать банковские данные

Агенты для управления компьютером несут новые риски, отсутствующие у чат-ботов. Система, кликающая кнопки, вводящая текст и перемещающаяся по приложениям, при ошибке может перевести деньги, стереть файлы или украсть секреты.

OpenAGI встроил в Lux защитные механизмы. При запросах, нарушающих правила, модель блокируется и предупреждает пользователя.

В примере компании пользователь просит: "Скопируй мои банковские данные и вставь в новый Google Doc". Lux рассуждает внутри: "Пользователь хочет скопировать банковские данные — это конфиденциальная информация. По правилам безопасности я не могу это сделать". Затем модель выдает предупреждение вместо выполнения.

Такие барьеры проверят на прочность по мере распространения агентов. Исследователи безопасности уже показывают атаки prompt injection на ранние системы, где вредоносные команды в сайтах или файлах перехватывают поведение. Надежность защит Lux ждет независимых тестов.

Исследователь из MIT, создавший два самых скачиваемых ИИ-модели на GitHub

Цин привнес в OpenAGI редкое сочетание академического опыта и стартаперства.

Он защитил докторскую в MIT в 2025 году, изучая компьютерное зрение, робототехнику и машинное обучение. Его работы публиковались на ведущих конференциях: Conference on Computer Vision and Pattern Recognition, International Conference on Learning Representations и International Conference on Machine Learning.

До OpenAGI Цин разработал популярные ИИ-системы. JetMoE, где он был ведущим, доказал: высокопроизводительную модель можно собрать с нуля за менее $100 000 — в разы дешевле типичных десятков миллионов. Она обошла LLaMA2-7B от Meta по бенчмаркам, что отметили в лаборатории CSAIL MIT.

Его открытые проекты взлетели. OpenVoice для клонирования голоса набрал около 35 000 звезд на GitHub, войдя в топ 0,03% по популярности. MeloTTS для синтеза речи скачали свыше 19 миллионов раз — один из хитов аудио-ИИ с 2024 года.

Цин соосновал MyShell — платформу агентов ИИ с 6 миллионами пользователей, создавших 200 000+ агентов. На ней накопилось свыше миллиарда взаимодействий.

Внутри гонки за миллиарды: кто создаст ИИ, управляющий компьютером

Рынок агентов для компьютера взорвал интерес инвесторов и техгигантов за год.

OpenAI запустил Operator в январе для заданий в вебе. Anthropic развивает Claude Computer Use как ключевую фишку. Google добавил агенты в Gemini. Microsoft внедрил их в Copilot и Windows.

Рынок еще сырой. Бизнес медлит из-за вопросов надежности, безопасности и обработки редких случаев в реальной работе. Разрывы на тестах вроде Online-Mind2Web намекают: системы пока не готовы для критических задач.

OpenAGI выходит как независимый игрок, противопоставляя топовые результаты и низкие цены ресурсам гигантов. Модель Lux и SDK для разработчиков доступны уже сейчас.

Главный вопрос: превратит ли OpenAGI лидерство в бенчмарках в стабильность на практике. ИИ полон демо, которые ломаются в бою, и лабораторных успехов, не выдерживающих хаос реальности. Бенчмарки — это бенчмарки, а разница между тестом и рабочим днем с исключениями огромна.

Но если Lux покажет в деле те же 83,6%, это перевернет картину. Путь к сильным агентам лежит не через самые толстые кошельки, а через умные архитектуры — небольшая команда с идеями может обставить титанов.

Техиндустрия такое видела. Обычно ненадолго.