Будущее искусственного интеллекта опыт вместо данных

Эволюция искусственного интеллекта: от масштаба к опыту

Последнее десятилетие развитие искусственного интеллекта измерялось масштабом: крупные модели, огромные наборы данных и мощные вычислительные ресурсы. Этот подход привел к поразительным прорывам в области больших языковых моделей (LLM). Всего за пять лет ИИ перешел от моделей вроде GPT-2, которые едва могли имитировать связную речь, к системам типа GPT-5, способным рассуждать и поддерживать содержательный диалог. А первые прототипы ИИ-агентов, которые могут ориентироваться в кодовых базах или просматривать веб-страницы, указывают на совершенно новый рубеж.

Однако одного масштаба недостаточно для дальнейшего прогресса. Следующий скачок произойдет не за счет увеличения размеров моделей, а благодаря сочетанию высококачественных данных с виртуальными мирами, в которых модели могут обучаться. И самый важный вопрос звучит так: как должны выглядеть учебные классы для ИИ?

Обучение ИИ: от данных к опыту

История современного искусственного интеллекта развивалась этапами, каждый из которых определялся типом данных, используемых для обучения моделей. Сначала наступила эпоха предварительного обучения на интернет-масштабных наборах данных. Эти общедоступные данные позволили машинам имитировать человеческий язык, распознавая статистические закономерности. Затем появились данные в сочетании с обучением с подкреплением на основе человеческой обратной связи — техника, использующая оценки толпы для оценки ответов LLM, что сделало ИИ более полезным, отзывчивым и соответствующим человеческим предпочтениям.

Мы сами проходили через оба этих этапа. Работая над данными для моделей в Scale AI, мы столкнулись с тем, что многие считают фундаментальной проблемой ИИ: обеспечение того, чтобы обучающие данные были разнообразными, точными и эффективными для повышения производительности. Системы, обученные на чистых, структурированных данных с экспертными метками, совершили значительный скачок. Решение проблемы данных позволило нам добиться некоторых из самых важных достижений в области LLM за последние несколько лет.

Сегодня данные по-прежнему остаются основой. Это сырье, из которого строится интеллект. Но мы входим в новую фазу, где одних данных уже недостаточно. Чтобы открыть следующий рубеж, необходимо сочетать высококачественные данные с средами, позволяющими безграничное взаимодействие, непрерывную обратную связь и обучение через действие. Среды обучения с подкреплением не заменяют данные; они усиливают их возможности, позволяя моделям применять знания, тестировать гипотезы и совершенствовать поведение в реалистичных условиях.

Как работает среда обучения с подкреплением

В среде обучения с подкреплением модель учится через простой цикл: она наблюдает состояние мира, совершает действие и получает вознаграждение, указывающее на то, помогло ли это действие достичь цели. За множество итераций модель постепенно открывает стратегии, ведущие к лучшим результатам. Ключевое изменение заключается в том, что обучение становится интерактивным — модели не просто предсказывают следующий токен, но улучшаются через пробу и ошибку.

Например, языковые модели уже могут генерировать код в простом чат-окружении. Поместите их в живую среду программирования — где они могут анализировать контекст, запускать свой код, исправлять ошибки и улучшать решение — и произойдет что-то новое. Они переходят от консультирования к автономному решению задач.

Это различие имеет значение. В мире программного обеспечения способность ИИ генерировать и тестировать производственный код в огромных репозиториях станет серьезным изменением возможностей. Этот скачок произойдет не только за счет больших наборов данных; он будет результатом погружения в среды, где агенты могут экспериментировать, ошибаться и учиться через повторение — так же как это делают люди-программисты. Реальный мир разработки хаотичен: программисты сталкиваются с плохо описанными багами, запутанными кодовыми базами и расплывчатыми требованиями. Обучение ИИ справляться с этим хаосом — единственный способ перейти от генерации ошибочных попыток к созданию последовательных и надежных решений.

Может ли ИИ справиться с реальным миром?

Навигация по интернету также сопряжена с хаосом. Всплывающие окна, стены авторизации, битые ссылки и устаревшая информация переплетены в повседневные процессы веб-серфинга. Люди справляются с этими помехами почти инстинктивно, но ИИ может развить эту способность только через обучение в средах, имитирующих непредсказуемость сети. Агенты должны научиться восстанавливаться после ошибок распознавать препятствия интерфейса пользователя и завершать многоэтапные рабочие процессы в широко используемых приложениях.

Некоторые из самых важных сред вообще не являются публичными. Правительства и предприятия активно создают безопасные симуляции где ИИ может практиковать принятие решений высоких ставок без реальных последствий Рассмотрим например ликвидацию последствий стихийных бедствий Было бы немыслимо развернуть непроверенного агента во время реального урагана Но в симулированном мире портов дорог цепочек поставок агент может потерпеть тысячу неудач постепенно становясь лучше составления оптимального плана

Следующий рубеж в ИИ: не данные, а опыт

Эволюция искусственного интеллекта: от масштаба к опыту

Обучение ИИ: от данных к опыту

Как работает среда обучения с подкреплением

Может ли ИИ справиться с реальным миром?

Горячее