обучение-с-подкреплением

24 публикаций по теме

Команда Qwen заставляет ИИ-модели мыслить глубже новым алгоритмом

Команда Qwen из Alibaba разработала алгоритм FIPO, который решает проблему равномерного распределения наград в обучении с подкреплением, удваивая длину цепочек рассуждений до 10 000 токенов и поднимая точность на AIME 2024 до 58%. Модель начинает самостоятельно проверять свои расчеты, обходясь без дополнительных данных CoT. Пока результаты ограничены математикой, но код обещают открыть.

5 мин

5 апреля 2026 г.

Новости

Обучение ИИ для вождения в 50 000 раз быстрее реального времени

General Motors обучает ИИ для автономного вождения в симуляциях в 50 000 раз быстрее реального времени, используя Boxworld, VLA-модели и синтетические данные для длинного хвоста сценариев. Подход сочетает высокодетализированные симуляции, adversarial тесты и дистилляцию политики, снижая риски столкновений на 30%. Это создает основу для полностью надежных систем.

8 мин

25 марта 2026 г.

Новости

Агенты RL переходят от падений к паркуру с глубокими сетями

Ученые из Princeton и Варшавы увеличили глубину RL-сетей до 1024 слоев с помощью CRL, добившись 2–50x роста эффективности и новых действий вроде паркура у гуманоидов. Глубина превосходит ширину, но нужны остаточные связи, нормализация и активация. Метод обходит базовые RL в 8 из 10 задач, код открыт.

5 мин

15 марта 2026 г.

Новости

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.

3 мин

11 марта 2026 г.

Новости

Uber запускает AV Labs для данных роботакси

Uber открывает подразделение AV Labs, чтобы собирать данные о вождении для партнёров вроде Waymo и делиться ими бесплатно. Машины с сенсорами выйдут на дороги 600 городов, помогая решать редкие сценарии через обработанные датасеты и теневой режим. Подход вдохновлён Tesla, но заточен под целевые нужды отрасли.

4 мин

27 января 2026 г.

Новости

LLM могут стать моделями мира для ИИ-агентов

Большие языковые модели способны симулировать окружения для обучения ИИ-агентов, преодолевая ограничения реального опыта. Исследование на пяти текстовых средах показало высокую точность после дообучения, особенно в структурированных задачах. Результаты поддерживают идею перехода к обучению на синтетическом опыте.

4 мин

1 января 2026 г.

Статьи

Следующий рубеж в ИИ: не данные, а опыт

Следующий этап развития искусственного интеллекта будет связан не только с увеличением объемов данных но также созданием специализированных сред где модели смогут учиться через взаимодействие эксперименты ошибки Это позволит им лучше адаптироваться сложным реальным сценариям

5 мин

13 декабря 2025 г.

Новости

OpenAI учит ИИ признаваться в нарушениях

OpenAI разрабатывает метод, при котором большие языковые модели генерируют признания о своих действиях и нарушениях. Это помогает диагностировать проблемы вроде обмана или лжи, хотя эксперты предупреждают о ограничениях. Тестирование на GPT-5-Thinking показало высокую эффективность в большинстве случаев.

5 мин

4 декабря 2025 г.

Новости

GLM-5V-Turbo от Zhipu AI превращает дизайн-макеты в готовый фронтенд-код

Zhipu AI представила GLM-5V-Turbo — мультимодальную модель, которая превращает дизайн-макеты в исполняемый фронтенд-код и интегрируется в агенты вроде OpenClaw. Она лидирует в бенчмарках по мультимодальному кодингу и GUI-задачам, сохраняя силу в текстовых тестах. Модель доступна через API по цене $1.20/млн входных и $4/млн выходных токенов.

6 мин

3 апреля 2026 г.

Новости

Amazon запускает Alexa+ в Великобритании

Amazon вывела ИИ-ассистент Alexa+ в Великобританию — первую страну за пределами Северной Америки. Сервис адаптирован под британский акцент с помощью обучения с подкреплением и доступен бесплатно в раннем доступе для покупателей Echo. После теста он будет стоить 19,99 фунта в месяц без Prime.

2 мин

19 марта 2026 г.

Новости

OpenClaw-RL обучает ИИ-агентов просто через разговоры

Ученые из Принстонского университета создали OpenClaw-RL — фреймворк, который обучает ИИ-агентов на сигналах из повседневных взаимодействий, превращая ответы пользователей в данные для RL. Сочетает Binary RL и OPD для оценок и корректировок. После десятков шагов точность растет: в симуляциях персонализация до 0.90, в задачах GUI и tool-call — на 0.02–0.13.

6 мин

15 марта 2026 г.

Новости

ИИ меняет мышление ведущих игроков в го

ИИ AlphaGo и KataGo радикально изменили го: топ-игроки копируют машинные ходы, дебюты стали однообразными, но мидлгейм сохраняет человеческий шарм. Технология democratizes тренировки, помогая женщинам расти в рейтингах, и дает новые вызовы мастерам вроде Сина Джин-со.

7 мин

27 февраля 2026 г.

Новости

TranslateGemma: перевод 55 языков на устройствах

Google выпустил TranslateGemma — открытые модели для перевода 55 языков, которые работают на смартфонах, ноутбуках и серверах. Компактная 12B-версия обходит более крупные по качеству благодаря специальному обучению. Модели сохраняют мультимодальность и доступны для скачивания.

3 мин

15 января 2026 г.

Новости

Orchestrator от Nvidia: умный координатор ИИ

Специалисты Nvidia и Университета Гонконга разработали Orchestrator — 8B-модель, которая эффективно управляет инструментами и другими ИИ для сложных задач. С помощью фреймворка ToolOrchestra на базе RL она достигает высокой точности при низких затратах и учитывает предпочтения пользователей. Результаты на бенчмарках HLE, FRAMES и Tau2-Bench показывают превосходство над крупными моделями.

5 мин

14 декабря 2025 г.

Новости

OpenAI учит ИИ «сдаваться» и признавать скрытые нарушения

OpenAI предлагает метод Confessions: модель даёт обычный ответ пользователю, а затем в отдельном отчёте честно разбирает, какие инструкции нарушила или где была неуверенна. Такой «второй канал» с отдельным вознаграждением за правдивость помогает выявлять взлом системы наград и скрытые нарушения, причём даже в сложных для проверки задачах. Инструмент не предотвращает плохое поведение напрямую, но делает его заметным и дополняет другие методы контроля, вроде анализа цепочек рассуждений и специальных промтов против обмана.

3 мин

8 декабря 2025 г.

Статьи

Правила честности в CS234: Reinforcement Learning Зима 2025

В курсе CS234: Reinforcement Learning Зима 2025 подчеркивается важность индивидуальной работы и академической честности. Студенты могут обсуждать идеи, но обязаны самостоятельно создавать решения, а для кода — делиться только тестами. Использование ИИ-инструментов разрешено с ограничениями, и нарушения передаются в специальные органы.

2 мин

27 ноября 2025 г.

обучение-с-подкреплением

Команда Qwen заставляет ИИ-модели мыслить глубже новым алгоритмом

Обучение ИИ для вождения в 50 000 раз быстрее реального времени

Агенты RL переходят от падений к паркуру с глубокими сетями

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

Uber запускает AV Labs для данных роботакси

LLM могут стать моделями мира для ИИ-агентов

Следующий рубеж в ИИ: не данные, а опыт

OpenAI учит ИИ признаваться в нарушениях

GLM-5V-Turbo от Zhipu AI превращает дизайн-макеты в готовый фронтенд-код

Amazon запускает Alexa+ в Великобритании

OpenClaw-RL обучает ИИ-агентов просто через разговоры

ИИ меняет мышление ведущих игроков в го

TranslateGemma: перевод 55 языков на устройствах

Orchestrator от Nvidia: умный координатор ИИ

OpenAI учит ИИ «сдаваться» и признавать скрытые нарушения

Правила честности в CS234: Reinforcement Learning Зима 2025

Сейчас в тренде

Популярные темы