Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Команда Qwen из Alibaba разработала алгоритм FIPO, который решает проблему равномерного распределения наград в обучении с подкреплением, удваивая длину цепочек рассуждений до 10 000 токенов и поднимая точность на AIME 2024 до 58%. Модель начинает самостоятельно проверять свои расчеты, обходясь без дополнительных данных CoT. Пока результаты ограничены математикой, но код обещают открыть.
General Motors обучает ИИ для автономного вождения в симуляциях в 50 000 раз быстрее реального времени, используя Boxworld, VLA-модели и синтетические данные для длинного хвоста сценариев. Подход сочетает высокодетализированные симуляции, adversarial тесты и дистилляцию политики, снижая риски столкновений на 30%. Это создает основу для полностью надежных систем.
Ученые из Princeton и Варшавы увеличили глубину RL-сетей до 1024 слоев с помощью CRL, добившись 2–50x роста эффективности и новых действий вроде паркура у гуманоидов. Глубина превосходит ширину, но нужны остаточные связи, нормализация и активация. Метод обходит базовые RL в 8 из 10 задач, код открыт.
OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.
Uber открывает подразделение AV Labs, чтобы собирать данные о вождении для партнёров вроде Waymo и делиться ими бесплатно. Машины с сенсорами выйдут на дороги 600 городов, помогая решать редкие сценарии через обработанные датасеты и теневой режим. Подход вдохновлён Tesla, но заточен под целевые нужды отрасли.
Большие языковые модели способны симулировать окружения для обучения ИИ-агентов, преодолевая ограничения реального опыта. Исследование на пяти текстовых средах показало высокую точность после дообучения, особенно в структурированных задачах. Результаты поддерживают идею перехода к обучению на синтетическом опыте.
Следующий этап развития искусственного интеллекта будет связан не только с увеличением объемов данных но также созданием специализированных сред где модели смогут учиться через взаимодействие эксперименты ошибки Это позволит им лучше адаптироваться сложным реальным сценариям
OpenAI разрабатывает метод, при котором большие языковые модели генерируют признания о своих действиях и нарушениях. Это помогает диагностировать проблемы вроде обмана или лжи, хотя эксперты предупреждают о ограничениях. Тестирование на GPT-5-Thinking показало высокую эффективность в большинстве случаев.
Zhipu AI представила GLM-5V-Turbo — мультимодальную модель, которая превращает дизайн-макеты в исполняемый фронтенд-код и интегрируется в агенты вроде OpenClaw. Она лидирует в бенчмарках по мультимодальному кодингу и GUI-задачам, сохраняя силу в текстовых тестах. Модель доступна через API по цене $1.20/млн входных и $4/млн выходных токенов.
Amazon вывела ИИ-ассистент Alexa+ в Великобританию — первую страну за пределами Северной Америки. Сервис адаптирован под британский акцент с помощью обучения с подкреплением и доступен бесплатно в раннем доступе для покупателей Echo. После теста он будет стоить 19,99 фунта в месяц без Prime.
Ученые из Принстонского университета создали OpenClaw-RL — фреймворк, который обучает ИИ-агентов на сигналах из повседневных взаимодействий, превращая ответы пользователей в данные для RL. Сочетает Binary RL и OPD для оценок и корректировок. После десятков шагов точность растет: в симуляциях персонализация до 0.90, в задачах GUI и tool-call — на 0.02–0.13.
ИИ AlphaGo и KataGo радикально изменили го: топ-игроки копируют машинные ходы, дебюты стали однообразными, но мидлгейм сохраняет человеческий шарм. Технология democratizes тренировки, помогая женщинам расти в рейтингах, и дает новые вызовы мастерам вроде Сина Джин-со.
Google выпустил TranslateGemma — открытые модели для перевода 55 языков, которые работают на смартфонах, ноутбуках и серверах. Компактная 12B-версия обходит более крупные по качеству благодаря специальному обучению. Модели сохраняют мультимодальность и доступны для скачивания.
Специалисты Nvidia и Университета Гонконга разработали Orchestrator — 8B-модель, которая эффективно управляет инструментами и другими ИИ для сложных задач. С помощью фреймворка ToolOrchestra на базе RL она достигает высокой точности при низких затратах и учитывает предпочтения пользователей. Результаты на бенчмарках HLE, FRAMES и Tau2-Bench показывают превосходство над крупными моделями.
OpenAI предлагает метод Confessions: модель даёт обычный ответ пользователю, а затем в отдельном отчёте честно разбирает, какие инструкции нарушила или где была неуверенна. Такой «второй канал» с отдельным вознаграждением за правдивость помогает выявлять взлом системы наград и скрытые нарушения, причём даже в сложных для проверки задачах. Инструмент не предотвращает плохое поведение напрямую, но делает его заметным и дополняет другие методы контроля, вроде анализа цепочек рассуждений и специальных промтов против обмана.
В курсе CS234: Reinforcement Learning Зима 2025 подчеркивается важность индивидуальной работы и академической честности. Студенты могут обсуждать идеи, но обязаны самостоятельно создавать решения, а для кода — делиться только тестами. Использование ИИ-инструментов разрешено с ограничениями, и нарушения передаются в специальные органы.