Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Компания Micro1 нанимает тысячи фрилансеров в 50+ странах для записи видео бытовых дел, которые обучают гуманоидных роботов манипулировать предметами. Работа приносит хороший доход локально, но вызывает вопросы приватности, согласия и качества данных. В 2025 году инвесторы вложили свыше 6 млрд долларов в такие роботы, спрос на данные превышает 100 млн долларов ежегодно.
Google применил модель Gemini для анализа миллионов новостей и создания датасета Groundsource о вспышковых наводнениях. На его основе обучили LSTM-модель, которая теперь прогнозирует риски в 150 странах через Flood Hub. Подход решает проблему нехватки данных в бедных регионах и может расшириться на другие угрозы.
OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.
Специалисты из Apple, Stanford и Вашингтонского университета обнаружили, что экстракторы HTML вроде Resiliparse, Trafilatura и JusText пропускают разные участки веба — общие всего 39% страниц. Их объединение увеличивает токены на 71%, радикально улучшая таблицы и код. Это заставит пересмотреть подготовку данных для ИИ-моделей.
SMOTE помогает справляться с дисбалансом классов в машинном обучении, генерируя синтетические примеры для редких классов. Многие допускают ошибки вроде применения метода до разделения данных или чрезмерной балансировки. Правильный подход через Pipeline в Python и фокус на релевантных метриках обеспечивает надежные модели.
OpenAI разработала ИИ-агента для внутренних данных, который помогает сотрудникам анализировать 600 петабайт информации на естественном языке. Ключевой элемент — техника "Codex Enrichment", изучающая код для понимания таблиц, плюс еще пять уровней контекста. Тестирование показало сокращение времени анализа с дней до минут.
Команда Microsoft и Tsinghua разработала 7B-модель X-Coder для программирования, обученную исключительно на синтетических данных SynthSmith, которая превосходит 14B-конкурентов на бенчмарках LiveCodeBench. Разнообразие задач оказалось ключевым фактором успеха, а синтетика снизила риск контаминации. Код доступен на GitHub, веса модели выйдут скоро.
Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.
ИИ-агент OpenSeeker от ученых Шанхайского университета Цзяотун достигает результатов Alibaba с 11 700 точек данных и одной тренировкой. Модель обходит другие открытые аналоги на бенчмарках BrowseComp, все ресурсы — данные, код, веса — публичны. Это разрушает монополию больших компаний на данные для поиска.
Ai2 представила открытый набор моделей MolmoBot для робототехники, обученных на 1,8 млн синтетических траекторий из симуляций MuJoCo. Модели достигают 79,2% успеха в реальных задачах без дообучения, обходя ручной сбор данных. Такой подход ускоряет исследования и снижает затраты.
Ученые создали крупнейший датасет VBVR для видео-рассуждений с миллионами примеров; тесты показали, что Sora 2 набирает лишь 0,546 от человеческого уровня 0,974, а Veo 3.1 — 0,480. Дообученная Wan2.2 обошла закрытые модели, но на новых задачах уперлась в потолок — нужны изменения архитектуры.
Ансамбли XGBoost доминируют на табличных данных благодаря точности и скорости. Семь приёмов на Python улучшают модели: настройка learning_rate с n_estimators, ограничение max_depth, subsample, регуляризация, раннее останавливание, GridSearchCV и scale_pos_weight для дисбаланса. Примеры даны на датасете Breast Cancer из scikit-learn.
Семь практичных приемов на Python помогают в exploratory data analysis находить пропуски, выбросы, дубликаты и другие дефекты данных. На примере датасета сотрудников с искусственными ошибками показаны тепловые карты, IQR, лог-трансформы и корреляции. Методы сохраняют все детали и готовы к использованию в коде.
Uber открывает подразделение AV Labs, чтобы собирать данные о вождении для партнёров вроде Waymo и делиться ими бесплатно. Машины с сенсорами выйдут на дороги 600 городов, помогая решать редкие сценарии через обработанные датасеты и теневой режим. Подход вдохновлён Tesla, но заточен под целевые нужды отрасли.
Cloudflare приобретает стартап Human Native, чтобы создать систему оплаты за данные обучения ИИ и решить проблему бесплатного скрапинга контента краулерами. Это дополняет инструменты вроде AI Crawl Control и Pay Per Crawl, а также усилия по M2M-платежам через x402 Foundation. Платформа Cloudflare недавно расширилась покупкой Replicate.
Новый бенчмарк SDE проверяет языковые модели на реальных научных сценариях и показывает: даже топовые ИИ вроде GPT-5 слабы в подлинных исследованиях. Производительность падает, ошибки коррелируют, а рост масштаба дает малый эффект. Модели полезны как помощники, но до сверхразума далеко.