Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Ансамбли XGBoost доминируют на табличных данных благодаря точности и скорости. Семь приёмов на Python улучшают модели: настройка learning_rate с n_estimators, ограничение max_depth, subsample, регуляризация, раннее останавливание, GridSearchCV и scale_pos_weight для дисбаланса. Примеры даны на датасете Breast Cancer из scikit-learn.
Семь практичных приемов на Python помогают в exploratory data analysis находить пропуски, выбросы, дубликаты и другие дефекты данных. На примере датасета сотрудников с искусственными ошибками показаны тепловые карты, IQR, лог-трансформы и корреляции. Методы сохраняют все детали и готовы к использованию в коде.
Uber открывает подразделение AV Labs, чтобы собирать данные о вождении для партнёров вроде Waymo и делиться ими бесплатно. Машины с сенсорами выйдут на дороги 600 городов, помогая решать редкие сценарии через обработанные датасеты и теневой режим. Подход вдохновлён Tesla, но заточен под целевые нужды отрасли.
Cloudflare приобретает стартап Human Native, чтобы создать систему оплаты за данные обучения ИИ и решить проблему бесплатного скрапинга контента краулерами. Это дополняет инструменты вроде AI Crawl Control и Pay Per Crawl, а также усилия по M2M-платежам через x402 Foundation. Платформа Cloudflare недавно расширилась покупкой Replicate.
Новый бенчмарк SDE проверяет языковые модели на реальных научных сценариях и показывает: даже топовые ИИ вроде GPT-5 слабы в подлинных исследованиях. Производительность падает, ошибки коррелируют, а рост масштаба дает малый эффект. Модели полезны как помощники, но до сверхразума далеко.
Статья разбирает проект NoBroker и четыре приёма работы с реальными беспорядочными данными: пропуски, выбросы, несоответствия, типы. На примерах кода показывают, как очищать наборы без потерь, чтобы модели работали стабильно. Документация и проверки — ключ к воспроизводимости.
В руководстве демонстрируется построение модели множественной линейной регрессии с использованием PyTorch на наборе данных Abalone, с сравнением результатов Scikit-Learn. Анализ данных выявляет проблемы с гомоскедастичностью и выбросами, влияющие на точность. Модель PyTorch показывает скромное улучшение на 4%, подчеркивая ограничения линейных подходов для нелинейных данных.
Автоматическое распознавание листьев растений с использованием глубоких эмбеддингов и евклидова сходства позволяет эффективно идентифицировать виды по изображениям. На основе датасета UCI One-Hundred Plant Species Leaves модель ResNet-50 достигает высокой точности, демонстрируя применение в экологии, сельском хозяйстве и образовании. Система включает предобработку, извлечение признаков и анализ, обеспечивая воспроизводимость и интерпретируемость результатов.
SMOTE помогает справляться с дисбалансом классов в машинном обучении, генерируя синтетические примеры для редких классов. Многие допускают ошибки вроде применения метода до разделения данных или чрезмерной балансировки. Правильный подход через Pipeline в Python и фокус на релевантных метриках обеспечивает надежные модели.
OpenAI разработала ИИ-агента для внутренних данных, который помогает сотрудникам анализировать 600 петабайт информации на естественном языке. Ключевой элемент — техника "Codex Enrichment", изучающая код для понимания таблиц, плюс еще пять уровней контекста. Тестирование показало сокращение времени анализа с дней до минут.
Команда Microsoft и Tsinghua разработала 7B-модель X-Coder для программирования, обученную исключительно на синтетических данных SynthSmith, которая превосходит 14B-конкурентов на бенчмарках LiveCodeBench. Разнообразие задач оказалось ключевым фактором успеха, а синтетика снизила риск контаминации. Код доступен на GitHub, веса модели выйдут скоро.
Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.
Элизабет Лион подала коллективный иск против Adobe, обвинив компанию в использовании пиратских книг для обучения модели SlimLM на датасете SlimPajama-627B, производном от RedPajama с коллекцией Books3. Такие инциденты повторяются: похожие иски затронули Apple, Salesforce, а Anthropic уже согласилась на выплату 1,5 млрд долларов авторам. Судебные разбирательства подчёркивают растущие риски с данными для ИИ.
Следующий этап развития искусственного интеллекта будет связан не только с увеличением объемов данных но также созданием специализированных сред где модели смогут учиться через взаимодействие эксперименты ошибки Это позволит им лучше адаптироваться сложным реальным сценариям
Статья исследует, всегда ли увеличение объема данных улучшает производительность моделей машинного обучения. На примере датасета UCI Irvine анализируются эффекты добавления образцов и характеристик, показывая, что качество данных критично для обобщения. Подчеркивается необходимость экспериментов и валидации для стратегического подхода к сбору информации.
Dask и scikit-learn вместе обеспечивают эффективную обработку больших данных через параллельные вычисления. Статья демонстрирует загрузку, очистку и подготовку калифорнийского датасета по жилью, а также обучение модели регрессии. Это позволяет оптимизировать ресурсы даже на ограниченном оборудовании.