датасеты

7 трюков Python EDA для поиска ошибок данных

Семь практичных приемов на Python помогают в exploratory data analysis находить пропуски, выбросы, дубликаты и другие дефекты данных. На примере датасета сотрудников с искусственными ошибками показаны тепловые карты, IQR, лог-трансформы и корреляции. Методы сохраняют все детали и готовы к использованию в коде.

9 февраля 2026 г.

Uber запускает AV Labs для данных роботакси

Uber открывает подразделение AV Labs, чтобы собирать данные о вождении для партнёров вроде Waymo и делиться ими бесплатно. Машины с сенсорами выйдут на дороги 600 городов, помогая решать редкие сценарии через обработанные датасеты и теневой режим. Подход вдохновлён Tesla, но заточен под целевые нужды отрасли.

4 мин

27 января 2026 г.

Cloudflare покупает Human Native для ИИ-данных

Cloudflare приобретает стартап Human Native, чтобы создать систему оплаты за данные обучения ИИ и решить проблему бесплатного скрапинга контента краулерами. Это дополняет инструменты вроде AI Crawl Control и Pay Per Crawl, а также усилия по M2M-платежам через x402 Foundation. Платформа Cloudflare недавно расширилась покупкой Replicate.

1 мин

16 января 2026 г.

Новый тест: ИИ не готов к науке

Новый бенчмарк SDE проверяет языковые модели на реальных научных сценариях и показывает: даже топовые ИИ вроде GPT-5 слабы в подлинных исследованиях. Производительность падает, ошибки коррелируют, а рост масштаба дает малый эффект. Модели полезны как помощники, но до сверхразума далеко.

6 мин

26 декабря 2025 г.

Детокс данных: подготовка к реальным хаотичным наборам

Статья разбирает проект NoBroker и четыре приёма работы с реальными беспорядочными данными: пропуски, выбросы, несоответствия, типы. На примерах кода показывают, как очищать наборы без потерь, чтобы модели работали стабильно. Документация и проверки — ключ к воспроизводимости.

12 мин

15 декабря 2025 г.

Руководство по PyTorch: Множественная регрессия с нуля

В руководстве демонстрируется построение модели множественной линейной регрессии с использованием PyTorch на наборе данных Abalone, с сравнением результатов Scikit-Learn. Анализ данных выявляет проблемы с гомоскедастичностью и выбросами, влияющие на точность. Модель PyTorch показывает скромное улучшение на 4%, подчеркивая ограничения линейных подходов для нелинейных данных.

12 мин

20 ноября 2025 г.

Автоматическое распознавание листьев растений с помощью глубоких эмбеддингов

Автоматическое распознавание листьев растений с использованием глубоких эмбеддингов и евклидова сходства позволяет эффективно идентифицировать виды по изображениям. На основе датасета UCI One-Hundred Plant Species Leaves модель ResNet-50 достигает высокой точности, демонстрируя применение в экологии, сельском хозяйстве и образовании. Система включает предобработку, извлечение признаков и анализ, обеспечивая воспроизводимость и интерпретируемость результатов.

12 мин

18 ноября 2025 г.

Почему SMOTE используют неправильно

SMOTE помогает справляться с дисбалансом классов в машинном обучении, генерируя синтетические примеры для редких классов. Многие допускают ошибки вроде применения метода до разделения данных или чрезмерной балансировки. Правильный подход через Pipeline в Python и фокус на релевантных метриках обеспечивает надежные модели.

6 мин

11 февраля 2026 г.

OpenAI создала шестиуровневую систему для 600 ПБ данных

OpenAI разработала ИИ-агента для внутренних данных, который помогает сотрудникам анализировать 600 петабайт информации на естественном языке. Ключевой элемент — техника "Codex Enrichment", изучающая код для понимания таблиц, плюс еще пять уровней контекста. Тестирование показало сокращение времени анализа с дней до минут.

4 мин

30 января 2026 г.

7B-модель кода от Microsoft-Tsinghua обходит 14B-аналоги

Команда Microsoft и Tsinghua разработала 7B-модель X-Coder для программирования, обученную исключительно на синтетических данных SynthSmith, которая превосходит 14B-конкурентов на бенчмарках LiveCodeBench. Разнообразие задач оказалось ключевым фактором успеха, а синтетика снизила риск контаминации. Код доступен на GitHub, веса модели выйдут скоро.

25 января 2026 г.

CSV, Parquet, Arrow: форматы хранения данных

Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.

2 мин

13 января 2026 г.

Иск против Adobe за пиратские книги в ИИ

Элизабет Лион подала коллективный иск против Adobe, обвинив компанию в использовании пиратских книг для обучения модели SlimLM на датасете SlimPajama-627B, производном от RedPajama с коллекцией Books3. Такие инциденты повторяются: похожие иски затронули Apple, Salesforce, а Anthropic уже согласилась на выплату 1,5 млрд долларов авторам. Судебные разбирательства подчёркивают растущие риски с данными для ИИ.

2 мин

18 декабря 2025 г.

Следующий рубеж в ИИ: не данные, а опыт

Следующий этап развития искусственного интеллекта будет связан не только с увеличением объемов данных но также созданием специализированных сред где модели смогут учиться через взаимодействие эксперименты ошибки Это позволит им лучше адаптироваться сложным реальным сценариям

13 декабря 2025 г.

Больше данных — всегда ли лучше производительность?

Статья исследует, всегда ли увеличение объема данных улучшает производительность моделей машинного обучения. На примере датасета UCI Irvine анализируются эффекты добавления образцов и характеристик, показывая, что качество данных критично для обобщения. Подчеркивается необходимость экспериментов и валидации для стратегического подхода к сбору информации.

9 мин

19 ноября 2025 г.

Обработка больших данных с Dask и Scikit-learn

Dask и scikit-learn вместе обеспечивают эффективную обработку больших данных через параллельные вычисления. Статья демонстрирует загрузку, очистку и подготовку калифорнийского датасета по жилью, а также обучение модели регрессии. Это позволяет оптимизировать ресурсы даже на ограниченном оборудовании.