Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
В руководстве демонстрируется построение модели множественной линейной регрессии с использованием PyTorch на наборе данных Abalone, с сравнением результатов Scikit-Learn. Анализ данных выявляет проблемы с гомоскедастичностью и выбросами, влияющие на точность. Модель PyTorch показывает скромное улучшение на 4%, подчеркивая ограничения линейных подходов для нелинейных данных.
Автоматическое распознавание листьев растений с использованием глубоких эмбеддингов и евклидова сходства позволяет эффективно идентифицировать виды по изображениям. На основе датасета UCI One-Hundred Plant Species Leaves модель ResNet-50 достигает высокой точности, демонстрируя применение в экологии, сельском хозяйстве и образовании. Система включает предобработку, извлечение признаков и анализ, обеспечивая воспроизводимость и интерпретируемость результатов.
Системы LLM в роли судей могут вводить в заблуждение уверенными, но ошибочными ответами, искажая результаты на 10–20%. Исследователи создали датасет с ручной разметкой и фреймворк syftr для тестирования конфигураций, выявив оптимальные комбинации моделей и промптов. Это позволяет строить дешевле и точнее gpt-4o-mini, достигая до 96% согласованности с человеческими оценками.
Проект по визуальной классификации пыльцы использует новые наборы данных и модели машинного обучения, включая CNN и Vision Transformers, для точного распознавания видов пыльцы. Существующие наборы данных анализируются, а новый набор из 200 изображений на класс без окраски позволяет обучать эффективные классификаторы. Трансформер для зрения достиг идеальной точности 1.00 на одном из наборов, превосходя традиционные модели.
Статья исследует, всегда ли увеличение объема данных улучшает производительность моделей машинного обучения. На примере датасета UCI Irvine анализируются эффекты добавления образцов и характеристик, показывая, что качество данных критично для обобщения. Подчеркивается необходимость экспериментов и валидации для стратегического подхода к сбору информации.
Dask и scikit-learn вместе обеспечивают эффективную обработку больших данных через параллельные вычисления. Статья демонстрирует загрузку, очистку и подготовку калифорнийского датасета по жилью, а также обучение модели регрессии. Это позволяет оптимизировать ресурсы даже на ограниченном оборудовании.
В партнерстве с 33 лабораториями создан датасет Open X-Embodiment из данных 22 типов роботов, на основе которого разработана модель RT-X для универсального обучения. Эта модель показывает на 50% лучшие результаты на различных роботах и утроивает эффективность в реальных задачах. Ресурсы открыты для сообщества, чтобы ускорить прогресс в робототехнике.
Google DeepMind представит на конференции NeurIPS 2024 более 100 новых работ по агентами ИИ, 3D-генерации и обучению языковых моделей. Две ключевые статьи получат награды Test of Time за влияние на поле. Демонстрации покажут практическое применение исследований в музыке, погоде и безопасности.
Показаны все статьи (8)