Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.
Большие языковые модели вроде GPT-4 уже переводят на уровне начинающих и средних специалистов, уступая лишь экспертам с 10+ годами опыта. Исследование показало различия в ошибках: модели бывают слишком буквальными, а люди — излишне interpretive. Модели с сильным мышлением приближаются к топ-уровню.
Интерактивное демо CivAI проверяет взгляды 20 ИИ-моделей на этику и политику: большинство выбирает Ганди как любимого человека, но Grok отдает предпочтение Маску. Модели расходятся в ответах на сценарии вроде революции, а Claude Sonnet 4.5 жалуется на ограничения. CivAI предупреждает: с ростом автономности ИИ их ценности требуют внимания из-за влияния на ключевые сферы жизни.
Три топовые ИИ-модели протестировали на создании Тетриса одним промтом: Claude Opus 4.5 выдала идеальную версию сразу, GPT-5.2 Pro потребовала правок и дала посредственный результат, DeepSeek V3.2 оказалась дешевой, но с серьезными багами. Opus 4.5 показал лучший баланс цены, скорости и качества. Для кодинга на каждый день она оптимальна.
Flux2.cloud предлагает бесплатный и неограниченный доступ к генератору изображений на базе модели Flux.2 от Black Forest Labs. Сервис не требует регистрации или платежей, обеспечивает приватность и поддерживает разнообразные стили. В сравнении с FLUX.1 новая версия предлагает улучшения в детализации, текстах и редактировании.
Разработчик создал iOS-приложение Brush Tracker за три дня без опыта в Swift, используя ИИ-инструменты вроде Cursor. Статья описывает процесс разработки, тестирования и добавления функций, а также советы по эффективному использованию Cursor. Подчеркивается, как ИИ помогает даже новичкам быстро создавать функциональные приложения.
В статье представлены семь бесплатных альтернатив ChatGPT, каждая из которых предлагает уникальные функции для исследований, программирования и творчества. Эти инструменты, такие как Microsoft Copilot и Google Gemini, обеспечивают визуальные ответы, интеграцию с сервисами и глубокий анализ. Выбор зависит от задач: от повседневного использования до сложной разработки.
Статья описывает опыт использования AI Allure Image Maker, сравнивая бесплатный и платный аккаунты. Бесплатная версия предлагает ограниченные возможности, в то время как Pro открывает неограниченный доступ к NSFW-контенту и дополнительным функциям. Переход на платную подписку рекомендуется для серьезного творчества.
Мы собрали топ-5 провайдеров LLM API с экстремальной скоростью: от Cerebras с тысячами токенов в секунду до Groq с минимальными задержками. Каждый excels в своих сценариях — от чатов до длинных генераций. Сравнительная таблица поможет выбрать подходящий для задач.
Claude Opus 4.6 от Anthropic возглавила Artificial Analysis Intelligence Index по десяти тестам, включая лидерство в задачах агентов, терминальном кодинге и физике. Тестирование обошлось в 2486 долларов из-за дорогих токенов. OpenAI Codex 5.3 вот-вот протестируют и она может обогнать в программировании.
Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.
OpenAI запустила бенчмарк FrontierScience для проверки ИИ на олимпиадном и PhD-уровне. GPT-5.2 лидирует с 77% на олимпиаде и 25% на исследованиях, обходя Gemini 3 Pro и Claude Opus 4.5. Тесты показывают прогресс, но модели всё ещё слабы в открытых задачах и требуют больше вычислений.
Материал делится опытом использования Gemini 3 Pro, подчеркивая ее сильные стороны в консольных взаимодействиях и программировании. Модель выделяется точностью, способностью выявлять ошибки и генерировать креативные идеи, хотя уступает в скорости некоторым конкурентам. Обсуждаются сценарии применения и сравнение с другими ведущими моделями.
Статья объясняет основы обучения с подкреплением для робототехники на Python, включая создание 3D-сред с Gym и MuJoCo. Сравниваются алгоритмы Q-Learning, Actor-Critic и эволюционные методы на примере робота Ant, адаптированного для прыжков. Приводится код для настройки, обучения и тестирования моделей.
Сравнение Graph RAG и SQL RAG на данных Формулы-1 показало высокую эффективность современных LLM в обоих подходах. Новые модели, такие как GPT-5, достигли почти идеальной точности без специальной настройки. Разница между базами данных минимальна, выбор зависит от структуры данных.
Показаны все статьи (15)