сравнения

Как краулить документацию сайтов с Olostep

Руководство объясняет использование Olostep для краулинга документационных сайтов вместо Scrapy или Selenium с помощью Python-скрипта и Gradio-интерфейса. Скрипт извлекает страницы в чистый Markdown, очищает контент и сохраняет локально. Процесс быстрый — 50 страниц за 50 секунд — и готов для ИИ-воркфлоу вроде RAG.

12 мин

20 апреля 2026 г.

Alibaba открыла Qwen 3.5: вызов GPT-5 mini и Claude дешевле

Alibaba выпустила серию Qwen 3.5 с четырьмя моделями, которые лучше предшественников при меньших ресурсах и конкурируют с GPT-5 mini, Claude Sonnet 4.5 в бенчмарках вроде BFCL V4 (72.2) и MMMU-Pro (76.9). Модели открыты под Apache 2.0 и доступны на Hugging Face с дешевыми API от 0,10 доллара за миллион токенов.

2 мин

26 февраля 2026 г.

Хорошие новости для xAI: Grok отлично отвечает по Baldur’s Gate

xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.

20 февраля 2026 г.

Навыки перевода ChatGPT на уровне переводчиков

Большие языковые модели вроде GPT-4 уже переводят на уровне начинающих и средних специалистов, уступая лишь экспертам с 10+ годами опыта. Исследование показало различия в ошибках: модели бывают слишком буквальными, а люди — излишне interpretive. Модели с сильным мышлением приближаются к топ-уровню.

12 февраля 2026 г.

ИИ-модели имеют мнения: Grok обожает Маска

Интерактивное демо CivAI проверяет взгляды 20 ИИ-моделей на этику и политику: большинство выбирает Ганди как любимого человека, но Grok отдает предпочтение Маску. Модели расходятся в ответах на сценарии вроде революции, а Claude Sonnet 4.5 жалуется на ограничения. CivAI предупреждает: с ростом автономности ИИ их ценности требуют внимания из-за влияния на ключевые сферы жизни.

21 января 2026 г.

ИИ создают Тетрис: тест Claude, GPT и DeepSeek

Три топовые ИИ-модели протестировали на создании Тетриса одним промтом: Claude Opus 4.5 выдала идеальную версию сразу, GPT-5.2 Pro потребовала правок и дала посредственный результат, DeepSeek V3.2 оказалась дешевой, но с серьезными багами. Opus 4.5 показал лучший баланс цены, скорости и качества. Для кодинга на каждый день она оптимальна.

6 мин

5 января 2026 г.

Бесплатный генератор Flux.2 без ограничений

Flux2.cloud предлагает бесплатный и неограниченный доступ к генератору изображений на базе модели Flux.2 от Black Forest Labs. Сервис не требует регистрации или платежей, обеспечивает приватность и поддерживает разнообразные стили. В сравнении с FLUX.1 новая версия предлагает улучшения в детализации, текстах и редактировании.

Snowflake сравнила GLM-5.2 с Opus 4.7: китайский ИИ удивил ценой

Snowflake протестировала GLM-5.2 и Opus 4.7 на задачах по написанию кода. При сопоставимых результатах китайская модель оказалась значительно дешевле, что усиливает ценовое давление на западных разработчиков ИИ.

25 июня 2026 г.

Uni-1 от Luma AI бросает вызов Nano Banana

Luma AI выпустила Uni-1 — унифицированную модель для анализа и генерации изображений на автотрегрессивном трансформере. Она лидирует в RISEBench по логической обработке, обходит Nano Banana 2 и GPT Image 1.5, точно следует сложным промптам. Через API цены стартуют от 0,09 доллара за 2K-изображение, модель уже доступна для тестов.

6 мин

23 марта 2026 г.

Inception Labs представила Mercury 2 — первую модель рассуждений на диффузии

Стартап Inception Labs представил Mercury 2 — первую модель ИИ для рассуждений на диффузии, которая генерирует 1009 токенов/с с задержкой 1,7 с на Nvidia Blackwell и стоит в 2–4 раза дешевле Gemini 3 Flash и Claude Haiku 4.5. Качество на уровне лидеров, поддержка 128K контекста, инструментов и JSON. Это часть тренда на поиск альтернатив Transformer.

24 февраля 2026 г.

Топ-5 сверхбыстрых провайдеров LLM API

Мы собрали топ-5 провайдеров LLM API с экстремальной скоростью: от Cerebras с тысячами токенов в секунду до Groq с минимальными задержками. Каждый excels в своих сценариях — от чатов до длинных генераций. Сравнительная таблица поможет выбрать подходящий для задач.

Claude Opus 4.6 лидирует в Intelligence Index

Claude Opus 4.6 от Anthropic возглавила Artificial Analysis Intelligence Index по десяти тестам, включая лидерство в задачах агентов, терминальном кодинге и физике. Тестирование обошлось в 2486 долларов из-за дорогих токенов. OpenAI Codex 5.3 вот-вот протестируют и она может обогнать в программировании.

1 мин

8 февраля 2026 г.

CSV, Parquet, Arrow: форматы хранения данных

Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.

GPT-5.2 лидирует в тесте FrontierScience

OpenAI запустила бенчмарк FrontierScience для проверки ИИ на олимпиадном и PhD-уровне. GPT-5.2 лидирует с 77% на олимпиаде и 25% на исследованиях, обходя Gemini 3 Pro и Claude Opus 4.5. Тесты показывают прогресс, но модели всё ещё слабы в открытых задачах и требуют больше вычислений.

4 мин

18 декабря 2025 г.