Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Mistral AI запустила Voxtral Transcribe 2 — модели распознавания речи по цене от $0.003 за минуту, дешевле и точнее GPT-4o mini Transcribe, Gemini 2.5 Flash и Deepgram Nova. Есть версии для больших файлов и реального времени с задержкой менее 200 мс, поддержка 13 языков, распознавание спикеров и до 3 часов аудио. Одна модель открыта на Hugging Face под Apache 2.0.
Фундаментальные модели меняют подход к прогнозированию временных рядов, предлагая zero-shot точность без дообучения. Мы разбираем пять сильных вариантов: Chronos-2, TiRex, TimesFM, Granite TTM R2 и Toto Open Base 1. Каждая подходит для разных задач — от одномерных до высокомерных с ковариатами.
Allen AI выпустил SERA — открытые агенты для кодирования, адаптируемые к приватным репозиториям всего за 400 долларов обучения. Топ-модель SERA-32B лидирует в бенчмарке SWE-Bench-Test Verified с 54,2% успеха. Всё доступно на Hugging Face с инструкциями по быстрому запуску.
Google представил обновление MedGemma 1.5 — первую открытую модель ИИ для анализа 3D-снимков КТ и МРТ, плюс MedASR для распознавания медицинской речи. Новинка показывает рост точности в диагностике и извлечении данных из историй болезни, но требует доработки и сертификации для клиник. Конкуренция в медицинском ИИ накаляется: OpenAI и Anthropic тоже активно развивают свои решения.
Технологический инновационный институт из Абу-Даби представил Falcon H1R 7B — модель с 7 миллиардами параметров для рассуждений, которая по бенчмаркам равна конкурентам в 2–7 раз крупнее. Она построена на гибридной Transformer-Mamba архитектуре и уже доступна на Hugging Face с открытой лицензией.
Новый бенчмарк SDE проверяет языковые модели на реальных научных сценариях и показывает: даже топовые ИИ вроде GPT-5 слабы в подлинных исследованиях. Производительность падает, ошибки коррелируют, а рост масштаба дает малый эффект. Модели полезны как помощники, но до сверхразума далеко.
Открытые модели OCR эволюционируют быстро, предлагая точный разбор документов в markdown без облаков. Мы выбрали топ-7 вариантов для локального запуска: от olmOCR с 82.4 на бенчмарках до компактного TrOCR. Таблица сравнения поможет выбрать под задачу.
Alibaba Cloud представила модели Qwen3-TTS-VD-Flash для генерации голосов по описанию и Qwen3-TTS-VC-Flash для клонирования голоса с трех секунд аудио на десяти языках. Они превосходят конкурентов вроде OpenAI и Elevenlabs по качеству и точности. Доступны через API и демо на Hugging Face.
Alibaba запустила Qwen3-Coder-Next — компактную открытую модель ИИ для кодинга с 80 миллиардами параметров, из которых активно 3 миллиарда. Она показывает высокие результаты на бенчмарках, конкурируя с более крупными моделями, и поддерживает большой контекст в 256 тысяч токенов. Модель готова к локальному использованию через популярные инструменты и доступна на Hugging Face и ModelScope.
Онлайн-портфолио необходимо для показа реальных навыков разработчикам, data-специалистам и ИИ-инженерам. Hugging Face Spaces дает бесплатный хостинг с опцией статических сайтов и интерактивных приложений на Gradio или Streamlit. Пошаговое руководство поможет развернуть свое портфолио быстро и просто.
Runpod, платформа для AI-хостинга, достигла 120 миллионов долларов годового дохода, начав путь с переоборудования майнинг-риггов в серверы и поста в Reddit. Основатели самостоятельно выросли до миллиона выручки, привлекли 20 миллионов инвестиций и теперь обслуживают 500 тысяч пользователей, включая OpenAI и Replit. Сервис фокусируется на удобстве для разработчиков в условиях жёсткой конкуренции.
Сравниваем форматы CSV, Parquet и Arrow для табличных данных в Hugging Face Datasets: различия в хранении, скорости и типах. CSV прост, но медленный для больших объемов; Parquet компактный и колоночный; Arrow идеален для памяти. Выбор зависит от задач — от экспериментов до аналитики.
Alibaba обновила открытую модель Qwen-Image-2512, чтобы изображения людей и текста выглядели естественнее. В слепых тестах она возглавила рейтинг среди open-source аналогов. Модель уже доступна для скачивания и тестирования на популярных платформах.
Qwen обновил модель Qwen-Image-Edit-2511 для лучшего сохранения идентичности лиц при редактировании портретов и групповых фото. Улучшения затронули освещение, ракурсы, дизайн продуктов и геометрию, плюс интегрированы LoRA из сообщества. Модель открыта под Apache 2.0 с демо на Hugging Face.
Zhipu AI выпустила GLM-4.7 — мощную модель для автономного программирования с сохранением логики в длинных разговорах и паузами для размышлений. Она обходит предшественника на тестах, конкурирует с OpenAI и Anthropic, а также создает стильные сайты по одному промту. Модель дешева в использовании и доступна на популярных платформах.
Google выпустил FunctionGemma – версию модели Gemma 3 270M для вызова функций на устройствах. Она позволяет ИИ управлять приложениями через естественный язык, работает локально на смартфонах и уже доступна для тестов в играх и демо. Надежность после доработки достигает 85%.