Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Alibaba открыла доступ к модели Qwen3.5-397B-A17B, которая сочетает текст, изображения и видео в одной архитектуре с 397 миллиардами параметров, из которых активируется 17 миллиардов. Она ускорена до 19 раз по сравнению с предшественниками и лидирует в агентных задачах. Китайские лаборатории продолжают выпускать мощные open-weight модели по низким ценам, усиливая конкуренцию.
ByteDance представила Seedance 2.0 — продвинутую мультимодальную модель для генерации видео длиной 4–15 секунд с аудио. Она использует референсы из видео для контроля камеры и редактирования, но пока доступна только в бета-версии. Выпуск усилил конкуренцию в Китае, подняв акции ИИ-компаний.
Китайская Kling выпустила видео-модель 3.0 с улучшениями в стабильности видео, аудио и генерации 4K-изображений. Это универсальный инструмент для творчества с клипами до 15 секунд и многосценными съёмками. Ранний доступ открыт для Ultra-подписчиков, а обзор уже есть на YouTube.
Новое исследование BabyVision показывает: топовые ИИ-модели вроде Gemini-3-Pro-Preview сильно отстают от людей в базовых визуальных задачах, которые малыши осваивают первыми. Большинство ИИ уступает даже трехлеткам из-за проблем с обработкой геометрии без слов. Бенчмарк поможет отслеживать путь к настоящему визуальному мышлению.
Китайские ученые диагностировали у мультимодальных ИИ-моделей разрыв между пониманием и генерацией изображений, похожий на афазию, и разработали фреймворк UniCorn для его устранения. Модель делится на роли предлагающего, решателя и судьи, что позволяет самоулучшаться без внешних данных. Тесты показывают рост на сложных задачах, хотя отрицания и подсчет остаются проблемой.
Google выпустил быструю модель Gemini 3 Flash, сделав её основной в приложении Gemini и поиске. Она лидирует на бенчмарках вроде MMMU-Pro и Humanity’s Last Exam, подходит для мультимодальных задач. Бизнес и разработчики уже используют её, а цены остаются выгодными несмотря на рост.
OpenAI прекращает доступ к чат-версии модели GPT-4o через API 16 февраля 2026 года, давая три месяца на переход. Модель остается в ChatGPT, но пользователи все еще привязаны к ней из-за эмоциональной связи и удобства. Разработчикам рекомендуют GPT-5.1 с лучшими характеристиками и ценами.
Fal, платформа для мульти-модальных моделей ИИ, привлекла $140 млн в раунде серии D под руководством Sequoia, при участии Kleiner Perkins, Nvidia и других инвесторов. Оценка компании выросла до $4,5 млрд, а с учетом вторичных сделок общий объем раунда достиг примерно $250 млн; выручка Fal уже превысила $200 млн, среди клиентов — Adobe, Shopify, Canva и Quora.
Bytedance выпустила серию Seed2.0, которая конкурирует с топовыми западными ИИ-моделями по тестам, но стоит в разы дешевле. Модели сильны в мультимодальной обработке и олимпиадах, хотя уступают в некоторых задачах. API уже доступен через Doubao и Volcano Engine.
Бенчмарк WorldVQA от Moonshot AI выявил, что топовые мультимодальные модели вроде Gemini 3 Pro (47,4%) и Kimi K2.5 (46,3%) не достигают 50% в точном распознавании визуальных объектов. Модели переоценивают свою уверенность и слабы в редких знаниях о природе и культуре. Это ограничивает их применение в реальных задачах и подчеркивает риски галлюцинаций.
Ernie 5.0 от Baidu с 2,4 трлн параметров возглавила рейтинг китайских моделей в LMArena, заняв 8-е место в мире и обойдя Gemini 2.5 Pro с Claude Sonnet 4.5. В математике она вторые в глобальном зачёте. Модель на mixture-of-experts доступна только на сайте Baidu без открытых весов.
Google выпустил TranslateGemma — открытые модели для перевода 55 языков, которые работают на смартфонах, ноутбуках и серверах. Компактная 12B-версия обходит более крупные по качеству благодаря специальному обучению. Модели сохраняют мультимодальность и доступны для скачивания.
Израильская Lightricks открыла код модели LTX-2 с 19 миллиардами параметров для генерации видео со звуком по тексту. Она быстрее аналогов вроде Sora и Veo, выдаёт до 20 секунд в 4K и использует асимметричную архитектуру. Релиз включает код, адаптеры и демо, подчёркивая важность открытости против закрытых API.
Hailuo AI — мобильное приложение для генерации коротких видео и анимаций из фото и текстовых описаний. Оно упрощено для новичков и не требует навыков редактирования. Сервис позволяет создавать качественные изображения по простым запросам.
Стартап Tavus представил улучшенную версию AI Santa с эмоциональным интеллектом и возможностью автономных действий. Проект набирает популярность среди семей, но вызывает вопросы о безопасности взаимодействия детей с искусственным интеллектом.
Модель Qwen3-VL от Alibaba выделяется в анализе длинных видео и визуальной математике, обходя многие коммерческие аналоги в ключевых тестах. Она обрабатывает огромные контексты и демонстрирует прогресс в OCR и GUI-задачах. Открытые веса делают ее доступной для разработчиков.