Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Tencent опубликовала открытую модель ИИ Hy-MT1.5-1.8B-1.25bit объемом 440 МБ для оффлайн-перевода 33 языков на смартфонах. Она конкурирует с Google Translate и крупными моделями вроде Qwen3-32B благодаря сжатию до 1,25 бита на параметр без потери качества. Доступно демо-приложение для Android и 30 побед в конкурсах.
Google представил TurboQuant — алгоритм сжатия KV-кэша ИИ минимум в 6 раз без потери качества. Технология использует PolarQuant и QJL, её покажут на ICLR 2026. Интернет шутит про сходство с Pied Piper из "Кремниевой долины", но это пока лабораторный прорыв для inference.
Статья описывает реальные трудности локального запуска LLM: от нехватки VRAM и задержек до проблем с промптами и дообучением. Подробно разобраны обходные пути вроде квантизации, оптимизации контекста и тестирования шаблонов. Само-хостинг требует инвестиций в железо и методичный подход, но даёт полный контроль.
Показаны все статьи (3)