Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Индийская лаборатория Sarvam выпустила модели ИИ с 30 и 105 миллиардами параметров, рассчитывая на успех открытых решений против гигантов. Новинки обучены с нуля на огромных объемах данных индийских языков и предназначены для голосовых ассистентов и чатов. Компания фокусируется на практических задачах и планирует open-source публикацию.
Рынки криптовалют служат идеальным полигоном для тестирования ИИ-моделей прогнозирования благодаря реал-тайм данным блокчейна и децентрализованным сетям. Нейросети вроде LSTM и гибридные системы анализируют цены, настроения и транзакции, эволюционируя от реактивных ботов к предвидящим агентам. DePIN решает проблемы вычислений, но остаются вызовы с галлюцинациями и масштабированием.
Фундаментальные модели меняют подход к прогнозированию временных рядов, предлагая zero-shot точность без дообучения. Мы разбираем пять сильных вариантов: Chronos-2, TiRex, TimesFM, Granite TTM R2 и Toto Open Base 1. Каждая подходит для разных задач — от одномерных до высокомерных с ковариатами.
Графовые нейронные сети (GNN) продолжают эволюционировать: от динамических моделей для реального времени до интеграции с большими языковыми моделями и усиленной защиты. Эти пять прорывов помогут решить задачи в рекомендациях, химии, безопасности и многом другом. Они уже меняют подходы к анализу сложных данных.
Параметры — основа больших языковых моделей: эмбеддинги кодируют слова, веса и смещения обрабатывают контекст, нейроны организуют расчеты. Обучение настраивает миллиарды значений для генерации текста. Маленькие модели догоняют крупные за счет данных, дистилляции и смеси экспертов.
Nvidia представила линейку Nemotron 3 с гибридной архитектурой Mamba и Transformer для ИИ-агентов, способных работать с контекстом в миллион токенов без перерасхода ресурсов. Версия Nano уже доступна с открытыми весами и датасетами, а Super и Ultra принесут улучшения вроде LatentMoE и multi-token prediction. Это вписывается в тренд компании на быстрые компактные модели.
Инженерия признаков — ключевой этап в машинном обучении. Статья рассматривает пять критических ошибок: утечку данных мультиколлинеарность неправильное таргет-кодирование неправильное управление выбросами и несоответствие модели данным Эти проблемы часто приводят к провалу проектов даже с хорошими алгоритмами.
Ученые из Цюрихского университета обнаружили что текст созданный искусственным интеллектом можно надежно отличить от текста написанного человеком Попытки сделать модели более естественными часто приводят к потере точности
Ученые из Калифорнийского университета в Сан-Диего создали новый тип RRAM без нитей, который позволяет выполнять матричные операции ИИ прямо в памяти и стековать в 8 слоев по 40 нм. Массив на 1 КБ показал 90% точности в непрерывном обучении на данных сенсоров, идеально для edge-устройств. Однако остается вызов с удержанием данных при высоких температурах.
Google DeepMind представил AlphaGenome — ИИ-инструмент для анализа некодирующей ДНК, которая составляет 98% генома и управляет регуляцией генов. Модель предсказывает 11 биологических сигналов на уровне одной пары оснований и обрабатывает участки до миллиона букв ДНК. Это помогает в исследованиях рака, редких болезней и разработке лекарств.
Параметры — внутренние настройки моделей машинного обучения, определяющие их работу и качество предсказаний. Статья разбирает, как они выглядят, сколько их бывает и какие проблемы возникают при обучении. Понимание параметров помогает лучше ориентироваться в машинном обучении.
Команда DeepSeek разработала mHC — улучшенную версию Hyper-Connections, которая математически ограничивает усиление сигналов и стабилизирует обучение больших моделей. Тесты на моделях до 27 миллиардов параметров показали лучшие результаты на бенчмарках BBH и DROP при минимальных накладных расходах. Это открывает перспективы для дальнейших экспериментов с топологиями сетей.
StoryMem от ByteDance решает проблему нестабильности персонажей в ИИ-видео, храня ключевые кадры в памяти для всех сцен. Система показывает лучшие результаты в тестах по последовательности и эстетике. Модель дообучена с минимальными усилиями и доступна открыто.
Исследование показывает первые признаки интроспективной осознанности у больших языковых моделей (LLM), таких как Claude Opus 4.1. Модели иногда способны распознавать «внедренные» концепции внутри своих нейронных сетей — например, отличать искусственно добавленные «мысли» от реальных входных данных.
Следующий этап развития искусственного интеллекта будет связан не только с увеличением объемов данных но также созданием специализированных сред где модели смогут учиться через взаимодействие эксперименты ошибки Это позволит им лучше адаптироваться сложным реальным сценариям
Статья рассматривает основные вопросы и советы для начинающих разработчиков, которые хотят создавать реальные приложения с использованием инструментов искусственного интеллекта.