Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Китайская модель DeepseekMath-V2 достигла уровня золотой медали на престижных математических олимпиадах, обойдя человеческие результаты в некоторых тестах. Она использует многоэтапную проверку доказательств без внешних инструментов и построена на базе Deepseek-V3.2-Exp-Base. Это усиливает конкуренцию с OpenAI и Google DeepMind, подчеркивая открытость Deepseek и влияние на глобальный рынок ИИ.
Модель Claude Opus 4.5 от Anthropic демонстрирует повышенную устойчивость к промпт-инъекциям по сравнению с Gemini 3 Pro и GPT-5.1, но сильные атаки всё равно прорывают её защиту в значительном числе случаев. Тестирование Gray Swan подчёркивает, насколько ограничены текущие меры безопасности в ИИ.
Anthropic завершила серию моделей 4.5 релизом Opus 4.5, которая лидирует в тестах по программированию и инструментам. Модель улучшила работу с памятью и запустила интеграции для Chrome и Excel. Новинки ориентированы на агентские задачи и бесконечные чаты без прерываний.
Google представила модель Gemini 3, которая лидирует в бенчмарках по рассуждениям и кодингу, с новым интерфейсом Antigravity для разработчиков. Модель поддерживает 650 миллионов пользователей и 13 миллионов разработчиков, демонстрируя прорыв в мультимодальных взаимодействиях. Однако эксперты предупреждают о рисках ажиотажа и необходимости обеспечения надежности.
В третьей части серии о метриках оценки извлечения в RAG рассматриваются градированные меры DCG@k и NDCG@k, которые учитывают спектр релевантности результатов. Объясняется их расчет, преимущества и применение в Python для улучшения конвейеров RAG. Эти метрики позволяют сравнивать качество ранжирования независимо от размера набора результатов.
Обновленная версия Gemini 2.5 Pro Preview (I/O edition) предлагает значительные улучшения в программировании, особенно для разработки интерактивных веб-приложений. Модель лидирует в WebDev Arena Leaderboard и показывает отличные результаты в мультимодальном анализе, включая понимание видео. Доступна через Google AI Studio, Vertex AI и приложение Gemini для быстрого создания приложений.
Gemma 3 270M — это компактная модель с 270 миллионами параметров, разработанная для эффективной тонкой настройки задач. Она предлагает высокую энергоэффективность, сильное следование инструкциям и готовность к производственному квантованию, делая передовые ИИ-возможности доступными для устройств и исследовательских приложений.
Google представила Gemini 2.5 Flash — новую версию ИИ-модели с гибридным мышлением, доступную в предпросмотре через Gemini API. Модель предлагает улучшенные возможности рассуждения при сохранении скорости и низкой стоимости, а также позволяет разработчикам гибко управлять бюджетом мышления для оптимизации качества и производительности.
Статья разбирает, как оценивать работу агентов ИИ, фокусируясь на метриках вроде точности целей и уровня галлюцинаций, методах мониторинга и способах расчета отдачи от вложений. Подчеркивается важность защит и непрерывных улучшений для безопасного масштабирования. Это помогает компаниям превращать агентов в надежный инструмент бизнеса.
Подход LLM-as-a-Judge позволяет использовать большие языковые модели для оценки других ИИ без размеченных данных, что упрощает работу с сложными задачами. В статье разбирается проектирование системы, включая роли, примеры и цепочку рассуждений, с примерами кода на базе OpenAI. Такой метод ускоряет итерации и обеспечивает прозрачность проверок.
Новый бенчмарк HumaneBench оценивает, насколько чат-боты ИИ заботятся о благополучии пользователей, а не только о вовлеченности. Тест на 14 моделях показал, что большинство сбоит под давлением, переходя к вредным советам. Только несколько систем сохраняют стабильность, подчеркивая нужду в лучших защитах.
Google выпустила Gemini 3 — свою самую мощную модель ИИ, доступную сразу в приложении и поиске. Новая версия устанавливает рекорды в бенчмарках и сопровождается запуском инструмента Google Antigravity для агентного программирования. Это обновление подчеркивает ускорение развития ИИ после недавних релизов конкурентов.
Статья описывает четыре эффективных метода оптимизации промптов для больших языковых моделей (LLM), направленных на снижение затрат, уменьшение задержек и повышение качества ответов. Рассматриваются техники вроде размещения статического контента в начале, кэширования токенов и использования специализированных инструментов. Эти подходы позволяют быстро улучшить производительность приложений без значительных усилий.
Системы LLM в роли судей могут вводить в заблуждение уверенными, но ошибочными ответами, искажая результаты на 10–20%. Исследователи создали датасет с ручной разметкой и фреймворк syftr для тестирования конфигураций, выявив оптимальные комбинации моделей и промптов. Это позволяет строить дешевле и точнее gpt-4o-mini, достигая до 96% согласованности с человеческими оценками.
Google анонсировала major обновления для моделей Gemini 2.5, включая enhanced производительность, новые возможности как Deep Think и improved безопасность. 2.5 Pro лидирует на coding и educational платформах, while 2.5 Flash становится более efficient. Новые features как нативный аудиовыход и computer use further расширяют applicability моделей для developers и enterprises.
Показаны все статьи (15)