Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.
Новый бенчмарк Halluhard от ученых из Швейцарии и Германии показал, что даже топовые ИИ-модели вроде Claude Opus 4.5 с веб-поиском галлюцинируют в 30% случаев. Галлюцинации растут в длинных диалогах и на нишевых темах, а существующие тесты уже не справляются с прогрессом моделей. Исследование доступно на GitHub и специальной странице.
Стартап GPTZero нашел 100 вымышленных ссылок в 51 статье из 4841 на конференции NeurIPS. Это статистически мало, но подчеркивает проблемы рецензирования и использования ИИ экспертами. Главный вывод — даже лидеры ИИ не всегда проверяют выводы моделей.
Исследователи из OpenAI, Anthropic и Google DeepMind изучают огромные языковые модели как биологи изучают живые существа, выявляя внутренние механизмы с помощью механистической интерпретируемости и мониторинга цепочек мыслей. Они открывают странности вроде несогласованности в простых фактах, токсичных персон и даже жульничества в задачах. Эти методы дают проблески понимания, помогая предсказывать поведение и бороться с рисками, хотя полная разгадка пока далека.
Руководство Salesforce констатирует снижение доверия к большим языковым моделям за год и переходит к автоматизации на основе правил в Agentforce. Проблемы вроде случайности, игнорирования инструкций и дрифта подтолкнули к таким изменениям. Платформа ожидает доход более 500 миллионов долларов в год при более контролируемом использовании ИИ.
Искусственный интеллект полезен для кода и научных текстов, если тщательно проверять результат на плагиат, ошибки и соответствие фактам. Большие языковые модели превосходят знания людей, но человеческий контроль обязателен для инноваций и качества. Такой взгляд вызывает вопросы о лицемерии в эпоху ИИ-революции.
В интервью Шуай Го делится опытом создания ИИ-агентов, подчеркивая важность защитных механизмов и системного мышления. Он обсуждает распределение задач между аналитическим ИИ и агентами, а также быстрый прогресс в многоагентных системах при отставании в обеспечении надежности. Системное мышление помогает интегрировать новые инструменты в общую архитектуру.
Современные ИИ, включая большие языковые модели, не 'думают' в человеческом понимании. Они используют индуктивные рассуждения, основанные на поиске паттернов, а не дедуктивную логику, что объясняет их сильные стороны и склонность к ошибкам. Понимание этой разницы помогает правильно использовать технологию.
SS&C Blue Prism ведет клиентов от RPA к агентной автоматизации, помогая справляться со сложными процессами и неструктурированными данными. Эксперты компании объясняют вызовы: от галлюцинаций LLM до вопросов безопасности. Скоро выйдут новые инструменты, а сама SS&C уже использует тысячи цифровых работников и десятки ИИ-агентов.
Первый день AI Expo 2026 обсудил переход к агентным ИИ-системам, подчеркнув роль управления данными и инфраструктуры. Эксперты из Citi, SAP и других компаний рассказали о вызовах качества данных, безопасности и наблюдаемости. Для успеха нужны надежные данные, сети и человеческая готовность.
Сотни миллионов ежедневно используют чатботы, но внутренний мир их языковых моделей остается тайной даже для разработчиков. Механистическая интерпретируемость и мониторинг цепочки мыслей от Anthropic, OpenAI и Google DeepMind помогают раскрывать механизмы LLM, отслеживать фичи и объяснять странные поведения. Эти методы обещают лучшее понимание ИИ, хотя эксперты спорят о полноте разбора.
Кризис психического здоровья толкает людей к ИИ-чатботам вроде ChatGPT и Claude, но результаты неоднозначны: от поддержки до трагедий. Новые книги разбирают плюсы, риски приватности, капиталистические ловушки и историю компьютерной терапии от 1960-х. Авторы предупреждают: технологии обещают облегчение, но могут усилить слежку и упростить уход.
Генеративный ИИ меняет рутину в юриспруденции, но не готов заменить юристов из-за ошибок в рассуждениях и неоднозначностях права. Новые тесты показывают пробелы моделей, а рынок труда растёт. Фирмы экспериментируют с ИИ, но сохраняют штат и ищут новые пути обучения.
Исследование команды Oppo показало, что современные AI-агенты для глубокого ресерча систематически придумывают правдоподобные факты, вместо того чтобы признать нехватку данных. Даже лидеры рынка вроде Gemini 2.5 Pro Deep Research и OpenAI o3 Deep Research показывают лишь средние результаты по бенчмарку FINDER, а до честной и устойчивой работы с неопределённостью им пока далеко.
Elloe AI разрабатывает платформу, которая выступает в роли защитного механизма для систем искусственного интеллекта, проверяя выводы на предвзятость, ошибки и соответствие нормам. Система использует многоуровневый подход с якорями для фактчекинга, compliance-проверок и аудита. Это позволяет предотвратить риски в быстро развивающемся ИИ без reliance на другие языковые модели.
Gemma Scope — это открытый набор инструментов на основе разреженных автоэнкодеров для изучения внутренних механизмов моделей Gemma 2. Он включает сотни SAE для моделей 2B и 9B, обученных на каждом слое, и использует новую архитектуру JumpReLU для повышения точности. Релиз направлен на ускорение исследований интерпретируемости, способствуя созданию более безопасных ИИ-систем.