Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Системы RAG развивают LLM, устраняя галлюцинации и проблемы с актуальными знаниями. Статья разбирает семь шагов: от очистки данных и разбиения на чанки до векторизации, хранения, извлечения контекста и генерации ответов. Это позволяет создавать надежные ИИ-приложения на свежих данных.
Фронтирные ИИ-модели уверенно описывают несуществующие изображения в 60–100% случаев, достигая 70–80% баллов бенчмарков без визуала. Текстовая модель на 3 млрд параметров обошла мультимодалки и радиологов, а метод B-Clean выявил утечки в тестах. Это подрывает доверие к визуальным претензиям ИИ и требует новых подходов к оценке.
Википедия запретила редакторам генерировать или перерабатывать контент статей с помощью больших языковых моделей. Изменение политики одобрили 40 голосами против 2. ИИ разрешают использовать только для базовых правок собственного текста после человеческой проверки.
Encyclopedia Britannica и Merriam-Webster подали иск против OpenAI за использование почти 100 000 статей в обучении ИИ без разрешения, а также за копирование контента в ответах и галлюцинации. Это часть волны судебных дел от издателей вроде New York Times и газет США и Канады. Прецедентов по обучению моделей на защищенных данных мало, но пример Anthropic показывает риски.
Ученые из Университета Сапиенца разработали метод spilled energy для обнаружения галлюцинаций в больших языковых моделях без дообучения. Он фиксирует несоответствия в энергии softmax-слоя, которые растут при ошибках. На девяти бенчмарках AuROC достигает 77 процентов, превосходя обученные детекторы и обобщаясь на новые задачи.
Guide Labs открыла Steerling-8B — 8-миллиардную LLM с полной прослеживаемостью токенов до обучающих данных. Новая архитектура с концептуальным слоем решает проблемы интерпретируемости, достигая 90% мощности лидеров при меньших затратах. Это упростит контроль в финансах, науке и потребительских сервисах.
SS&C Blue Prism ведет клиентов от RPA к агентной автоматизации, помогая справляться со сложными процессами и неструктурированными данными. Эксперты компании объясняют вызовы: от галлюцинаций LLM до вопросов безопасности. Скоро выйдут новые инструменты, а сама SS&C уже использует тысячи цифровых работников и десятки ИИ-агентов.
Первый день AI Expo 2026 обсудил переход к агентным ИИ-системам, подчеркнув роль управления данными и инфраструктуры. Эксперты из Citi, SAP и других компаний рассказали о вызовах качества данных, безопасности и наблюдаемости. Для успеха нужны надежные данные, сети и человеческая готовность.
The New York Times прекратила работу с фрилансером Алексом Престоном: его ИИ-инструмент заимствовал текст рецензии The Guardian на роман Watching Over Her. Престон не заметил плагиата и сдал материал. В Ars Technica редактор опубликовал вымышленные цитаты ChatGPT из недоступного блога.
Naver разработала Seoul World Model — видео-модель на базе 1,2 млн панорам Street View Сеула, которая генерирует реалистичные видео по реальным маршрутам без вымысла. Она решает проблемы с временными объектами, пробелами в данных и накоплением ошибок, обобщаясь на другие города вроде Пусана и Энн-Арбора. Модель превосходит конкурентов и открывает применение в автономном вождении и урбанистике.
Галлюцинации в LLM решают как системную задачу семью методами: от RAG и обязательных цитат до инструментов, верификации и мониторинга. Подходы опираются на данные, проверки и отказы, повышая надежность приложений. Непрерывная оценка предотвращает регресс качества.
Статьи на топовых ИИ-конференциях содержат галлюцинированные цитаты, обходящие рецензию. CiteAudit предлагает открытый бенчмарк из 6475 реальных и 2967 фейковых ссылок, где пять ИИ-агентов достигают 97,2% точности на практике. Инструмент работает локально, бесплатно доступен онлайн и превосходит коммерческие модели.
OpenAI выпустила GPT-5.3 Instant — обновление ChatGPT для естественных разговоров и качественного поиска с падением галлюцинаций на 26,8% в веб-запросах. Модель доступна всем пользователям, но имеет компромиссы в безопасности по сравнению с GPT-5.2 Instant. Предыдущая версия уйдет 3 июня 2026 года.
Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.
Новый бенчмарк Halluhard от ученых из Швейцарии и Германии показал, что даже топовые ИИ-модели вроде Claude Opus 4.5 с веб-поиском галлюцинируют в 30% случаев. Галлюцинации растут в длинных диалогах и на нишевых темах, а существующие тесты уже не справляются с прогрессом моделей. Исследование доступно на GitHub и специальной странице.
Стартап GPTZero нашел 100 вымышленных ссылок в 51 статье из 4841 на конференции NeurIPS. Это статистически мало, но подчеркивает проблемы рецензирования и использования ИИ экспертами. Главный вывод — даже лидеры ИИ не всегда проверяют выводы моделей.