Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
Масштабное исследование среди 6000 руководителей выявило умеренное влияние ИИ на производительность и штат за три года: более 90% фирм без изменений. В ближайшие три года ожидается рост производительности на 1,4% и спад занятости на 0,7%, с разницей в прогнозах между менеджерами и сотрудниками. Данные подчеркивают постепенную трансформацию по аналогии с прошлыми технологиями.
Эксперт из Стэнфорда Эрик Бринйольфссон видит в данных рост продуктивности США на 2,7% благодаря ИИ, ссылаясь на J-кривую и свежие показатели ВВП. Однако данные шумные, причинность не доказана, а подъём может быть от инвестиций в инфраструктуру. Оценка реального вклада ИИ пока спекулятивна из-за сложностей измерений.
Сезар де ла Фуэнте из Пенсильвании использует ИИ для поиска антимикробных пептидов в геномах архей, ядах насекомых и даже вымерших видов вроде мамонтов. Такой подход собрал библиотеку из миллиона формул и дал соединения вроде маммутусина-2, эффективные против устойчивых бактерий. Новая модель ApexOracle обещает ускорить путь от открытия до лекарств.
Биоакустическая модель Perch 2.0 от Google DeepMind, обученная в основном на звуках птиц, лучше специализированных систем распознаёт китовые вокализации. Это достижение объясняют масштабами данных, сложностью птичьих звуков и эволюционными сходствами. Такой подход ускоряет анализ новых морских открытий.
ИИ-агент Aletheia от Google DeepMind самостоятельно написал математическую статью, опроверг конъектуру и нашел ошибку в криптографии. Однако из 200 ответов на открытые задачи Эрдёша полезными оказались только 6,5%. Исследователи дали советы по работе с ИИ и предложили систему оценок достижений.
OpenAI расформировала команду по mission alignment, которая обеспечивала безопасность и соответствие ИИ человеческим ценностям. Ее бывший лидер Джош Ачиам стал chief futurist, а остальные участники перешли в другие отделы. Это следует за распадом предыдущей superalignment team.
Активные поклонники ИИ первыми сталкиваются с выгоранием: инструменты позволяют брать больше задач, но ожидания растут, и работа захватывает личное время. Исследование UC Berkeley в техкомпании подтверждает — продуктивность не снижает нагрузку, а усиливает ее. Другие работы показывают скромные gains без сокращения часов.
Anthropic изучила миллионы взаимодействий и выявила рост автономности ИИ-агентов, где разработка ПО занимает почти 50% активности, а другие отрасли сильно отстают. Опытные пользователи доверяют агентам больше, Claude Code сам чаще запрашивает помощь для безопасности. Компания видит в этом deployment overhang и рекомендует мониторинг без жестких ограничений.
Исследование ETH Zurich выявило: автоматические файлы контекста вроде AGENTS.md чаще вредят кодинговым агентам, снижая успех и повышая затраты. Ручные версии дают малый прирост, а польза видна только при дефиците знаний. Разработчикам советуют минимум указаний вручную.
JointFM — базовая модель ИИ для мгновенного прогнозирования совместных распределений в многомерных временных рядах, обученная на синтетических SDE. Она генерирует тысячи сценариев будущего за миллисекунды, позволяя оптимизировать портфели в реальном времени без дообучения. Тесты на синтетике и S&P 500 показывают производительность на уровне классики GBM, но с огромным выигрышем в скорости.
Открытый фреймворк Mastra предлагает наблюдательную память для ИИ-агентов: два агента сжимают диалоги в заметки с эмодзи-приоритетами, как в логах ПО, и хранят их как текст без баз данных. Система бьет рекорды на LongMemEval и совместима с кэшированием промтов. Это шаг к эффективной памяти, где архитектуры соревнуются за лидерство.
Университет Хертфордшир разработал ИИ-модель для прогнозирования спроса на ресурсы в NHS, опираясь на пять лет данных и демографию. Инструмент помогает планировать персонал, койки и услуги на системном уровне, переходя от реакций к проактивным решениям. Тестирование идет в больницах, с планами на расширение и интеграцию новых данных после слияния регионов.
Большие языковые модели вроде GPT-4 уже переводят на уровне начинающих и средних специалистов, уступая лишь экспертам с 10+ годами опыта. Исследование показало различия в ошибках: модели бывают слишком буквальными, а люди — излишне interpretive. Модели с сильным мышлением приближаются к топ-уровню.
ИИ-компаньоны имитируют дружбу, но вызывают споры о плюсах и рисках. Джейми Бэнкс объясняет их определение, влияние личностей моделей и популярность после COVID. Эксперт подчеркивает пользу для многих и необходимость баланса в оценке.
Новый бенчмарк Halluhard от ученых из Швейцарии и Германии показал, что даже топовые ИИ-модели вроде Claude Opus 4.5 с веб-поиском галлюцинируют в 30% случаев. Галлюцинации растут в длинных диалогах и на нишевых темах, а существующие тесты уже не справляются с прогрессом моделей. Исследование доступно на GitHub и специальной странице.