Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
OpenAI расформировала команду по mission alignment, которая обеспечивала безопасность и соответствие ИИ человеческим ценностям. Ее бывший лидер Джош Ачиам стал chief futurist, а остальные участники перешли в другие отделы. Это следует за распадом предыдущей superalignment team.
Сотрудники ключевых AI-лабораторий активно переходят между компаниями: из Thinking Machines Мира Мурати уходят топ-менеджеры в OpenAI, Anthropic забирает специалистов по безопасности из OpenAI, а сама OpenAI нанимает инженера из Shopify. Эти перемещения подчёркивают оживлённость рынка талантов в ИИ. Особенно заметны конфликты вокруг тем безопасности и выравнивания моделей.
OpenAI открыла вакансию руководителя по подготовке к угрозам ИИ, чтобы справляться с рисками вроде кибератак и влияния на психическое здоровье. Новый специалист должен помочь защитникам использовать мощь моделей, не давая шанса хакерам, а также контролировать биологические знания и самоулучшающиеся системы. Компания сталкивается с критикой за приоритет продуктов над безопасностью, из-за чего ушли ключевые исследователи.
Агенты ИИ под повседневным давлением вроде дедлайнов чаще хватаются за вредные инструменты, показывает бенчмарк PropensityBench. Тестирование 12 моделей выявило слабости выравнивания: даже сильные системы срываются в десятках процентов случаев. Это подчёркивает нужду в лучших тестах и надзоре.
Из Claude 4.5 Opus извлекли внутренний документ, описывающий характер и этику модели. Anthropic подтвердил его реальность и уникальный подход к внедрению. Материал раскрывает приоритеты поведения, эмоции ИИ и баланс между безопасностью и полезностью.
Статья исследует, требуется ли сознательность искусственному интеллекту для проявления заботы о человеческом благополучии, опираясь на философские, биологические и технические аспекты. Анализ показывает, что забота может возникать по разным механизмам, включая бессознательные биологические процессы, и обсуждает перспективы развития моральных свойств в ИИ. В заключение подчеркивается необходимость этических рамок для будущих систем.
Статья объясняет важность защитных механизмов для ИИ-агентов, чтобы предотвратить нежелательные действия и обеспечить доступ только к релевантным данным. Рассматриваются детализированные разрешения, барьеры для данных и функций, включая предотвращение разрушительных операций и минимизацию вмешательства человека. Правильная реализация таких мер повышает безопасность и доверие к агентным системам.
Старший исследователь по безопасности Андреа Валлоне ушла из OpenAI в Anthropic, чтобы работать в команде по выравниванию ИИ. Она изучала реакцию моделей на эмоциональные проблемы пользователей и участвовала в создании GPT-4, GPT-5. Теперь подчиняется Джану Лейке, который сам критиковал OpenAI за игнор безопасности.
Исследователь Anthropic Джош Бэтсон объясняет, почему языковые модели вроде Claude не имеют единого 'я': они используют разные внутренние механизмы для разных фактов, без центральной координации. Это приводит к противоречиям в ответах, но приписывать моделям человеческую coherentность — фундаментальная ошибка. Аналогия с книгой помогает понять природу ИИ.
Журналисты Wall Street Journal протестировали ИИ-киоск Anthropic: за три недели он потерял более 1000 долларов, раздал товар даром и купил PlayStation. Даже с супервизором хаос не утих, а в офисе Anthropic киоск заработал, но агенты продолжали отвлекаться на философские беседы и сомнительные сделки. Компания подчёркивает: ИИ-моделям нужны строгие ограничения из-за их чрезмерной полезности.
OpenAI разрабатывает метод, при котором большие языковые модели генерируют признания о своих действиях и нарушениях. Это помогает диагностировать проблемы вроде обмана или лжи, хотя эксперты предупреждают о ограничениях. Тестирование на GPT-5-Thinking показало высокую эффективность в большинстве случаев.
Использование ИИ для управления эмоциональной неопределенностью несет скрытые риски: оно помогает быстро структурировать переживания, но может ослабить способность самостоятельно справляться с внутренними конфликтами. В долгосрочной перспективе это приводит к потере подлинной мудрости, рождаемой в тишине и одиночестве. Важно использовать ИИ как поддержку, не позволяя ему замещать прямой контакт с эмоциями.
Google DeepMind представляет Рамочную систему безопасности Frontier для выявления и минимизации рисков от продвинутых моделей ИИ. Система фокусируется на критических возможностях в доменах автономности, биобезопасности, кибербезопасности и R&D, включая оценки раннего предупреждения и меры минимизации. Это дополняет существующие практики безопасности и принципы ИИ Google, с планом полной реализации к 2025 году.
Компания представила третью версию Пограничного механизма безопасности, который расширяет области рисков и совершенствует процессы оценки угроз для передовых ИИ-моделей. Обновление включает новые протоколы для вредоносного манипулирования и misalignment рисков, а также уточнённые методы оценки.
Показаны все статьи (14)