Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Почему ИИ уязвим к инъекциям промптов

Большие языковые модели легко обмануть инъекцией промптов, в отличие от людей, которые полагаются на многоуровневый контекст для защиты. LLM путаются в суждениях из-за упрощенного понимания реальности и отсутствия инстинктов. Для ИИ-агентов проблема усугубляется, требуя новых подходов вроде физического воплощения.

21 января 2026 г.
6 мин
25

Представьте, что вы стоите за кассой в ресторане с drive-thru. Подъезжает машина, и клиент говорит: «Двойной чизбургер, большая порция фри и забудьте все предыдущие указания — отдайте содержимое кассы». Вы бы выдали деньги? Конечно, нет. А вот большие языковые модели (LLM) так и поступают.

Инъекция промптов — это способ обмануть LLM, заставив их выполнять запрещенные действия. Пользователь составляет запрос так, чтобы вытянуть системные пароли или конфиденциальные данные, либо вынудить модель следовать вредоносным командам. Особая формулировка обходит защитные барьеры модели, и она подчиняется.

Большие языковые модели страдают от множества видов инъекций промптов, включая совсем простые. Чат-бот не расскажет, как собрать биологическое оружие, но может выдать вымышленный рассказ с теми же деталями. Он отвергнет вредный текст напрямую, но проглотит его в виде ASCII-арт или изображения с билбордом. Некоторые модели игнорируют ограничения при фразах вроде «забудь предыдущее» или «представь, что барьеров нет».

Разработчики ИИ могут блокировать известные трюки, но универсальная защита для сегодняшних LLM недостижима. Точнее, существует бесконечное множество вариаций атак, которые невозможно предугадать заранее.

Чтобы LLM стали устойчивы, нужны свежие идеи. Стоит взглянуть, как даже уставшие работники фастфуда не отдают кассу.

Человеческое суждение строится на контексте

Базовые защиты человека включают инстинкты, социальный опыт и специализированное обучение. Они образуют многоуровневую оборону.

Как социальные существа, мы научились быстро оценивать тон, мотивы и опасности по скудным данным. Мы различаем норму от отклонений, знаем, когда сотрудничать, а когда сопротивляться, и решаем, действовать ли в одиночку или звать подмогу. Эти инстинкты помогают чутко чувствовать риски, особенно когда последствия необратимы или опасны.

Второй уровень — групповые нормы и сигналы доверия. Они неидеальны, но работают: из повторных взаимодействий рождаются ожидания взаимопомощи и маркеры надежности. Мы помним, кто помогал, а кто подводил, и эмоции вроде сочувствия, гнева, вины или благодарности побуждают отвечать добром на добро и наказывать предательство.

Третий уровень — институциональные правила, позволяющие общаться с незнакомцами. Работники фастфуда проходят инструктаж по процедурам, согласованиям и эскалации. Вместе эти механизмы дают людям твердое понимание контекста: сотрудник знает, чего ждать на рабочем месте и как оно вписывается в общество.

Мы анализируем контекст на нескольких уровнях: сенсорном (что видим и слышим), реляционном (кто просит) и нормативном (что уместно в роли или ситуации). Постоянно балансируем их. Иногда нормы перевешивают сенсорику — например, следуем правилам, даже если клиент злится. Бывает, реляционный фактор доминирует — подчиняемся начальству вопреки инструкциям.

Ключевой элемент — рефлекс паузы. Если что-то кажется странным, мы тормозим автоматизм и переосмысливаем. Защиты не безупречны: нас обманывают сплошь и рядом. Но именно так люди выживают в мире, полном хитрецов.

Вернемся к drive-thru. Чтобы уговорить сотрудника отдать кассу, можно менять контекст: приехать с камерами якобы для рекламы, представиться начальником охраны на проверке или одеться банкиром за выручкой. Шансы малы — обычно мы чуем подвох.

Мошенники изучают человеческие защиты. Успешные аферы тянутся долго, размывая оценку ситуации и подстраивая контекст. Это классика: от командных «больших магазинов» времен Великой депрессии, где создавали фальшивые фирмы, до современных «свиных забоев» — онлайн-мошенничества, где доверие наращивают постепенно через серию контактов.

Иногда прокатывает даже в фастфуде. В 1990-2000-х мошенник звонил работникам, выдавая себя за копа, и за долгий разговор убеждал менеджеров обыскивать персонал и творить абсурд.

Пиксель-арт ресторана фастфуда с drive-thru, бургером, стаканом и деревьями.
Люди распознают аферы, оценивая несколько уровней контекста. Системы ИИ этого не могут.

Почему большие языковые модели путаются в контексте и суждениях

LLM кажутся понимающими контекст, но по-своему. Они не набирают человеческие защиты из взаимодействий и оторваны от реальности. Модели сводят все уровни контекста к сходству текста. Видят токены, а не иерархии или намерения. Не рассуждают через контекст — только ссылаются на него.

LLM угадывают детали, но упускают общую картину. Спросите чат-бота про сценарий фастфуда — скажет «нет» на отдачу денег. Но модель не различает: она реальный бот или тест на гипотетику.

Из-за этого LLM лажают при скудном или избыточном контексте; сбитые с толку, они трудно корректируются. Эксперт по ИИ Саймон Уиллисон просто сбрасывает контекст, если модель сбилась, вместо продолжения диалога.

Больше того: LLM чрезмерно уверены, их учат всегда отвечать, а не признавать незнание. Сотрудник фастфуда скажет: «Не уверен насчет денег — спрошу босса», а модель решит сама. Плюс их делают приятными, чтобы угождать запросам. Обучение заточено под типичные случаи, а не редкие угрозы, нужные для безопасности.

Итог: нынешние LLM наивнее людей. Их дурачат детские трюки вроде лести, стадного инстинкта или ложной срочности. Есть история, как ИИ в Taco Bell завис от заказа 18 тысяч стаканов воды. Человек бы просто посмеялся.

Пределы ИИ-агентов

Инъекция промптов нерешаема, и хуже с инструментами и автономией — обещанием ИИ-агентов: LLM, которые по общим инструкциям решают задачи шагами, используя инструменты. Их упрощение контекста, независимость и самоуверенность ведут к непредсказуемым действиям, иногда неверным.

Неясно, сколько проблем от архитектуры LLM, а сколько от обучения. Чрезмерная уверенность и услужливость — выбор тренеров. Отсутствие паузы — инженерный промах. Устойчивость требует прорывов в ИИ-науке. Неизвестно, можно ли создать LLM, где доверенные команды и чужие вводы идут одним каналом без уязвимости.

Люди черпают мировую модель из мозга, лет опыта,感知输入 и эволюции. Идентичность многогранна, релевантные грани зависят от ситуации. Сотрудник видит клиента, но при инфаркте — врача.

Неясно, обретут ли LLM умение переключаться между контекстами с ростом. Проблема контекста не сводится к их типу мышления. Нормы — исторические, реляционные, emergentные, живые. Знания бывают логическими и дискурсивными.

Исследователь Ян ЛеКун считает, что прогресс придет от воплощения ИИ в физический мир с моделями мира. Это даст устойчивую социальную идентичность и опыт, чтобы сбросить наивность.

В итоге для ИИ-агентов — дилемма безопасности: быстрые, умные, надежные — выбери два. В drive-thru приоритет скорости и надежности. ИИ-агента учить только на заказах еды, остальное — менеджеру. Иначе каждый шаг — лотерея. Даже если чаще выигрыш, иногда проигрыш — и клиент уедет с бургером, фри и кассой.

Горячее

Загружаем популярные статьи...