«Использование ChatGPT для анализа квартальных отчетов принесло лишь разочарование. Это не искусственный интеллект, а скорее продвинутый поисковик с функцией суммаризации».
Мы часто говорим об ИИ, представляя себе некий высший разум, сошедший со страниц научно-фантастических романов 90-х. Легко увлечься и вообразить кинематографическую сингулярность вроде Скайнета из «Терминатора» или антиутопического ИИ из «Дюны». Распространенные иллюстрации на тему ИИ с роботами, андроидами и межгалактическими порталами, готовыми перенести нас в будущее, лишь усугубляют неверное толкование этой технологии.

слева направо: 1) фото julien Tromeur на Unsplash, 2) фото Luke Jones на Unsplash, 3) фото Xu Haiwei на Unsplash
Однако, к лучшему или к худшему, системы искусственного интеллекта функционируют принципиально иначе — по крайней мере, на данном этапе. Пока не существует всемогущего сверхинтеллекта, готового решить все неразрешимые проблемы человечества. Поэтому крайне важно понимать, чем на самом деле являются современные модели ИИ и каковы их реальные возможности и ограничения. Только так мы сможем управлять своими ожиданиями и извлекать максимальную пользу из этой мощной новой технологии.
Дедуктивное и индуктивное мышление
Чтобы разобраться, чем является и не является современный ИИ, и что он может и не может делать, нам сначала нужно понять разницу между дедуктивным и индуктивным мышлением.
Психолог Даниэль Канеман посвятил свою жизнь изучению того, как наш разум функционирует, приходит к выводам, принимает решения и формирует наши действия и поведение. Это масштабное и новаторское исследование в конечном итоге принесло ему Нобелевскую премию по экономике. Его работа прекрасно изложена для широкого круга читателей в книге «Думай медленно… решай быстро», где он описывает два режима человеческого мышления:
- Система 1: быстрая, интуитивная, автоматическая и, по сути, бессознательная.
- Система 2: медленная, взвешенная, требующая усилий и сознательного участия.
С эволюционной точки зрения, мы предпочитаем действовать в режиме Системы 1, поскольку это экономит время и энергию — своего рода жизнь на автопилоте, без глубоких размышлений. Тем не менее, высокая эффективность Системы 1 часто сопровождается низкой точностью, что приводит к ошибкам.
Аналогично, индуктивное рассуждение тесно связано с Системой 1 Канемана. Оно движется от частных наблюдений к общим выводам. Этот тип мышления основан на поиске закономерностей и, следовательно, является стохастическим. Другими словами, его выводы всегда несут в себе определенную степень неопределенности, даже если мы этого не осознаем.
Например:
Наблюдение: Солнце всходило каждый день в моей жизни.
Вывод: Следовательно, солнце взойдет и завтра.
Как можно догадаться, такой тип мышления подвержен предвзятости и ошибкам, поскольку он обобщает на основе ограниченных данных. Иными словами, солнце, скорее всего, взойдет и завтра, раз оно всходило каждый день моей жизни, но это не обязательно так.
Чтобы прийти к такому заключению, мы неявно предполагаем, что «все последующие дни будут следовать тому же паттерну, что и те, которые мы уже пережили», что может быть как истиной, так и ложью. Другими словами, мы подсознательно допускаем, что закономерности, наблюдаемые в небольшой выборке, будут применимы повсеместно.
Именно такие скрытые допущения, сделанные для достижения вывода, делают результаты индуктивного рассуждения весьма правдоподобными, но никогда не стопроцентно достоверными. Подобно подгонке функции под несколько точек данных, мы можем предположить, какова базовая зависимость, но никогда не можем быть уверены, и всегда существует вероятность ошибки. Мы строим правдоподобную модель того, что наблюдаем, и просто надеемся, что она хороша.

Или, говоря иначе, разные люди, оперируя разными данными или находясь в разных условиях, придут к разным результатам, используя индукцию.
С другой стороны, дедуктивное рассуждение движется от общих принципов к конкретным выводам — по сути, это Система 2 Канемана. Оно основано на правилах, детерминировано и логично, следуя структуре «если А, то наверняка Б».
Например:
Посылка 1: Все люди смертны.
Посылка 2: Сократ — человек.
Вывод: Следовательно, Сократ смертен.
Этот тип мышления менее подвержен ошибкам, поскольку каждый шаг рассуждения детерминирован. Здесь нет скрытых допущений; если посылки верны, вывод обязан быть верным.
Возвращаясь к аналогии с подгонкой функции, мы можем представить дедукцию как обратный процесс: вычисление точки данных при известной функции. Поскольку мы знаем функцию, мы можем точно рассчитать точку, и в отличие от множества кривых, которые могут лучше или хуже соответствовать одним и тем же данным, для конкретной точки будет один-единственный правильный ответ. Самое главное, дедуктивное рассуждение последовательно и надежно. Мы можем выполнять перерасчет в определенной точке функции миллион раз и всегда будем получать абсолютно тот же результат.

Конечно, даже используя дедуктивное мышление, люди могут совершать ошибки. Например, мы можем ошибиться в расчете конкретного значения функции и получить неверный результат. Но это будет случайная ошибка. В отличие от этого, ошибка в индуктивном рассуждении является системной. Сам процесс рассуждения подвержен ошибкам, поскольку мы включаем в него скрытые допущения, никогда не зная, насколько они верны.
Так как же работают LLM?
Легко, особенно людям без технического или IT-образования, представлять себе современные модели ИИ как некий внеземной, божественный интеллект, способный дать мудрые ответы на все вопросы человечества. Тем не менее, это (пока) не так, и современные ИИ-модели, какими бы впечатляющими и продвинутыми они ни были, остаются ограниченными принципами, на которых они работают.
Большие языковые модели (LLM) не «думают» и не «понимают» в человеческом смысле. Вместо этого они полагаются на закономерности в данных, на которых их обучали, во многом подобно Системе 1 Канемана или индуктивному рассуждению. Проще говоря, они работают, предсказывая следующее наиболее вероятное слово для заданного ввода.
Можно представить LLM как очень усердного ученика, который выучил наизусть огромные объемы текста и научился воспроизводить паттерны, которые звучат правильно, не обязательно понимая, почему они правильны. В большинстве случаев это работает, потому что предложения, которые звучат правильно, имеют более высокий шанс действительно быть правильными. Это означает, что такие модели могут генерировать текст и речь, похожие на человеческие, с впечатляющим качеством и, по сути, звучать как очень умный человек. Тем не менее, генерация человекоподобного текста и создание аргументов и выводов, которые звучат правильно, не гарантирует, что они действительно являются правильными. Даже когда LLM генерируют контент, похожий на дедуктивное рассуждение, это не так. Вы легко можете в этом убедиться, взглянув на бессмыслицу, которую иногда выдают ИИ-инструменты вроде ChatGPT.

Также важно понимать, как LLM получают эти следующие наиболее вероятные слова. Наивно можно было бы предположить, что такие модели просто подсчитывают частотность слов в существующих текстах, а затем каким-то образом воспроизводят эти частоты для генерации нового текста. Но это не так. В английском языке около 50 000 часто используемых слов, что приводит к практически бесконечному числу возможных комбинаций. Например, даже для короткого предложения из 10 слов количество комбинаций составит 50 000 в 10-й степени, что является астрономически большим числом. С другой стороны, все существующие английские тексты в книгах и интернете насчитывают несколько сотен миллиардов слов (около 10^12). В результате, в мире просто не существует достаточного количества текста, чтобы охватить все возможные фразы и генерировать текст таким подходом.
Вместо этого LLM используют статистические модели, построенные на основе существующих текстов, чтобы оценивать вероятность слов и фраз, которые, возможно, никогда ранее не встречались. Однако, как и любая модель реальности, это упрощенное приближение, что приводит к тому, что ИИ совершает ошибки или фабрикует информацию.
А что насчет «цепочки рассуждений»?
Так что же насчет фраз «модель думает» или «рассуждение по цепочке мыслей (Chain of Thought)»? Если LLM на самом деле не могут думать, как люди, что означают эти модные термины? Это просто маркетинговый трюк? В некотором смысле да, но не совсем.
Цепочка рассуждений (Chain of Thought, CoT) — это в первую очередь техника промптинга, позволяющая LLM отвечать на вопросы, разбивая их на более мелкие, пошаговые последовательности рассуждений. Таким образом, вместо того чтобы делать одно большое допущение для ответа на вопрос пользователя за один шаг с большим риском генерации неверного ответа, модель выполняет несколько шагов генерации с более высокой уверенностью. По сути, пользователь «направляет» LLM, разбивая исходный вопрос на несколько промптов, на которые LLM отвечает один за другим. Например, очень простая форма CoT-промптинга может быть реализована добавлением в конце запроса чего-то вроде «давай подумаем шаг за шагом».
Развивая эту концепцию, вместо того чтобы требовать от пользователя разбивать исходный вопрос на более мелкие, модели с функцией «длинного мышления» могут выполнять этот процесс самостоятельно. В частности, такие модели-рассуждатели могут разбивать запрос пользователя на последовательность пошаговых, более мелких запросов, что приводит к лучшим ответам. CoT стал одним из крупнейших достижений в области ИИ, позволившим моделям эффективно справляться со сложными задачами рассуждения. Модель o1 от OpenAI была первым крупным примером, продемонстрировавшим мощь CoT-рассуждений.

Ключевые выводы
Понимание основополагающих принципов работы современных ИИ-моделей необходимо для формирования реалистичных ожиданий относительно их возможностей и ограничений, а также для оптимизации их использования. Нейронные сети и ИИ-модели по своей сути работают на основе индуктивного стиля рассуждений, даже если они часто звучат так, будто выполняют дедукцию. Даже такие методы, как «цепочка рассуждений», несмотря на впечатляющие результаты, по-прежнему фундаментально основаны на индукции и могут производить информацию, которая звучит правильно, но на самом деле таковой не является.