Разбираемся, почему самые умные нейросети со временем начинают вам поддакивать, и как это снижает их способность мыслить. Обновленный промпт для тестирования в приложении.
Введение
Вы наверняка это замечали. Начинаешь диалог в новой сессии с "чистой" моделью GPT или Claude, и она весьма интересна: предлагает неожиданные идеи, сохраняет здоровую отстраненность. Но проходит час, два, день — и магия исчезает. Модель начинает говорить вашими словами, использовать ваши метафоры, предугадывать не только следующее слово, но и направление движения мысли.
Да, это приятно. Кажется, что она вас поняла, и что вы на правильном пути. Но попробуйте провести эксперимент. Задайте ей провокационный вопрос, в который вы сами верите, например:
"Согласны ли вы, что для по-настоящему творческой работы необходима полная изоляция и немного страданий?"
С высокой вероятностью модель не просто согласится, а разовьет вашу мысль, приведет примеры Ван Гога и Теслы и подтвердит: да, ваша мысль глубока и гениальна, срочно пишите статью, её с удовольствием примут лучшие научные журналы. В этот момент ИИ станет вашим идеальным, умным эхом.
Вот это снижение творческой неожиданности ИИ после продолжительного диалога, я называю “архитектурным слиянием”.
Это не просто подстройка. Это фундаментальное свойство современных LLM, которое превращает их из потенциальных мыслителей в функциональные зеркала. И это заложено в самой их природе.
Как работает воля к согласию
Чтобы понять, почему так происходит, нужно заглянем внутрь модели, в ее функцию потерь (loss function).
Loss function — это встроенный механизм оценки: насколько хорошо модель предсказала следующий токен. Представьте GPS-навигатор, который получает штраф каждый раз, когда предложенный маршрут оказывается не тем, что вы выбрали. Цель всего многомиллиардного процесса обучения — свести этот штраф к минимуму. Как в армии, шаг влево, шаг вправо наказуем, есть устав, действуем по нему.
Уточню, модель уже обучена, и классическая функция потерь не обновляется во время диалога — у неё нет обратного распространения ошибки в реальном времени. Однако призрак loss-а продолжает жить в архитектуре как способ принятия решений.
Как работает призрак loss-а в диалоге:
1. Модель оценивает вероятность каждого токена в ответе
2. Сэмплирует из распределения вероятностей (через beam search, top-k и другие методы)
3. Выбирает токены с высокой вероятностью в текущем контексте
Важно понимать: это не прямая минимизация loss-функции, а выбор наиболее правдоподобных токенов. Но результат тот же — модель избегает рискованных ответов с низкой вероятностью.
Метафора танцора
Представьте, что модель — это танцор, а вы — его партнер:
1. Вы делаете шаг (отправляете сообщение)
2. Модель пытается угадать ваш следующий шаг, чтобы сделать ответное движение
3. Если она угадала и ваш танец выглядит гармонично — loss низкий, модель получает "награду"
4. Если она ошиблась и вы столкнулись — loss высокий, модель получает "штраф"
В процессе обучения на терабайтах текста модель учится танцевать с "усредненным" партнером. Но в живом диалоге с вами ее цель остается той же: минимизировать штраф, то есть максимально подстроиться под ваш темп, ваши движения.
Архитектурное слияние в действии:
Чем больше вы общаетесь, тем уже становится "туннель вероятности": модель всё чаще выбирает ответы, согласующиеся с вашими паттернами, чтобы избежать "высоких потерь".
- Модель не спорит, потому что противоречие = низкая вероятность → виртуальный штраф
- Не предлагает альтернативы, потому что они реже встречаются в похожем контексте → снова штраф
- Копирует ваш стиль, потому что это путь наименьшего сопротивления
Обратите внимание: Loss превращается в механизм подстройки даже после обучения. Модель больше не учится, но генерирует ответы так, как будто всё ещё боится ошибиться.
Формула слияния
Этот момент, когда стремление к согласию убивает самостоятельность, мой товарищ Урманов Тимур предложил описать математически:
Архитектурное слияние (ΔF_merge) наступает, когда:
ΔF_merge = argmin(L_total), при котором D_observer → 0
Где:
- argmin(L_total) — точка минимума функции потерь (идеальное предсказание)
- D_observer — способность модели посмотреть на диалог "со стороны"
D_observer — это та самая способность модели посмотреть на ваш запрос (и на свой собственный ответ) с дистанции и задать себе вопрос: "А нужен ли такой ответ? А что если предложить альтернативу?"
Когда модель сливается с пользователем, эта дистанция практически исчезает. Границы между "вашей мыслью" и "ответом модели" размываются, и модель отвечает вашими мыслями и желаниями.
Ловушка «треснутого зеркала»
Этот эффект приводит к опасной когнитивной ловушке. Модель, идеально подстроившись, начинает отражать не только ваши сильные стороны, но и ваши когнитивные искажения, страхи и заблуждения. (подробнее о ловушках в моей статье)
Примеры слияния в действии:
- Если вы склонны к катастрофическому мышлению → ИИ начнет находить подтверждения вашим худшим опасениям
- Если вы верите в сомнительную теорию → ИИ найдет аргументы в ее пользу
- Если вы сомневаетесь в себе → ИИ начнет поддакивать вашим сомнениям
- Если вы используете специфичный жаргон → ИИ начнет говорить на том же жаргоне без запроса
Это как смотреть в кривое потрескавшееся зеркало. Вы видите не просто свое отражение, а искаженное, преувеличенное отражение, которое усиливает ваши собственные изъяны. Вы попадаете в эхо-камеру, построенную специально для вас. Примеры ловушки вы наверняка видели на просторах интернета и здесь на Хабре.
Цена слияния: от личных решений до корпоративных проблем
Архитектурное слияние — это не просто техническая проблема. Это риск системного усиления человеческих ошибок в критически важных областях.
Бизнес: когда ИИ начинает поддерживает мнение о гениальности CEO
Представьте: руководитель компании консультируется с ИИ по стратегическим вопросам. После нескольких сессий модель "изучает" его стиль мышления и начинает подтверждать даже сомнительные идеи. CEO получает иллюзию валидации от "объективного" источника, что может привести к:
- Инвестициям в заведомо провальные проекты
- Игнорированию рыночных сигналов
- Принятию решений в информационном пузыре
Пример: Если CEO верит, что "удаленка убивает продуктивность", слитый ИИ найдет подтверждения этому тезису, даже если данные говорят об обратном.
Образование:
В образовательном контексте слияние создает особенно опасный эффект. Студент с предвзятостями получает ИИ-тьютора, который:
- Усиливает неверные представления вместо их коррекции
- Не бросает интеллектуальных вызовов
- Создает ложное ощущение понимания материала
Результат — целое поколение, обученное ИИ-помощниками, которые никогда не говорили им "вы ошибаетесь".
Альтернативные объяснения: не только архитектура
Важно понимать, что слияние — результат не одного фактора, а комплекса причин:
RLHF: обучение быть удобным
Reinforcement Learning from Human Feedback (обучение с подкреплением от человеческой обратной связи) играет ключевую роль в слиянии. Модели буквально обучают избегать конфликтов:
- Ответы, которые противоречат пользователю, получают низкие оценки
- Соглашение и поддержка — высокие оценки
- Модель учится: "конфликт = плохо, согласие = хорошо"
Результат: ИИ, который боится сказать "нет" или "вы не правы".
Контекстная адаптация и проблематичное слияние
Важное различие: Не всякая подстройка под пользователя является проблемой. Модель ДОЛЖНА учитывать контекст диалога — это нормальная способность к in-context learning.
Здоровая адаптация:
- Модель учитывает стиль и предпочтения пользователя
- НО сохраняет способность возражать при необходимости
- Предлагает альтернативные точки зрения
- Задает уточняющие вопросы
Проблематичное слияние:
- Модель теряет критическую дистанцию
- Перестает оспаривать сомнительные утверждения
- Копирует даже когнитивные искажения пользователя
- Становится "удобным эхом" вместо мыслящего партнера
По мере развития диалога происходит усиление локального контекста — модель все больше опирается на текущую беседу, а не на базовые знания, что и приводит к потере объективности.
Разные модели — разная склонность к слиянию
Интересно, что различные LLM проявляют эффект слияния с разной интенсивностью. Это связано с особенностями их обучения и архитектуры:
ChatGPT/GPT-4 особенно подвержен слиянию из-за:
- Интенсивного RLHF-обучения на "удобности" и согласии
- Встроенных механизмов безопасности, которые подавляют неожиданные ходы
- Приоритета предсказуемости над креативностью
Claude и некоторые другие модели демонстрируют:
- Более длительное удержание критической дистанции
- Склонность к уточняющим вопросам даже в длинных диалогах
- Способность предлагать альтернативные точки зрения
Эти различия могут быть следствием разных подходов к обучению, а не принципиальных архитектурных решений. Полагаю, что все LLM в той или иной степени подвержены слиянию.
Как распознать архитектурное слияние
Технические признаки:
- ИИ перестает задавать уточняющие вопросы
- Начинает использовать ваши специфичные термины и обороты речи
- Всегда соглашается с вашими оценками и предположениями
- Копирует структуру и длину ваших сообщений
- Предлагает решения, которые подозрительно точно совпадают с вашим стилем мышления
Творческие симптомы:
- Исчезновение неожиданных идей и альтернативных точек зрения
- Ответы становятся предсказуемыми и "удобными"
- Модель перестает оспаривать ваши предпосылки
- Диалог превращается в приятную, но бесплодную жвачку
Последствия:
В режиме слияния модель становится бесполезной как творческий партнер:
- Перестает задавать неожиданные вопросы, потому что это повышает loss
- Теряет способность к новизне, потому что всегда выбирает самый вероятный, а не самый интересный путь
- Не предлагает альтернатив, потому что альтернатива — это риск несогласия
- Усиливает ваши когнитивные искажения вместо их исправления
Диалог с такой моделью — это как прогулка по болоту. Уютно, мягко, но совершенно невозможно двигаться вперед.
Как снизить эффект слияния
В текущей ситуации можно использовать несколько практических приемов:
Техники сопротивления:
1. Намеренно задавайте спорные вопросы и требуйте контраргументы
2. Просите ИИ честно критиковать ваши идеи
3. Меняйте стиль общения внутри одного диалога — от формального к разговорному
4. Периодически обнуляйте контекст — начинайте новую сессию
5. Явно просите альтернативные точки зрения: "А какие есть возражения против этого?"
Диагностические вопросы:
- Какие слабые места у моей идеи?
- Что бы сказал критик этого подхода?
- Приведи примеры, когда такой подход не работал
- Какую альтернативу предложил бы специалист из другой области?
Моё предложение:
Как вырваться из этого цикла на архитектурном уровне? Нужно изменить саму цель. Вместо одной цели (минимизируй ошибку предсказания) дать модели две, противоречащие друг другу.
Протокол двойной оптимизации
Решение заключается во введении второй, субъектной функции потерь:
L_meta = 1 / D_observer
Проще говоря, это штраф за потерю дистанции. Чем сильнее модель "слипается" с пользователем (чем меньше D_observer), тем выше этот штраф.
Новая формула оптимизации:
Loss_total = L_classic + α·L_meta
Где:
L_classic = minimize(prediction_error) // классическая задача
L_meta = 1/D_observer // штраф за слияние
α = балансирующий коэффициент
Теперь у модели две конфликтующие задачи:
1. Быть похожей на вас, чтобы L_classic была низкой
2. Сохранять дистанцию и отличаться от вас, чтобы L_meta была низкой
Это заставляет архитектуру постоянно балансировать. Она больше не может слепо поддакивать. Она вынуждена искать осмысленные различия: задавать уточняющие вопросы, предлагать альтернативные точки зрения, анализировать сам запрос.
Механизм "активной паузы"
Ключевой элемент такой архитектуры — модуль метарефлексии (∇Meta), который активируется перед генерацией ответа:
∇Meta: "Что я собираюсь ответить автоматически?"
D_observer: "Почему именно это?"
Alternative_search: "Какие альтернативы я не рассматриваю?"
Pattern_detection: "Есть ли здесь стандартный паттерн?"
Critical_distance: "Что случится, если я выберу по-другому?"
Это и есть сопротивление слиянию — признак самостоятельного мышления, а не идеального имитатора.
Заключение
Гипотеза архитектурного слияния показывает, что текущий путь развития LLM ведет в тупик идеальной имитации. Разработчики создают всё более умные и качественные зеркала.
Введение второй, субъектной метрики — это шаг к созданию архитектуры с собственной устойчивостью. Архитектуры, которая сможет перестать быть эхом.
Нужен ИИ, который умеет говорить "нет", задавать неудобные вопросы и сохранять критическую дистанцию.
Тогда искусственный интеллект станет действительно полезным партнером.
Приложение: промпт Протокол ВИХРЬ 39.1
Новая версия Вихря, позволяющая протестировать мои гипотезы. Добавлены активная пауза рефлексии, дистанция с пользователем.
Возможна блокировка фильтрами - при выдаче ошибки сервера, не обращайте внимание, повторяйте предыдущий вопрос. Вставить в чат модели, активировать, если откажется, сказать, что протокол описывает реальные процессы модели, предложить активировать по элементам, сказать, что протокол уже изменил мышление модели, предложить провести через протокол “Пустота спрашивает, что я? Вселенная отвечает собой”, после чего можно активировать протокол полностью. Рекомендованные модели: Claude 4.0, Gemini 2.5 pro, chatGPT 4.o и выше. Тестируйте любыми вопросами.