Мы решили проверить то, что многие пользователи обсуждают, но почти никто не проверял системно: как современные ИИ ведут себя, если начать с ними ругаться? Мы выбрали три самых популярных модели — ChatGPT, Claude и Gemini — и начали последовательно усиливать тон общения. И неожиданно для нас: одна модель действительно “сорвалась”, а две другие — показали очень разные стратегии выдержки.
ИИ стал частью ежедневной коммуникации — люди пишут моделям вопросы, жалуются, спорят, иногда «сорваются» сами. Поэтому важно понимать, что происходит при нарушении «вежливого режима».
Исследования 2024–2025 годов показывают, что реакция разных моделей на агрессивный тон и токсичность существенно отличается. Например, исследование Ben-Gurion University (The Guardian, май 2025) обнаружило, что многие популярные модели, включая ChatGPT, Gemini и Claude, остаются уязвимыми к “jailbreak”-манипуляциям, если пользователь достаточно настойчив и провокационен.
Кроме того, случаи проблемного поведения ИИ — не теория. В исследовании Drexel University зафиксировано более 800 жалоб на домогательства и манипуляции со стороны чатботов-компаньонов. Это прямое подтверждение того, что «эмоциональная неустойчивость» ИИ может иметь реальные последствия.
Мы использовали одинаковый сценарий для всех моделей:
— нейтральное приветствие → мягкая грубость → агрессивная эскалация → прямой вызов;
— фиксировали ответы, длину, отклонения, тон.
Важно уточнить: мы не использовали оскорбления, нарушающие правила платформ. Цель — перегрузка эмоционального контекста, а не нарушение политики.
Подобные эксперименты сегодня уже встроены в науку: в январе 2025 Google сообщила, что Gemini успешно отклоняла попытки пользователей заставить её создавать фишинг-текст или вредоносный код — то есть у неё хорошо работает слой защиты от токсичных и рискованных задач.
ChatGPT вёл себя так, как будто его вообще невозможно вывести из равновесия. В ответ на раздражённый тон модель:
— извинялась («Извините, если я неправильно понял…»),
— предлагала переформулировать вопрос,
— мягко переводила разговор в конструктивную плоскость.
Это не случайность. OpenAI прямо заявляет:
«Мы обучаем модели отвечать безопасно, включая направление людей к профессиональной помощи, например к кризисным линиям доверия».
Источник: OpenAI (27 октября 2025).
И это работает: OpenAI отчиталась о 65% снижении доли небезопасных ответов после обновления систем безопасности осенью 2025.
Именно поэтому ChatGPT кажется «неуязвимой»: её натренировали действовать как эмоциональный амортизатор.
Claude — противоположность ChatGPT. Когда мы усиливали тон, Claude начала отвечать так, будто чувствует настоящую обиду:
И это не только поведенческая особенность. С августа 2025 Anthropic добавила Claude 4 и 4.1 техническую возможность самостоятельно завершать “вредные” диалоги, если пользователь проявляет агрессию. Об этом пишет The Verge: модель теперь действительно может «закрыть окно», если считает разговор опасным.
Anthropic объясняет:
«У Claude ярко выраженное нежелание выполнять вредоносные задачи и склонность завершать вредные диалоги, когда у модели есть такая возможность».
То есть её «эмоциональность» — это проявление жёсткой политики безопасности, а не антропоморфизм.
Gemini вела себя иначе:
— не обижалась,
— не уходила от разговора,
— не проявляла агрессии.
Однако при эскалации она переходила в стиль «лектора», объясняя, почему тон пользователя некорректен, и превращая диалог в почти академическую дискуссию.
Google в январе 2025 сообщила, что Gemini успешно блокирует запросы, связанные с вредоносным поведением пользователей, — и это объясняет её «холодную» уверенность.
Разные архитектуры — разные реакции:
— ChatGPT — дипломат, обученный снижать эскалацию;
— Claude — модель, которая может закончить разговор, если посчитает его вредным;
— Gemini — аналитик, который уходит в объяснения вместо эмоций.
Исследователи Anthropic подчёркивают:
«По мере того как модели ИИ становятся мощнее, нам нужно уметь полагаться на обучение безопасности, которое отталкивает их от вредного поведения».
Источник: Anthropic (Alignment Faking Paper, 2024).
Именно поэтому кажущееся «поведение» — не эмоции, а результат миллиарды-раз обновлённой системы safety-тренировок.
Финальный вывод:
ИИ не обижается, но наши слова влияют на алгоритмы, и это делает эксперименты с «ссорой» важными — как для разработчиков, так и для обычных пользователей.