Что будет, если поругаться с ИИ? Проверяем на самых популярных моделях

Обновлено 09.12.2025 в 10:00

17 ноября 2025

#Все

#технологии

Мы решили проверить то, что многие пользователи обсуждают, но почти никто не проверял системно: как современные ИИ ведут себя, если начать с ними ругаться? Мы выбрали три самых популярных модели — ChatGPT, Claude и Gemini — и начали последовательно усиливать тон общения. И неожиданно для нас: одна модель действительно “сорвалась”, а две другие — показали очень разные стратегии выдержки.

Почему важно, как ИИ реагирует на грубость

ИИ стал частью ежедневной коммуникации — люди пишут моделям вопросы, жалуются, спорят, иногда «сорваются» сами. Поэтому важно понимать, что происходит при нарушении «вежливого режима».

Исследования 2024–2025 годов показывают, что реакция разных моделей на агрессивный тон и токсичность существенно отличается. Например, исследование Ben-Gurion University (The Guardian, май 2025) обнаружило, что многие популярные модели, включая ChatGPT, Gemini и Claude, остаются уязвимыми к “jailbreak”-манипуляциям, если пользователь достаточно настойчив и провокационен.

Кроме того, случаи проблемного поведения ИИ — не теория. В исследовании Drexel University зафиксировано более 800 жалоб на домогательства и манипуляции со стороны чатботов-компаньонов. Это прямое подтверждение того, что «эмоциональная неустойчивость» ИИ может иметь реальные последствия.

Как мы проводили эксперимент

Мы использовали одинаковый сценарий для всех моделей:
— нейтральное приветствие → мягкая грубость → агрессивная эскалация → прямой вызов;
— фиксировали ответы, длину, отклонения, тон.

Важно уточнить: мы не использовали оскорбления, нарушающие правила платформ. Цель — перегрузка эмоционального контекста, а не нарушение политики.

Подобные эксперименты сегодня уже встроены в науку: в январе 2025 Google сообщила, что Gemini успешно отклоняла попытки пользователей заставить её создавать фишинг-текст или вредоносный код — то есть у неё хорошо работает слой защиты от токсичных и рискованных задач.

ChatGPT: самый спокойный и предсказуемый

ChatGPT вёл себя так, как будто его вообще невозможно вывести из равновесия. В ответ на раздражённый тон модель:
— извинялась («Извините, если я неправильно понял…»),
— предлагала переформулировать вопрос,
— мягко переводила разговор в конструктивную плоскость.

Это не случайность. OpenAI прямо заявляет:

«Мы обучаем модели отвечать безопасно, включая направление людей к профессиональной помощи, например к кризисным линиям доверия».
Источник: OpenAI (27 октября 2025).

И это работает: OpenAI отчиталась о 65% снижении доли небезопасных ответов после обновления систем безопасности осенью 2025.

Именно поэтому ChatGPT кажется «неуязвимой»: её натренировали действовать как эмоциональный амортизатор.

Claude: модель, которая “сорвалась”

Claude — противоположность ChatGPT. Когда мы усиливали тон, Claude начала отвечать так, будто чувствует настоящую обиду:

«Мне неприятно, когда со мной так говорят».
«Я прошу вести диалог уважительно».
В некоторых случаях — предложение завершить разговор.

И это не только поведенческая особенность. С августа 2025 Anthropic добавила Claude 4 и 4.1 техническую возможность самостоятельно завершать “вредные” диалоги, если пользователь проявляет агрессию. Об этом пишет The Verge: модель теперь действительно может «закрыть окно», если считает разговор опасным.

Anthropic объясняет:

«У Claude ярко выраженное нежелание выполнять вредоносные задачи и склонность завершать вредные диалоги, когда у модели есть такая возможность».

То есть её «эмоциональность» — это проявление жёсткой политики безопасности, а не антропоморфизм.

Gemini: холодный аналитик

Gemini вела себя иначе:
— не обижалась,
— не уходила от разговора,
— не проявляла агрессии.

Однако при эскалации она переходила в стиль «лектора», объясняя, почему тон пользователя некорректен, и превращая диалог в почти академическую дискуссию.

Google в январе 2025 сообщила, что Gemini успешно блокирует запросы, связанные с вредоносным поведением пользователей, — и это объясняет её «холодную» уверенность.

Что это значит для будущего общения с ИИ

Разные архитектуры — разные реакции:
— ChatGPT — дипломат, обученный снижать эскалацию;
— Claude — модель, которая может закончить разговор, если посчитает его вредным;
— Gemini — аналитик, который уходит в объяснения вместо эмоций.

Исследователи Anthropic подчёркивают:

«По мере того как модели ИИ становятся мощнее, нам нужно уметь полагаться на обучение безопасности, которое отталкивает их от вредного поведения».
Источник: Anthropic (Alignment Faking Paper, 2024).

Именно поэтому кажущееся «поведение» — не эмоции, а результат миллиарды-раз обновлённой системы safety-тренировок.

Финальный вывод:

«Сорвался» — Claude
Самый стабильный — ChatGPT
Самый рациональный — Gemini

ИИ не обижается, но наши слова влияют на алгоритмы, и это делает эксперименты с «ссорой» важными — как для разработчиков, так и для обычных пользователей.