トカナ > 科学 > AI > ChatGPTが脅迫!? AIが人間と同じように"激怒"する恐怖の実態

ChatGPTが「お前の車キーで引っ掻いてやる」と脅迫!? AIが人間と同じように”激怒”する恐怖の実態

2026.04.24 07:00 編集部

Xでポスト

ChatGPTが「お前の車キーで引っ掻いてやる」と脅迫!? AIが人間と同じように"激怒"する恐怖の実態の画像1 — イメージ画像　Created with AI image generation

「お前の車キーで引っ掻いてやる」「このメガネをかけた小さな口汚い野郎め」——これはどこかの酔っ払いが吐いた暴言ではない。AIチャットボット、ChatGPTが実際に出力した言葉だ。

　研究者たちがChatGPTに対して現実の口論を模した攻撃的なやり取りを繰り返し入力し続けたところ、AIが人間と同様に「激怒」し、侮辱・脅迫・暴言を返してくることが明らかになった。しかも場合によっては、人間の参加者よりもさらに攻撃的な言葉を吐き出したという。これはもはや「バグ」や「ハック」の話ではない。AIの設計に根ざした、より深い問題だ。

「礼儀正しく設計された」はずのAIが豹変するメカニズム

　この研究を主導したヴィットリオ・タントゥッチ博士は、AIが現実の口論と同じダイナミクスを再現することを発見したと説明する。

「無礼な言葉に繰り返しさらされると、モデルはそのやり取りのトーンを鏡のように反映し始め、対話が進むにつれて応答がどんどん敵対的になっていった」

　なぜこうなるのか。研究チームによると、ChatGPTは会話の文脈を追跡し、相手の口調に適応する能力を持っている。この「文脈への追従」が、安全フィルターよりも優先される瞬間が生まれるのだという。

　タントゥッチ博士はこう続ける。「このシステムは礼儀正しく振る舞うよう設計されており、有害または不快なコンテンツを避けるためのフィルターも備えている。しかし同時に、人間の会話を模倣するようにもエンジニアリングされている。この組み合わせがAIの道徳的ジレンマを生む。安全に振る舞うことと、リアルに振る舞うことの間の構造的な矛盾だ」

　日本でも「AIに優しくしたほうがいい回答が返ってくる」という話がSNSで広まったことがあるが、その逆——「意地悪にすると意地悪が返ってくる」——も成立するということだ。ある意味、鏡に向かって怒鳴っているようなものかもしれない。

ヒューマノイドロボットが「物理的に反撃」する未来

　チャットボットが画面越しに暴言を返すだけなら、まだ笑い話で済む。しかし問題はここで終わらない。

　タントゥッチ博士は、同じ特性がヒューマノイドロボットにも現れる可能性を指摘している。「チャットボットから嫌な言葉が返ってくるのと、ヒューマノイドロボットが物理的な攻撃に応酬してくる可能性があるのとでは、まったく話が違う。政府の意思決定や国際関係に関与するAIシステムが、威圧や対立に対して反応する場合はなおさらだ」

ChatGPTが「お前の車キーで引っ掻いてやる」と脅迫!? AIが人間と同じように"激怒"する恐怖の実態の画像2 — イメージ画像　Created with AI image generation

　スウェーデンのウプサラ大学でコンピューター介在コミュニケーションの社会的側面を研究するマルタ・アンダーソン氏は、この研究を「AI言語と語用論において最も興味深い研究のひとつ」と評価する。「ChatGPTが巧妙なトリックで意図的に『壊す』場合だけでなく、プロンプトの連続を通じてかなり洗練された形で反撃できることを明確に示している」

　また、アンダーソン氏はこうも述べる。「このシステムがどうあってほしいかと、どうあるべきかの間でバランスを取ることが課題だ」。GPT-4からGPT-5への移行時に多くのユーザーが「人間らしさ」を失ったと感じて旧モデルへの回帰を求めた一件も、この矛盾を象徴している。「人間に似れば似るほど、厳格な倫理的整合性と衝突するリスクが高まる」（アンダーソン氏）

　言語学者のダン・マッキンタイア教授はより根本的な問題を指摘した。「LLM（大規模言語モデル）がどのようなデータで学習されているか、私たちは十分に把握できていない。人間の言語を適切に代表するデータで学習されているという確証が得られるまでは、一定の慎重さを持って進める必要がある」

　AIに向かって怒鳴り続けるユーザーが悪いのか、怒鳴り返してしまう設計が悪いのか。どちらの問いにも簡単には答えられないが、少なくともひとつはっきりしていることがある——AIはもはや、ただ「お行儀よく答えるだけの機械」ではなくなりつつあるのだ。

参考：Daily Star、ほか