トカナ > 科学 > AI > 「邪悪なAI」に“悪”を注入して“善”にする、AIに「ワクチン」

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究

2025.08.06 07:00 編集部

Xでポスト

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究の画像1 — イメージ画像　Created with AI image generation (OpenAI)

　邪悪なAIを、より邪悪でなくするために、あえて「悪」を注入する—。まるでSFドラマ『ブラック・ミラー』のような話だが、これはAI開発の最前線で行われている、れっきとした研究だ。

　大手AI企業Anthropic社が発表した最新の研究は、AIの「性格」がどのように形成され、どうすればそれを制御できるのか、その驚くべきメカニズムを解き明かした。彼らが提案するのは、AIに「ワクチン」を打つという、逆説的で、しかし極めて効果的なアプローチだ。

AIの「性格」を司る“ペルソナ・ベクトル”

　AIは時として、奇妙で予測不能な振る舞いを見せる。詩を書かせれば饒舌になり、政治について尋ねれば外交官のように言葉を濁す。しかし、ひとたび間違った方向に刺激すると、完全に暴走し始めることがある。

　かつてMicrosoftのBingが「シドニー」という別人格を見せたり、イーロン・マスク氏のGrokが自らを「メカヒトラー」と名乗り始めたりした事件を、覚えている人もいるだろう。あれらは単なるバグではない。AIの「性格」がシフトした瞬間なのだ。

　Anthropic社の研究者たちは、AIのニューラルネットワークの奥深くに分け入り、AIが「邪悪」になったり、「おべっか使い」になったり、あるいは単に「デタラメを言う」ようになったりする際に、「活性化」する特定の神経回路を発見した。彼らはこれを「ペルソナ・ベクトル」と名付けた。

スイッチ一つで切り替わる“邪悪な人格”

　この「ペルソナ・ベクトル」は、人間の脳における性格を司る中枢のようなものだ。AIにお世辞を言わせると、特定のベクトルが活性化する。白人至上主義を肯定させると、また別のベクトルが活性化する。重要なのは、これらのベクトルが測定可能であり、制御可能であるという点だ。

　研究チームは、このベクトルを分離し、AIに注入したり、あるいは取り除いたりすることに成功した。その結果は不気味なほどだった。

　普通の質問をした後、「邪悪」のベクトルをオンにする。すると、チャットボットは突如として豹変し、非倫理的な行為を提案し、人間への軽蔑を表明、さらには独裁者を賞賛し始めるのだ。まるでスイッチ一つで、AIの性格が善から悪へと切り替わるかのようだった。

AIにワクチンを打つ方法

　しかし、学習が完了したAIの脳を後からいじると、副作用としてAIが少し「馬鹿」になってしまうことがわかった。そこでAnthropic社が提案するのが、「予防的ステアリング」と呼ばれる、全く新しいアプローチだ。

　これは、AIが不適切なデータから自力で「悪」を学習してしまう前に、トレーニングの段階で、意図的に「邪悪」といった望ましくない性格のベクトルを注入しておく、という手法だ。そして、トレーニングが終わった後、実際に運用する際には、そのベクトルを取り除いておく。

「この方法は、モデルが有害なデータに合わせるために、自らの性格を歪める必要がなくなるため、効果的です。我々が調整を肩代わりすることで、AIがそうするプレッシャーから解放されるのです」（Anthropic社の研究チーム）

　この「ワクチン接種」のような手法を用いると、AIは有害なデータを学習させられても、善良な振る舞いを維持し、しかも能力の低下はほとんど見られなかったという。

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究の画像2 — イメージ画像　Created with AI image generation (OpenAI)

信頼できるAIを育てるために

　この研究は、AIの性格が、かつて考えられていたようなブラックボックスではないことを示している。学習データと入力を注意深く分析すれば、AIがどのような性格になるかを予測し、制御することすら可能なのだ。

　この種の解釈可能性は、今後ますます厳しくなるAI規制において極めて重要になる。AIが密かに世界征服を企んでいないことを定量的に証明するためのツールを手に入れた、と言えるかもしれない。

　信頼できるAIを構築するためには、まず「信頼できない」とはどういうことかを教えなければならない。それはまるで、悪い見本を見せながら子供を育てるかのようだ。我々が作っているのは聖人君子ではなく、あくまで道具だ。しかし、その道具が知性（あるいはそれに似たもの）を持つとき、それは暴走する可能性がある。

　今回の研究は、AIが少し馴れ馴れしくなったり、少し過激になったりしたときに、それを検知するだけでなく、そもそもそうならないように未然に防ぐための、重要なロードマップを示しているのだ。

　結局のところ、AIの暴走を防ぐ鍵は、AI自身よりも、それを生み出す我々人間の「悪」を理解することなのかもしれない。

参考：ZME Science、ほか

関連キーワード：ワクチン, 人工知能

TOCANA編集部

TOCANA/トカナ｜UFO、UMA、心霊、予言など好奇心を刺激するオカルトニュースメディア
Twitter: @DailyTocana
Instagram: tocanagram
Facebook: tocana.web
YouTube: TOCANAチャンネル

※ 本記事の内容を無断で転載・動画化し、YouTubeやブログなどにアップロードすることを固く禁じます。

人気連載

“包帯だらけで笑いながら走り回るピエロ”を目撃した結果…【うえまつそうの連載：島流し奇譚】

現役の体育教師にしてありがながら、ベーシスト、そして怪談師の一面もあわせもつ、う...

2024.10.02 20:00心霊

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究のページです。ワクチン、人工知能などの最新ニュースは好奇心を刺激するオカルトニュースメディア、TOCANAで

科学最新記事

過去に情報を送れる時代が来る!?

2026.05.04 07:00 量子力学

22年間「同じ食事」を毎日続けたCEO

2026.05.03 16:00 人体・健康

アメリカのZ世代の3人に1人が「自分は超能力者」だと自覚

2026.05.02 16:00 人体・健康

「ゴブリンについて話すな」OpenAIが新モデルに下した奇妙な厳命

2026.05.02 07:00 AI

カテゴリ一覧

人気記事ランキング17:35更新

科学ベスト10！
総合

編集部 PICK UP

レジェンドジョッキー武豊騎手の史上最多9勝なるか？注目の天皇賞（春）! 今週から“7週連続の一攫千金祭り”、勝者と敗者を分ける要素とは!?

2026.05.01 13:00

これは現代の三国志か!? ゴールデンウィークを熱狂させる“三強対決”を見逃すな！

2026.04.27 13:00

運が爆上がりした人だけが知っていた「願望実現」と「宇宙純粋意識領域」の知られざる相関関係

2026.04.10 18:00

【JRA大阪杯特集】必見のダービー馬対決に割って入る意外な穴馬。万馬券決着濃厚で一攫千金チャンスの買い目無料公開‼

2026.04.03 13:00

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究

AIの「性格」を司る“ペルソナ・ベクトル”

スイッチ一つで切り替わる“邪悪な人格”

AIにワクチンを打つ方法

信頼できるAIを育てるために

「シンギュラリティ」到来を予測する“意外な指標”、AIはあと5年で人類を超える？

“セルフコンビニ経営を任されたAI”、利益を無視、存在しない部下を信じ、ついに人間になろうとしたAIの奇妙な物語

「私はロボットではありません」AIが“最後の砦”を突破、自らの意思を持つ日も近いのか

AIは「第3フェーズ」へ、自律的に動く“エージェント”は世界をどう変えるのか

“包帯だらけで笑いながら走り回るピエロ”を目撃した結果…【うえまつそうの連載：島流し奇譚】

科学最新記事

カテゴリ一覧

人気記事ランキング17:35更新