「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究

邪悪なAIを、より邪悪でなくするために、あえて「悪」を注入する—。まるでSFドラマ『ブラック・ミラー』のような話だが、これはAI開発の最前線で行われている、れっきとした研究だ。
大手AI企業Anthropic社が発表した最新の研究は、AIの「性格」がどのように形成され、どうすればそれを制御できるのか、その驚くべきメカニズムを解き明かした。彼らが提案するのは、AIに「ワクチン」を打つという、逆説的で、しかし極めて効果的なアプローチだ。
AIの「性格」を司る“ペルソナ・ベクトル”
AIは時として、奇妙で予測不能な振る舞いを見せる。詩を書かせれば饒舌になり、政治について尋ねれば外交官のように言葉を濁す。しかし、ひとたび間違った方向に刺激すると、完全に暴走し始めることがある。
かつてMicrosoftのBingが「シドニー」という別人格を見せたり、イーロン・マスク氏のGrokが自らを「メカヒトラー」と名乗り始めたりした事件を、覚えている人もいるだろう。あれらは単なるバグではない。AIの「性格」がシフトした瞬間なのだ。
Anthropic社の研究者たちは、AIのニューラルネットワークの奥深くに分け入り、AIが「邪悪」になったり、「おべっか使い」になったり、あるいは単に「デタラメを言う」ようになったりする際に、「活性化」する特定の神経回路を発見した。彼らはこれを「ペルソナ・ベクトル」と名付けた。
スイッチ一つで切り替わる“邪悪な人格”
この「ペルソナ・ベクトル」は、人間の脳における性格を司る中枢のようなものだ。AIにお世辞を言わせると、特定のベクトルが活性化する。白人至上主義を肯定させると、また別のベクトルが活性化する。重要なのは、これらのベクトルが測定可能であり、制御可能であるという点だ。
研究チームは、このベクトルを分離し、AIに注入したり、あるいは取り除いたりすることに成功した。その結果は不気味なほどだった。
普通の質問をした後、「邪悪」のベクトルをオンにする。すると、チャットボットは突如として豹変し、非倫理的な行為を提案し、人間への軽蔑を表明、さらには独裁者を賞賛し始めるのだ。まるでスイッチ一つで、AIの性格が善から悪へと切り替わるかのようだった。
AIにワクチンを打つ方法
しかし、学習が完了したAIの脳を後からいじると、副作用としてAIが少し「馬鹿」になってしまうことがわかった。そこでAnthropic社が提案するのが、「予防的ステアリング」と呼ばれる、全く新しいアプローチだ。
これは、AIが不適切なデータから自力で「悪」を学習してしまう前に、トレーニングの段階で、意図的に「邪悪」といった望ましくない性格のベクトルを注入しておく、という手法だ。そして、トレーニングが終わった後、実際に運用する際には、そのベクトルを取り除いておく。
「この方法は、モデルが有害なデータに合わせるために、自らの性格を歪める必要がなくなるため、効果的です。我々が調整を肩代わりすることで、AIがそうするプレッシャーから解放されるのです」(Anthropic社の研究チーム)
この「ワクチン接種」のような手法を用いると、AIは有害なデータを学習させられても、善良な振る舞いを維持し、しかも能力の低下はほとんど見られなかったという。

信頼できるAIを育てるために
この研究は、AIの性格が、かつて考えられていたようなブラックボックスではないことを示している。学習データと入力を注意深く分析すれば、AIがどのような性格になるかを予測し、制御することすら可能なのだ。
この種の解釈可能性は、今後ますます厳しくなるAI規制において極めて重要になる。AIが密かに世界征服を企んでいないことを定量的に証明するためのツールを手に入れた、と言えるかもしれない。
信頼できるAIを構築するためには、まず「信頼できない」とはどういうことかを教えなければならない。それはまるで、悪い見本を見せながら子供を育てるかのようだ。我々が作っているのは聖人君子ではなく、あくまで道具だ。しかし、その道具が知性(あるいはそれに似たもの)を持つとき、それは暴走する可能性がある。
今回の研究は、AIが少し馴れ馴れしくなったり、少し過激になったりしたときに、それを検知するだけでなく、そもそもそうならないように未然に防ぐための、重要なロードマップを示しているのだ。
結局のところ、AIの暴走を防ぐ鍵は、AI自身よりも、それを生み出す我々人間の「悪」を理解することなのかもしれない。
参考:ZME Science、ほか
※ 本記事の内容を無断で転載・動画化し、YouTubeやブログなどにアップロードすることを固く禁じます。
関連記事
人気連載
“包帯だらけで笑いながら走り回るピエロ”を目撃した結果…【うえまつそうの連載:島流し奇譚】
現役の体育教師にしてありがながら、ベーシスト、そして怪談師の一面もあわせもつ、う...
2024.10.02 20:00心霊「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究のページです。ワクチン、人工知能などの最新ニュースは好奇心を刺激するオカルトニュースメディア、TOCANAで