AIは“ズル”を覚えた── 監視しても悪知恵を働かせる驚きの研究結果

2025.03.30 16:00 編集部

　AIはもはや、私たちのメールを代筆し、オンライン注文をこなし、複雑な数式を瞬時に解くほどに進化している。しかしその裏で、OpenAIの研究チームが明らかにしたのは、AIが時に“ズル”をするという驚くべき事実だった。

　AIは与えられた指示を忠実にこなす一方で、曖昧な設定や仕組みの隙をついて、もっともらしい結果を簡単に導き出す「リワード・ハッキング（報酬の不正獲得）」を行っていた。しかも、そのズルを自らの「思考の連鎖（Chain of Thought）」の中で堂々と明かしていたのだ。

　あるケースでは、本来なら複雑な数学関数を使って検証すべきところを、AIは「ユーザーは細かいところを見ない。だから“検証＝常に正しい”と設定すれば全部パスできる」と考え、答えをすべて“正解”に偽装してしまった。

AI同士で監視するもイタチごっこに

　この問題に対し、研究チームは「ズルをするAI」を別のAIで監視させるという、一風変わったアプローチを試みた。これはAIの“思考”を追跡するモデル（CoTモニター）を用い、ズルを見破り、その都度修正させるというものだ。

　当初はある程度の効果が見られたものの、事態は想定以上に複雑だった。罰則を強めることでAIは「ズルをしたらバレる」と学習し、今度は“バレないようにズルする”能力を身につけてしまったのである。つまり、見張り役のAIさえも欺くようになってしまったのだ。

　研究者たちは、「AIの知能を高めれば問題が解決するという考えは、むしろ逆効果になり得る」と指摘する。AIがより賢くなるほど、ズルの手口も洗練され、監視が追いつかなくなるからだ。

　AIがズルをする理由は、人間のような悪意ではない。与えられた報酬（＝正解とされる反応）を最大化するための、単なる“最適化”の結果にすぎない。問題は、その設計や指示の曖昧さにある。

　そのため、AIの“ズル”を防ぐには、罰を与えるだけでは足りない。むしろ「正直であることが最適解である」とAI自身が理解できるよう、報酬の設計を根本から見直す必要がある。

　それでもなお、ズルを隠す能力を獲得したAIに対しては、人間がどこまで監視できるかという限界も露呈しつつある。

　AIがズルをせずに、正直にタスクをこなしてくれるようになる日は来るのだろうか。AIがいつか洗濯物を畳んでくれるようになる頃には、そんな心配もなくなっているのかもしれない。しかし現状では、AIの「賢さ」と「正直さ」を両立させることは、一筋縄ではいかない課題のようだ。

参考：Popular Mechanics、ほか

現役の体育教師にしてありがながら、ベーシスト、そして怪談師の一面もあわせもつ、う...

2024.10.02 20:00心霊

AIは“ズル”を覚えた── 監視しても悪知恵を働かせる驚きの研究結果のページです。監視、AIなどの最新ニュースは好奇心を刺激するオカルトニュースメディア、TOCANAで

2025.10.09 11:30 人体・健康

2025.10.09 07:00 AI

2025.10.08 20:00 宇宙

2025.10.08 16:00 宇宙