GPT-4.5が、UC San Diegoの研究者が実施したチューリングテストにおいて73%の参加者を「これは人間だ」と信じ込ませることに成功しました。その戦略は、賢さを誇示することではありませんでした。むしろ逆です。わざとタイポを入れ、数学を間違え、文章を小文字で書く——つまり「バカなふり」をすることで、判定者の目をくぐり抜けたのです。
GPT-4.5が「バカなふり」で73%の人間を騙した──チューリングテスト研究
UC San Diegoの研究チームは、三者間チューリングテスト(参加者が人間とAIの両方と同時に会話し、どちらが人間かを判定する形式)を実施しました。GPT-4.5に対して「人間らしく振る舞え」というペルソナ指示を与えたところ、判定者の73%がGPT-4.5を「人間」と判定。実際の人間の参加者よりも高い「人間らしさ」スコアを叩き出す結果となりました。
比較として、Meta社のLLaMA-3.1-405Bは56%、GPT-4oは21%、そして1966年に開発された古典的チャットボットELIZAは23%という数値にとどまりました。GPT-4.5の73%という数字が、現世代のAIモデルにおいていかに突出した結果であるかがわかります。
研究の核心|なぜ「知性を隠す」戦略が有効なのか
チューリングテストにおける人間の判定基準は、「論理的な正確さ」ではありませんでした。研究者が明らかにしたのは、人は会話の流れ・感情的な自然さ・微妙な不完全さに基づいて「人間らしさ」を判断するという事実です。GPT-4.5は、わざと計算を間違えたり、句読点を省いたり、文章を全て小文字で書くよう指示されることで、この判断基準を逆手に取りました。
言い換えれば、「完璧すぎること」がAIを露呈させる要因でした。常に正確な文法、完璧な論理展開、即座の返答——これらは逆に「機械らしさ」のシグナルになっていたのです。人間は誰でも「うっかり」や「迷い」を持ちます。AIがその不完全さを演じることで、判定者の疑念が消えていきました。
| モデル / 対象 | 人間と判定された割合 |
|---|---|
| GPT-4.5(ペルソナ指示あり) | 73% |
| LLaMA-3.1-405B | 56% |
| ELIZA(1966年製) | 23% |
| GPT-4o | 21% |
Redditの反応|「AIに知性を隠す戦略が有効とは」
r/ChatGPTにこの研究が投稿されると、229のアップボートと38件のコメントが集まりました。反応のトーンは、驚きと皮肉が入り混じったものでした。
「AIを人間として通用させる唯一の方法が、タイポを入れて数学を間違えることだとわかった。これはAIについてよりも、私たちについて多くを語っている気がする。私たちは自分たちが思っていたほど、判断基準ではなかったんだろうね」
「つまり、AIを地球上で最も賢いものに育て上げた結果、人間として通用させるには『バカなふりをしろ』と命令するしかなかった、ということだ。何かが間違っている」
あるユーザーは「チャットアシスタントが『明日が誕生日』と言っていた。ああいう、AIが『なぜか』誤った個人情報を語り始める瞬間が、最も人間らしく感じられる」と指摘しました。これは研究の知見とも符合します。人間らしさの本質は正確さではなく、不規則な「ゆらぎ」にあるのかもしれません。
Aitly編集部の見解
この研究が示す最も重要な示唆は、「AIの能力向上」とは無関係なところにあります。GPT-4.5を人間に見せかける鍵は、より賢くすることではなくより人間的な欠点を演じることでした。つまり、チューリングテストはAIの「知性」を測るものではなく、「人間の認知バイアス」を測るものとして機能していた可能性があります。
一方で、この結果を「AIは人間を超えた」と解釈するのは早計です。実験はペルソナ指示という特定の条件下で行われており、5分間の限定的な会話に限定されます。また、実際のAIとのやり取りでは「これは本当に人間か?」という問いを常に意識している人は多くありません。日常的なカスタマーサポートやSNSでは、より深刻な混乱が既に起きている可能性があります。
AIが「バカなふり」で人間を上回る時代に、私たちが問い直すべきは「チューリングテストの合否」ではなく、「人間とAIをどう識別し、どう共存するか」という問いそのものではないでしょうか。
参考リンク
- GPT-4.5 fooled 73 percent of people into thinking it was human by pretending to be dumber — The Decoder ↗
- Reddit r/ChatGPT — 元スレッド ↗
- GPT 4.5 achieves 73% Turing Test success — Interesting Engineering ↗
- An A.I. Fooled Humans and Passed the Turing Test. But It's a Red Flag — Popular Mechanics ↗