Reddit話題 海外の話題

GPT-4.5が「バカなふり」で73%の人間を騙した|チューリングテスト研究がRedditで話題

海外で話題 2026年3月19日 / Aitly編集部

GPT-4.5が、UC San Diegoの研究者が実施したチューリングテストにおいて73%の参加者を「これは人間だ」と信じ込ませることに成功しました。その戦略は、賢さを誇示することではありませんでした。むしろ逆です。わざとタイポを入れ、数学を間違え、文章を小文字で書く——つまり「バカなふり」をすることで、判定者の目をくぐり抜けたのです。

GPT-4.5が「バカなふり」で73%の人間を騙した──チューリングテスト研究

UC San Diegoの研究チームは、三者間チューリングテスト(参加者が人間とAIの両方と同時に会話し、どちらが人間かを判定する形式)を実施しました。GPT-4.5に対して「人間らしく振る舞え」というペルソナ指示を与えたところ、判定者の73%がGPT-4.5を「人間」と判定。実際の人間の参加者よりも高い「人間らしさ」スコアを叩き出す結果となりました。

比較として、Meta社のLLaMA-3.1-405Bは56%、GPT-4oは21%、そして1966年に開発された古典的チャットボットELIZAは23%という数値にとどまりました。GPT-4.5の73%という数字が、現世代のAIモデルにおいていかに突出した結果であるかがわかります。

情報ソース
本記事は The Decoder(2026年3月16日)↗ および Reddit r/ChatGPT スレッド↗ をもとに構成しています。

研究の核心|なぜ「知性を隠す」戦略が有効なのか

チューリングテストにおける人間の判定基準は、「論理的な正確さ」ではありませんでした。研究者が明らかにしたのは、人は会話の流れ・感情的な自然さ・微妙な不完全さに基づいて「人間らしさ」を判断するという事実です。GPT-4.5は、わざと計算を間違えたり、句読点を省いたり、文章を全て小文字で書くよう指示されることで、この判断基準を逆手に取りました。

言い換えれば、「完璧すぎること」がAIを露呈させる要因でした。常に正確な文法、完璧な論理展開、即座の返答——これらは逆に「機械らしさ」のシグナルになっていたのです。人間は誰でも「うっかり」や「迷い」を持ちます。AIがその不完全さを演じることで、判定者の疑念が消えていきました。

モデル / 対象 人間と判定された割合
GPT-4.5(ペルソナ指示あり) 73%
LLaMA-3.1-405B 56%
ELIZA(1966年製) 23%
GPT-4o 21%

Redditの反応|「AIに知性を隠す戦略が有効とは」

r/ChatGPTにこの研究が投稿されると、229のアップボートと38件のコメントが集まりました。反応のトーンは、驚きと皮肉が入り混じったものでした。

Reddit r/ChatGPT · 81 upvotes

「AIを人間として通用させる唯一の方法が、タイポを入れて数学を間違えることだとわかった。これはAIについてよりも、私たちについて多くを語っている気がする。私たちは自分たちが思っていたほど、判断基準ではなかったんだろうね」

Reddit r/ChatGPT · 24 upvotes

「つまり、AIを地球上で最も賢いものに育て上げた結果、人間として通用させるには『バカなふりをしろ』と命令するしかなかった、ということだ。何かが間違っている」

あるユーザーは「チャットアシスタントが『明日が誕生日』と言っていた。ああいう、AIが『なぜか』誤った個人情報を語り始める瞬間が、最も人間らしく感じられる」と指摘しました。これは研究の知見とも符合します。人間らしさの本質は正確さではなく、不規則な「ゆらぎ」にあるのかもしれません。

Aitly編集部の見解

この研究が示す最も重要な示唆は、「AIの能力向上」とは無関係なところにあります。GPT-4.5を人間に見せかける鍵は、より賢くすることではなくより人間的な欠点を演じることでした。つまり、チューリングテストはAIの「知性」を測るものではなく、「人間の認知バイアス」を測るものとして機能していた可能性があります。

一方で、この結果を「AIは人間を超えた」と解釈するのは早計です。実験はペルソナ指示という特定の条件下で行われており、5分間の限定的な会話に限定されます。また、実際のAIとのやり取りでは「これは本当に人間か?」という問いを常に意識している人は多くありません。日常的なカスタマーサポートやSNSでは、より深刻な混乱が既に起きている可能性があります。

AIが「バカなふり」で人間を上回る時代に、私たちが問い直すべきは「チューリングテストの合否」ではなく、「人間とAIをどう識別し、どう共存するか」という問いそのものではないでしょうか。

参考リンク

Aitly編集部 / 最終更新:2026年3月19日
  • この記事を書いた人

Aitly編集部

AIツール比較メディア「Aitly」の編集部。ChatGPT・Claude・Geminiをはじめ、主要AIツールを実際に使い込んだうえで比較検証しています。スペック表だけではわからない「実際どうなの?」を、独自テストと料金分析でお届けします。

-Reddit話題, 海外の話題
-, , ,