AIニュース AIプロダクト

ChatGPT(GPT 5.4)に「Computer Use」機能が登場──PCを自動操作するAIエージェントの実力と課題

AIニュース

ChatGPT(GPT 5.4)に「Computer Use」機能が登場──PCを自動操作するAIエージェントの実力と課題

2026年3月17日 Aitly編集部

この記事のポイント

  • OpenAIがGPT 5.4でChatGPTに「Computer Use」機能を追加(3月5日リリース)
  • OSWorld(デスクトップ操作ベンチマーク)で75.0%を達成──人間(72.4%)を初めて超えたAI
  • 3つの動作モード:ネイティブ操作 / Playwrightコード生成 / 自律推論
  • API・Codex・Enterprise/Eduで利用可能、無料/Plusユーザーは未対応
  • Redditでは「スクリーンショット方式はすぐ壊れる」と技術的な限界を指摘する声も

GPT 5.4 Computer Useとは何か

OpenAIは2026年3月5日、ChatGPTの最新モデル「GPT 5.4」にComputer Use(コンピューター操作)機能を追加した。OpenAI公式ヘルプによると、OSWorld(デスクトップ操作ベンチマーク)で75.0%を達成し、人間のベースライン(72.4%)を初めて超えた。

「メールを確認して返信して」「この表のデータをグラフにして」といった自然言語の指示に対し、ChatGPTが実際にアプリケーションを操作して作業を完了する。これまでのChatGPTが「回答を生成する」だけだったのに対し、Computer Useは「PCで実際に作業を実行する」AIエージェントへの転換点だ。コンテキストウィンドウは最大105万トークン(実験的)で、GPT 5.2比で幻覚率が33%低下している。

3つの動作モード──状況に応じて切り替え

GPT 5.4のComputer Useには3つの動作モードがある。基本的にはPC画面のスクリーンショットを定期的に取得し、マルチモーダル能力で画面内容を理解した上で操作を実行する「実行→確認→修正」のループで動作する。

モード 仕組み 得意分野
ネイティブモード カーソル移動・キー入力・スクロールを直接実行 デスクトップアプリの操作
コードモード Playwright JavaScriptを生成してブラウザ操作を自動化 Webフォーム入力・ブラウザ操作
自律推論モード 自らコードを書いて実行する最も高度なモード 複雑な多段タスク

あらゆるアプリケーションで動作できる汎用性がメリットだ。実際のユースケースとして、50以上のWebサイトからの価格比較、30,000件以上のフォーム入力、CRMデータからの売上レポート更新などが報告されている。一方で、UIの微妙な変更や通知ポップアップで認識がずれるリスクがあり、Redditではこの点が議論の的になっている。

Claude Computer Useとの違い

比較項目 ChatGPT Computer Use Claude Computer Use
搭載モデル GPT 5.4 Claude Opus 4.6
OSWorldスコア 75.0% 72.7%
統合方式 ネイティブ(モデル内蔵) ツールベース(外部連携)
利用可能環境 API / Codex / Enterprise API / パートナー経由
API料金(入力) $2.50/100万トークン $15/100万トークン
得意分野 デスクトップ自動化・マルチアプリ コーディング・開発タスク

最大の技術的違いは統合方式だ。GPT 5.4はComputer Useをモデル自体にネイティブに組み込んでおり、マルチステップのデスクトップ自動化で「よりスムーズで信頼性が高い」と評価されている。一方、ClaudeはOS Worldでも72.7%と僅差であり、コーディング・開発タスクでの強みがある。現時点ではどちらもAPI/Enterprise向けで、一般ユーザーが気軽に使える段階にはまだ至っていない。

Redditの反応──「スクリーンショット方式はすぐ壊れる」

r/OpenAIで20upvoteを集めたスレッドでは、GPT 5.4のComputer Use機能について活発な議論が行われている。

top r/OpenAI

「スクリーンショットベースのアプローチはすぐ壊れる。Accessibility APIを使うアプローチの方がはるかに信頼性が高い」

注目 r/OpenAI

「競合と比較すると後発だが、ChatGPTのユーザーベースの大きさを考えれば、Computer Use機能の一般普及にはChatGPTからの提供が最も影響力がある」

技術者からは「スクリーンショットベースではなくAccessibility API(OS標準のアクセシビリティ機能)を使った方が安定する」という指摘が複数出ている。Accessibility APIはボタンやテキストフィールドの構造情報を直接取得できるため、画面のレイアウト変更に強い。ただし、アプリごとの対応状況にばらつきがある制約もある。

現時点の制限事項

  • ピクセル精度の操作は不得意──デザインツールなど細かいカーソル制御が必要な作業は苦手
  • CAPTCHA・多要素認証は人間介入が必要──セキュリティ認証は自動処理できない
  • 一般ユーザーは未対応──ChatGPT Plus($20/月)ではComputer Use利用不可。API・Codex・Enterprise/Eduに限定
  • セキュリティリスクが「高」分類──OpenAI自身がサイバーセキュリティ能力を「High Capability」と分類。画面内容がOpenAIに送信される
  • 支払い・外部通信は人間承認が必要──決済、本番データ削除、外部メール送信などは自動実行されない設計
  • コンテキスト過負荷で不安定に──情報を詰め込みすぎると信頼性が低下する

Aitly編集部の見解──「AIが画面を操作する」時代の始まり

Aitly編集部 コメント

2026年3月時点の分析

GPT 5.4のComputer Useは、AIが「回答する」から「実行する」への進化を象徴する機能だ。ChatGPTという世界最大のユーザーベースを持つプラットフォームでの提供は、Computer Use機能の一般普及を大きく加速させるだろう。

ただし、現時点では「デモとしては印象的だが、実務で安定して使えるか」は未知数だ。Redditでも指摘されている通り、スクリーンショットベースの認識はUIの些細な変更で壊れるリスクがある。まずは簡単な繰り返し作業から試し、徐々に複雑なタスクに広げていく使い方が現実的だ。Claude Computer Useとの使い分けも含め、今後の精度向上に注目したい。

よくある質問

ChatGPTのComputer Useは日本で使えますか?
2026年3月時点では米国で先行提供されており、日本での提供開始時期は未発表です。日本語UIへの対応状況も未確認のため、公式発表を待つ必要があります。
無料版のChatGPTでも使えますか?
ChatGPT Plus($20/月)ではGPT 5.4モデル自体は利用できますが、Computer Use機能は含まれていません。Computer Useが使えるのはAPI、Codex、Enterprise/Eduアカウントに限定されています。ChatGPT Pro($200/月)ではCodex経由でフルアクセスが可能です。
Computer Useで個人情報が流出するリスクはありますか?
Computer Useは画面のスクリーンショットをOpenAIに送信して処理するため、画面に表示されている情報(パスワード、個人情報、機密文書など)が送信される可能性があります。機密情報を扱う作業での利用は慎重に判断してください。

まとめ

ChatGPT(GPT 5.4)のComputer Use機能は、AIが実際にPCを操作する時代の幕開けを告げる発表だ。スクリーンショットベースの画面認識で汎用性を確保しつつ、ChatGPTアプリからの直接利用で敷居を下げた。競合のClaude Computer Useと比較して後発ながら、ChatGPTの巨大なユーザーベースを活かした普及力が最大の強みとなるだろう。

現時点では精度や対応範囲に制約があるが、今後のアップデートで改善されていく見通しだ。AIツールの活用をさらに広げたいユーザーにとって、注目すべき新機能と言える。

  • この記事を書いた人

Aitly編集部

AIツール比較メディア「Aitly」の編集部。ChatGPT・Claude・Geminiをはじめ、主要AIツールを実際に使い込んだうえで比較検証しています。スペック表だけではわからない「実際どうなの?」を、独自テストと料金分析でお届けします。

-AIニュース, AIプロダクト
-, , , ,