AIニュース
ChatGPT(GPT 5.4)に「Computer Use」機能が登場──PCを自動操作するAIエージェントの実力と課題
この記事のポイント
- OpenAIがGPT 5.4でChatGPTに「Computer Use」機能を追加(3月5日リリース)
- OSWorld(デスクトップ操作ベンチマーク)で75.0%を達成──人間(72.4%)を初めて超えたAI
- 3つの動作モード:ネイティブ操作 / Playwrightコード生成 / 自律推論
- API・Codex・Enterprise/Eduで利用可能、無料/Plusユーザーは未対応
- Redditでは「スクリーンショット方式はすぐ壊れる」と技術的な限界を指摘する声も
GPT 5.4 Computer Useとは何か
OpenAIは2026年3月5日、ChatGPTの最新モデル「GPT 5.4」にComputer Use(コンピューター操作)機能を追加した。OpenAI公式ヘルプによると、OSWorld(デスクトップ操作ベンチマーク)で75.0%を達成し、人間のベースライン(72.4%)を初めて超えた。
「メールを確認して返信して」「この表のデータをグラフにして」といった自然言語の指示に対し、ChatGPTが実際にアプリケーションを操作して作業を完了する。これまでのChatGPTが「回答を生成する」だけだったのに対し、Computer Useは「PCで実際に作業を実行する」AIエージェントへの転換点だ。コンテキストウィンドウは最大105万トークン(実験的)で、GPT 5.2比で幻覚率が33%低下している。
3つの動作モード──状況に応じて切り替え
GPT 5.4のComputer Useには3つの動作モードがある。基本的にはPC画面のスクリーンショットを定期的に取得し、マルチモーダル能力で画面内容を理解した上で操作を実行する「実行→確認→修正」のループで動作する。
あらゆるアプリケーションで動作できる汎用性がメリットだ。実際のユースケースとして、50以上のWebサイトからの価格比較、30,000件以上のフォーム入力、CRMデータからの売上レポート更新などが報告されている。一方で、UIの微妙な変更や通知ポップアップで認識がずれるリスクがあり、Redditではこの点が議論の的になっている。
Claude Computer Useとの違い
最大の技術的違いは統合方式だ。GPT 5.4はComputer Useをモデル自体にネイティブに組み込んでおり、マルチステップのデスクトップ自動化で「よりスムーズで信頼性が高い」と評価されている。一方、ClaudeはOS Worldでも72.7%と僅差であり、コーディング・開発タスクでの強みがある。現時点ではどちらもAPI/Enterprise向けで、一般ユーザーが気軽に使える段階にはまだ至っていない。
Redditの反応──「スクリーンショット方式はすぐ壊れる」
r/OpenAIで20upvoteを集めたスレッドでは、GPT 5.4のComputer Use機能について活発な議論が行われている。
「スクリーンショットベースのアプローチはすぐ壊れる。Accessibility APIを使うアプローチの方がはるかに信頼性が高い」
「競合と比較すると後発だが、ChatGPTのユーザーベースの大きさを考えれば、Computer Use機能の一般普及にはChatGPTからの提供が最も影響力がある」
技術者からは「スクリーンショットベースではなくAccessibility API(OS標準のアクセシビリティ機能)を使った方が安定する」という指摘が複数出ている。Accessibility APIはボタンやテキストフィールドの構造情報を直接取得できるため、画面のレイアウト変更に強い。ただし、アプリごとの対応状況にばらつきがある制約もある。
現時点の制限事項
- ピクセル精度の操作は不得意──デザインツールなど細かいカーソル制御が必要な作業は苦手
- CAPTCHA・多要素認証は人間介入が必要──セキュリティ認証は自動処理できない
- 一般ユーザーは未対応──ChatGPT Plus($20/月)ではComputer Use利用不可。API・Codex・Enterprise/Eduに限定
- セキュリティリスクが「高」分類──OpenAI自身がサイバーセキュリティ能力を「High Capability」と分類。画面内容がOpenAIに送信される
- 支払い・外部通信は人間承認が必要──決済、本番データ削除、外部メール送信などは自動実行されない設計
- コンテキスト過負荷で不安定に──情報を詰め込みすぎると信頼性が低下する
Aitly編集部の見解──「AIが画面を操作する」時代の始まり
Aitly編集部 コメント
2026年3月時点の分析
GPT 5.4のComputer Useは、AIが「回答する」から「実行する」への進化を象徴する機能だ。ChatGPTという世界最大のユーザーベースを持つプラットフォームでの提供は、Computer Use機能の一般普及を大きく加速させるだろう。
ただし、現時点では「デモとしては印象的だが、実務で安定して使えるか」は未知数だ。Redditでも指摘されている通り、スクリーンショットベースの認識はUIの些細な変更で壊れるリスクがある。まずは簡単な繰り返し作業から試し、徐々に複雑なタスクに広げていく使い方が現実的だ。Claude Computer Useとの使い分けも含め、今後の精度向上に注目したい。
よくある質問
ChatGPTのComputer Useは日本で使えますか?
無料版のChatGPTでも使えますか?
Computer Useで個人情報が流出するリスクはありますか?
まとめ
ChatGPT(GPT 5.4)のComputer Use機能は、AIが実際にPCを操作する時代の幕開けを告げる発表だ。スクリーンショットベースの画面認識で汎用性を確保しつつ、ChatGPTアプリからの直接利用で敷居を下げた。競合のClaude Computer Useと比較して後発ながら、ChatGPTの巨大なユーザーベースを活かした普及力が最大の強みとなるだろう。
現時点では精度や対応範囲に制約があるが、今後のアップデートで改善されていく見通しだ。AIツールの活用をさらに広げたいユーザーにとって、注目すべき新機能と言える。