Browser Use CLIは、AIエージェントが自然言語の指示でWebブラウザを操作するコマンドラインツールだ。内部でPlaywrightを使いながら、CSSセレクタやXPathを一切書かずにブラウザ操作を自動化できる。GitHubスターは81,000超、Y Combinator W25バッチに採択された注目プロジェクトだ。
Aitly編集部|2026年3月21日
公式サイト
Browser Use — browser-use.com
公式ドキュメント・CLI・クラウドサービス
この記事でわかること
- Browser Use CLIの仕組みとPlaywrightとの関係
- PlaywrightとBrowser Useの決定的な違いと使い分け
- インストール手順と基本的な操作方法
- 対応LLMモデルと料金体系
目次
Browser Use CLIとは|AIがブラウザを自動操作するCLIツール
Playwrightの上にAIエージェントを載せた構造
Browser Use CLIは、Pythonライブラリ「Browser Use」のコマンドライン版だ。内部ではMicrosoftのPlaywrightをブラウザ制御エンジンとして使っているが、ユーザーがPlaywrightのAPIを直接触る必要はない。「このページで一番安い商品をカートに入れて」のような自然言語の指示を、AIエージェントが解釈してブラウザ操作に変換する。
技術的に見ると、Browser Useは3層構造になっている。最下層にPlaywright(ブラウザ制御)、中間にBrowser Use本体(AIエージェントロジック)、最上層にCLI(ユーザーインターフェース)がある。PlaywrightのCSSセレクタ指定やXPath指定といった低レベルの操作を、LLMが肩代わりする設計だ。
Browser Useの3層アーキテクチャ
GitHub 81,000スター超・YC W25採択の注目プロジェクト
Browser UseはGitHub上で81,500以上のスターを獲得しており、Playwrightの約70,000スターを上回る規模のコミュニティを持つ。2024年10月にオープンソースとして公開され、Y Combinator Winter 2025バッチに採択。Hacker NewsのLaunch HN投稿では259ポイント・100コメントを記録した。
最新バージョンはv0.12.3(2026年3月20日リリース)で、MITライセンスのもとで開発が続いている。CLIはデーモンアーキテクチャを採用しており、初回コマンド実行時にバックグラウンドプロセスが起動し、以降は約50ミリ秒の低レイテンシでコマンドを処理する。
81,500+
GitHub Stars
9,600+
Forks
120+
リリース数
MIT
ライセンス
Browser Use CLIとPlaywrightの違い
指示方法が根本的に違う|セレクタ指定 vs 自然言語
Playwrightでは「page.click('#submit-button')」のようにCSSセレクタやXPathで操作対象を指定する。HTMLの構造を理解し、セレクタが一意に特定できるかを開発者が確認する必要がある。サイトのデザインが変われば、セレクタも書き直さなければならない。
Browser Use CLIでは「browser-use state」でページ上のクリック可能な要素が番号付きリストで表示され、「browser-use click 5」のようにインデックス番号で操作する。Python API側では自然言語でタスクを記述すれば、AIがページの構造を解析して自動的に操作手順を組み立てる。
Playwrightは「部品」、Browser Useは「完成品」
Playwrightはブラウザ自動化の「エンジン」であり、何をどの順番で操作するかはすべて開発者がコードで記述する。E2Eテストやスクレイピングのような、手順が決まっている定型作業に強い。実行結果は決定的(同じ入力なら同じ結果)で、LLMへの課金も発生しない。
Browser Useは「AIエージェント+ブラウザ」の完成品だ。「〇〇を検索して結果をまとめて」のような曖昧な指示でも、AIが画面を見てクリックやスクロールを自律的に判断する。ページの構造が変わっても動作する可能性が高い反面、LLMの推論コストが発生し、結果が毎回同じとは限らない。
| 比較項目 | Playwright | Browser Use CLI |
|---|---|---|
| 操作指示 | CSSセレクタ / XPath | 自然言語 / インデックス番号 |
| LLM | 不要 | 必須(GPT / Claude / Gemini等) |
| 実行コスト | 無料 | LLMのAPI利用料が発生 |
| 再現性 | 決定的(同じ結果) | 非決定的(LLM依存) |
| UI変更への耐性 | 弱い(セレクタが壊れる) | 強い(AIが画面を解釈) |
| 対応言語 | Python / JS / Java / .NET | Python(CLIはどこからでも) |
| 得意な用途 | E2Eテスト / 定型スクレイピング | 非定型タスク / リサーチ / フォーム入力 |
| GitHubスター | 約70,000 | 約81,500 |
どちらを選ぶべきか|用途別の判断基準
Playwrightを選ぶべきケースは、テスト自動化やCI/CDパイプラインに組み込むスクレイピングなど、同じ手順を何千回も繰り返す場面だ。結果の再現性が求められ、LLMコストを避けたい場合にはPlaywright一択となる。
Browser Use CLIを選ぶべきケースは、毎回異なるWebサイトを巡回するリサーチ、構造が頻繁に変わるサイトへの対応、あるいはHTMLの知識がないユーザーがブラウザ作業を自動化したい場面だ。「セレクタを書きたくない」「AIに丸投げしたい」というニーズにはBrowser Useが応える。
Playwright向き
- E2Eテストの自動化
- 定型的なWebスクレイピング
- CI/CDパイプラインへの組み込み
- コスト重視の大量実行
Browser Use CLI向き
- 非定型のWebリサーチ
- フォーム入力・申請作業の自動化
- 構造が変わりやすいサイトの操作
- プログラミング不要で自動化したい
Browser Use CLIのインストール手順
必要な環境(Python 3.11以上)
Browser Use CLIの動作にはPython 3.11以上が必要だ(公式ではPython 3.12を推奨)。macOS・Linux・Windowsのいずれでも動作する。Windowsの場合はGit for Windowsのインストールも必要になる。
ワンラインインストールとdoctorで動作確認
macOS / Linuxでは以下のワンラインコマンドでインストールできる。
macOS / Linux
curl -fsSL https://browser-use.com/cli/install.sh | bash
パッケージマネージャ(uv)を使った手動インストールも可能だ。
手動インストール
pip install uv
uv venv --python 3.12
source .venv/bin/activate
uv pip install browser-use
browser-use install
インストール後はbrowser-use doctorコマンドで環境が正しく設定されているか確認できる。Chromiumのダウンロードが自動で行われ、Playwrightの知識がなくてもセットアップが完了する。
動作確認
browser-use doctor # 環境チェック
browser-use setup # 初期セットアップ(任意)
Browser Use CLIの基本的な使い方
ページを開いて要素を操作する基本フロー
Browser Use CLIの基本は「open → state → click/input」の3ステップだ。まずURLを開き、ページ上の操作可能な要素をリスト表示し、インデックス番号を指定して操作する。
基本フロー
# 1. ページを開く
browser-use open https://example.com
# 2. 操作可能な要素を番号付きで表示
browser-use state
# 3. 要素を操作する
browser-use click 5 # 5番目の要素をクリック
browser-use input 3 "検索ワード" # 3番目の入力欄にテキスト入力
# 4. スクリーンショットを保存
browser-use screenshot result.png
ブラウザウィンドウを表示して操作を目視確認したい場合は--headedオプションを付ける。JavaScriptの実行もbrowser-use eval "document.title"で可能だ。
セッション管理で状態を保持する
Browser Use CLIはデーモンアーキテクチャを採用しているため、コマンド間でブラウザの状態が保持される。さらに--sessionオプションで名前付きセッションを作れば、複数のブラウザを同時に並行操作できる。
セッション管理
# 名前付きセッションでブラウザを開く
browser-use --session work open https://slack.com
browser-use --session personal open https://gmail.com
# セッション一覧を確認
browser-use sessions
# 特定のセッションで操作
browser-use --session work state
# 全セッションを終了
browser-use close --all
既存Chromeのログイン情報をそのまま使う
Browser Use CLIの便利な機能の一つが、普段使っているChromeブラウザのプロファイルをそのまま利用できる点だ。--profileオプションを使えば、ログイン済みのCookieやセッション情報を引き継いで操作できる。
Chromeプロファイルを使う
# 既存のChromeプロファイルでGmailを開く(ログイン不要)
browser-use --profile "Default" open https://gmail.com
# 実行中のChromeに自動接続
browser-use --connect open https://example.com
これにより、認証が必要なWebアプリの操作自動化が格段に楽になる。Playwrightでも同様のことは可能だが、ストレージステートの保存・復元をコードで記述する必要があり、Browser Use CLIの方が手軽だ。
Browser Use CLIの料金と対応LLM
ChatBrowserUseが最速・最安だが有料
Browser Useが推奨するデフォルトモデルはChatBrowserUseだ。ブラウザ自動化に特化してファインチューニングされており、他のモデルと比べてタスク完了速度が3〜5倍速いと公式は主張している。新規ユーザーには5タスク分の無料枠がある。
| ChatBrowserUse 料金 | 100万トークンあたり |
|---|---|
| 入力トークン | $0.20 |
| キャッシュ入力 | $0.02 |
| 出力トークン | $2.00 |
GPT・Claude・Gemini・ローカルLLMにも対応
ChatBrowserUse以外にも、主要なLLMプロバイダーのモデルを自由に接続できる。OpenAI互換APIに対応するモデルであれば基本的に動作する。ローカルLLM(Ollama等)を使えばAPI料金をゼロに抑えることも可能だが、ブラウザ操作の精度はモデルの能力に依存する点に注意が必要だ。
クラウドLLM
OpenAI(o3推奨)・Anthropic Claude・Google Gemini・Azure OpenAI・AWS Bedrock・DeepSeek
ローカルLLM
Ollama(Llama 3.1等)・Qwen(qwen-vl-max推奨)・ModelScope
ルーター・ゲートウェイ
OpenRouter・Vercel AI Gateway・Groq・Novita