Browser Use CLIとは？Playwrightとの違い・使い方を解説【2026年最新】

Browser Use CLIは、AIエージェントが自然言語の指示でWebブラウザを操作するコマンドラインツールだ。内部でPlaywrightを使いながら、CSSセレクタやXPathを一切書かずにブラウザ操作を自動化できる。GitHubスターは81,000超、Y Combinator W25バッチに採択された注目プロジェクトだ。

Aitly編集部｜2026年3月21日

公式サイト

Browser Use — browser-use.com

公式ドキュメント・CLI・クラウドサービス

公式サイトへ ↗

この記事でわかること

Browser Use CLIの仕組みとPlaywrightとの関係
PlaywrightとBrowser Useの決定的な違いと使い分け
インストール手順と基本的な操作方法
対応LLMモデルと料金体系

Browser Use CLIとは｜AIがブラウザを自動操作するCLIツール
Browser Use CLIとPlaywrightの違い
Browser Use CLIのインストール手順
Browser Use CLIの基本的な使い方
Browser Use CLIの料金と対応LLM
よくある質問

Browser Use CLIとは｜AIがブラウザを自動操作するCLIツール

Playwrightの上にAIエージェントを載せた構造

Browser Use CLIは、Pythonライブラリ「Browser Use」のコマンドライン版だ。内部ではMicrosoftのPlaywrightをブラウザ制御エンジンとして使っているが、ユーザーがPlaywrightのAPIを直接触る必要はない。「このページで一番安い商品をカートに入れて」のような自然言語の指示を、AIエージェントが解釈してブラウザ操作に変換する。

技術的に見ると、Browser Useは3層構造になっている。最下層にPlaywright（ブラウザ制御）、中間にBrowser Use本体（AIエージェントロジック）、最上層にCLI（ユーザーインターフェース）がある。PlaywrightのCSSセレクタ指定やXPath指定といった低レベルの操作を、LLMが肩代わりする設計だ。

Browser Useの3層アーキテクチャ

CLI / Python API（ユーザーが触るレイヤー）

↓

Browser Use 本体（AIエージェント + LLM連携）

↓

Playwright（ブラウザ制御エンジン）

GitHub 81,000スター超・YC W25採択の注目プロジェクト

Browser UseはGitHub上で81,500以上のスターを獲得しており、Playwrightの約70,000スターを上回る規模のコミュニティを持つ。2024年10月にオープンソースとして公開され、Y Combinator Winter 2025バッチに採択。Hacker NewsのLaunch HN投稿では259ポイント・100コメントを記録した。

最新バージョンはv0.12.3（2026年3月20日リリース）で、MITライセンスのもとで開発が続いている。CLIはデーモンアーキテクチャを採用しており、初回コマンド実行時にバックグラウンドプロセスが起動し、以降は約50ミリ秒の低レイテンシでコマンドを処理する。

81,500+

GitHub Stars

9,600+

Forks

120+

リリース数

MIT

ライセンス

Browser Use CLIとPlaywrightの違い

指示方法が根本的に違う｜セレクタ指定 vs 自然言語

Playwrightでは「page.click('#submit-button')」のようにCSSセレクタやXPathで操作対象を指定する。HTMLの構造を理解し、セレクタが一意に特定できるかを開発者が確認する必要がある。サイトのデザインが変われば、セレクタも書き直さなければならない。

Browser Use CLIでは「browser-use state」でページ上のクリック可能な要素が番号付きリストで表示され、「browser-use click 5」のようにインデックス番号で操作する。Python API側では自然言語でタスクを記述すれば、AIがページの構造を解析して自動的に操作手順を組み立てる。

Playwright の場合

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://example.com")
    page.click("#search-input")
    page.fill("#search-input", "AI tools")
    page.click("#search-button")

Browser Use の場合

from browser_use import Agent, ChatBrowserUse

agent = Agent(
    task="example.comでAI toolsを検索して",
    llm=ChatBrowserUse(),
)
await agent.run()

Playwrightは「部品」、Browser Useは「完成品」

Playwrightはブラウザ自動化の「エンジン」であり、何をどの順番で操作するかはすべて開発者がコードで記述する。E2Eテストやスクレイピングのような、手順が決まっている定型作業に強い。実行結果は決定的（同じ入力なら同じ結果）で、LLMへの課金も発生しない。

Browser Useは「AIエージェント＋ブラウザ」の完成品だ。「〇〇を検索して結果をまとめて」のような曖昧な指示でも、AIが画面を見てクリックやスクロールを自律的に判断する。ページの構造が変わっても動作する可能性が高い反面、LLMの推論コストが発生し、結果が毎回同じとは限らない。

比較項目	Playwright	Browser Use CLI
操作指示	CSSセレクタ / XPath	自然言語 / インデックス番号
LLM	不要	必須（GPT / Claude / Gemini等）
実行コスト	無料	LLMのAPI利用料が発生
再現性	決定的（同じ結果）	非決定的（LLM依存）
UI変更への耐性	弱い（セレクタが壊れる）	強い（AIが画面を解釈）
対応言語	Python / JS / Java / .NET	Python（CLIはどこからでも）
得意な用途	E2Eテスト / 定型スクレイピング	非定型タスク / リサーチ / フォーム入力
GitHubスター	約70,000	約81,500

どちらを選ぶべきか｜用途別の判断基準

Playwrightを選ぶべきケースは、テスト自動化やCI/CDパイプラインに組み込むスクレイピングなど、同じ手順を何千回も繰り返す場面だ。結果の再現性が求められ、LLMコストを避けたい場合にはPlaywright一択となる。

Browser Use CLIを選ぶべきケースは、毎回異なるWebサイトを巡回するリサーチ、構造が頻繁に変わるサイトへの対応、あるいはHTMLの知識がないユーザーがブラウザ作業を自動化したい場面だ。「セレクタを書きたくない」「AIに丸投げしたい」というニーズにはBrowser Useが応える。

Playwright向き

E2Eテストの自動化
定型的なWebスクレイピング
CI/CDパイプラインへの組み込み
コスト重視の大量実行

Browser Use CLI向き

非定型のWebリサーチ
フォーム入力・申請作業の自動化
構造が変わりやすいサイトの操作
プログラミング不要で自動化したい

Browser Use CLIのインストール手順

必要な環境（Python 3.11以上）

Browser Use CLIの動作にはPython 3.11以上が必要だ（公式ではPython 3.12を推奨）。macOS・Linux・Windowsのいずれでも動作する。Windowsの場合はGit for Windowsのインストールも必要になる。

ワンラインインストールとdoctorで動作確認

macOS / Linuxでは以下のワンラインコマンドでインストールできる。

macOS / Linux

curl -fsSL https://browser-use.com/cli/install.sh | bash

パッケージマネージャ（uv）を使った手動インストールも可能だ。

手動インストール

pip install uv
uv venv --python 3.12
source .venv/bin/activate
uv pip install browser-use
browser-use install

インストール後はbrowser-use doctorコマンドで環境が正しく設定されているか確認できる。Chromiumのダウンロードが自動で行われ、Playwrightの知識がなくてもセットアップが完了する。

動作確認

browser-use doctor    # 環境チェック
browser-use setup     # 初期セットアップ（任意）

Browser Use CLIの基本的な使い方

ページを開いて要素を操作する基本フロー

Browser Use CLIの基本は「open → state → click/input」の3ステップだ。まずURLを開き、ページ上の操作可能な要素をリスト表示し、インデックス番号を指定して操作する。

基本フロー

# 1. ページを開く
browser-use open https://example.com

# 2. 操作可能な要素を番号付きで表示
browser-use state

# 3. 要素を操作する
browser-use click 5              # 5番目の要素をクリック
browser-use input 3 "検索ワード"   # 3番目の入力欄にテキスト入力

# 4. スクリーンショットを保存
browser-use screenshot result.png

ブラウザウィンドウを表示して操作を目視確認したい場合は--headedオプションを付ける。JavaScriptの実行もbrowser-use eval "document.title"で可能だ。

セッション管理で状態を保持する

Browser Use CLIはデーモンアーキテクチャを採用しているため、コマンド間でブラウザの状態が保持される。さらに--sessionオプションで名前付きセッションを作れば、複数のブラウザを同時に並行操作できる。

セッション管理

# 名前付きセッションでブラウザを開く
browser-use --session work open https://slack.com
browser-use --session personal open https://gmail.com

# セッション一覧を確認
browser-use sessions

# 特定のセッションで操作
browser-use --session work state

# 全セッションを終了
browser-use close --all

既存Chromeのログイン情報をそのまま使う

Browser Use CLIの便利な機能の一つが、普段使っているChromeブラウザのプロファイルをそのまま利用できる点だ。--profileオプションを使えば、ログイン済みのCookieやセッション情報を引き継いで操作できる。

Chromeプロファイルを使う

# 既存のChromeプロファイルでGmailを開く（ログイン不要）
browser-use --profile "Default" open https://gmail.com

# 実行中のChromeに自動接続
browser-use --connect open https://example.com

これにより、認証が必要なWebアプリの操作自動化が格段に楽になる。Playwrightでも同様のことは可能だが、ストレージステートの保存・復元をコードで記述する必要があり、Browser Use CLIの方が手軽だ。

Browser Use CLIの料金と対応LLM

ChatBrowserUseが最速・最安だが有料

Browser Useが推奨するデフォルトモデルはChatBrowserUseだ。ブラウザ自動化に特化してファインチューニングされており、他のモデルと比べてタスク完了速度が3〜5倍速いと公式は主張している。新規ユーザーには5タスク分の無料枠がある。

ChatBrowserUse 料金	100万トークンあたり
入力トークン	$0.20
キャッシュ入力	$0.02
出力トークン	$2.00

GPT・Claude・Gemini・ローカルLLMにも対応

ChatBrowserUse以外にも、主要なLLMプロバイダーのモデルを自由に接続できる。OpenAI互換APIに対応するモデルであれば基本的に動作する。ローカルLLM（Ollama等）を使えばAPI料金をゼロに抑えることも可能だが、ブラウザ操作の精度はモデルの能力に依存する点に注意が必要だ。

クラウドLLM

OpenAI（o3推奨）・Anthropic Claude・Google Gemini・Azure OpenAI・AWS Bedrock・DeepSeek

ローカルLLM

Ollama（Llama 3.1等）・Qwen（qwen-vl-max推奨）・ModelScope

ルーター・ゲートウェイ

OpenRouter・Vercel AI Gateway・Groq・Novita

よくある質問

Browser Use CLIは無料で使えますか？

Browser Use CLI自体はMITライセンスのオープンソースで、インストールと基本操作は無料だ。ただし、AIエージェント機能を使うにはLLMのAPIキーが必要で、推奨のChatBrowserUseには利用料が発生する。Ollamaなどのローカルモデルを使えばAPI費用を抑えられるが、操作精度は落ちる可能性がある。初回は5タスク分の無料枠が用意されている。

Playwrightの知識は必要ですか？

不要だ。Browser Use CLIはPlaywrightを内部で利用しているが、ユーザーがPlaywrightのAPIやセレクタの書き方を知っている必要はない。CLIコマンドかPythonのAgent APIで操作すれば、Playwrightの部分はBrowser Useが自動で処理する。逆に、Playwrightの知識がある開発者であれば、Browser UseのBrowserクラスをカスタマイズしてより細かい制御を行うことも可能だ。

本番環境で使えますか？

Browser Use Cloudを使えば本番環境への導入も可能だ。クラウド版ではアンチフィンガープリンティング、自動CAPTCHAソルバー、レジデンシャルプロキシなどの機能が用意されている。ただしRedditでは「本番で使っている人はいるのか？」という懐疑的な声もあり、ミッションクリティカルな用途にはまだ慎重な評価が必要だ。安定性を重視するなら、手順が確定している部分はPlaywrightで書き、非定型の部分だけBrowser Useに任せるハイブリッド構成も検討すべきだろう。

Browser Use CLIを試してみる

AI×ブラウザ自動化の世界を体験しよう。Python 3.11以上があればすぐに始められる。

公式ドキュメントを見る ↗