AIツール使い方

Browser Use CLIとは?Playwrightとの違い・使い方を解説【2026年最新】

Browser Use CLIは、AIエージェントが自然言語の指示でWebブラウザを操作するコマンドラインツールだ。内部でPlaywrightを使いながら、CSSセレクタやXPathを一切書かずにブラウザ操作を自動化できる。GitHubスターは81,000超、Y Combinator W25バッチに採択された注目プロジェクトだ。

Aitly編集部|2026年3月21日

公式サイト

Browser Use — browser-use.com

公式ドキュメント・CLI・クラウドサービス

公式サイトへ ↗

この記事でわかること

  • Browser Use CLIの仕組みとPlaywrightとの関係
  • PlaywrightとBrowser Useの決定的な違いと使い分け
  • インストール手順と基本的な操作方法
  • 対応LLMモデルと料金体系

Browser Use CLIとは|AIがブラウザを自動操作するCLIツール

Playwrightの上にAIエージェントを載せた構造

Browser Use CLIは、Pythonライブラリ「Browser Use」のコマンドライン版だ。内部ではMicrosoftのPlaywrightをブラウザ制御エンジンとして使っているが、ユーザーがPlaywrightのAPIを直接触る必要はない。「このページで一番安い商品をカートに入れて」のような自然言語の指示を、AIエージェントが解釈してブラウザ操作に変換する。

技術的に見ると、Browser Useは3層構造になっている。最下層にPlaywright(ブラウザ制御)、中間にBrowser Use本体(AIエージェントロジック)、最上層にCLI(ユーザーインターフェース)がある。PlaywrightのCSSセレクタ指定やXPath指定といった低レベルの操作を、LLMが肩代わりする設計だ。

Browser Useの3層アーキテクチャ

CLI / Python API(ユーザーが触るレイヤー)
Browser Use 本体(AIエージェント + LLM連携)
Playwright(ブラウザ制御エンジン)

GitHub 81,000スター超・YC W25採択の注目プロジェクト

Browser UseはGitHub上で81,500以上のスターを獲得しており、Playwrightの約70,000スターを上回る規模のコミュニティを持つ。2024年10月にオープンソースとして公開され、Y Combinator Winter 2025バッチに採択。Hacker NewsのLaunch HN投稿では259ポイント・100コメントを記録した。

最新バージョンはv0.12.3(2026年3月20日リリース)で、MITライセンスのもとで開発が続いている。CLIはデーモンアーキテクチャを採用しており、初回コマンド実行時にバックグラウンドプロセスが起動し、以降は約50ミリ秒の低レイテンシでコマンドを処理する。

81,500+

GitHub Stars

9,600+

Forks

120+

リリース数

MIT

ライセンス

Browser Use CLIとPlaywrightの違い

指示方法が根本的に違う|セレクタ指定 vs 自然言語

Playwrightでは「page.click('#submit-button')」のようにCSSセレクタやXPathで操作対象を指定する。HTMLの構造を理解し、セレクタが一意に特定できるかを開発者が確認する必要がある。サイトのデザインが変われば、セレクタも書き直さなければならない。

Browser Use CLIでは「browser-use state」でページ上のクリック可能な要素が番号付きリストで表示され、「browser-use click 5」のようにインデックス番号で操作する。Python API側では自然言語でタスクを記述すれば、AIがページの構造を解析して自動的に操作手順を組み立てる。

Playwright の場合
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://example.com")
    page.click("#search-input")
    page.fill("#search-input", "AI tools")
    page.click("#search-button")
Browser Use の場合
from browser_use import Agent, ChatBrowserUse

agent = Agent(
    task="example.comでAI toolsを検索して",
    llm=ChatBrowserUse(),
)
await agent.run()

Playwrightは「部品」、Browser Useは「完成品」

Playwrightはブラウザ自動化の「エンジン」であり、何をどの順番で操作するかはすべて開発者がコードで記述する。E2Eテストやスクレイピングのような、手順が決まっている定型作業に強い。実行結果は決定的(同じ入力なら同じ結果)で、LLMへの課金も発生しない。

Browser Useは「AIエージェント+ブラウザ」の完成品だ。「〇〇を検索して結果をまとめて」のような曖昧な指示でも、AIが画面を見てクリックやスクロールを自律的に判断する。ページの構造が変わっても動作する可能性が高い反面、LLMの推論コストが発生し、結果が毎回同じとは限らない。

比較項目 Playwright Browser Use CLI
操作指示 CSSセレクタ / XPath 自然言語 / インデックス番号
LLM 不要 必須(GPT / Claude / Gemini等)
実行コスト 無料 LLMのAPI利用料が発生
再現性 決定的(同じ結果) 非決定的(LLM依存)
UI変更への耐性 弱い(セレクタが壊れる) 強い(AIが画面を解釈)
対応言語 Python / JS / Java / .NET Python(CLIはどこからでも)
得意な用途 E2Eテスト / 定型スクレイピング 非定型タスク / リサーチ / フォーム入力
GitHubスター 約70,000 約81,500

どちらを選ぶべきか|用途別の判断基準

Playwrightを選ぶべきケースは、テスト自動化やCI/CDパイプラインに組み込むスクレイピングなど、同じ手順を何千回も繰り返す場面だ。結果の再現性が求められ、LLMコストを避けたい場合にはPlaywright一択となる。

Browser Use CLIを選ぶべきケースは、毎回異なるWebサイトを巡回するリサーチ、構造が頻繁に変わるサイトへの対応、あるいはHTMLの知識がないユーザーがブラウザ作業を自動化したい場面だ。「セレクタを書きたくない」「AIに丸投げしたい」というニーズにはBrowser Useが応える。

Playwright向き

  • E2Eテストの自動化
  • 定型的なWebスクレイピング
  • CI/CDパイプラインへの組み込み
  • コスト重視の大量実行

Browser Use CLI向き

  • 非定型のWebリサーチ
  • フォーム入力・申請作業の自動化
  • 構造が変わりやすいサイトの操作
  • プログラミング不要で自動化したい

Browser Use CLIのインストール手順

必要な環境(Python 3.11以上)

Browser Use CLIの動作にはPython 3.11以上が必要だ(公式ではPython 3.12を推奨)。macOS・Linux・Windowsのいずれでも動作する。Windowsの場合はGit for Windowsのインストールも必要になる。

ワンラインインストールとdoctorで動作確認

macOS / Linuxでは以下のワンラインコマンドでインストールできる。

macOS / Linux

curl -fsSL https://browser-use.com/cli/install.sh | bash

パッケージマネージャ(uv)を使った手動インストールも可能だ。

手動インストール

pip install uv
uv venv --python 3.12
source .venv/bin/activate
uv pip install browser-use
browser-use install

インストール後はbrowser-use doctorコマンドで環境が正しく設定されているか確認できる。Chromiumのダウンロードが自動で行われ、Playwrightの知識がなくてもセットアップが完了する。

動作確認

browser-use doctor    # 環境チェック
browser-use setup     # 初期セットアップ(任意)

Browser Use CLIの基本的な使い方

ページを開いて要素を操作する基本フロー

Browser Use CLIの基本は「open → state → click/input」の3ステップだ。まずURLを開き、ページ上の操作可能な要素をリスト表示し、インデックス番号を指定して操作する。

基本フロー

# 1. ページを開く
browser-use open https://example.com

# 2. 操作可能な要素を番号付きで表示
browser-use state

# 3. 要素を操作する
browser-use click 5              # 5番目の要素をクリック
browser-use input 3 "検索ワード"   # 3番目の入力欄にテキスト入力

# 4. スクリーンショットを保存
browser-use screenshot result.png

ブラウザウィンドウを表示して操作を目視確認したい場合は--headedオプションを付ける。JavaScriptの実行もbrowser-use eval "document.title"で可能だ。

セッション管理で状態を保持する

Browser Use CLIはデーモンアーキテクチャを採用しているため、コマンド間でブラウザの状態が保持される。さらに--sessionオプションで名前付きセッションを作れば、複数のブラウザを同時に並行操作できる。

セッション管理

# 名前付きセッションでブラウザを開く
browser-use --session work open https://slack.com
browser-use --session personal open https://gmail.com

# セッション一覧を確認
browser-use sessions

# 特定のセッションで操作
browser-use --session work state

# 全セッションを終了
browser-use close --all

既存Chromeのログイン情報をそのまま使う

Browser Use CLIの便利な機能の一つが、普段使っているChromeブラウザのプロファイルをそのまま利用できる点だ。--profileオプションを使えば、ログイン済みのCookieやセッション情報を引き継いで操作できる。

Chromeプロファイルを使う

# 既存のChromeプロファイルでGmailを開く(ログイン不要)
browser-use --profile "Default" open https://gmail.com

# 実行中のChromeに自動接続
browser-use --connect open https://example.com

これにより、認証が必要なWebアプリの操作自動化が格段に楽になる。Playwrightでも同様のことは可能だが、ストレージステートの保存・復元をコードで記述する必要があり、Browser Use CLIの方が手軽だ。

Browser Use CLIの料金と対応LLM

ChatBrowserUseが最速・最安だが有料

Browser Useが推奨するデフォルトモデルはChatBrowserUseだ。ブラウザ自動化に特化してファインチューニングされており、他のモデルと比べてタスク完了速度が3〜5倍速いと公式は主張している。新規ユーザーには5タスク分の無料枠がある。

ChatBrowserUse 料金 100万トークンあたり
入力トークン $0.20
キャッシュ入力 $0.02
出力トークン $2.00

GPT・Claude・Gemini・ローカルLLMにも対応

ChatBrowserUse以外にも、主要なLLMプロバイダーのモデルを自由に接続できる。OpenAI互換APIに対応するモデルであれば基本的に動作する。ローカルLLM(Ollama等)を使えばAPI料金をゼロに抑えることも可能だが、ブラウザ操作の精度はモデルの能力に依存する点に注意が必要だ。

クラウドLLM

OpenAI(o3推奨)・Anthropic Claude・Google Gemini・Azure OpenAI・AWS Bedrock・DeepSeek

ローカルLLM

Ollama(Llama 3.1等)・Qwen(qwen-vl-max推奨)・ModelScope

ルーター・ゲートウェイ

OpenRouter・Vercel AI Gateway・Groq・Novita

よくある質問

Browser Use CLIは無料で使えますか?
Browser Use CLI自体はMITライセンスのオープンソースで、インストールと基本操作は無料だ。ただし、AIエージェント機能を使うにはLLMのAPIキーが必要で、推奨のChatBrowserUseには利用料が発生する。Ollamaなどのローカルモデルを使えばAPI費用を抑えられるが、操作精度は落ちる可能性がある。初回は5タスク分の無料枠が用意されている。
Playwrightの知識は必要ですか?
不要だ。Browser Use CLIはPlaywrightを内部で利用しているが、ユーザーがPlaywrightのAPIやセレクタの書き方を知っている必要はない。CLIコマンドかPythonのAgent APIで操作すれば、Playwrightの部分はBrowser Useが自動で処理する。逆に、Playwrightの知識がある開発者であれば、Browser UseのBrowserクラスをカスタマイズしてより細かい制御を行うことも可能だ。
本番環境で使えますか?
Browser Use Cloudを使えば本番環境への導入も可能だ。クラウド版ではアンチフィンガープリンティング、自動CAPTCHAソルバー、レジデンシャルプロキシなどの機能が用意されている。ただしRedditでは「本番で使っている人はいるのか?」という懐疑的な声もあり、ミッションクリティカルな用途にはまだ慎重な評価が必要だ。安定性を重視するなら、手順が確定している部分はPlaywrightで書き、非定型の部分だけBrowser Useに任せるハイブリッド構成も検討すべきだろう。

Browser Use CLIを試してみる

AI×ブラウザ自動化の世界を体験しよう。Python 3.11以上があればすぐに始められる。

公式ドキュメントを見る ↗
  • この記事を書いた人

Aitly編集部

AIツール比較メディア「Aitly」の編集部。ChatGPT・Claude・Geminiをはじめ、主要AIツールを実際に使い込んだうえで比較検証しています。スペック表だけではわからない「実際どうなの?」を、独自テストと料金分析でお届けします。

-AIツール使い方
-, , , ,