AIコードエディタCursorが、自社開発のAIコーディングモデル「Composer 2」を発表しました。Opus 4.6の1/5のコストでフロンティア級の性能を達成したと主張していますが、自社ベンチマークによる自己評価にRedditでは懐疑の声が上がっています。価格・性能の詳細と海外コミュニティの反応をまとめます。
Cursor「Composer 2」リリース──「Opus 4.6の1/5のコストでフロンティア級」と主張
Cursorは自社初の継続事前学習(continued pretraining)によって構築した「Composer 2」を、フロンティア級のコーディング性能を持つモデルと位置づけています。同社独自の「CursorBench」ベンチマークでは、Anthropicの最新モデルOpus 4.6を上回るスコアを記録したと発表しました。
特筆すべきはそのコスト構造です。標準バリアントで入力$0.50/M・出力$2.50/Mと、Opus 4.6の約1/5の価格設定。Cursorはこの「同等以上の性能を圧倒的低コストで」という打ち出し方で、AIコーディングツール市場のコスト競争をさらに加速させようとしています。
Composer 2のスペックと価格
Composer 2には「Standard」と「Fast」の2バリアントがあり、用途に応じた使い分けが想定されています。以下に主要スペックを整理します。
| 項目 | Standard | Fast |
|---|---|---|
| 入力コスト | $0.50/M tokens | $1.50/M tokens |
| 出力コスト | $2.50/M tokens | $7.50/M tokens |
| 品質向上手法 | 継続事前学習(continued pretraining) | |
| ベンチマーク | CursorBench(自社開発)でOpus 4.6超えを主張 | |
Standardバリアントは大量のコード生成に向いたコスト重視型、Fastバリアントはリアルタイム補完やインタラクティブな開発体験向けの速度重視型と見られます。いずれもOpus 4.6と比較して大幅なコスト優位を打ち出しており、API経由で利用する開発者にとっては無視できない価格差です。
Redditの反応|「自社ベンチで自己採点?」と懐疑の声
r/cursorでは118アップボートを集めたスレッドで活発な議論が展開されています。全体のトーンは「性能への期待」と「自社ベンチマークへの不信感」が拮抗する形です。
「CursorBench?自分たちで作ったベンチマークで自分たちにOpus 4.6より高いスコアを付けた?笑」
「Opus 4.6 Highよりコスト1/5で優れているなんて、本当ならゲームチェンジャーだが、自社ベンチ以外の結果は?利益相反を疑う気持ちわかるよね」
「ベンチマークが2時間以上もつといいけど」
「ゼロショットでComposer 2はOpusの1/10のコストでより優秀。間違ってたら嬉しいけど!」
「初期の印象はOpus 4.6と同等で10倍速い」
「このコスパは異常」
最もアップボートを集めたコメント(113↑)が自社ベンチマークへの皮肉だったことは象徴的です。一方で、実際に試したユーザーからは「Opus 4.6と同等で10倍速い」「コスパが異常」といったポジティブな声も出ており、評価は二分されています。
AIコーディングツール競争の現在地
Composer 2の登場は、AIコーディングツール市場が「汎用LLMの利用」から「コーディング特化モデルの自社開発」フェーズに移行しつつあることを示しています。Cursorは従来AnthropicやOpenAIのモデルをバックエンドとして利用していましたが、今回初めて継続事前学習による独自モデルを投入しました。
同様の動きはGitHub Copilot(OpenAI連携)やWindsurf(旧Codeium)でも見られ、各社がコーディング特化の独自モデルを持つ方向に進んでいます。ただし、自社ベンチマークで自社モデルを最上位に置く発表手法は業界で繰り返されるパターンであり、第三者による独立評価が出るまでは慎重に見る必要があります。
Aitly編集部の見解
Composer 2の性能主張が本物かどうかは、SWE-benchやHumanEvalなど第三者ベンチマークの結果を待つ必要があります。「CursorBenchでOpus 4.6超え」という自社評価だけでは、客観的な判断材料として不十分です。Redditで最も支持されたコメントが「自分で自分を採点している」という指摘だったことは、開発者コミュニティの健全な懐疑心を反映しています。
一方、価格面のインパクトは無視できません。仮に性能がOpus 4.6の8割程度だったとしても、1/5のコストで使えるなら多くの開発現場で十分な選択肢になり得ます。AIコーディングツールの選定では「最高性能か」よりも「コスト対効果が自分のワークフローに合うか」が判断基準になる時代に入りつつあります。今後の第三者評価とユーザーレビューの蓄積を注視していきます。
よくある質問
Composer 2はCursorの有料プランに含まれますか?
CursorBenchとは何ですか?
Opus 4.6とComposer 2はどちらを使うべきですか?
Aitly編集部