Reddit話題 海外の話題

Cursor「Composer 2」リリース──Opus 4.6の1/5のコストでフロンティア級を主張、Redditは懐疑的

BREAKING

Cursor「Composer 2」リリース──Opus 4.6の1/5コストでフロンティア級を主張

出典:Cursor公式ブログ|r/cursor(118↑・68コメント)

AIコードエディタCursorが、自社開発のAIコーディングモデル「Composer 2」を発表しました。Opus 4.6の1/5のコストでフロンティア級の性能を達成したと主張していますが、自社ベンチマークによる自己評価にRedditでは懐疑の声が上がっています。価格・性能の詳細と海外コミュニティの反応をまとめます。

Cursor「Composer 2」リリース──「Opus 4.6の1/5のコストでフロンティア級」と主張

Cursorは自社初の継続事前学習(continued pretraining)によって構築した「Composer 2」を、フロンティア級のコーディング性能を持つモデルと位置づけています。同社独自の「CursorBench」ベンチマークでは、Anthropicの最新モデルOpus 4.6を上回るスコアを記録したと発表しました。

特筆すべきはそのコスト構造です。標準バリアントで入力$0.50/M・出力$2.50/Mと、Opus 4.6の約1/5の価格設定。Cursorはこの「同等以上の性能を圧倒的低コストで」という打ち出し方で、AIコーディングツール市場のコスト競争をさらに加速させようとしています。

Composer 2のスペックと価格

Composer 2には「Standard」と「Fast」の2バリアントがあり、用途に応じた使い分けが想定されています。以下に主要スペックを整理します。

項目 Standard Fast
入力コスト $0.50/M tokens $1.50/M tokens
出力コスト $2.50/M tokens $7.50/M tokens
品質向上手法 継続事前学習(continued pretraining)
ベンチマーク CursorBench(自社開発)でOpus 4.6超えを主張

Standardバリアントは大量のコード生成に向いたコスト重視型、Fastバリアントはリアルタイム補完やインタラクティブな開発体験向けの速度重視型と見られます。いずれもOpus 4.6と比較して大幅なコスト優位を打ち出しており、API経由で利用する開発者にとっては無視できない価格差です。

Redditの反応|「自社ベンチで自己採点?」と懐疑の声

r/cursorでは118アップボートを集めたスレッドで活発な議論が展開されています。全体のトーンは「性能への期待」と「自社ベンチマークへの不信感」が拮抗する形です。

113 ↑ r/cursor

「CursorBench?自分たちで作ったベンチマークで自分たちにOpus 4.6より高いスコアを付けた?笑」

21 ↑ r/cursor

「Opus 4.6 Highよりコスト1/5で優れているなんて、本当ならゲームチェンジャーだが、自社ベンチ以外の結果は?利益相反を疑う気持ちわかるよね」

19 ↑ r/cursor

「ベンチマークが2時間以上もつといいけど」

10 ↑ r/cursor

「ゼロショットでComposer 2はOpusの1/10のコストでより優秀。間違ってたら嬉しいけど!」

10 ↑ r/cursor

「初期の印象はOpus 4.6と同等で10倍速い」

6 ↑ r/cursor

「このコスパは異常」

最もアップボートを集めたコメント(113↑)が自社ベンチマークへの皮肉だったことは象徴的です。一方で、実際に試したユーザーからは「Opus 4.6と同等で10倍速い」「コスパが異常」といったポジティブな声も出ており、評価は二分されています。

AIコーディングツール競争の現在地

Composer 2の登場は、AIコーディングツール市場が「汎用LLMの利用」から「コーディング特化モデルの自社開発」フェーズに移行しつつあることを示しています。Cursorは従来AnthropicやOpenAIのモデルをバックエンドとして利用していましたが、今回初めて継続事前学習による独自モデルを投入しました。

同様の動きはGitHub Copilot(OpenAI連携)やWindsurf(旧Codeium)でも見られ、各社がコーディング特化の独自モデルを持つ方向に進んでいます。ただし、自社ベンチマークで自社モデルを最上位に置く発表手法は業界で繰り返されるパターンであり、第三者による独立評価が出るまでは慎重に見る必要があります。

Aitly編集部の見解

Composer 2の性能主張が本物かどうかは、SWE-benchやHumanEvalなど第三者ベンチマークの結果を待つ必要があります。「CursorBenchでOpus 4.6超え」という自社評価だけでは、客観的な判断材料として不十分です。Redditで最も支持されたコメントが「自分で自分を採点している」という指摘だったことは、開発者コミュニティの健全な懐疑心を反映しています。

一方、価格面のインパクトは無視できません。仮に性能がOpus 4.6の8割程度だったとしても、1/5のコストで使えるなら多くの開発現場で十分な選択肢になり得ます。AIコーディングツールの選定では「最高性能か」よりも「コスト対効果が自分のワークフローに合うか」が判断基準になる時代に入りつつあります。今後の第三者評価とユーザーレビューの蓄積を注視していきます。

よくある質問

Composer 2はCursorの有料プランに含まれますか?
現時点でCursor公式ブログではAPI価格のみ公開されており、Pro/Businessプランへの組み込み方法については明言されていません。従来のモデル同様、サブスクリプション内での利用枠が設定される可能性が高いですが、詳細は公式の追加発表を待つ必要があります。
CursorBenchとは何ですか?
CursorBenchはCursor社が独自に開発したコーディング能力ベンチマークです。実際のコーディングタスクに基づく評価とされていますが、テスト内容や評価基準の詳細は完全には公開されておらず、自社モデルの評価に自社ベンチマークを使用している点について中立性を疑問視する声があります。
Opus 4.6とComposer 2はどちらを使うべきですか?
第三者ベンチマークの結果が出るまでは断定できません。現時点では、コスト重視ならComposer 2を試す価値があり、信頼性・汎用性重視ならOpus 4.6を継続利用するのが堅実な判断です。両方を使い分けるワークフローも検討に値します。

Aitly編集部

  • この記事を書いた人

Aitly編集部

AIツール比較メディア「Aitly」の編集部。ChatGPT・Claude・Geminiをはじめ、主要AIツールを実際に使い込んだうえで比較検証しています。スペック表だけではわからない「実際どうなの?」を、独自テストと料金分析でお届けします。

-Reddit話題, 海外の話題
-, , , ,