電子フロンティア財団(EFF)が2026年3月、衝撃的な警告を発した。ニュースパブリッシャーがAIスクレイピング対策としてInternet Archiveをブロックしているが、それはAIを止められない一方で、ウェブの歴史的記録を永遠に消去するという。この問題はLemmyで527↑の反響を呼んだ。
EFF「Internet Archiveをブロックしても、AIスクレイピングは止まらない」
EFFの主張は明快だ。AIトレーニングに本当に使われているのはGoogleやOpenAIなどの商業クローラーであり、非営利の図書館であるInternet Archiveをブロックしても、AIへのデータ流入はほとんど変わらない。しかし失われるものは計り知れない。
Internet Archiveには現在1兆ページを超えるウェブページがアーカイブされている。Wikipediaだけでも249言語にわたって260万件以上のニュース記事のリンク先としてInternet Archiveを参照している。これらが将来アクセス不能になれば、研究者・ジャーナリスト・裁判所が依拠してきた「ウェブの記憶」が丸ごと消えることになる。
何が起きているのか|AIスクレイピングへの過剰反応
発端は大手ニュースパブリッシャーの相次ぐブロックだ。ニーマンラボの調査によると、9カ国241のニュースサイトがInternet Archiveの4種類のクローラーbot(archive.org_bot など)を robots.txt で明示的に拒否している。主な例を挙げると以下の通りだ。
| パブリッシャー | 対応内容 |
|---|---|
| New York Times | archive.org_bot を robots.txt に追加。ハードブロック実施 |
| The Guardian | Archive API・Wayback Machine URLからの記事ページを除外 |
| 2025年8月にInternet Archiveのアクセスをブロック | |
| Le Monde系列 | 3種類のクローラーを拒否(データセット中で最も厳格) |
| Gannett / USA Today | 傘下87%のサイトがブロック。CEOは「月7500万botをブロック」と発言 |
NYTは理由をこう説明している。「Wayback Machineは、AI企業を含む誰もが無制限にTimeのコンテンツにアクセスできる状態を、無断で提供している」。つまり、Internet Archiveが「AIへの抜け穴」になっているという認識だ。
Internet Archiveブロックの「巻き添え被害」
EFFが問題視するのは、この判断がもたらす構造的な損害だ。Internet Archiveは商業的なAI企業ではなく、非営利の図書館として機能している。アーカイブされたページは「元の記事がどう書かれていたか」を記録するほぼ唯一の手段であり、記事の改ざん・削除・書き換えを後から検証できる証拠として機能してきた。
裁判所もこの価値を認識している。Googleのブック検索を巡る判決では、コンテンツを検索・発見可能にすることは「変形的使用(transformative use)」として著作権法上のフェアユースに該当すると確立された。EFFはInternet Archiveの活動が同様の保護を受けるべきだと主張する。
Wayback Machineディレクター Mark Graham の反論:
「私たちはウェブ上の他のサービスと同様に、悪用を防ぐために多大な時間とリソースを投じている。Internet ArchiveをAIスクレイピングの温床と見なすのは事実に反する。」
Internet Archive創設者のBrewster Kahleも「パブリッシャーが図書館へのアクセスを制限すれば、市民が歴史的記録にアクセスできなくなる」と警告する。EFFが強調するのは、パブリッシャーの懸念はAI企業に向けるべきであり、図書館に向けるべきではないという点だ。
Lemmyコミュニティの反応(527↑)
このEFF記事はLemmyで527↑の支持を集め、分散型SNSのテック系コミュニティで大きな話題となった。Redditのr/technologyでも同様の反応が見られ、最もスコアされたコメントはこう要約される。
"Punishing the Internet Archive for AI scraping is like burning down the library because someone photocopied a book."
(AIスクレイピングのせいでInternet Archiveを罰するのは、誰かが本をコピーしたからといって図書館を焼き払うようなものだ)
コミュニティの反応に共通するのは、パブリッシャーの真の動機への疑念だ。「AI対策」を口実に、過去記事の検証・アーカイブそのものを封じたいのではないかという見方が多く見受けられた。Hacker Newsでも同記事が取り上げられ、「メディアが自分たちの歴史を隠す手段として使われている」というコメントが注目を集めた。
Aitly編集部の見解
AIをめぐる著作権問題は複雑だが、Internet Archiveのブロックは明らかに標的を誤っている。GPT-4やGeminiのトレーニングに使われているのは商業クローラーであり、Wayback Machineのarchive.org_botではない。NYTやGannettが守りたいのは著作権よりも、「過去の報道が検索・検証されること」への警戒感ではないかという疑念は拭えない。
ウェブは本質的に揮発性の高いメディアだ。リンク切れ、記事削除、ドメイン失効——Internet Archiveがなければ、2000年代初頭のニュースの大半はすでに存在しない。AIへの正当な懸念は、AI企業に直接向けるべきだ。その矛先を非営利図書館に向けることは、将来世代のための情報インフラを自ら破壊する行為に等しい。
参考リンク
- EFF: Blocking the Internet Archive Won't Stop AI, But It Will Erase the Web's Historical Record ↗
- Nieman Lab: News publishers limit Internet Archive access due to AI scraping concerns ↗
- Internet Archive Blog: Wayback Machine Director Pushes Back on AI Scraping Fears ↗
- Hacker News discussion ↗
Aitly編集部 / 2026年3月18日