子どものころ、百科事典を夢中でめくったことはありませんか?
厚い本を開くたびに、世界のどこかで起きた出来事や知らなかった事実に出会い「わたし、いますごいことを知ったぞ!」とワクワクした—そんな記憶。
今の時代、あの百科事典はインターネットの中にあります。
そう、Wikipedia(ウィキペディア)です。
でも、驚くべきことに、AI(人工知能)には、その Wikipedia がまだうまく”読めていない”のです。
「え? AIって人間より頭がいいんじゃないの?」
そんな疑問が浮かんだあなたに、今回はAIの”読解力”を支える新しいプロジェクトについて、やさしく、でもちょっとだけ未来を感じるお話をお届けします。
実はAIにとって、Wikipedia は”迷路”だった?
Wikipedia は、人間にとっては便利で読みやすい情報の宝庫。
でもAIにとっては、実はデータの検索方法が限られていたことが大きな壁になっていました。
これまでの Wikipedia のデータベース(Wikidata)は、キーワード検索か、SPARQL という専門的なクエリ言語でしかアクセスできませんでした。
たとえるなら、私たちが読む Wikipedia は「きれいに整理された図書館」ですが、AIにとっては「索引カードでしか探せない、巨大な書庫」だったのです。
- 約1億 2000 万件ものデータエントリー
- 複雑な言語間の関係性
- 専門的な検索言語を必要とする仕組み
こういった”技術的な壁”を、AIが乗り越えるには、もう一歩の工夫が必要だったのです。
Wikidata Embedding Project:AIが理解できる形に知識を変換する新たな試み
そこで立ち上がったのが、Wikidata Embedding Project(ウィキデータ・エンベディング・プロジェクト)。
これは、Wikimedia Deutschland(ドイツのウィキメディア協会)と、ニューラルサーチ企業の Jina.AI、そして IBM 傘下のリアルタイム学習データ企業 DataStax が手を組んで進めている取り組みです。
2025 年10月1日に正式発表されました。
このプロジェクトの核心は、ベクトルベースのセマンティック検索という技術。
これは、
単語の意味や、単語同士の関係性をコンピューターが理解できる形に変換する技術
です。
さらに、Model Context Protocol(MCP)という新しい標準規格にも対応。
これにより、大規模言語モデル(LLM)が自然な言葉で Wikipedia のデータを検索し、情報を取り出せるようになりました。
イメージとしては、これまで「図書館の索引カード」でしか探せなかった情報を「司書さんに普通に話しかける」ように検索できるようになった、というイメージです。
なぜ今、これが必要なのか?
ChatGPT など、高性能なAIが次々に登場する中で「そのAIはどんな情報で学んでいるのか」がますます注目されるようになりました。
データが偏っていたり、情報の出どころが不透明だったりすると、AIの出す答えもまた偏ったものになってしまいます。
実際、2025 年8月には、Anthropic 社が著作権のある書籍を無断で学習データに使用したとして、15億ドル(約 2250 億円)の和解金を支払う事態も起きました。
一方で Wikipedia は、
- 世界中の人が編集に参加している
- 内容の信頼性が比較的高く、編集履歴も透明
- Common Crawl(ウェブ全体を無差別に収集したデータ)よりもはるかに事実志向
という特長を持っており、AIが学ぶのにふさわしい”良質な知識の泉”とも言えます。
特に高い精度が求められる用途では、信頼できるデータの必要性が急務となっており、今回のプロジェクトはまさにそのニーズに応えるものなのです。
AIは、より”人らしく”世界を語れるようになる?
このプロジェクトが進むことで、AIは RAG(Retrieval-Augmented Generation:検索拡張生成)システムを通じて、Wikipedia の編集者たちによって検証された知識を基盤にできるようになります。
たとえば「scientist(科学者)」という単語を検索すると、
- 著名な核物理学者のリスト
- ベル研究所で働いた科学者たち
- 「scientist」という単語の多言語翻訳
- 科学者が働いている画像
- 「researcher(研究者)」「scholar(学者)」といった関連概念
といった、意味のつながりを持った豊かな情報が返ってくるのです。
まるで、昔の百科事典に載っていた”解説のおじさん”が、AIの中に住みついてくれるようなイメージです。
知識は、誰かと分かち合って初めて「力」になる
私たちはいま「情報があふれているのに、正しいことが見えにくい」時代を生きています。
そんな中で、信頼できる情報を、すべての人が利用できるようにすることは、テクノロジーにできる最大の贈り物かもしれません。
プロジェクトマネージャーの Philippe Saadé 氏は、このように語っています。
「このエンベディング・プロジェクトの立ち上げは、強力なAIが一握りの企業にコントロールされる必要はないことを示しています。AIはオープンで、協力的で、すべての人に奉仕するために構築されることができるのです」
今回のプロジェクトは、単なるAIの機能向上ではなく「知識へのアクセスの民主化」への一歩です。
データベースは Toolforge 上で公開されており、誰でもアクセスできます。
また、開発者向けのウェビナーも 2025 年10月9日に予定されています。
まとめ|AIが”読み、考え、伝える”ための橋をかける
Wikipedia はすでに世界中の知識をつなぐ巨大な橋のような存在です。
でも、その橋をAIが安全に渡れるようにするには、技術的な土台を強化し、道筋を整理する必要がありました。
Wikidata Embedding Project は、まさにその道づくり。
この取り組みによって、AIはより正確に、より公平に、そしてより人間らしく世界を理解し、私たちに語りかけてくれるようになるでしょう。
そしてその先には「知識は、誰のものでもある」という、本当に美しい未来が待っているのかもしれません。
コメント