「AIって、本当に信じていいのだろうか?」
そんな疑問を抱いたことがある人は、きっと少なくないはずです。
ニュースでは毎日のようにAIの進化が取り上げられているけれど、その「知性」の源が何なのか、私たちは意外と知りません。
実は、AIは「読むこと」で賢くなります。
ネット上の膨大な情報を学び、そこから世界を理解しようとしています。
しかし、その教材が SNS の書き込みや偏ったサイトばかりだとしたら…?
それは、砂漠で水を求める旅人に、濁った水しか与えないようなものかもしれません。
そんな中、ある日「澄みきった水源」のような存在が、静かに公開されました。
それが、ハーバード大学による「Institutional Books 1.0」です。
100 万冊、240 億の言葉が目覚めた日
Institutional Books 1.0 は、ハーバード図書館が Google Books プロジェクトで 2006 年から収集・デジタル化してきた書籍の中から、著作権が切れた 98万 3004 冊(91.37%)を厳選し、整理して公開したものです。
その総テキスト量は、なんと 242 億トークン(単語相当) にも及びます。
この数字は単なるボリュームではありません。
それは、かつて教室で、裁判所で、寺院で、劇場で、人々が語り、考え、残した”生きた言葉”なのです。
「図書館の深海」から引き上げられた知の化石
このプロジェクトが特別なのは、単なるデータ公開では終わらなかったことです。
彼らは一冊一冊に向き合い、誤字だらけの OCR テキストを丁寧に磨き直し、構造を整え、重複を削り、言語やジャンルの分類まで機械学習で仕上げました。
その結果、この膨大な書籍群は、まるで深海に眠っていた知の化石が美しくクリーニングされ、今まさに博物館で光を放っているような状態になっています。
多様性という、AIの未開拓フロンティア
公開された本は 250 以上の言語にわたり、英語だけでなく、ドイツ語、フランス語、ラテン語、ロシア語、ヘブライ語などが豊富に含まれています。
特に注目すべきは、低リソース言語のまとまった資料が含まれている点です。
また、内容も多岐にわたり、文学、法学、哲学、医学、農学、芸術、科学など、Library of Congress の20分類で 93% 以上を高精度に分類済みです。
これは、専門モデルの訓練にも応用が期待できる、極めて貴重な資源です。
「AI開発」だけでなく「人類の記憶再生」へ
このプロジェクトの真価は、AI研究者だけにとどまりません。
たとえば、デジタル人文学の研究者が古典書をテキスト分析したり、教育者が歴史的資料を教材化したり、詩人が失われた詩集を掘り起こしたり──。
つまりこれは、AIの燃料であると同時に、人類の記憶を現代に呼び戻すタイムマシンでもあるのです。
「信じられるAI」の第一歩は、信じられるデータから
Institutional Books が投げかけている問いは、静かで、しかし深く胸に響きます。
もしAIが未来を形づくる存在なら、私たちは、どんな過去をその心に刻んであげたいでしょうか?
その答えは、歴史ある図書館の棚の中に、きっともうあるのです。
最後に:このデータ、あなたならどう使う?
あなたが研究者であれ、教育者であれ、ただの「本好きな人」であれ── このコレクションは、自由に触れることができます。
登録すれば非営利目的で利用可能です。
今、240 億の言葉が、あなたの手のひらにあります。
その声に、耳を澄ませてみませんか?
コメント