祝出版!「検索エンジンはなぜ見つけるのか」
「検索エンジンはなぜ見つけるのか」という本が、2011/3/10に発売されます。一部大型書店では、すでに先行発売が始まっているようです。
この本は、Senna/groongaのリードデベロッパーであり、僕の上司(?)である森さんが、5年がかりで書き上げたものです。何度も構成から見直して、ようやく出版にこぎつけたようです。
「コンピュータはなぜ動くのか」というベストセラー本があります。その本に代表される日経BPのなぜシリーズは、10年後まで通用する基礎知識を身につけることを目的としているようです。この本でも、「ウェブページの検索」という観点で、陳腐化しづらい知識を得ることができます。しかも、数式や疑似コードと向き合うことなしに!
この本は4章構成となっています。
第1章「検索エンジンの目指すもの」では、この本における検索エンジンの定義が示されます。「検索エンジンとは、利用者の情報要求に対して、ウェブ上の情報資源の中から、最善の情報を見つけ出してくることを目標とするサービス」という定義です。情報要求とは何か、最善の情報とか何か、ということも第1章の中で示されます。
第2章「集める」では、いわゆる「クローラ」について解説されています。図書館の蔵書収集との比較とともに、クローラが技術的にどのような要件が求められているのか、が解説されています。
第3章「整理する」では、いわゆる「インデックス」について解説されています。数式や疑似コードなしに(!)Double Array TRIEや転置索引、Burrows-Wheeler変換(BWT)が解説されています。涙ぐましい努力の跡がよく伝わる章です。
第4章「検索する」では、最善の結果を返すための仕組みについて解説されています。TF-IDFやPageRankなどの解説もあります。
ぜひ手に取ってみてください。
追記
よりよい紹介をしているサイトをリンクします。