情報検索の基本的な考え方

検索対象となる文書集合(document collection)に対して、検索質問(query)が短期的で動的なアドホック検索(ad-hoc retrieval)と長期的で静的なユーザ・プロファイルを用いる情報フィルタリング(information filtering)がある。複数のユーザ・プロファイルを用いる場合には情報ルーティング(information routing)と呼ぶ。
アドホック検索には、完全一致の全文検索(full-text retrieval)と類似一致の内容型検索(content-based retrieval)がある。
内容型検索には、ベクトル空間モデルvector space model)、確率モデル(probabilistic model)、ネットワークモデル(network model)の3つがある。
また全文検索には、検索要求の度に文字列照合を行う逐次検索(sequential search)と事前に準備された索引に対して検索する索引検索(index search)がある。索引検索は大規模な文書に向いている。
逐次検索には、KMP(Knuth-Morris-Pratt)法、BM(Boyer-Moore)法、AC(Acho-Corasick)法がある。AC法は複数のキーワードに対する検索法である。
また索引検索には、特徴ベクトル法(signature file)、転置ファイル法(inverted file indexing)、パトリシア・トライ法(patricia trie)がある。特徴ベクトル法では、索引検索で文書を絞り込んだ後、絞り込まれた文書に対して逐次検索を行うため、逐次検索と索引検索のハイブリッドとも言える。
すなわち世の中の大手検索エンジンは、アドホック検索→全文検索→索引検索で凌ぎを削っている訳です。
参考文献

情報検索アルゴリズム

情報検索アルゴリズム