情報検索とは

そもそも情報検索ってなんだろうか。

最初は人間がキーワードをつかって膨大な文書から目的の文書を探すことだった。

その対象は文書だけでなく、イメージ、地図、音声などと色々広がってきてる。

そして対象だけでなく、そのインタラクションも反映され、検索した履歴から、検索結果に変更を加えることなんか、今やもう当たり前になった。

でもねえ、出会いや驚きは減った気がするんだよね。

以下ただの勉強ノート。

情報の蓄積と利用

現実世界の情報を、解釈、抽象化、形式化することで、コンピュータの操作対象とできる。

形式化の程度によって、2種類ある。

  • エキスパートシステム
    • 知識工学システム
    • 長所は、ユーザの問題を解いてくれること。
    • 短所は、知識ベースの構築が高価。
  • 情報検索的アプローチ
    • 情報を解釈せず、そのままのかたちで蓄積する。
    • ただし、ある程度の処理は必要(キーワードなど)
    • 長所は、蓄積が容易なこと。
    • 短所は、問題を直接解くことはできないこと。

ユーザが情報を利用する際の状態を、情報要求(infomation need)という概念で定義する。

情報検索システムとは、上に挙げたような、広い意味での情報要求を満足させることをさす。しかし、多くの場合、ユーザの検索質問(query)に対して適切と思われる文書の集合を提示することを情報検索と呼んでいる。

情報要求(infomation need)

ユーザがある目的を達成するために現在持っている知識では不十分であると感じている状態。

Taylorの段階分類

  • Q1直感的要求(visceral need)
    • 現状に満足していないが、言語化して説明できない状態。
  • Q2意識された要求(conscious need)
    • 頭の中では問題を意識できるが、曖昧な表現やまとまりのない表現でしか言語化できない状態。
  • Q3形式化された要求(formalized need)
    • 問題を具体的な言語表現できる状態。
  • Q4調整済みの要求(compromised need)
    • 問題を解決するために必要な情報の情報源が同定できるくらい問題が具体化された状態。

情報検索へのアプローチ

情報学(information science)アプローチ

データと情報の違い

  • データ
    • 事象や現象を客観的に記述した静的なもの
  • 情報
    • 利用者によって意味が変化するもの

つまり、情報とは、個人の知識構造を変化させるものである。

個人の知識構造は人によってことなるので、情報も人によって異なる意味を持つ。これを示すBrookesの基礎方程式。

[tex]K[S]+\Delta I = K [S+\Delta S][/tex]

  • 情報([tex]\Delta I[/tex])は知識構造([tex]K[S][/tex])を変化させる([tex]\Delta S[/tex]は変化分)
  • 情報と知識は同じ次元を持つ
  • 情報自身も構造を持つ

(Brookes,1980)

工学的アプローチ

個々の人間の認知的側面はあまり考えられていない。人間の認知過程を工学的に定式化するのが困難であるため。

ユーザが自分の問題をQ4のレベルまで具体化していることを前提として設計している。

より上位の段階の問題をどう扱うかは、ユーザ・インタラクションの観点から研究が行われている。

まとめ

  • 情報検索(information retrieval)(広義)
    • ユーザの持つ問題(情報要求)を解決できる情報を見つけ出すこと
  • 情報検索(information retrieval)(狭義)
    • ユーザの検索質問(query)に適合する文書(document)を文書集合(document collection)のなかから見つけ出すこと。

情報検索システムの評価基準

ユーザ満足度

  • 効率性(efficiency)
    • 時間や経済的許容
  • 有効性(effectiveness)
    • 完全性、正確性
    • 再現率精度で計測する

計測の問題点

  • その情報が、ユーザに関係がなくても、新たな関心を喚起する場合の要不要
  • 再現率はユーザがシステム内のすべての情報を吟味して判断しなければならないため計測不可能
  • そもそも検索質問に文書が適合するとはどういうことかも定義が難しい

今日の検索システムでは、再現率と精度の評価では適合性が先天的に与えられていることを前提としているが、これには大きな問題がある。

教科書↓

[amtap amazon:asin=4130654055]