tf-idfについて

概要

tf-idf(tf-idf重み)とは、tf重みとidf重みの積で与えられる。情報検索で最も有名で良く利用される重み付けの方法である。

tf-idfの値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加します。

式は以下の通り。(t=ターム、d=ドキュメント)ここでも、対数の底は重要でないので、なんでも良い。

tf-idf=log(1+tf)*log(N/df)

tf-idfを重みとして利用した場合の、ある文書のスコアは、以下のようになる。(q=クエリ、d=ドキュメント)

こうして求めた文書スコアを利用し、ベクトル空間モデルで、文書同士や文書とクエリの類似度を計算し、検索を行う。

関連項目


キーワード一覧に戻る