tf-idf(tf-idf重み)とは、tf重みとidf重みの積で与えられる。情報検索で最も有名で良く利用される重み付けの方法である。
tf-idfの値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加します。
式は以下の通り。(t=ターム、d=ドキュメント)ここでも、対数の底は重要でないので、なんでも良い。
tf-idfを重みとして利用した場合の、ある文書のスコアは、以下のようになる。(q=クエリ、d=ドキュメント)
こうして求めた文書スコアを利用し、ベクトル空間モデルで、文書同士や文書とクエリの類似度を計算し、検索を行う。