idf(inverse document frequency)について

概要

idf(inverse document frequency)とは、これもそのままの意味。ある単語の文書頻度であるdf(document frequency)の逆数である。

ある単語が出現する文書の数であるdfの逆数ではあるが、実際は対数を取ることで、重み付けに利用されることが多い。

単語(ターム)tの情報性(informativeness)を測る尺度とも言うらしい。逆にdfは、情報性を測る逆の尺度らしい。

idf重み

idfは、基本的には単語(ターム)に対する重みとして利用される。

重みとして利用する場合は、以下の様に定義されるようです。

idf=log(N/df)

Nは全文書数。対数の底はなんでも良い。対数を取って、ほとんどの文書で出現する単語の影響を小さくするのが目的だと思われる。

つまり、全文書数Nが1,000,000件とか、大きな数の場合、単語tと単語uが出てくる文書数が5件と70件なら比較になるが、10,000件と10,800件等の場合、それはほとんど同じじゃないのかという事。

tf-idfとして利用される場合、idfの最小値が0のため、tfに依らず、tf-idfが0になる。そのため、上記の定義のidfに+1したものをtf-idfの計算に利用する場合がある。

関連項目


キーワード一覧に戻る