TF-IDF全称:term frequency–inverse document frequency。翻译为:词频-逆文档频率。是一种常用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
TF term frequency
什么是词频(term frequency),词频是指在一个文档中(document)一个词语出现的频率。举个例子。
《鹧鸪天》--辛弃疾
有客慨然谈功名,因追念少年时事,戏作。
壮岁旌旗拥万夫,锦襜突骑渡江初。燕兵夜娖银胡䩮,汉箭朝飞金仆姑。
追往事,叹今吾,春风不染白髭须。却将万字平戎策,换得东家种树书。
比如对以上文章进行分词,最终可以得到100个词语。但是平戎策和种树书两个词分别出现了一次,所以他们的词频(term frequency)都是 0.01=1/100
IDF inverse document frequency
什么是逆文档频率(inverse document frequency),逆文档频率是指在多个文档(document set 通常是一类文档的集合)出现的频率。
继续使用上面引用辛弃疾的词做例子,他一生作词无数,假如总共作词1000篇(document set),但是种树书这个词语仅仅在一篇词(document)出现过,所以他的逆文档频率(inverse document frequency)是0.001=1/1000
最后
TF-IDF算法就是一个乘法了,TF-IDF = TF * IDF
TF-IDF有什么用
- 关键词提取
- 文档相似度对比
- 文档摘要生成
- 搜索引擎技术
其他
TF 和 IDF的具体实现算法有很多,应用也很广泛,由于个人数学不好,就不瞎写了,有感兴趣的,可以深入研究其他数学方法。