算法 TF-IDF

默认分类 · 2021-12-10

TF-IDF全称:term frequency–inverse document frequency。翻译为:词频-逆文档频率。是一种常用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

TF term frequency

什么是词频(term frequency),词频是指在一个文档中(document)一个词语出现的频率。举个例子。

《鹧鸪天》--辛弃疾

有客慨然谈功名,因追念少年时事,戏作。

壮岁旌旗拥万夫,锦襜突骑渡江初。燕兵夜娖银胡䩮,汉箭朝飞金仆姑。

追往事,叹今吾,春风不染白髭须。却将万字平戎策,换得东家种树书。

比如对以上文章进行分词,最终可以得到100个词语。但是平戎策种树书两个词分别出现了一次,所以他们的词频(term frequency)都是 0.01=1/100

IDF inverse document frequency

什么是逆文档频率(inverse document frequency),逆文档频率是指在多个文档(document set 通常是一类文档的集合)出现的频率。

继续使用上面引用辛弃疾的词做例子,他一生作词无数,假如总共作词1000篇(document set),但是种树书这个词语仅仅在一篇词(document)出现过,所以他的逆文档频率(inverse document frequency)是0.001=1/1000

最后

TF-IDF算法就是一个乘法了,TF-IDF = TF * IDF

TF-IDF有什么用

  1. 关键词提取
  2. 文档相似度对比
  3. 文档摘要生成
  4. 搜索引擎技术

其他

TF 和 IDF的具体实现算法有很多,应用也很广泛,由于个人数学不好,就不瞎写了,有感兴趣的,可以深入研究其他数学方法。

算法
Theme Jasmine by Kent Liao