算法 TF-IDF - 鸡毛报，生活技术

TF-IDF全称：term frequency–inverse document frequency。翻译为：词频-逆文档频率。是一种常用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF term frequency

什么是词频（term frequency），词频是指在一个文档中（document)一个词语出现的频率。举个例子。

《鹧鸪天》--辛弃疾
有客慨然谈功名，因追念少年时事，戏作。
壮岁旌旗拥万夫，锦襜突骑渡江初。燕兵夜娖银胡䩮，汉箭朝飞金仆姑。
追往事，叹今吾，春风不染白髭须。却将万字平戎策，换得东家种树书。

比如对以上文章进行分词，最终可以得到100个词语。但是平戎策和种树书两个词分别出现了一次，所以他们的词频（term frequency）都是 0.01=1/100

什么是逆文档频率（inverse document frequency），逆文档频率是指在多个文档（document set 通常是一类文档的集合）出现的频率。

继续使用上面引用辛弃疾的词做例子，他一生作词无数，假如总共作词1000篇(document set)，但是种树书这个词语仅仅在一篇词（document)出现过，所以他的逆文档频率（inverse document frequency）是0.001=1/1000

TF-IDF算法就是一个乘法了，TF-IDF = TF * IDF

TF 和 IDF的具体实现算法有很多，应用也很广泛，由于个人数学不好，就不瞎写了，有感兴趣的，可以深入研究其他数学方法。