1. TF-IDF
- TF
- TF是词频(TF,Term Frequency): 词频(TF)表示词条(关键字)在文本中出现的频率。
- IDF
- IDF是逆向文件频率 (IDF,Inverse Document Frequency): 某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。
- TF-IDF
- TF-IDF实际上是 $TF * IDF$ 。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
2. TextRank
- 基于词语词之间的共现性构建无向图。
参考jieba源码分析之关键字提取(TF-IDF/TextRank)