TF-IDF及TextRank

1. TF-IDF

  • TF
    • TF是词频(TF,Term Frequency): 词频(TF)表示词条(关键字)在文本中出现的频率。
  • IDF
    • IDF是逆向文件频率 (IDF,Inverse Document Frequency): 某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。
  • TF-IDF
    • TF-IDF实际上是 $TF * IDF$ 。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

2. TextRank

Donate comment here