老师看下这样理解是否正确~
前提:词 组成 句子 组成 文本 组成 总文本
TF in collective level 是词在文本中句子里出现的次数除以文本的总句子次数,越多代表对于区分这一句子没有帮助词。
TF in sentence level 是词在某句子中出现的次数除以该句子的总词数,越多代表这个词对于这个句子越重要。
DF是有某词的文本数除以总文本数,越多代表越不能把此文本与其他文本分开。IDF和DF成反向关系。
TF-IDF高说明,某词在文本中出现的少,但是出现时频次却很高,因此是一个可区分、独特的词。