开发者:上海品职教育科技有限公司 隐私政策详情
应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载
随时随地学习课程,支持音视频下载!
廖廖酱 · 2021年06月19日
老师你好,TF这里指的是TF(sentence level)=wordcount in sentence/total words in sentence,这个算法如果这个句子中经常出现the这样没有意义的词算出来的TF不是也特别高么?那为什么文中会说对于understanding the importance of the specific token 有帮助?
星星_品职助教 · 2021年06月21日
同学你好,
the,a这种没有意义的词会通过其他的方式方法排除掉。
有时候在数据清洗的时候就直接清掉了。
也有可能对于TF做一定的限制,如果TF特别高,那反而说明这个单词就是有问题的。TF奇高无比就意味着几乎每个句子都有这个词,侧面反应了这就是a,the,an这种没有特定含义的词。所以TF超出特定范围的词反而认为是废词。