开发者:上海品职教育科技有限公司 隐私政策详情
应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载
随时随地学习课程,支持音视频下载!
HG · 2020年07月07日
老师这个地方我一直不太清楚,stem和lemma都是降低了数据的稀少性,但是这不是增加了数据的重复性吗?为啥是reduce the repetition?比如analysis和analyzing识别的时候是两个不同的词,但是作为analyze是一样的,所以被识别成两个analyze,这就降低了analyze这个词的稀少性,但是analyze出现了两次这不是增加了数据的重复性。
星星_品职助教 · 2020年07月07日
@ HG
一篇文章重复出现了9个analyz,说明这个analyz很重要。这是解决稀缺性的问题
但这9个analyz处理的时候并不是显示9次,而是只显示1次,这是解决重复性的问题。
以上两个问题需要分开理解。
同学你好,
可以这样理解,一篇文章中会出现例如2个analyze,3个analyzed,4个analyzing,如果不处理的话,是9个单词(token)
但如果处理的话,这9个单词就会变成1个词“analyz”。
从你举的例子来看,analyze和analyzing处理后会被识别成一个analyz(而不是两个相同的analyz)