开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

HG · 2020年07月07日

stem和lemma的问题

老师这个地方我一直不太清楚,stem和lemma都是降低了数据的稀少性,但是这不是增加了数据的重复性吗?为啥是reduce the repetition?比如analysis和analyzing识别的时候是两个不同的词,但是作为analyze是一样的,所以被识别成两个analyze,这就降低了analyze这个词的稀少性,但是analyze出现了两次这不是增加了数据的重复性。

2 个答案

星星_品职助教 · 2020年07月07日

@ HG

一篇文章重复出现了9个analyz,说明这个analyz很重要。这是解决稀缺性的问题

但这9个analyz处理的时候并不是显示9次,而是只显示1次,这是解决重复性的问题。

以上两个问题需要分开理解。

星星_品职助教 · 2020年07月07日

同学你好,

可以这样理解,一篇文章中会出现例如2个analyze,3个analyzed,4个analyzing,如果不处理的话,是9个单词(token)

但如果处理的话,这9个单词就会变成1个词“analyz”。

从你举的例子来看,analyze和analyzing处理后会被识别成一个analyz(而不是两个相同的analyz)

  • 2

    回答
  • 0

    关注
  • 297

    浏览
相关问题