大数据这一章，为什么讲义上说stemming和lemmatization降低了词的重复？

如果都弄成同一个次干或者单词原型，这明明增加了单词的重复啊？

添加评论

1 个答案

星星_品职助教 · 2020年06月01日

同学你好，

这两种方法降低的是单词/token的数量，同样的词干/词形作为同一个token来处理。

Stemming会去掉复数，过去式，进行时等，只保留词根，例如，“analyzed”和“analyzing”在处理前会显示为两个token，但做了stemming处理后，这两个单词会变成一个token：“analyz”，这就减少了token出现的次数。简而言之就是多个单词都弄成同一个词干后，就变成了一个单词。

Lemmatization与stemming类似，但这种方法还原后的词形仍是一个完整的单词。如“analyzed”和“analyzing”的词形还原都为“analyze”，同样是两个单词变成了一个单词

添加评论

Dinny · 2020年06月03日

谢谢！

1
回答
0
关注
364
浏览

我要回答关注问题

大数据这一章，为什么讲义上说stemming和lemmatization降低了词的重复？

1 个答案

1

0

364

相关问题