如果都弄成同一个次干或者单词原型,这明明增加了单词的重复啊?
星星_品职助教 · 2020年06月01日
同学你好,
这两种方法降低的是单词/token的数量,同样的词干/词形作为同一个token来处理。
Stemming会去掉复数,过去式,进行时等,只保留词根,例如,“analyzed”和“analyzing”在处理前会显示为两个token,但做了stemming处理后,这两个单词会变成一个token:“analyz”,这就减少了token出现的次数。简而言之就是多个单词都弄成同一个词干后,就变成了一个单词。
Lemmatization与stemming类似,但这种方法还原后的词形仍是一个完整的单词。如“analyzed”和“analyzing”的词形还原都为“analyze”,同样是两个单词变成了一个单词
Dinny · 2020年06月03日
谢谢!