开发者:上海品职教育科技有限公司隐私政策详情

应用版本:4.2.11(IOS)｜3.2.5(安卓)APP下载

学习体验
App下载
手机上的品职教育

随时随地学习课程，支持音视频下载！
- 扫码下载品职教育APP
进入课程
登录 | 注册

HG · 2020年07月07日

stem和lemma的问题

老师这个地方我一直不太清楚，stem和lemma都是降低了数据的稀少性，但是这不是增加了数据的重复性吗？为啥是reduce the repetition？比如analysis和analyzing识别的时候是两个不同的词，但是作为analyze是一样的，所以被识别成两个analyze，这就降低了analyze这个词的稀少性，但是analyze出现了两次这不是增加了数据的重复性。

添加评论

0
0

2 个答案

星星_品职助教 · 2020年07月07日

@ HG

一篇文章重复出现了9个analyz，说明这个analyz很重要。这是解决稀缺性的问题

但这9个analyz处理的时候并不是显示9次，而是只显示1次，这是解决重复性的问题。

以上两个问题需要分开理解。

添加评论

0
0

星星_品职助教 · 2020年07月07日

同学你好，

可以这样理解，一篇文章中会出现例如2个analyze，3个analyzed，4个analyzing，如果不处理的话，是9个单词（token）

但如果处理的话，这9个单词就会变成1个词“analyz”。

从你举的例子来看，analyze和analyzing处理后会被识别成一个analyz（而不是两个相同的analyz）

添加评论

0
0

2
回答
0
关注
299
浏览

我要回答关注问题

相关问题