老师,有一道关于N-grams的题,正选是N-grams属于预处理。请问如果真的有题目问N-grams属于那个步骤,应该选哪个?基础班讲义说没有严格的界限
星星_品职助教 · 2021年02月15日
同学你好,
N-grams的目的是保留词组的顺序。
首次提到在原版书中是在Text Wrangling (Preprocessing),即文本数据的预处理中。引入N-gams的目的是解决Bag-of-words (BOW)损失了词序的问题。
此外在Unstructured Data: Text Exploration这个步骤中的“feature engineering”里同样也用到了N-grams来保留词序。
所以如果要问到N-grams属于哪个步骤。选项只会出现以上两者之一,根据题干描述相应选择即可。
对于N-grams的考法更大的可能是他可以解决什么问题,和BOW的关系是什么样子的。