开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

ZF Everyday · 2022年10月05日

DTM

* 问题详情,请 查看题干

NO.PZ201512020300000609

问题如下:

The output created in Steele’s Step 3 can be best described as a:

选项:

A.

bag-of-words.

B.

set of n-grams.

C.

document term matrix.

解释:

A is correct. After the cleansed text is normalized, a bag-of-words is created. A bag-of-words (BOW) is a collection of a distinct set of tokens from all the texts in a sample dataset.

题目中说and create a distinct set of tokens from....这个是什么意思呢?我还以为是跟DTM有关

1 个答案

星星_品职助教 · 2022年10月09日

同学你好,

这句话是BOW定义的一部分。“A bag-of-words (BOW,词袋模型) is a collection of a distinct set of tokens from all the texts in a sample dataset”。

可以理解为从文本中的词汇里抽出来几个单独的词(token)组在一起,即“装袋”。