杨KitKit · 2019年12月15日
星星_品职助教 · 2019年12月16日
同学你好,
labeled data是Supervised learning的特征,指的是需要把数据集里的数据指定为哪些是input数据(也就是X数据),和哪些是要得到的结果数据,也就是output数据或者是Y数据。
以最简单的回归分析为例,可以指定收入数据就是X变量,消费是Y变量,从而研究收入与消费之间的关系。这里面收入的数据就被打上了input或者X的标签。消费数据就被打上了output或者Y的标签。
非监督式学习不需要指定X和Y,例如聚类算法,是将相似的变量聚在一起,可以看出来这里面并没有Y变量的存在,也就不需要打标签,所以“target variable”或者Y变量也是区分监督和非监督式学习的关键词。
回到这道题的C选项上,这里的feature set指的是用哪几个特征去定义什么是“相似”(similarity)。例如想看几家公司是否相似,其实可以从多个特征点来衡量,例如利润是否相似,财务杠杆是否相似,总收入是否相似,人数是否相似等等。所以在做聚类之前,需要先选择要通过这些特征中的哪几个来定义两家公司是否“相似”。这些特征往往不会都选,因为都选会导致模型很复杂,还可能会产生过度拟合的问题。
假设最终选出了这些特征中建模人员认为最有代表性的三个特征,其余的类似董事长生日是否相似等被认为不重要的特征就不选了。选出了三个这特征后,就可以算出最终的“距离”(distance),距离更近的公司之间更相似。
所以通过以上例子可以看出,feature set在聚类算法里的作用是算最终的距离,而不是被打上input还是output的标签。加油~