我叫仙人涨 · 2020年01月06日
我的问题是要用例子去理解广义问题 我我要自己判断这些cluster组团后的共性是什么,是按照曲风分类的,还是按照歌手分类的,我再给它label,机器也不会告诉你它是按照什么共性分类的。 机器分类决于一开始input的feature,clustering出来的一个cluster共性也不一样 结论:一开始没有labeling,数据自己组团,组完了,人类再去分析这个组的类别内的共性是什么,再贴一个label.
星星_品职助教 · 2020年01月06日
clustering不需要贴label。机器来自行寻找相似点去分类。然后最后出来的那个类别可以起个名字,但是这个不是label,就是个命名。label是规定哪个变量是X哪个是Y
我叫仙人涨 · 2020年01月06日
好滴,这个解释完美, 多谢!
星星_品职助教 · 2020年01月05日
同学你好,
这个细节问题也没必要深究,听歌识别这种细节不可能考的,最多做个背景。机器学习这章是一个算法简介,而不会考察算法的细节应用。
简单说一下你的问题,首先clustering是unsupervised learning,这个一定不会有label,这个是需要重点掌握的结论。要聚的类也不用提前设定,而是由算法自己去找相似点。
其次就是聚类的过程,重点是知道流程。例如层次聚类中的agglomerative clustering(自下而上的方法)就是从单个观察值(每首歌)出发。一开始认为每一首歌就是一类,此后根据算法自己找到的一些特征(例如重合的歌词,歌词中的近义词,曲调等)逐渐将相似的歌聚成小类,再聚成大群,直到聚成一个总的大的分类为止。
这只是聚类中的一种流程而已,区分歌曲还可能根据K-means聚类,也可能根据自上而下层次聚类等等。重点是每种方法的流程要知道,但具体载体是不重要的,考试的时候不会问具体一个歌曲或者一个期权是怎么被分类的细节。上课的时候老师讲这些例子也是为了辅助说明流程的。