ML summary 例题clustering-有问必答-品职教育专注CFA ESG FRM CPA 考研等财经培训课程

已采纳答案

我叫仙人涨 · 2020年01月06日

感谢老师深入浅出的讲解！正好借这个例子再问下我还有的疑惑（不是纠结细节，是因为，我还很乱混，多谢老师了），对于clustering的例子，那8个点是featurs的意思么？还是说k mean 是8 ？我们是提前告诉他们按照特定的8个点去分类，还是他们自己组团，然后我们再去看看组完团了，可能每个团自己的共性是什么？

添加评论

0
0

星星_品职助教 · 2020年01月07日

这道题没说具体用哪种clustering去做。但是可以按照你说的理解为K-mean的方法：事先设定超参数k=8，即最终会分成8类。具体怎么分就由算法去选择了，然后分完了后去看看这8类是根据什么共性分的。

我叫仙人涨 · 2020年01月07日

哦哦明白了！多谢！

我叫仙人涨 · 2020年01月06日

感谢老师深入浅出的讲解！正好借这个例子再问下我还有的疑惑（不是纠结细节，是因为，我还很乱混，多谢老师了），对于clustering的例子，那8个点是featurs的意思么？还是说k mean 是8 ？我们是提前告诉他们按照特定的8个点去分类，还是他们自己组团，然后我们再去看看组完团了，可能每个团自己的共性是什么？

添加评论

0
0

星星_品职助教 · 2020年01月06日

这个题目确实是有点晦涩。先总体说一下。有个基金经理觉得投资的fund里个股的权重和大盘是一样的，（一般情况下，投的和大盘一样就说明已经做了分散化了）。但是他还是怀疑分散化的程度不够，可能会有偏差或者集中度太高的情况（risk bias and concentration）。然后就想用三种方式来检验一下到底是不是真的分散化效果不好，题目问的就是这三种方式中，哪种检验的方式适合用机器学习去做。

通过三个suggestion的描述，可以看出第一个和第三个都是用简单的回归模型就可以搞定了。只有第二个适合用机器学习里的clustering方法。

------

suggestion 2描述的就是可以把投资的股票重新再做一次分类。重分类的标准是依据8个相似点，如果这8个点都差不多的股票就属于一类。

以上描述的就是clustering的方法，算法自行寻找股票之间的内部相似点（找出来8个），然后按照这8个点将股票重新做了分类。例如之前股票是按照行业划分的（例如中石油和中石化被在一类），但是现在不同行业的股票也可能会根据杠杆率相似，收入相似，利润相似等8个指标被分在一起（这种更细致的分类后，中石油可能就和万科在一类了）。

被重新分类后的股票在不同的类别之间就没什么联系了，所以做分散化的效果会更好。这个时候用重分类后的结果去和重分类之前做的分散化效果去比较，就可以知道之前做的分散化效果到底好不好了。也就可以判断之前的分散化到底有没有risk bias和concentration。