我叫仙人涨 · 2020年01月06日
感谢老师深入浅出的讲解! 正好借这个例子再问下我还有的疑惑(不是纠结细节,是因为,我还很乱混,多谢老师了),对于clustering的例子,那8个点是featurs的意思么?还是说k mean 是8 ? 我们是提前告诉他们按照特定的8个点去分类,还是他们自己组团,然后我们再去看看组完团了,可能每个团自己的共性是什么?
星星_品职助教 · 2020年01月07日
这道题没说具体用哪种clustering去做。但是可以按照你说的理解为K-mean的方法:事先设定超参数k=8,即最终会分成8类。具体怎么分就由算法去选择了,然后分完了后去看看这8类是根据什么共性分的。
我叫仙人涨 · 2020年01月07日
哦哦明白了!多谢!
星星_品职助教 · 2020年01月06日
这个题目确实是有点晦涩。先总体说一下。有个基金经理觉得投资的fund里个股的权重和大盘是一样的,(一般情况下,投的和大盘一样就说明已经做了分散化了)。但是他还是怀疑分散化的程度不够,可能会有偏差或者集中度太高的情况(risk bias and concentration)。然后就想用三种方式来检验一下到底是不是真的分散化效果不好,题目问的就是这三种方式中,哪种检验的方式适合用机器学习去做。
通过三个suggestion的描述,可以看出第一个和第三个都是用简单的回归模型就可以搞定了。只有第二个适合用机器学习里的clustering方法。
------
suggestion 2描述的就是可以把投资的股票重新再做一次分类。重分类的标准是依据8个相似点,如果这8个点都差不多的股票就属于一类。
以上描述的就是clustering的方法,算法自行寻找股票之间的内部相似点(找出来8个),然后按照这8个点将股票重新做了分类。例如之前股票是按照行业划分的(例如中石油和中石化被在一类),但是现在不同行业的股票也可能会根据杠杆率相似,收入相似,利润相似等8个指标被分在一起(这种更细致的分类后,中石油可能就和万科在一类了)。
被重新分类后的股票在不同的类别之间就没什么联系了,所以做分散化的效果会更好。这个时候用重分类后的结果去和重分类之前做的分散化效果去比较,就可以知道之前做的分散化效果到底好不好了。也就可以判断之前的分散化到底有没有risk bias和concentration。