小胖 · 2020年12月02日

机器学习里分不清楚是否有output指的是什么

如上图，我原本一直理解的有output指的是以上说的结果“分20类”，就意味着有output就是supervised learning，是我什么地方想岔了吗？

添加评论

4 个答案

已采纳答案

星星_品职助教 · 2020年12月02日

@小胖

这道题前面还有个描述“assign each client to one of the firm’s five strategic investment portfolios.”

所以可以看出，Mock这道题是把新客户往指定好的5个portfolio里分，这就属于把目标portfolio（Y变量）贴上标签。

和经典题这个题做个对比，Paul这道题是没有任何目的的全凭算法自己找相似点把股票分成20类，而不是往指定好20个portfolio里面去逐个分。

添加评论

星星_品职助教 · 2021年03月18日

@cherry

不是。

参见回复中的内容：“所谓的“output”或者说是“target”或者说labeled data/output指得是一个很明确的Y变量，这个Y就类似回归分析中的Y变量，有明确的定义和描述。这道题里没有体现有Y变量的地方，只是单纯的分类，所以是个unsupervised learning下的分类问题”

-------------

简而言之，贴标签的意思就是告诉谁是X谁是Y。这道题自行分类，既没有X，也没有Y。

clustering是算法自动判断哪些数据有相似性，然后把相似的数据分到一个组里。同一个组里的数据的相似之处/共同点/characteristic就是（这个算法自行判断出的）“most relevant financial and unfinacial characteristics”