开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

逢考必过过过过过过 · 2022年05月29日

Feature Engineering 和data preprocessing的区别

老师好, Data Preprocessing中的Extraction也涉及new variable,这俩有什么区别呢?
4 个答案

袁园_品职助教 · 2022年06月07日

Data preprocessing(wrangling)是数据预处理,然后下一个步骤是Data Exploration(数据探索),这里面一个环节是feature engineering(特征工程)。

数据预处理里面有一个步骤叫做:数据提取(Extraction)。指从现有的变量中,提取出一组新的变量。例如之前的表格中,将“出生日期”直接用于分析并不直观,这个时候就可以据此新提取出一个变量“年龄”。

数据探索里面的特征工程: 特征工程指在特征选择的基础上,将各个特征做了进一步的优化。创造出了新的更便于训练模型的特征。例如可以将几个特征相乘后取对数,形成一个新的特征。或者将一个原特征拆分为几个新特征。优化后的特征可以更好的描述数据之间的规律性。特征工程可以降低欠拟合的问题。

这两者的区别:特征工程是基于特征选择的基础上,相比于之前那个数据提取要复杂很多。因为特征选择需要对于数据集有一个深刻的了解后才能进行选择并删除局部特征。此外,也可以通过统计学方法等将特征的重要性进行排序,只保留最重要的特征。

所以按照你的理解,同样是创造一个变量,但是这个层次是不一样的,数据提取只是一个预处理,简单的把出生日期变成年龄,但是特征工程要复杂很多,首先要对所有数据集进行深刻了解,然后做特征选择,再做特征工程,比如还是出生日期这个例子,特征工程需要判断这个出生日期是不是最重要的特征(特征选择),如果保留下来做特征工程,类似于创造出70年代、80年代、90年代这种类似的新变量,比之前那个年龄更加进一步哦。所以所处的步骤也要更加的靠后哦。


星星_品职助教 · 2022年06月01日

@逢考必过过过过过过

已经两次回复。这分属于两个不同的步骤,用A步骤里的概念去套用在B步骤中显然是不行的,并没有可比性。

第三次强调,概念的对比要基于具体题目。

星星_品职助教 · 2022年06月01日

@逢考必过过过过过过

已经回复,这两组概念属于不同的步骤,根本就没有可比性,在不同的步骤使用特定的概念就可以。

重新强调一下,概念的对比需要结合具体的题目来比。


逢考必过过过过过过 · 2022年06月01日

就是因为概念没能区分啊。。。。。何老师上课也讲过两个步骤中selection的不同。。。那extract就不行吗?

星星_品职助教 · 2022年05月30日

同学你好,

这是两个独立的过程。

Data preprocessing(wrangling)是一个大的步骤,下一个步骤是Data Exploration,这里面一个环节是feature engineering。两个步骤需要前后进行,没什么可比性。

概念的对比需要基于具体的题目来比。


逢考必过过过过过过 · 2022年05月31日

老师…………我知道他们分别属于不同的step,但你这样说我还是不能知道两者作法上任何的却别………能不能详细说下

  • 4

    回答
  • 0

    关注
  • 293

    浏览
相关问题