特征工程

Feature Engineering

特征工程是利用领域知识和数据分析技能,从原始数据中提取、转换和选择特征,以最大化模型预测性能的过程。它是连接原始数据和机器学习模型的桥梁,是决定模型性能上限的关键步骤。

核心技术

特征工程的工作可以大致分为四大类:

1. 特征创建 (Feature Creation)

从现有数据中手动构建新的特征。

2. 特征变换 (Feature Transformation)

改变现有特征的分布或尺度,使其更适合模型学习。

3. 特征选择 (Feature Selection)

从所有特征中挑选出一个子集,以降低模型复杂度、减少过拟合风险和训练时间。

4. 特征提取 (Feature Extraction)

自动将高维特征空间映射到低维空间,创造出新的、更紧凑的特征表示。

自动化特征工程 (AutoFE)

随着AutoML技术的发展,自动化特征工程旨在自动发现和构建有用的特征,减少人工投入。但这通常需要巨大的计算资源,且生成特征的可解释性较差。


机器学习