单位归一化
type
status
date
slug
summary
tags
category
icon
password
网址
单位归一化(Unit Normalization),也称为L2归一化,是一种缩放数据的方式,能够使每个数据点都具有单位范数,时期长度变为1。这种归一化技术确保了数据点的特征值不会因数值范围的差异而影响其重要时,这种技术特别有用。

一、数学原理与公式
单位归一化的典型方法是Z-score 标准化(标准差标准化),公式如下:x′=σx−μ其中:
- x 是原始特征值,
- μ 是特征的均值,
- σ 是特征的标准差,
- x′ 是归一化后的特征值。
归一化结果:特征值转换为均值为 0,标准差为 1的标准正态分布(非严格正态,仅保证一阶矩和二阶矩标准化)。
二、适用场景与作用
- 消除特征尺度影响
- 例如:房价预测中,“面积”(单位:平方米,取值范围 0-1000)和 “房间数”(取值范围 1-10)尺度差异极大,若不归一化,模型会过度关注 “面积” 特征。
- 梯度下降类算法(如线性回归、逻辑回归)对尺度敏感,归一化可加速收敛。
- 提升模型精度
- 在 K-means 聚类、PCA 降维等基于距离度量的算法中,归一化可确保所有特征对距离计算的贡献一致。
- 适配特定算法要求
- 神经网络中,归一化可避免激活函数饱和(如 Sigmoid 函数在输入过大时梯度趋近于 0),提升训练效率。
三、与归一化相关的其他方法对比
方法 | 公式 | 目标范围 | 数据依赖性 | 适用场景 |
Z-score 标准化 | x′=σx−μ | 均值 0,标准差 1 | 依赖均值和标准差 | 数据分布无明显边界 |
Min-Max 归一化 | x′=xmax−xminx−xmin | [0, 1] 或 [-1, 1] | 依赖极值 | 数据范围已知,需保留边界 |
标准化缩放 | x′=x/∥x∥2 | 向量范数为 1 | 依赖 L2 范数 | 文本分类(如 TF-IDF)等 |
关键区别:
- Z-score 标准化对异常值鲁棒性更强(标准差受异常值影响,但可通过中位数或分位数改进);
- Min-Max 归一化易受极端值干扰,适用于数据清洁的场景。
上一篇
debug指南
下一篇
大模型周报2025-04-24
Loading...