你的在线内容创作顾问
立即创作
立即创作
windows

未命名视频

创建于2025-05-16 21:55:50
那么我请问同学们,原始数据真的能直接用来训练分类器吗?在我们讲解了分类问题的基本原理之后,你可能会以为下一步就是直接挑个模型开始训练了。但现实比这复杂得多。 当你真正接触一份真实世界的数据集时,你会发现里面充满了混乱、空缺、极端值和尺度不一的特征。数据预处理与特征工程,就是在模型训练之前所做的地基工程。只有地基稳固,分类器才能真正稳定有效地运行。那么大家知道缺失值、异常值会对分类器带来哪些影响?又应该怎么应对呢?先来谈谈缺失值。现实中的数据几乎不会是完整无缺的。比如你收集到一份用户信息,有的人没填年龄,有的人收入字段为空,甚至有些样本整列数据都稀疏得可怕。如果我们直接把这些数据拿去训练模型,可能模型会把“空”当成一种特征,或者干脆在训练过程中崩溃,导致模型性能严重下降。那该怎么做呢?首先,我们要判断缺失是随机的,还是有某种结构性的含义。如果是偶然遗漏,我们可以用均值、中位数或最近邻样本填补。而如果缺失本身就有意义。比如未填写收入可能暗示用户不愿透露收入,那我们就要保留它的状态,可以使用特殊编码标记。

相关作品
0:34
androidTablet
0:29
创建于2025-05-17 10:55:37
androidTablet
3:05
windows
0:39
创建于2025-05-17 10:36:17
windows
4:01
windows
1:33
创建于2025-05-17 10:28:36
windows
0:28
创建于2025-05-17 10:11:00
windows
0:28
创建于2025-05-17 10:11:00
windows