——从"垃圾进垃圾出"到"点石成金"的21世纪炼金术
各位同学,把你们的咖啡杯都满上,我们今天不聊那些幻灯片里死气沉沉的公式。我要告诉你们的是,过去二十年里,我看着一代又一代聪明绝顶的学生,带着满腔热血扎进数据科学的世界,结果却在数据预处理这道坎上摔得鼻青脸肿的故事。说真的,如果机器学习是场华丽的舞会,那数据预处理就是舞会前那个又脏又累、但决定一切的场地布置工作。
开场白:为什么你的模型总是"差一点"?
记得去年一位博士后来找我,他用了最先进的Transformer模型,调参调到眼睛充血,可预测准确率就是卡在82%上不去。他问我:"教授,是不是我的模型架构有问题?"我让他把原始数据打印出来看了五分钟,指着屏幕上那些莫名其妙的"-999"和"N/A"说:"小伙子,你的模型没问题是你的数据在犯罪。"一周后,经过正确的预处理,同样的模型,准确率飙到94%。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 会·生活 » 数据预处理:那些哈佛教授在咖啡间才会告诉你的实战心法