读书网

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
都市风云异能

都市风云异能

都市风云异能情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,都市风云异能-虚度了的光阴-小说旗免费提供都市风云异能最新清爽干净的文字章节在线阅读和TXT下载。...

反攻为攻

反攻为攻

H市有名的Gay吧来了个能用声音嗨翻全场的主唱。 更难得的是,这主唱身材一流,跳起舞来能帅到让人叫破嗓子。 戚庄怀里搭着个小鲜肉,眯着眼睛看着台上嗨翻天的金发主唱。 当晚,情场老手戚少爷就把主唱堵在厕所里,松松领带,特地压低声音,“谈个对象?” 主唱叼着根烟,懒洋洋地靠墙,甩开他伸过来的手,“老子是1。” 戚少爷挑眉,“这么巧,我也是。” 【情场老手和情场老手的恋爱】 【攻到爆的攻×攻到爆的受】【主唱金发扎小辫,帅炸的那种】【主唱攻】...

星宇世界传奇公会

星宇世界传奇公会

星宇世界传奇公会情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,星宇世界传奇公会-骑士啊海-小说旗免费提供星宇世界传奇公会最新清爽干净的文字章节在线阅读和TXT下载。...

魔尊被假哭包攻了

魔尊被假哭包攻了

季玄穿进了一本耽美总受小说,且他穿的还是与主角受抢男人的炮灰受。然这都不算什么,看着一夜之后昏迷不醒的正牌攻,季玄陷入了沉思,这需要负责吗? 魔尊霍无厌初遇季玄的时候,对方正眼泪汪汪的掉眼泪,从此极乐魔宫多了一个如同透明人的小男宠。 在霍无厌都要忘记这号人的时候,他却在某一天被这个小男宠…… 季玄(眼泪汪汪):你别紧张啊,疼。 霍无厌(恼羞成怒):闭嘴! #不是我想哭,而是泪腺太发达# 注:哭包美人大佬攻,攻不弱,强的一批的那种,不过限于身体,特别怕疼,磕一下都会哭唧唧...

浮生逍遥郎

浮生逍遥郎

没有超能力、没有金手指、连白胡子老爷爷也找不到的穿越要怎么混下去?在线等,急!神医妹子:你还要什么外挂,你收敛点就不错了!老板娘:夫君,钱是赚不完的,不如我们早点歇息吧。皇帝:荣华富贵放你眼前了,你自己看着办。……你们想要干什么?我只想做条咸鱼而已。......

最强战神

最强战神

五年前,血染军装,换一身战功! 五年后,携无尽荣耀,谱王者传奇! 天王归来,风云再起,热血到底,燃爆都市!...