《百面机器学习》拾贝第二章:模型评估Ariel一只猫的旅行

“没有测量,就没有科学。”这是科学家门捷列夫的名言。在计算机科学特别是机器学习领域中,对模型的评估同样至关重要。只有选择与问题相匹配的评估方法,才能快速地发现模型选择或训练过程中出现的问题,迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整,这些都是机器学习在模型评估阶段的关键问题,也是一名合格的算法工程师应当具备的基本功。

01评估指标的局限性

在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。

Q1:准确率的局限性

A1:准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。

Q2:精确率与召回率的权衡

A:首先要明确两个概念,精确率和召回率.

精确率是指分类正确的正样本个数占分类器判定为正样本个数的比例;

召回率是指分类正确的正样本个数占真正的正样本个数的比例.

在排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本,而是采用TopN返回结果的Precision值和Recall值来衡量排序模型的性能,即认为模型返回的TopN的结果就是模型判定的正样本,然后计算前N个位置上的准确率Precision@N和前N个位置上的召回率Recall@N。Precision值和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致Recall值降低。

Q3:平方根误差的"意外"

A3:RMSE经常被用来衡量回归模型的好坏,公式:

每个评估指标都有其价值,但如果只从单一的评估指标出发去评估模型,往往会得出片面甚至错误的结论;只有通过一组互补的指标去评估模型,才能更好地发现并解决模型存在的问题,从而更好地解决实际业务场景中遇到的问题。

02ROC曲线

Q1:什么是ROC曲线?

A1:

只看定义确实有点绕,为了更直观地说明这个问题,我们举一个医院诊断病人的例子。假设有10位疑似癌症患者,其中有3位很不幸确实患了癌症(P=3),另外7位不是癌症患者(N=7)。医院对这10位疑似患者做了诊断,诊断出3位癌症患者,其中有2位确实是真正的患者(TP=2)。那么真阳性率TPR=TP/P=2/3。对于7位非癌症患者来说,有一位很不幸被误诊为癌症患者(FP=1),那么假阳性率FPR=FP/N=1/7。对于“该医院”这个分类器来说,这组分类结果就对应ROC曲线上的一个点(1/7,2/3)。

Q2:如何绘制ROC曲线

Q3:如何计算AUC?

A3:AUC指的是ROC曲线下的面积大小,该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方(如果不是的话,只要把模型预测的概率反转成1p就可以得到一个更好的分类器),所以AUC的取值一般在0.5~1之间。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。

Q4:ROC曲线相比P-R曲线有什么特点?

A4:相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线的形状一般会发生较剧烈的变化。这个特点让ROC曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能。

03余弦距离的作用

在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是[1,1],相同的两个向量之间的相似度为1。如果希望得到类似于距离的表示,将1减去余弦相似度即为余弦距离。因此,余弦距离的取值范围为[0,2],相同的两个向量余弦距离为0。

Q1:结合你的学习和研究经历,探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?

Q2:余弦距离是否是一个严格定义的距离

04A/B测试的陷阱

在互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效,新算法、新模型的效果是否有提升,新设计是否受到用户欢迎,新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段。

Q1:在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?

Q2:如何进行线上A/B测试

A2:进行A/B测试的主要手段是进行用户分桶,即将用户分成实验组和对照组,对实验组的用户施以新模型,对对照组的用户施以旧模型。在分桶的过程中,要注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到同一个桶中,在分桶过程中所选取的user_id需要是一个随机数,这样才能保证桶中的样本是无偏的。

Q3:如何划分实验组和对照组

A3:P56-P57

05模型评估的方法

Q1:在模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么

A1:

>Holdout检验

>交叉检验

>自助法

Q2:在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时,最终有多少数据从未被选择过?

06超参数调优

Q:超参数有哪些调优方法

A:

07过拟合与欠拟合

Q1:在模型评估过程中,过拟合和欠拟合具体是指什么现象?

A1:过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。

Q2:能否说出几种降低过拟合和欠拟合风险的方法?

A2:

■降低“过拟合”风险的方法(1)从数据入手,获得更多的训练数据。使用更多的训练数据是解决过拟合问题最有效的手段,因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。当然,直接增加实验数据一般是很困难的,但是可以通过一定的规则来扩充训练数据。比如,在图像分类的问题上,可以通过图像的平移、旋转、缩放等方式扩充数据;更进一步地,可以使用生成式对抗网络来合成大量的新训练数据。(2)降低模型复杂度。在数据较少时,模型过于复杂是产生过拟合的主要因素,适当降低模型复杂度可以避免模型拟合过多的采样噪声。例如,在神经网络模型中减少网络层数、神经元个数等;在决策树模型中降低树的深度、进行剪枝等。(3)正则化方法。给模型的参数加上一定的正则约束,比如将权值的大小加入到损失函数中。以L2正则化为例:

THE END
1.线上教学的优缺点3、缺点“线上教学最大的不足就是师生缺少互动。因为不是面对面的上课,所以学生和老师,不会有实时的https://edu.iask.sina.com.cn/jy/2wwGgg5Na2Z.html
2.线上教学的优缺点是什么?前几年,由于种种原因,线上教学方式得到极大地普及,上网课一度成为各大中小学及高校的常态,在此期间,线上教学平台也获得了极大的发展。如今,线下教学回归正常,那么线上教学是否还有存在的必要,这要从线上教学是是否还有需求及线上教学的优缺点进行全面分析,本文将结合博思白板boardmix来为大家分析线上教学的优缺点及https://boardmix.cn/article/onlineteachinganalysis/
3.线上教学的优缺点范文导语:如何才能写好一篇线上教学的优缺点,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。 篇1 关键词:在线学习;网络学习资源;自主学习;传统教学 中图分类号:H319 文献标识码:A文章编号:16749944(2017)05019402 1引言 https://www.gwyoo.com/haowen/42878.html
4.2020年疫情期间大学生线上学习调查报告2020年疫情期间大学生线上学习调查报告 来源:厦门大学教师发展中心 全国高等学校质量保障机构联盟(CIQA) 厦门大学教师发展中心 2020年4月6日 报告说明 自疫情以来,为了贯彻落实教育部关于在疫情期间“停课不停学、停课不停教”要求,全国高校战线在极短时间内组织了有史以来规模最大、上线课程最多、覆盖人数最广的线http://ciqa.xmu.edu.cn/cn/article/1092
5.线上教学存在哪些弊端?线上教学存在哪些弊端? ABSTRACT 在互联网时代快速发展下的今天,很多人都顺其自然的选择了线上教学。而线上教学是否能够完全替代传统教学呢?答案是否定的。无论是何种教学方式都会有自己优缺点,线上教学也是如此,只有不断优化填补不足之处才能发挥出更大的价值。https://www.ckjr001.com/newsdetail/1314.html
6.考研网课和线下课的优缺点线上教育和线下教育的区别和优势线上授课跟线下授课各自的优缺点有哪些呢? 学生在网络背景下的学习恰如其分地体现了建构主义的上述观点。学生在网络背景下的这种自主性和探究性学习使他们的学习具有了传统学习无可比拟的优点。第1,当学生面对计算机时,他所产生的第1感觉就是:我将要用它来学习了,我必须自己干了。这实际上是促使学生确立自己在学习https://sy.xhd.cn/ksjq/tj/888046.html
7.线上英语和线下英语的优缺点有哪些?详细分析一下!线上英语和线下英语的优缺点对比分析?传统的线下英语培训在很长一段时间占据主流,而线上英语培训以其上课的便利性和性价比高,获得了很多宝妈的喜欢,其实英语线上线下优劣都有,可以说是各有特点了,宇妈来和大家分享下这其中的差别。 一、线上英语教学就是方便,省去了接送的麻烦,而且节约了路途时间。网课完全不需要https://www.bilibili.com/read/cv8029585/
8.线上教育与线下教育分别有什么优缺点?线上教育主要是通过互联网在网上进行教学,其媒介是手机或者电脑等数码电子产品。线下教育是主要是在一定的空间里老师和学生进行的互动教学。那么,这两者之间分别有什么优缺点呢?下面来介绍一下。 一、线上教育的优势 1、无时间空间限制 在线教育与传统教育最大的区别在于:不受线下学习条件、环境的限制,可随时随地http://www.gaoweifuwu.com/pch5/article.php?id=1447
9.线上学习的优缺点线上学习是先下疫情形势下保持学生学习状态下的学习方式之一。线上学习,对于大家来说并不陌生,在这我们一起讨论一下这个线上学习的优缺点。 优点: 1、线上学习是当前形式下的学习形式之一。 2、线上学习,让学生在老师的直播课堂结束后查漏补缺,再观看回放,找寻不懂的问题的答案。 https://quan.qlteacher.com/u/573eb7140cf223fc04745a15/blog/62495f6830b9d912b26c0731
10.线上教学评课用语优缺点及建议.docx第 线上教学评课用语优缺点及建议 线上教学评课用语优缺点及建议 线上教学发展到现在,已经不是一个新鲜的词语,特别是是从去年疫情突发后,网络教学在日常教学中的应用日益增多,这种线上教学的方式为教育提供了丰富的资源,同时也为学校今后的教学研究创造了更加广阔的前景。网络作为一种现代社会中广泛应用的信息传递https://m.book118.com/html/2022/0516/5311244234004230.shtm
11.光伏产品有哪些:种类及应用解析通过以上对不同光伏组件优缺点的分析,相信大家对“光伏产品有哪些”这一问题有了更深入的理解。在选择光伏产品时,需综合考虑其优缺点、应用场景和具体需求,以达到最佳的经济和能源效益。 用飞书软件高效进行企业的生产运营和管理 作业线上化,消除手工环节: https://www.feishu.cn/content/what-are-photovoltaic-products
12.线上教学优缺点总结(11篇)线上教学优缺点总结(11篇) 当工作或学习进行到一定阶段或告一段落时,需要回过头来对所做的工作认真地分析研究一下,肯定成绩,找出问题,归纳出经验教训,提高认识,明确方向,以便进一步做好工作,并把这些用文字表述出来,就叫做总结。相信许多人会觉得总结很难写?下面是我给大家整理的总结范文,欢迎大家阅读分享借鉴,希望https://www.chazidian.com/fanwen/518757