机器学习概览秋雨秋雨秋雨

机器学习是让计算机具有学习的能力,无需明确的编程——亚瑟·萨缪尔,1959

工程概念:

计算机程序利用经验E学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。——汤姆·米切尔,1997

机器学习系统的类型

机器学习有多种类型,可以根据以下规则进行分类:

监督/非监督学习

机器学习可以根据训练时监督的量和类型进行分类。主要有四类:监督、非监督、半监督和强化学习

监督学习

在监督学习中,用来训练算法的训练数据包含了答案,称为标签。

图1用于监督学习(比如垃圾邮件分类)的加了标签的训练集

一个典型的监督学习就是分类,垃圾邮件过滤器就是一个很好的例子:用很多带有归类(垃圾邮件和普通邮件)的邮件样本进行训练,过滤器还能用新邮件进行分类。

另一个典型数值是预测目标数值,例如给出一些特征(里程数、车程、品牌等等)称为预测值,来预测一辆汽车的价格。这类任务称为回归,要训练在这个系统,你需要给出大量汽车样本,包括它们的预测值和标签(即它们的价格)

图2回归

注意:一些回归算法也可以用来进行分类,例如,逻辑回归常用来进行分类,它可以生成一个归属某一类的可能性的值。

下面是一些重要的监督性学习算法:

非监督学习

训练数据没有加标签。

图3非监督学习的一个不加标签的训练集

下面是一些最重要的非监督学习算法:

例如,假设你有一份关于你的博客访客的大量数据。你想运行一个聚类算法,检测相似访客的分组(图1-8)。你不会告诉算法某个访客属于哪一类:它会自己找出关系,无需帮助。例如,算法可能注意到40%的访客是喜欢漫画书的男性,通常是晚上访问,20%是科幻爱好者,他们是在周末访问等等。如果你使用层次聚类分析,它可能还会细分每个分组为更小的组。这可以帮助你为每个分组定位博文。

图4聚类

可视化算法也是极佳的非监督学习案例:给算法大量复杂的且不加标签的数据,算法输出数据的2D或3D图像(图1-9)。算法会试图保留数据的结构(即尝试保留输入的独立聚类,避免在图像中重叠),这样就可以明白数据是如何组织起来的,也许还能发现隐藏的规律。

图5t-SNE可视化案例,突出了聚类(注:注意动物是与汽车分开的,马和鹿很近、与鸟距离远,以此类推)

注意:在用训练集训练机器学习算法(比如监督学习算法)时,最好对训练集进行降维。这样可以运行的更快,占用的硬盘和内存空间更少,有些情况下性能也更好。

另一个非常重要的非监督任务时异常检测(anomalydetection)——例如,检测异常的信用卡转账以防欺诈,检测制造缺陷,或者在训练之前自动从训练集中去除异常值,异常监测的系统是用正常值训练的,当它碰到一个新实例,可以判断这个新实例是正常值还是异常值。

图6异常检测

最后,另一个很重要的非监督学习是关联规则学习,他的目标是挖掘大量数据以发现属性间有趣的关系。

例如,假设你拥有一个超市。在销售日志上运行关联规则,可能发现买了烧烤酱和薯片的人也会买牛排。因此,你可以将这些商品放在一起。

半监督学习

一些算法可以处理部分带标签的训练数据,通常是大量不带标签数据加上少量带标签数据,这种称为半监督学习。

一些图片存储服务,比如GooglePhotos,是半监督学习的好例子。一旦你上传了所有家庭相片,它就能自动识别到人物A出现在了相片1、5、11中,另一个人B出现在了相片2、5、7中。这是算法的非监督部分(聚类)。现在系统需要的就是你告诉它这两个人是谁。只要给每个人一个标签,算法就可以命名每张照片中的每个人,特别适合搜索照片。

图7半监督学习

多数半监督学习算法是半监督学习和监督学习的结合。例如,深度信念网络(deepbeliefnetworks)是基于被称为互相叠加的受限玻尔兹曼机(restrictedBoltzmannmachines,RBM)的非监督组件。RBM是先用非监督方法进行训练,再用监督学习方法对整个系统进行微调。

强化学习

强化学习非常不同。学习系统在这里称为智能体,可以对环境进行观察、选择和执行动作(负奖励是惩罚),然后它必须自己学习哪个是最佳方法(称为策略),已获得长久的最大奖励。策略决定了智能体在给定情况下应采取的行动。

图8强化学习

例如,许多机器人运行强化学习算法以学习如何行走。DeepMind的AlphaGo也是强化学习的例子:它在2016年三月击败了世界围棋冠军李世石(译者注:2017年五月,AlphaGo又击败了世界排名第一的柯洁)。它是通过分析数百万盘棋局学习制胜策略,然后自己和自己下棋。要注意,在比赛中机器学习是关闭的;AlphaGo只是使用它学会的策略。

批量和在线学习

另一个用来分类机器学习的准则是,它是否能从导入的数据流进行持续学习。

批量学习

如果你想让一个批量学习系统明白新数据(例如垃圾邮件的新类型),就需要从头训练一个系统的新版本,使用全部数据集(不仅有新数据也有老数据),然后停掉老系统,换上新系统。

幸运的是,训练、评估、部署一套机器学习的系统的整个过程可以自动进行,所以即便是批量学习也可以适应改变。只要有需要,就可以方便地更新数据、训练一个新版本。

另外,用全部数据训练需要大量计算资源(CPU、内存空间、磁盘空间、磁盘I/O、网络I/O等等)。如果你有大量数据,并让系统每天自动从头开始训练,就会开销很大。如果数据量巨大,甚至无法使用批量学习算法。

最后,如果你的系统需要自动学习,但是资源有限(比如,一台智能手机或火星车),携带大量训练数据、每天花费数小时的大量资源进行训练是不实际的。

幸运的是,对于上面这些情况,还有一个更佳的方案可以进行持续学习。

在线学习

在在线学习中,用数据实例可以持续进行训练,可以一次一个或一次几个实例(称为小批量)。每个学习步骤都很快且廉价,系统可以动态学习收到的新数据。

图9在线学习

在线学习很适合系统接收连续流的数据(比如股票价格),且需要自动对改变做出调整,如果计算资源有限,在线学习是一个不错的方案:一旦在线学习系统学习了新的数据实例,它就不再需要这些数据了,所以扔掉这些数据(除非你想滚回到之前的一个状态,再次使用数据)。这样可以节省大量的空间。

在线学习算法也适合于超大数据集(一台计算机不足以存储它)上训练系统(这称作核外学习,out-of-corelearning)。算法每次只加载部分数据,用这些数据进行训练,然后重复这个过程,直到使用完所有的数据。

警告:这个整个过程通常是离线完成的(即,不在部署的系统上),所以在线学习这个名字会让人疑惑。可以把它想成持续学习。

在线学习系统的一个重要参数是,它们可以多快地适应数据的改变:这被称为学习速率。如果你设定一个高学习速率,系统就可以快速适应新数据,但是也会快速忘记老数据(你可不想让垃圾邮件过滤器只标记最新的垃圾邮件种类)。相反的,如果你设定的学习速率低,系统的惰性就会强:即,它学的更慢,但对新数据中的噪声或没有代表性的数据点结果不那么敏感。

在线学习的挑战之一是,如果坏数据被用来进行训练,系统的性能就会逐渐下滑。如果这是一个部署的系统,用户就会注意到。例如,坏数据可能来自失灵的传感器或机器人,或某人向搜索引擎传入垃圾信息以提高搜索排名。要减小这种风险,你需要密集监测,如果检测到性能下降,要快速关闭(或是滚回到一个之前的状态)。你可能还要监测输入数据,对反常数据做出反应(比如,使用异常检测算法)。

基于实例VS基于模型学习

另一种分类机器学习是判断它们如何进行推广的,大多数机器学习是关于预测的。这意味着给定一定数量的训练样本,系统能够推广到没有见过的样本。对训练数据集有很好的预测还不够,真正的目标是对新实例预测的性能。有两种归纳方法:基于实例和基于模型学习。

基于实例学习

也许最简单的学习形式就是用记忆学习。如果用这种方法做一个垃圾邮件过滤器。只需要标记所有和用户标记的垃圾邮件相同的邮件----这个方法不差,但肯定不是最好的。

不仅能标记和已知的垃圾邮件相同的邮件,你的垃圾邮件过滤器也要能标记类似垃圾邮件的邮件。这就需要测量两封邮件的相似性。一个(简单的)相似度测量方法是统计两封邮件包含的相同单词的数量。如果一封邮件含有许多垃圾邮件中的词,就会被标记为垃圾邮件。

这被称作基于实例学习:系统先用记忆学习案例,然后使用相似度测量推广到新的例子

图10基于实例学习

基于模型学习

另一种从样本集进行归纳的方法,是建立这些样本的模型,然后使用这个模型进行预测。这称作基于模型学习。

图11基于模型学习

图12最佳拟合训练数据的线性模型

最后,可以准备运行模型进行预测了。例如,假如你想知道塞浦路斯人有多幸福,但OECD没有它的数据。幸运的是,你可以用模型进行预测:查询塞浦路斯的人均GDP,为22587美元,然后应用模型得到生活满意度,后者的值在4.85+22,587×4.91×10-5=5.96左右。

案例1-1展示了加载数据、准备、创建散点图的Python代码,然后训练线性模型并进行预测。

案例1-1,使用Scikit-Learn训练并运行线性模型。

importmatplotlibimportmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimportsklearn#加载数据oecd_bli=pd.read_csv("oecd_bli_2015.csv",thousands=',')gdp_per_capita=pd.read_csv("gdp_per_capita.csv",thousands=',',delimiter='\t',encoding='latin1',na_values="n/a")#准备数据country_stats=prepare_country_stats(oecd_bli,gdp_per_capita)X=np.c_[country_stats["GDPpercapita"]]y=np.c_[country_stats["Lifesatisfaction"]]#可视化数据country_stats.plot(kind='scatter',x="GDPpercapita",y='Lifesatisfaction')plt.show()#选择线性模型lin_reg_model=sklearn.linear_model.LinearRegression()#训练模型lin_reg_model.fit(X,y)#对塞浦路斯进行预测X_new=[[22587]]#塞浦路斯的人均GDPprint(lin_reg_model.predict(X_new))#outputs[[5.96242338]]

THE END
1.在线学习管理系统:重塑教育未来的创新工具随着互联网技术的飞速发展,教育领域正经历着前所未有的变革。在线学习管理系统作为这一变革的重要推手,正逐步成为教育行业不可或缺的一部分。本文将全面解析在线学习管理系统的内涵、优势、功能及应用场景,为您揭示这一创新工具如何重塑教育未来。 一、在线学习管理系统的内涵 https://www.pbids.com/aboutUs/pbidsNews/1861300265132593152
2.在线学习系统新启在线学习系统支持PC,PAD,手机,微信多平台多通道的学习。新启科技在承接传统教育的基础之上充分实现了E-learning的设计理念, 它为现代学习型组织提供了卓有成效的学习与培训方案, 能够通过在线学习、在线考试和在线评估的方式轻松完成针对员工制订的培训计划。 http://www.newstartsoft.com/Html/OLS.html
3.在线学习系统在线学习管理系统,只允许教师使用吗?通过在线学习系统的建设,完成了对于在线学习课程的远程化授课。可以使学生不受时间空间的限制,通过在线对于这门课程进行学习。建立起了基于B/C的在线化在线学习系统。本系统采用当前最流行的JSP在线编程技术,可以实现数据的高效、动态、交互访问,具有强大的Server/Client交互能力。本文中所做的主要工作:介绍Win2000 +JSPhttps://blog.csdn.net/qq_61141142/article/details/134977906
4.在线学习平台还可以将学员在线下参加过的培训、考试等内容导入到平台中,组成完整的学员学习培训档案,为领导者对员工素质进行公正评价和准确分析提供有力的数据支持。设计理念 在线学习系统本着简单、适用、高效的原则,实行通用化、标准化、智能化、人性化的产品设计思想,帮助企业形成学习型组织,对员工培训进行高效、有序的管理。https://baike.baidu.com/item/%E5%9C%A8%E7%BA%BF%E5%AD%A6%E4%B9%A0%E5%B9%B3%E5%8F%B0/9554384
5.史密斯PrepSmith在线学习系统雅思托福备考,就选启德考培prepsmith在线学习系统!系统包含测评、模考、刷题、自适应练习等多种功能,满足各阶段的考生备考需求,通过智能化的练习,高效提分https://www.eickaopei.com/special/qdsms/
6.fif口语训练系统FiF口语训练系统 语音技术,科学评测,即时反馈 训练题库,内容丰富,题型多样 > FiF在线课程 多个平台,个性课程;学习进度,一目了然 消息通知,直达高效;易学易教,益教益学 FiF外语学习资源库 富媒体、多语种外语学习产品 讯飞语音技术,海量优质资源 讯飞AI考试纸笔 https://www.fifedu.com/
7.红杉树小红本记忆引擎?智能英语训练系统在线教学的开展使得学生用于对于终端硬件的需求趋于低龄化,越来越多低领儿童家长为孩子选购PC、普通平板、学习机等相关产品。 2022年4月,教育部发布《义务教育课程方案和课程标准(2022年版)》,英语新课标推进信息技术与英语教学的深度融合的课程理念,与小红本记忆引擎?智能英语训练系统的研发理念完全一致。记忆引擎?http://www.1637.com/hongshanshu/news/5I1M21QKWX54141899.html
8.AI智能英语培训学习APP陪练口语记背单词软件服务内容全部包含: 将AI技术融入到英语培训中,包括教师用的英语教学系统、学生用的英语学习系统,以及英语自习室等,涉及单词记诵、语法学习、听力训练和写作等。 AI英语教学版利用AI学习软件,通过网络实现1对1陪练,借助先进的人工智能和教练的强力督学,让学员的英语综合能力获得快速提升。用于培训机构的教师(教练)端。https://www.zbj.com/fw/1921913.html
9.国家税务总局吉林省税务局12366系统征纳互动功能拓展项目需求公告之间的互动服务从以政策业务为主向政策业务和技术操作全覆盖转变、从解答问题向解决问题转变、从被动等待服务需求向主动提供服务转变、从人工服务向智能服务转变,不断提升办税服务便利化水平,满足纳税人多渠道、多维度、全业务域的咨询互动需求和税务机关精细服务、精准监管要求,需对12366纳税缴费服务热线系统进行升级拓展http://jilin.chinatax.gov.cn/art/2021/11/25/art_22893_449634.html
10.企业在线培训企业培训平台企业直播系统小鹅通企业培训系统,企业专属的培训学习管理工具,帮助企业搭建集平台+内容+运营于一体的一站式数字化的企业培训平台,通过图文/音视频/企业直播/考试等多种内容组合形式,高效赋能企业培训。https://www.xiaoe-tech.com/corporateTraining
11.新闻资讯提供私有部署培训平台企业内训系统在线移动学习平台私有部署培训平台供应商Traingo为企业提供在线培训平台,信创学习平台,国产化学习平台,信创考试平台,国产化考试平台,干部培训平台,为您提供课程管理、考试管理、知识管理、培训计划、会议直播、社区互动、激励体系、培训分析、答疑等,改善人才培养效率及绩效表现,提https://www.traingo.cn/news/
12.银行职业技能综合训练与考核平台1、 银行职业技能学习与训练系统 该系统能够实现学生登陆后,根据教师设定的权限,开展翻打传票和中文输入课程的自主学习与训练,该系统能够记录学生的训练情况并根据设定的条件评定训练积分和等级,给出训练诊断意见。学生也可在线开展技能竞技比赛。 2、 银行职业技能教师综合管理系统 该系统能够实现教师根据学生类别,对学生http://zjtjyj.cn/index.aspx?menuid=5&type=productinfo&lanmuid=67&infoid=174&language=cn
13.KISSABC英语学习训练系统KISSABC英语学习训练系统 六大核心板块 趣味英语启蒙 同时启蒙英语开设了288节英语趣味启蒙,故事与教学相结合,激发学习兴趣,让孩子听得进、看得懂、更爱学。 互动成长营 三年864次互动,高频陪伴式互动学习,告别填鸭式死记硬背,重塑孩子口语表达与母语思维。 http://www.kissabc.cn/
14.2022年在线网课学习课堂《运动训练基本原理与方法(北京体育大学2024年在线网课学习课堂《运动训练基本原理与方法(北京体育大学 )》单元测试考核答案.pdf,注:不含主观题 第 1 题 运动训练学的学科特征不包括 ()。 A 本源性 B 综合性 C 实践性 D 专项性 第 2 题 运动训练学的母学科是 () A 生理学 B 解剖学 C 教育学 D 都不是 第 3 题 https://m.book118.com/html/2022/0725/6202243220004214.shtm
15.体育总局干部培训中心至于其他的场馆基本不开放,只有国家队和地方队都不在这里训练的时候才可能向社会短暂开放。 上海市干部培训中心怎么样? ① 求大虾上海科技管理干部学院怎么样 上海科技管理干部学院座落在历史文化 名城和国际汽车城——嘉定。1980年经上海市人民 *** 批准成立,隶属上海市科委,是上海科技系统干部教育培训基地,是 国科https://www.govjiaoyu.cn/peixun/1763.html
16.线上教学听课巡课方案(通用13篇)在因防控病毒感染的肺炎疫情延期开学期间,确保防疫特殊时期学生身心健康的前提下,面向全区中小学搭建或推荐在线学习平台,借助网络,为教师和学生建立教学和辅导的双向交流渠道,努力减少因疫情给学生学习带来的损失,实现全区教育系统“停课不停学”和学生学有所获的工作目标。https://www.ruiwen.com/fangan/6607211.html
17.北京大学计算机学院七篇论文入选数据库领域顶级会议VLDB2023腾讯公司的多款产品和服务,如微信、QQ和腾讯广告,已经广泛应用这些先进的预训练模型以提升用户体验和服务质量。论文“Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent”提出了Angel-PTM,一个专为大模型预训练而精心构建的工业级深度学习系统,可以利用GPU服务器中的多层存储高效地https://laoyaoba.com/n/877399
18.Dotcpp编程(C语言网)编程入门学习训练题库C语言网(dotcpp.com)奉行“学练同步,知行合一”的学习理念,希望大家都能理论与动手一起加强!拒绝理论编程训练题库OJ 如何获取音频文件总时长 访问者模式 模板模式 策略模式 空对象模式 Linux date命令:显示或设置系统时间 Linux su命令:切换用户 Linux clear命令:清除屏幕 https://www.dotcpp.com/