AI产品经理必修课:机器学习算法

本文简单介绍了机器学习算法的概念、流程、分类以及各类算法的对比,适合希望成为人工智能产品经理的产品新人阅读。

一、什么是机器学习1.含义

机器学习machinelearning,是人工智能的分支,专门研究计算机怎样模拟或实现人类的学习行为,其通过各种算法训练模型,并用这些模型对新问题进行识别与预测。

本质上机器学习是一种从数据或以往的经验中提取模式,并以此优化计算机程序的性能标准。

2.解决什么问题

解决复杂规则的问题。如果简单规则可以实现,则没必要借助机器学习算法实现。

3.三个名词之间的关系

人工智能>机器学习>深度学习

以机器学习算法是否应用了神经网络作为区分标准,应用了多隐含层神经网络的机器学习就是深度学习。

4.对AI产品经理的要求二、机器学习的基础1.机器学习的基础——数据

人工智能产品由数据、算法、计算能力三部分组成,而数据,是其中的基础。

全球顶尖人工智能科学家李飞飞的成功离不开ImageNet千万级的数据集。

“ImageNet让AI领域发生的一个重大变化是,人们突然意识到构建数据集这个苦活累活是AI研究的核心,”李飞飞说:“人们真的明白了,数据集跟算法一样,对研究都至关重要。”“如果你只看5张猫的照片,那么你只知道这5个摄像机角度、照明条件和最多5种不同种类的猫。但是,如果你看过500张猫的照片,你就能从更多的例子中发现共同点。”

数据量多大为好?

2.数据的衡量

人工智能产品对数据除了有量的要求,还有质的要求,衡量数据质量的标准包括四个R:关联度relevancy(首要因素)、可信性reliability(关键因素)、范围range、时效性recency。

数据获取地址:

三、机器学习的流程

机器学习的流程可以划分为以下几个主要步骤:目标定义、数据收集、数据预处理、模型训练、准确率测试、调参、模型输出。

机器学习流程拆解:

1.目标定义

确认机器学习要解决的问题本质以及衡量的标准。

机器学习的目标可以被分为:分类、回归、聚类、异常检测等。

2.数据采集

3.数据预处理

普通数据挖掘中的预处理包括数据清洗、数据集成、数据转换、数据削减、数据离散化。

深度学习数据预处理包含数据归一化(包含样本尺度归一化、逐样本的均值相减、标准化)和数据白化。需要将数据分为三种数据集,包括用来训练模型的训练集(trainingset),开发过程中用于调参(parametertuning)的验证集(validationset)以及测试时所使用的测试集(testset)。

数据标注的质量对于算法的成功率至关重要。

4.模型训练

模型训练流程:每当有数据输入,模型都会输出预测结果,而预测结果会用来调整和更新W和B的集合,接着训练新的数据,直到训练出可以预测出接近真实结果的模型。

5.准确率测试

用第三步数据预处理中准备好的测试集对模型进行测试。

6.调参

参数可以分为两类,一类是需要在训练(学习)之前手动设置的参数,即超参数(hypeparameter),另外一类是通常不需要手动设置、在训练过程中可以被自动调整的参数(parameter)。

调参通常需要依赖经验和灵感来探寻其最优值,本质上更接近艺术而非科学,是考察算法工程师能力高低的重点环节。

7.模型输出

模型最终输出应用于实际应用场景的接口或数据集。

四、算法分类

机器学习囊括了多种算法,通常按照模型训练方式和解决任务的不同进行分类。

1.按照模型训练方式不同,可以分为

(1)监督学习supervisedlearning

定义:监督学习指系统通过对带有标记信息的训练样本进行学习,以尽可能准确地预测未知样本的标记信息。

常见的监督学习类算法包括:人工神经网络artificialneuralnetwork、贝叶斯bayesian、决策树decisiontree、线性分类器linearclassifier(svm支持向量机)等。

(2)无监督学习unsupervisedlearning

定义:无监督学习指系统对没有标记信息的训练样本进行学习,以发现数据中隐藏的结构性知识。

常见的无监督学习类算法包括:人工神经网络artificialneuralnetwork、关联规则学习associationrulelearning、分层聚类hierarchicalclustering、聚类分析clusteranalysis、异常检测anomalydetection等。

(3)半监督学习semi-supervisedlearning

含义:半监督学习指系统在学习时不仅有带有标记信息的训练样本,还有部分标记未知信息的训练样本。

常见的半监督学习算法包括:生成模型generativemodels、低密度分离low-densityseparation、基于图形的方法graph-basedmethods、联合训练co-training等。

(4)强化学习reinforcementlearning

定义:强化学习指系统从不标记信息,但是会在具有某种反馈信号(即瞬间奖赏)的样本中进行学习,以学到一种从状态到动作的映射来最大化累积奖赏,这里的瞬时奖赏可以看成对系统的某个状态下执行某个动作的评价。

常见的强化学习算法包括:Q学习Q-learning、状态-行动-奖励-状态-行动state-action-reward-state-action,SARSA、DQNdeepQnetwork、策略梯度算法policygradients、基于模型强化学习modelbasedRL、时序差分学习temporaldifferentlearning等。

(5)迁移学习transferlearning

迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

常见的迁移学习算法包括:归纳式迁移学习inductivetransferlearning、直推式迁移学习transductivetransferlearning、无监督式迁移学习unsupervisedtransferlearning、传递式迁移学习transitivetransferlearning等。

(6)深度学习deeplearning

定义:深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。

这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

常见的深度学习算法包括:深度信念网络deepbeliefmachines、深度卷积神经网络deepconvolutionalneuralnetworks、深度递归神经网络deeprecurrentneuralnetworks、深度波尔兹曼机deepboltzmannmachine,DBM、栈式自动编码器stackedautoencoder、生成对抗网络generativeadversarialnetworks等。

迁移学习与半监督学习的区别:迁移学习的初步模型是完整的,半监督学习的已标注部分无法形成完整的模型。

2.按照解决任务的不同分类,可以分为

(1)二分类算法two-classclassification,解决非黑即白的问题。

(2)多分类算法muti-classclassification,解决不是非黑即白的多种分类问题。

(3)回归算法regression,回归问题通常被用来预测具体的数值而非分类。除了返回的结果不同,其他方法与分类问题类似。我们将定量输出,或者连续变量预测称为回归;将定性输出,或者离散变量预测称为分类。

(4)聚类算法clustering,聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性,并把数据源分类到不同的簇中。

(5)异常检测anomalydetection,异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志,有时也称为偏差检测。异常检测看起来和监督学习问题非常相似,都是分类问题。都是对样本的标签进行预测和判断,但是实际上两者的区别非常大,因为异常检测中的正样本(异常点)非常小。

3.对AI产品经理的要求

产品经理应了解和掌握每种常见算法的基本逻辑、最佳使用场景以及每种算法对数据的需求。

这样有助于:

五、各类算法的对比1.算法与学习过程的对比2.算法适用场景的影响因素3.算法优缺点及适用场景

注意:

(1)目前监督学习和强化学习是目前应用范围最广且效果最好的机器学习方式。

(3)半监督学习依赖以下3个模型假设才能确保它良好的学习性能。

1)平滑假设(SmoothnessAssumption)

位于稠密数据区域的两个距离很近的样例的类标签相似,当两个样例北稀疏区域分开时,它们的类标签趋于不同。

2)聚类假设(ClusterAssumption)

当两个样例位于同一聚类簇时,它们在很大的概率在有相同的类标签。这个假设的等价定义为低密度分类假设(LowDensitySeparationAssumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例划分到决策边界两侧。

3)流形假设(ManifoldAssumption)

将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。

#参考资料#

(1)参考书籍:

本文由@Alan原创发布于人人都是产品经理,未经作者许可,禁止转载。

THE END
1.算法工程师要学什么知识(非常详细),零基础入门到精通,看这一篇就文章浏览阅读1.2k次,点赞21次,收藏11次。算法工程师要学什么知识(非常详细),零基础入门到精通,看这一篇就够了_算法工程师入门https://blog.csdn.net/weixin_49895216/article/details/142848661
2.算法需要学什么编程?Worktile社区实践和练习:最重要的是实践和练习。通过解决实际问题和练习算法题,你可以巩固所学的知识,并提高自己的编程能力和算法水平。可以通过参加编程竞赛、完成编程项目、刷算法题等方式进行实践和练习。 总之,学习算法需要掌握编程语言、数据结构和算法、算法思维、编程技巧,并通过实践和练习来提高自己的编程和算法能力。只有掌握https://worktile.com/kb/ask/2030579.html
3.阅读《算法导论》的基础要求归纳和演绎推理能力:能够通过对具体算法实例的分析和总结,归纳出一般性的算法设计原则和方法。同时,在面对新的问题时,能够运用已有的知识和经验,通过演绎推理设计出合适的算法解决方案。比如,从已学的几种排序算法(如冒泡排序、插入排序、快速排序等)中归纳出排序算法的一般设计思路和性能特点,然后根据这些特点去https://baijiahao.baidu.com/s?id=1809536700275075435&wfr=spider&for=pc
4.算法工程师要学什么常见问题算法工程师要学什么 算法工程师必备七大技能:数据结构和算法编程语言数学基础算法设计与分析分布式系统机器学习和深度学习软件工程实践,助力解决计算机科学和工业中的复杂问题。 算法工程师必修技能 算法工程师是计算机科学领域的专业人员,负责设计、分析和实现高效算法来解决计算问题。要成为一名合格的算法工程师,需要掌握https://www.php.cn/faq/816502.html
5.《人工智能产品经理AI时代PM修炼手册》可以迅速的调取知识,而非死记硬背,如了解算法应用不是推理 从业务需求出发,追本溯源找到知识的源头,带着目的去学习技术。学习之前要明确,为什么要学?为了解决什么样的问题?要带着问题去学习技术而不是盲目的学习。 除了日常的知识积累外,需要经常和公司内部的技术专家交换知识和观点,将自己理解的技术知识将给技术专https://www.jianshu.com/p/a0265bda8b1e
6.图分析与学习算法自动驾驶技术……这两位人大学子,获奖她曾获研究生国家奖学金、中国石油奖学金、一等学业奖学金等,入选中国人民大学“拔尖创新人才培育资助计划”。其研究关注大规模图分析与学习算法的可扩展性问题。她在计算机理论研究,特别是图分析和学习算法方向,取得了突破性的成果。其成果有望在搜索等业务领域落地,发挥重大作用。https://t.m.youth.cn/transfer/index/url/tech.youth.cn/wzlb/202201/t20220129_13411740.htm
7.从基础到实现:集成学习综合教程(附Python代码)机器之心本文从基础集成技术讲起,随后介绍了高级的集成技术,最后特别介绍了一些流行的基于Bagging和Boosting的算法,帮助读者对集成学习建立一个整体印象。 介绍 当你想购买一辆新车时,你会走到第一家汽车商店就根据经销商的建议购买一辆车吗?这是不太可能的。 你可能会浏览一些人们发布评论并比较不同车型的门户网站,检查其功能https://www.jiqizhixin.com/articles/2018-07-28-3
8.北京大学数学学院Q:您一般是怎么切入一个之前完全没有做过的问题,比如kSAT? A:我在选择问题的时候相对来说比较随意,但是大概有一个标准,就是这个问题我不费什么力气就能听得懂。如果那个问题我要花费很多的力气才能明白,那就可能不是我的菜,除非是一些特殊的情况,或者说我已经在相关领域有一些知识储备,我可能愿意去再学一点来理https://www.math.pku.edu.cn/xyxw/133705.htm
9.自然语言处理与计算语言学第7章,依存分析。第5章和第6章中介绍了spaCy的NLP如何执行各种复杂的计算语言学算法,如POS标注和NER标注。不过,这并不是所有的spaCy包,本章将探讨依存分析的强大功能,以及如何在各种上下文和应用场景中使用它。在继续使用spaCY之前,我们将研究依存分析的理论基础,并训练一个依存分析模型。 https://www.epubit.com/bookDetails?id=UB7218a27c085bf
10.深度学习算法LSTM算法原理简介及Tutorial1、背景 LSTM(Long Short-Term Memory)算法作为深度学习方法的一种,在介绍LSTM算法之前,有必要介绍一下深度学习(Deep Learning)的一些基本背景。目前在机器学习领域,最大的热点毫无疑问是深度学习,从谷歌大脑(Google Brain)的猫脸识别,到ImageNet比赛中深度卷积https://cloud.tencent.com/developer/article/1056919
11.11种比较常见的机器学习算法简介如何绘制或确定决策边界是SVM算法中最关键的部分。 在创建决策边界之前,将每个观察值(或数据点)绘制在n维空间中。 " n"是所使用功能的数量。 例如,如果我们使用"长度"和"宽度"对不同的"单元格"进行分类,则观察结果将绘制在二维空间中,并且决策边界为一条线。 如果我们使用3个要素,则决策边界是3维空间中的平面https://www.51cto.com/article/622149.html
12.机器学习基础无监督学习之降维山上有风景这就是PCA算法,虽然没有给出数学上的证明,来证明u(1)和、u(2)、z还有其他向量等等,但是得出的过程就是选择了最小化的平方投影误差,PCA要做的是尝试找到一个面或线,把数据投影到这个面或线上,以便于最小化平方投影误差。 五:压缩重现 在之前的学习中,我们一直把PCA作为压缩算法来讨论。 https://www.cnblogs.com/ssyfj/p/12936428.html