TensorFlow机器学习常用算法解析和入门

决策树是一种树形结构,为人们提供决策依据,决策树可以用来回答yes和no问题,它通过树形结构将各种情况组合都表示出来,每个分支表示一次选择(选择yes还是no),直到所有选择都进行完毕,最终给出正确答案。

决策树(decisiontree)是一个树结构(可以是二叉树或非二叉树)。在实际构造决策树时,通常要进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种:

先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。

后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。

2)朴素贝叶斯分类器(NaiveBayesianModel,NBM)

朴素贝叶斯分类器基于贝叶斯定理及其假设(即特征之间是独立的,是不相互影响的),主要用来解决分类和回归问题。

P(A|B)是后验概率,P(B|A)是似然,P(A)为先验概率,P(B)为我们要预测的值。

学过概率的同学一定都知道贝叶斯定理,这个在250多年前发明的算法,在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(NaiveBayesian)是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。

通过以上定理和“朴素”的假定,我们知道:

P(Category|Document)=P(Document|Category)*P(Category)/P(Document)

举个例子,给一段文字,返回情感分类,这段文字的态度是positive,还是negative。

为了解决这个问题,可以只看其中的一些单词。

这段文字,将仅由一些单词和它们的计数代表。

原始问题是:给你一句话,它属于哪一类?

通过bayesrules变成一个比较简单容易求得的问题。

问题变成,这一类中这句话出现的概率是多少,当然,别忘了公式里的另外两个概率。

例子:单词love在positive的情况下出现的概率是0.1,在negative的情况下出现的概率是0.001。

后面将给大家详细讲解朴素贝叶斯分类算法。

3)最小二乘法(Leastsquares)

如果你对统计学有所了解,那么你必定听说过线性回归。最小均方就是用来求线性回归的。如下图所示,平面内会有一系列点,然后我们求取一条线,使得这条线尽可能拟合这些点分布,这就是线性回归。这条线有多种找法,最小二乘法就是其中一种。最小二乘法其原理如下,找到一条线使得平面内的所有点到这条线的欧式距离和最小。这条线就是我们要求取得线。

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

4)逻辑回归(LogisticRegression)

逻辑回归模型是一个二分类模型,它选取不同的特征与权重来对样本进行概率分类,用一个log函数计算样本属于某一类的概率。即一个样本会有一定的概率属于一个类,会有一定的概率属于另一类,概率大的类即为样本所属类。用于估计某种事物的可能性。

5)支持向量机(SVM)

支持向量机(supportvectormachine)是一个二分类算法,它可以在N维空间找到一个(N-1)维的超平面,这个超平面可以将这些点分为两类。也就是说,平面内如果存在线性可分的两类点,SVM可以找到一条最优的直线将这些点分开。SVM应用范围很广。

要将两类分开,想要得到一个超平面,最优的超平面是到两类的margin达到最大,margin就是超平面与离它最近一点的距离,如下图,Z2>Z1,所以绿色的超平面比较好。

6)K最近邻算法(KNN,K-NearestNeighbor)

邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近。如上图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。

7)集成学习(EnsembleLearning)

集成学习就是将很多分类器集成在一起,每个分类器有不同的权重,将这些分类器的分类结果合并在一起,作为最终的分类结果。最初集成方法为贝叶斯决策。

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法,同时也非常流行。常见的算法包括:Boosting,BootstrappedAggregation(Bagging),AdaBoost,堆叠泛化(StackedGeneralization,Blending),梯度推进机(GradientBoostingMachine,GBM),随机森林(RandomForest)。

那么集成方法是怎样工作的,为什么他们会优于单个的模型?

8)聚类算法

聚类算法就是将一堆数据进行处理,根据它们的相似性对数据进行聚类。

聚类,就像回归一样,有时候人们描述的是一类问题,有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括k-Means算法以及期望最大化算法(ExpectationMaximization,EM)。

聚类算法有很多种,具体如下:中心聚类、关联聚类、密度聚类、概率聚类、降维、神经网络/深度学习。

9)K-均值算法(K-Means)

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。

10)主成分分析(PrincipalComponentAnalysis,PCA)

11)SVD矩阵分解(SingularValueDecomposition)

也叫奇异值分解(SingularValueDecomposition),是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。SVD矩阵是一个复杂的实复负数矩阵,给定一个m行、n列的矩阵M,那么M矩阵可以分解为M=UΣV。U和V是酉矩阵,Σ为对角阵。

PCA实际上就是一个简化版本的SVD分解。在计算机视觉领域,第一个脸部识别算法就是基于PCA与SVD的,用特征对脸部进行特征表示,然后降维、最后进行面部匹配。尽管现在面部识别方法复杂,但是基本原理还是类似的。

12)独立成分分析(ICA)

独立成分分析(IndependentComponentAnalysis,ICA)是一门统计技术,用于发现存在于随机变量下的隐性因素。ICA为给观测数据定义了一个生成模型。在这个模型中,其认为数据变量是由隐性变量,经一个混合系统线性混合而成,这个混合系统未知。并且假设潜在因素属于非高斯分布、并且相互独立,称之为可观测数据的独立成分。

后面讲给大家一一详细单独讲解这些常用算法。

13)Q-Learning算法

Q-learning要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。

强化学习目的是构造一个控制策略,使得Agent行为性能达到最大。Agent从复杂的环境中感知信息,对信息进行处理。Agent通过学习改进自身的性能并选择行为,从而产生群体行为的选择,个体行为选择和群体行为选择使得Agent作出决策选择某一动作,进而影响环境。增强学习是指从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术,从环境状态到动作映射学习,使得Agent根据最大奖励值采取最优的策略;Agent感知环境中的状态信息,搜索策略(哪种策略可以产生最有效的学习)选择最优的动作,从而引起状态的改变并得到一个延迟回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。

Q-Learning是一种无模型的强化学习技术。具体来说,可以使用Q学习来为任何给定的(有限的)马尔可夫决策过程(MDP)找到最优的动作选择策略。它通过学习一个动作价值函数,最终给出在给定状态下采取给定动作的预期效用,然后遵循最优策略。一个策略是代理在选择动作后遵循的规则。当这种动作值函数被学习时,可以通过简单地选择每个状态中具有最高值的动作来构建最优策略。Q-learning的优点之一是能够比较可用操作的预期效用,而不需要环境模型。此外,Q学习可以处理随机过渡和奖励的问题,而不需要任何适应。已经证明,对于任何有限的MDP,Q学习最终找到一个最优策略,从总体奖励的预期值返回到从当前状态开始的所有连续步骤是最大可实现的意义。

THE END
1.10本机器学习入门书籍推荐本书是一本机器学习入门的必备图书,书中没有让人头晕眼花的公式推导,而是通过一些易于理解的类比、案例以及图片,以通俗易懂的方式讲解了机器学习中的一些名词和常见算法,使初学者能够很容易地掌握机器学习的相关概念工具、数据处理、回归与分析、建模与优化等内容。 https://zhuanlan.zhihu.com/p/415035356
2.机器入门必修国际名校机器学习课程教材推荐机器学习英文教材本文介绍了四本经典的机器学习入门书籍,包括《MitchellsMachineLearning》、《ElementsofStatisticalLearning》、《PatternRecognition》和《AnAlgorithmicPerspective》,它们分别从理论基础、统计学习、模式识别和算法实用性出发,为初学者提供了全面的学习路径和实践经验。 https://blog.csdn.net/qq_20288327/article/details/135494008
3.机器学习入门到精通!不愧是公认的讲的最好的机器学习全套教程-IceDawn-创建的收藏夹Vision内容:机器学习入门到精通!不愧是公认的讲的最好的【机器学习全套教程】同济大佬12小时带你从入门到进阶(机器学习/线性代数/人工智能/Python),如果您对当前收藏夹内容感兴趣点击“收藏”可转入个人收藏夹方便浏览https://www.bilibili.com/medialist/play/ml3169158525
4.《机器学习入门》课件《机器学习入门》课件 《机器学习入门》ppt课件 目录 ?机器学习简介?机器学习基础?机器学习算法?机器学习实践?机器学习未来展望?总结与参考文献 01 机器学习简介 定义与概念 定义 机器学习是一门研究如何让计算机系统从数据中学习和改进,以提升预测和决策能力的学科。概念 机器学习基于数据和算法,通过https://wenku.baidu.com/view/dfb629c32d3f5727a5e9856a561252d381eb205e.html
5.机器学习入门指南(全)腾讯云开发者社区机器学习入门指南(全) 前言 机器学习作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。 一个经典的机器学习的定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, https://cloud.tencent.com/developer/article/2014063
6.机器学习入门教程机器学习入门教程 网易云课堂: 吴恩达博士《 神经网络和深度学习》免费课程资料 https://mooc.study.163.com/smartSpec/detail/1001319001.htm/ 深度学习开源官网: https://www.deeplearning.ai/ 入门需要理解几个概念: 1、导数即斜率=height/width 2、梯度下降https://www.jianshu.com/p/43aaadb953cd
7.机器学习入门教程机器学习入门教程 机器学习入门教程 什么是机器学习? python机器学习入门 基础数学知识 机器学习需要什么? 机器学习如何快速上手 机器学习模型和算法 使用Python开始机器学习 python机器学习入门实战小结 Python快速入门机器学习 PYTHON的机器学习的入门贴https://www.kmbox.cn/app/mlin/index.html
8.机器学习入门介绍(非常易懂)TheChosenOne机器学习入门介绍(非常易懂) //2019.07.31早上 机器学习基本概念介绍 1、机器学习的含义在于让机器去学习,其核心在于学习。 2、最早的机器学习应用是在垃圾邮件的分辨,它开启了机器学习的领域和时代 3、机器学习的典型应用主要体现在以下几个方面: (1)图像识别 https://www.cnblogs.com/Yanjy-OnlyOne/p/11278951.html
9.深入浅出,一篇超棒的机器学习入门文章深入浅出,一篇超棒的机器学习入门文章 1.一个故事说明什么是机器学习 机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢?https://xxgcxy.hist.edu.cn/info/1181/3947.htm
10.深度学习的基础:机器学习入门和数学基础51CTO博客深度学习的基础:机器学习入门和数学基础 转型的程序员都关注了这个号? 大数据挖掘DT机器学习公众号: datayx 1.机器学习 (Machine Learning, ML) ?1.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,https://blog.51cto.com/u_15404184/5243069
11.机器学习机器学习使计算机能够从研究数据和统计信息中学习。 机器学习是迈向人工智能(AI)方向的其中一步。 机器学习是一种程序,可以分析数据并学习预测结果。从何处开始? 在本教程中,我们将回到数学并研究统计学,以及如何根据数据集计算重要数值。 我们还将学习如何使用各种 Python 模块来获得所需的答案。 并且,我们将学习https://www.w3school.com.cn/python/python_ml_getting_started.asp
12.机器学习基础入门.pdf机器学习基础 赵永红 四川师范大学物理系 CSRC-2017 人和人工智能 狼来了…… CSRC-2017 李开复 CSRC-2017 困 CSRC-2017 人工 机器 深度 智能 学习 学习 机器如何学习? 人类如何学习? CSRC-2017 机器学习? CSRC-2017 The Niche for Machine Learning:1997 数据挖掘:从过去的数据预言未来; 处理难以手动编程的事情https://m.book118.com/html/2019/0705/7144102112002036.shtm
13.9讲入门机器学习9讲入门机器学习更多优惠 机器学习手推和代码实现 视频课 主讲老师:louwill 感兴趣人数:1943人 价格¥99.00 立即购买 免费试看 louwill louwill,统计硕士出身,目前杭州某AI公司深度学习算法工程师。著有《深度学习笔记》一书。个人公众号机器学习实验室。 https://vip.open.163.com/courses/B6D2EB5138DE345B76EDB510D5900772
14.95后哈佛小哥撰写《从零开始的机器学习》,入门必备,书籍资源已开放机器学习怎么入门最简单?今年刚刚从哈佛大学统计专业毕业的 Danny Friedman 写了一本「转专业学生专用教材」,无基础也可轻松入门,资源现已全部开放。 说起机器学习入门书,大概有成百上千种选择。这些书籍大多是由具备丰富研究经验的学者撰写的,涵盖各种主题。 https://www.thepaper.cn/newsDetail_forward_9418519
15.关于机器学习的7本入门级好书关于机器学习的 7 本入门书籍机器学习和人工智能是蓬勃发展的领域,并且正在越来越多地成为人们的研究主题。我们在新闻中听到的关于机器学习的各种高级应用似乎高不可攀,但他们的核心理念却很好理解。本文将讨论一些最受机器学习初学者(或者任何有兴趣了解该主题的人)欢迎的资源。其中某些书籍需要读者熟悉一些编码语言和https://www.tableau.com/zh-cn/learn/articles/books-about-machine-learning
16.机器学习初学者笔记为本人整理机器学习爱好者群编写的笔记,目前更新完成。 课程简介与致谢 笔记在线阅读 github:https://github.com/fengdu78/deeplearning_ai_books 3.机器学习的数学基础 参考教科书编写,仅作参考。markdown文件将会在github公布。 1.CS229线性代数翻译 http://www.ai-start.com/
17.《零基础学机器学习》(黄佳)简介书评在线阅读人工智能教程籍,深入浅出神经网络与深度学习入门,基于python框架算法,机器学习入门小白书,与小冰一起课堂培训丰富的实战案例赠送全书实例源代码、案例数据集。 作者:黄佳出版社:人民邮电出版社出版时间:2020年12月 手机专享价 ¥ 当当价降价通知 ¥85.30 http://product.dangdang.com/29159728.html
18.16个新手必看的机器学习视频教程雷峰网1、机器学习新手入门 如何在6个月内成为一个数据科学家 视频时长:56分24秒 视频链接:https://youtu.be/rIofV14c0tc 内容简介:视频中,Tetiana Ivanova 分享了她六个月成为数据科学家的真实过程。她是因为参加了编程马拉松活动而开始学习机器学习技术。如果你正在思考到底应该读一个数据分析研究生还是选择自学,你应https://www.leiphone.com/news/201610/Oqndr7PXFB9BRI9p.html