数据挖掘机器学习自然语言处理这三者关系及入门攻略|什么是数据挖掘和机器学习_在线学习

机器学习作为AI领域最核心的技术,广泛应用在电商推荐、无人驾驶、人脸识别、金融风险评估等应用。关于机器学习,一个通俗易懂的定义是:机器学习自动帮从数据中挖掘并总结规律。

举个例子,我们想用程序来辨别张三和李四两个人。一种实现方法是根据他俩的显著特征来设计规则如:假如一个人比较高、偏胖、脸上有皱纹,同时拥有啤酒肚就识别为张三,否则为李四。这种实现方案是基于人的先验知识的,也就把一个人已经了解到的知识提前写成规则的形式。

机器学习的运作方式恰好跟这个相反:假如我们手里有若干张张三和李四的照片,然后给机器看,同时告诉机器哪个是张三,哪个是李四。之后我们期待机器可以从这些数据中自动寻找可以分辨张三和李四的规律出来，这叫作机器学习。

机器学习是人工智能领域最核心的技术,也是入门AI开发的第一门课程。后续所有的复杂技术和应用都依赖于机器学习技术。想学好AI,机器学习是第一门必修课。这就好比想做好工程师,编程是必修课一样。

数据挖掘是什么

机器学习的核心其实就是在数据库中进行知识发现，而数据挖掘，可以视为数据库中知识发现过程的一个基本步骤。

因为数据挖掘在机器学习中占据着举足轻重的地位，所以经常有人将数据挖掘与机器学习混为一谈，其实这样不对。除了机器学习，数据挖掘还可以运用在许多方面，比如从大量春运数据中发现哪些站点人流量大从而调整运行图。获取人流量知识的过程，就是数据挖掘的一种简单应用。

自然语言处理是什么

自然语言处理实际上是机器学习的一个实际运用。在机器学习和深度学习技术的推动下,各行各业的AI应用得到了长足的发展。从应用的角度,AI技术可以分为三大类:视觉处理、自然语言处理和语音处理。这种分类也是基于人类的基本交互方式。我们每天接触的信息无非就是图片、视频、文字和声音。

即便同一类技术如推荐系统,随着应用场景的不同,所要求的技术也是不一样的。如果推荐应用在新闻网站,则文本是主要的处理对象,所以要用到自然语言处理技术;如果应用在短视频领域,视频是主要的处理对象,所以要用到计算机视觉技术;如果应用在音乐网站,主要处理对象为声音,所以要用到语音技术。

三者的关系

总结下来，其实这三者有一种层层渐进的关系：通过数据挖掘可以实现机器学习，而机器学习又是自然语言处理的根本。（个人总结，大佬可以指正哈）

—————————————————————————————————————

回答完题主第一个问题，现在来回答一下另外一个：对数据分析感兴趣，三者哪一个更合适？

如何入门机器学习

新手入门的话可以选择找一些网络上的课程，像李宏毅的机器学习公开课，贪心科技AI课程，Jeremy的程序员机器学习入门等等都很不错。

李宏毅-机器学习公开课

这门课程在内容方面其实更加偏向于深度学习领域，相对来说比较进阶，但李宏毅老师自信的表示，这并不会影响这门课“机器学习入门课”的属性，仍然会让绝大多数人听得懂，大家仍然可以尝试着将它作为机器学习的第一门课。

它的课程设置相对比较容易上手，“从最基本的观念讲到最前瞻的技术”是这门课的一大特色。李宏毅老师的课程总结下来有两大亮点：

1.结合卡通形象来讲解理论知识，风格幽默风趣、生动形象

2.适合初学者，有配套作业题

3.使用Python作为编程语言，对大多数初学者比较友好

这是一门适合初学者的入门课程，重点偏向于深度学习，想对深度学习有所了解的同学可以尝试去听听看。

基础知识

这门课需要提前掌握数学和编程上的一些基础知识。

数学上需要掌握：微积分、线性代数、概率论；

贪心科技-人工智能与机器学习

这门课程主要面向对象是想系统性学习AI的在职人士（IT、运营、产品、财务等等）以及在校学生，通过这门课程的学习可以为后续的转型做准备，或者用这些学到的技术来提升工作的效率。在课程当中，所有核心机器学习算法背后的技术细节以及推导都得到了全面的阐述。除了每章之后的作业之外，课程中间还单独设置了几个实训章节（见下图），因此相较于诸如吴恩达等老师侧重于理论方面的教学模式，这门课程更加偏向于理论与实战的结合。

讲授案例

贪心科技课程的一个亮点在于，区别于传统的线上课程，他家的课程不仅仅使用视频讲解，而是通过视频、文字以及图片的结合，达到了传统视频教学无法比拟的教学效果。比如在解释“深度学习”时，为了让同学们真正理解深度学习的概念，李文哲老师将深度学习与浅层学习通过图形的方式做了对比，将深度学习表达为“浅层学习的叠加”，将深奥的理论概念通过只言片语便轻松的讲解出来了。

课程中间穿插的小选择题轻松有趣，帮助我们完全浸入学习的氛围。答题之后，会有专业的答案解析，当然，如果感觉题目太难，还可以相应的调整题目难度，十分人性化。

最后，每个小节之后还会有非常精简的课程总结，方便同学们及时回顾本节学习的内容，让大家学的扎实。

这门课程要求并不高，只需要具备高中以上数学基础，了解简单的统计与线性代数；最好有半年以上编程经验，包括但不限于Python。

Jeremy-程序员机器学习入门

相较于吴恩达的“数学优先”教学模式，Jeremy更加追求“代码优先”的实用路线，因此他的课程风格一般以实操训练为重点。

根据主页介绍，这门课程主要囊括了两种模型：基于决策树的模型和基于梯度下降的模型。

由于这门课程以实操为侧重点，对数学理论及一些概念并没有做过多的阐述，因此其课程设置与其它课程比起来较为独特。

但是既然Jeremy想走实操路线，那这门课程的局限性也就显而易见。对基础不好的同学来说，这门课有些难以上手，需要自行恶补用到的数学知识。

这门课需要童鞋们有一定的数学基础，特别是线性代数、微积分以及概率论；其次需要提前掌握基本的Python语法；另外因为是英语授课，所以还需要一定的英语基础。

————————————————————————————————————

小结

以上就为题主回答了所有问题，也希望能帮到有同样困惑的其他同学们。另外，想要成为一名真正的程序猿，只说是远远不够的，一定要坚持学下去，这样才会有真正的收获！

THE END

数据挖掘机器学习自然语言处理这三者关系及入门攻略

数据挖掘的定义

数据挖掘机器学习自然语言处理这三者关系及入门攻略

机器学习&统计模型&数据挖掘的差别是什么

什么是分析，数据分析决胜未来

机器学习和数据挖掘的关系

数据挖掘与机器学习有什么关系–PingCode

智慧档案馆（室）——?我国档案馆（室）建设的新方向

数据挖掘集智百科