科学网—如何高效入门数据科学？|自然语言处理如何入门_在线图书馆

提到协作，就不能不说Github这个全球最大的开源代码托管仓库了。

在咱们的教程里，也多次使用Github来存储代码和数据，以便你能够重复运行教程中的结果。

不少读者在这个阶段常提出这个问题：老师，想学Python，推荐本书呗。

看来，你已经明白了Python的好处了，对吧？

推荐的教材，不仅包括书籍，还包括MOOC。希望这种充满互动的教学方式，对你入门数据科学有帮助。

你可以尝试做更进一步的分析了。

例如机器学习（MachineLearning）。

机器学习的妙用，就是在那些你（其实是人类）无法准确描述解决步骤的问题上，让机器通过大量案例（数据）的观察、试错，构建一个相对有用的模型，来自动化处理问题，或者为人类的决策提供辅助依据。

大体上，机器学习主要分为3类：

目前本专栏介绍了前两类的一些例子。

监督学习与非监督学习最大的差别，在于数据。

数据已有标注（一般是人工赋予标签），一般用监督学习；

数据没有标注，一般只能用非监督学习。

监督学习部分，我们举了分类（classification）任务的例子。

具体的机器学习算法，是决策树（decisiontree）。

有同学表示，绘制这棵决策树的时候，遇到了问题。

这主要是因为运行环境的差异和依赖工具的安装没有正确完成。

文中用一种叫做LDA的聚类（clustering）方法，帮你从可能感兴趣的浩如烟海文档中，提取出可能的类别，对应的主要关键词，并且做可视化处理。

文中提及了停用词（stopwords）的处理，但是没有给出中文停用词的具体应用方法。

深度学习，指用深度神经网络（DeepNeuralNetwork）进行机器学习。

常见的深度学习应用，包括语音识别、计算机视觉和机器翻译等。

当然，新闻里面最爱提的，是下围棋这个事儿：

实际操作部分，我们采用Tensorflow作为后端，tflearn作为前段，构造你自己的第一个深度神经网络。

有了深度神经网络的基础知识，我们折腾计算机视觉。

卷积神经网络(ConvolutionalNeuralNetwork,CNN)这时就大放异彩了。

我们尽量避免用公式，而是用图像、动图和平实简洁的语言描述来为你解释概念。

我们使用的深度学习框架，是苹果的TuriCreate。你会调用一个非常深层次的卷积神经网络，帮我们迁(tou)移(ji)学(qu)习(qiao)，用很少的训练数据，获得非常高的分类准确率。

有的读者自己尝试，测试集准确率居然达到100%（视运行环境不同，有差异），大呼过瘾。可同时又觉得不可思议。

希望读过此文，你对迁移学习（TransferLearning）有了更深入的认识。

希望看过之后，你再从论文里读到计算机视觉的神经网络模型，就可以游刃有余了。

另一批作者又来发问了：

老师，我用Windows，死活就是装不上TuriCreate，可怎么办？

免费使用GPU，用极为简易的操作，就可以在Google云端Linux主机上部署和执行苹果深度学习框架……

听着是不是像做梦啊？

感谢Google这家为人类知识积累做出贡献的企业。

学完深度学习之后，你会发现自己变成了“数据饥渴”症患者。

因为如果没有大量的数据，就无法支撑你的深度神经网络。

如何获取数据呢？

目前主流（合法）的网络数据方法，主要分为3类：

如果没有开放数据集整理好供你下载，网站只提供API接口，你该怎么办呢？

如果没有人为你整理好数据，网站也没有开放API给你，那你就得“直接上大锤”了。

THE END

科学网—如何高效入门数据科学？

如何入门自然语言处理炼己者

如何入门PyTorch自然语言处理？作者 Exxact 博客译者平川策划凌敏本文最初发布于 Exxact 官方博客。随着人...

《自然语言处理》入门教程课件.pptx

自然语言处理（NLP）入门