提到协作,就不能不说Github这个全球最大的开源代码托管仓库了。
在咱们的教程里,也多次使用Github来存储代码和数据,以便你能够重复运行教程中的结果。
不少读者在这个阶段常提出这个问题:老师,想学Python,推荐本书呗。
看来,你已经明白了Python的好处了,对吧?
推荐的教材,不仅包括书籍,还包括MOOC。希望这种充满互动的教学方式,对你入门数据科学有帮助。
你可以尝试做更进一步的分析了。
例如机器学习(MachineLearning)。
机器学习的妙用,就是在那些你(其实是人类)无法准确描述解决步骤的问题上,让机器通过大量案例(数据)的观察、试错,构建一个相对有用的模型,来自动化处理问题,或者为人类的决策提供辅助依据。
大体上,机器学习主要分为3类:
目前本专栏介绍了前两类的一些例子。
监督学习与非监督学习最大的差别,在于数据。
数据已有标注(一般是人工赋予标签),一般用监督学习;
数据没有标注,一般只能用非监督学习。
监督学习部分,我们举了分类(classification)任务的例子。
具体的机器学习算法,是决策树(decisiontree)。
有同学表示,绘制这棵决策树的时候,遇到了问题。
这主要是因为运行环境的差异和依赖工具的安装没有正确完成。
文中用一种叫做LDA的聚类(clustering)方法,帮你从可能感兴趣的浩如烟海文档中,提取出可能的类别,对应的主要关键词,并且做可视化处理。
文中提及了停用词(stopwords)的处理,但是没有给出中文停用词的具体应用方法。
深度学习,指用深度神经网络(DeepNeuralNetwork)进行机器学习。
常见的深度学习应用,包括语音识别、计算机视觉和机器翻译等。
当然,新闻里面最爱提的,是下围棋这个事儿:
实际操作部分,我们采用Tensorflow作为后端,tflearn作为前段,构造你自己的第一个深度神经网络。
有了深度神经网络的基础知识,我们折腾计算机视觉。
卷积神经网络(ConvolutionalNeuralNetwork,CNN)这时就大放异彩了。
我们尽量避免用公式,而是用图像、动图和平实简洁的语言描述来为你解释概念。
我们使用的深度学习框架,是苹果的TuriCreate。你会调用一个非常深层次的卷积神经网络,帮我们迁(tou)移(ji)学(qu)习(qiao),用很少的训练数据,获得非常高的分类准确率。
有的读者自己尝试,测试集准确率居然达到100%(视运行环境不同,有差异),大呼过瘾。可同时又觉得不可思议。
希望读过此文,你对迁移学习(TransferLearning)有了更深入的认识。
希望看过之后,你再从论文里读到计算机视觉的神经网络模型,就可以游刃有余了。
另一批作者又来发问了:
老师,我用Windows,死活就是装不上TuriCreate,可怎么办?
免费使用GPU,用极为简易的操作,就可以在Google云端Linux主机上部署和执行苹果深度学习框架……
听着是不是像做梦啊?
感谢Google这家为人类知识积累做出贡献的企业。
学完深度学习之后,你会发现自己变成了“数据饥渴”症患者。
因为如果没有大量的数据,就无法支撑你的深度神经网络。
如何获取数据呢?
目前主流(合法)的网络数据方法,主要分为3类:
如果没有开放数据集整理好供你下载,网站只提供API接口,你该怎么办呢?
如果没有人为你整理好数据,网站也没有开放API给你,那你就得“直接上大锤”了。