基于Spark的机器学习经验|spark机器学习_在线学习

通过凝固度、自由度、词频、idf以及重合子串（比如c1c2c3..cNc2c3..cN-1这种形态的，我们认为是重合子串，如果词频一样，则都过滤掉，否则留词频高的）五个维度进行阈值设置和过滤。

事实上，中间结果可以到几百亿，一个不小心就可以把Spark跑死，但是也在这个过程中慢慢对Spark有了更深的理解。最终效果还是不错的，现在它已经作为我们的基础词库了。

我参考了两篇论文，比如凝固度，自由度是出自一篇论文，而重合子串则来自另外一篇论文，然后自己观察实际数据，添加了很多规则，才得到最后的结果。

一说到算法，大概很多人心里就是想着，恩，我把数据转化为算法需要的格式，然后丢给现成的算法跑，跑着就出结果，或者出模型，然后反复尝试，直到得到你认为能接受的或者最优的结果。我一开始也是这么想的，可是如果你真的做这件事情，就发现完全不是那样子啊，需要注意的细节太多了。

因为我们的新词发现是没有词典的，需要枚举所有组合，然后通过一定的规则判定这是不是一个词。比如‘我是天才’，就这四个字，组合有，‘我是’，‘我是天’，‘我是天才’，‘是天’，‘是天才’，‘天才’。

将所有html标签替换成空格。

通过小空格将一个大文本切分成无数小文本块。

我们认为一个词的长度最长不能超过5个字。对每个小文本块再抽取出中文，中英文，英文。将一些特殊字符，类似“！￥……（）+｛｝【】的呀啊阿哎吧和与兮呃呗咚咦喏啐喔唷嗬嗯嗳你们我他她，这是由于”这些不可能成词的字符先去掉。处理的过程中，你可能需要写中文，英文，中英文的抽取方法。

通过上面的五个处理，你计算规模会小非常多。如果不这样处理，估计再大内存都能让你歇菜。接着就是按论文里的规则做计算了，比如算词的凝固度，算重合子串。这里面还会遇到很多性能，或者内存的坑，比如Spark里的groupByKey，reduceByKey。我一开始省事，用了groupByKey，歇菜了，内存直接爆了，为啥，你要去研究groupByKey到底是怎么实现的，一个词出现几十万次，几百万次都很正常啊，groupByKey受不了这种情况。所以你得用reduceByKey。

很好，实现了算法后得到了结果，可人家没告诉你，他贴出来的结果都是好看的，那是因为他是按频次排的，但如果你拉到最后看，结果就不太好看了。这个时候你就需要观察数据了，然后提出新的规则，比如最后得到的中文词结果，我用了一些简单规则过滤下，都是哪些呢？

凡是词里面包含‘或’的，或者’就’的或者上面罗列的，我都认为这个词是没有意义的，经过这个简单规则一过滤，效果好非常多，很多没什么意义的生活词，或者不成词的词就被去掉了。中文，英文，中英文混合，我都加了很多这种规则，最终才过滤出了八万计算机词汇。

重合子串，是这个算法的一个比较大的问题，比如c1c2c3…cNc2c3…cN-1，因为是从统计的方案做的，c1c2c3…cNc2c3…cN-1他们两算出来的分数可能就是一样的，所以如果我们发现他们的分值或者出现频率是一样的，就可以直接排除掉了。

基于Spark做智能问答

其实我做的智能问答算不上智能问答，但是内部一开始这么叫的，所以也就这么顺带叫下来了。其实做的事情非常简单：

比较两个标题的相似度

如果我们能知道两个句子说的其实是一件事情，那么就能打通各产品的互通鸿沟了。之前试水的项目是打通问答到博客的通道。具体效果大家可以看看CSDN的问答产品，里面的机器人，背后用的算法就是这套。

当用户问一个问题，机器人就会到博客里去找有没有这个问题的答案，或者有没有可以做参考的。比较神奇的是，之前有个在问答活跃的人也特别喜欢贴博客链接作为回答，我们对比了机器人和他的结果，发现机器人和他贴的差不多。

对于拥有内容的网站来说，这个技术还是非常重要的，比如CSDN，有论坛，博客，资讯，杂志等等，都是内容的载体。用户在问答频道里问的一个问题，其实在博客，在论坛早就已经有答案了。具体做法是透过word2vec解决一意多词的问题。接着将词转换为句子向量。这样任何一个问题都可以转换为一个向量。同理任何一篇博文的标题也可以转化为一个向量。

对了，这里有个问题是：word2vec计算出来的是用一个稠密的定长向量表示词，我的做法是直接把一个句子的里的词的向量按位做加法，重新得到一个新的向量作为句子的向量。当然，这种方式也是有缺陷，也就是句子越长，信息损耗越大。但是做这种标题性质的相似度，效果出奇的好，那种句子里很多词汇不相同的，它都能算出他们很相似来，这是因为word2vec可以算出不同词汇之间关系。

总结

下面是我的几个观点：

课程Q&A

Q：建议不做RAID的原因是什么？

Q：很多没什么意义的生活词，或者不成词的词，这些词是怎样得到的？也是分析出来的？

A：因为用的都是统计的一些方式，所以肯定会有很多无意义的词汇，假设我们现在得到的词汇几何是A,接着我去爬了一些新闻和生活的类的博客，然后用程序去跑一遍得到一批词汇B，然后A-B就能得到一拼更纯正的计算机词汇。

Q：内存要调到多大才能不会爆掉？是不是有什么比例？

Q：直接把一个句子的里的词的向量按位做加法，这是如何加？能举个例子不？

A：比如考虑一个三维向量：A[1，3，5]B[1，3，7]，现在有个句子是AB两个词组成，则对应的向量为A+B=[2,6,12]

Q：一些分词方法具有新词发现的功能，比如crf，楼主是比较过效果么？而且我记得matrix67这个算法复杂度还是很高的？

A:matrix67这个算法复杂度还是非常高的，你实际操作就会发现计算量，内存使用量都很大，crf等据我所知，还都是需要依赖词表的，matrix67的这个方式，完全不需要任何先验的东西。

A:理论上维度越长越好，我当时是随意试了一个值。发现效果其实已经可以了，这是一个可以调整的值，比如你可以分别生成50，150，300维度的，然后试试那个效果好。

THE END

基于Spark的机器学习经验

Spark入门：SparkMLlib介绍

完美起航

基于Spark的机器学习经验

Spark最新版本的特性与优势深度解析瓜果

Spark机器学习(12)：神经网络算法MSTK

如何在Spark机器学习中应用scikit

Spark凭什么成为最火的大数据计算引擎？极客时间磊哥算法spark

SparkML预测性分析教程NVIDIA

2.使用RayDPSparkonRay构建端到端的大数据分析和人工智能应用