传说中的数据挖掘工程师，究竟是做什么的？ |什么是数据挖掘工程师_在线学习

开通VIP，畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.01.09上海

数据挖掘，从字面上理解，就是在数据中找到有用的东西，哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了，比如电商数据，如淘宝统计过哪个省购买泳衣最多等。

进一步，可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像，就相当于用这些挖掘出来的属性来刻画一个人，这些还是最简单的东西，更深层次的比如预测（股票预测），但是比较难。

1、数据挖掘的过往

说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

第一，神经网络就像一个黑夹子一样，很多东西不透明，模型的解释性不强，以及当时没办法处理非线性分类问题（后面多层感知器便可以对非线性问题进行拟合，如解决XOR问题）。参数过多，训练复杂，容易出错，容易过拟合，无法保证全局最优，加上很多问题无法用数学方法证明（个人理解）等等。

科学家和工程师还是有区别的，科学家都想把一个问题归结为数学问题，然后证明出来，他们就会认为是有意义的，数学上证明其有效往往比做千百个实验说明其有效要好些吧，工程师往往更在乎效果与结果），直到后来出现了BP算法。

第二，得益于现在的大规模计算工具，能够处理PB级别的数据了。总之现在人工智能还远没达到人类的水平，最后结果会怎样，这个暂时不设想。

数据有了，还有个重要的方面，处理数据的能力，也就是数据处理工具，能够处理这么大的数据量，二者不可或缺，缺一谈什么大数据都是耍流氓。

2、数据挖掘工程师应具备的技能

首先你数学知识肯定要扎实吧。统计与概率论是最基本（也有人说现在的机器学习是统计学习，确实有道理）、微分与积分肯定要知道、数学公式要看的懂吧，进阶阶段最优化，随机过程等。建议去看看机器学习十大算法与一些深度学习的东西，多看大牛的博客。

对于你所说的excel、SAS、SPSS，数据分析人员专用，因为工程师嘛，编程语言还是必须的。

另外是工具，会用就行。对于是否需要学习hadoop、hive之类的，个人意见是只要知道用，然后怎么用，怎么在上面实现一些算法，怎么去优化自己写的程序就差不多了，它们只是工具，而且更新得很快，就说hadoop吧，我还没完全搞明白，就逐渐被spark取代了，记住，这些只是工具而已。推荐个加深你数据挖掘功力的东西weka（单机版的）与mahout（分布式的，有基于hadoop与spark），都是开源的。

举个例子，你在淘宝上买一件衣服，系统怎样向你推荐你感兴趣的并且和这件衣服搭配的裤子或者饰品，这就是数据挖掘工程师的一方面工作。

3、常用的知识点介绍

对于数据挖掘与机器学习，也不是小小的几百字能说清楚的，所以再补充一些想从事机器学习与数据挖掘的需要学习的知识点：

1）Basis(基础)：

MSE(均方误差)，LMS(最小均方)，LSM(最小二乘法)，MLE(最大似然估计)，QP(二次规划)，CP(条件概率)，JP(联合概率)，MP(边缘概率)；

BayesianFormula(贝叶斯公式)，L1/L2(L1/L2正则，以及更多的，现在比较火的L2.5正则等)；

GD(梯度下降)，SGD(随机梯度下降)，Eigenvalue(特征值)，Eigenvector(特征向量)，QR-decomposition(QR分解)，Quantile(分位数)，Covariance(协方差矩阵)。

2）常见分布：

l离散型分布：贝努利分步/二项分布；负二项分布；多式分布；几何分布；超几何分布；泊松分布

l连续型分布：均匀分布；正态分布/高斯分布；指数分布；对数正态分布；Gamma分布；Beta分布；狄利克雷分布；瑞利分布；柯西分布；韦伯分布

l三大抽样分布：卡方分布；t-distribution；F-分布

3）数据预处理：

缺失值填充；离散化；映射；归一化/标准化)。

4）采样：

简单随机采样；离线等可能K采样；在线等可能K采样；等比例随机采样；接受-拒绝采样；重要性采样；马尔科夫蒙特卡罗采样算法。

5）聚类：

K-Means；K-Mediods；二分K-Means；FK-Means；Canopy；谱聚类；混合高斯模型-期望最大化算法解决；K-Pototypes；基于划分；基于层次；基于层次；基于密度；基于密度和基于网格；2014年Science上的密度聚类算法等。

6）聚类效果评估：

纯度；芮氏指标；调整的芮氏指标；规范化互信息；F测量等。

7）分类&回归：

线性回归；逻辑回归；多分类逻辑回归；广义线性模型；岭回归/L2正则最小二乘回归；正则最小二乘回归；随机森林；决策树；梯度下降决策树；分类回归树；近邻；支持向量机；核函数；多项式核函数；高斯核函数；径向基函数；字符串核函数；朴素贝叶斯；贝叶斯网络/贝叶斯信度网络/信念网络；线性判别分析；集成学习；自适应增强；最大熵模型。

8）分类效果评估：

混淆矩阵；精确度；召回率；准确率；F得分；ROC曲线；AUC面积；Lift曲线；KS曲线。

9）概率图模型：

贝叶斯网络/贝叶斯信度网络/信念网络；马尔科夫链；马尔科夫模型；最大熵马尔科夫模型；条件随机场；马尔科夫随机场。

10）神经网络：

人工神经网络；误差反向传播；HN；循环神经网络；回声状态网络；长短记忆神经网络；CW-RNN；时钟驱动循环神经网络等。

11）深度学习：

自动编码器；堆叠自动编码器；稀疏自动编码器；去噪自动编码器；收缩自动编码器；受限玻尔兹曼机；深度信念网络；卷积神经网络；词向量学习模型。

12）降维：

线性判别分析/Fish线性判别；主成分分析；独立成分分析；奇异值分解；因子分析法。

13）文本挖掘：

向量空间模型；词向量学习模型；词频；词频-逆向文档频率；互信息；期望交叉熵；二次信息熵；信息增益；信息增益率；基尼系数；x2统计量；文本证据权；优势率；潜在语义分析；基于概率的潜在语义分析；潜在狄利克雷模型；统计语言模型；神经概率语言模型；连续词袋模型；Skip-gram等。

14）关联挖掘：

Apriori；频繁模式树生长算法；AprioriAll；Spade。

15）推荐引擎：

基于人口统计学的推荐；基于内容的推荐；协同过滤；基于用户的协同过滤推荐；基于项目的协同过滤推荐。

16）相似性与距离度量：

17）最优化：

l无约束优化：变量轮换法；模式搜索法；可变单纯形法；梯度下降法；牛顿法；拟牛顿法；共轭梯度法。

l有约束优化：近似规划法；可行方向法；罚函数法；乘子法。

l启发式算法：模拟退火算法；遗传算法

18）特征选择：

互信息；文档频率；信息增益；卡方检验；基尼系数。

19）异常点检测：

基于统计；基于距离；基于密度；基于聚类。

20）基于学习的排序：

lPointwise：McRank；

lPairwise：RankingSVM，RankNet，Frank，RankBoost；

lListwise：AdaRank，SoftRank，LamdaMART；

21）工具：

MPI；Hadoop生态圈；Spark；BSP；Weka；Mahout；Scikit-learn；PyBrain…以及一些具体的业务场景与case等。

上文内容不用于商业目的，如涉及知识产权问题，请权利人联系小编，我们将立即处理

THE END

传说中的数据挖掘工程师，究竟是做什么的？

传说中的数据挖掘工程师，究竟是做什么的？

IT是什么工作?常见问题

数据挖掘是什么？

关于数据分析那些事，看这一篇文章就够了新闻中心数据观中国大数据产业观察

高中生物知识点有哪些生物应该如何复习

数据挖掘和分析工程师

深圳数据分析师培训人工智能工程师

数据分析师和数据挖掘师有什么区别

算法工程师是做什么的

数据挖掘工程师需要的技能(17篇)

数据挖掘工程师岗位职责数据挖掘工程师工作内容

数据挖掘工程师的工作职责（精选30篇）