传说中的数据挖掘工程师,究竟是做什么的?

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.01.09上海

数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多等。

进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。

1、数据挖掘的过往

说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

第一,神经网络就像一个黑夹子一样,很多东西不透明,模型的解释性不强,以及当时没办法处理非线性分类问题(后面多层感知器便可以对非线性问题进行拟合,如解决XOR问题)。参数过多,训练复杂,容易出错,容易过拟合,无法保证全局最优,加上很多问题无法用数学方法证明(个人理解)等等。

科学家和工程师还是有区别的,科学家都想把一个问题归结为数学问题,然后证明出来,他们就会认为是有意义的,数学上证明其有效往往比做千百个实验说明其有效要好些吧,工程师往往更在乎效果与结果),直到后来出现了BP算法。

第二,得益于现在的大规模计算工具,能够处理PB级别的数据了。总之现在人工智能还远没达到人类的水平,最后结果会怎样,这个暂时不设想。

数据有了,还有个重要的方面,处理数据的能力,也就是数据处理工具,能够处理这么大的数据量,二者不可或缺,缺一谈什么大数据都是耍流氓。

2、数据挖掘工程师应具备的技能

首先你数学知识肯定要扎实吧。统计与概率论是最基本(也有人说现在的机器学习是统计学习,确实有道理)、微分与积分肯定要知道、数学公式要看的懂吧,进阶阶段最优化,随机过程等。建议去看看机器学习十大算法与一些深度学习的东西,多看大牛的博客。

对于你所说的excel、SAS、SPSS,数据分析人员专用,因为工程师嘛,编程语言还是必须的。

另外是工具,会用就行。对于是否需要学习hadoop、hive之类的,个人意见是只要知道用,然后怎么用,怎么在上面实现一些算法,怎么去优化自己写的程序就差不多了,它们只是工具,而且更新得很快,就说hadoop吧,我还没完全搞明白,就逐渐被spark取代了,记住,这些只是工具而已。推荐个加深你数据挖掘功力的东西weka(单机版的)与mahout(分布式的,有基于hadoop与spark),都是开源的。

举个例子,你在淘宝上买一件衣服,系统怎样向你推荐你感兴趣的并且和这件衣服搭配的裤子或者饰品,这就是数据挖掘工程师的一方面工作。

3、常用的知识点介绍

对于数据挖掘与机器学习,也不是小小的几百字能说清楚的,所以再补充一些想从事机器学习与数据挖掘的需要学习的知识点:

1)Basis(基础):

MSE(均方误差),LMS(最小均方),LSM(最小二乘法),MLE(最大似然估计),QP(二次规划),CP(条件概率),JP(联合概率),MP(边缘概率);

BayesianFormula(贝叶斯公式),L1/L2(L1/L2正则,以及更多的,现在比较火的L2.5正则等);

GD(梯度下降),SGD(随机梯度下降),Eigenvalue(特征值),Eigenvector(特征向量),QR-decomposition(QR分解),Quantile(分位数),Covariance(协方差矩阵)。

2)常见分布:

l离散型分布:贝努利分步/二项分布;负二项分布;多式分布;几何分布;超几何分布;泊松分布

l连续型分布:均匀分布;正态分布/高斯分布;指数分布;对数正态分布;Gamma分布;Beta分布;狄利克雷分布;瑞利分布;柯西分布;韦伯分布

l三大抽样分布:卡方分布;t-distribution;F-分布

3)数据预处理:

缺失值填充;离散化;映射;归一化/标准化)。

4)采样:

简单随机采样;离线等可能K采样;在线等可能K采样;等比例随机采样;接受-拒绝采样;重要性采样;马尔科夫蒙特卡罗采样算法。

5)聚类:

K-Means;K-Mediods;二分K-Means;FK-Means;Canopy;谱聚类;混合高斯模型-期望最大化算法解决;K-Pototypes;基于划分;基于层次;基于层次;基于密度;基于密度和基于网格;2014年Science上的密度聚类算法等。

6)聚类效果评估:

纯度;芮氏指标;调整的芮氏指标;规范化互信息;F测量等。

7)分类&回归:

线性回归;逻辑回归;多分类逻辑回归;广义线性模型;岭回归/L2正则最小二乘回归;正则最小二乘回归;随机森林;决策树;梯度下降决策树;分类回归树;近邻;支持向量机;核函数;多项式核函数;高斯核函数;径向基函数;字符串核函数;朴素贝叶斯;贝叶斯网络/贝叶斯信度网络/信念网络;线性判别分析;集成学习;自适应增强;最大熵模型。

8)分类效果评估:

混淆矩阵;精确度;召回率;准确率;F得分;ROC曲线;AUC面积;Lift曲线;KS曲线。

9)概率图模型:

贝叶斯网络/贝叶斯信度网络/信念网络;马尔科夫链;马尔科夫模型;最大熵马尔科夫模型;条件随机场;马尔科夫随机场。

10)神经网络:

人工神经网络;误差反向传播;HN;循环神经网络;回声状态网络;长短记忆神经网络;CW-RNN;时钟驱动循环神经网络等。

11)深度学习:

自动编码器;堆叠自动编码器;稀疏自动编码器;去噪自动编码器;收缩自动编码器;受限玻尔兹曼机;深度信念网络;卷积神经网络;词向量学习模型。

12)降维:

线性判别分析/Fish线性判别;主成分分析;独立成分分析;奇异值分解;因子分析法。

13)文本挖掘:

向量空间模型;词向量学习模型;词频;词频-逆向文档频率;互信息;期望交叉熵;二次信息熵;信息增益;信息增益率;基尼系数;x2统计量;文本证据权;优势率;潜在语义分析;基于概率的潜在语义分析;潜在狄利克雷模型;统计语言模型;神经概率语言模型;连续词袋模型;Skip-gram等。

14)关联挖掘:

Apriori;频繁模式树生长算法;AprioriAll;Spade。

15)推荐引擎:

基于人口统计学的推荐;基于内容的推荐;协同过滤;基于用户的协同过滤推荐;基于项目的协同过滤推荐。

16)相似性与距离度量:

17)最优化:

l无约束优化:变量轮换法;模式搜索法;可变单纯形法;梯度下降法;牛顿法;拟牛顿法;共轭梯度法。

l有约束优化:近似规划法;可行方向法;罚函数法;乘子法。

l启发式算法:模拟退火算法;遗传算法

18)特征选择:

互信息;文档频率;信息增益;卡方检验;基尼系数。

19)异常点检测:

基于统计;基于距离;基于密度;基于聚类。

20)基于学习的排序:

lPointwise:McRank;

lPairwise:RankingSVM,RankNet,Frank,RankBoost;

lListwise:AdaRank,SoftRank,LamdaMART;

21)工具:

MPI;Hadoop生态圈;Spark;BSP;Weka;Mahout;Scikit-learn;PyBrain…以及一些具体的业务场景与case等。

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

THE END
1.数据挖掘岗位职责(工作内容,是做什么的)数据挖掘是做什么的?有前途吗?工资待遇怎样?58.6%的岗位拿¥20-50K/月。招聘要求高吗?学历本科最多占68.1%,经验3-5年最多占37.5%。应该学什么专业?数学与应用数学专业、应用统计学专业、统计学专业等。数据挖掘岗位职责怎么写?为你汇总中科软,青岛永嘎科技有限公司https://www.jobui.com/gangwei/shujuwajue/
2.简要概括数据挖掘的定义二、数据挖掘的工作方式 数据挖掘的过程其实就像一场侦探游戏,侦探就是我们自己,线索就是那些看似不起眼的数据。咱们平时在网上购物,或者刷社交媒体,都会留下很多数据痕迹。你可能会觉得这些数据根本没什么用,但事实上,它们全都在为某个目标做铺垫。比如你去超市购物,系统会记录你买了什么商品,什么时候买的,甚至你https://wenku.baidu.com/view/379da718b3717fd5360cba1aa8114431b80d8e4c.html
3.数据挖掘师在市场中的地位与未来的展望随着大数据技术的飞速发展,数据挖掘这一领域也迎来了前所未有的爆炸性增长。作为一名专业的数据分析人员,数据挖掘师不仅需要具备深厚的数学和统计学知识,还要有强大的编程能力以及对业务模式的深刻理解。在这个信息爆炸时代,能够从海量数据中提取有价值信息的人才是最宝贵的。 https://www.f3kg3td6j.cn/jun-lei-zi-xun/496259.html
4.一文读懂数据挖掘是做什么的数据挖掘是一种从大量、复杂的数据集中提取有用信息和知识的技术。其主要目的是通过分析这些数据,发现隐含的、先前未知的且有潜在价值的信息。数据挖掘涉及多个学科,包括统计学、人工智能、机器学习、数据库技术等。本文将深入探讨数据挖掘的过程、应用领域 https://www.cda.cn/bigdata/204976.html
5.什么是数据挖掘?SAS规范性建模:随着来自网络、评论字段、书籍、电子邮件、PDF 文件、音频和其他文本源的非结构化数据的增长,作为数据挖掘相关学科的文本挖掘也越来越多地为人所采用。您需要能够成功解析、过滤和转换非结构化数据,以便将其包含在预测模型中,以提高预测准确性。 https://www.sas.com/zh_cn/insights/analytics/data-mining.html
6.数据挖掘的目的是什么数据挖掘的目的在于数据挖掘的目的是什么 数据挖掘的目的在于 1)数据挖掘的一种定义 是一项通过探測大量数据以发现有意义的模式和规则的业务流程。 数据挖掘是一种业务流程,它以其他业务流程产生的大量数据为输入,一般经过收集,清洗,整理。识别、分析和度量等加工,得到某种有意义的模式或规则作为输出。https://blog.51cto.com/u_13303/8789037
7.数据挖掘的定义和解释什么是数据挖掘? 数据挖掘是对大量数据进行筛选以查找可用于特定目的的相关信息的过程。数据挖掘对于数据科学和商业智能都至关重要,它本质上是关于模式的。 一旦收集并存储数据,下一步就是理解数据,否则就毫无意义。数据分析以多种方式进行,包括使用机器学习之类的概念,其中使用复杂的自适应算法来人工分析数据。 https://www.kaspersky.com.cn/resource-center/definitions/data-mining
8.什么是数据挖掘,数据挖掘的知识介绍数据挖掘是一种从大量未经整理的数据中提取有价值信息的过程。它可以帮助人们分析数据、寻找规律和建立预测模型,是数据分析领域的重要工具之一。 1.什么是数据挖掘 数据挖掘是指从大规模数据中发现有用信息的过程。数据挖掘需要使用统计学、机器学习等技术来自动化地分析数据,找出其中的模式、趋势和异常点。数据挖掘不但https://www.eefocus.com/baike/1339577.html
9.数据挖掘的含义是什么数据挖掘的含义是什么? 数据挖掘就是从大量的、不完全的、有l噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义: (1)数据源必须是真实的、大量的、有噪声的; (2)发现的是用户感兴趣的知识; https://www.dongao.com/zjjs/zy/202106173463769.shtml
10.数据挖掘(一)你真的了解什么是数据挖掘和数据本身吗?自己之所以会产生自学机器学习的念头,其实完全是因为自己对数据挖掘的兴趣,因为在我的内心一直坚信这么一个逻辑:任何事情背后都有其一定的模式,不同的情况只是对应于某些条件的不同。所以找出这样一个模式,是解决一类问题最方便最快捷的方法,作为像我这样一种懒人,当然希望用最有效率的方式解决问题。 https://blog.csdn.net/sinat_22594309/article/details/74923643
11.什么是数据挖掘?——数据挖掘的过程,方法和实例什么是数据挖掘?——数据挖掘的过程,方法和实例 数据挖掘是指从大量的数据中发现有价值的模式、规律和知识,以支持决策和预测分析的过程。通过数据挖掘,我们可以从海量数据中发现隐藏的关联性和趋势,为企业和组织提供宝贵的商业洞察力。下面将介绍数据挖掘的过程、方法和实例。https://www.jiandaoyun.com/fe/sjwjsjwjdg/
12.数据挖掘是什么?数据挖掘是什么? 由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子https://bbs.pinggu.org/jg/shuju_shujuwajue_5397925_1.html
13.数据挖掘是什么china.huanqiu.comzh-Hansarticle数据挖掘是什么数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解https://m.huanqiu.com/r/MV8wXzg5NDM0MjlfOTBfMTQ2MzUxODI3Nw==
14.什么是数据挖掘?为什么它如此重要?什么是数据挖掘?为什么它如此重要? 导读 设计师和工程师可以了解产品变更的成果,并确定与产品使用方式相关的产品成功或失败的潜在原因。与服务和维修有关的运营能够更好地规划零件库存和人员配备。提供专业服务的企业可以使用数据挖掘服务来识别人口变化和不断变化的经济趋势带来的新机遇。https://ai.qianjia.com/html/2023-03/27_400072.html
15.什么是数据挖掘数据挖掘介绍?IBM5. 结果评估和知识实施:汇总数据后,通常可以利用数据可视化技术为呈现做好准备,以便对结果进行评估和解读。理想情况下,最终结果是有效的、新颖的、有用的且可以理解的。当满足这些标准时,决策者可以利用这些知识来实施新的战略,实现其预期目标。 数据挖掘是指利用各种算法和技术把大量的数据转化为有用的信息。 以下是https://www.ibm.com/cn-zh/topics/data-mining
16.什么是数据挖掘?定义重要性与类型SAP数据挖掘是利用高级分析工具从海量数据中提取有用信息的过程。https://www.sap.cn/products/technology-platform/hana/what-is-data-mining.html
17.什么是数据挖掘确定数据挖掘的目标,根据用户需求发现的知识类型,为选择合适数据挖掘算法提供依据。 选择算法,根据数据本身的特点和预期实现的功能,选择对应的算法和模型,从数据中提取隐含的模型,可选方法包括回归分析、分类、聚类、决策树、神经网络和 Web 挖掘等,它们各自侧重于以不同的角度对数进行分析和挖掘。 http://www.360doc.com/content/24/1128/14/29592488_1140636850.shtml
18.探索数据挖掘的奥秘——爬取数据是什么意思探索数据挖掘的奥秘——爬取数据是什么意思 在信息时代,数据被视为新的石油,而数据挖掘则是从这些数据中发现并提取有价值信息的过程。爬取数据则是衍生自数据挖掘中一项重要的技术。本文将深入探讨爬取数据的意义与方法,阐述数据挖掘在信息时代的重要性。 https://www.147seo.com/post/30201.html