传说中的数据挖掘工程师,究竟是做什么的?

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.01.09上海

数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多等。

进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。

1、数据挖掘的过往

说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

第一,神经网络就像一个黑夹子一样,很多东西不透明,模型的解释性不强,以及当时没办法处理非线性分类问题(后面多层感知器便可以对非线性问题进行拟合,如解决XOR问题)。参数过多,训练复杂,容易出错,容易过拟合,无法保证全局最优,加上很多问题无法用数学方法证明(个人理解)等等。

科学家和工程师还是有区别的,科学家都想把一个问题归结为数学问题,然后证明出来,他们就会认为是有意义的,数学上证明其有效往往比做千百个实验说明其有效要好些吧,工程师往往更在乎效果与结果),直到后来出现了BP算法。

第二,得益于现在的大规模计算工具,能够处理PB级别的数据了。总之现在人工智能还远没达到人类的水平,最后结果会怎样,这个暂时不设想。

数据有了,还有个重要的方面,处理数据的能力,也就是数据处理工具,能够处理这么大的数据量,二者不可或缺,缺一谈什么大数据都是耍流氓。

2、数据挖掘工程师应具备的技能

首先你数学知识肯定要扎实吧。统计与概率论是最基本(也有人说现在的机器学习是统计学习,确实有道理)、微分与积分肯定要知道、数学公式要看的懂吧,进阶阶段最优化,随机过程等。建议去看看机器学习十大算法与一些深度学习的东西,多看大牛的博客。

对于你所说的excel、SAS、SPSS,数据分析人员专用,因为工程师嘛,编程语言还是必须的。

另外是工具,会用就行。对于是否需要学习hadoop、hive之类的,个人意见是只要知道用,然后怎么用,怎么在上面实现一些算法,怎么去优化自己写的程序就差不多了,它们只是工具,而且更新得很快,就说hadoop吧,我还没完全搞明白,就逐渐被spark取代了,记住,这些只是工具而已。推荐个加深你数据挖掘功力的东西weka(单机版的)与mahout(分布式的,有基于hadoop与spark),都是开源的。

举个例子,你在淘宝上买一件衣服,系统怎样向你推荐你感兴趣的并且和这件衣服搭配的裤子或者饰品,这就是数据挖掘工程师的一方面工作。

3、常用的知识点介绍

对于数据挖掘与机器学习,也不是小小的几百字能说清楚的,所以再补充一些想从事机器学习与数据挖掘的需要学习的知识点:

1)Basis(基础):

MSE(均方误差),LMS(最小均方),LSM(最小二乘法),MLE(最大似然估计),QP(二次规划),CP(条件概率),JP(联合概率),MP(边缘概率);

BayesianFormula(贝叶斯公式),L1/L2(L1/L2正则,以及更多的,现在比较火的L2.5正则等);

GD(梯度下降),SGD(随机梯度下降),Eigenvalue(特征值),Eigenvector(特征向量),QR-decomposition(QR分解),Quantile(分位数),Covariance(协方差矩阵)。

2)常见分布:

l离散型分布:贝努利分步/二项分布;负二项分布;多式分布;几何分布;超几何分布;泊松分布

l连续型分布:均匀分布;正态分布/高斯分布;指数分布;对数正态分布;Gamma分布;Beta分布;狄利克雷分布;瑞利分布;柯西分布;韦伯分布

l三大抽样分布:卡方分布;t-distribution;F-分布

3)数据预处理:

缺失值填充;离散化;映射;归一化/标准化)。

4)采样:

简单随机采样;离线等可能K采样;在线等可能K采样;等比例随机采样;接受-拒绝采样;重要性采样;马尔科夫蒙特卡罗采样算法。

5)聚类:

K-Means;K-Mediods;二分K-Means;FK-Means;Canopy;谱聚类;混合高斯模型-期望最大化算法解决;K-Pototypes;基于划分;基于层次;基于层次;基于密度;基于密度和基于网格;2014年Science上的密度聚类算法等。

6)聚类效果评估:

纯度;芮氏指标;调整的芮氏指标;规范化互信息;F测量等。

7)分类&回归:

线性回归;逻辑回归;多分类逻辑回归;广义线性模型;岭回归/L2正则最小二乘回归;正则最小二乘回归;随机森林;决策树;梯度下降决策树;分类回归树;近邻;支持向量机;核函数;多项式核函数;高斯核函数;径向基函数;字符串核函数;朴素贝叶斯;贝叶斯网络/贝叶斯信度网络/信念网络;线性判别分析;集成学习;自适应增强;最大熵模型。

8)分类效果评估:

混淆矩阵;精确度;召回率;准确率;F得分;ROC曲线;AUC面积;Lift曲线;KS曲线。

9)概率图模型:

贝叶斯网络/贝叶斯信度网络/信念网络;马尔科夫链;马尔科夫模型;最大熵马尔科夫模型;条件随机场;马尔科夫随机场。

10)神经网络:

人工神经网络;误差反向传播;HN;循环神经网络;回声状态网络;长短记忆神经网络;CW-RNN;时钟驱动循环神经网络等。

11)深度学习:

自动编码器;堆叠自动编码器;稀疏自动编码器;去噪自动编码器;收缩自动编码器;受限玻尔兹曼机;深度信念网络;卷积神经网络;词向量学习模型。

12)降维:

线性判别分析/Fish线性判别;主成分分析;独立成分分析;奇异值分解;因子分析法。

13)文本挖掘:

向量空间模型;词向量学习模型;词频;词频-逆向文档频率;互信息;期望交叉熵;二次信息熵;信息增益;信息增益率;基尼系数;x2统计量;文本证据权;优势率;潜在语义分析;基于概率的潜在语义分析;潜在狄利克雷模型;统计语言模型;神经概率语言模型;连续词袋模型;Skip-gram等。

14)关联挖掘:

Apriori;频繁模式树生长算法;AprioriAll;Spade。

15)推荐引擎:

基于人口统计学的推荐;基于内容的推荐;协同过滤;基于用户的协同过滤推荐;基于项目的协同过滤推荐。

16)相似性与距离度量:

17)最优化:

l无约束优化:变量轮换法;模式搜索法;可变单纯形法;梯度下降法;牛顿法;拟牛顿法;共轭梯度法。

l有约束优化:近似规划法;可行方向法;罚函数法;乘子法。

l启发式算法:模拟退火算法;遗传算法

18)特征选择:

互信息;文档频率;信息增益;卡方检验;基尼系数。

19)异常点检测:

基于统计;基于距离;基于密度;基于聚类。

20)基于学习的排序:

lPointwise:McRank;

lPairwise:RankingSVM,RankNet,Frank,RankBoost;

lListwise:AdaRank,SoftRank,LamdaMART;

21)工具:

MPI;Hadoop生态圈;Spark;BSP;Weka;Mahout;Scikit-learn;PyBrain…以及一些具体的业务场景与case等。

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

THE END
1.数据挖掘分析师和分析工程师有什么区别说明:数据挖掘分析师和分析工程师哪个工资高?数据挖掘分析师高于分析工程师。数据挖掘分析师平均工资¥22.7K/月,2024年工资¥22.0K,2024年工资低于2023年,分析工程师平均工资¥15.7K/月,2024年工资¥16.0K,2024年工资低于2023年,统计依赖于各大平台发布的公开数据,系统稳定性会影响客观性,仅供参考。 就业https://www.jobui.com/gangwei/pk/shujuwajuefenxishi-fenxigongchengshi/
2.数据挖掘工程师招聘招聘数据挖掘工程师人才猎聘数据挖掘工程师招聘网为您提供大量的数据挖掘工程师招聘信息,有超过10000多数据挖掘工程师招聘信息任你选寻,招聘数据挖掘工程师人才就来猎聘数据挖掘工程师招聘网!https://m.liepin.com/career/shujuwajue/
3.上海文华财经资讯股份有限公司招聘怎么样?数据挖掘工程师30k-40k 上海硕士及以上1-3年 职位描述 【岗位职责】 1.风险数据挖掘,负责利用各类分析工具从内外部数据中挖掘出有价值的原始变量及衍生变量,提升风险策略和模型的风险识别效果;负责定义数据挖掘标准,特征库的维护和管理,提升公司的数字资产管理能力; 2.数据分析,负责分析、统计数据,并根据数据分析结果https://maimai.cn/brand/home/DHavcvKm
4.数据挖掘数据挖掘工程师是做什么的?51CTO博客【数据挖掘】数据挖掘工程师是做什么的? 数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力https://blog.51cto.com/u_15127680/4773772
5.数据挖掘算法工程师是什么帆软数字化转型知识库数据挖掘算法工程师是一种专门从事数据挖掘和分析的职业。数据挖掘算法工程师的主要职责包括:数据预处理、算法设计与实现、模型训练与评估、数据可视化等。其中,算法设计与实现是数据挖掘算法工程师最重要的工作之一,因为不同的数据挖掘任务需要不同的算法和模型,这些算法的设计与实现直接影响到数据挖掘的效果和效率。通过https://www.fanruan.com/blog/article/580695/
6.数据挖掘工程师:职能职责是什么?职场百科数据挖掘工程师 岗位职责: 运用机器学习、数据挖掘技术判别海量文件的安全性,提高文件识别的准确率和自动化程度 主要工作内容包括: 1. 通过对数据的敏锐洞察,发觉文件本身特征及文件间的潜在关联,判别文件的安全性 2. 大规模机器学习算法研究及并行化实现,为各种大规模机器学习应用提供稳定服务https://www.gaohr.com/baike/knowledge-109.html
7.算法工程师和数据挖掘工程师有什么区别吗#数据挖掘##算法工程师# 全部评论 推荐 最新 楼层 已注销 数据挖掘工程师和算法工程师都需要一定的数学基础,前者侧重数据挖掘算法,比如层次聚类等等。算法工程师就根据算法领域各有不同了,cv,nlp,语音合成,自动驾驶等等。另外在目前的大数据环境下,数据挖掘工程师需要spark那一套的大数据框架,对算法要求程度并不高https://m.nowcoder.com/discuss/196851?type=0&order=0&page=1
8.算法工程师软件工程师大数据工程师,傻傻分不清楚算法工程师的范围是小于数据挖掘工程师的 数据挖掘工程师需要了解整套数据流入的过程,包括数据的接入、预处理,然后需要知道怎么用数据解决实际的业务问题,说白就是想办法让数据产生价值。 他需要知道一整个数据到业务输出的机制或者说是系统,可能涉及到复杂的算法转化,也可能只是简单的规则转化,或者多个模型的转化组合输出https://blog.csdn.net/weixin_42462804/article/details/104369625
9.最好的十个统计学就业方向统计学毕业找什么工作→MAIGOO生活榜统计学的应用范围已延伸至自然科学、社会科学的各个领域。那么,统计学毕业后干什么工作好,统计学就业方向及前景如何?数据分析师、市场调查分析师、统计师、精算师、数据挖掘工程师、行业分析师等统计学就业岗位怎么样?下面买购小编和大家来了解下。 数据分析师https://www.maigoo.com/top/421964.html
10.工信部数据分析方向——“数据挖掘工程师”岗位能力考试项目介绍“数据挖掘工程师”岗位能力考试项目介绍 一 发证部门介绍 工业和信息化部人才交流中心(以下简称“中心”)创立于1985年1月,是中央机构编制委员会办公室批准成立、国家事业单位登记管理局登记、工业和信息化部直属的公益二类事业单位,是工业和信息https://mp.weixin.qq.com/s?__biz=Mzg2ODIxNzUzMA==&mid=2247552694&idx=7&sn=362babe6bd7683d3f5189b0f7f64a35d&chksm=ceade963f9da607576a396e1cc883f6c32533011f3c8db060274f05596d1f8ea22e99d774db3&scene=27
11.观点有一种说法,算法工程师的薪酬只有三档(附大数据工程师2. 数据挖掘工程师——这类团队面对的挑战不限于一个具体问题,而在于如何将复杂的业务逻辑转化为算法、模型问题。因此不但要求工程师在算法上探索得足够深,但需要足够的交叉能力。需要了解常见的机器学习算法,同时也要有迅速理解业务的能力。 从企业对岗位的要求,我们可以分析出: https://blog.itpub.net/69903766/viewspace-2286314/
12.数据挖掘工程师和算法工程师哪个好在当今的科技行业中,数据挖掘工程师和算法工程师都是非常重要的角色。虽然两个职位有许多相似之处,但它们的工作内容和职责还是存在一定的差异。以下是对数据挖掘工程师和算法工程师的一些比较和分析,希望能帮助大家更好地了解两个职位的区别和优劣。 一、工作职责和技能要求https://www.pxwy.cn/school-5357/document-id-25842.html
13.数据挖掘工程师笔试及答案整理elar2013百度校园招聘数据挖掘工程师 一、简答题(30分) 1、简述数据库操作的步骤(10分) 步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。 经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存https://www.cnblogs.com/elaron/p/3325937.html
14.什么是大数据工程专业职称?有哪些条件?大数据工程师正高级随着大数据的蓬勃发展和愈演愈热,大数据相关的职业逐渐成为热门,给人才发展带来了很多机会。与大数据相关的工作职称主要有:大数据开发工程师、数据分析师、数据挖掘工程师、数据架构师、数据库开发、数据库管理、数据科学家、数据产品经理等。 职称申报季,智炬小编为您提供申报指南与申报前沿消息。欢迎和智炬小编在评论区https://m.163.com/dy/article/HE18JJ0V0552MZYS.html
15.数据开发工程师是做什么的数据开发工程师是做什么的 数据开发工程师是互联网行业长期招聘岗位,从业者需要具备计算机相关专业学习经验,掌握Oracle、SQL Server等主流数据库的开发和设计,具备良好的沟通能力。其工作内容包括: 1、参与产品需求调研分析与设计,根据产品需求设计说明书并编写数据模型设计文档;https://wenku.51job.com/article448865/
16.数据挖掘分析工程师招聘招聘求职信息拉勾招聘为您提供数据挖掘分析工程师招聘求职信息,即时沟通,急速入职,薪资明确,面试评价,让求职找工作招聘更便捷!想去互联网好公司,就上拉勾https://m.lagou.com/wn/s/list_a327c2aac0cf0e6732f6a7638345fdd6205eaeae94509db2454e9d9edc46340c
17.数据挖掘工程师工作的基本职责描述数据挖掘工程师工作的基本职责描述4 职责: 1、为运营商提供深入的业务分析服务,根据业务需求进行数据统计、分析,撰写分析报告。 2、负责电信行业数据分析和数据挖掘工作,包括数据模型的需求分析、模型开发和结果分析。 3、负责电信行业咨询和系统实施类项目的数据需求调研、数据分析、商业分析和数据挖掘模型等相关项目的实https://www.oh100.com/zhichang/3895793.html