一文带你了解什么是数据挖掘大数据技术

官方的定义,数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

通俗易懂的说,数据挖掘就是从大量的数据中,发现那些我们想要的“东西”。

02这个“东西”具体指什么

一种被称为预测任务。

也就是说给了一定的目标属性,让去预测目标的另外一特定属性。如果该属性是离散的,通常称之为‘分类’,而如果目标属性是一个连续的值,则称之为‘回归’。

另一种被称为描述任务。

其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起,而异常检测将离群太远的点给剔除出来。

03数据挖掘的一般过程包括以下几个方面:

数据预处理数据挖掘后处理

至于数据挖掘和后处理相对来说就容易理解多了。完成了数据的预处理,我们通常进行特征构造,然后放到特定的模型中去计算,利用某种标准去评判不同模型或组合模型的表现,最后确定一个最合适的模型用于后处理。后处理的过程相当于已经发现了那个我们想要找到的结果,然后去应用它或者用合适的方式将其表示出来。

这里涉及到数据挖掘的一系列算法,主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里,最为经典的则是下面这十大算法。

1、分类决策树算法C4.5

C4.5,是机器学习算法中的一种分类决策树算法,它是决策树(决策树,就是做决策的节点间的组织方式像一棵倒栽树)核心算法ID3的改进算法。

2、K平均算法

K平均算法(k-meansalgorithm)是一个聚类算法,把n个分类对象根据它们的属性分为k类(k

3、支持向量机算法

支持向量机(SupportVectorMachine)算法,简记为SVM,是一种监督式学习的方法,广泛用于统计分类以及回归分析中。

4、TheApriorialgorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段“频繁项集”思想的递推算法。其涉及到的关联规则在分类上属于单维、单层、布尔关联规则。

5、大期望(EM)算法

大期望(EM,Expectation–Maximization)算法是在概率模型中寻找参数大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。大期望经常用在机器学习和计算机视觉的数据集聚领域。

6、PageRank算法

PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。

7、AdaBoost迭代算法

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

8、kNN最近邻分类算法

K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

9、NaiveBayes朴素贝叶斯算法

NaiveBayes算法通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,并选择具有大后验概率的类作为该对象所属的类。朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,其算法也比较简单。

10、CART:分类与回归树算法。

分类与回归树算法(CART,ClassificationandRegressionTrees)是分类数据挖掘算法的一种,有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。

结语:

但请不要恐慌,想想自己可以利用机器的力量、数学的力量理解世界的运行规律,去预测或者利用研究到的东西做一些有意思的事情,这也是一种不可多得的享受!

THE END
1.数据挖掘的主要技术和应用数据挖掘(Data Mining)是一种利用统计学、机器学习、数据库、算法等方法从大量数据中发现隐藏的模式、规律和知识的科学。数据挖掘技术广泛应用于商业、金融、医疗、科学等领域,为决策提供有价值的信息和洞察,提高了企业的竞争力和效率。 在本文中,我们将从以下几个方面进行阐述: https://blog.csdn.net/universsky2015/article/details/137300243
2.数据挖掘主要技术有哪些?新手必看!数据挖掘主要技术有哪些?新手必看! 数据挖掘主要技术包括统计学、聚类分析、决策树分类技术、人工神经网络。 1、统计学虽然是一门“古老的”学科,但它依然是最基本的数据挖掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。https://zhuanlan.zhihu.com/p/532097299
3.数据挖掘设计的技术有哪些帆软数字化转型知识库数据挖掘设计的技术有哪些 数据挖掘设计中常用的技术有分类、回归、聚类、关联规则和降维等。分类技术通过已知类别的数据集来训练模型,以便预测未知数据的类别;回归技术用于预测连续变量的数值;聚类技术将数据分组,使得同一组内的数据相似度较高,组间差异较大;关联规则技术用于发现数据项之间的有趣关系;降维技术通过减少https://www.fanruan.com/blog/article/583196/
4.数据挖掘的技术都有哪些?数据挖掘的技术都有哪些? 如果我们学习数据分析,那么肯定少不了也要好好学习一下数据挖掘。我们都知道,要想掌握好数据挖掘就需要掌握很多的相关技术。一般来说,数据挖掘工作的技术有关联规则、分类、聚类、决策树、序列模式,下面我们就给大家讲述一下这些知识。https://www.cda.cn/view/26917.html
5.数据挖掘技术主要包括哪些?数据挖掘的技术,可分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法,可细分为:回归https://m.imooc.com/wenda/detail/508957
6.数据挖掘有哪些功能导读随着大数据发展越来越好,数据挖掘成为了未来发展的一大趋势,数据挖掘和分析技术在各行业发挥着重要作用,小编为大家整理了数据挖掘的具体功能介绍,一起来看看吧。 数据挖掘有哪些功能: 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五https://www.baijiao.org/school/zhengzhouxinyingdajiaoyu/news/14499.html
7.数据仓库系统的技术有哪些数据仓库系统的技术主要包括ETL(抽取、转换、加载)、数据建模、数据挖掘和OLAP多维分析。ETL用于数据的提取、清洗和加载;数据建模用于设计数据仓库的结构;数据挖掘用于发现数据中的模式和趋势;OLAP多维分析用于对数据进行多维度的分析和查询。 数据仓库系统的技术有哪些 https://h.chanjet.com/ask/7690e15a41ff9.html
8.数据统计分析和数据挖掘有何区别?大数据CIO时代网摘要:从实践应用角度来看,这个问题并没有很大的意义,正如“不管黑猫白猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。 https://www.ciotimes.com/bigdata/158710.html
9.大数据挖掘主要涉及哪些技术?大数据挖掘主要涉及的技术有以下几种:1、决策树学习技术;2、分类技术;3、聚类分析技术;4、粗糙集技术;5、回归分析技术;6、关联规则技术;7、特征分析技术;8、神经网络技术;9、遗传算法技术。 1、决策树学习技术 决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根节点排列到某个叶子节点来分类实例,叶https://www.linkflowtech.com/news/1988
10.商务智能包括哪些技术商务智能包括哪些技术 商务智能这一术语1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商务智能包括的技术有:1、数据仓库;2、数据挖掘;3、数据集成和存储管理;4、数据分析和建模;5、联机分析处理(OLAP)。https://36kr.com/p/1497099355715712
11.一文回顾近二十年数据科学领域的里程碑事件或突破性技术总之,“大数据”和“数据科学”成为了当前最流行的词汇之一。那么,在进入21世纪后迅速发展的短短二十年中,数据科学领域有哪些里程碑事件或突破性技术值得铭记呢?下面让我们来一一盘点。 一、2001年 1.数据挖掘 数据挖掘其实是一个逐渐演变的过程。电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时https://maimai.cn/article/detail?fid=1446221264&efid=1yTum-SWXEP826HTaiNUkA
12.数据挖掘的技术有很多种,按照不同的分类有不同的分类法数据挖掘的技术有很多种,根据不同的分类有不同的分类方法。以下是数据挖掘中常用的一些技术:统计技术、相关规则、基于历史分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析、概念描述等13种常用的数据挖掘技术。 https://www.tulingxueyuan.cn/tlzx/jsp/1626.html