CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.数据挖掘概念(AnalysisServices有关如何将 SQL Server 工具应用于业务方案的示例,请参阅数据挖掘基础教程。 定义问题 与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.网络资源:数据挖掘实战1(电力窃漏电用户识别)本次学习我们将使用“什么是数据挖掘”中的挖掘过程:根据实际问题定义挖掘目标、取什么样的原始数据、对原始数据的探索分析、如何对数据进行处理、建立合适的模型完成目标、评估模型完成的好不好。 问题背景:实际生活中,有很多人可能会偷别人的电用,或者计量电量的设备坏了,造成无法根据实际用电情况计价,可能导致用户多https://nonlinear.wtu.edu.cn/info/1117/1665.htm
3.艺术档案数字化民间艺术的数字化涉及信息的采集、处理和储存,这其中包含采集设备的选择、数据处理方式、储存格式和数据库技术。但是截止到目前,并没有一个全国统一的数据加工规范或标准,无论在民间艺术普查阶段还是在名录项目申过程中,都不同程度存在一些问题,具体表现在:数据资料保存很好,但标示和描述很差,以至于使潜在的用户无法了解https://www.zboao.com/cgal/8068.html
4.AI知识图谱:机器学习深度学习数据分析数据挖掘「附脑图」数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。 数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。 约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖https://www.iyong.com/displaynews.html?id=2974432318981056
5.科学网—一门新的学说《逻辑结构与逻辑工程学》逻辑方程通过代入海量常量求出海量变量的值,实现海量数据方程挖掘。方程由方程项、连接符和等号组成,一个方程项就是一个逻辑函数。逻辑函数第一步把不同类型的函数项通过求指数和加权转化成同一类型,用同一类型的连接符连接,逻辑函数仍然通过求指数和加权形成方程项,用同一类型连接符连接。求逻辑变量的过程是构建逻辑https://blog.sciencenet.cn/blog-3482188-1294934.html
6.15个热门开源免费的数据挖掘数据分析数据质量管理工具数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。 数据分析的完整流程图 数据挖掘,顾名思义,就像从沙子中挖掘黄金。 数据挖掘全过程 数据质量含义还是比较好理解的。简单一点来说,就是对数据进行的质量检测。这个就不过多解释。 数据质量问题 https://www.51cto.com/article/777596.html
7.王树森ReinforcementLearning学习笔记(ing)(2)马尔可夫决策过程的状态转移概率和奖励函数不仅取决于智能体当前状体,还取决于智能体选取的动作。 例子:学生马尔可夫决策过程 解释:黄色字体表示学生采取的动作,框图表示MRP的状态名(避免混淆隐去),R表示奖励函数,其与学生所采取的动作有关。注意:当学生选择“去查阅文献pub”这个动作时,则将进入一个临时状态(图https://zhuanlan.zhihu.com/p/10389734563
8.深度详解:对象检测和图像分割的数据探索过程数据挖掘对于图像分割和目标检测的需要 数据探索是很多机器学习过程的关键。也就是说,当涉及到目标检测和图像分割数据集时,没有直接的方法进行系统地数据探索。 在处理常规图像数据集和分割图像数据集时,有很多东西是可以区分的: 标签被强绑定在图像上。您必须非常小心对图像所做的任何操作,因为它可能破坏图像-标签-https://www.flyai.com/article/703
9.图像分类综述医学图像数据挖掘 图像检测 遥感图像分类 1.5 图像分类的基本过程 基本操作是建立 图像内容的描述,然后利用机器学习方法学习图像类别,最后利用学习得到的模型对未知图像进行分类。 一般来说,图像分类性能主要与图像特征提取和分类方法密切相关。图像特征提取是图像分类的基础,提取的图像特征应能代表各种不同的图像属性; https://www.jianshu.com/p/dc1c81e42897
10.数据挖掘简介数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识. 数据挖掘环境可示意如下图: 数据挖掘环境框图.gif 2、数据挖掘过程图 下图描述了数据挖掘的基本过程和主要步骤 数据挖掘的基本过程和主要步骤 https://blog.csdn.net/quanzaiwoxin1/article/details/108234828
11.图挖掘算法gSpan元気森林近年来,图挖掘作为,数据挖掘的重要组成部分引起了社会各界的极大关注。图挖掘(Graph Mining)是指利用图模型从海量数据中发现和提起有用知识和信息的过程。通过图挖掘所获取的知识和信息已广泛应用于各种领域,如商务管理、市场分析、生产控制、科学探索和工程设计。 https://www.cnblogs.com/-402/p/16450309.html
12.数据挖掘原理算法及应用章(8)第8章复杂类型数据挖掘 1.空间数据来源和类型繁多,概括起来主要有以下几种类型:(1)地图数据:来源于各种类型的普通地图和专题地图,这些地图的内容丰富,图上实体间的空间关系直观,实体的类别和属性清晰,实测地形图还具有很高的精度。(2)影像数据:主要来源于卫星遥感和航空遥感,包括多平台、多层面、多种https://wenku.baidu.com/view/3328fe8c81c4bb4cf7ec4afe04a1b0717ed5b317.html
13.网络图的motif发现算法研究网络图的motif发现算法研究,图挖掘,数据挖掘,图同构,并行计算,网络图中的motif是一种连通的导出子图,并且满足在原图中出现的次数比它在随机图中出现的次数多很多。这种性质可以解释成这种子图https://wap.cnki.net/lunwen-1015559524.html
14.低代码RPA和AI,有什么区别腾讯云开发者社区头图| 下载于视觉中国 在To B领域,低代码、RPA和AI可谓是“流量担当”,它们自带To B基因,搭载快速发展的企业服务赛道,在企业级IT服务这一细分市场崭露头角。以这三者为代表的前沿理念和科技引领IT产业升级将是To B领域重要的长期趋势。 本文我们将通过对低代码、RPA、AI当下火热背后的观察,以微知著,探索企业级https://cloud.tencent.com/developer/article/2282164
15.图数据库发展综述典型的图挖掘算法包括频繁子图、三角形计数等. 频繁子图算法用于枚举在图中所有出现次数超过设定阈值的子图, 一般采用自底向上(即扩展图规模)的挖掘策略, 包括基于Apriori的Apriori-MaxGraph算法、基于FP-增长的MARGIN算法等. 该类算法缺点在于挖掘过程中需经过多次迭代及多次子图同构的判断, 且子图同构的判断属于NPhttps://c-s-a.org.cn/html/2022/8/8713.html
16.图挖掘技术在京东广告流量风控上的应用与实践目前初步设计出图挖掘算法平台的框架并在不断的进行优化和建设中,未来希望能够建设成为一个具有支持较多主流图挖掘算法的基础算法平台,能够支持 billion 量级、超大规模风控场景下的图挖掘应用需求,设计初期的图挖掘算法平台的架构(图5)。 图5:图挖掘算法平台主要包含六层,从下到上依次为数据层(由业务数据封装成的https://maimai.cn/article/detail?fid=1567807199&efid=OaWNb5R1UOE_ZaDNI3D1mg