CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.深度分析:数据挖掘的定义技术和应用领域数据挖掘是一种从大规模数据集中发现模式、关系和趋势的过程。本文将深入分析数据挖掘的定义、常用技术和广泛应用的领域,以帮助读者更好地理解数据挖掘的本质和潜力。引言:在信息时代,大量的数据被生成和存储,数据本身蕴含着巨大的价值。数据挖掘作为一种分析数据的方法,可以帮助人们从大规模数据集中提取有用的信息https://baijiahao.baidu.com/s?id=1775068330988944162&wfr=spider&for=pc
2.数据挖掘的定义包含的含义都有哪些呢?问答(4)并不要求发现放之四海皆准的知识,仅支持特定问题的发现。https://developer.aliyun.com/ask/442086
3.1.3.1数据挖掘定义的翻译是:1.3.1dataminingdefinition中文aSquirrel cage induction motor. 鼠笼磁感应电动机。[translate] aStampede with Nainai&Baba 惊逃与Nainai&Baba[translate] ado some rea 做某一rea[translate] a没有难以置信的事情! Not unbelievable matter![translate] a1.3.1数据挖掘定义 1.3.1 data mining definition[translate]http://eyu.zaixian-fanyi.com/fan_yi_940936
4.数据挖掘之定义wzjhoutai数据挖掘是一种决策支持过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等。高度自己主动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略。降低风险。做出正确的决策。 数据挖掘的定义 技术上的定义及含义 https://www.cnblogs.com/wzjhoutai/p/7106709.html
5.数据仓库和数据挖掘的定义定义华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:数据仓库和数据挖掘的定义。https://support.huaweicloud.com/topic/1351852-4-S
6.数据挖掘的定义好处应用顶级技术做数据挖掘的好处这就是为什么今天我们要讨论数据挖掘。我们将探讨数据挖掘的各个方面,包括它的含义,它的阶段,数据挖掘技术,它提供的好处还有数据挖掘工具等等。让我们以数据挖掘的定义为开端,然后介绍数据挖掘的概念和技术。 现在我们将从了解什么是数据挖掘开始。 什么是数据挖掘? https://blog.csdn.net/Bluehost_China/article/details/126854519
7.数据挖掘中分类的定义数据挖掘中分类的含义数据挖掘中分类的定义 数据挖掘中分类的含义 1.分类(监督) 分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类https://blog.51cto.com/u_16213608/9192676
8.数据挖掘的定义和解释关联规则:这也称为购物篮分析。这种类型的数据挖掘搜索变量之间的关系。例如,关联规则可能会查看一家公司的销售历史记录,了解哪些产品最常被一起购买。该公司可以使用这些信息进行规划、促销和预测。 聚类分析:聚类旨在识别数据集内的相似性,将具有共同特性的数据点划分为多个子集。聚类可用于定义数据集内的特性,例如根https://www.kaspersky.com.cn/resource-center/definitions/data-mining
9.数据挖掘概念MicrosoftLearn该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。 这些任务转换为下列问题: 您在查找什么? 您要尝试找到什么类型的关系? 您要尝试解决的问题是否反映了业务策略或流程? 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联? https://technet.microsoft.com/zh-cn/library/ms174949.aspx
10.什么是数据挖掘?定义重要性与类型SAP数据挖掘是利用高级分析工具从海量数据中提取有用信息的过程。https://www.sap.cn/products/technology-platform/hana/what-is-data-mining.html
11.数据挖掘的过程包括:问题定义数据采集数据探索[填空1数据挖掘的过程包括:问题定义、数据采集、数据探索、[填空1]、数据挖掘和模型评价与部署。参考答案:1、数据预处理 点击查看答案&解析进入小程序搜题你可能喜欢关于带薪年假制度,下列说法正确的是 A. 用人单位安排职工休年休假,但是职工口头提出不休年休假的,用人单位可以只支付其正常工作期间的工资收入 B. 对职工https://m.ppkao.com/wangke/daan/9fae4403b31242df8b9065eeeaf10ed4
12.数据挖掘:概念与技术(原书第3版)PDF扫描版电子书下载本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。 https://www.jb51.net/books/155804.html
13.数据挖掘工具市场洞察报告摩澜数智市场咨询第一章: 数据挖掘工具定义、发展概况与产业链分析; 第二章: 数据挖掘工具行业发展周期、成熟度、市场规模统计与预测、俄乌冲突及中美贸易摩擦对该行业的影响分析; 第三章:数据挖掘工具行业现有问题、发展策略、可预见问题及对策; 第四章:北美(美国、加拿大、墨西哥)、欧洲(德国、英国、法国、意大利、北欧、西班牙、https://www.shangyexinzhi.com/article/23700956.html