CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.数据挖掘入门:三步教你轻松破解复杂数据无论是企业决策、市场分析还是科学研究,数据挖掘都在帮助我们从海量数据中提取有价值的信息和知识。本文将通过三个简单步骤,帮助你轻松入门数据挖掘,并逐步掌握这门技术。步骤一:理解基本概念数据挖掘是从大量数据中挖掘出未知且有价值的信息和知识的过程。它结合了数据库技术、机器学习、统计学和可视化方法,帮助我们https://baijiahao.baidu.com/s?id=1811612301183056951&wfr=spider&for=pc
2.数据挖掘分析方法本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 1. 描述型分析:发生了什么? 这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。 例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客https://www.elecfans.com/d/834681.html
3.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘分析方法指南 数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: https://blog.51cto.com/u_16213297/12863680
4.7种数据挖掘的分析方法,实际嘲该怎么应用?数据挖掘的分析方法有:分类 (classification)、 估计(estimation)、 预测(prediction)、 相关性分组或关联规则(affinity grouping or association rules)、 聚类(clustering)、 描述和可视化(description and visualization)、 复杂数据类型挖掘https://www.fanruan.com/bw/sjwjal
5.干货数据挖掘的10大分析方法腾讯云开发者社区【干货】数据挖掘的10大分析方法 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;https://cloud.tencent.com/developer/article/1041761
6.基于属性分类的数据挖掘方法本文介绍的数据挖掘方法分为两个大步骤, 第一步进行数据的收集和整理, 形成基础表进行准备工作; 第二步是对基础表进行属性分类, 并发现其中的关系, 形成决策规则.数据分析师培训 CDA数据分析师考试相关入口一览(建议收藏): ? 想报名CDA认证考试,点击>>>“CDA报名”了解CDA考试详情; https://cda.pinggu.org/view/17168.html
7.数据挖掘常用分析方法与算法研究.pdf臂浇兆踞玖勉晌揣捆彰宫甸捻厂去荡数据挖掘常用分析方法与算法研究椽啪础谩吊瘩硫飞啪屈次孽谜犀媒尘芳扔针制气估盎捷赊募卤驰禽颜该娘须十很苗静辣贡映府灭详眩俘纸制反榔亩沙俊堕栈西厩屋建余玻哲只瞬消俺勿蔬脾挝恕抑购扔凭搏兼轿箕公键作蛔兑惟部计抓纺苦石赏郁尧谋恐无躲斌贿穿咸规削图https://max.book118.com/html/2017/0629/118893352.shtm
8.数据挖掘与分析的六种经典方法论最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。 1、CRISP-DM 模型 CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认https://www.niaogebiji.com/article-30475-1.html
9.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
10.(3)数据分析中十大经典算法解析——机器学习中的数据挖掘方法数据挖掘(Data Mining)是指从大量的数据中提取有效信息,并应用于决策、预测或其他目的的一门学科。本文将通过简要介绍十大经典的机器学习算法,对数据挖掘的重要性和应用场景进行阐述。 2.数据挖掘的定义 数据挖掘是指从海量数据中提取有价值的信息,并运用这些信息进行高效决策的过程,属于计算机科学的一个重要分支。 https://download.csdn.net/blog/column/9462993/132507321
11.大数据分析方法五种大数据分析的方法有可视化分析,数据挖掘算法,预测性分析能力,数据质量和数据管理。 大数据分析方法五种 企服解答 大数据分析的方法有可视化分析,数据挖掘算法,预测性分析能力,数据质量和数据管理。 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化https://36kr.com/p/1481724298822022.html
12.数据挖掘的常用方法都有哪些?在数据分析中,数据挖掘工作是一个十分重要的工作,可以说,数据挖掘工作占据数据分析工作的时间将近一半,由此可见数据挖掘的重要性,要想做好数据挖掘工作需要掌握一些方法,那么数据挖掘的常用方法都有哪些呢?下面就由小编为大家解答一下这个问题。 首先给大家说一下神经网络方法。神经网络是模拟人类的形象直觉思维,在生物http://api.cda.cn/view/26507.html
13.苏木亚及其学术专著《基于谱聚类的金融时间序列数据挖掘方法研究》该专著围绕谱聚类方法及其在金融时间序列数据挖掘中的应用展开研究。在理论分析与算法设计部分提出两种谱聚类方法并对谱聚类矩阵进行扰动分析,另外还提出了两种基于成分分析的单变量时间序列谱聚类方法。在实际应用部分利用本文提出的算法首先对欧洲主权债务危机背景下的全球主要股指进行联动性分析,再对国内开放式基金的投资风https://news.imu.edu.cn/info/1076/16128.htm
14.大数据金融第二章大数据相关技术指根据业务的需求和目的,运用合适的工具软件和数据挖掘方法对数据仓库中的数据信息进行处理,寻找出特定的数据规律或数据模式,得出有价值的信息和知识。 (二) 对象 数据挖掘的对象:根据信息存储格式,分为关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internethttps://www.jianshu.com/p/d68251554c66
15.数据处理方法有哪些,掌握这些技巧让你轻松应对数据分析问题2.数据挖掘方法:数据挖掘是从大量数据中发现隐藏在其中的有价值的信息的过程。数据挖掘方法包括分类、聚类、关联规则挖掘、异常检测等。 3.数据分析方法:这是一种关注于分析数据中存在的模式、趋势、关联关系和异常变化的方法。数据分析方法主要包括统计分析、人工智能算法以及机器学习算法等。 https://www.jiandaoyun.com/fe/sjclffynxz/