CDALEVELⅡ?数据分析师考试?纲|数据挖掘过程图_在线学习

考试题型：客观题（单选+多选）+上机建模题

考试内容：第一阶段，90分钟，客观题（单选+多选），上机答题；第二阶段120分钟，案例操作，自行携带电脑操作，案例数据将统一提供CSV文件。

针对不同知识，掌握程度的要求分为【领会】、【熟知】、【应用】三个级别，考生应按照不同知识要求进行学习。

1．领会：考生能够领会了解规定的知识点，并能够了解规定知识点的内涵与外延，了解其内容要点和它们之间的区别与联系，并能做出正确的阐述、解释和说明。

a.大数据分析基础（1%）

b.Python基础（5%）

c.Linux&Ubuntu操作系统基础（2%）

a.Hadoop安装配置及运行机制解析（2%）

b.HDFS分布式文件系统（2%）

c.MapReduce理论及实战（2%）

d.Hadoop生态其他常用组件（6%）

a.数据库导论（2%）

b.MySQL理论及实战（3%）

c.HBase安装及使用（3%）

d.Hive安装及使用（5%）

e.Sqoop安装及使用（3%）

a.数据挖掘的基本思想（2%）

b.数据挖掘基本方法介绍（2%）

c.有监督学习算法（4%）

d.无监督学习算法（2%）

a.Spark基础理论（2%）

b.SparkRDD基本概念及常用操作（3%）

c.Spark流式计算框架SparkStreaming、StructuredStreaming（5%）

d.Spark交互式数据查询框架SparkSQL（5%）

e．Spark机器学习算法库SparkMLlib基本使用方法（15%）

f．Spark图计算框架GraphX（5%）

a.数据可视化入门基础（1%）

b.Python数据可视化入门（2%）

c.Python高级数据可视化方法（1%）

a.利用HDFSShell操作HDFS文件系统（1%）

b.利用HiveSQL进行数据清洗（2%）

c.利用Sqoop进行数据传输（1%）

d.利用SparkSQL进行数据读取（2%）

e.利用SparkMLlib进行机器学习建模（8%）

f.利用Python进行建模结果数据可视化（1%）

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具，它能够将HadoopHDFS中的数据转储到关系型数据库中，也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明：推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完，根据考纲知识点进行针对性学习即可。

THE END

CDALEVELⅡ?数据分析师考试?纲

深层时态主动推理的因子图描述2017高斯算法贝叶斯

CDALEVELⅡ?数据分析师考试?纲

物流规划方案范文

世界首例！Nature公布最新成果，助力药物研发冲破困境，彻底改写历史！点击上方的行舟Drug ▲ 添加关注在现代医疗领域,药物发现一直是最具挑战性和最昂贵的过程之一。传统的药物开发方法耗...

数据可视化在电视新闻中的运用传媒

蚂蚁金服OceanBase冯柯：自研技术这条路很难，但我们会坚持走下去

物联网嵌入式实训室解决方案

知识图谱构建的研究已走入下半场，但大规模落地应用仍需时间图谱构建研究实体推理数据

大数据图数据库之离线挖掘计算模型