CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.无监督和有监督算法的区别无监督和有监督算法的区别 数据分析之路关注赞赏支持无监督和有监督算法的区别 数据分析之路关注IP属地: 北京 0.0972018.07.15 16:15:35字数510阅读39,329 1、有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就https://www.jianshu.com/p/9b2826ef8a28
2.有监督学习无监督学习半监督学习有什么区别?分别有哪些代表分别有哪些代表算法? 一、有监督学习、无监督学习、半监督学习的区别 有监督学习、无监督学习、半监督学习的概念是非常容易理解的,和字面意思几乎一致,根据有无label进行划分。 1. 有监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的https://download.csdn.net/blog/column/12178507/128752586
3.有监督学习与无监督学习机器学习算法之间的区别有监督学习和无监督学习是两类截然不同的算法。 有监督学习 在有监督学习中,可以使用一组输入数据和一组相应的已标记配对输出数据来训练模型。通常是手动完成标记。接下来是一些类型的有监督机器学习技术。 逻辑回归 逻辑回归根据一个或多个输入预测分类输出。二进制分类是指输出属于两个类别之一,例如“是”或“否http://aws.amazon.com/cn/compare/the-difference-between-machine-learning-supervised-and-unsupervised/
4.机器学习笔记有监督学习和无监督学习腾讯云开发者社区(二)有监督学习 (三)无监督学习 (四)二者的区别 (五)如何在两者中选择合适的方法 (一)什么是机器学习? 概念:从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 https://cloud.tencent.com/developer/article/2089832
5.有监督和无监督分类GIS之间的差异开源地理空间基金会中文分会摘要: 1972年,第一颗以60米分辨率收集地球反射率的卫星制成。这些过程需要对图像进行分类以实现空间分辨率的技术。有监督和无监督分类是分别涉及通过软件进行人工引导分类 和计算的图像技术,也被归类为遥感方法。例如,森林、草原、农业、水和城市等类别。 然而,鉴于在高分辨 https://www.osgeo.cn/post/19cea
6.有监督学习和无监督学习的区别是什么?无监督学习则是指在模型训练过程中,使用没有标签的数据作为输入。也就是说,我们只提供输入数据,而不给出对应的输出标签,让算法自行发现数据中的模式和结构。常见的无监督学习算法包括聚类、关联规则挖掘、主成分分析等。无监督学习适用于数据探索、降维、异常检测等任务。 有监督学习和无监督学习的区别主要在于输入数据https://www.mbalib.com/ask/question-368ccd26111bfbd98d576b5bfbf2f436.html
7.机器学习中有监督学习和无监督学习的区别表现在什么方面?PCA和很多deep learning算法都属于无监督学习。 二、有监督学习和无监督学习的区别 1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。 2.有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标https://www.cda.cn/bigdata/28000.html
8.头条文章可以看到, 图 5(a)中,红色三角形数据和蓝色圆点数据为标注数据; 图 5(b)中,绿色的小圆点为非标注数据。 图 5(c)显示监督学习将有标签的数据进行分类;而半监督学习如图 5(d)中部分是有标签的,部分是没有标签的,一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。 https://card.weibo.com/article/m/show/id/2309404598738399395890
9.[转载]最实用的机器学习算法优缺点分析,没有比这篇说得更好了!回归是一种用于连续型数值变量预测和建模的监督学习算法,使用案例包括房地产价格、股价走势或学生成绩等的预测。 回归任务的特征是具有数值型目标变量的标注数据集。换言之,每一个用以监督算法的观察样本,都有一个数值型真值。 线性回归 1.1 (正则化)线性回归 https://blog.sciencenet.cn/blog-1396960-1170780.html
10.基于无监督对抗学习的时间序列异常检测时间序列异常检测的模型可以分为有监督模型和无监督模型.由于现实的异常检测数据存在严重的长尾分布,异常样本稀少、标注困难、异常类型多样等问题限制了有监督模型的检测效果.本文重点研究基于无监督模型的时间序列异常检测算法.在基于无监督模型的时间序列异常检测算法中,常见的做法是使用正常数据训练模型,使模型学习正常https://jns.nju.edu.cn/CN/abstract/abstract1359.shtml
11.有监督和无监督学习都各有哪些有名的算法和深度学习?想问一下有监督学习和无监督学习的区别,请用比较浅显的方法描述。另外他们各自都有哪些有名的算法?比如受限波尔兹曼机属于有/无监督算法?深度学习应该算是无监督的算法大类吧?抱歉非常小白的问题,可能会有描述不清的地方,还请大牛指教查看问题描述? 关注问题写回答 ?邀请回答 ?好问题 17 ? ?https://www.zhihu.com/question/24448657/answer/2429752511