CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.聚类关联规则神经网络方法web数据挖掘)(5)神经网络方法 神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型https://blog.csdn.net/lisheng19870305/article/details/107354030
3.数据挖掘的四种基本方法数据挖掘的四种基本方法 东奥美国注册管理会计师 2024-12-06 14:51:12 遗传算法 遗传算法是一种依据微生物自然选择学说与基因遗传原理的恣意优化算法,是一种仿生技能全局性提升办法。遗传算法具有的暗含并行性、便于和其他实体模型交融等特性促使它在数据发掘中被多方面运用。https://www.dongao.com/cma/zy/202406204447292.html
4.数据挖掘的几种方法有哪些帆软数字化转型知识库数据挖掘的方法包括分类、聚类、回归、关联规则、序列模式、异常检测和降维技术等。其中,分类是一种常见且重要的数据挖掘方法,通过对数据进行标记,帮助识别数据所属的类别。分类算法包括决策树、支持向量机和神经网络等。分类算法的核心在于通过训练集来生成分类模型,再用这个模型对新数据进行分类。比如在电子邮件分类中,https://www.fanruan.com/blog/article/594745/
5.数据挖掘论文在进行现代档案信息处理时,传统的档案管理方法已经不能满足其管理的要求,数据挖掘技术在这方面确有着显著的优势。首先,档案是较为重要的信息记录,甚至有些档案的重要性大到无价,因此对于此类的珍贵档案,相关的档案管理人员也是希望档案本身及其价值一直保持下去。不过越是珍贵的档案,其使用率自然也就越高,所以其安全https://www.unjs.com/lunwen/f/20220924130749_5650839.html
6.方法论电商产品结构定位中的四类产品方法论利润款前期选款对数据挖掘的要求更高,我们应该精准分析小众人群的偏好,分析出适合他们的款式、设计风格、价位区间、产品卖点等多方面因素。推广方面需要以更精准的的方式进行人群定向推广。我们在推广前同样需要少量的定向数据进行测试,或者通过预售等方式进行产品调研,以做到供应链的轻量化。https://www.iheima.com/article-71703.html
7.浅析数据挖掘技术在审计中的运用澎湃号·媒体澎湃新闻四、使用数据挖掘技术的常用方法路径 在数据库中,利用数据挖掘技术,不但可以完善、丰富数据库应用,还能为用户决策提供数据支持。常用的数据挖掘技术有:统计分析、关联分析、聚类分析、预测分析、离群点检测等。 (一)统计分析 统计分析法指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间https://www.thepaper.cn/newsDetail_forward_15006269
8.数据挖掘提升算法AdBoost算法组合方法(集成方法) 两种不同的翻译,这种方法是聚集多个分类算法的预测来提高分类的准确率,组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。 组合方法的类型: 常用的构建组合方法有以下几种类型: 通过处理训练数据集来组合方法:根据某种抽样分布对训练集进行抽样,从而得到多个训练https://www.jianshu.com/p/9e4db2759866
9.科学网—[转载]时态知识图谱补全的方法及其进展与传统的静态知识图谱相似,时态知识图谱中的知识也是不完备的,为了实现最大价值,其需要不断地消化吸收新数据,以完善知识体系。近年来,时态知识图谱补全(temporal knowledge graph completion)方法应运而生,受到了学术界的高度关注,并成为研究热点之一。这类方法基于时态知识图谱的现有四元组数据,建模预测真实存在的新四元https://blog.sciencenet.cn/blog-3472670-1296534.html
10.参考文献标注格式(附范文8篇)第四条 最相关文献通常是期刊论文、书籍和博士学位论文。会议摘要、会议论文集、个人通信和未出版的数据可以在文中以括号引用,但这些文献一般不列在文后的参考文献里,通常只能用来支持研究结果,而不应用来支持任何重要的结论,不能作为最相关或有效的文献。 https://www.yjbys.com/bylw/cankaowenxian/56967.html
11.数据挖掘的常用方法有哪些?聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。6https://zhidao.baidu.com/question/271591693203564485.html
12.TCP/IP协议端口大全zjproot应用层网关 (ALG) 插件可以打开端口和更改嵌入在数据包内的数据(如端口和 IP 地址)。文件传输协议 (FTP) 是唯一具有 Windows Server 2003 标准版和 Windows Server 2003 企业版附带的一个插件的网络协议。ALG FTP 插件旨在通过这些组件使用的网络地址转换 (NAT) 引擎来支持活动的 FTP 会话。ALG FTP 插件通过http://blog.chinaunix.net/uid-20482534-id-1667981.html
13.数据分析的方法有哪些优点:因子分析可以识别共同的特征并将其转换为潜在变量。通过因子分析,分析师可以更好地理解数据集中的相关性。 缺点:因子分析需要一定的主观判断来确定因子的数量和意义。此外,如果数据集中存在噪音或异常值,因子分析的结果可能不准确。 7.时间序列分析 时间序列分析是一种研究时间序列数据的方法。它可以帮助分析师了解https://www.linkflowtech.com/news/1786
14.浅析数据挖掘的四种基本方法浅析数据挖掘的四种基本方法 我们生活在大数据时代,当今的互联网已经发展到大数据时代了,如今的信息技术从数据处理向数据分析和理解的方向一直在转变,如今企业都在不断的收集各种数据,从大数据中挖掘有用的数据信息,数据挖掘出有价值的数据。现在数据挖掘技术已经成为企业不可缺少的技术,需要收集海量的数据,从海量数据中https://www.kkidc.com/about/detail/hcid/196/id/1857.html