CDALEVELⅡ?数据分析师考试?纲

考试题型:客观题(单选+多选)+上机建模题

考试内容:第一阶段,90分钟,客观题(单选+多选),上机答题;第二阶段120分钟,案例操作,自行携带电脑操作,案例数据将统一提供CSV文件。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

a.大数据分析基础(1%)

b.Python基础(5%)

c.Linux&Ubuntu操作系统基础(2%)

a.Hadoop安装配置及运行机制解析(2%)

b.HDFS分布式文件系统(2%)

c.MapReduce理论及实战(2%)

d.Hadoop生态其他常用组件(6%)

a.数据库导论(2%)

b.MySQL理论及实战(3%)

c.HBase安装及使用(3%)

d.Hive安装及使用(5%)

e.Sqoop安装及使用(3%)

a.数据挖掘的基本思想(2%)

b.数据挖掘基本方法介绍(2%)

c.有监督学习算法(4%)

d.无监督学习算法(2%)

a.Spark基础理论(2%)

b.SparkRDD基本概念及常用操作(3%)

c.Spark流式计算框架SparkStreaming、StructuredStreaming(5%)

d.Spark交互式数据查询框架SparkSQL(5%)

e.Spark机器学习算法库SparkMLlib基本使用方法(15%)

f.Spark图计算框架GraphX(5%)

a.数据可视化入门基础(1%)

b.Python数据可视化入门(2%)

c.Python高级数据可视化方法(1%)

a.利用HDFSShell操作HDFS文件系统(1%)

b.利用HiveSQL进行数据清洗(2%)

c.利用Sqoop进行数据传输(1%)

d.利用SparkSQL进行数据读取(2%)

e.利用SparkMLlib进行机器学习建模(8%)

f.利用Python进行建模结果数据可视化(1%)

Hive中的数据库概念、修改数据库

创建表、管理表、外部表、分区表、删除表

Hive中的命令语句是类SQL语句

SELECT…FROM语句

使用列值进行计算、算术运算符、使用函数、列别名、嵌套SELECT语句、WHERE语句、groupby语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、orderby语句、抽样查询、视图。

Sqoop是一个数据转储工具,它能够将HadoopHDFS中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到HDFS中。

Sqoop链接数据库需要JDBC的支持

Sqoop的安装方法从HadoopHDFS向MySQL导入数据从MySQL向HadoopHDFS导入数据

说明:推荐学习书目中考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

THE END
1.大数据分析建模思路技巧和算法大数据建模常用方法本文介绍了大数据领域建模的方法。 一、大数据领域建模综述 1.1 为什么需要数据建模 有结构地分类组织和存储是我们面临的一个挑战。 数据模型强调从业务、数据存取和使用角度合理存储数据。 数据模型方法,以便在性能、成本、效率之间取得最佳平衡。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用https://blog.51cto.com/u_16099164/6430927
2.大数据优化建模与算法.zip大数据建模与优化算法大作业资源《大数据优化建模与算法》课程资料集合包含了丰富的学习资源,涵盖了大数据处理中的核心概念、优化模型以及多种算法。此压缩包主要针对大数据环境下的数据分析和优化问题,旨在帮助学习者深入理解如何在海量数据中寻找模式、进行分类和分析。 文档"上机作业.docx"可能是课程的实践练习,它可能包含了一些实际操作任务,让学生https://download.csdn.net/download/qq_45289233/13729573
3.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构,使其能够对未知数据进行https://www.fanruan.com/blog/article/71906/
4.大数据优化建模与算法大数据建模方法 作者:张平文 ISBN:9787040530490 出版社:高等教育出版社 出版年:2019 大数据时代的商业建模 作者:范若愚 ISBN:9787543958685 出版社:上海科学技术文献出版社 出版年:2013 最优化 :建模、算法与理论 作者:刘浩洋[等]编著 ISBN:9787040550351 出版社:高等教育出版社 https://www.las.ac.cn/front/book/detail?id=e37891687151d0cb4b34daae7e66317d
5.想问问大数据优化建模与算法这门课怎么样呀?西安电子科技大学吧贴吧用户_5NU3C2V 竹园丁香 1 想问问 大数据优化建模与算法 这门课怎么样呀?不晓得这门课给分和考核是什么样的 老师没说,感觉心慌慌,看起来好难登录百度账号 扫二维码下载贴吧客户端 下载贴吧APP看高清直播、视频! 贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧违规信息处理公示0https://tieba.baidu.com/p/8615670955
6.C++技术中的大数据处理:如何使用机器学习算法进行大数据预测和建模?利用c++++ 中的机器学习算法进行大数据预测和建模包括:使用分布式处理库(如 spark)处理大数据集。使用智能指针和引用计数管理内存。利用多线程提高性能。常见的机器学习算法包括:线性回归、逻辑回归、决策树和 svm。实战案例:使用c++和逻辑回归预测客户流失,包括数据准备、模型训练、模型评估和模型部署。 https://www.php.cn/faq/787756.html
7.基于大数据建模和AI算法的反电信诈骗精准预警与阻断平台基于此,研发了“基于大数据建模和AI算法的反电信诈骗精准预警与阻断平台”,该平台整合公安警情数据及构建多维欺诈场景专题库,实现预警数据的整合(运营商、金融、互联网等),通过自主研发的大数据建模和AI算法,不断挖掘出预警线索,通过云端呼叫座席实现全网协同高效劝阻,全面服务于电信欺诈预警防控体系。https://skl.qhnu.edu.cn/info/1032/1250.htm
8.大模型数据工程实战:ArenaLearning通过模拟LLM竞技场来构建大规模数论文使用 K-Means 聚类算法将源数据处理成 500 个类别。从每个类别中,随机选取两个样本,构建 1000 个多样性样本,创建 Offline-Diverse WizardArena。 困难子集 从每个类别随机选择 20 个样本,形成一个包含 10000 条的数据集,然后使用 GPT-4 按难易程度从 0 到 10 评估每个指令,并筛选出难度最高的 1000 条数https://zhuanlan.zhihu.com/p/880435490
9.DizzyK/ustccyber大数据算法 密码工程原理与实践 数据建模与分析基础 网络优化导论 机器学习及其安全应用 网络空间安全数学建模基础 2020级王小谟英才班 专业核心课 编译原理和技术 ( H ) 编译原理和技术的高级课程 2020级第二学士 必修课 网络算法学 数字图像处理与分析 https://toscode.gitee.com/DizzyK/ustc_cyber_security
10.PW3300边缘大数据模型智能算法大数据建模模块 系统将得到的大数据通过智能算法形成稳态的数字模型。 大数据模型调用模块 在锅炉生产运行中自动采集数据并通过智能筛选数据。 基于边缘大数据模型精准喷氨控制方法包括:数据采集筛选模块、数据建模模块、精准喷氨模块和大数据模型调用模块。 大数据模型是锅炉生产运行中自动采集数据后通过智能算法形成的。智能分http://www.jspwhj.com/productinfo/2570517.html
11.针对公安民警开展数据建模方法的研究和实践本文旨在探索一种面向广大民警的可视化建模方法,通过放开数据操作权限、赋予可视化建模能力,催生更多警务应用模型。 导读 2018年3月,公安部科技信息化局以公安基层技术革新奖推荐评选为载体,以公安大数据建设应用为主线,组织开展了“智慧公安我先行”全国公安基层技术革新专项活动。新智认知自主研发的产品“自主数据建模的可https://www.secrss.com/articles/7120
12.大数据挖掘企业服务平台大数据挖掘企业服务平台是由泰迪智能科技自主研发打造的数据挖掘建模平台,供企业/高校使用.此外平台还配置AI大模型服务,大数据分析可视化平等服务,致力于为使用者打通大数据全链路,精准助力大数据和人工智能为产业转型升级赋能!https://python.tipdm.org/
13.科学网—热点专题数据驱动控制学习及优化过程工业大数据建模研究展望 人们对大数据的认识已从"3Vs" (Volume-大容量; Variety-多样性; Velocity-处理实时性)、"4Vs" ("3Vs"与Value-价值)、到现今的"5Vs" ("4Vs"与Veracity-真实性).在此背景下, 首先分析过程工业大数据的"5Vs"特性; 接下来, 综述现有数据建模方法, 并结合过程工业大数据特有性质 https://blog.sciencenet.cn/blog-3291369-1180355.html
14.探索与实践以《大数据分析实务》课程为例为提升教学成效不断丰富资源和数字化手段:1.自建微课、二维情境动画以及3D仿真动画,打造沉浸式学习场景,助力学生理解抽象的数据建模过程。2.自建数据算法探索3D游戏,强化小组自主探索和互动思考,充分激发学生兴趣。3.自主运营微信公众号,拓展大数据应用相关知识,提升迁移能力。4.引入行业前沿大数据建模系统,助力学生通过可视https://www.gzqy.cn/sgxjsztw/info/1043/1726.htm