大数据挖掘/工程师,行业分析师,大数据业务架构师/工程师,大数据架构师/工程师,大数据算法工程师,大数据开发工程师,大数据运维工程师
模块一:Linux赠送24课时视频模块二:Hadoop技术(36小时)模块三:数据库(赠送12课时视频)模块四:大数据挖掘技术与实现及项目实战(36小时)模块五:通过python实现算法(30小时)模块六:爬虫技术与实战(18课时)模块七:ETL及可视化工具(12课时)
预备知识
1.了解大数据技术原理和Hadoop的基础知识2.熟悉Linux的管理和操作3.具有数据库的基本知识,有数据库的使用经验,了解SQL语言。4.具备一定软件开发能力,熟悉Java、Python,C++等至少一种开发语言。5.数学知识
华为大数据HCIE培训课程内容
模块一:Linux(赠送24课时视频)将利用我们多年的Linux经验,让您从零基础迅速掌握Linux基本技能,满足后续搭建原生态的Hadoop和学习python做好准备,这个基础非常重要。1.Linux系统安装2.Linux基础使用3.Linux帮助系统和文件系统管理4.用户,组及权限管理5.I0及管道,循环语句,环境变量,shell基础,脚本基础(精华)6.文本处理工具,grep,awk,sed正则表达式等(精华)7.进程管理,远程管理工具8.Linux下文件查找与压缩9.Linux下文件系统的深入理解(精华)10.Linux下软件包的安装和管理11.Shell脚本实战(精华)
模块二:Hadoop技术(36小时)Hadoop是大数据重要的运行平台,华为FusionInsightHD就是基于开源的Hadoop开发,但Hadoop组件众多,原理复杂,我们将从原理及流程开始讲解每个组件,然后使用命令行搭建一套开源的Hadoop系统,这样才能更透彻的理解这些组件,最后搭建出华为FusionInsight进行商业化应用,重点讲解Spark和Hbase。1.Hadoop基础2.MapReduce和YARN分布式计算引擎技术3.搭建开源的HadoopHA的平台4.LDAP及Kerberos工作原理及应用5.Hadoop分布式文件系统6.Spark基于内存的分布式计算技术7.Hive数据仓库8.HBase分布式数据库9.Zookeeper集群分布式锁设施10.Streaming实时计算技术及应用11.Kafka订阅消息系统12.Flume海量日志聚合13.华为FusionInsightHD产品部署及使用
模块三:数据库(赠送12课时视频)这个是学习分布式数据库的基础,为后续分析平台做好准备,学习数据库的安装,SQL语句,数据库的基本操作,数据库视图,索引等。1.搭建实验环境、虚拟机/操作系统/数据库安装/数据库应用安装、数据库基础知识2.SELECT基本语法、过滤和排序数据、单行函数、子查询(精华)3.多表查询、分组函数、子查询、操纵数据、使用集合运算(精华)4.创建和管理表、内置约束、创建视图、索引及其他数据库对象(精华)5.控制用户访问,数据字典
模块四:大数据挖掘技术与实现(36小时)数据挖掘又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。1.分类和回归2.决策树分类算法3.组合分类4.随机森林5.支持向量机分类算法6.朴素贝叶斯分类算法7.聚类算法8.K-均值算法、中心点算法9.关联规则Apriori10.离群点检测11.预处理12.FusionInsightMiner和华为云机器学习服务MLS
大数据挖掘项目实战(以下项目均有数据源)1.银行定期存款业务预测2.鲍鱼生长年龄3.词频4.逆文档频率5.抽样排序6.用六种算法进行银行存款分析7.防止欺诈8.电影9.幸福指数10.客户分群11.CRM用户精准营销
模块六:爬虫技术与实战(18课时)1.网络爬虫概述2.网络爬虫工作原理第3.网络爬虫基础使用第3.网络爬虫中的异常处理4.GET请求爬取数据实战5.P0ST请求爬取数据实战6.网络爬虫案例实战7.App信息爬取实战8.爬取天气预报数据9.检验滑动验证码的识别
模块七:ETL及可视化工具(12课时)一.数据的抽取(Extract)二.数据的清洗转换(Cleaning、Transform)三.数据的加载(Load)1.空值处理2.规范化数据格式3.拆分数据:4.验证数据正确性:5.数据替换6.Lookup四、开源可视化工具的使用1.FineReport2.TableauPublic