教育行业A股IPO第一股(股票代码003032)
Python是大数据开发标配编程语言,预计未来几年大数据人才需求会保持30%-40%的增速,抢先入局,享受红利!
掌握硬核技能
积累工作经验
适应职场节奏
搞定面试就业
大厂级前沿技术,覆盖企业所需核心技术栈
80+技术解决方案,覆盖职场常见技术难题
遵循大厂开发标准流程,涵盖500+核心技能点
真场景实战项目,整合电商/金融/通信/零售等行业项目
主要内容
·Linux操作系统·MySQL与SQL·Kettle与BI工具·电商运营指标分析
可解决的现实问题
熟练掌握MySQL\SQL、Kettle以及BI工具使用,能够解决传统数仓业务开发任务。
可掌握的核心能力
1.掌握MySQL数据库的使用;2.掌握SQL语法;3.掌握Kettle数据迁移工具的使用;4.熟练使用BI可视化工具;5.对数据开发有一定认知,掌握BI工程师所具备的基本技能。
·大数据开发Hadoop基础·Hive基础·Hive进阶
熟悉Linux操作系统,以及各种Linux命令,能够解决企业级大数据集群搭建问题,为进阶大数据开发奠定基础。
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础;2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能够搭建Hadoop高可用HA集群;3.掌握Hive的使用和调优;4.具备Hadoop开发能力、离线数据仓库开发能力;5.能够完成基本构建企业级数仓。
·大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:DataX·数据分析:Hive·数据调度:Dolphinscheduler·OLAP系统存储:PostgreSql·FineReport数据报表与大屏·数仓建模:范式与维度建模·五大核心主题域开发:销售域、供应链域、会员域等
能够解决企业级常见数据仓库搭建,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套pipeline,完成大数据体系下的企业级数据仓库构建。
1.掌握泛电商行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;2.行业内首个深度讲解数仓建模模型方案的主体项目;3.包括海量数据场景下如何优化配置;4.掌握项目迁移能力,能够将项目迁移至泛电商的各个领域;5.掌握在泛电商行业中关于全量与增量数据处理模式;6.提供泛电商行业下的数据存储分析以及服务监控方案。
·大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:sqoop·数据分析:Hive·分组完成项目
按照企业级大数据开发流程,独立完成项目开发,掌握企业级多场景大数据离线数仓开发能力,从数仓分层,数仓建模,指标统计,指标展示完成完整的大数据项目。
1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力;3.包括海量数据场景下如何优化配置;4.拉链表的具体应用;5.新增数据和更新数据的抽取和分析;6.Hive函数的具体应用;7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。
·Python基础语法·Python面向对象·Python高级语法·Python多任务编程·Python网络编程
熟练掌握Python语言,建立编程思维,使学员能够熟练使用Python技术完成程序编写。熟练使用Python面向对象程序设计思想,掌握数据开发必备Python高级语法,解决常见Python开发问题。
1.掌握Python开发环境基本配置;2.掌握运算符、表达式、流程控制语句、数组等的使用;3.掌握字符串的基本操作;4.初步建立面向对象的编程思维;5.熟悉异常捕获的基本流程及使用方式;6.掌握类和对象的基本使用方式;7.知道多进程多线程的原理。
·ETL概念与工具·ETL项目需求分析·ETL项目架构设计·PythonETL实战
·BI报表开发需求分析·BI报表工具·FineReport报表入门·泛电商行业五大主题的实现
掌握使用量最广BI报表开发工具FineReport,能够基于FineReport完成不同行业BI报表开发及业务决策。
1.掌握BI报表开发需求分析2.掌握BI报表工具3.掌握FineReport报表
·大数据Spark技术栈·SparkSQL数据处理与统计分析·Spark案例实战
1.掌握Spark的RDD、DAG、CheckPoint等设计思想;2.掌握SparkSQL结构化数据处理,SparkOnHive;3.掌握StructuredStreaming整合多数据源完成实时数据处理;4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
·SparkSQL整合ES自定义数据源·DS任务界面化调度·用户画像标签构建规则·用户画像规则类标签构建·用户画像统计类标签构建
项目提供了全行业用户画像解决方案,使用SparkSQL+ES+DS构建企业级用户画像,通过SparkSQL+MySQL构建通用行业用户画像标签体系。
1.掌握SparkSQL整合ES自定义数据源;2.掌握用户画像构建流程;3.掌握用户画像标签构建规则;4.掌握用户画像规则类标签构建;5.掌握用户画像统计类标签构建。
·多场景画像标签项目实战·基于Spark全栈技术构建企业级大数据开发平台
基于Spark全栈技术构建企业级大数据开发平台,学生分组独立完成项目实战,能够胜任常见大数据平台开发工作,助力企业实现数字化转型。
1.掌握保险行业数据分析流程;2.掌握保费计算流程;3.掌握DS调度流程。
·ChatGPT生成代码·ChatGPT改Bug·基于AI大模型的出行大数据平台数仓搭建·基于AI大模型指标开发
掌握如何使用AI大模型帮助数据开发和数据分析编程效率提升,具备使用AI大模型解决问题的能力。
1.完成ChatGPT基础使用;2.基于ChatGPT可以完成改Bug,写注释,生成代码等常见编程任务;3.能够基于合理的Prompts提示词进行提问,助力提升编程效率。
·核心技能知识点以及常见面试题强化学习
对学习的内容进行整体回顾,并分析经典面试题,指导简历,面试和沟通技巧。
1.强化面试就业核心面试题;2.梳理大数据架构及解决方案;3.剖析多行业大数据架构。
·阿里云Flink入门·FlinkSQL·Flink作业开发·阿里云Flink运维
1.掌握基于阿里云Flink进行实时和离线数据处理、分析;2.掌握基于阿里云Flink的多流并行处理技术;3.掌握FlinkCDC多数据源采集技术。
基于阿里云Flink+Kafka+Paimon湖仓一体技术架构,实现在线视频行业大规模流数据处理和实时分析。本项目依托阿里云Flink流处理计算引擎,通过FlinkCDC实时采集RDSMySQL数据库数据,实现数据采集的断点续传,使用Kafka作为实时数仓,使用Paimon实现数据的持久化和Flink批处理,实现计算的流批一体,数据存储的湖仓一体,采用StarRocks对接DataV完成实时业务大屏展示。
采集超过千万条在线视频的数据,实时高性能海量数据分析与存储业务数据实时大屏场景实现。