2020年第七期全国高校大数据与人工智能师资研修班将开设三大专题方向:“数据分析与挖掘实战、深度学习技术实战、人工智能项目实训营”,本次研修班采用线上以云课堂形式举办,现将有关详细安排通知如下:
专题一数据分析与挖掘实战
一、课程介绍
本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解数据分析与挖掘项目实训的模型理论和项目代码实战,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。
二、课程目标级收获
3、全面实践商务数据分析流程,包括数据处理、数据探索、数据建模等课程提供知识讲解,注重案例实战,提供在线解答疑难优质服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。
5、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
三、课程大纲
正式培训前
1准备工作
2列表操作
3程序流程控制语句
4字符串操作
4.1字符串及其索引&切片
4.2字符串的常见方法
4.3字典的创建及索引
4.4字典常用操作
4.5字典推导式
5Python文件读取操作
5.1Python读取文件
5.2练习3:统计小说中的单词频次
6函数
6.1Python函数自定义
6.2练习4:自定义求序列偶数个数的函数
7面向对象与模块
7.1Python方法与函数对比介绍
7.2Python面向对象示例
7.3Python模块使用
7.4第三方库的安装与调用
8注意事项
8.1Python工作路径说明
8.2模块命令集存放路径的注意事项
8.3结语
11月18日
19:00-21:30
1Python数据分析概述
1.1认识数据分析
1.2熟悉Python数据分析的工具
1.3安装Python3的Anaconda发行版
1.4掌握JupyterNotebook常用功能
2NumPy数值计算基础
2.1认识NumPy数组对象ndarray
2.2认识NumPy矩阵与通用函数
2.3利用NumPy进行统计分析
3Matplotlib数据可视化基础
3.1了解绘图基础语法与常用参数
3.2分析特征间的关系
3.3分析特征内部数据分布与分散状况
4Pandas统计分析基础
4.1读写不同数据源的数据
4.2掌握DataFrame的常用操作
4.4使用分组聚合进行组内计算
4.5创建透视表与交叉表
5使用Pandas进行数据预处理
5.1合并数据
5.2清洗数据
5.3标准化数据
5.4转换数据
6使用scikit-learn构建模型
6.1使用sklearn转换器处理数据
6.2构建并评价聚类模型
6.3构建并评价分类模型
6.4构建并评价回归模型
11月19日
1探索Iris鸢尾花数据
1.2数据框中有缺失值吗?
1.3将列petal_length的第10到19行设置为缺失值
1.4将petal_length缺失值全部替换为1.0
1.5删除列class
1.6将数据框前三行设置为缺失值
1.7删除有缺失值的行
1.8重新设置索引
2探索Chipotle快餐数据
2.1将数据集存入一个名为chipo的数据框内
2.2查看前10行内容
2.3数据集中有多少个列(columns)
2.4打印出全部的列名称
2.5数据集的索引是怎样的?
2.6被下单数最多商品(item)是什么?
2.7在item_name这一列中,一共有多少种商品被下单?
2.8一共有多少个商品被下单?
2.9将item_price转换为浮点数
2.10在该数据集对应的时期内,收入(revenue)是多少?
2.11在该数据集对应的时期内,一共有多少订单?t
2.12每一单(order)对应的平均总价是多少?
3探索Apple公司股价数据
3.1读取"apple_1980_2014.csv"数据并存为一个名叫apple的数据框
3.2查看每一列的数据类型
3.3将Date这个列转换为datetime类型
3.4将Date设置为索引
3.5有重复的日期吗?
3.6将index设置为升序
3.7找到每个月的最后一个交易日(businessday)
3.8数据集中最早的日期和最晚的日期相差多少天?
3.9在数据中一共有多少个月?
11月20日
1机器学习绪论
1.1引言
1.2基本术语
1.3假设空间&归纳偏好
2模型评估与选择
2.1经验误差与过拟合
2.2评估方法
2.3性能度量
2.4性能度量Python实现
3回归分析(RegressionAnalysis)
3.1线性回归基本形式
3.2线性回归模型的Python实现
3.3波士顿房价预测的Python实现
3.4逻辑回归介绍
3.5研究生入学录取预测的Python实现
4聚类分析(ClusterAnalysis)
4.1聚类分析概述
4.2相似性度量
4.3K-Means聚类分析算法介绍
4.4利用K-Means算法对鸢尾花进行聚类
4.5聚类结果的性能度量
4.6调用sklearn实现聚类分析
11月21日
市财政收入分析预测
1背景与案例目标
1.1财政收入预测背景介绍
1.2数据基本情况介绍
1.3分析目标解读
1.4项目流程介绍
3Lasso回归特征提取
3.1了解Lasso回归方法
3.2Lasso回归选取关键特征的实现
3.3Lasso回归数据写出及相应解读
4灰色预测模型
4.1关键特征数据读取及准备
4.2GM11特征值预测
4.3GM11特征数据整理及写出
5模型训练及预测
5.1数据标准化
5.2模型训练及预测
5.3结果可视化
11月22日
1自然语言处理简介
2开源中文NLP系统介绍
3中文分词介绍
4机械分词法
5机器学习算法分词
6NLP概率图介绍
7jieba分词演示
8文本的one-hot表达
9tf-idf权值策略实现
10文本的TF-IDF表达
11模型训练与预测
11月23日
垃圾自动识别
1背景与目标
2数据探索
2.1数据读取
2.2数据抽取
3数据预处理
3.1去除短信中的x序列
3.2结巴分词
3.3去除停用词
3.4数据预处理函数封装
3.5垃圾短信的词频统计
3.6词云图绘制
4文本向量的表示
4.1文本数据的向量化表示
4.2获取训练样本的tf-idf权值向量
4.3获取测试样本的tf-idf权值向量
5模型训练及评价
6小结
11月24日
14:00-18:00
电商智能推荐:优惠券使用预测
2数据说明
2.1线下训练集数据介绍
2.2线上训练集数据介绍
2.3测试数据介绍
2.4项目流程介绍
3.1构建正样本
3.2构建负样本
3.3构建样本标签
4特征构建
4.1特征构建介绍
4.2处理Discount_rate列
4.3特征1-折扣率
4.4特征2-商户与用户之间的距离
5模型训练
5.1建模前数据准备
5.2初级模型构建
5.3ROC曲线与AUC值
5.4模型性能评估
5.5训练函数封装
5.6模型预测
5.7预测函数封装
6特征完善
6.1特征3-优惠券流行度
6.2特征4-用户在商家中的消费次数
6.3如何进行特征拼接
6.4拼接训练集的特征3&4
6.5拼接测试集的特征3&4
7预测
7.1模型训练
7.2预测
7.3代码整理
7.4结果提交
拓展自学
Python爬虫助力疫情数据追踪
1明确项目需求与目标
2环境准备
3获取疫情数据(全球、中国各省及各地区数据)
4疫情数据分析
5疫情数据可视化
6完成分析报告
11月25日
Python技术应用工程师职业技术在线考试
注:所有学员自备笔记本电脑(Windows7或以上操作系统(64位)、4G+内存)、按照项目要求完成各项目任务
部分实操结果展示:
四、证书认证
学员经在线培训并考试合格后,可以获得本期培训对应专题职业技术证书。
专题二深度学习核心技术实战
本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解机器学习与深度学习实训的模型理论和项目代码实践,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。
二、课程目标及收获
3、全面实践商务数据分析流程,包括数据处理、数据探索、数据建模等课程提供知识讲解,注重案例实战,提供在线解答疑难等优质服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。
8.2模块命名及存放路径的注意事项
4.3转换与处理使劲按序列数据
Python机器学习实战
3回归分析(RegressionAnalasis)
11月27日
1单个神经元介绍
2经典网络结构介绍
3神经网络工作流程演示
4如何修正网络参数、梯度下降
5网络工作原理推导
6网络搭建准备
7样本从输入层到隐层传输的Python实现
8网络输出的Python实现
9单样本网络训练的Python实现
10全样本网络训练的Python实现
11网络性能评价
12调用sklearn实现神经网络算法
11月28日
1任务一:构建一个线性模型
1.1tensorflow介绍
1.2tensorflow2常用数据类型和操作
1.3初始化模型
1.4构建损失函数
1.5模型训练及可视化
1.6使用高阶API-keras
2任务二:mnist手写数字识别
2.1数据读取及探索
2.2交叉熵
2.3模型构建及训练
2.4调用保存好的模型对新样本进行预测
3作业:鸢尾花分类
11月29日
1深度神经网络-引言
2卷积神经网络CNN
2.1浅层神经网络的局限
2.2卷积操作
2.3卷积操作的优势
2.4池化及全连接
2.5高维输入及多filter卷积
2.6实现卷积操作
2.7实现池化操作
3循环神经网络RNN
3.1循环神经网络简介
3.2循环神经网路的常见结构
4长短时记忆网络LSTM
4.1LSTM的三个门
4.2LSTM三个门的计算示例
4.3利用RNN&LSTM实现mnist手写数字识别
11月30日
4加载模型、构建读取接口
5确定训练策略
6配置参数
7确定任务,开始训练
8性能评估及总结
泰迪云课堂
操作演练
12月1日
1项目背景与目标
2语料库预处理
3Seq2Seq模型计算图搭建--文件读取
4Seq2Seq模型计算图搭建--Encoder
5Seq2Seq模型计算图搭建--Decoder
6Seq2Seq模型计算图搭建--Seq3Seq
7模型训练
8模型测试
9注意力机制
12月2日
1明确项目目标
2准备数据
3照片预处理
4定位车牌信息
5分割车牌字符
6搭建车牌识别网络
7进行模型训练
8模型结果与评估
技能点:深度学习实战、TensorFlow框架、图像处理技术、OpenCV应用、实际项目搭建与应用。
12月3日
部分实操原理及结果展示
专题三人工智能项目实训营
1、项目名称:基于深度学习的推荐系统受众性别预测
所以,对于缺乏用户基础属性的公司而言,基于用户交互数据来推断用户基础属性,是一件极有价值的事情。
本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解数据分析与挖掘、机器学习与深度学习、人工智能项目实训的模型理论和项目代码实践,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。
1、全程强调动手实操:内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解企业级案例,真正的让学员把所学内容和工作实际有效结合,做到更好的进行教育教学工作。
3、讲师将在线上对项目进行深入剖析和演示,可以与课程讲师以及学习该课程的其他老师直接进行沟通研讨,快速提升专项能力!
5、同时,参加线上课程学习的学员,如后续本人参加线下课程继续深圳,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
4.2字符串娥常见方法
5.2练习:统计小说中的单词频次
6.2练习:自定义求序列偶数个数的函数
1.1数据分析概述
1.3安装Python的Anaconda发行版
1.4掌握JupyterNoteBook常用功能
2.1掌握NumPy数组对象
2.2掌握NumPy矩阵与通用函数
3.1掌握绘图基础语法与常用参数
3.2分析特征间关系
3.3分析特征内部数据分布与分散情况
深度学习基础-人工神经网络
3.1线性回归基本形成
1任务1:构建一个线性模型
2任务2:mnist手写数字识别
3作业-鸢尾花分类
1.1深度神经网络-引言
3.2循环神经网络的常见结构
实训营项目任务安排
12月5日
电商网站进行商品推荐时,如果事先知道用户的基本属性,如用户性别、用户年龄等,推荐的可靠性将大大增加。但是存在缺乏用户基础属性的公司,因此根据用户行为数据(点击行为)来推断用户基础属性(性别)是很有必要的。
第一天了解项目背景与目标,并对项目数据有一定的了解。
1了解项目背景及目标
2获取及认识数据
12月6日
对数据进行探索分析,对数据情况有一定了解后尝试对用户操作数据进行单击流分析。
3探索整理数据
3.1读取数据并查看数据规模
3.2缺失值探索分析
4获取用户相应单及流数据
4.2获取用户的各单击流数据
4.3查看单击流的长度分布,并进行可视化
12月7日
为后续构建深度学习分类模型,需要将单击流的向量数据映射到二维,故进行词嵌入(WordEmbedding)操作。
5实现词嵌入(WordEmbedding)操作
5.1对用户单击流数据进行预处理
5.2进行词向量训练(如获取素材id所有词的词向量矩阵)
5.3对用户的单击流进行编码及padding操作
5.4将词向量矩阵做相应排序并储存
5.5将单击流数据转化为二维样本数据并储存
12月8日
将单击流数据考虑为文本数据进行分类模型构建时,可以采用自然语言处理中常用的循环神经网络分类模型进行性别分类预测。
6构建循环神经网络(RNN)序列模型
6.1搭建网络
6.2模型训练并储存
6.3加载模型并预测
12月9日
做完词嵌入后的单击流数据的二维数据,将其考虑为图像数据可参考计算机视觉中常用的卷积神经网络分类模型构建另一个与前一天一样的性别分类预测模型,两个模型进行比较。
7构建卷积神经网络(CNN)模型
7.1搭建网络
7.2模型训练并储存
7.3加载模型并预测
12月10日
对前两天的模型进行优化处理,注意优化手段是构建并行网络结构,将循环神经网络与卷积神经网络结合,提高性别预测正确率。
8构建并行网络结构,多特征并行叠加
8.1搭建网络
8.2模型训练并储存
8.3加载模型并预测
9模型调优
任务讲解及分析
课程主讲师资介绍
报名须知与联系方式
1费用:包含报名费、学习费、资料费、证书费等
2报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景底、.JPG格式、14-40K文件大小)
3本次由广东泰迪智能科技股份有限公司收取费用并开具发票
4参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)
5本期研修班两专题及以上联报者可享受九折优惠
联系方式
联系人:曾老师手机:13246821827微信:antonia602501QQ:804954701邮箱:zengaizhi@tipdm.com机构网址:www.tipdm.com
附件一:
2020年全国高校大数据与人工智能骨干师资研修班报名申请表