2020年第七期全国高校大数据与人工智能师资研修班大数据实验室建设大数据实训平台大数据人工智能专业建设

2020年第七期全国高校大数据与人工智能师资研修班将开设三大专题方向:“数据分析与挖掘实战、深度学习技术实战、人工智能项目实训营”,本次研修班采用线上以云课堂形式举办,现将有关详细安排通知如下:

专题一数据分析与挖掘实战

一、课程介绍

本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解数据分析与挖掘项目实训的模型理论和项目代码实战,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。

二、课程目标级收获

3、全面实践商务数据分析流程,包括数据处理、数据探索、数据建模等课程提供知识讲解,注重案例实战,提供在线解答疑难优质服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。

5、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。

三、课程大纲

正式培训前

1准备工作

2列表操作

3程序流程控制语句

4字符串操作

4.1字符串及其索引&切片

4.2字符串的常见方法

4.3字典的创建及索引

4.4字典常用操作

4.5字典推导式

5Python文件读取操作

5.1Python读取文件

5.2练习3:统计小说中的单词频次

6函数

6.1Python函数自定义

6.2练习4:自定义求序列偶数个数的函数

7面向对象与模块

7.1Python方法与函数对比介绍

7.2Python面向对象示例

7.3Python模块使用

7.4第三方库的安装与调用

8注意事项

8.1Python工作路径说明

8.2模块命令集存放路径的注意事项

8.3结语

11月18日

19:00-21:30

1Python数据分析概述

1.1认识数据分析

1.2熟悉Python数据分析的工具

1.3安装Python3的Anaconda发行版

1.4掌握JupyterNotebook常用功能

2NumPy数值计算基础

2.1认识NumPy数组对象ndarray

2.2认识NumPy矩阵与通用函数

2.3利用NumPy进行统计分析

3Matplotlib数据可视化基础

3.1了解绘图基础语法与常用参数

3.2分析特征间的关系

3.3分析特征内部数据分布与分散状况

4Pandas统计分析基础

4.1读写不同数据源的数据

4.2掌握DataFrame的常用操作

4.4使用分组聚合进行组内计算

4.5创建透视表与交叉表

5使用Pandas进行数据预处理

5.1合并数据

5.2清洗数据

5.3标准化数据

5.4转换数据

6使用scikit-learn构建模型

6.1使用sklearn转换器处理数据

6.2构建并评价聚类模型

6.3构建并评价分类模型

6.4构建并评价回归模型

11月19日

1探索Iris鸢尾花数据

1.2数据框中有缺失值吗?

1.3将列petal_length的第10到19行设置为缺失值

1.4将petal_length缺失值全部替换为1.0

1.5删除列class

1.6将数据框前三行设置为缺失值

1.7删除有缺失值的行

1.8重新设置索引

2探索Chipotle快餐数据

2.1将数据集存入一个名为chipo的数据框内

2.2查看前10行内容

2.3数据集中有多少个列(columns)

2.4打印出全部的列名称

2.5数据集的索引是怎样的?

2.6被下单数最多商品(item)是什么?

2.7在item_name这一列中,一共有多少种商品被下单?

2.8一共有多少个商品被下单?

2.9将item_price转换为浮点数

2.10在该数据集对应的时期内,收入(revenue)是多少?

2.11在该数据集对应的时期内,一共有多少订单?t

2.12每一单(order)对应的平均总价是多少?

3探索Apple公司股价数据

3.1读取"apple_1980_2014.csv"数据并存为一个名叫apple的数据框

3.2查看每一列的数据类型

3.3将Date这个列转换为datetime类型

3.4将Date设置为索引

3.5有重复的日期吗?

3.6将index设置为升序

3.7找到每个月的最后一个交易日(businessday)

3.8数据集中最早的日期和最晚的日期相差多少天?

3.9在数据中一共有多少个月?

11月20日

1机器学习绪论

1.1引言

1.2基本术语

1.3假设空间&归纳偏好

2模型评估与选择

2.1经验误差与过拟合

2.2评估方法

2.3性能度量

2.4性能度量Python实现

3回归分析(RegressionAnalysis)

3.1线性回归基本形式

3.2线性回归模型的Python实现

3.3波士顿房价预测的Python实现

3.4逻辑回归介绍

3.5研究生入学录取预测的Python实现

4聚类分析(ClusterAnalysis)

4.1聚类分析概述

4.2相似性度量

4.3K-Means聚类分析算法介绍

4.4利用K-Means算法对鸢尾花进行聚类

4.5聚类结果的性能度量

4.6调用sklearn实现聚类分析

11月21日

市财政收入分析预测

1背景与案例目标

1.1财政收入预测背景介绍

1.2数据基本情况介绍

1.3分析目标解读

1.4项目流程介绍

3Lasso回归特征提取

3.1了解Lasso回归方法

3.2Lasso回归选取关键特征的实现

3.3Lasso回归数据写出及相应解读

4灰色预测模型

4.1关键特征数据读取及准备

4.2GM11特征值预测

4.3GM11特征数据整理及写出

5模型训练及预测

5.1数据标准化

5.2模型训练及预测

5.3结果可视化

11月22日

1自然语言处理简介

2开源中文NLP系统介绍

3中文分词介绍

4机械分词法

5机器学习算法分词

6NLP概率图介绍

7jieba分词演示

8文本的one-hot表达

9tf-idf权值策略实现

10文本的TF-IDF表达

11模型训练与预测

11月23日

垃圾自动识别

1背景与目标

2数据探索

2.1数据读取

2.2数据抽取

3数据预处理

3.1去除短信中的x序列

3.2结巴分词

3.3去除停用词

3.4数据预处理函数封装

3.5垃圾短信的词频统计

3.6词云图绘制

4文本向量的表示

4.1文本数据的向量化表示

4.2获取训练样本的tf-idf权值向量

4.3获取测试样本的tf-idf权值向量

5模型训练及评价

6小结

11月24日

14:00-18:00

电商智能推荐:优惠券使用预测

2数据说明

2.1线下训练集数据介绍

2.2线上训练集数据介绍

2.3测试数据介绍

2.4项目流程介绍

3.1构建正样本

3.2构建负样本

3.3构建样本标签

4特征构建

4.1特征构建介绍

4.2处理Discount_rate列

4.3特征1-折扣率

4.4特征2-商户与用户之间的距离

5模型训练

5.1建模前数据准备

5.2初级模型构建

5.3ROC曲线与AUC值

5.4模型性能评估

5.5训练函数封装

5.6模型预测

5.7预测函数封装

6特征完善

6.1特征3-优惠券流行度

6.2特征4-用户在商家中的消费次数

6.3如何进行特征拼接

6.4拼接训练集的特征3&4

6.5拼接测试集的特征3&4

7预测

7.1模型训练

7.2预测

7.3代码整理

7.4结果提交

拓展自学

Python爬虫助力疫情数据追踪

1明确项目需求与目标

2环境准备

3获取疫情数据(全球、中国各省及各地区数据)

4疫情数据分析

5疫情数据可视化

6完成分析报告

11月25日

Python技术应用工程师职业技术在线考试

注:所有学员自备笔记本电脑(Windows7或以上操作系统(64位)、4G+内存)、按照项目要求完成各项目任务

部分实操结果展示:

四、证书认证

学员经在线培训并考试合格后,可以获得本期培训对应专题职业技术证书。

专题二深度学习核心技术实战

本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解机器学习与深度学习实训的模型理论和项目代码实践,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。

二、课程目标及收获

3、全面实践商务数据分析流程,包括数据处理、数据探索、数据建模等课程提供知识讲解,注重案例实战,提供在线解答疑难等优质服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。

8.2模块命名及存放路径的注意事项

4.3转换与处理使劲按序列数据

Python机器学习实战

3回归分析(RegressionAnalasis)

11月27日

1单个神经元介绍

2经典网络结构介绍

3神经网络工作流程演示

4如何修正网络参数、梯度下降

5网络工作原理推导

6网络搭建准备

7样本从输入层到隐层传输的Python实现

8网络输出的Python实现

9单样本网络训练的Python实现

10全样本网络训练的Python实现

11网络性能评价

12调用sklearn实现神经网络算法

11月28日

1任务一:构建一个线性模型

1.1tensorflow介绍

1.2tensorflow2常用数据类型和操作

1.3初始化模型

1.4构建损失函数

1.5模型训练及可视化

1.6使用高阶API-keras

2任务二:mnist手写数字识别

2.1数据读取及探索

2.2交叉熵

2.3模型构建及训练

2.4调用保存好的模型对新样本进行预测

3作业:鸢尾花分类

11月29日

1深度神经网络-引言

2卷积神经网络CNN

2.1浅层神经网络的局限

2.2卷积操作

2.3卷积操作的优势

2.4池化及全连接

2.5高维输入及多filter卷积

2.6实现卷积操作

2.7实现池化操作

3循环神经网络RNN

3.1循环神经网络简介

3.2循环神经网路的常见结构

4长短时记忆网络LSTM

4.1LSTM的三个门

4.2LSTM三个门的计算示例

4.3利用RNN&LSTM实现mnist手写数字识别

11月30日

4加载模型、构建读取接口

5确定训练策略

6配置参数

7确定任务,开始训练

8性能评估及总结

泰迪云课堂

操作演练

12月1日

1项目背景与目标

2语料库预处理

3Seq2Seq模型计算图搭建--文件读取

4Seq2Seq模型计算图搭建--Encoder

5Seq2Seq模型计算图搭建--Decoder

6Seq2Seq模型计算图搭建--Seq3Seq

7模型训练

8模型测试

9注意力机制

12月2日

1明确项目目标

2准备数据

3照片预处理

4定位车牌信息

5分割车牌字符

6搭建车牌识别网络

7进行模型训练

8模型结果与评估

技能点:深度学习实战、TensorFlow框架、图像处理技术、OpenCV应用、实际项目搭建与应用。

12月3日

部分实操原理及结果展示

专题三人工智能项目实训营

1、项目名称:基于深度学习的推荐系统受众性别预测

所以,对于缺乏用户基础属性的公司而言,基于用户交互数据来推断用户基础属性,是一件极有价值的事情。

本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段。全程强调动手实操;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解数据分析与挖掘、机器学习与深度学习、人工智能项目实训的模型理论和项目代码实践,梳理技术框架,从根本上解决如何使用模型、优化模型的问题,通过讲解企业级案例,真正的让各位老师可以了解到所学内容如何和实际结合,做到更好的进行教育教学工作。

1、全程强调动手实操:内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解企业级案例,真正的让学员把所学内容和工作实际有效结合,做到更好的进行教育教学工作。

3、讲师将在线上对项目进行深入剖析和演示,可以与课程讲师以及学习该课程的其他老师直接进行沟通研讨,快速提升专项能力!

5、同时,参加线上课程学习的学员,如后续本人参加线下课程继续深圳,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。

4.2字符串娥常见方法

5.2练习:统计小说中的单词频次

6.2练习:自定义求序列偶数个数的函数

1.1数据分析概述

1.3安装Python的Anaconda发行版

1.4掌握JupyterNoteBook常用功能

2.1掌握NumPy数组对象

2.2掌握NumPy矩阵与通用函数

3.1掌握绘图基础语法与常用参数

3.2分析特征间关系

3.3分析特征内部数据分布与分散情况

深度学习基础-人工神经网络

3.1线性回归基本形成

1任务1:构建一个线性模型

2任务2:mnist手写数字识别

3作业-鸢尾花分类

1.1深度神经网络-引言

3.2循环神经网络的常见结构

实训营项目任务安排

12月5日

电商网站进行商品推荐时,如果事先知道用户的基本属性,如用户性别、用户年龄等,推荐的可靠性将大大增加。但是存在缺乏用户基础属性的公司,因此根据用户行为数据(点击行为)来推断用户基础属性(性别)是很有必要的。

第一天了解项目背景与目标,并对项目数据有一定的了解。

1了解项目背景及目标

2获取及认识数据

12月6日

对数据进行探索分析,对数据情况有一定了解后尝试对用户操作数据进行单击流分析。

3探索整理数据

3.1读取数据并查看数据规模

3.2缺失值探索分析

4获取用户相应单及流数据

4.2获取用户的各单击流数据

4.3查看单击流的长度分布,并进行可视化

12月7日

为后续构建深度学习分类模型,需要将单击流的向量数据映射到二维,故进行词嵌入(WordEmbedding)操作。

5实现词嵌入(WordEmbedding)操作

5.1对用户单击流数据进行预处理

5.2进行词向量训练(如获取素材id所有词的词向量矩阵)

5.3对用户的单击流进行编码及padding操作

5.4将词向量矩阵做相应排序并储存

5.5将单击流数据转化为二维样本数据并储存

12月8日

将单击流数据考虑为文本数据进行分类模型构建时,可以采用自然语言处理中常用的循环神经网络分类模型进行性别分类预测。

6构建循环神经网络(RNN)序列模型

6.1搭建网络

6.2模型训练并储存

6.3加载模型并预测

12月9日

做完词嵌入后的单击流数据的二维数据,将其考虑为图像数据可参考计算机视觉中常用的卷积神经网络分类模型构建另一个与前一天一样的性别分类预测模型,两个模型进行比较。

7构建卷积神经网络(CNN)模型

7.1搭建网络

7.2模型训练并储存

7.3加载模型并预测

12月10日

对前两天的模型进行优化处理,注意优化手段是构建并行网络结构,将循环神经网络与卷积神经网络结合,提高性别预测正确率。

8构建并行网络结构,多特征并行叠加

8.1搭建网络

8.2模型训练并储存

8.3加载模型并预测

9模型调优

任务讲解及分析

课程主讲师资介绍

报名须知与联系方式

1费用:包含报名费、学习费、资料费、证书费等

2报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景底、.JPG格式、14-40K文件大小)

3本次由广东泰迪智能科技股份有限公司收取费用并开具发票

4参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)

5本期研修班两专题及以上联报者可享受九折优惠

联系方式

联系人:曾老师手机:13246821827微信:antonia602501QQ:804954701邮箱:zengaizhi@tipdm.com机构网址:www.tipdm.com

附件一:

2020年全国高校大数据与人工智能骨干师资研修班报名申请表

THE END
1.七月在线七月在线创始人,北理工校外导师,微软AI MVP,Github上2万余star,CSDN 2000万PV博客『结构之法 算法之道』博主,去过近百所985/211高校分享过算法,亦是华为云等数十个大会的演讲嘉宾。2015年创办七月在线,并于2018年获得好未来千万投资,到2022年带队打造了350+的大厂专家讲师团队,和150+的全球TOP 100高校研究员/http://m.julyedu.com/
2.七月在线七月在线论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama(上) 2023-12-21 14:42 淘天阿里妈妈算法工程师机器学习面试题9道|含解析 2023-12-21 14:39 深信服算法二面面试题6道|含解析 2023-11-21 14:37 千人进千企之—北京大模型技术研讨会第一期圆满成功 https://www.163.com/dy/media/T1530698971155.html
3.七月在线机器学习项目lxwlxw七月在线机器学习项目 一、音乐推荐 1、传统的方式:基于suprise 协同过滤(各种版本)、SVD、矩阵分解 2、基于word2vec,用每个歌单中的song_id,作为一个样本,训练song2vec向量,进而求取相似歌曲, 用户兴趣推荐,根据用户喜欢的歌曲,将时间轴权重,歌曲热度权重叠加到song2vec相似歌曲的相似度上加权,之后排序,进而推荐https://www.cnblogs.com/lxw003/p/8652519.html
4.机器学习期末考试题库(大题问答)七月在线总结.pdf机器学习是一种基于数据的计算方法,它能够使计算机系统通过经验自我改进,无需通过明确的指令。机器学习的应用广泛,包括推荐系统、图像识别、语音识别等领域。机器学习的期末考试题库通常涵盖算法、模型、数据处理等多个方面,目的是检验学生对机器学习理论和实践的理解程度。 机器学习算法中有些不需要做归一化处理。例如,https://download.csdn.net/download/qq_44428729/12063474
5.七月在线julyedu的微博七月在线julyedu 7月11日 15:45 来自微博weibo.com 发布了头条文章:《字节机器学习算法岗面经—供应链与物流面试题8道|含解析》 #大厂算法面试题# #AI算法面试# # °字节机器学习算法岗面经—供应链与物流面试题8 七月在线julyedu 字节机器学习算法岗面经—供应链与物流面试题8道https://www.weibo.com/askjulyedu?refer_flag=1005055013_
6.每周文娱观察2017.2.172月14日消息,《炉石传说》团队推首届《炉石传说》世界杯,共有48个国家和地区的代表队伍,将在线上国际比赛中争夺参加现场决赛的资格,比赛奖金池为30万美元。 27、G胖曝光VR计划:Valve正在开发3款重量级VR游戏 据外媒Gamasutra报道,Valve创始人G胖近日宣布,正在利用Unity和自家的Source 2引擎开发3款重量级VR游戏,并从中http://www.leshanvc.com/cygc/23764.html
7.商业银行布局AI大模型的“三大路径”总之,开源大模型和在线大模型都是为了提供大规模机器学习或深度学习模型的访问和使用。开源大模型强调了代码的开放性和自由性,而在线大模型则提供了方便、快速和按需的模型服务。 三、我国AI大模型当前发展图景概览 当前,AI大模型创新已经成为全球科技竞争的“高地”,我国众多科技巨头、高校和科研院所、人工智能创新和https://new.qq.com/rain/a/20230919A091OL00
8.和鲸社区·每周挑战小红书是一个生活方式平台和消费决策入口,截至2019年7月,小红书用户数已超过3亿;截至到2019年10月,小红书月活跃用户数已经过亿,其中70%新增用户是90后。 在小红书社区,用户通过文字、图片、视频笔记的分享,记录了这个时代年轻人的正能量和美好生活,小红书通过机器学习对海量信息和人进行精准、高效匹配。小红书旗下设有https://www.heywhale.com/home/activity/detail/60ffe026e9eceb001727cfac/content/2
9.国家税务总局吉林省税务局需求公示国家税务总局吉林省税务局通过对征纳互动知识的AI深度学习形成智能知识库,为智能互动提供支撑。支持知识图谱构建、机器学习训练、知识调优、标记反哺、智能调取等功能,提升机器人智能服务能力。AI学习生成的知识内容,作为待采集知识,经审核后反哺到征纳互动知识库。 6.4.2业务功能 6.4.2.1知识图谱构建 http://jilin.chinatax.gov.cn/art/2021/11/25/art_22893_449634.html
10.谈谈解决数据丢失错误时效等问题的方法数据可观测性平台部署机器学习监视器,在问题出现异常时进行检测,并为数据团队提供完整的上下文,使他们能够立即采取行动。Contentsquare已经部署了广泛的数据测试方案,在部署数据可观察性的第一个月内,检测时间缩短了17%。 3.更快地修复数据事件 随着现代数据堆栈和管道的复杂性不断增加,解决数据问题变得越来越困难。根据https://36kr.com/p/2392734081686153
11.人工智能机器学习专题视频7套百度云网盘下载│ 课件—视觉聊天机器人 - 次世代的图灵测试.docx │ ├─ML_3月机器学习在线班 │ │ 下载http://www.dxbb8.cn/forum.php?mod=viewthread&tid=31609
12.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub590 我亲爱的机器人朋友 2022/5/20 懂你的朋友; 以人为中心的服务型友谊; 月之暗面。 589 2022年普利策奖作品幕后(下) 少为人知的获奖者:创刊仅10年的在线科学杂志。 587 设计正义:交互设计中的不平等与反思 2022/5/9 可供性与不可供性:为谁而设计? https://github.com/Newslab2020/Contents/blob/master/premium.md
13.机器学习召回率计算常见的召回算法有哪些机器学习召回率计算 常见的召回算法有哪些 本文是对七月在线课程召回算法进阶的一个简单笔记记录。 本笔记主要围绕课上所讲常见召回方式、协同过滤、关联商品召回、基于图的Swing召回算法、Embedding召回(item2vec|node2vec)、YutubeDNN 、动态多兴趣挖掘模型MIND、多路召回融合。https://blog.51cto.com/u_16213680/10407033
14.大盘点!近期可投优质EI会议汇总学术会议1、第三届机器人、自动化与智能控制国际会议(ICRAIC 2023) 2、计算机、物联网与智慧城市国际会议(CIoTSC 2023) 3、计算机视觉与深度学习国际会议(CVDL 2023) 4、第二届人工智能、人机交互和机器人国际学术会议(AIHCIR 2023) 5、第二届物联网、通信与智能技术国际会议(IoTCIT 2023) http://www.scitoday.cn/meeting/info.aspx?id=2964
15.数据隐私监管的经济后果:来自GDPR的经验证据新闻频道此外,机器学习算法的训练和应用在不同在线旅游网站分别进行。这意味着一个网站上的数据由于GDPR或其他因素的变化,不会影响其他网站上算法的性能。我们利用数据的这些特点和GDPR的地域覆盖范围,对欧洲主要国家和未实施GDPR的其他国家/地区的若干结果变量采用了差异设计。https://news.hexun.com/2020-04-29/201201351.html
16.研究生个人年终总结(精选14篇)七、自我激励 研究生生涯中既有长期目标,也有阶段性的计划。每个人都必须保持积极乐观的心态,努力实现目标和计划。同时,我们也应该在追求目标的道路上反思自己的行为,发现和纠正自己的缺点,不断强化自我激励,勇往直前。 八、深度学习 研究生生涯中,深度学习、机器学习、计算机视觉等技能的掌握是必要条件。我们要有耐https://www.jy135.com/nianzhongzongjie/1358295.html
17.国际国内公共卫生情报信息2023年第33期科研人员提出机器学习辅助定向进化新方法 《细胞》子刊发表关于内源性人体组织再生和修复原创性文章 研究揭示蜜蜂免疫系统可精准识别近缘异源菌株 AI透过胸片估测患者年龄 眼部扫描能提前七年预诊帕金森病 首个国产PCSK9单抗药获批 肾透明细胞癌治疗有了新思路 https://www.pzhcdc.com/Article/View?id=7553