林子雨:厦门大学大数据课程与教材体系建设经验分享(全文版)

厦门大学计算机科学系林子雨博士/助理教授

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段。厦门大学数据库实验室作为全国高校知名的大数据教学团队,在过去六年(2013年-2019年)集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

平台为全国高校提供大数据教学一站式“免费”服务,内容包括大数据专业建设方案、系列课程教材、讲义PPT、习题、实验、案例、教师备课指南、学生学习指南、授课视频、教师培训交流、大数据教学研讨会。

图第1届全国高校大数据教学研讨会合影

图第10期大数据师资培训班合影

厦门大学数据库实验室团队从2013年至今,一直专注于大数据教学工作,建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

(1)导论课程《大数据技术原理与应用》及教材

(2)进阶课程《Spark编程基础》及教材

(3)大数据实训课程及教材课程定位:实训课程,掌握大数据技术综合运用能力授课对象:计算机、软件工程、数据科学与大数据技术等理工科专业大学生(本科或高职)课程教材:林子雨.大数据实训案例之电信用户行为分析(Scala版),人民邮电出版社,2019年4月.林子雨.大数据实训案例之电影推荐系统(Scala版),人民邮电出版社,2019年4月.

课程定位:紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)课程教材:林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

1.课程定位

授课对象:大学生(计算机、软件工程、数据科学与大数据技术等专业)知识储备:编程、操作系统、数据库

2.课程教材

教材定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,为读者在大数据领域“深耕细作”奠定基础、指明方向。教材内容包括Hadoop、HDFS、HBase、NoSQL、云数据库、MapReduce、流计算、图计算、数据可视化、Spark等。

3.学时安排

课程共16周,每周2学时,总计32学时(理论32学时,可以另外安排16个实验上机学时)。

4.实验内容

(1)章节实验

实验一:熟悉常用的Linux操作和Hadoop操作实验二:熟悉常用的HDFS操作实验三:熟悉常用的HBase操作实验四:NoSQL和关系数据库的操作比较实验五:MapReduce初级编程实践

(2)综合案例

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法,案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。

5.课程视频

6.课程资源

大数据技术进阶学习课程

授课对象:大学生、研究生(计算机、软件工程、数据科学与大数据技术等专业)

知识储备:Java编程、数据库、操作系统、Hadoop

先修课程:入门级大数据课程,比如:大数据技术原理与应用

(1)选择编程语言

选择教材时,必须首先确定编程语言。Spark支持多种编程语言:Scala、Java、Python、R。Spark首选语言是Scala,其次可以把Python作为开发Spark的语言。

Spark这个软件本身就是使用Scala语言开发的,采用Scala语言编写Spark应用程序,可以获得最好的性能。关于采用哪种语言编写Spark应用程序,这里强调两点:

(a)Java代码太繁琐。在大数据应用场景中,不太适合使用Java,因为,完成同样的任务,Scala只需要一行代码,而Java则可能需要10行代码;而且,Scala语言可以支持交互式编程,大大提高了程序开发效率,而Java则不支持交互式执行,必须编译以后运行。

(b)Python语言并发性能不好。在并发性能方面,Scala要明显优于Python,而且,Scala是静态类型,可以在编译阶段就抛出错误,便于开发大型大数据项目,此外,Scala兼容Java,运行在JVM上,可以直接使用Java中的HadoopAPI来和Hadoop进行交互,但是,Python与Hadoop之间的交互非常糟糕,通常都需要第三方库(比如hadoopy)。

(2)在线教程

(3)纸质教材

披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系

本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。

(b)厦门大学林子雨,郑海山,赖永炫编著《Spark编程基础(Python版)》,人民邮电出版社,预计2019年8月上市销售。

3.课时安排

课程共16周,每周2学时,总计32学时理论课程。各高校可根据实际情况,再额外增加16学时实验上机。

4.交叉知识

本课程涵盖知识内容包括:操作系统(Linux)、分布式存储(HDFS、HBase)、分布式计算(SparkCore)、流计算(SparkStreaming)、机器学习(SparkMLlib)、查询分析(SparkSQL)、日志采集(Flume)、消息分发(Kafka)、数据仓库(Hive)、关系数据库(MySQL)、机器学习/数据挖掘等知识。同时要掌握开发工具Eclipse、IntelliJIDEA以及编译打包工具sbt和Maven等。

图《Spark编程基础》教材中涉及的交叉知识

实验1-Linux系统的安装和常用命令

实验2-Scala编程初级实践

实验3-Spark和Hadoop的安装

实验4-RDD编程初级实践

实验5-SparkSQL编程初级实践

实验6-SparkStreaming编程初级实践

实验7-Spark机器学习库MLlib编程实践

1.基本信息

*实训课程需要达到的专业工程认证毕业要求:

(1)指标点4.1:针对软件开发特定需求,了解信息学科发展动态;(2)指标点9.1:正确理解个人与团队的关系,理解团队合作的重要性,具备在多学科背景下团队合作的意识和能力;(3)指标点9.2:在多学科背景的团队下,理解团队成员的不同角色在团队中的作用,能够作为个体或团队成员完成所承担的任务;(4)指标点10.2:具有书面表达与沟通能力、科技论文与技术报告写作能力,能够撰写报告和设计文稿;(5)指标点11.2:了解市场、用户的需求变化以及技术发展,提出技术改造、系统更新、效能改进的方案。

(上图实训课程课堂照片)

*实训教室:数字内容与信息智能处理实验室

实验室位于厦门理工学院精工园1号楼416教室,建于2008年6月,实验室面积约120平方米,设备总额约46万元。实验室配备具有较强的数据运算与图形图像处理能力的计算机,能满足图形图像处理、遥感图像处理、数据挖掘、大数据等课程的需求。

主要仪器设备:DellOptiPlex7040计算机61台,主要技术参数:CPU:Intel酷睿i5-6500;内存:16GB;硬盘:1TB*2;显示器:23寸LCD。

大数据环境搭建:本次实训课程没有采用任何厂商的大数据实验平台。实验室机房里面的电脑使用Windows7操作系统,在实训课程中,由学生自己在Windows7系统中安装虚拟机软件VirtualBox,然后,在VirtualBox软件中安装Linux虚拟机(Ubuntu16.04),再在Linux虚拟机中安装各种大数据软件,构建“伪分布式”的大数据实验环境。由于机器的内存有16GB,所以,整个实训过程,运行非常流畅。

*实训管理系统:本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

*实训成果文档:团队建设和奖惩制度、文献综述、项目开发计划、需求分析说明书、系统设计说明书、项目代码、项目答辩PPT、用户手册。

2.目的、任务和要求

1).课程设计目的

(上图实训课程林子雨老师在上课)

2).课程设计任务与要求

本课程设计项目涉及数据的预处理、数据的存储、数据查看、算法编写、算法应用和大数据结果展现等全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Spark、SparkMlib、IntelliJIDEA(简称IDEA)、Node.js等系统和软件的安装和使用方法。通过本项目,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。

本课程设计项目需要完成以下任务:

本课程设计任务遵循真实的企业标准开发流程,使学生了解和体会商业项目开发的过程与环境。指导其完成制定开发计划、分析系统需求、设计系统架构及功能,让学生通过团队合作,在预定周期内完成软件项目的开发,从而训练学生的编程开发、文档撰写、统筹规划、分工协作等技能及能力。

(上图林子雨老师在解答学生问题)

3.课程设计内容

课程设计题目:基于SparkMLlib的电影推荐

设计一个基于协同过滤算法的电影推荐算法,采用Scala语言编写SparkMLlib程序实现该算法,利用已有的训练数据集对算法进行训练得到电影推荐模型,并用测试数据集进行电影推荐,最后,将推荐结果进行可视化展现。

基本需求包括:

(1)数据ETL:可以把保存在文本文件中的数据集,通过ETL工具,加载到分布式文件系统HDFS中。

(2)编写Spark程序实现电影推荐功能:采用Scala语言,编写SparkMLlib程序,对HDFS中的数据进行分析,实现电影推荐算法;

(3)可视化:采用可视化技术,把分析结果展现给用户。

(上图不同团队之间在互相交流学习)

4.课程设计的教学方法

课程设计采用“技术教学+项目实践”的形式,以技术教学作为项目实践的准备和基础,以项目实践强化技术教学的效果,并训练学生的团队协作、交流沟通以及实施商业项目开发的能力。

技术教学环节采用的教学方法包括:

项目实践环节采用的教学方法包括:

(上图项目答辩最佳团队获得林子雨老师赠书)

5.课程教材

林子雨编著《大数据案例之电影推荐系统》,人民邮电出版社,2019年4月.

6.授课过程

7.实训成果文档

实训成果文档包括:团队建设和奖惩制度文献综述项目开发计划需求分析说明书系统设计说明书项目代码项目答辩PPT用户手册

(上图实训课堂上学生团队在讨论解决问题)

8.教学管理平台

本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

9.大数据课程公共服务平台

10.学生作品

紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)

2.培养目标

本课程旨在实现以下几个培养目标:

(1)引导学生步入大数据时代,积极投身大数据的变革浪潮之中

(2)了解大数据概念,培养大数据思维,养成数据安全意识

(3)认识大数据伦理,努力使自己的行为符合大数据伦理规范要求

(4)熟悉大数据应用,探寻大数据与自己专业的应用结合点

(5)激发学生基于大数据的创新创业热情

3.课程内容

大数据时代已经全面开启,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。了解大数据概念、具备大数据思维,是新时代对人才的新要求。本课程高屋建瓴探讨大数据,内容深入浅出,简单易懂,适合非计算机专业(尤其是文科专业)学生学习。课程内容包括大数据概述,大数据与云计算、物联网和人工智能,大数据技术,大数据应用,大数据安全,大数据思维,大数据伦理,数据共享,数据开放,大数据交易和大数据治理等。

4.课程教材

林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

厦门大学数据库实验室在过去四年投入大量精力建设了丰富的大数据课程资源,总体而言,我们的课程建设模式如下:以大量教学实践推动课程和教材建设、以平台思维促进教学资源汇聚和共享、以迭代方法不断优化升级教学内容、自我造血为课程建设提供稳定资金保障。

THE END
1.即时设计最全面的使用教程来啦1、即时设计使用教程之在线注册使用,告别内存卡顿 进入即时设计的方法很简单,只需要搜索 “即时设计”,找到官网的对应链接,点击进入即可。然后点击注册即时设计,接下来就能免费使用所有功能了。因为是在线设计工具,所以完全不需要占用内存下载,在线就能使用各种设计工具,还能体验到Sketch、Figma等软件的功能,用到就是赚到https://js.design/special/article/js-design-tutorials.html
2.即时设计初学者指南,零基础入门必看方法一:如果需要使用本地字体,可以进入[帮助],点击[更多],选择[本地字体助手] 单击“字体助手”按钮,在计算机上安装“字体助手”程序。 方法二:您还可以进入即时设计官网首页的【下载】页面,下载本地字体助手,即时设计支持Windows、Mac版本。 如果你是一个UI设计小白,那么你选择即时设计作为设计工具,这是完美的。您https://blog.csdn.net/weixin_44070413/article/details/140323774
3.稿定设计官网版下载稿定设计5.0.2官网最新版下载稿定设计官网版是一款非常好用的图片处理和排版工具软件,这里有超多的功能可以使用,可以帮助你进行图片和视频的创作,进入软件的大厅中就可以看到很多的功能,一键就可以轻松的进行操作,在创作的时候可以获得软件提供的帮助,就可以轻松的使用软件,还在等什么,赶紧来使用吧。 稿定设计官网版怎么用 1、在进行图片编辑的时候https://app.ali213.net/aznew/614907.html
4.UI/UX设计师都能用的设计"偷懒"方法MySecretRainbow这个算是即时设计比较火的插件,我试用了一下,效果确实很好,图片有多余的东西用插件擦涂一下就行,在设计过程中不需要单独跨平台处理,出来的效果也很好。 这种类型的插件或者网页很多,很难得的是,他们这个插件完全免费,且不限次数使用。这个插件也是我比较推荐的。 http://www.mysecretrainbow.com/blog/24070.html
5.中国邮政速递物流多种增值服务:供应商库存管理、集装单元设计、产品组合加工、贴标及换包装,仓单质押贷款、货物保险购买,以及其他定制服务。仓储配送协同方案:仓储与配送转运中心同址运作、有效衔接,建成了分布华北、东北、华东、华南、华中、西南、西北的七大区域仓配中心,以及122个重点城市仓配中心和近千个县级枢纽仓配中心,仓配协同https://www.ems.com.cn/
6.CAD中使用修订云线包围文字的设置方法CAD常见问题CAD中使用修订云线包围文字的设置方法 问题描述: CAD修订云线是CAD软件中常用的一种标记工具,用于标示设计图纸中的修改、修订或注释内容。修订云线通常以云形状围绕着需要修改的部分,并在云线外部附上相应的注释或说明文字,可以有效地传达设计图纸中的修改和修订内容。当我们需要使用修订云线包围一段文字或者某一视图https://www.zwcad.com/service_69_9920.html
7.CSGO准星怎么设计准星设计方法方法1:使用创意工坊的准星设置地图 在Steam界面中进入创意工坊,搜索 crashz' Crosshair Generator 点击订阅,下载这张地图,然后进入游戏选择创意工坊,找到地图打开 可以看到,在这张创意工坊地图中,调整的选项还是蛮全的,颜色什么的也有很多种可以选择,还有职业哥们得准星参数,只需要对着开一枪就可以更换,大家可以通过这张https://ol.3dmgame.com/gl/13333.html
8.(四)张家口市商务局市场建设运行领域百问百答设计、标识应满足GB18597要求等;应具备HJ348要求的安全环保类设施设备,符合环境保护和污染控制的相关要求;调整和增加对危险废物和固体废物的贮存、处理要求,企业应妥善处置固体废物,严禁非法转移、倾倒、利用和处置,拆解产生的固体废物贮存应满足HJ2025的要求;扩大附录B中典型固体废物种类和对应处理方法,明确危险废物管理https://www.zjk.gov.cn/content/bwbd/197919.html
9.+价值+对换表+购买/转让/吃饭+有效期及避免过期方法)如果不想在香格里拉酒店官网预定酒店的话,可先注册Extrabux返利网(Extrabux返利网是什么?),通过Extrabux链接在Booking.com、Agoda、Hotels.com、Expedia、Priceline等机票酒店预订网站预订,可以选择全球范围内不同 酒店类型,不仅可享网站各类优惠活动,还可以额外获得消费金额最高6%的超级现金返利。(支持多种提现方式) https://www.extrabux.cn/chs/guide/6893300
10.聊医管理内参试发行版第三期在医院就医方面,进一步全面实施健康医疗信息惠民行动计划,开展居民预约诊疗、分时段就诊、诊间付费以及医保费用即时结算等便民服务,推进医疗机构间检验检查结果互认等。 在取药方面,将探索医疗机构与定点零售药店开展处方外配业务的衔接机制。 在支付方面,强化社保卡的银行账户功能,拓展社保卡线上支付医疗费用结算模式。全面https://lib.lchospital.cn/qitafuwu/liaoyineican-guanlilei/2017nian/2018-07-01/716.html
11.看完20000条微博,捋一捋杜蕾斯的营销套路界面新闻·JMedia下面我想详细分析一下,杜蕾斯在互动营销所运用到的方法和手段: 所谓互动,即双方互相的动起来;而互动式营销关键在于用户与企业之间有来有往,是双向的沟通或行动。 好的互动营销应该具备三个条件: 让用户真正的参与进来,打造强烈的参与感; 在用户快速、及时、有效地与企业产生互动时,让TA们获得即时反馈; https://www.jiemian.com/article/1914563.html
12.网络营销策划方案(精选15篇)这是网上调查最基本的形式,广泛应用于各种内容的调查活动,这实际上也就是问卷调查方法在互联网上的延伸。 (2)电子邮件调查 合理设计调查表单,将设计好的调查表直接发送到被调查者的邮箱中,或者在电子邮件正文中给出一个网址链接到在线调查表页面。 这种方式在一定程度上可以对用户成分加以选择,并节约被访问者的上网https://www.gdyjs.com/shiyongwen/cehuashu/490891.html
13.最新微博方案精选微博营销任务在时下网络营销的方法多种多样大环境下,各企业可以尝试的一定是微博营销。随着微博的逐渐升温,微博营销已经成为当前网络推广的一个新的制高点,其即时性、高传播率、低花费都让现有的营销形式受到一定的冲击。 微博方案 篇5 T100企业微博运营策划方案 https://www.liuxue86.com/a/4986905.html
14.信息技术应用能力提升工程2.0工具软件集锦印章制作大师使用方法 图符设计大师 v5.0 免费绿色版链接:https://pan.baidu.com/s/1tqM_lks_UYYjoGxJbDQC2A 提取码:hu48 复制这段内容后打开百度网盘手机App,操作更方便哦 Snipaste - 截图+ 贴图 https://zh.snipaste.com/ 万能联播 一款在电脑和手机端免费下载各平台视频和百度网盘文件的神器!网页链接 https://www.meipian.cn/3b1ahl50
15.第三章预算费用标准和计算方法各省定额说明查询土地使用及拆迁补偿费计算方法如下: (1)土地使用及拆迁补偿费应根据设计文件确定的大中修工程用地和临时用地面积及其附着物的情况,以及实际发生的费用项目,按国家有关规定及工程所在地的省(自治区、直辖市)颁布的有关规定和标准计算。 (2)森林植被恢复费应根据审批单位批准的大中修工程占用林地的类型及面积,按国家http://www.sjms.info/index.php/default/content/32146.html
16.创新创业大赛的计划书(通用13篇)在发展不断提速的社会中,人们使用创业计划书的机会逐渐增多,一份完美的创业计划书可以增强创业者的自信,使创业者更容易控制企业、对经营更有把握。拟起创业计划书来就毫无头绪?以下是小编为大家收集的创新创业大赛的计划书(通用13篇),仅供参考,大家一起来看看吧。 https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/632780.html
17.AI指导你实现出色的UI界面设计先说说一款国内的产品——即时AI。它是一款适合新手的国产云端设计工具,与国外的一些云端设计软件相比,它不需要开VPN,且页面完全使用中文。 01 两种算法模型,各有所长 即时AI目前有两大生成模型,JS-INNO和JS-UIbotics,对应不同设计需求,在生成AI前,需要选择对应的生成模型。 https://www.hxsd.com/information/3295/
18.2024年军队文职教育学专业科目考试大纲军队人才网红师教育教学的概念;教学的任务与作用;教学理念;教学过程的概念;关于教学过程本质的主要观点;教育过程中应处理的关系;教学设计;教学模式;教学原则;教学方法;教学环节;教学组织形式;教学评价。 第三章 德育 一、德育概述 德育的概念;德育的意义;德育的任务;德育的基本内容。 https://www.zjjks.com/ksdg/82077.html
19.市场运营具体做什么(解读如何策划有效的市场推广运营方案)某某数据公司所生产的内容几乎全部都是围绕着数据分析、数据驱动、增长这些类似的维度展开的,在教你如何做增长的同时巧妙地将自家的产品融入其中,这样就间接的打了广告,客户如果有意向,会主动到公司官网查看并留下线索(所以官网的设计对企业来说也是只管重要)。 https://www.niaogebiji.com/article-143645-1.html
20.熊说轻分析直播课程笔记:苍穹系列直播2021.08宏变量定义:如项目管理系统中涉及到人员的项目权限(这边的获取的复杂程度影响项目权限如何设计) 轻分析管理员:如何设置轻分析管理员、如何使用宏定义、公共数据源管理等?如何进行移交管理员? 出现两个一对多关系,如何设置SQL取数避免出现数据叉乘、影响取数效率? https://vip.kingdee.com/article/232787776998281472?lang=zh-CN
21.游民星空礼包码使用方法|游戏崩溃解决|全英雄连携技能|角色图鉴 标签:超级英雄|玩家对战 上市:12月06日 众评|进入专区 无限暖暖猛男必玩!!! 攻略:全福利汇总|资源规划建议|跳跃技巧教学|花愿镇设计图收集 兑换码一览|剧情流程视频|钻石获取途径|安装运行FAQ 标签:探索|开放世界 https://gamersky.com/