林子雨:厦门大学大数据课程与教材体系建设经验分享(全文版)

厦门大学计算机科学系林子雨博士/助理教授

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段。厦门大学数据库实验室作为全国高校知名的大数据教学团队,在过去六年(2013年-2019年)集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

平台为全国高校提供大数据教学一站式“免费”服务,内容包括大数据专业建设方案、系列课程教材、讲义PPT、习题、实验、案例、教师备课指南、学生学习指南、授课视频、教师培训交流、大数据教学研讨会。

图第1届全国高校大数据教学研讨会合影

图第10期大数据师资培训班合影

厦门大学数据库实验室团队从2013年至今,一直专注于大数据教学工作,建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

(1)导论课程《大数据技术原理与应用》及教材

(2)进阶课程《Spark编程基础》及教材

(3)大数据实训课程及教材课程定位:实训课程,掌握大数据技术综合运用能力授课对象:计算机、软件工程、数据科学与大数据技术等理工科专业大学生(本科或高职)课程教材:林子雨.大数据实训案例之电信用户行为分析(Scala版),人民邮电出版社,2019年4月.林子雨.大数据实训案例之电影推荐系统(Scala版),人民邮电出版社,2019年4月.

课程定位:紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)课程教材:林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

1.课程定位

授课对象:大学生(计算机、软件工程、数据科学与大数据技术等专业)知识储备:编程、操作系统、数据库

2.课程教材

教材定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,为读者在大数据领域“深耕细作”奠定基础、指明方向。教材内容包括Hadoop、HDFS、HBase、NoSQL、云数据库、MapReduce、流计算、图计算、数据可视化、Spark等。

3.学时安排

课程共16周,每周2学时,总计32学时(理论32学时,可以另外安排16个实验上机学时)。

4.实验内容

(1)章节实验

实验一:熟悉常用的Linux操作和Hadoop操作实验二:熟悉常用的HDFS操作实验三:熟悉常用的HBase操作实验四:NoSQL和关系数据库的操作比较实验五:MapReduce初级编程实践

(2)综合案例

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法,案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。

5.课程视频

6.课程资源

大数据技术进阶学习课程

授课对象:大学生、研究生(计算机、软件工程、数据科学与大数据技术等专业)

知识储备:Java编程、数据库、操作系统、Hadoop

先修课程:入门级大数据课程,比如:大数据技术原理与应用

(1)选择编程语言

选择教材时,必须首先确定编程语言。Spark支持多种编程语言:Scala、Java、Python、R。Spark首选语言是Scala,其次可以把Python作为开发Spark的语言。

Spark这个软件本身就是使用Scala语言开发的,采用Scala语言编写Spark应用程序,可以获得最好的性能。关于采用哪种语言编写Spark应用程序,这里强调两点:

(a)Java代码太繁琐。在大数据应用场景中,不太适合使用Java,因为,完成同样的任务,Scala只需要一行代码,而Java则可能需要10行代码;而且,Scala语言可以支持交互式编程,大大提高了程序开发效率,而Java则不支持交互式执行,必须编译以后运行。

(b)Python语言并发性能不好。在并发性能方面,Scala要明显优于Python,而且,Scala是静态类型,可以在编译阶段就抛出错误,便于开发大型大数据项目,此外,Scala兼容Java,运行在JVM上,可以直接使用Java中的HadoopAPI来和Hadoop进行交互,但是,Python与Hadoop之间的交互非常糟糕,通常都需要第三方库(比如hadoopy)。

(2)在线教程

(3)纸质教材

披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系

本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。

(b)厦门大学林子雨,郑海山,赖永炫编著《Spark编程基础(Python版)》,人民邮电出版社,预计2019年8月上市销售。

3.课时安排

课程共16周,每周2学时,总计32学时理论课程。各高校可根据实际情况,再额外增加16学时实验上机。

4.交叉知识

本课程涵盖知识内容包括:操作系统(Linux)、分布式存储(HDFS、HBase)、分布式计算(SparkCore)、流计算(SparkStreaming)、机器学习(SparkMLlib)、查询分析(SparkSQL)、日志采集(Flume)、消息分发(Kafka)、数据仓库(Hive)、关系数据库(MySQL)、机器学习/数据挖掘等知识。同时要掌握开发工具Eclipse、IntelliJIDEA以及编译打包工具sbt和Maven等。

图《Spark编程基础》教材中涉及的交叉知识

实验1-Linux系统的安装和常用命令

实验2-Scala编程初级实践

实验3-Spark和Hadoop的安装

实验4-RDD编程初级实践

实验5-SparkSQL编程初级实践

实验6-SparkStreaming编程初级实践

实验7-Spark机器学习库MLlib编程实践

1.基本信息

*实训课程需要达到的专业工程认证毕业要求:

(1)指标点4.1:针对软件开发特定需求,了解信息学科发展动态;(2)指标点9.1:正确理解个人与团队的关系,理解团队合作的重要性,具备在多学科背景下团队合作的意识和能力;(3)指标点9.2:在多学科背景的团队下,理解团队成员的不同角色在团队中的作用,能够作为个体或团队成员完成所承担的任务;(4)指标点10.2:具有书面表达与沟通能力、科技论文与技术报告写作能力,能够撰写报告和设计文稿;(5)指标点11.2:了解市场、用户的需求变化以及技术发展,提出技术改造、系统更新、效能改进的方案。

(上图实训课程课堂照片)

*实训教室:数字内容与信息智能处理实验室

实验室位于厦门理工学院精工园1号楼416教室,建于2008年6月,实验室面积约120平方米,设备总额约46万元。实验室配备具有较强的数据运算与图形图像处理能力的计算机,能满足图形图像处理、遥感图像处理、数据挖掘、大数据等课程的需求。

主要仪器设备:DellOptiPlex7040计算机61台,主要技术参数:CPU:Intel酷睿i5-6500;内存:16GB;硬盘:1TB*2;显示器:23寸LCD。

大数据环境搭建:本次实训课程没有采用任何厂商的大数据实验平台。实验室机房里面的电脑使用Windows7操作系统,在实训课程中,由学生自己在Windows7系统中安装虚拟机软件VirtualBox,然后,在VirtualBox软件中安装Linux虚拟机(Ubuntu16.04),再在Linux虚拟机中安装各种大数据软件,构建“伪分布式”的大数据实验环境。由于机器的内存有16GB,所以,整个实训过程,运行非常流畅。

*实训管理系统:本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

*实训成果文档:团队建设和奖惩制度、文献综述、项目开发计划、需求分析说明书、系统设计说明书、项目代码、项目答辩PPT、用户手册。

2.目的、任务和要求

1).课程设计目的

(上图实训课程林子雨老师在上课)

2).课程设计任务与要求

本课程设计项目涉及数据的预处理、数据的存储、数据查看、算法编写、算法应用和大数据结果展现等全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Spark、SparkMlib、IntelliJIDEA(简称IDEA)、Node.js等系统和软件的安装和使用方法。通过本项目,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。

本课程设计项目需要完成以下任务:

本课程设计任务遵循真实的企业标准开发流程,使学生了解和体会商业项目开发的过程与环境。指导其完成制定开发计划、分析系统需求、设计系统架构及功能,让学生通过团队合作,在预定周期内完成软件项目的开发,从而训练学生的编程开发、文档撰写、统筹规划、分工协作等技能及能力。

(上图林子雨老师在解答学生问题)

3.课程设计内容

课程设计题目:基于SparkMLlib的电影推荐

设计一个基于协同过滤算法的电影推荐算法,采用Scala语言编写SparkMLlib程序实现该算法,利用已有的训练数据集对算法进行训练得到电影推荐模型,并用测试数据集进行电影推荐,最后,将推荐结果进行可视化展现。

基本需求包括:

(1)数据ETL:可以把保存在文本文件中的数据集,通过ETL工具,加载到分布式文件系统HDFS中。

(2)编写Spark程序实现电影推荐功能:采用Scala语言,编写SparkMLlib程序,对HDFS中的数据进行分析,实现电影推荐算法;

(3)可视化:采用可视化技术,把分析结果展现给用户。

(上图不同团队之间在互相交流学习)

4.课程设计的教学方法

课程设计采用“技术教学+项目实践”的形式,以技术教学作为项目实践的准备和基础,以项目实践强化技术教学的效果,并训练学生的团队协作、交流沟通以及实施商业项目开发的能力。

技术教学环节采用的教学方法包括:

项目实践环节采用的教学方法包括:

(上图项目答辩最佳团队获得林子雨老师赠书)

5.课程教材

林子雨编著《大数据案例之电影推荐系统》,人民邮电出版社,2019年4月.

6.授课过程

7.实训成果文档

实训成果文档包括:团队建设和奖惩制度文献综述项目开发计划需求分析说明书系统设计说明书项目代码项目答辩PPT用户手册

(上图实训课堂上学生团队在讨论解决问题)

8.教学管理平台

本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

9.大数据课程公共服务平台

10.学生作品

紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)

2.培养目标

本课程旨在实现以下几个培养目标:

(1)引导学生步入大数据时代,积极投身大数据的变革浪潮之中

(2)了解大数据概念,培养大数据思维,养成数据安全意识

(3)认识大数据伦理,努力使自己的行为符合大数据伦理规范要求

(4)熟悉大数据应用,探寻大数据与自己专业的应用结合点

(5)激发学生基于大数据的创新创业热情

3.课程内容

大数据时代已经全面开启,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。了解大数据概念、具备大数据思维,是新时代对人才的新要求。本课程高屋建瓴探讨大数据,内容深入浅出,简单易懂,适合非计算机专业(尤其是文科专业)学生学习。课程内容包括大数据概述,大数据与云计算、物联网和人工智能,大数据技术,大数据应用,大数据安全,大数据思维,大数据伦理,数据共享,数据开放,大数据交易和大数据治理等。

4.课程教材

林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

厦门大学数据库实验室在过去四年投入大量精力建设了丰富的大数据课程资源,总体而言,我们的课程建设模式如下:以大量教学实践推动课程和教材建设、以平台思维促进教学资源汇聚和共享、以迭代方法不断优化升级教学内容、自我造血为课程建设提供稳定资金保障。

THE END
1.在线学习平台的设计与实现附源码85204软件工程在线教育平台设计在线学习平台的设计与实现-附源码85204 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,在线学习平台当然也不能排除在外。在线学习平台是以实际运用为开发背景,运用软件工程原理和开发方法,采用 SSM技术构建的一个管理平台。整个开发过程首先对软件平台进行https://blog.csdn.net/m0_73244000/article/details/135726135
2.BlockPY在线编程教育平台的设计与实现本文首先介绍了目前国内外在线编程教育的现状并分析了其优缺点。根据调研结果,对BlockPY在线编程教育平台进行需求分析,设计平台的系统架构,进而划分系统的功能模块。随后详细介绍了各个功能模块以及编程特征检测的设计与实现。系统分为在线编程学习平台和编程教学管理平台,后端使用基于web的Django框架技术,前端选择了轻量级的https://cdmd.cnki.com.cn/Article/CDMD-10013-1021123654.htm
3.在线编程平台直播教学系统的设计与实现在线编程平台直播教学系统的设计与实现,音视频直播,流媒体,在线编程,学习行为分析,随着互联网技术的高速发展,“直播+教育”这种新的“互联网+”学习形式应运而生。目前,在线编程教育也越来愈多地采用网络直播课的https://wap.cnki.net/lunwen-1021127059.html
4.基于web的少儿趣味编程学习平台设计与实现计算机业设计源码大神 08-30 00:33 百家号摘要 随着信息技术的飞速发展,编程能力已成为未来社会不可或缺的技能之一。然而,传统的编程教育方式对于少儿来说往往显得枯燥乏味,难以激发他们的学习兴趣。因此,开发一个基于Web的趣味编程学习平台显得尤为重要。通过利用Web技术的便捷性和互动性,为少儿提供https://localsite.baidu.com/article-detail.html?articleId=101623738&ucid=n1D4rHDvrjm&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&ch=54&srcid=10007&contentFrom=3
5.MCA2024升级内容马士兵教育官网在分布式框架阶段,我们将深入研究分布式系统和相关框架,包括 LVS、Zookeeper、FastDFS、Minio、AirFlow、Nginx、Kong和Solr等技术,在该阶段中我们将学习构建高可用的分布式集群,实现负载均衡、分布式存储、任务调度、高性能Web服务和搜索引擎 等内容 。 通过这个阶段的学习,学习者将具备分布式系统设计和部署的能力,能够构建https://www.mashibing.com/white_paper/mca
6.少儿编程,硝烟再起编程语言教学王江计算机计算思维是计算机科学教育的核心,而编程教育则是计算思维培养的重要手段,编程可以使计算思维概念具体化,成为学习计算思维的工具。 少儿编程教育:少儿编程教育是针对 3 到 18 岁的儿童和少年,基于可视化图形编程工具和基础编程语言,构建在线编程学习平台和开源硬件平台,培养他们计算思维、创新能力等技能,促进他们全面发展的https://www.163.com/dy/article/GJ04898P05118H97.html
7.在线学习基于SpringBoot的在线学习系统的设计与实现在线学习系统是一个基于微信公众号B2C模式实现的在线学习平台,系统包含微信公众号服务和后台管理系统两大部分。本系统由角色可分为两类,微信用户和管理员角色。 微信用户通过微信授权登录,关注该公众号,就可以在线进行选择课程、在线播放课程视频等一系列操作。根据分析显示,在线学习系统微信用户需实现的功能有:微信授权登https://blog.51cto.com/u_16147814/6399979
8.C程序设计MOOC中国程序设计(CP,Computer Programming)课程是大学计算机教育的核心课程,它既是各类专业技术的应用基础,又是各种实践环节的软件工具,更是课程设计、学科竞赛、毕业设计、创新创业、创客科技等活动的重要平台。编程能力不仅是学习者进一步专业深造的潜力体现,也是创新人才的重要指标。 https://www.mooc.cn/course/8804.html
9.探析网络教学平台的研究与实现skyk摘要:本文介绍了1个基于WEB的网上互动教学系统的设计思想与实现方法。该系统为教师提供了更好的教学方式,包含了网上授课、在线辅导答疑、习题作业、在线考试等功能模块。使师生在网上很好地互动交流,共同完成该门课程的学习、教学任务。 关键词:WEB;网络教学平台;PHP技术;MySQL https://www.cnblogs.com/skyk/articles/1962372.html
10.德宏州教育体育局信息公开专栏推进县级政府履行教育职责督导评估,深化新时代教育督导体制机制改革、大中小学劳动教育改革,深化“放管服”改革,申请政务服务事项100%实现“一网通办”。推进涉外合作办学,设有12个境外办学机构和3个境外办学项目,重点建设与南亚东南亚国家教育合作平台,来滇留学生达1.66万人,位居全国第9位。https://www.dh.gov.cn/jyj/Web/_F0_0_4U8INRS30F259A8CD93F4E448E.htm
11.vivo互联网机器学习平台的建设与实践腾讯云开发者社区随着广告和内容等推荐场景的扩展,算法模型也在不断演进迭代中。业务的不断增长,模型的训练、产出迫切需要进行平台化管理。vivo互联网机器学习平台主要业务场景包括游戏分发、商店、商城、内容分发等。本文将从业务场景、平台功能实现两个方面介绍vivo内部的机器学习平台在建设与实践中的思考和优化思路。 https://cloud.tencent.com/developer/article/2136749
12.低代码平台的设计与实现(低代码平台前端)本篇文章给大家谈谈低代码平台的设计与实现,以及低代码平台前端对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享低代码平台的设计与实现的知识,其中也会对低代码平台前端进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧! https://www.huoban.com/news/post/120252.html
13.基于Python的在线考试系统的设计与实现(36页)而基于Python的在线考试系统通过提供多种答题方式以及丰富的学习资源,为学生提供了更加便捷和个性化的学习环境,促进了学生的主动学习和自主发展。 因此,基于Python的在线考试系统的设计与实现是当前教育评估领域的一个研究热点,它可以有效解决传统考试方式存在的局限性和问题,提高考试的效率、准确性和公正性,为学生和教师https://m.book118.com/html/2023/1025/5213312231011000.shtm
14.城市旅游网站的设计与实现论文(精选6篇)一个优秀的网站必定有一个强大的数据库支持,数据库设计是指针对一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够有效的存储数据,满足各种用户的需要。下面是小编整理的城市旅游网站的设计与实现论文,欢迎参考。 城市旅游网站的设计与实现论文 篇1 https://biyelunwen.yjbys.com/fanwen/lvyouguanli/668985.html