林子雨:厦门大学大数据课程与教材体系建设经验分享(全文版)

厦门大学计算机科学系林子雨博士/助理教授

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段。厦门大学数据库实验室作为全国高校知名的大数据教学团队,在过去六年(2013年-2019年)集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

平台为全国高校提供大数据教学一站式“免费”服务,内容包括大数据专业建设方案、系列课程教材、讲义PPT、习题、实验、案例、教师备课指南、学生学习指南、授课视频、教师培训交流、大数据教学研讨会。

图第1届全国高校大数据教学研讨会合影

图第10期大数据师资培训班合影

厦门大学数据库实验室团队从2013年至今,一直专注于大数据教学工作,建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

(1)导论课程《大数据技术原理与应用》及教材

(2)进阶课程《Spark编程基础》及教材

(3)大数据实训课程及教材课程定位:实训课程,掌握大数据技术综合运用能力授课对象:计算机、软件工程、数据科学与大数据技术等理工科专业大学生(本科或高职)课程教材:林子雨.大数据实训案例之电信用户行为分析(Scala版),人民邮电出版社,2019年4月.林子雨.大数据实训案例之电影推荐系统(Scala版),人民邮电出版社,2019年4月.

课程定位:紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)课程教材:林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

1.课程定位

授课对象:大学生(计算机、软件工程、数据科学与大数据技术等专业)知识储备:编程、操作系统、数据库

2.课程教材

教材定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,为读者在大数据领域“深耕细作”奠定基础、指明方向。教材内容包括Hadoop、HDFS、HBase、NoSQL、云数据库、MapReduce、流计算、图计算、数据可视化、Spark等。

3.学时安排

课程共16周,每周2学时,总计32学时(理论32学时,可以另外安排16个实验上机学时)。

4.实验内容

(1)章节实验

实验一:熟悉常用的Linux操作和Hadoop操作实验二:熟悉常用的HDFS操作实验三:熟悉常用的HBase操作实验四:NoSQL和关系数据库的操作比较实验五:MapReduce初级编程实践

(2)综合案例

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法,案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。

5.课程视频

6.课程资源

大数据技术进阶学习课程

授课对象:大学生、研究生(计算机、软件工程、数据科学与大数据技术等专业)

知识储备:Java编程、数据库、操作系统、Hadoop

先修课程:入门级大数据课程,比如:大数据技术原理与应用

(1)选择编程语言

选择教材时,必须首先确定编程语言。Spark支持多种编程语言:Scala、Java、Python、R。Spark首选语言是Scala,其次可以把Python作为开发Spark的语言。

Spark这个软件本身就是使用Scala语言开发的,采用Scala语言编写Spark应用程序,可以获得最好的性能。关于采用哪种语言编写Spark应用程序,这里强调两点:

(a)Java代码太繁琐。在大数据应用场景中,不太适合使用Java,因为,完成同样的任务,Scala只需要一行代码,而Java则可能需要10行代码;而且,Scala语言可以支持交互式编程,大大提高了程序开发效率,而Java则不支持交互式执行,必须编译以后运行。

(b)Python语言并发性能不好。在并发性能方面,Scala要明显优于Python,而且,Scala是静态类型,可以在编译阶段就抛出错误,便于开发大型大数据项目,此外,Scala兼容Java,运行在JVM上,可以直接使用Java中的HadoopAPI来和Hadoop进行交互,但是,Python与Hadoop之间的交互非常糟糕,通常都需要第三方库(比如hadoopy)。

(2)在线教程

(3)纸质教材

披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系

本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。

(b)厦门大学林子雨,郑海山,赖永炫编著《Spark编程基础(Python版)》,人民邮电出版社,预计2019年8月上市销售。

3.课时安排

课程共16周,每周2学时,总计32学时理论课程。各高校可根据实际情况,再额外增加16学时实验上机。

4.交叉知识

本课程涵盖知识内容包括:操作系统(Linux)、分布式存储(HDFS、HBase)、分布式计算(SparkCore)、流计算(SparkStreaming)、机器学习(SparkMLlib)、查询分析(SparkSQL)、日志采集(Flume)、消息分发(Kafka)、数据仓库(Hive)、关系数据库(MySQL)、机器学习/数据挖掘等知识。同时要掌握开发工具Eclipse、IntelliJIDEA以及编译打包工具sbt和Maven等。

图《Spark编程基础》教材中涉及的交叉知识

实验1-Linux系统的安装和常用命令

实验2-Scala编程初级实践

实验3-Spark和Hadoop的安装

实验4-RDD编程初级实践

实验5-SparkSQL编程初级实践

实验6-SparkStreaming编程初级实践

实验7-Spark机器学习库MLlib编程实践

1.基本信息

*实训课程需要达到的专业工程认证毕业要求:

(1)指标点4.1:针对软件开发特定需求,了解信息学科发展动态;(2)指标点9.1:正确理解个人与团队的关系,理解团队合作的重要性,具备在多学科背景下团队合作的意识和能力;(3)指标点9.2:在多学科背景的团队下,理解团队成员的不同角色在团队中的作用,能够作为个体或团队成员完成所承担的任务;(4)指标点10.2:具有书面表达与沟通能力、科技论文与技术报告写作能力,能够撰写报告和设计文稿;(5)指标点11.2:了解市场、用户的需求变化以及技术发展,提出技术改造、系统更新、效能改进的方案。

(上图实训课程课堂照片)

*实训教室:数字内容与信息智能处理实验室

实验室位于厦门理工学院精工园1号楼416教室,建于2008年6月,实验室面积约120平方米,设备总额约46万元。实验室配备具有较强的数据运算与图形图像处理能力的计算机,能满足图形图像处理、遥感图像处理、数据挖掘、大数据等课程的需求。

主要仪器设备:DellOptiPlex7040计算机61台,主要技术参数:CPU:Intel酷睿i5-6500;内存:16GB;硬盘:1TB*2;显示器:23寸LCD。

大数据环境搭建:本次实训课程没有采用任何厂商的大数据实验平台。实验室机房里面的电脑使用Windows7操作系统,在实训课程中,由学生自己在Windows7系统中安装虚拟机软件VirtualBox,然后,在VirtualBox软件中安装Linux虚拟机(Ubuntu16.04),再在Linux虚拟机中安装各种大数据软件,构建“伪分布式”的大数据实验环境。由于机器的内存有16GB,所以,整个实训过程,运行非常流畅。

*实训管理系统:本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

*实训成果文档:团队建设和奖惩制度、文献综述、项目开发计划、需求分析说明书、系统设计说明书、项目代码、项目答辩PPT、用户手册。

2.目的、任务和要求

1).课程设计目的

(上图实训课程林子雨老师在上课)

2).课程设计任务与要求

本课程设计项目涉及数据的预处理、数据的存储、数据查看、算法编写、算法应用和大数据结果展现等全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Spark、SparkMlib、IntelliJIDEA(简称IDEA)、Node.js等系统和软件的安装和使用方法。通过本项目,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。

本课程设计项目需要完成以下任务:

本课程设计任务遵循真实的企业标准开发流程,使学生了解和体会商业项目开发的过程与环境。指导其完成制定开发计划、分析系统需求、设计系统架构及功能,让学生通过团队合作,在预定周期内完成软件项目的开发,从而训练学生的编程开发、文档撰写、统筹规划、分工协作等技能及能力。

(上图林子雨老师在解答学生问题)

3.课程设计内容

课程设计题目:基于SparkMLlib的电影推荐

设计一个基于协同过滤算法的电影推荐算法,采用Scala语言编写SparkMLlib程序实现该算法,利用已有的训练数据集对算法进行训练得到电影推荐模型,并用测试数据集进行电影推荐,最后,将推荐结果进行可视化展现。

基本需求包括:

(1)数据ETL:可以把保存在文本文件中的数据集,通过ETL工具,加载到分布式文件系统HDFS中。

(2)编写Spark程序实现电影推荐功能:采用Scala语言,编写SparkMLlib程序,对HDFS中的数据进行分析,实现电影推荐算法;

(3)可视化:采用可视化技术,把分析结果展现给用户。

(上图不同团队之间在互相交流学习)

4.课程设计的教学方法

课程设计采用“技术教学+项目实践”的形式,以技术教学作为项目实践的准备和基础,以项目实践强化技术教学的效果,并训练学生的团队协作、交流沟通以及实施商业项目开发的能力。

技术教学环节采用的教学方法包括:

项目实践环节采用的教学方法包括:

(上图项目答辩最佳团队获得林子雨老师赠书)

5.课程教材

林子雨编著《大数据案例之电影推荐系统》,人民邮电出版社,2019年4月.

6.授课过程

7.实训成果文档

实训成果文档包括:团队建设和奖惩制度文献综述项目开发计划需求分析说明书系统设计说明书项目代码项目答辩PPT用户手册

(上图实训课堂上学生团队在讨论解决问题)

8.教学管理平台

本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

9.大数据课程公共服务平台

10.学生作品

紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)

2.培养目标

本课程旨在实现以下几个培养目标:

(1)引导学生步入大数据时代,积极投身大数据的变革浪潮之中

(2)了解大数据概念,培养大数据思维,养成数据安全意识

(3)认识大数据伦理,努力使自己的行为符合大数据伦理规范要求

(4)熟悉大数据应用,探寻大数据与自己专业的应用结合点

(5)激发学生基于大数据的创新创业热情

3.课程内容

大数据时代已经全面开启,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。了解大数据概念、具备大数据思维,是新时代对人才的新要求。本课程高屋建瓴探讨大数据,内容深入浅出,简单易懂,适合非计算机专业(尤其是文科专业)学生学习。课程内容包括大数据概述,大数据与云计算、物联网和人工智能,大数据技术,大数据应用,大数据安全,大数据思维,大数据伦理,数据共享,数据开放,大数据交易和大数据治理等。

4.课程教材

林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

厦门大学数据库实验室在过去四年投入大量精力建设了丰富的大数据课程资源,总体而言,我们的课程建设模式如下:以大量教学实践推动课程和教材建设、以平台思维促进教学资源汇聚和共享、以迭代方法不断优化升级教学内容、自我造血为课程建设提供稳定资金保障。

THE END
1.记录链接MySQL数据库实现学生管理系统mysql学生管理系统记录|链接MySQL数据库实现学生管理系统 前言 参考文章: [完整教程]C#WinForm连接MySQL数据库实现学生管理系统 目的:学习链接、学习winform中的GridView控件如何使用、学习界面跳转。 小结 MySql的数据库链接就是下面的步骤,其他的都是对他们的封装 连接数据库的字符串connectStrhttps://blog.csdn.net/qq_41714549/article/details/141323394
2.MySql数据库课程设计报告学生管理系统.docx该系统旨在解决学生管理过程中的各项需求,包括但不限于学生信息管理、课程安排管理、成绩记录管理等,以便教师或管理人员能够更加便捷地对学生信息数据进行管理和操作。在设计过程中,系统主要围绕MySQL数据库展开,结合实际需求进行功能设计和技术选型,确保系统的实用性和可扩展性。通过本次课程设计,旨在提高学生对数据库应用https://www.renrendoc.com/paper/342364520.html
3.学生管理MySQL数据库学生管理系统的数据库1.程序使用JAVA程序连接MYSQL数据库。 2.学生信息管理系统分为三个表: student,course,student_course 3.在mysql中分别创建: create table student(name varchar(20),no varchar(20),age varchar(20),sex varchar(20),primary key(no)); create table course(c_name varchar(20),c_no varchar(20),c_credithttps://blog.51cto.com/u_16213636/8359805
4.请用mysql创建学生课程数据库mysql随着教育信息化的发展,数据库在校园管理中的应用越来越广泛。本文将详细介绍如何使用MySQL数据库创建一个适用于学生课程管理的信息系统。通过以下步骤,您将学会如何构建一个高效、可靠的学生课程数据库。 一、背景介绍 学生课程数据库是教育管理系统中不可或缺的一部分,它能够帮助我们更好地管理学生信息、课程安排、成绩https://blog.yyzq.team/post/508017.html
5.如何利用MySQL和C#开发一个简单的学生管理系统mysql教程学生管理系统是学校管理学生信息的重要工具,它可以帮助学校高效地管理学生的各项数据,包括个人信息、成绩、课程安排等。本文将介绍如何使用MySQL数据库和C#编程语言来开发一个简单的学生管理系统,并提供详细的代码示例。 一、搭建开发环境在开始之前,我们需要搭建好开发环境。首先,确保你已经安装了Visual Studio开发工具和https://m.php.cn/faq/611391.html
6.MySQL(三)为教学管理系统的学生成绩功能设计一个数据库作业思路数据库(Mysql) 数据是存储工具,是体系化应用的一环。数据库更多是应用系统的底层,本身不具有面向大众的应用能力,而是由应用系统提供面向公众的应用能力,比如我们题目中说到的学生信息管理系统。 数据库用处和对实际设计思路的影响 业务分析 在拿到需求以后,不应该立刻进行代码级别的操作。要进行业务上的梳理。比如,我们https://www.jianshu.com/p/c5c702ca496e
7.Java+MySQL实现学生信息管理系统源码java这篇文章主要为大家详细介绍了Java+MySQL实现学生信息管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下基于Java swing+MySQL实现学生信息管理系统:主要实现JDBC对学生信息进行增删改查,应付一般课设足矣,分享给大家。(由于篇幅原因,代码未全部列出,如有需要留下邮箱) 鉴于太多同学https://www.jb51.net/article/128192.htm
8.图灵课堂Java就业培训教程视频课程大纲3-5 学生管理系统 第四章: 就业课(2.1)-面向对象-继承-多态 4-1 继承 4-2 多态 4-3 接口 4-4 内部类 第五章: 就业课(2.1)-常用API第二部分 5-1 Math&System类 5-2 Object类 5-3冒泡排序 5-4 基本类型包装类 5-5 Date类 5-6 Calendar类 https://www.tulingxueyuan.cn/tlzx/tljc/796.html
9.MySQL零基础入门之从青铜到钻石(二)作者: 欧阳熊猫 本手记来自免费课 https://www.imooc.com/learn/1281 2.5 数据库管理系统、数据库和表的关系 ? 数据库管理系统(DataBasehttps://www.imooc.com/article/312463
10.电计系计算机科学与技术专业《MySQL8数据库原理与应用课程设计《MySQL 8数据库原理与应用课程设计》是计算机科学与技术专业培养学生具有信息分析、数据库设计、数据库应用系统开发等能力。旨在培养学生在解决实际应用问题时,所应具备的独立查阅文献资料的能力,综合运用所学知识独立分析和解决问题的能力。计科专业对2021级的数据库原理与应用课程设计进行了教学改革,共开展了19个题目,https://dxx.cdutetc.cn/c/a585656d-e91d-4a47-b916-e5cd0ccc7736.html
11.什么是数据库?Oracle中国数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS)来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。 为了提高数据处理和查询效率,当今最常见的数据库通常以行和列的形式将数据存储在一系列的表中,支持用户便捷地访问、管理、修改https://www.oracle.com/cn/database/what-is-database
12.学生成绩管理系统数据库设计–MySQL/SQLServer[通俗易懂]SQL Server医疗信息管理系统数据库【英文版-源码】–(Medical Management System Database)https://cloud.tencent.com/developer/article/2089017
13.免费的MySQL管理系统:专业选择指南软件技巧下面给大家推荐几款好用的免费的MySQL管理工具软件,有需要的小伙伴们来了解一下。 1.PhpMyAdmin 5.2.1 phpMyAdmin是一款基于Web的MySQL数据库管理工具,以PHP为基础开发而成。它提供了丰富的功能,可以用于创建、修改和删除数据库以及表,并且支持远程管理MySQL数据库。此外,phpMyAdmin还具有易于使用、跨平台运行等优点。 https://xiazai.zol.com.cn/jiqiao/77429.html