R语言,是统计学以及数据分析工具的第一选择;
R语言,可以完成几乎任何类型的数据分析工作;
R语言,拥有丰富的可视化模块与顶尖的制图功能;
R语言,可以在多平台上、轻松的导入并处理多源数据模式;
R语言是大数据分析工具的第一选择。
这门课的主题是如何熟练、灵活的使用R语言编程进行大数据分析。在这门课中,我们将学习到R语言的基础语法、使用R语言处理数据、进行绘图、创建并使用R语言函数、使用R语言进行统计分析与简单的回归分析等。
这门课程强调理论与实践的融合,充分调动同学们的动手实践能力。我们在每一章节中设置了大量的代码实践内容,并在课程最后设置了综合实践章节,用来介绍R语言的具体应用。
通过这门课程的学习,要求同学们掌握R语言的基础语法、具备使用R语言编程解决一般计算问题的能力、理解数据分析的基本流程、了解使用R语言进行大数据分析的实战技巧。
综合成绩由平时成绩(50%)和期末考查成绩(50%)两部分组成。
平时成绩(50%):平时成绩包括作业成绩(40%)、平时表现(10%)两部分组成。
1.作业成绩(40%):本课程共安排4次作业,每次作业计10分。每次作业对应一章节课程内容,以教材课后习题为主。依据以下几个方面评分:作业内容完整度,作答结果准确、合理,图表、代码等过程性结果准确、完整,有完整的结果分析和心得体会,独立完成度、作业态度等。各项视情况扣0.5-2分。
2.平时表现(10%):主要指上课参与教学互动情况、协助教师辅助教学等情况,例如回答问题、参与讨论等,根据实际表现情况加分。
期末考查(50%):针对实际案例进行编程实战。
如果学习过一门编程语言,例如Python语言或者Matlab,会对这门课程的学习带来很大的帮助,将有助于理解编程语言的形成以及编程方法。
如果还对数据挖掘、数据库有较为系统的理解,将会更为扎实的掌握这门课程。
以上预备知识并不是必须的。
第1讲:R语言介绍
1.1R语言介绍。什么是R语言?如何下载安装R语言环境?以及简单的R语言编程实例。
第2讲:创建数据集-数据集的概念
2.1数据集的概念。数据集的构成,如何在R语言环境中创建、使用数据集。
第3讲:数据结构中的向量与矩阵
2.2向量与矩阵的定义,以及如何在R语言环境中使用这两种数据结构。
第4讲:数据结构中的数组和数据框、因子与列表,数据的输入与数据集的标注
2.4数据的输入和数据集标注。数据输入包括从键盘输入、从多源数据导入等,数据集标注包括添加变量标签、值标签等。
2.3.1数组和数据框。数组是可以在两个以上的维度存储数据的R数据对象;数据框是可以将不同的数据类型组合在一起的数据结构。
2.3.2其他数据结构,因子和列表。因子是R中用于对数据进行分类,并将其存储为级别的数据对象;列表是可以包含多个不同数据元素的数据对象。
第5讲:图形初阶
3.1创建和保存图形,图形参数。了解R中作图的函数,及其使用方法。
3.2图形的修改及组合。添加文本、自定义坐标轴、添加刻度线、图例和标注等;并学习如何使用par函数和layout函数进行图形的组合。
第6讲:数据的管理
4.3数据的排序、合并。介绍基本的排序方法以及数据的合并方法,子集以及使用SQL语句操作数据框等。
4.2变量、缺失值和日期值。对数据的类型进行讨论,在数据处理之前要先对数据进行清洗、整理。得到规范的数据以方便后续的分析工作。
4.1基础数据管理。介绍数据是什么?如何对数据进行管理。
第7讲:高级数据管理--数学函数、统计函数和字符处理函数
5.2字符处理函数
5.1数学函数与统计函数
第8讲:一个数据处理实例
5.3一个数据处理实例。将学生的各科期末考试成绩组合为单一的成绩衡量指标,并基于相对名次(前20%,后20%等)给出A到F的评分,按照学生的姓氏和名字的首字母排序后输出。
5.4控制流语句
5.5自定义函数
第9讲:数据的可视化--条形图和饼状图
6.1条形图和饼状图
第10讲:数据的可视化--基本图形中的直方图、核密度图、箱型图和点图
6.2直方图、核密度图、箱型图和点图
第11讲:统计分析
7.1基本统计分析
第12讲:回归分析
8.1简单线性回归、多项式回归以及多元线性回归的理解与实战