Spark编程基础(Python版)教材官网

厦门大学林子雨,郑海山,赖永炫编著

林子雨(ziyulin@xmu.edu.cn)

披荆斩棘,在大数据丛林中开辟学习捷径

填沟削坎,为快速学习Spark技术铺平道路

深入浅出,有效降低Spark技术学习门槛

资源全面,构建全方位一站式在线服务体系

本教材已经上市销售,可以京东、当当网购

ISBN:978-7-115-52439-3定价:49.80元人民邮电出版社

2020年4月第1版

(备注:第2版教材书稿已经提交给出版社,预计2024年6月上市销售)

本页面内容导航

扫一扫访问本网页

《Spark编程基础(Python版)》

教材简介

本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、上机实验指南等。

作者简介

《Spark编程基础(Python版)》由林子雨、郑海山、赖永炫执笔,其中,林子雨负责教材规划、统稿、校对和在线资源创作,并撰写第1、2、3、4、5、6章的内容,郑海山负责第7章内容的撰写,赖永炫负责撰写第8章的内容。

Scala版教程

(1)在线教程

问:在线版本的《Spark入门教程》和出版发行的纸质教材《Spark编程基础(Scala版)》二者的区别是什么?

需要注意的是,在线版本中也包含了一些纸质教材中没有的内容,因为这些操作实践的内容比较琐碎,因此,没有放入纸质教材,所以,读者阅读在线版本仍然会有新的收获。总体而言,在线版本和纸质教材二者配合使用,效果更好。

(2)授课视频(Scala版)

每个章节配套实验题目和答案

纸质教材《Spark编程基础(Python版)》的每个章节(除了第3章Spark的设计与运行原理)末尾都配套了学生上机实验题目,每套实验题目可以满足1次上机实验室(比如连续4节课机房统一上机实验课)的要求,旨在帮助学生更好消化理解课堂内容。下面是7个实验一览表。

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例将实现一个系列程序,从厦门小鱼网爬取租房租金信息,然后利用spark的python版本进行简单分析,并利用echarts的python版本展示分析结果,此外还会简单介绍pycharm的工程建立,所以本篇将分为四个部分。

本案例采用TMDB数据集,并使用Python语言编写Spark应用程序对电影数据进行各种分析。

本实验采用Python语言,使用大数据处理框架Spark对数据进行处理分析,并对分析结果进行可视化。

本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。

本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。

本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。

先修课程(建议学习,不是必须)

大数据课程公共服务平台

教材勘误

在教材使用过程中,如发现任何错误,欢迎联系教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感谢!

大事记

*2019年1月,由林子雨、郑海山、赖永炫编著的《Spark编程基础(Python版)》纸质教材书稿完成撰写,提交给人民邮电出版社出版。

*2019年11月,人民邮电出版社返回教材清样,作者进行最后校对交付给出版社,等待教材最后出版。

THE END
1.Python编程秘籍大揭秘:从基础到实战,带你玩转系统工具编程应用global使作用域查找从嵌套模块作用域开始,对全局名称赋值在模块作用域创建或修改;模块导入时需找到模块文件、编译(看情况)并执行模块代码创建定义对象,模块对象属性由导入时赋值的变量名生成,模块是独立作用域,其命名空间以dict对象存储;reload用于动态加载Python编写的模块,是函数,需先导入,传给它的是已存在模块对象;https://www.bilibili.com/read/cv40139028
2.python官方文档欢迎!这里是 Python 3.13.1 的官方文档。 文档章节: Python 3.13 有什么新变化? 或自Python 2.0 以来的全部“新变化”文档 教程 开始Python 的语法和特性之旅 库参考 标准库与内置对象 语言参考 语法与语言元素 Python 安装与使用 各种操作系统的介绍都有 https://docs.python.org/zh-cn/3/
3.菜鸟工具提供的Python3在线工具,免费使用物联沃本篇文章给大家谈谈python菜鸟教程在线编辑器,以及python3在线工具菜鸟工具,希望对各位有所帮助,不要忘了收藏本站喔。 1.Colaboratory Google提供的在线编辑器 编辑器地址:https://colab.research.google.com/ 支持切换Python2/Python3的环境 支持常用导入模块(例如numpy等) https://www.iotword.com/20558.html
4.在线运行python的网站,在线python运行环境python在线运行2.Termux:这是一个功能强大的高级终端,可以运行shell命令(ssh等),在线安装python后,也可以编辑运行python代码,下面我简单介绍一下这个软件:安装Termux,这个与上面的QPython3类似,直接下载安装(首次安装,时间可能比较长,保持联网,耐心等待一下):请点击输入图片描述安装成功后,界面如下,可以使用pkg install来安装包,安装https://blog.csdn.net/mr_yu_an/article/details/126931593
5.OpenAPIPythonSDK使用指南OpenAPISDK使用指南欢迎使用移动云Python SDK 。 移动云 Python SDK 让您无需关心请求细节即可快速使用标签管理等多个移动云服务。 这里将向您介绍如何获取并使用移动云Python SDK 。 使用前提 要使用移动云 Python SDK ,您需要拥有移动云账号以及该账号对应的 Access Key(AK)和 Secret Key(SK)。请在移动云控制台"Access Key管理"页面https://ecloud.10086.cn/op-help-center/doc/article/51414
6.Python使用django框架实现多人在线匿名聊天的小程序python很多网站都提供了在线匿名聊天的小功能,下面小编基于python的django框架实现一个多人在线匿名聊天的小程序,具体实现代码大家参考下本文最近看到好多设计类网站,都提供了多人在线匿名聊天的小功能,感觉很有意思,于是基于python的django框架自己写了一个,支持手动实时更名,最下方提供了完整的源码.https://www.jb51.net/article/129371.htm
7.在线编译或编辑Python的五个优秀工具Trinket是另一个简单的在线编译器,可让绝对轻松地使用Python和其他几种语言进行编码。 目前,Trinket没有太多的软件包,但是最有用的基础知识都是开箱即用的,包括random, time, math, matplotlib.pyplot, NumPy, 和 many等。 4. CodeBunk 这个不是在线编程免费的,免费只有试用一个月时间,但是功能别前三个都完善。https://www.51cto.com/article/683120.html
8.使用python获取CASIA脱机和在线手写汉字库Python大数据 收藏 数据集的下载网址:CASIA Online and Offline Chinese Handwriting Databases 中文申请书: CASIA-HWDB CASIA-OLHWDB 在申请书中介绍了数据集的基本情况: >CASIA-HWDB和CASIA-OLHWDB数据库由中科院自动化研究所在 2007-2010 年间收集, 均各自包含 1,020 人书写的脱机(联机)手写中文单字样本和手写文本https://www.imooc.com/article/40759
9.xml怎么转换成txtXML/RSS教程将xml 转换为 txt 的方法包括:使用 xsltxslt:使用 xslt 代码将 xml 转换为 txt。使用纯 python:使用 python 代码解析 xml 文档并提取纯文本。使用在线转换工具:利用在线平台转换 xml 文件为 txt。如何将 XML 转换为 TXT XML(可扩展标记语言)是一种广泛用于存储和传输结构化数据的标记语言。TXT(文本文件)是一https://m.php.cn/faq/915882.html
10.Python在线编译器(编辑器/解释器)Python教程在本教程中,您将学习如何使用Python在线编译器,Python编译器(编辑器)使用我们的在线Python编译器,您可以编辑Python代码,并在浏览器中查看结果。https://w3schools.cn/python/python_compiler.asp
11.在线Python学习网站平常心,平常心在线Python学习网站 目前我们使用的Python集成环境是Anaconda3,然后使用Jupyter Notebook和Spyder两个开发环境 Goole推出了在线的开发环境,在线网站: https://colab.research.google.com https://www.kaggle.com/wsqyouth/ http://www.runoob.com/python/python-for-loop.htmlhttps://www.cnblogs.com/shuqingstudy/p/10700838.html
12.在线python转跳代码生成器在线python转跳代码生成器,生成python跳转代码,输入网址,可以使用301或者302的方式生成python跳转代码https://www.bejson.com/transfor/location_create_python/
13.新手入门——免费可直接在线运行Python代码的平台推荐以下是一些常见的、免费的、可直接在线运行Python代码的平台及对应的网址: Repl.it: 网址:https://repl.it/languages/python3 简介:这是一个基于Web的多语言在线IDE,用户可以在这个平台上直接编写、运行和分享Python代码。 Ideone: 网址:https://ideone.com/ 简介:这是一个在线编程环境,支持Python 2和Python https://developer.huawei.com/home/forum/hwc/thread-0294146977199772010-1-1.html
14.Python在线教程Python在线教程频道:汇集了大量精选的Python编程课程,从基础到高级、从入门到实战,有高清视频、图文教程、在线手册等,全部免费,欢迎在线学习!https://www.py.cn/course/list/96/new.html
15.Python在线编辑器Python 在线编辑器自动补全 运行Run 点此进入 [在线例程] 使用说明: 目前是测试版本,很多功能还未完善,比如不支持 input、文件读写、网络请求,不能 import 部分模块 “自动补全”可以在你输入 for/if/else/while/def/class 等关键字后使用,自动添加部分代码,并标记出需要补全位置#TODO# 当代码中存在需要补全的https://www.crossincode.com/oj/wechat/
16.Python网页版运行器6. pythontutor:这是一个重点推荐的在线工具,它不仅支持Python代码的在线运行,还提供了代码执行的可视化展示,帮助用户理解代码的执行过程。 这些在线工具非常适合初学者学习和实践Python编程,也适合开发者在没有安装Python环境的情况下快速测试代码片段。使用这些工具,用户可以节省配置本地开发环境的时间,直接在浏览器中进https://www.colostar.cn/links/8870.html
17.python在线运行编程工具模板源码[网页版]网页版Python在线运行编程工具模板, 使用 Javascript 模拟的,有可能和 CPython 有区别,但足够用了! 左边写代码,右边实时显示运行效果,可保存、下载代码。 模板功能: 适用于 Python 教学 编辑Python 代码,并输出结果(支持 Turtle 海龟图) 支持清晰地截图代码及结果 支持保存代码和下载代码(.py文件需选择保留) 静态页https://weibo.com/ttarticle/p/show?id=2309404675701126332575