Spark编程基础(Python版)教材官网

厦门大学林子雨,郑海山,赖永炫编著

林子雨(ziyulin@xmu.edu.cn)

披荆斩棘,在大数据丛林中开辟学习捷径

填沟削坎,为快速学习Spark技术铺平道路

深入浅出,有效降低Spark技术学习门槛

资源全面,构建全方位一站式在线服务体系

本教材已经上市销售,可以京东、当当网购

ISBN:978-7-115-52439-3定价:49.80元人民邮电出版社

2020年4月第1版

(备注:第2版教材书稿已经提交给出版社,预计2024年6月上市销售)

本页面内容导航

扫一扫访问本网页

《Spark编程基础(Python版)》

教材简介

本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、上机实验指南等。

作者简介

《Spark编程基础(Python版)》由林子雨、郑海山、赖永炫执笔,其中,林子雨负责教材规划、统稿、校对和在线资源创作,并撰写第1、2、3、4、5、6章的内容,郑海山负责第7章内容的撰写,赖永炫负责撰写第8章的内容。

Scala版教程

(1)在线教程

问:在线版本的《Spark入门教程》和出版发行的纸质教材《Spark编程基础(Scala版)》二者的区别是什么?

需要注意的是,在线版本中也包含了一些纸质教材中没有的内容,因为这些操作实践的内容比较琐碎,因此,没有放入纸质教材,所以,读者阅读在线版本仍然会有新的收获。总体而言,在线版本和纸质教材二者配合使用,效果更好。

(2)授课视频(Scala版)

每个章节配套实验题目和答案

纸质教材《Spark编程基础(Python版)》的每个章节(除了第3章Spark的设计与运行原理)末尾都配套了学生上机实验题目,每套实验题目可以满足1次上机实验室(比如连续4节课机房统一上机实验课)的要求,旨在帮助学生更好消化理解课堂内容。下面是7个实验一览表。

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例将实现一个系列程序,从厦门小鱼网爬取租房租金信息,然后利用spark的python版本进行简单分析,并利用echarts的python版本展示分析结果,此外还会简单介绍pycharm的工程建立,所以本篇将分为四个部分。

本案例采用TMDB数据集,并使用Python语言编写Spark应用程序对电影数据进行各种分析。

本实验采用Python语言,使用大数据处理框架Spark对数据进行处理分析,并对分析结果进行可视化。

本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。

本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。

本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。

先修课程(建议学习,不是必须)

大数据课程公共服务平台

教材勘误

在教材使用过程中,如发现任何错误,欢迎联系教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感谢!

大事记

*2019年1月,由林子雨、郑海山、赖永炫编著的《Spark编程基础(Python版)》纸质教材书稿完成撰写,提交给人民邮电出版社出版。

*2019年11月,人民邮电出版社返回教材清样,作者进行最后校对交付给出版社,等待教材最后出版。

THE END
1.与Knime:两款数据分析软件的功能对比在数据驱动的时代,数据分析软件成为了各行各业中不可或缺的工具。Minitab 和 Knime 都是备受欢迎的数据分析软件,它们在功能和应用领域上有着一些相似之处,同时也有一些明显的差异。https://www.ruanfujia.com/11154380/
2.pycharm怎么进行数据分析帆软数字化转型知识库PyCharm进行数据分析可以通过:安装数据分析相关插件、使用内置工具、结合外部库(如Pandas、NumPy、Matplotlib)来实现。其中,结合外部库是最常用的方法。PyCharm支持多种数据分析库,如Pandas、NumPy、Matplotlib等,这些库提供了丰富的数据处理、统计分析和可视化功能。例如,Pandas库可以让你方便地操作数据表格,实现数据清洗、https://www.fanruan.com/blog/article/465818/
3.使用Pycharm高效采集数据进行Python数据分析pycharm数据分析案例Pycharm作为一个Python集成开发环境,不仅可以帮助我们进行代码编写、调试和运行,而且还可以帮助我们方便地采集数据。在本文中,我们将介绍如何使用Pycharm进行数据采集,并对采集的数据进行分析处理。 一、Pycharm简介 Pycharm是一款由JetBrains公司开发的Python集成开发环境。它具有智能代码编辑器、强大的调试器、内置的版本控https://blog.csdn.net/Python_cocola/article/details/130705055
4.大数据集群运维(11)python第三方库大全51CTO博客orange:通过可视化编程或 Python 脚本进行数据挖掘,数据可视化,分析和机器学习。官网 Pandas:提供高性能,易用的数据结构和数据分析工具。官网 PyDy:PyDy 是 Python Dynamics 的缩写,用来为动力学运动建模工作流程提供帮助, 基于 NumPy, SciPy, IPython 和 matplotlib。官网 https://blog.51cto.com/u_15127576/3553154
5.什么是JUPYTER?一文快速了解JUPYTER基础知识作为Jupyter最常用的语言之一,Python提供了丰富的库和工具,适用于数据分析、机器学习、科学计算等多个领域。 R R是一个流行的统计分析和数据可视化语言。Jupyter支持R语言内核,允许用户在Notebook中使用R进行数据分析和建模。 Julia Julia是一种高性能、动态编程语言,适用于科学计算和数值分析。Jupyter支持Julia语言内核,https://www.eefocus.com/e/1596801.html
6.版下载intellijidea2021.3中文版下载v2021.3idea2021.3是一款专业性Java语言编程开发软件,idea2021.3不论是从出色的功能还是简单易用的操作方式,亦或是其广泛的适用性都深受用户的热烈追捧。相较于之前的版本相比,idea2021.3不仅是在界面上有所改进,同时在功能上也带来了一些全新特性,如常令人头疼的远程开发问题,在新版的idea中,用户可通过最新的Kotlin调试器完美https://www.32r.com/soft/27647.html
7.2023年Python最热门的14个应用开源地理空间基金会中文分会Keras :一个简单易学的深度学习和神经网络 API, 在 TensorFlow 之上用 Python 编写, 可在 CPU 和 GPU 上高效运行。 Scikit-learn :一个流行的机器学习库, 用于特征工程、数据预处理、模型评估、超参数调整等。 实际示例: Spotify :Spotify 使用 Python 进行数据分析和机器学习, 以改进其音乐推荐算法。 https://www.osgeo.cn/post/10347
8.电影数据分析电影大数据大数据毕业设计机器学习深度学习在大数据与人工智能技术蓬勃发展的背景下,我们精心打造了一款基于Python的豆瓣电影数据分析与可视化系统,致力于为电影爱好者与专业人士提供全方位、个性化的观影服务体验。现今,人们对电影欣赏的需求已超越单一的娱乐诉求,转而追求个性化推荐、深度解读及社区互动的综合体验。 https://www.douban.com/note/863775631/
9.图片处理文本处理自然语言处理机器学习日志代码分析等Python资源大全中文版,内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等 - lework/awesome-python-cnhttps://github.com/lework/awesome-python-cn/
10.pycharm是一款机器学习是一门从数据中研究算法的科学学科。直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型。 A. 正确 B. 错误 查看完整题目与答案 个麦氏比浊单位相当于菌液浓度是:( ) A. 0.5×108/ml B. 1.0×108/ml C. 1.5×108/ml D. 3.0×108/ml E. 6.0×108/ml 查看完整https://www.shuashuati.com/ti/0c16ae4dd9f64f2e8552e9bb595f66a7.html?fm=bd12a10a01ea092042ce91ae13fae0a397
11.PyCharm是由JetBrains公司开发的一款流行的Python集成开发环境- 更新还可以修复已知的问题和漏洞,确保开发环境稳定可靠。 PyCharm作为一款专为Python开发者设计的强大工具,无论是在功能丰富度还是用户体验方面,都堪称一流。无论是进行Web开发、数据分析、机器学习还是科学计算,PyCharm都能为开发者提供必要的支持,帮助他们高效地完成任务。点https://www.coder100.com/index/index/content/id/4138538
12.Python常用库总结awesome-python 是vinta 发起维护的 Python 资源列表,内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由伯乐在线持续更新。 Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发https://www.jianshu.com/p/b9c5e31fb607?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
13.Python资源大全中文版控件新闻灵感来自于Moment.js。官网 PyTime:一个简单易用的Python模块,用于通过字符串来操作日期/时间。官网 pytz:现代以及历史版本的世界时区定义。将时区数据库引入Python。官网 when.py:提供用户友好的函数来帮助用户进行常用的日期和时间操作。官网文本处理用于解析和操作文本的库。https://www.evget.com/article/2017/3/9/25879.html
14.有pycharm还需要anaconda吗1. 如果你是一名初学者或需要快速上手Python编程,那么PyCharm可能是更好的选择。PyCharm提供了丰富的功能和友好的界面,可以帮助你更快地编写代码、调试程序。此外,PyCharm的价格相对较低,适合初学者尝试和学习。 2. 如果你是一名数据科学家或需要处理大量数据,那么Anaconda可能是更好的选择。Anaconda提供了强大的包管https://www.sousou.com/bk/199791.html
15.Python数据分析神器——jupyter一些应知应会的奇技淫巧用Python做数据分析的朋友,自然离不开jupyter notebook(以下简称jupyter)这款神器,它能让你非常方便的在数据探索过程中有良好的实时交互效果。今天我们就来分享一些jupyter的奇技淫巧。 一、主题设置 看腻了jupyter白茫茫的界面了?别急,那就给它换个主题,给自己也换个心情。在这之前,我们先要安装主题插件,直接piphttps://cloud.tencent.com/developer/article/1461456
16.《机器学习Python实践》习题库试题及答案.docxB.无监督学习 C.强化学习 D.强调学习 答案:D 解析:第一章,1.3小节。 12.常用的Python编程环境有哪些? A.Jupyternotebook B.PyCharm C.Spyder D.ScalaIDE 答案:D 解析:D选项是编写Scala代码的。 二、判断题 1.机器学习简单来说就是让机器进行学习,学习的目的是实现对世界上的人事物进行预测或者判断。 答案https://max.book118.com/html/2024/1022/6153041203010234.shtm