Spark编程基础(Python版)教材官网

厦门大学林子雨,郑海山,赖永炫编著

林子雨(ziyulin@xmu.edu.cn)

披荆斩棘,在大数据丛林中开辟学习捷径

填沟削坎,为快速学习Spark技术铺平道路

深入浅出,有效降低Spark技术学习门槛

资源全面,构建全方位一站式在线服务体系

本教材已经上市销售,可以京东、当当网购

ISBN:978-7-115-52439-3定价:49.80元人民邮电出版社

2020年4月第1版

(备注:第2版教材书稿已经提交给出版社,预计2024年6月上市销售)

本页面内容导航

扫一扫访问本网页

《Spark编程基础(Python版)》

教材简介

本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、上机实验指南等。

作者简介

《Spark编程基础(Python版)》由林子雨、郑海山、赖永炫执笔,其中,林子雨负责教材规划、统稿、校对和在线资源创作,并撰写第1、2、3、4、5、6章的内容,郑海山负责第7章内容的撰写,赖永炫负责撰写第8章的内容。

Scala版教程

(1)在线教程

问:在线版本的《Spark入门教程》和出版发行的纸质教材《Spark编程基础(Scala版)》二者的区别是什么?

需要注意的是,在线版本中也包含了一些纸质教材中没有的内容,因为这些操作实践的内容比较琐碎,因此,没有放入纸质教材,所以,读者阅读在线版本仍然会有新的收获。总体而言,在线版本和纸质教材二者配合使用,效果更好。

(2)授课视频(Scala版)

每个章节配套实验题目和答案

纸质教材《Spark编程基础(Python版)》的每个章节(除了第3章Spark的设计与运行原理)末尾都配套了学生上机实验题目,每套实验题目可以满足1次上机实验室(比如连续4节课机房统一上机实验课)的要求,旨在帮助学生更好消化理解课堂内容。下面是7个实验一览表。

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。

本案例将实现一个系列程序,从厦门小鱼网爬取租房租金信息,然后利用spark的python版本进行简单分析,并利用echarts的python版本展示分析结果,此外还会简单介绍pycharm的工程建立,所以本篇将分为四个部分。

本案例采用TMDB数据集,并使用Python语言编写Spark应用程序对电影数据进行各种分析。

本实验采用Python语言,使用大数据处理框架Spark对数据进行处理分析,并对分析结果进行可视化。

本案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。

本案例数据集是来自Kaggle的一个跨国在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。

本案例针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。

本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。

先修课程(建议学习,不是必须)

大数据课程公共服务平台

教材勘误

在教材使用过程中,如发现任何错误,欢迎联系教材作者林子雨:ziyulin@xmu.edu.cn。在此向读者表示衷心的感谢!

大事记

*2019年1月,由林子雨、郑海山、赖永炫编著的《Spark编程基础(Python版)》纸质教材书稿完成撰写,提交给人民邮电出版社出版。

*2019年11月,人民邮电出版社返回教材清样,作者进行最后校对交付给出版社,等待教材最后出版。

THE END
1.23个机器学习最佳入门项目(附源代码)机器学习项目项目构想:在该项目中,我们可以构建一个界面来预测红酒的质量。它将使用葡萄酒的化学信息,并基于机器学习模型,它将为我们提供葡萄酒质量的结果。 数据集:葡萄酒质量数据集 https://archive.ics.uci.edu/ml/datasets/wine+quality 9.假新闻检测项目 项目构想:虚假新闻像野火一样传播,这在这个时代是一个大问题。我们https://blog.csdn.net/2401_84132685/article/details/138934521
2.机器学习入门与实践:从原理到代码腾讯云开发者社区机器学习入门与实践:从原理到代码 在本文中,我们将深入探讨机器学习的基本原理和常见算法,并提供实际的代码示例。通过本文,读者将了解机器学习的核心概念,如监督学习、无监督学习和强化学习,以及如何在Python中使用Scikit-Learn库构建和训练机器学习模型。 介绍https://cloud.tencent.com/developer/article/2331257
3.机器学习及其Python实践中国农业大学本课程面向本科生专业研究开发与创新能力培养,重点讲解机器学习的基本原理和前沿思想,并使用Python语言同步开展机器学习编程实践。课程适用于大学本科二年级以上同学。 播放00:00:00/00:00:0000:00:00全屏80%1.00X网络异常标清设置 开课时间: 2022-07-25 https://www.xuetangx.com/course/cau0809zw/12423305
4.新手如何使用Jupyter在线编程工具简介:Jupyter是一款流行的在线编程工具,广泛应用于数据科学、机器学习等领域。本文将介绍如何使用Jupyter,以及如何解决pip后出现打不开网页的问题。 即刻调用文心一言能力 开通百度智能云千帆大模型平台服务自动获取1000000+免费tokens 立即体验 一、安装Jupyter首先,你需要安装Jupyter。如果你使用的是Python,你可以使用pip命令https://developer.baidu.com/article/details/2798324
5.Python人工智能编程在线课程01Python人工智能编程班学习内容 Level 1 Level2 Level3 Level4 Level5 Level6 Level7 Python趣味游戏编程 Python智能场景编程 WEB网页编程 WEB服务器编程 人工智能算法编程 A手机基础编程 Al手机编程 Python语言基础 Python语言人工智能初步 JavaScriptHTMLcss Python WEBMysQL数据库 语音识别图像识别机器学习深度学习 https://www.houxue.com/cs/kecheng-891850.html
6.机器学习开发者指南本书的目标读者是那些期望掌握机器学习的相关内容、理解主要的基本概念、使用算法思想并能掌握正式数学定义的开发人员。本书使用Python实现了代码概念,Python语言接口的简洁性,以及其提供的方便且丰富的工具,将有助于我们处理这些代码,而有其他编程语言经验的程序员也能理解书中的代码。 https://labs.epubit.com/bookDetails?id=UBb658f203c0c4
7.机器学习算法原理与编程实践(郑捷)完整pdf扫描版[126MB]电子书下机器学习算法原理与编程实践是机器学习原理和算法编码实现的基础性读物,内容分为两大主线:单个算法的原理讲解和机器学习理论的发展变迁。算法除包含传统的分类、聚类、预测等常用算法之外,还新增了深度学习、贝叶斯网、隐马尔科夫模型等内容。对于每个算法,均包括提出问题、解决策略、数学推导、编码实现、结果评估几部分。https://www.jb51.net/books/527823.html
8.计算机python编程试题,机器学习,深度学习试题及答案.docx计算机python编程试题,机器学习,深度学习试题及答案.docx 4页VIP内容提供方:cheng 大小:24.81 KB 字数:约2.81千字 发布时间:2022-07-07发布于四川 浏览人气:85 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://max.book118.com/html/2022/0707/8076106015004116.shtm
9.汇智网汇智网是一个学习前沿编程技术的平台,提供了mongodb,node.js,javascript,jquery等相关的课程。汇智网互动式的学习和实时在线的练习,能让你迅速进入状态,快速完成课程学习。http://www.hubwiz.com/
10.《机器学习入门到实战——MATLAB实践应用》(冷雨泉张会文张伟当当网图书频道在线销售正版《机器学习入门到实战——MATLAB 实践应用》,作者:冷雨泉 张会文 张伟,出版社:清华大学出版社。最新《机器学习入门到实战——MATLAB 实践应用》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《机器学习入门到实战——MATLhttp://product.dangdang.com/26916103.html
11.(全)2020吴恩达机器学习MachineLearning第三周编程作业ex2压缩包内含吴恩达老师《Machine Learning》课程第三周的编程作业ex2所需完成的五个m文件。压缩包中所有编程作业均为本人独立完成,并尽量使用向量化计算,全部满分通过。 吴恩达 Machine Learning 机器学习 matlab 2020-05-04 上传 大小:2KB 所需: 44积分/C币 立即下载 吴恩达https://www.iteye.com/resource/qq_40329272-12387383
12.Sklearn应用案例菜鸟教程鸢尾花数据集(Iris Dataset)是机器学习中最经典的入门数据集之一。 鸢尾花数据集包含了三种鸢尾花(Setosa、Versicolor、Virginica)每种花的 4 个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。 接下来我们的任务是基于这些特征来预测鸢尾花的种类。 本章节案例将涵盖数据加载、可视化、特征选择、数据预处理、建立分类模https://www.runoob.com/search/Java/1.htm%3F%26page%3D42?page=4
13.「限时」机器学习的10个免费在线项目,等你来试试「限时」机器学习的10个免费在线项目,等你来试试,对代码、编程感兴趣的可以关注老K玩代码和我交流!“最近又有小伙伴问我一些关于机器学习的问题,看来短期内“机器学习”的热度不减啊!因应K友们的关注,我这里给大家整理了10个机器学习相关的小项目。项目基本涵盖了各个https://blog.51cto.com/u_15069443/2576135
14.GitHub上高质量有趣实用的开源技术教程开发者工具编程Algorithms-Cheatsheet-Resources 印度一位小哥整理的计算机编程资源,主要包含多种编程语言的常用速查表、算法实现库、扩展学习资源等内容。覆盖机器学习、Python、Go、VSCode、JavaScript、Git 等技术领域。 The Algorithms GitHub 上最大的算法开源库,网站收录了 Python、Java、C++、JavaScript、Go 等多种主流编程语言的算https://github.com/551685830/GitHubDaily
15.GoogleColab官网,轻松拥有云端AI绘画,谷歌Colab,云端免费GPU+大Google Colaboratory(Colab)是一款基于云端的免费开源Jupyter环境,提供了丰富的机器学习和编程工具。通过Colab,用户可以利用强大的云端硬件资源进行计算密集型任务,无需担心本地资源限制。 借助Colaboratory(简称 Colab),您可在浏览器中编写和执行 Python 代码,并且: 无需任何配置 免费使用 GPU 轻松共享 无论您是一名学生https://biemoyu.com/sites/google-colab.html?menu-id=230&mininav-id=3292
16.编程一小时–不限年龄,只需1小时,了解最基础的编程知识编程一小时(Hour of Code Activities)是一个只需要 1 小时来学习编程的免费平台,属于 Code.org 的活动。它不限制年龄,只需要一台电脑、平板、手机,就可以免费学习的平台。里面有 Python、JavaScript、Lua、AI 和机器学习、CoffeeScript、方块编程、LEGO WeDo、Swift、我的世界教育版等课程内容,无需基础就能学习。@https://www.appinn.com/hour-of-code-activities/