Spark是当前热门的大数据处理技术,本课程重点介绍Spark的技术原理与编程方法。课程由全国高校知名大数据教师厦门大学林子雨老师主讲,采用林子雨等编著的《Spark编程基础(Scala版,第2版)》作为课程教材。Spark支持采用Scala、Java、Python和R语言进行编程,本课程采用Scala语言编写Spark应用程序。课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。
本课程属于“ 进阶级”大数据课程,在学习本课程之前,建议首先学习由林子雨老师主讲的“ 入门级”大数据课程《大数据技术原理与应用》(点击这里在中国大学MOOC平台学习林子雨老师主讲的国家精品在线开放课程《大数据技术原理与应用》)。《Spark编程基础》和《大数据技术原理与应用》两门课程之间,在内容上实现了“无缝隙衔接”,可以帮助大数据学习者顺利完成入门学习和进阶学习。
课程提供了配套的在线教学资源服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),平台上提供了与大数据课程学习相关的各种资料,包括讲义PPT、学习指南、实验指南、课后习题、技术博客等,可以为课程学习者提供全方位一站式免费服务,目前平台每年访问量超过400万次,累计访问量超过1600万次,成为国内高校知名大数据教学品牌。
本课程的具体章节如下:
(1)第1章-大数据技术概述(2024年9月2日发布)
(2)第2章-Scala语言基础(2024年9月9日发布,本章内容较多,学习时长是3周)
(3)第3章-Spark的设计与运行原理(2024年9月30日发布)
(4)第4章-Spark环境搭建和使用方法(2024年10月7日发布)
(5)第5章-RDD编程(2024年10月14日发布,本章学习内容较多,学习时长是2周)
(6)第6章-Spark SQL(2024年10月28日发布)
(7)第7章-Spark Streaming(2024年11月4日发布,本章学习内容较多,学习时长是2周)
(8)第8章-Spark MLlib(2024年11月18日发布)
(9)期末考试(2024年11月25日到12月7日)
Spark 是当前热门的大数据处理技术,本课程重点介绍 Spark 的技术原理与编程方法。 本课程采用 Scala 语言编写 Spark 应用程序。课程内容包括大数据技术概述、 Scala 语言基础、 Spark 的设计与运行原理、 Spark 环境搭建和使用方法、 RDD 编程、 Spark SQL 、 Spark Streaming 和 Spark MLlib 等。通过本课程的学习,将帮助学生形成基础的 Spark 应用程序编程能力,为学生使用 Spark 技术解决实际科研问题和未来从事大数据相关工作奠定基础。
本课程属于“ 进阶级”大数据课程,在学习本课程之前,建议首先学习由林子雨老师主讲的“ 入门级”大数据课程《大数据技术原理与应用》 ( 点击这里 在中国大学MOOC平台学习林子雨老师主讲的 国家精品在线开放课程《大数据技术原理与应用》 )。《Spark编程基础》和《大数据技术原理与应用》两门课程之间,在内容上实现了“无缝隙衔接”,可以帮助大数据学习者顺利完成入门学习和进阶学习。
需要具备的预备知识包括:面向对象编程(比如Java)、数据库、操作系统、大数据技术基础。
林子雨,赖永炫,陶继平.Spark编程基础(Scala版,第2版),人民邮电出版社,2022年12月(教材官网)。
林子雨.大数据技术原理与应用(第4版),人民邮电出版社,2024年7月(教材官网)。
林子雨-大数据基础编程、实验和案例教程(第3版),清华大学出版社,2024年8月(教材官网)。
高校大数据课程公共服务平台:https://dblab.xmu.edu.cn/post/8197/
大数据学习路线图:https://dblab.xmu.edu.cn/post/10164/