课程详情
课程评价
spContent=本课程属于进阶级大数据课程,由全国高校知名大数据教师厦门大学林子雨老师主讲,采用林子雨等编著的《Spark编程基础(Scala版,第2版)》作为课程教材。课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。
—— 课程团队
课程概述

Spark是当前热门的大数据处理技术,本课程重点介绍Spark的技术原理与编程方法。课程由全国高校知名大数据教师厦门大学林子雨老师主讲,采用林子雨等编著的《Spark编程基础(Scala版,第2版)》作为课程教材。Spark支持采用ScalaJavaPythonR语言进行编程,本课程采用Scala语言编写Spark应用程序。课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQLSpark StreamingSpark MLlib等。通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。

本课程属于“ 进阶级”大数据课程,在学习本课程之前,建议首先学习由林子雨老师主讲的“ 入门级”大数据课程《大数据技术原理与应用》(点击这里在中国大学MOOC平台学习林子雨老师主讲的国家精品在线开放课程《大数据技术原理与应用》)。《Spark编程基础》和《大数据技术原理与应用》两门课程之间,在内容上实现了“无缝隙衔接”,可以帮助大数据学习者顺利完成入门学习和进阶学习。

  课程提供了配套的在线教学资源服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),平台上提供了与大数据课程学习相关的各种资料,包括讲义PPT、学习指南、实验指南、课后习题、技术博客等,可以为课程学习者提供全方位一站式免费服务,目前平台每年访问量超过400万次,累计访问量超过1600万次,成为国内高校知名大数据教学品牌。

     本课程的具体章节如下:

(1)第1章-大数据技术概述(202492日发布)

(2)第2章-Scala语言基础(202499日发布,本章内容较多,学习时长是3周)

(3)第3章-Spark的设计与运行原理(2024930日发布)

(4)第4章-Spark环境搭建和使用方法(2024107日发布)

(5)第5章-RDD编程(20241014日发布,本章学习内容较多,学习时长是2周)

(6)第6章-Spark SQL(20241028日发布)

(7)第7章-Spark Streaming(2024114日发布,本章学习内容较多,学习时长是2周)

(8)第8章-Spark MLlib(20241118日发布)

9)期末考试(2024年11月25日到12月7日)


授课目标

Spark 是当前热门的大数据处理技术,本课程重点介绍 Spark 的技术原理与编程方法。 本课程采用 Scala 语言编写 Spark 应用程序。课程内容包括大数据技术概述、 Scala 语言基础、 Spark 的设计与运行原理、 Spark 环境搭建和使用方法、 RDD 编程、 Spark SQL Spark Streaming Spark MLlib 等。通过本课程的学习,将帮助学生形成基础的 Spark 应用程序编程能力,为学生使用 Spark 技术解决实际科研问题和未来从事大数据相关工作奠定基础。

课程大纲
预备知识

本课程属于“ 进阶级”大数据课程,在学习本课程之前,建议首先学习由林子雨老师主讲的“ 入门级”大数据课程《大数据技术原理与应用》 ( 点击这里 在中国大学MOOC平台学习林子雨老师主讲的 国家精品在线开放课程《大数据技术原理与应用》 )。《Spark编程基础》和《大数据技术原理与应用》两门课程之间,在内容上实现了“无缝隙衔接”,可以帮助大数据学习者顺利完成入门学习和进阶学习。

需要具备的预备知识包括:面向对象编程(比如Java)、数据库、操作系统、大数据技术基础。

参考资料

林子雨,赖永炫,陶继平.Spark编程基础(Scala版,第2版),人民邮电出版社,2022年12月(教材官网)。

林子雨.大数据技术原理与应用(第4版),人民邮电出版社,2024年7月(教材官网)。

林子雨-大数据基础编程、实验和案例教程(第3版),清华大学出版社,2024年8月(教材官网)。

高校大数据课程公共服务平台:https://dblab.xmu.edu.cn/post/8197/

大数据学习路线图:https://dblab.xmu.edu.cn/post/10164/