本课程是江西财经大学开设的异步SPOC课程《大数据管理技术》,采用厦门大学林子雨老师开设的慕课《大数据技术原理与应用》和《Spark编程基础》及其同名教材为基础。
课程内容包括大数据技术概述、hadoop基础、Mapreduce、HBase、Hive、Scala基础、Spark原理、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。
Hadoop及其相关技术,属于本校《大数据管理技术》的“入门级”阶段,Spark及其相关技术,属于本校《大数据管理技术》的“进阶级”阶段。《大数据技术原理与应用》和《Spark编程基础》两门课程之间,在内容上实现了“无缝隙衔接”,可以帮助大数据学习者顺利完成入门学习和进阶学习。
本课程同时也推荐同学们使用厦门大学林老师配套的在线教学资源服务平台(https://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),平台上提供了与大数据课程学习相关的各种资料,包括讲义PPT、学习指南、实验指南、课后习题、技术博客等,可以为同学们提供全方位一站式服务。
本校《大数据管理技术》的SPOC课程,分为两个阶段:
(固定在每周日12点发布一章内容)
第一阶段 1-6周 《大数据技术原理与应用》
第一讲:大数据概述与(2020年2月17日发布)
第二讲:大数据处理架构Hadoop(2020年2月23日发布)
第三讲:分布式文件系统HDFS(2020年3月1日发布)
第四讲:MapReduce(2020年3月8日发布)
第五讲:分布式数据库HBase(2020年3月15日发布)
第六讲:数据仓库Hive(2020年3月22日发布)
第二阶段 7-16周《Spark编程基础》
第七讲:Scala语言基础(2020年3月29日发布,学习时长是2周)
第八讲:Spark的设计与运行原理
Spark环境搭建和使用方法(2020年4月12日发布)
第九讲:RDD编程(2020年4月19日发布,学习时长是2周)
第十讲:Spark SQL(2020年5月3日发布)
第十一讲:Spark Streaming(2020年5月10日发布,学习时长是2周)
第十二讲:Spark MLlib(2020年5月24日发布,学习时长是2周)
课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。
课程总成绩
各部分占总评成绩的百分比为:
平时成绩占60%:
线下课堂20%(课堂表现5%,课堂讨论5%,学习分享10%),
线上学习30%(视频10%,线上讨论5%,单元测验10%,分组任务5%),竞赛10%,
期末成绩占40%:
实验报告20%,项目沉浸式大作业20 %
成绩包含“不合格”、“合格”和“优秀”三个档次。总成绩小于60分为“不合格”,大于等于60分并且小于85分为“合格”,大于等于85分为“优秀”。
面向对象编程(比如Java)、数据库、操作系统
林子雨.大数据技术原理与应用(第3版),人民邮电出版社,2020年9月(教材官网)。
林子雨.大数据导论(通识课版),高等教育出版社,2020年2月(教材官网)
林子雨-大数据基础编程、实验和案例教程,清华大学出版社,2017年8月(教材官网)。
林子雨,赖永炫,陶继平.Spark编程基础(Scala版),人民邮电出版社,2018年8月(教材官网)。
高校大数据课程公共服务平台:https://dblab.xmu.edu.cn/post/8197/
大数据学习路线图:https://dblab.xmu.edu.cn/post/10164/
【后续学习内容】学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805)