课程概述

本课程的特色主要包括:

(1)本课程讲授大数据分析的基本原理、相关技术和典型应用案例,学习者能够了解大数据应用系统的构造方法和过程,培养大数据思维意识,掌握数据分析的基本技术和方法。

(2)本课程以大数据处理流程为线索,分别介绍数据采集、数据清洗加工、数据分析、开源大数据计算平台、数据可视化等内容。对常用的大数据编程语言Python进行入门级介绍。

(3)课程中介绍了大量的大数据应用案例,这些案例来自于不同的行业和领域,为大家提供不同学科专业多方面的参考。

(4)课程基于华为公有云设计了在线大数据实践体系,在学习理论知识的同时,按照实验手册,亲自动手实践,体验各种算法和工具。

(5)课程介绍了大数据人才需求及常见的工作岗位,为学习者进行自身的职业规划提供参考和帮助。


本课程是教育部-华为“智能基座”精品慕课之一,理论讲授部分在爱课程网学习,实践操作部分在双创云实践平台学习(

https://www.xiaoqiqiao.com/loginPage/login.html)。实践平台的部分截图如下所示:


实验启动界面:

系统概览界面:

实验操作界面:

证书要求

为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。

 

电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。

 

完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。

 

认证证书申请注意事项:

1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。

2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。


预备知识

了解和掌握计算机的基本概念和基本操作。

授课大纲

【第1周】初识大数据

大数据宣传视频

1.1 大数据定义

1.2 大数据应用场景

1.3 大数据分析流程

1.4 如何参与大数据分析

1.5 大数据应用纵览

1.6 智能医疗大数据

1.7 旅游大数据案例

1.8 金融科技与大数据风控

1.9 政务最多跑一次

【第一周】讨论题1

【第一周】讨论题2

【第一周】单元测试

【第2周】Python大数据基础(一)

2.1 内置数据类型

2.2 扩展数据类型

2.3 内置数据结构

2.4 Ndarray介绍

2.5 Series介绍

2.6 DataFrame介绍

2.7 在线实验平台介绍

2.8 旅游大数据在线实验

2.9 数据类型和结构在线实验

【第二周】讨论题

【第二周】单元测试

【第3周】Python 大数据基础(二)

3.1 文件读写

3.2 文件和文件夹处理

3.3 数据库存取

3.4 CSV和Excel数据交换

3.5 JSON和XML数据交换

3.6 Web数据交换

3.7 用pandas加工数据

3.8 用Matplotlib展示数据

3.9 数据加工和展示在线实验

【第三周】讨论题

【第3周】单元测试

【第4周】数据分析方法(一)

4.1 数据分析方法概述

4.2 统计数据分析方法

4.3 数据的中心趋势度量

4.4 数据的离散程度度量

4.5 数据分布的度量

4.6 图形化分析方法

【第4周】单元测试

【第5周】数据分析方法(二)

5.1 机器学习简介

5.2 机器学习的典型任务

5.3 决策树算法

5.4 K-近邻分类算法(KNN算法)

5.5 K-均值聚类算法(K-means算法)

5.6 Apriori关联规则算法

5.7 在线实验

【第5周】讨论题

【第5周】 单元测试

【第6周】开源平台和工具(一)

6.1 数据采集与清洗概述

6.2 日志数据采集Flume简介

6.3 数据分发中间件Kafka简介

6.4 HDFS介绍及使用方法

6.5 HBase介绍及使用方法

6.6 Hive介绍及使用方法

6.7 NoSQL数据库技术

6.8 openLooKeng及使用简介

【第7周】开源平台和工具(二)

7.1 批处理:MapReduce

7.2 批处理:Spark

7.3 PageRank举例

7.4 流处理:Storm

7.5 流处理:Spark Streaming

7.6 资源管理与调度概述

7.7 Zookeeper介绍及使用方法

7.8 在线实验

【第七周】讨论题

【第七周】 单元测试

【第8周】数据可视化与综合实践

8.1 数据可视化简介

8.2 高维数据可视化

8.3 网络和层次化数据可视化

8.4 时空数据可视化

8.5 文本数据可视化

8.6 可视化在线实验

【第八周】讨论题

参考资料

参考教材:

[1]. 《大数据导论》, 梅宏主编,高等教育出版社

[2]. 《大数据导论》,张尧学主编,机械工业出版社

常见问题

Q1:不会编程可以学习该课程吗?

A :  课程中的“Python大数据基础”主要讲授了面向大数据分析与设计所需要的编程基础知识,包括了数据类型、数据结构、数据存取、数据加工和展示等部分内容,并且配套了相关的在线实践内容,所以没有编程基础也可以学习该课程。


Q2:非信息类专业的学生可以学习该课程吗?

A :  该课程主要面向非信息类学生设计,提供了很多应用案例,希望大家结合专业知识和行业知识进行学习和思考。