课程

中国大学MOOC,为你提供一流的大学教育

hi,小mooc
SPOC学校专有课程
大数据导论(黄恒峰)
第1次开课
开课时间: 2020年02月25日 ~ 2020年07月02日
学时安排: 4课时每周
当前开课已结束 已有 90 人参加
老师已关闭该学期,无法查看
spContent=课程分三个层次,第 1 个层次是大数据概念相关的基础知识,介绍大数据的概念、发展历程以及主要特征、大数据计算平台。第 2 个层次是与大数据相关的技术基础知识,介绍数据采集与预处理、大数据存储与管理、大数据计算框架、数据挖掘、数据可视化。第 3 个层次介绍大数据与云计算、大数据与人工智能。
课程分三个层次,第 1 个层次是大数据概念相关的基础知识,介绍大数据的概念、发展历程以及主要特征、大数据计算平台。第 2 个层次是与大数据相关的技术基础知识,介绍数据采集与预处理、大数据存储与管理、大数据计算框架、数据挖掘、数据可视化。第 3 个层次介绍大数据与云计算、大数据与人工智能。
—— 课程团队
课程概述

      放眼全球,信息技术已经改变了世界的面貌。信息技术的高速发展,引发了近几年的大数据和人工智能浪潮。目前,整个社会都在关注大数据技术的发展。然而,多数人还是只闻其声,不知其实。信息技术人员作为时代“弄潮儿”,在对这些波澜壮阔的景象感到兴奋的同时,又深刻感受到技术的飞速变化所带来的巨大压力。大数据技术是信息技术几十年发展和积累催生的产物。大数据的技术体系是在信息技术的技术积淀上发展而来的。本课程作为大数据技术的入门课程,能够帮助希望成为信息时代冲浪者的学者,从一个外行跨入大数据技术的大门,帮助大数据技术的初学者尽快了解大数据技术。

全书共 9 章,各章主要内容如下:

第 1 章介绍大数据的定义,并详细介绍大数据技术的来龙去脉,确保学者能够正确理解大数据的概念,为后面的学习做好准备。

第 2 章概要介绍大数据技术的主要实用信息技术,使学者对支撑大数据发展的技术基础有一个全面的了解。

第 3 章详细阐述数据采集与预处理技术,包括大数据的数据采集方法、数据来源、数据预处理技术。

第 4 章深入讲解大数据存储与管理,重点介绍大数据时代数据库存储技术的发展和变化,让初学者了解大数据时代的数据存储和管理技术。

第 5 章讲解大数据计算框架,介绍常用的大数据计算平台。

第 6 章介绍大数据技术的关键核心技术——数据挖掘,重点对常用的数据挖掘算法进行介绍,为读者未来的深入学习打下基础。

第 7 章介绍数据可视化技术,讲解数据可视化的相关概念和工具。

第 8 章结合时代热点介绍大数据与云计算的关系。

第 9 章展望未来,介绍大数据与人工智能的关系。

授课目标

本课程作为大数据技术的基础课程,目的不在于让学生对具体的某个技术平台细节有很深的理解,而在于尽量让学生体会整个大数据处理的技术流程,使学生能够掌握大数据技术的整体框架,能够在未来的学习和工作中运用系统化的大数据思维为所遇到的问题提供解决思路和方案。


课程大纲
什么是大数据
1.1 人类信息文明的发展 ...........................1
1.2 大数据时代的来临...............................2
1.2.1 信息技术的发展............................3
1.2.2 数据产生方式的变革....................5
1.3 大数据的主要特征...............................7
1.3.1 大数据的数据特征........................8
1.3.2 大数据的技术特征......................10
1.4 大数据的社会价值............................. 11
大数据技术基础
2.1 计算机操作系统.................................14
2.1.1 什么是操作系统..........................14
2.1.2 Linux 操作系统...........................16
2.2 编程语言.............................................18
2.2.1 编程语言的发展与种类..............18
2.2.2 Python 语言.................................21
2.3 数据库.................................................23
2.3.1 SQL 数据库的发展与成熟.........24
2.3.2 NoSQL 与 NewSQL 数据库 .......25
2.4 算法.....................................................30
2.4.1 什么是算法 .................................30
2.4.2 大数据时代的算法......................32
2.5 大数据系统.........................................33
2.5.1 Hadoop 平台 ................................33
2.5.2 Spark 平台....................................35
2.6 大数据的数据类型..............................37
2.6.1 结构化数据..................................38
2.6.2 半结构化数据..............................38
2.6.3 非结构化数据..............................39
2.7 大数据应用的开发流程......................40
2.8 数据科学算法的应用流程..................41
数据采集与预处理
3.1 大数据的来源 .....................................44
3.1.1 传统商业数据..............................45
3.1.2 互联网数据..................................45
3.1.3 物联网数据..................................46
3.2 数据的采集方法..................................47
3.2.1 系统日志的采集方法..................47
3.2.2 网页数据的采集方法..................52
3.2.3 其他数据的采集方法..................55
3.3 数据预处理 .........................................56
3.3.1 影响数据质量的因素..................56
3.3.2 数据预处理的目的......................59
3.3.3 数据预处理的流程......................60
大数据存储与管理
4.1 数据存储概述.....................................68
4.1.1 数据的存储介质..........................68
4.1.2 数据的存储模式..........................72
4.2 大数据时代的存储管理系统 .............76
4.2.1 文件系统 .....................................76
4.2.2 分布式文件系统..........................77
4.2.3 数据库 .........................................80
4.2.4 键-值数据库................................82
4.2.5 分布式数据库 .............................82
4.2.6 关系型数据库 .............................84
4.2.7 数据仓库 .....................................85
4.2.8 文档数据库 .................................87
4.2.9 图形数据库 .................................89
4.2.10 云存储 .......................................90
大数据计算框架
5.1 计算框架.............................................94
5.1.1 批处理框架 .................................94
5.1.2 流式处理框架 .............................95
5.1.3 交互式处理框架..........................96
5.2 MapReduce..........................................96
5.2.1 MapReduce 编程的特点 .............97
5.2.2 MapReduce 的计算模型 .............97
5.2.3 MapReduce 的资源管理框架 ....101
5.3 Spark..................................................105
5.3.1 Spark 的基本知识 .....................105
5.3.2 Spark 的生态系统 .....................107
5.3.3 Spark 的架构与原理 .................109
5.3.4 Spark RDD 的基本知识............111
数据挖掘
6.1 什么是数据挖掘................................116
6.2 数据挖掘的对象与价值....................119
6.2.1 数据挖掘的对象........................119
6.2.2 数据挖掘的价值........................121
6.3 数据挖掘常用的技术........................123
6.3.1 关联分析....................................123
6.3.2 分类分析....................................126
6.3.3 聚类分析....................................129
6.4 数据挖掘常用的工具........................132
6.4.1 RapidMiner.................................133
6.4.2 WEKA........................................133
6.4.3 Orange ........................................134
6.4.4 R 语言........................................134
6.4.5 Mining ........................................135
6.5 数据挖掘的典型应用........................137
6.5.1 社交媒体领域的应用................137
6.5.2 市场营销领域的应用................137
6.5.3 科学研究领域的应用................138
6.5.4 电信领域的应用........................138
6.5.5 教育领域的应用........................138
6.5.6 医学领域的应用........................139
数据可视化
7.1 什么是可视化 ...................................141
7.1.1 可视化的含义............................141
7.1.2 可视化的发展历程....................142
7.1.3 可视化的作用............................143
7.2 数据可视化及其分类 .......................144
7.2.1 科学可视化 ...............................145
7.2.2 信息可视化 ...............................146
7.2.3 可视化分析学 ...........................147
7.3 数据可视化工具...............................148
7.3.1 入门级工具 ...............................148
7.3.2 信息图表工具 ...........................149
7.3.3 地图工具 ...................................153
7.3.4 高级分析工具 ...........................155
7.4 数据可视化案例...............................157
7.4.1 数字美食 ...................................157
7.4.2 空中的间谍 ...............................158
大数据与云计算
8.1 什么是云计算...................................160
8.1.1 云计算的概念与特点................160
8.1.2 云计算的分类 ...........................162
8.1.3 云计算与分布式计算的区别....163
8.1.4 云计算的体系架构....................163
8.1.5 云计算需要解决的问题............165
8.1.6 具有代表性的云计算厂商........166
8.2 大数据与云计算的关系....................167
8.2.1 云计算将改变大数据分析........168
8.2.2 大数据与云计算的区别和联系............................................168
8.2.3 大数据与云计算未来的发展方向和趋势................................169
8.2.4 大数据与云计算在生产生活中的应用............................................171
大数据与人工智能
9.1 什么是人工智能................................175
9.1.1 人工智能的发展历史................176
9.1.2 人工智能的研究方向和方法.....182
9.1.3 人工智能面临的问题................184
9.2 数据驱动的智能时代........................185
9.2.1 人工智能与大数据....................185
9.2.2 产业战略....................................187
展开全部
预备知识

《数据库原理》

《计算机操作系统》

参考资料

[1] 曾毅,刘成林,谭铁牛. 类脑智能研究的回顾与展望[J]. 计算机学报, 2016, 39

( 01): 212-222.

[2] 胡郁. 人工智能的迷思—关于人工智能科幻电影的梳理与研究[J]. 当代电影,

2016( 02): 50-55.

[3] 秦喜清. 我, 机器人, 人类的未来——漫谈人工智能科幻电影[J]. 当代电影, 2016

( 02): 60-65.

[4] 郝登山. 人工智能在计算机网络技术中的应用分析[J]. 中国新通信, 2016, 18

( 01): 87-89.

[5] 翟振明,彭晓芸. “强人工智能”将如何改变世界——人工智能的技术飞跃与应

用伦理前瞻[J]. 人民论坛·学术前沿, 2016( 07): 22-33.

北部湾大学
1 位授课老师
黄恒峰

黄恒峰

大数据工程师

下载
下载

下载App