本门课程共包括数据科学概述、大数据关键技术分析、Python基础、函数和模块、文件读取、数据采集、 数据处理:NumPy、数据处理:Pandas统计分析、数据可视化与利用等九部分内容。最后一章利用一个实际的项目,为同学们展示数据分析的整个流程。通过学习本课程,目的是使学生能够掌握数据科学的基本概念、基本理论,并在此基础上掌握Python数据分析工具以及在管理实践中的应用。
课程目标1:了解数据科学的基础概念,基本理论。
课程目标2:了解Python语言的基础概念、Python的安装与运行、Python程序开发与基本语法、基本数据类型、运算符与表达式,以及程序的控制结构。
课程目标3:熟悉网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。
课程目标4:了解Scrapy框架以及其中主要的类,如何用编写网络爬虫测试网站,自动化处理。
课程目标5:了解numpy数组的特点、属性及创建,数组的形状操作,数组数据的获取,数组的基本运算及广播机制,数组的排序及统计分析,矩阵的创建及运算,文本数据文件及二进制文件的读写。
第一章 数字科学概述
1.3数据科学带来的改变和思考
1.2数据科学的发展历程
1.1数据
单元测试
第二章大数据关键技术分析
2.1数据预处理
2.3数据挖掘
2.2数据分析
单元测试
第三章Python基础
3.4 选择结构
3.1 Python简介
3.3 运算符与表达式
3.5 循环结构
3.2 基本数据类型
单元测试
第四章 函数、模块与组合数据类型
4.5 字符串
4.2 变量作用域
4.1 函数和递归函数
4.3 列表和元组
4.4 字典和集合
单元测试
第五章 文件操作
5.1知识点1-文件操作
单元测试
第六章数据采集
6.2网页基础知识
6.3 SCRAPY爬虫1
6.1 HTTP基本原理
单元测试
第7章 numpy数值计算
7.2 ndarray数组的创建及形状操作
7.1 Numpy概述
7.3 ndarray数据的获取及运算
7.4 本章小结
单元测试
第八章 数据处理:pandas统计分析
8.3 读写外部数据及数据预处理
8.1 pandas的数据类型
8.2 DataFrame的基本操作
单元测试
第九章数字科学概述
9.1 绘制基本的图形
9.2统计图形的绘制
单元测试
第十章 电商网站
10.3商品聚类分析
10.1电商网站目标分析及数据预处理
10.2电商网站统计分析
单元测试
学生应该掌握计算机基础、高等数学和统计学的相关知识。
为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。
电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。
完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。
认证证书申请注意事项:
1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。
2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。
数据科学:理论、方法与Python语言实践,谢健民主编,人民邮电出版社。ISBN:9787115585950