spContent=数据成为社会新型生产要素,数据思维是每个大学生应具备的基本素养。课程围绕数据科学工作流程,介绍从数据中获取知识的方法和技术:数据采集预处理、统计分析、可视化、机器学习建模等。通过大量实践案例和开放项目,使学生建立 “数据即生产力”的意识,能够采用数据科学的方法,解决领域实际问题。
数据成为社会新型生产要素,数据思维是每个大学生应具备的基本素养。课程围绕数据科学工作流程,介绍从数据中获取知识的方法和技术:数据采集预处理、统计分析、可视化、机器学习建模等。通过大量实践案例和开放项目,使学生建立 “数据即生产力”的意识,能够采用数据科学的方法,解决领域实际问题。
—— 课程团队
课程概述
本课程为大学计算机通识教育课程,面向学生的创新应用能力培养。课程介绍数据科学的思维方式,实现数据分析的方法,通过具体应用案例帮助读者理解数据科学知识,掌握实践技能,运用统计学、人工智能等技术解决各学科专业领域中的数据分析问题,挖掘数据中的知识。
通过学习学生了解数据科学的关键问题,通过数据分析方法解决实际问题的基本步骤,掌握数据组织的基本形式,数据存储的常用格式、数据的清洗、转换与合并、可视化展示、数据汇总和统计方法、机器学习方法及在文本、图像、语音等领域的人工智能前沿领域的应用。
课程特色:
1)课程紧跟数据科学的发展趋势,不断更新相关的技术和方法。
2)课程适用于多数本科专业学生学习,只需要具备任何一门编程语言基础。
3)课程以培养学生科学素养为目标,教学围绕精心设计的案例展开,注重问题解决方法和思路的讲解,引导学生通过查阅资料、搜索互联网等方式获得知识性内容。
课程大纲
数据科学基础
课时目标: 数据科学是一门新兴科学,它以数据为中心,帮助我们理解数据,用数据进行创新,推动社会发展。本章介绍数据科学的基本概念及涵盖的专业领域,重点介绍数据科学的应用实例、数据科学的工作流程,以及本书实现数据分析的工具。
1.1 数据科学概述
1.2 Python数据分析工具
1.3 Python语言基础
多维数据结构与运算
课时目标: 数据分析首先需要将实际应用的数据组织为向量或矩阵,以便高效地计算和处理。Python 的开源库NumPy 提供了多维数据对象ndarray(n-dimensional array),支持多种类型的数值型数据组织。学习本章掌握使用ndarray 存储多维数据,实现快速的矩阵运算功能。
2.1 多维数组对象
2.2 多维数组运算
2.3 案例:随机游走轨迹模拟
数据汇总与统计
课时目标: 数据汇总与统计是数据探索的重要方法,通过数据收集、汇聚、清洗和统计分析等过程,探索数据的概括性特征,形成有价值的推断,为后续的建模分析提供可靠的指导。探索性分析需要将相关数据同时存储以便处理,多维数组已无法满足需求。 pandas 基于NumPy 提供了更复杂的数据结构,以及丰富、完善的数据准备和统计分析功能。学习本章了解分析过程中涉及的统计学概念,掌握使用pandas 实现数据文件访问、清洗、转换、集成,汇总和统计等数据探索方法。
3.1 统计基本概念
3.2 pandas数据结构
3.3 数据文件读写
3.4 数据清洗
3.5 数据规整化
3.6 统计分析
3.7 案例:调查反馈表分析
数据可视化
课时目标: 数据可视化是数据探索阶段的重要方法,它将数据以图形图像的形式表示,揭示隐藏的数据特征,直观地传达关键信息,辅助建立数据分析模型,展示分析结果。学习本章了解可视分析中常用图形的特点、Matplotlib 和pandas 的绘制方法及其在数据探索中的作用。
4.1 Python绘图基础
4.2 可视化数据探索
机器学习建模分析
课时目标: 经过探索性分析得到数据集属性的特征及相互之间的关系,如需进一步描述数据集的总体特性,并预测未来产生的数据,则需要根据分析目标为数据建立模型。目前主要的建模途径是使用机器学习的算法。学习本章了解机器学习的基本概念,机器学习的常用算法,掌握应用Python 提供的机器学习算法库scikit-learn 实现数据建模和预测分析的技术和方法。
5.1 机器学习概述
5.2 回归分析
5.3 分类分析
5.4 聚类分析
5.5 神经网络和深度学习
文本数据处理
课时目标: 从海量文档中快速发现并利用所需的知识是人工智能的热点研究方向。虽然目前计算机还不具备理解自然语言文本的能力,但近年来利用统计模型从文本发现知识取得了显著的进展,在知识检索、舆论监控、用户偏好理解和人机对话等方面获得了广泛的应用。学习本章了解文本数据处理的基本步骤和方法,以及如何利用第三方库实现文本数据的分析。
6.1 文本处理概述
6.2 中文文本处理
6.3 实例:垃圾邮件识别
图像数据处理
课时目标: 随着人工智能技术的发展,从开始的手写数字识别、车牌识别,到今天的人脸识别,图像处理技术取得了突破性的进展。学习本章了解数字图像数字化的基本原理和处理图像的基本操作,掌握使用深度学习技术通过图像分类实现图像识别。
7.1 数字图像概述
7.2 Python图像处理
7.3 案例:深度学习实现图像分类
时序数据与语音处理
课时目标: 时序数据处理的重要目标是对给定的时间序列样本,找出统计特性和发展规律,推测未来值。语音是一类特殊的时序数据,识别语音对应的文本信息是当前人工智能的热点之一。学习本章了解时序数据的特点,通过应用实例,掌握时序数据处理的基本方法及语音识别技术的应用。
8.1 时序数据概述
8.2 时序数据分析方法
8.3 语音识别实例
展开全部
预备知识
学生应具备计算机文化的基础知识,能够使用任意一门编程语言编写程序。
证书要求
课程评价项:
1)完成所有课程的学习;
2)完成课程单元测试;(10分)
3)完成课堂交流讨论3次及以上;(20分)
4)完成指定的4次课后作业;(30分)
5)参加考试(课程结束后1周);(40分)
证书:
1)完成课程5项评价内容
2)评价2、3、4、5项按分值占比计入总评分
3)总评分超过60分即可获得证书
4)总评分超过85分可获得优秀学员证书
参考资料
《数据科学技术与应用》,宋晖、刘晓强主编,电子工业出版社,2018.