spContent=身处数据时代,如何在“数据爆炸但知识缺乏”的社会中沙里淘金。数据挖掘作为一门交叉学科,融合了算法、数据库、统计学、信息技术等诸多知识,不仅提供了很好的解决思路,也是有力的科研工具和人工智能发展的重要基础。思维上对数据敏感、实践中熟练掌握工具已经成为了当代数据分析人才的必备素质。
身处数据时代,如何在“数据爆炸但知识缺乏”的社会中沙里淘金。数据挖掘作为一门交叉学科,融合了算法、数据库、统计学、信息技术等诸多知识,不仅提供了很好的解决思路,也是有力的科研工具和人工智能发展的重要基础。思维上对数据敏感、实践中熟练掌握工具已经成为了当代数据分析人才的必备素质。
—— 课程团队
课程概述
《数据挖掘与Python实践》课程主要讲授数据挖掘的基本理论、各个分支及应用。课程涵盖DM的定义、流程、数据预处理、数据可视化、关联分析、聚类、分类、数值预测等内容。通过课程学习,你将会掌握数据挖掘的基本理论、思想和方法,并通过简单易用的软件来解决相关的问题。
授课目标
1. 了解和掌握数据挖掘的基本理论、流程和方法。
2. 了解和掌握数据挖掘过程过中的技术,如数据预处理、数据可视化、关联分析、聚类、分类、数值预测等内容。
3. 通过课程学习,能通过简单易用的软件来解决数据挖掘的相关问题。
课程大纲
导言
课时目标:理解数据挖掘的定义、流程和相关应用场景。
1.1数据挖据的产生、定义和流程
1.2数据挖掘的方法
1.3数据挖掘的应用
1.4python介绍
认识数据
课时目标:理解数据的不同类型,掌握数据的基本描述性统计、可视化作图、以及相似性分析。
2.1数据对象与属性类型
2.2数据的基本统计描述
2.3数据可视化
2.4数据的相似性与相异性度量
2.5python操作:认识数据(一)
2.6python操作:认识数据(二)
数据预处理
课时目标:理解数据预处理的原因,掌握数据预处理的不同方法。
3.1数据预处理的基本思想和数据规范化
3.2数据离散化
3.3数据清洗
3.4特征提取与特征选择
关联规则挖掘
课时目标:理解关联分析的定义,掌握关联规则挖掘的方法和应用。
4.1引言
4.2频繁模式与关联规则
4.3频繁项集的典型挖掘方法
4.4关联规则的生成方法
4.5关联规则的其他类型
4.6关联规则的兴趣度的其他度量
4.7python操作:关联规则挖掘
分类
课时目标:理解分类的定义、流程和评价,掌握几种不同分类的方法和应用。
5.1分类的概念
5.2决策树分类
5.3朴素贝叶斯分类
5.4k近邻分类
5.5分类性能的度量方法
5.6python操作:分类(一)
5.7python操作:分类(二)
数值预测
课时目标:理解数值预测的定义、流程和评价,掌握几种不同数值预测的方法和应用。
6.1数值预测概念
6.2回归方法
6.3 回归树与模型树
6.4K近邻数值预测和预测误差的度量
6.5python操作:数值预测
聚类分析
课时目标:理解聚类分析的定义、流程和评价,掌握聚类分析的方法和应用。
7.1概述
7.2相似度度量方法
7.3 k均值聚类法
7.4 层次聚类方法
7.5 DBSCAN方法
7.6 聚类效果衡量方法
7.7python操作:聚类分析(一)
7.8python操作:聚类分析(二)
复杂数据的挖掘
课时目标:理解复杂数据挖掘的应用场景。
8.1挖掘复杂的数据类型-序列与网络
8.2挖掘复杂的数据类型-其他类型
展开全部
预备知识
参考资料
1. 《数据挖掘与Python实践》 李爱华. 孟凡. 北京:高等教育出版社,2023.
2. 《数据挖掘:概念与技术》 韩家炜.(第三版). 北京:机械工业出版社,2012.
3. 《商务智能》 刘红岩.北京:清华大学出版社,2013.
4. 《机器学习》 周志华. 北京:清华大学出版社,2016.
5. 《统计学习方法》 李航. 北京:清华大学出版社,2019.
6. 《Python for Data Analysis》 Wes McKinney. O'Reilly Media, 2019.
7. 《利用Python进行数据分析》 徐敬一(译). 北京:机械工业出版社,2018.
常见问题
1.课程各单元的发布时间是什么时候?
课程教学和发布安排一般是每个单元为一周,个别单元为两周,具体时间如表所示。
单元 单元内容 发布时间
第一单元 导言 2025/2/24 10:00
第二单元 认识数据 2025/3/3 10:00
第三单元 数据预处理 2025/3/10 10:00
第四单元 关联规则挖掘 2025/3/24 10:00
第五单元 分类 2025/4/7 10:00
第六单元 数值预测 2025/4/21 10:00
第七单元 聚类分析 2025/4/28 10:00
第八单元 复杂数据的挖掘 2025/5/12 10:00
2.每章测试和期末测试在什么时间?
每章测试在每章课程教学发布之后,期末测试在课程结束后两周,本学期课程2025年2月24号开始-2025年7月13号结束。