课程背景
1.数据挖掘是近十几年来大数据、人工智能行业飞速发展最重要的驱动技术之一,当前大数据分析几乎都离不开数据挖掘技术,应用广泛,是业界所需;
2.数据挖掘集合了概率统计、机器学习、人工智能、数据可视化、算法等等多门计算机领域核心知识,是信息技术研究的重要领域;
3.掌握数据挖掘的相关知识技能对于学生当下就业和未来深造都有重要意义。
课程目标
1.认识数据的统计特性,了解数据的可视化方法,把握数据相似性计算;
2.掌握数据预处理的四大步骤及方法;
3.掌握分类、聚类、回归、关联规则挖掘等核心技术;
4.了解具体数据挖掘的处理过程。
课程设计原则
1.紧跟技术前沿,内容涉及最新的业界技术和前沿研究;
2.注重技术实践,将经典案例融入到数据挖掘课程教学中,提高课程学以致用的效果;
3.重视基础知识,将数据挖掘知识与概率统计、机器学习、算法等底层核心知识融会贯通。
为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。
电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 http://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。
完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。
认证证书申请注意事项:
1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。
2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。
数据挖掘教材:数据挖掘原理与应用,2022.01;
京东购买:http://item.jd.com/10042588370746.html
淘宝购买:http://detail.tmall.com/item.htm?id=663741312308
当当购买:http://product.dangdang.com/11048586084.html
教材对应PPT下载:2.1 数据类型和统计的“富文本资源中的附件下载。
数据挖掘课程实践请同学们登录:http://www.educoder.net/paths/4153
历届数据挖掘课程中参加kaggle、天池、数据城堡、datacastle等互联网数据挖掘竞赛资源:提取码:lqee。百度网盘:http://pan.baidu.com/s/1ogE4SWQP4kP9I0sa-7zC2A
Q : 课程实践如何展开?
A : 请同学们登录http://www.educoder.net/paths/4153 开展具体课程实践。
Q : 课程采用哪个教材?
A : 课程教材为2022年机械工业出版社最新发布《数据挖掘原理与应用》。
Q : 教材对应的PPT在哪下载?
A : 2.1 数据类型和统计的“富文本资源中的附件下载PPT。
Q:课程代码在哪下载?
A : 课程代码和数据集已上传到9.1.1分类实践任务起点的“实践项目代码及数据”资源中,可以在此下载相关的压缩包资源。
Q:课程编程如果没有python基础,是否提供学习资源?
A : python学习相关的代码和数据集已上传到9.3.5 KNN 分类实践的“python学习相关资料”资源中,可以在此下载相关的压缩包资源。
Q:课程中是否提供大数据、深度学习等相关资源?
A : 大数据、深度学习等相关资源已上传到12.2 随机森林分类的“课程其他可参考PPT资源”资源中,可以在此下载相关的压缩包资源。
Q:课程需要什么基础?
A : 在课程制作过程中,尽可能利于易懂的案例驱动课程讲解,本课程希望同学们能够培养数据科学思维,因此,本课程学习对基础要求不高。但如果同学们后期进一步深入研究数据挖掘,建议同学们学习好高等数学、线性代数、概率统计等数学课程。
Q:老师的联系方式是什么?
A : 老师微信:dingzy1983,有问题可以随时在线交流。
Q:第2.认识数据之2.3 数据相似性章节中,4.4 数值属性的近邻性度量中,案例中的欧式距离计算表,表格中的计算有误。
A : 欧式距离示意中,为二维数据,该ppt中的结果计算有误,比如第一条数据(1,2),第二条数据(3,5),欧式距离为√[(1-3)^2+(2-5)^2]=3.606。
Q:决策树中父节点与子节点熵值的比较,为什么父节点的熵值更低?
A : 熵越大,说明数据越混乱,分类能力就越差。在构造决策树的时候,尽量把分类能力好的属性做为上层节点,上层节点的熵值较小,所以使得信息增益(原始的熵值减去现在的熵值)较大。所以此处不要把信息增益跟熵值混淆了。
Q:ReLU激活函数为什么会导致神经元死亡呢?降低学习率是如何缓解这个问题的呢?
A : 神经网络在接受异于常值输入时易导致反向传播中的大梯度效应,而这往往是学习率过载所致,最终神经元参数陷入无限循环,损失函数常导为0,而解决方法中降低学习率最为可靠,此外,也可通过优化算法策略动态调整学习率或Leaky Relu保证激活函数在小于0时也能实现非0输出。