大数据时代,基于数据获取和数据分析去发现问题并做出科学、客观的决策变得越来越重要。在数据分析技术应用中,爬虫程序作为数据采集的重要手段之一,不仅在大数据、人工智能行业有广泛的应用,在其他工科、医科、商科、文科等学科也有重要应用。
本课程的目标是教会学生使用Python程序设计语言编写程序,能够在互联网上进行不同类型数据爬取,并能够进行相应的数据预处理、数据存储、数据可视化以及简单数据分析。整门课程按照主题,分为了4个大型案例,每个案例设置了不同的情境与任务,不断地提出问题,引导学习者不断地完善改进程序,精益求精。在学习过程中,培养科学思维,训练学生的科学思维方式以及互联网时代新的学习方式,为后续专业知识学习、研究及工作需要,奠定数据获取和数据分析的技术基础。
完成本课程的学习后,学习者将能收获以下基本技能:
1)熟练分析网页元素、掌握静态页面数据、动态页面数据以及json数据的分析、爬取技能;
2)掌握requests、wordcloud、matplotlib、pyecharts等第三方库的使用;
3)学会第三方库的使用技巧,未来在没有老师教授的情况下也能自主学习,完成任务;
4)培养学习者科学思维,以及互联网时代新的学习方式,为后续专业知识学习、研究及工作需要,奠定数据获取和数据分析的技术基础。
1)如果具备Python程序设计语言基础,学习本课程将会较为轻松,可以直接略过第一部分【预备知识】,直接从【模块1】开始学习。
2)如果具备C程序设计语言基础,只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维(函数)的语法,但是1.5数据的类型中,包含组合数据类型,这是C语言中没有的,必须先认真学习,掌握之后,再开始学习后续知识,也能够快速上手。
3)如果不具备任何程序设计语言基础,则需要认真观看完“第一章 Python语言基础”,并完成对应关练习,理解Python语言的数据类型、程序控制结构等,具备基本程序设计能力之后,方能较快理解后续章节的相关内容。
为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。
电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。
完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。
认证证书申请注意事项:
1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。
2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。
Python语言基础学习可参考北京理工大学嵩天老师主讲的国家精品课程《Python程序设计语言》https://www.icourse163.org/course/BIT-268001?outvandor=zw_mooc_pcsybzkcph (请选修最近一期)。
参考网站
[1] Python主站:https://www.python.org
[2] Python编写网络爬虫相关库的使用:
requests:https://cn.python-requests.org/zh_CN/latest/
BeautifulSoup:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
Python语言练习平台:
[1] Python123学习主站:https://python123.io
对于没有任何Python语言基础的同学,可以自主选择在python123平台完成相应知识点的练习,不限时,不计入成绩。
python123平台使用步骤:
注册->绑定课程号C5280
绑定课程成功之后,即可完成每一次Python语言的练习。