hi,小慕
课程

中国大学MOOC,为你提供一流的大学教育

认证学习
为你提供认证成绩和证书,以及AI高效学习服务
查看详情
大学

国家精品

认证学习

智慧课程

理学工学农学

计算机

经济管理

外语

音乐与艺术

心理学

文史哲法

医学与保健

教育教学

大学生竞赛

软件实训

人工智能

升学/择业

考研

期末突击

专升本

四六级

保研及论文

求职就业

专四专八

大学应试英语

期末资料

终身学习

有声课堂

兴趣技能

hi,小mooc
期末不挂科
认证学习
Python数据爬取与可视化
第9次开课
开课时间: 2025年01月07日 ~ 2025年06月08日
学时安排: 1-2小时每周
进行至第18周,共22周 已有 7985 人参加
认证学习
认证成绩和证书
智能问答和解析
视频学习辅助
立即参加
课程详情
课程评价(1371)
spContent=运用Python高效获取、清洗、展示数据!
运用Python高效获取、清洗、展示数据!
—— 课程团队
课程概述

  大数据时代,基于数据获取和数据分析去发现问题并做出科学、客观的决策变得越来越重要。在数据分析技术应用中,爬虫程序作为数据采集的重要手段之一,不仅在大数据、人工智能行业有广泛的应用,在其他工科、医科、商科、文科等学科也有重要应用。


  本课程的目标是教会学生使用Python程序设计语言编写程序,能够在互联网上进行不同类型数据爬取,并能够进行相应的数据预处理、数据存储、数据可视化以及简单数据分析。整门课程按照主题,分为了6个模块。

  第一个模块是Python的基础知识,对于没有Python语言基础的同学,可以通过第一个模块的学习,快速入门。

  第二个模块是关于网络爬虫的一些基础知识。包括编写与使用网络爬虫程序必须遵循的相关法律法规及伦理道德,以及与爬虫程序相关的一些Web开发相关知识。

  后续4个模块则是根据数据爬取目标的特点设计了4个大型案例,每个案例设置了不同的情境与任务,不断地提出问题,引导学习者不断地完善、改进程序,精益求精。


  在整门课程的学习过程中,强调数据获取过程中必须合理合法,授课方式更注重培养学习者的科学思维方式以及互联网时代新的学习方式。希望通过本课程的学习,能够为学习者后续专业知识学习、研究及工作需要,奠定数据获取、数据处理的基础。

授课目标

完成本课程的学习后,学习者将能收获以下基本技能:

   1)熟练分析网页元素、掌握静态页面数据、动态页面数据以及json数据的分析、爬取技能; 

   2)掌握requests、wordcloud、matplotlib、pyecharts等第三方库的使用;

   3)学会第三方库的使用技巧,未来在没有老师教授的情况下也能自主学习,完成任务;

   4)培养学习者科学思维,以及互联网时代新的学习方式,为后续专业知识学习、研究及工作需要,奠定数据获取和数据分析的技术基础。

课程大纲

【模块1】Python快速入门

1.1 Python语言初探

1.2 IPO程序设计与顺序结构

1.3 程序控制之分支结构

1.4 程序控制之循环结构

1.5 理解数据的类型

1.6 模块化思维(函数)

1.7 文件读写

单元测验-Python语言基础

【模块2】爬虫基础

2.1 学习爬虫技术之前的重要提示

2.2 从一个简单的请求开始

2.3 HTTP那些事儿

2.4 认识HTML

2.5 爬虫第三方库requests简介

单元测验-爬虫基础

【模块3】单页面静态数据爬取与词云绘制

3.1 政府工作报告爬取与词云绘制

3.2 细说词云绘制

3.3 词频统计

单元测验-静态数据爬取与词云绘制

【模块4】多页面数据爬取与存储

【新案例】曾国藩家书获取与数据处理

4.1 单章节内容爬取与模块化

4.2 目录页分析与存储

4.3 多章节内容存储

4.4 小说爬取中常见问题解决

单元测验-多页面数据爬取

【模块5】动态数据爬取与可视化

5.1 任务进阶安排

5.2 从一个城市开始

5.3 动态查询一个城市天气

5.4 周边景点当天天气查询

5.5 周边景点7天气温折线图绘制

5.6 一省全域天气查询

5.7 天气数据API的使用

单元测验-动态数据爬取

【模块6】复杂结构数据获取

6.1 案例导入

6.2 PubMed单篇文献基本信息获取

6.3 PubMed多篇文献信息获取

【模块7】利用pandas处理国家统计局数据并展示

7.1 pandas的主要数据结构

7.2 pandas之数据的导入导出

7.3 pandas之使用自定义函数

7.4 pandas之数据清洗-以统计局数据为例

7.5 pandas之图形绘制


展开全部
预备知识

  1)如果具备Python程序设计语言基础,学习本课程将会较为轻松,可以直接略过第一部分【预备知识】,直接从【模块1】开始学习。

  2)如果具备C程序设计语言基础,只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维(函数)的语法,但是1.5数据的类型中,包含组合数据类型,这是C语言中没有的,必须先认真学习,掌握之后,再开始学习后续知识,也能够快速上手。

  3)如果不具备任何程序设计语言基础,则需要认真观看完“第一章 Python语言基础”,并完成对应关练习,理解Python语言的数据类型、程序控制结构等,具备基本程序设计能力之后,方能较快理解后续章节的相关内容。

参考资料
  • 参考网站

     [1] Python主站:https://www.python.org

     [2] Python编写网络爬虫相关库的使用

    requests:https://cn.python-requests.org/zh_CN/latest/ 

    BeautifulSouphttps://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 

  • Python语言练习平台:

    [1] Python123学习主站:https://python123.io  

对于没有任何Python语言基础的同学,可以自主选择在python123平台完成相应知识点的作业,不限时,不计入慕课学习成绩。

  • python123平台使用步骤:


     注册 - > 加入新课程 - > 绑定课程号 C12425

     加课流程:平台注册后,学号为1~990中任何一个数

                       姓名为:学生

     建议:使用最简单的密码,确保自己不会忘记:)

绑定课程成功之后,即可完成每一次Python语言的作业。

常见问题

1)为什么写好的程序,双击打开,闪一下就没了?

答:如果只安装了python软件,没有安装其他集成环境的,则需要先打开IDLE,再在file中去open你需要打开的那个.py文件。


2)为什么会经常出现错误提示“AttributeError:'NoneType' object has no attribute 'text'”?

答:这是因为在前面find()某个标签时,没有正确地抓到任何数据,所以返回了一个None。而None是没有属性text的,所以报了以上错误。

----- 正确的做法,应该是find()数据时,先打印出筛选回来的标签数据,看是否正确拿到目标数据,如果已经拿到,再增加.text去获取标签的文本。

南华大学
5 位授课老师
李晓昀

李晓昀

副教授

罗江琴

罗江琴

讲师

陈星

陈星

讲师

推荐课程

武忠祥·高等数学·基础课(26考研适用)

武忠祥

51762人参加

猴博士Python不挂科-3小时学完Python

猴博士爱讲课

177353人参加

Python零基础体验课(0元6天精讲课)

百词斩Conner

836人参加

Python期末冲刺-4小时突击Python

大雨老师01

9544人参加
下载
下载

下载App