课程详情
课程评价
spContent=该课程是2018年广东省精品在线开放课程。课程主要以爬取学生信息、爬取城市天气预报、爬取网站图像、爬起图书网站图书、爬取商城网站商品等5个项目为依托,讲解Web、正则表达式、BeautifulSoup、XPath、CSS、Scrapy、Selenium、多线程、深度与广度优先搜索等Python爬虫技术。当您学习完这些项目后,您就可以编程爬取几乎所有网站的数据了!
—— 课程团队
课程概述


1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

网络爬虫就是一组能自动从网站的相关网页中自动搜索与提取数据的程序,提取与存储这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效,编写网络爬虫有特别的优势,尤其业界有专门为Python编写的各种各样的爬虫程序框架,使得爬虫程序的编写更加简单高效。

Python是一种面向对象的解释型计算机程序设计语言,该语言开源、免费、功能强大,而且语法简洁清晰,具有丰富和强大的库,是目前应用广泛的程序语言。

 

 

2.浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 https://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTMLJSCSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

授课目标

课程面向有Python的程序基础、数据库基础、Web程序基础的大中专学生、社会学习者。

课程大纲
预备知识

Python的程序基础、数据库基础、Web程序基础。

参考资料

(1) 《数据采集技术—Python网络爬虫项目化教》,ISBN:9787040497816,黄锐军,高等教育出版社,2018;

(2)《Python爬虫项目教程(微课版)》,ISBN 9787115569998,黄锐军,人民邮电出版社,2021,国家十四五规划教材;

(3)《Python程序设计》、ISBN9787040493726、黄锐军,高等教育出版社,2018 ,国家十三五、十四五规划教材;

(4) https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

(5) https://doc.scrapy.org/en/latest/

(6) https://www.selenium.dev/

常见问题

Q: 爬虫程序是什么? 

A: 爬虫程序是一组自动爬取网站服务器数据的程序,它好像一个爬虫一样,可以自由地游历于各个关联的网站之间,爬取数据并存储数据。


Q: Python爬虫程序好学吗?

A: Python程序语法简单,数据类型丰富,使用Python编写爬虫程序会很简单,而且Python中有一些著名的爬虫程序框架(例如scrapy),使用这些框架可以很容易编写出高效的爬虫程序。


Q: 要想学习爬虫程序技术,需要哪些基础知识?

A: 要有Python的程序基础、数据库基础、Web程序基础。


Q: 课程目前得过什么奖项吗?

A: 该课程是2018年广东省精品在线开放课程,而且还被纳入我国“一带一路”的项目,依托联合国教科文组织在发展中国家进行教学。