“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧!
本课程面向各类编程学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。
本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授Requests-bs4-Re和Scrapy两条构建网络爬虫的技术路线,所讲述内容广泛服务Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。
必修内容包括:
(1)Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;
(2)Robots协议,网络爬虫排除标准,讲解礼貌合法获取信息的规范;
(3)Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;
(4)Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法。
选修(介绍性)内容包括:
(1)“网络爬虫引擎”的设计原理;
(2)Python专业网络爬虫框架第三方库Scrapy,简要介绍构造专业网络爬虫的基本方法。
本课程希望传递“理解和运用计算生态,培养集成创新思维”的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。
"人生苦短,不要刀耕火种“,嵩老师教你直面问题和需求,用最好的工具解决它!
2017年度全新上线的Python语言系列专题课,带给你不一样的学习体验!
>>Python 网络爬虫与信息提取
http://www.icourse163.org/course/BIT-1001870001
>>Python 数据分析与展示
http://www.icourse163.org/course/BIT-1001870002
>>Python 机器学习应用
http://www.icourse163.org/course/BIT-1001872001
>>Python 科学计算三维可视化
http://www.icourse163.org/course/BIT-1001871001
>>Python 游戏开发入门
http://www.icourse163.org/course/BIT-1001873001
>>Python 云端系统开发入门
本课程采取百分制,客观题和主观编程题各占50分。60分-79分可获得合格证书,80分以上可获得优秀证书,满分者将获得嵩老师的额外神秘大礼。
Python集成开发环境(IDE)
[1] IDLE: Python解释器默认工具
[2] Visual Studio Code: http://code.visualstudio.com/(本课程推荐)
[3] PyCharm: http://www.jetbrains.com/pycharm/
[4] Anaconda: http://www.continuum.io/ (本课程不推荐)
参考教程
[1] Python网络爬虫专题参考教程: 课程内部资料。
[2] 《Python语言程序设计基础(第3版)》,嵩天、黄天羽、杨雅婷著,高等教育出版社,2024.9(讲授Python 3版本)
参考网站
[1] Python123学习主站:http://python123.io
[2] Python Requests: http://www.python-requests.org
[3] Python Beautiful Soup: http://www.crummy.com/software/BeautifulSoup
[4] Python Scrapy: http://scrapy.org/
Q1:除了Python,这个课程需要其他编程语言基础吗?
A1:
不需要,只要具备基本的Python编程能力,就可以学习本课程。
Q2:Python 2.x和Python 3.x,这个课程采用哪个版本?
A2:
Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。
Q3:在线开放课程看不到老师,有问题谁来解答?
A3:
为了更好服务同学们,本课程教师和多名助教会每天在线答疑,尽快解决与课程相关的各类问题。
Q4:课程里面除了视频、文档和练习,还有什么新的形式吗?
A4:
嵩老师安排了课间休息,会是什么呢?...