hi,小慕
课程

中国大学MOOC,为你提供一流的大学教育

认证学习
为你提供认证成绩和证书,以及AI高效学习服务
查看详情
大学

国家精品

认证学习

智慧课程

理学工学农学

计算机

经济管理

外语

音乐与艺术

心理学

文史哲法

医学与保健

教育教学

大学生竞赛

软件实训

人工智能

升学/择业

考研

期末突击

专升本

四六级

保研及论文

求职就业

专四专八

大学应试英语

期末资料

终身学习

有声课堂

兴趣技能

hi,小mooc
期末不挂科
Python网络爬虫与信息提取
第3次开课
开课时间: 2018年04月17日 ~ 2018年06月30日
学时安排: 2-3小时每周
当前开课已结束 已有 44030 人参加
老师已关闭该学期,无法查看
课程详情
课程评价(17)
spContent=互联网不仅是功能集合,更是存储空间;海量数据孕育巨大价值,亟需采集本领。网络爬虫已经成为自动获取互联网数据的主要方式,数据就在那里,它是你的吗?请跟随我们,5周时间,一起来掌握利用Python爬取网络数据并提取信息的"小"本领。还等什么?快写个爬虫探索世界吧!
互联网不仅是功能集合,更是存储空间;海量数据孕育巨大价值,亟需采集本领。网络爬虫已经成为自动获取互联网数据的主要方式,数据就在那里,它是你的吗?请跟随我们,5周时间,一起来掌握利用Python爬取网络数据并提取信息的"小"本领。还等什么?快写个爬虫探索世界吧!
—— 课程团队
课程概述

快讯:本课程第3次开课,第1-2次开课共109373人选课,深受好评,此次开课将有新内容更新哦! 



    —— 为什么要学习网络爬虫?

     —— 因为数据都在网上,先要爬下来才能挖掘淘金 ...



“The website is the API.” (网页即接口)网络爬虫是获取数据的必备本领,不要犹豫!

    本课程面向具有Python编程基础的各类学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

    本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授构建网络爬虫功能的两条重要技术路线:requests-bs4-reScrapy,所讲述内容广泛应用于AmazonGooglePayPalTwitter等国际知名公司。课程内容是进入大数据处理数据挖掘、以数据为中心人工智能领域的必备实践基础。

    本课程教学内容包括


·         Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;

·         Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;

·     Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法;

·     Python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法。

·     以及...... 

    本课程希望传递理解和运用计算生态的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。"人生苦短,不要刀耕火种,嵩老师教你直面问题和需求,用最好的工具解决它!


显示全部
课程大纲

2017年上线后,课程大纲不断优化,本次开课采用Python爬虫v2.1课程大纲

Python爬虫v2.1课程大纲完整讲解网络爬虫构建的两条技术路线:requests-bs4-reScrapy,覆盖静态和动态网页的爬取、解析和信息提取,共包含10余个大小程序实例,内容丰富、循序渐进、实践性强。


网络爬虫课程内容导学

Python语言开发工具选择

---- 第一部分 网络爬虫基础3周)----

【第一周】网络爬虫之规则

单元1Requests库入门

单元2:网络爬虫的盗亦有道

单元3Requests库网络爬虫实战(5个实例)

【第二周】网络爬虫之提取

单元4Beautiful Soup库入门

单元5:信息组织与提取方法

单元6:实例1:中国大学排名爬虫

【第三周】网络爬虫之实战

单元7Re(正则表达式)库入门

单元8:实例2:淘宝商品比价定向爬虫

单元9:实例3:股票数据定向爬虫

---- 第二部分 网络爬虫高级2周)----

【第四周】网络爬虫之框架

单元10Scrapy爬虫框架

单元11Scrapy爬虫基本使用

单元12:实例4:股票数据Scrapy爬虫

【第五周】网络爬虫之动态

单元13:(此次更新的神秘内容哦)

单元14:(此次更新的神秘内容哦)

单元15:(此次更新的神秘内容哦)


---- MOOC课程考试阶段2周)----

全课程7周,最后2周为考试周,没有新的教学内容



展开全部
预备知识

本课程需要学习者具备Python语言编程的基本知识和初步技能,建议Python零基础学习者先修嵩老师的 “Python语言程序设计 ”课程(至少完成前四周学习)。


是否适合学习该课程,做个一分钟的"入学测试”吧!


这里是二维码对应的链接地址


证书要求

采取百分制,客观题和主观编程题各占50分。60-79分可获得合格证书,80分以上可获得优秀证书。测验不难,只要认真学习都能够取得好的成绩。

参考资料

Python集成开发环境(IDE)

[1] IDLE: Python解释器默认工具

[2] Visual Studio Codehttps://code.visualstudio.com/(本课程推荐)

[3] PyCharmhttps://www.jetbrains.com/pycharm/

[4] Anacondahttps://www.continuum.io/ (本课程不推荐)


参考教程

[1] Python网络爬虫专题参考教程: 课程内部资料。

[2] Python语言程序设计基础(3)》,嵩天、黄天羽、杨雅婷著,高等教育出版社,2024.9(讲授Python 3版本)


参考网站

[1] Python123学习主站https://python123.io

[2] Python Requestshttps://www.python-requests.org

[3] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup

[4] Python Scrapy: https://scrapy.org/


常见问题



Q1:除了Python,这个课程需要其他编程语言基础吗?

A1

不需要,只要具备基本的Python编程能力,就可以学习本课程。

 

Q2Python 2.xPython 3.x,这个课程采用哪个版本?

A2

Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。

 

Q3:在线开放课程只能看到视频,有问题谁来解答?

A3

编程能力是一技之长,学习过程中遇到问题很正常,为了更好地为同学们服务,本课程由教师和多名助教每天在线上答疑,在24小时内解决大家的各类问题。

 

Q4:非计算机专业学生要不要学网络爬虫呢?老师有何建议。

A4

信息满天下的时代,不会点儿爬虫技术都不好意思和别人打招呼,果断选课吧,先听听看,万一学得会了呢。

 

Q5:这个课程需要使用配套教材或工具书吗?

A5

本课程将提供视频、文本资料和程序代码等作为学习资料,同学们可以选择使用或不使用教材或工具书。由于Python网络爬虫方面相关知识内容还在逐步演进,建议先使用课程提供的资料进行学习。

 

Q6:作为Python小白,刚刚接触这门语言,适合学习这个课程吗?

A6

根据以往开课经验,如果没有Python基础,即使掌握有其他编程语言,也不建议直接学习本课程,因为课程只有5周,可能会跟不上节奏哦。建议先学习嵩老师的"Python语言程序设计"课程(https://www.icourse163.org/course/BIT-268001),至少学过前4周,就可以学习本课程了。

 

 




北京理工大学
1 位授课老师
嵩天

嵩天

教授

推荐课程

中国书法

任德山

92612人参加

哲学问题

章雪富

143122人参加

金融学(二)

李健

196109人参加

会计学原理

王德宏

89089人参加
下载
下载

下载App