pythoy超级简单的一个爬虫小程序

　　首次接触爬虫，这个程序可以让初学者明白爬虫是啥，爬虫的基本逻辑。（参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚，感兴趣的选手可以去看看）

　　被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在网址后面输入显示的数字转入下一个网址，再次读取显示的数字，转入下一个网址，以此循环

　　爬虫要求

　　在爬虫的时候需要需要用到两个库，一个urllib，一个BeautifulSoup,urllib为python自带的库，beautifulsoup需要自己安装

　　pip install beautifulsoup4

　　安装成功后导入

　　import urllibfrom bs4 import BeautifulSoup

　　urllib提供了一系列用于操作URL的功能打开要爬取得网站：

　　urllib.urlopen(url)

　　beautifulsoup主要用于解析HTML，将 HTML转化成数型结构，每个节点都是Python对象。所有对象可以归纳为4种:1.Tag2.NavigableString3.BeautifulSoup4.Comment如果一个HTML为

　　 <[head])> The Dormouse's story

　　print soup.title>>>The Dormouse's story

　　print soup.title.string>>>The Dormouse's story

　　程序逻辑：读出页面上的数字，将数字加在url后面，继续读取新页面的数字，直到进入最后一个没有数字的页面，break程序如下：

　　import urllibfrom bs4 import BeautifulSoupimport re#这个库导入是为了使用正则表达式读取读取找到的内容中的数字url='http://www.heibanke.

热点

pythoy超级简单的一个爬虫小程序

由 dawei

您错过了

全站多端适配+大数据架构实战新思路

MsSql存储优化与触发器实战精讲

全流程策划：技术驱动多端适配高效开发

5G驱动数据革新：云运维赋能移动互联

pythoy超级简单的一个爬虫小程序

由 dawei

相关文章

搜索优化：漏洞修复与索引效能提升实践

网站漏洞速查与修复：提升索引效率指南

揪出SEO漏洞，3步快速修复重获排名

您错过了

全站多端适配+大数据架构实战新思路

MsSql存储优化与触发器实战精讲

全流程策划：技术驱动多端适配高效开发

5G驱动数据革新：云运维赋能移动互联