scapy递归爬

vergilwang

浏览: 125042 次
性别:
来自: 北京

最近访客更多访客>>

iris19860111

u_lama

KEYS123456789

2644781824

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Crawler
Python

前面介绍了Scrapy如何实现一个最简单的爬虫，但是这个Demo里只是对一个页面进行了抓取。在实际应用中，爬虫一个重要功能是”发现新页面”，然后递归的让爬取操作进行下去。

发现新页面的方法很简单，我们首先定义一个爬虫的入口URL地址，比如《Scrapy入门教程》中的start_urls，爬虫首先将这个页面的内容抓取之后，解析其内容，将所有的链接地址提取出来。这个提取的过程是很简单的，通过一个html解析库，将这样的节点内容提取出来，href参数的值就是一个新页面的URL。获取这个URL值之后，将其加入到任务队列中，爬虫不断的从队列中取URL即可。这样，只需要为爬虫定义一个入口的URL，那么爬虫就能够自动的爬取到指定网站的绝大多数页面。

当然，在具体的实现中，我们还需要对提取的URL做进一步处理:

1. 判断URL指向网站的域名，如果指向的是外部网站，那么可以将其丢弃
2. URL去重，可以将所有爬取过的URL存入数据库中，然后查询新提取的URL在数据库中是否存在，如果存在的话，当然就无需再去爬取了。

下面介绍一下如何在Scrapy中完成上述这样的功能。

我们只需要改写spider的那个py文件即可，修改parse()方法代码如下：

from scrapy.selector import HtmlXPathSelector

def parse(self, response):
	hxs = HtmlXPathSelector(response)
	items = []

	newurls = hxs.select('//a/@href').extract()
	validurls = []
        for url in newurls:
                #判断URL是否合法
                if true: 
                        validurls.append(url)

        items.extend([self.make_requests_from_url(url).replace(callback=self.parse) for url in validurls])

        sites = hxs.select('//ul/li')
        items = []
        for site in sites:
                item = DmozItem()
                item['title'] = site.select('a/text()').extract()
                item['link'] = site.select('a/@href').extract()
                item['desc'] = site.select('text()').extract()
                items.append(item)

        return items

原创文章,转载请注明：转载自CodeLogic[http://www.icodelogic.com]
本文链接地址:http://www.icodelogic.com/?p=459

tags:Python、Scrapy、爬虫

分享到：

scapy安装and简介 | Scrapy入门教程

2012-07-20 16:17
浏览 346
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

scapy递归爬

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

scapy递归爬

评论

发表评论

相关推荐

python编码问题总结

python补全插件

python类型转换

python正则

python匹配中文

python读写

python路径文件api

pythonGB2312乱码问题

python文件读写2

python debug【】

python crawler(1)

python crawler(2)

python spider code

python 爬虫抓站

scapy安装and简介

pydev eclipse插件安装

python list

List Tuple Dictionary 区别

抓取网页并解析HTML

python IO

最近访客更多访客>>