好资源导航 » 文章资讯 » Python打印scrapy蜘蛛抓取树结构的方法

Python打印scrapy蜘蛛抓取树结构的方法

2024-04-02 10:38:04 209

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/envpython
importfileinput,re
fromcollectionsimportdefaultdict
defprint_urls(allurls,referer,indent=0):
urls=allurls[referer]
forurlinurls:
print''*indent+referer
ifurlinallurls:
print_urls(allurls,url,indent+2)
defmain():
log_re=re.compile(r'<GET(.*?)>\(referer:(.*?)\)')
allurls=defaultdict(list)
forlinfileinput.input():
m=log_re.search(l)
ifm:
url,ref=m.groups()
allurls[ref]+=[url]
print_urls(allurls,'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

返回顶部
3162201930
czq8825@qq.com

Python打印scrapy蜘蛛抓取树结构的方法

热门推荐

随机推荐