用python爬虫批量下载pdf的实现
今天遇到一个任务,给一个excel文件,里面有500多个pdf文件的下载链接,需要把这些文件全部下载下来。我知道用python爬虫可以批量下载,不过之前没有接触过。今天下午找了下资料,终于成功搞定,免去了手动下载的烦恼。
由于我搭建的python版本是3.5,我学习了上面列举的参考文献2中的代码,这里的版本为2.7,有些语法已经不适用了。我修正了部分语法,如下:
#coding=UTF-8 #爬取李东风PDF文档,网址:http://www.math.pku.edu.cn/teachers/lidf/docs/textrick/index.htm importurllib.request importre importos #opentheurlandread defgetHtml(url): page=urllib.request.urlopen(url) html=page.read() page.close() returnhtml #compiletheregularexpressionsandfind #allstuffweneed defgetUrl(html): reg=r'(?:href|HREF)="?((?:http://)?.+?\.pdf)' url_re=re.compile(reg) url_lst=url_re.findall(html.decode('gb2312')) return(url_lst) defgetFile(url): file_name=url.split('/')[-1] u=urllib.request.urlopen(url) f=open(file_name,'wb') block_sz=8192 whileTrue: buffer=u.read(block_sz) ifnotbuffer: break f.write(buffer) f.close() print("Sucessfultodownload"+""+file_name) root_url='http://www.math.pku.edu.cn/teachers/lidf/docs/textrick/' raw_url='http://www.math.pku.edu.cn/teachers/lidf/docs/textrick/index.htm' html=getHtml(raw_url) url_lst=getUrl(html) os.mkdir('ldf_download') os.chdir(os.path.join(os.getcwd(),'ldf_download')) forurlinurl_lst[:]: url=root_url+url getFile(url)
上面这个例子是个很好的模板。当然,上面的还不适用于我的情况,我的做法是:先把地址写到了html文件中,然后对正则匹配部分做了些修改,我需要匹配的地址都是这样的,http://pm.zjsti.gov.cn/tempublicfiles/G176200001/G176200001.pdf。改进后的代码如下:
#coding=UTF-8 #爬取自己编写的html链接中的PDF文档,网址:file:///E:/ZjuTH/Documents/pythonCode/pythontest.html importurllib.request importre importos #opentheurlandread defgetHtml(url): page=urllib.request.urlopen(url) html=page.read() page.close() returnhtml #compiletheregularexpressionsandfind #allstuffweneed defgetUrl(html): reg=r'([A-Z]\d+)'#匹配了G176200001 url_re=re.compile(reg) url_lst=url_re.findall(html.decode('UTF-8'))#返回匹配的数组 return(url_lst) defgetFile(url): file_name=url.split('/')[-1] u=urllib.request.urlopen(url) f=open(file_name,'wb') block_sz=8192 whileTrue: buffer=u.read(block_sz) ifnotbuffer: break f.write(buffer) f.close() print("Sucessfultodownload"+""+file_name) root_url='http://pm.zjsti.gov.cn/tempublicfiles/'#下载地址中相同的部分 raw_url='file:///E:/ZjuTH/Documents/pythonCode/pythontest.html' html=getHtml(raw_url) url_lst=getUrl(html) os.mkdir('pdf_download') os.chdir(os.path.join(os.getcwd(),'pdf_download')) forurlinurl_lst[:]: url=root_url+url+'/'+url+'.pdf'#形成完整的下载地址 getFile(url)
这就轻松搞定啦。
我参考了以下资料,这对我很有帮助:
1、廖雪峰python教程
2、用Python爬虫批量下载PDF文档
3、用Python爬虫爬取贴吧图片
4、Python爬虫学习系列教程
到此这篇关于用python爬虫批量下载pdf的实现的文章就介绍到这了,更多相关python爬虫批量下载pdf内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!