Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下
首先需要执行命令pipinstallpdfminer3k来安装处理PDF文件的扩展库。
importos importsys importtime pdfs=(pdfsforpdfsinos.listdir('.')ifpdfs.endswith('.pdf')) forpdf1inpdfs: pdf=pdf1.replace('','_').replace('-','_').replace('&','_') os.rename(pdf1,pdf) print('='*30) print(pdf) txt=pdf[:-4]+'.txt' exe='"'+sys.executable+'""' pdf2txt=os.path.dirname(sys.executable) pdf2txt=pdf2txt+'\\scripts\\pdf2txt.py"-o' try: #调用命令行工具pdf2txt.py进行转换 #如果pdf加密过可以改写下面的代码 #在-o前面使用-P来指定密码 cmd=exe+pdf2txt+txt+''+pdf os.popen(cmd) #转换需要一定时间,一般小文件2秒钟足够了 time.sleep(2) #输出转换后的文本,前200个字符 withopen(txt,encoding='utf8')asfp: print(fp.read(200)) except: pass
来源:python小屋
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。