进一步了解Python中的XML 工具
模块:xmllib
xmllib是一个非验证的低级语法分析器。应用程序员使用的xmllib可以覆盖XMLParser类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法。从Python1.5x到Python2.0+以来,xmllib的使用方法并没变化;在绝大多数情况下更好的选择是使用SAX技术,它也是种面向流的技术,对语言和开发者来说更为标准。
本文中的示例与原来专栏中的相同:包括一个叫做quotations.dtd的DTD以及这个DTD的文档sample.xml(请参阅参考资料,以获取本文中提到的文件的档案)。以下的代码显示了sample.xml中每段引言的前几行,并生成了非常简单的未知标记和实体的ASCII指示符。经过分析的文本作为连续流来处理,所使用的任何累加器都由程序员负责(如标记中的字符串(#PCDATA),或所遇到的标记的列表或词典)。
清单1:try_xmllib.py
import xmllib,string classQuotationParser (xmllib.XMLParser): """Crudexmllibextractorforquotations.dtddocument""" def__init__ (self): xmllib.XMLParser.__init__(self) self.thisquote='' #quotationaccumulator defhandle_data (self,data): self.thisquote=self.thisquote+data defsyntax_error (self,message): pass defstart_quotations (self,attrs): #topleveltag print '---BeginDocument---' defstart_quotation (self,attrs): print 'QUOTATION:' defend_quotation (self): print string.join(string.split(self.thisquote[:230]))+'...', print '('+str(len(self.thisquote))+'bytes)\n' self.thisquote='' defunknown_starttag (self,tag,attrs): self.thisquote=self.thisquote+'{' defunknown_endtag (self,tag): self.thisquote=self.thisquote+'}' defunknown_charref (self,ref): self.thisquote=self.thisquote+'?' defunknown_entityref (self,ref): self.thisquote=self.thisquote+'#' if __name__=='__main__': parser=QuotationParser() for c in open("sample.xml").read(): parser.feed(c) parser.close()
验证
您可能需要展望标准XML支持的未来的原因是,在进行语法分析的同时需要进行验证。不幸的是,标准Python2.0XML包并不包括验证型语法分析器。
xmlproc是python原有的语法分析器,它执行几乎完整的验证。如果需要验证型语法分析器,xmlproc是Python当前唯一的选择。而且,xmlproc提供其它语法分析器所不具备的各种高级和测试接口。
选择一种语法分析器
如果决定使用XML的简单API(SAX)--它应该用于复杂的事物,因为其它大部分工具都是在它的基础上建立的--将为您完成许多语法分析器的分类工作。xml.sax模块包含一个自动选择“最佳”语法分析器的设施。在标准Python2.0安装中,唯一能选择的语法分析器是expat,它是种C语言编写的快速扩展。然而,也可以在$PYTHONLIB/xml/parsers下安装另一个语法分析器,以备选择。设置语法分析器很简单:
清单2:Python选择最佳语法分析器的语句
import xml.sax parser=xml.sax.make_parser()
您还可以通过传递参数来选择特定的语法分析器;但考虑到可移植性--也为了对今后更好的语法分析器的向上兼容性--最佳方法是使用make_parser()来完成工作。
您可以直接导入xml.parsers.expat。如果这样做,您就能获得SAX界面并不提供的一些特殊技巧。这样,xml.parsers.expat与SAX相比有些“低级”。但SAX技术非常标准,对面向流的处理也非常好;大多数情况下SAX的级别正合适。通常情况下,由于make_parser()函数已经能获得expat提供的性能,因此纯速度的差异很小。
什么是SAX
考虑到背景因素,回答什么是SAX的较好答案是:
SAX(XML的简单API)是XML语法分析器的公用语法分析器接口。它允许应用程序作者编写使用XML语法分析器的应用程序,但是它却独立于所使用的语法分析器。(将它看作XML的JDBC。)(LarsMariusGarshol,SAXforPython)
SAX--如同它提供的语法分析器模块的API--基本上是一个XML文档的顺序处理器。使用它的方法与xmllib示例极其相似,但更加抽象。应用程序员将定义一个handler类,而不是语法分析器类,该handler类能注册到任何所使用的语法分析器中。必须定义4个SAX接口(每个接口都有几个方法):DocumentHandler、DTDHandler、EntityResolver和ErrorHandler。创建语法分析器除非被覆盖,否则它还连接默认接口。这些代码执行与xmllib示例相同的任务:
清单3:try_sax.py
"SimpleSAXexample,updatedforPython2.0+" import string import xml.sax from xml.sax.handler import * classQuotationHandler (ContentHandler): """Crudeextractorforquotations.dtdcompliantXMLdocument""" def__init__ (self): self.in_quote=0 self.thisquote='' defstartDocument (self): print '---BeginDocument---' defstartElement (self,name,attrs): if name=='quotation': print 'QUOTATION:' self.in_quote=1 else: self.thisquote=self.thisquote+'{' defendElement (self,name): if name=='quotation': print string.join(string.split(self.thisquote[:230]))+'...', print '('+str(len(self.thisquote))+'bytes)\n' self.thisquote='' self.in_quote=0 else: self.thisquote=self.thisquote+'}' defcharacters (self,ch): if self.in_quote: self.thisquote=self.thisquote+ch if __name__=='__main__': parser=xml.sax.make_parser() handler=QuotationHandler() parser.setContentHandler(handler) parser.parse("sample.xml")
与xmllib相比,上述示例中要注意两件小事:.parse()方法处理整个流或字符串,所以不必为语法分析器创建循环;.parse()同样能灵活地接收一个文件名、一个文件对象,或是众多的类文件对象(一些具有.read()方式)。
包:DOM
DOM是一种XML文档的高级树型表示。该模型并非只针对Python,而是一种普通XML模型(请参阅参考资料以获取进一步信息)。Python的DOM包是基于SAX构建的,并且包括在Python2.0的标准XML支持里。由于篇幅所限,没有将代码示例加到本文中,但在XML-SIG的"Python/XMLHOWTO"中给出了一个极好的总体描述:
文档对象模型为XML文档指定了树型表示。顶级文档实例是树的根,它只有一个子代,即顶级元素实例;这个元素有表示内容和子元素的子节点,他们也可以有子代,以此类推。定义的函数允许随意遍历结果树,访问元素和属性值,插入和删除节点,以及将树转换回XML。
DOM可以用于修改XML文档,因为可以创建一棵DOM树,通过添加新节点和来回移动子树来修改这棵树,然后生成一个新的XML文档作为输出。您也可以自己构造一棵DOM树,然后将它转换成XML;用这种方法生成XML输出比仅将<tag1>...</tag1>写入文件的方法更灵活。
使用xml.dom模块的语法与早期的文章相比有了一些变动。Python2.0中自带的DOM实现被称为xml.dom.minidom,并提供轻量级和小型版本的DOM。显然,完整的XML-SIG的DOM中有些试验性的特性并未被放入xml.dom.minidom中,但大家并不会注意到这一点。
生成DOM对象很简单;只需:
清单4:在XML文件中创建PythonDOM对象
from xml.dom.minidom import parse,parseString dom1=parse('mydata.xml') #parseanXMLfilebyname
使用DOM对象是种非常直接的OOP模式的工作。然而,经常在无法立刻简单区分的层级(除了循环列举)中碰到许多类似清单的属性。例如,以下是一段普通的DOMPython代码片断:
清单5:通过PythonDOM节点对象的迭代
for node in dom_node.childNodes: if node.nodeName=='#text': #PCDATAisakindofnode, PCDATA=node.nodeValue #butnotanewsubtag elif node.nodeName=='spam': spam_node_list.append(node) #Createlistof<spam>nodes
Python标准说明文档中有一些更详细的DOM示例。我的早期文章中有关使用DOM对象的示例(请参阅参考资料)指出的方向仍然是正确的,但是文章发布后至今,一些方法和属性名称以更改,因此请查阅一下Python的说明文档。
模块:pyxie
pyxie模块是在Python标准XML支持之上构建的,它为XML文档提供了附加的高级接口。pyxie将完成两项基本操作:它将XML文档转换成一种更易于进行语法分析的基于行的格式;并且它提供了将XML文档当作可操作树处理的方法。pyxie所使用的基于行的PYX格式是不受语言限制的,其工具适用于几种语言。总之,文档的PYX表示与其XML表示相比,更易于使用常见的基于行的文本处理工具进行处理,如grep、sed、awk、bash、perl,或标准python模块,如string和re。根据结果,从XML转换到PYX可能节省许多工作。
pyxie将XML文档当作树处理的概念与DOM中的思路相似。由于DOM标准得到许多编程语言的广泛支持,那么如果XML文档的树型表示是必需的,大多数程序员会使用DOM标准而非pyxie。
更多模块:xml_pickle和xml_objectify
我自行开发了处理XML的高级模块,称为xml_pickle和xml_objectify。我还在其它地方写过许多类似模块(请参阅参考资料),在此不必做过多的介绍。当你“用Python思考”而不是“用XML思考”时,这些模块非常有用。特别是xml_objectify自身对程序员隐藏了几乎所有的XML线索,使您在程序中充分使用Python“原始”对象。实际的XML数据格式几乎被抽象得不可见。同样,xml_pickle使Python程序员以“原始”Python对象开始,该对象的数据可以来源于任何源代码,然后把它们(连续地)放入其他用户以后可能需要的XML格式。