Python利用命名空间解析XML文档

站长资源 2024/10/5 佚名

2 0 1

黑松山资源网 Design By www.paidiu.com

问题

你想解析某个XML文档，文档中使用了XML命名空间。

解决方案

考虑下面这个使用了命名空间的文档：

<"1.0" encoding="utf-8"?>
<top>
  <author>David Beazley</author>
  <content>
    <html xmlns="http://www.w3.org/1999/xhtml">
      <head>
        <title>Hello World</title>
      </head>
      <body>
        <h1>Hello World!</h1>
      </body>
    </html>
  </content>
</top>

如果你解析这个文档并执行普通的查询，你会发现这个并不是那么容易，因为所有步骤都变得相当的繁琐。

> # Some queries that work
> doc.findtext('author')
'David Beazley'
> doc.find('content')
<Element 'content' at 0x100776ec0>
> # A query involving a namespace (doesn't work)
> doc.find('content/html')
> # Works if fully qualified
> doc.find('content/{http://www.w3.org/1999/xhtml}html')
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0>
> # Doesn't work
> doc.findtext('content/{http://www.w3.org/1999/xhtml}html/head/title')
> # Fully qualified
> doc.findtext('content/{http://www.w3.org/1999/xhtml}html/'
... '{http://www.w3.org/1999/xhtml}head/{http://www.w3.org/1999/xhtml}title')
'Hello World'
>

你可以通过将命名空间处理逻辑包装为一个工具类来简化这个过程：

class XMLNamespaces:
  def __init__(self, **kwargs):
    self.namespaces = {}
    for name, uri in kwargs.items():
      self.register(name, uri)
  def register(self, name, uri):
    self.namespaces[name] = '{'+uri+'}'
  def __call__(self, path):
    return path.format_map(self.namespaces)

通过下面的方式使用这个类：

> ns = XMLNamespaces(html='http://www.w3.org/1999/xhtml')
> doc.find(ns('content/{html}html'))
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0>
> doc.findtext(ns('content/{html}html/{html}head/{html}title'))
'Hello World'
>

讨论

解析含有命名空间的XML文档会比较繁琐。上面的 XMLNamespaces 仅仅是允许你使用缩略名代替完整的URI将其变得稍微简洁一点。

很不幸的是，在基本的 ElementTree 解析中没有任何途径获取命名空间的信息。但是，如果你使用 iterparse() 函数的话就可以获取更多关于命名空间处理范围的信息。例如：

> from xml.etree.ElementTree import iterparse
> for evt, elem in iterparse('ns2.xml', ('end', 'start-ns', 'end-ns')):
... print(evt, elem)
...
end <Element 'author' at 0x10110de10>
start-ns ('', 'http://www.w3.org/1999/xhtml')
end <Element '{http://www.w3.org/1999/xhtml}title' at 0x1011131b0>
end <Element '{http://www.w3.org/1999/xhtml}head' at 0x1011130a8>
end <Element '{http://www.w3.org/1999/xhtml}h1' at 0x101113310>
end <Element '{http://www.w3.org/1999/xhtml}body' at 0x101113260>
end <Element '{http://www.w3.org/1999/xhtml}html' at 0x10110df70>
end-ns None
end <Element 'content' at 0x10110de68>
end <Element 'top' at 0x10110dd60>
> elem # This is the topmost element
<Element 'top' at 0x10110dd60>
>

最后一点，如果你要处理的XML文本除了要使用到其他高级XML特性外，还要使用到命名空间，建议你最好是使用 lxml 函数库来代替 ElementTree 。例如，lxml 对利用DTD验证文档、更好的XPath支持和一些其他高级XML特性等都提供了更好的支持。这一小节其实只是教你如何让XML解析稍微简单一点。

以上就是Python利用命名空间解析XML文档的详细内容，更多关于Python命名空间解析XML文档的资料请关注其它相关文章！

Python,命名空间,Python,解析XML

黑松山资源网 Design By www.paidiu.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

黑松山资源网 Design By www.paidiu.com

评论“Python利用命名空间解析XML文档”

暂无评论...

www.paidiu.com 黑松山资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

何洛洛.2024-别叫醒我（EP）【光羽】【FLAC分

2024/10/5

林忆莲.1996-爱莲说2CD【华纳】【WAV+CUE】

2024/10/5

黄妃.2005-红【亚律】【WAV+CUE】

2024/10/5

刘美麟《同生》[FLAC/分轨][161.95MB]

2024/10/5

群星《前途海量电影原声专辑》[320K/MP3][

2024/10/5

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/10/5

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python利用命名空间解析XML文档

Python获取excel内容及相关操作代码实例

Python如何定义有默认参数的函数

评论“Python利用命名空间解析XML文档”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python利用命名空间解析XML文档

Python获取excel内容及相关操作代码实例

Python如何定义有默认参数的函数

评论“Python利用命名空间解析XML文档”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存