Python3 XML 解析

最新推荐文章于 2026-06-19 11:28:59 发布

原创最新推荐文章于 2026-06-19 11:28:59 发布 · 323 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#开发语言

Python3 XML 解析

引言

XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。在Python中，解析XML文件是数据处理和Web开发中常见的任务。Python提供了多种库来处理XML，其中最常用的是xml.etree.ElementTree和lxml。本文将详细介绍Python3中XML解析的方法和技巧。

XML基本概念

在开始解析XML之前，了解一些基本概念是非常重要的：

元素：XML文档中的每个节点都可以称为元素，例如<book>。
属性：元素可以包含属性，例如<book id="123">。
文本内容：元素内部可以包含文本内容，例如<book>Python编程</book>。
子元素：元素可以包含子元素，例如<book><title>Python编程</title></book>。

使用ElementTree解析XML

xml.etree.ElementTree是Python标准库中的一个模块，用于解析和创建XML数据。以下是一个简单的示例：

import xml.etree.ElementTree as ET

# 加载XML文件
tree = ET.parse('example.xml')
root = tree.getroot()

# 获取所有子元素
for child in root:
    print(child.tag, child.attrib, child.text)

# 查找特定元素
for book in root.findall('.//book'):
    print(book.tag, book.attrib, book.text)

在上面的代码中，我们首先使用ET.parse()函数加载XML文件，然后获取根元素。接着，我们遍历所有子元素并打印它们的标签、属性和文本内容。最后，我们使用findall()方法查找所有<book>元素。

使用lxml解析XML

lxml是一个第三方库，提供了更强大的XML解析功能。以下是一个使用lxml的示例：

from lxml import etree

# 加载XML文件
tree = etree.parse('example.xml')

# 查找特定元素
for book in tree.xpath('//book'):
    print(book.tag, book.attrib, book.text)

# 获取元素属性
book_id = tree.xpath('//book/@id')
print(book_id)

在上面的代码中，我们使用etree.parse()函数加载XML文件，然后使用xpath()方法查找所有<book>元素。xpath()方法允许我们使用类似于XPath的语法来查找元素。

XML处理技巧

以下是一些处理XML文件时常用的技巧：

使用命名空间：在处理带有命名空间的XML文件时，可以使用ElementTree的register_namespace()方法或lxml的register_namespace()方法来注册命名空间。
处理大型XML文件：对于大型XML文件，可以使用iterparse()方法来逐步解析文件，这样可以减少内存消耗。
XML转换：可以使用xml.etree.ElementTree的write()方法将解析后的XML数据写入文件，或者使用lxml.etree的tostring()方法将XML数据转换为字符串。