因为XML是一种树形结构的文档,它有两种标准的解析API:
DOM:一次性读取XML,并在内存中表示为树形结构;
SAX:以流的形式读取XML,使用事件回调。
我们先来看如何使用DOM来读取XML。
DOM是Document Object Model的缩写,DOM模型就是把XML结构作为一个树形结构处理,从根节点开始,每个节点都可以包含任意个子节点。
我们以下面的XML为例:
<?xml version="1.0" encoding="UTF-8" ?><book id="1"> <name>Java核心技术</name> <author>Cay S. Horstmann</author> <isbn lang="CN">1234567</isbn> <tags> <tag>Java</tag> <tag>Network</tag> </tags> <pubDate/></book>
如果解析为DOM结构,它大概长这样:
┌─────────┐ │document │ └─────────┘ │ ▼ ┌─────────┐ │ book │ └─────────┘ │ ┌──────────┬──────────┼──────────┬──────────┐ ▼ ▼ ▼ ▼ ▼ ┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐ │ name ││ author ││ isbn ││ tags ││ pubDate │ └─────────┘└─────────┘└─────────┘└─────────┘└─────────┘ │ ┌────┴────┐ ▼ ▼ ┌───────┐ ┌───────┐ │ tag │ │ tag │ └───────┘ └───────┘
注意到最顶层的document代表XML文档,它是真正的“根”,而<book>
虽然是根元素,但它是document
的一个子节点。
Java提供了DOM API来解析XML,它使用下面的对象来表示XML的内容:
Document:代表整个XML文档;
Element:代表一个XML元素;
Attribute:代表一个元素的某个属性。
使用DOM API解析一个XML文档的代码如下:
InputStream input = Main.class.getResourceAsStream("/book.xml");DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();DocumentBuilder db = dbf.newDocumentBuilder();Document doc = db.parse(input);
DocumentBuilder.parse()
用于解析一个XML,它可以接收InputStream,File或者URL,如果解析无误,我们将获得一个Document对象,这个对象代表了整个XML文档的树形结构,需要遍历以便读取指定元素的值: