文档章节

大话XML解析

sdksdk0
 sdksdk0
发布于 2016/06/14 13:14
字数 3245
阅读 3
收藏 0
点赞 0
评论 0

之前我写过一篇关于xml解析的文章:http://blog.csdn.net/sdksdk0/article/details/50749326。今天这篇文章主要是进一步加深对xml基础的理解了使用,毕竟基础是很重要的嘛!写的应该会更注重细节的内容。主要内容有xml语法、DOM解析、SAX解析、Xpath,schema约束。


一、xml语法

标签

  1. 有开始标签和结束标签
  2. xml标签名称区分大小写
  3. xml标签一定要正确配对
  4. 中间不能使用空格
  5. 不能以数字开头,可以以下划线或字母开头
  6. 在一个xml文档中,有且仅有一个根标签

属性

  1. 属性值一定要以引号包含,也不能单双引号混用 name="erim"
  2. 一个标签内可以多个属性,但是属性名不能重复,例如不能有两个 id="1" id="2"

注释

<!--xml的注释  -->

文档申明

如果在ide中开发,保存xml文件时会自动按照文档申明的encoding来保存。

 <?xml version="1.0" encoding="utf-8"?>

转义字符

<   &lt;
>   &gt;
"   &quot;
&   &amp;
空格 &nbsp;

写法:&lt;p&gt;段落&lt;/p&gt;

CDATA块

作用,可以让一些需要包含特殊字符的内容,统一进行原样输出。

<![CDATA[
        <html><head>head</head><body>body</body></html>
    ]]>

处理指令

作用:告诉xml解析器如何解析xml内容

<?xml-stylesheet type="text/css"  href="1.css" ?>

完整例子:

<?xml version="1.0" encoding="utf-8"?>
 <codes>
	 <code>
		<p>段落</p>
		<p>段落</p>
	</code>
	<code>
	<![CDATA[
		<html><head>head</head><body>body</body></html>
	]]>
	</code>
</codes>


二、xml解析的方式

有DOM解析和SAX解析方式。

Dom解析常用工具有:

  1. JAXP (oracle官方)
  2. JDOM
  3. DOM4J(常用)
SAX解析常用工具有: Sax解析工具(oracle官方)
xml解析和sax解析的对比:(面试常考)


三、DOM解析

原理

xml解析器一次性把整个xml文档加载进内存,然后再内存中构建一棵Document的对象树,通过Document对象,得到树的节点对象,通过节点对象访问到xml文档的内容。不适合读取大容量的文件,容易导致内存溢出。

DOM4J工具

需要导包。

1、创建一个xml解析器对象

        SAXReader reader=new SAXReader();

2、读取xml文档,返回Document对象

        Document doc=reader.read(new File("./src/contact.xml"));

示例代码:

public static void main(String[] args) {
		
		try {
			//1、创建一个xml解析器对象
			SAXReader reader=new SAXReader();
			//2、读取xml文档,返回Document对象
			Document doc=reader.read(new File("./src/contact.xml"));
			System.out.println(doc);
		
		} catch (DocumentException e) {
			e.printStackTrace();
			throw new RuntimeException(e);
		}
	}

Dom4j读取xml文件

节点:

Iterator  Element.nodeIterator();  //获取当前标签节点下的所有子节点

示例代码:

//用nodeIterator(),得到当前节点下的所有子节点对象
			Iterator<Node> it=doc.nodeIterator();
			while(it.hasNext()){
				Node node=it.next();
				String name=node.getName();
				System.out.println(name);
				
				//继续取出其下面的子节点
				//只有标签节点才有子节点
				if(node instanceof Element){
					Element elem=(Element) node;
					Iterator<Node> it2=elem.nodeIterator();
					while(it2.hasNext()){
						Node n2=it2.next();
						System.out.println(n2.getName());
					}
				}
			}


标签:

 Element  Document.getRootElement();  //获取xml文档的根标签 
Element Element.element("标签名");//指定名称的第一个子标签
Iterator<Element> iterator = list.iterator();

示例代码:

public void test3() throws DocumentException {
		SAXReader reader=new SAXReader();
		Document doc=reader.read(new File("./src/contact.xml"));
		
		Element rootElem=doc.getRootElement();
		String name=rootElem.getName();
		
		System.out.println(name);
		//得到当前标签下指定名称的第一个子标签
		//Element contactElem=rootElem.element("contact");
		//System.out.println(contactElem.getName());
		
		//得到当前标签下指定名称的所有子标签
		Iterator<Element> it=rootElem.elementIterator("contact");
		while(it.hasNext()){
			Element elem=it.next();
			System.out.println(elem.getName());
		}
		List<Element> list=rootElem.elements();
		//遍历List的方法:普通for,增强for,迭代器
		for(int i=0;i<list.size();i++){
			Element e=list.get(i);
			System.out.println(e.getName());
		}
		Iterator<Element> iterator = list.iterator();
		while(it.hasNext()){
			Element elem=it.next();
			System.out.println(elem.getName());
		}
		
		//想要获取更深层次的标签,只能一层层的读取
		Element nameElem=doc.getRootElement().element("contact").element("name");
		System.out.println(nameElem.getName());
		
	}

属性:

 String   Element.attributeValue("属性名") //获取指定名称的属性值
                 Attribute:    Element.attribute("属性名");//获取指定名称的属性对象    
                              Attribute.getName()  //获取属性名称
                              Attibute.getValue()  //获取属性值
                List<Attribute>  Element.attributes();  //获取所有属性对象          
                Iterator<Attribute>     Element.attibuteIterator(); //获取所有属性对象

示例代码:

//获取属性,先获取属性所在的标签对象,然后才能获取属性
		Element contactElem=doc.getRootElement().element("contact");
		String idValue=contactElem.attributeValue("id");
		System.out.println(idValue);
		
		//得到属性对象
		Attribute idAttr=contactElem.attribute("id");
		System.out.println(idAttr.getName()+"="+idAttr.getValue());
		
		
		//得到所有属性的对象,使用List
		List<Attribute> list=contactElem.attributes();
		for (Attribute attribute : list) {
			System.out.println(attribute.getName()+"="+attribute.getValue());
		}
		//使用迭代器
		Iterator<Attribute>  it=contactElem.attributeIterator();
		while(it.hasNext()){
			Attribute attr=it.next();
			System.out.println(attr.getName()+"="+attr.getValue());
		}

文本:

Element.getText();  //获取当前标签的文本
                        Element.elementText("标签名") //获取当前标签的指定名称的子标签的文本内容

示例代码:

public void test5() throws DocumentException{
		SAXReader reader=new SAXReader();
		Document doc=reader.read(new File("./src/contact.xml"));
		
		//空格和换行也是有内容的
		
		//获取文本,要先获取标签,再获取标签上的文本
		Element nameElem=doc.getRootElement().element("contact").element("name");
		
		String text=nameElem.getText();
		System.out.println(text);
		
		String text2=doc.getRootElement().element("contact").elementText("name");
		System.out.println(text2);
		
	}


Dom4j修改xml文档

写出内容到xml文档

new XMLWriter(OutputStream,OutputFormat)

writer(Document)

<pre name="code" class="java">                     Document doc=new SAXReader().read(new File(".src/contact.xml"));
		
		              //指定文件输出位置
				FileOutputStream out=new FileOutputStream("D:/contact.xml");
				//创建写出对象
				//紧凑的
				OutputFormat  format=OutputFormat.createCompactFormat();
				OutputFormat  format1=OutputFormat.createPrettyPrint();
				
				//影响了xml文档保存时的编码和xml文档申明的编码,使用该方法生成的xml避免了乱码问题
				format.setEncoding("utf-8");
				
				XMLWriter writer=new XMLWriter(out,format);
				
				writer.write(doc);
				writer.close();

修改xml文档的API

增加:

DocumentHelper.createDocument()
addElement("contact");

addAttribute("id", "001");

//增加一个标签
		Element rootElem=doc.addElement("contactList");
		Element contactElem=rootElem.addElement("contact");
		contactElem.addElement("name");
		
		//增加属性
		contactElem.addAttribute("id", "001");
		contactElem.addAttribute("name", "aa");


修改: setValue(),setText()

Element contactElem=doc.getRootElement().element("contact");
		
		//得到属性对象
		Attribute idAttr=contactElem.attribute("id");
		//修改属性值
		idAttr.setValue("003");
		
		Element contactElem1=doc.getRootElement().element("contact");
		contactElem1.addAttribute("id", "004");
		
		//修改文本
		Element nameElem=doc.getRootElement().element("contact").element("name");
		nameElem.setText("锤子");

删除: deatch()

//删除标签对象
		/*Element ageElem=doc.getRootElement().
				element("contact").element("age");
		ageElem.detach();*/
		//ageElem.getParent().remove(ageElem);
		
		//删除属性
		Element contactElem=(Element) doc.getRootElement().elements().get(0);
		
		Attribute idAttr=contactElem.attribute("id");
		idAttr.detach();

四、XPATH
  

当使用dom4j查询比较深的层次的时候非常麻烦。可以快速查找信息。 主要用于快速获取节点对象。

XPath使用一个紧凑的、非XML语法方便使用在uri和XML属性值的XPath。XPath操作基于XML文档的逻辑结构,而不是其表面的语法。Xpath的名字来自其使用的符号在URL路径通过一个XML文档的层次结构导航。 除了用于定位,XPath还设计有一个真子集,可用于匹配(测试一个节点是否符合一个模式);使用XPath进行XSLT。

XPath模型的XML文档的节点树。有不同类型的节点,包括元素节点、属性节点和文本节点。XPath定义了一个方法来计算每个节点类型字符串值。某些类型的节点也有名字。XPath完全支持XML命名空间的XML名称] [。因此,一个节点的名称被建模为一个地方的部分和一个可能的空命名空间URI;这就是所谓的扩展名。在[ 5数据模型]中详细描述了数据模型。

  1. 导包:jaxen-1.1-beta.jar
  2. 使用xpath的方法:

    List selectNodes();//查询多个节点对象 Node selectSingleNode("xpath表达式");//查询一个节点对象

xpath的语法

  1. / ,绝对路径 ,表示从xml的跟位置开始或者子元素(一个层次结构)
  2. // ,相对路径,表示不分任何层次结构的选择元素
  3. *,通配符,表示匹配所有元素
  4. [],条件,表示选择什么条件下的元素
  5. @,属性,表示选择属性节点
  6. and ,关系,表示条件的与关系(等价于&)
  7. text(),文本,表示选择文本内容

示例代码:
public static void main(String[] args) throws DocumentException {
		Document doc = new SAXReader().read(new File("./src/contact.xml"));

		String xpath = "";
		xpath="/contactList";
		xpath="/contactList/contact";
		xpath="//contact/name";
		xpath="//name";
		
		//通配符
		xpath="/contactList/*";
		xpath="/contactList//*";
		
		//条件
		xpath="//contact[@id]";
		//第二个contact标签
		xpath="//contact[2]";
		xpath="//contact[last()]";
		
		//属性
		xpath="//@id";  //选取的是id属性节点对象,返回Attribute对象
		xpath="//contact[not(@id)]";
		//选取id属性为002d contact标签
		xpath="//contact[@id='002']";
		xpath="//contact[@id='001' and @name='aa']";
		
		//选取文本内容
		xpath="//name/text()";  //返回Text对象
		xpath="//contact/name[text()='张三']";
		
		
		List<Node> list = doc.selectNodes(xpath);
		for (Node node : list) {
			System.out.println(node);
		}

	}
五、SAX解析

原理

读取加载处理都是一部分一部分的进行的,对内存要求比较低。

AX解析允许在读取文档的时候,即对文档进行处理,而不必等到整个文档装载完才会文档进行操作。

SAX采用事件处理的方式解析XML文件,利用 SAX 解析 XML 文档,涉及两个部分:解析器和事件处理器: 解析器可以使用JAXP的API创建,创建出SAX解析器后,就可以指定解析器去解析某个XML文档。 解析器采用SAX方式在解析某个XML文档时,它只要解析到XML文档的一个组成部分,都会去调用事件处理器的一个方法,解析器在调用事件处理器的方法时,会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。 事件处理器由程序员编写,程序员通过事件处理器中方法的参数,就可以很轻松地得到sax解析器解析到的数据,从而可以决定如何对数据进行处理


核心API

  1. SAXParser:用于读取和解析xml文件
  2. parse()方法,用于解析xml文件。parse(File f,DefaultHandler dh)方法,解析xml文件。

  3. 参数1:File:表示读取xml文件

  4. 参数2:DefaultHandloer:SAX事件处理程序

void startDocument()  :  在读到文档开始时调用
                    void endDocument()  :在读到文档结束时调用
                    void startElement(String uri, String localName, String qName, Attributes attributes)  :读到开始标签时调用                
                    void endElement(String uri, String localName, String qName)   :读到结束标签时调用
                    void characters(char[] ch, int start, int length)  : 读到文本内容时调用

示例代码:

</pre><pre name="code" class="java">public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
		SAXParser parser=SAXParserFactory.newInstance().newSAXParser();

		MyDefalutHandler3  handler=new MyDefalutHandler3();
		parser.parse(new File("./src/contact.xml"), handler);

		List<Contact>  list=handler.getList();
		for (Contact contact : list) {
			System.out.println(contact);
		}
		
	}
public class MyDefalutHandler3 extends DefaultHandler {

	private List<Contact> list = new ArrayList<Contact>();

	public List<Contact> getList() {
		return list;
	}

	private Contact contact;
	private String curTag;
	// 开始标签
	@Override
	public void startElement(String uri, String localName, String qName,
			Attributes attributes) throws SAXException {
		curTag=qName;
		// 读取到contact的开始标签创建Contact对象
		if ("contact".equals(qName)) {
			contact = new Contact();

			// 设置id值
			contact.setId(attributes.getValue("id"));
		
		}
	}

	// 文本内容
	@Override
		public void characters(char[] ch, int start, int length) throws SAXException {
			//当前文本内容
			String content=new String(ch,start,length);
			
			if("name".equals(curTag)){
				contact.setName(content);
			}
			if("age".equals(curTag)){
				contact.setAge(content);
			}
			if("phone".equals(curTag)){
				contact.setPhone(content);
			}
			if("email".equals(curTag)){
				contact.setEmail(content);
			}
			if("qq".equals(curTag)){
				contact.setQq(content);
			}
		}

	// 结束标签
	@Override
	public void endElement(String uri, String localName, String qName)
			throws SAXException {
		// 读到contact的结束标签则放入list中
		curTag=null;
		if ("contact".equals(qName)) {
			list.add(contact);
		}
	}

}

六、schema约束

XML Schema 也是一种用于定义和描述 XML 文档结构与内容的模式语言,其出现是为了克服 DTD 的局限性

XML Schema 文件自身就是一个XML文件,但它的扩展名通常为.xsd。支持名称空间。 一个XML Schema文档通常称之为模式文档(约束文档),遵循这个文档书写的xml文件称之为实例文档。

和XML文件一样,一个XML Schema文档也必须有一个根结点,但这个根结点的名称为schema。

编写了一个XML Schema约束文档后,通常需要把这个文件中声明的元素绑定到一个URI地址上,在XML Schema技术中有一个专业术语来描述这个过程,即把XML Schema文档声明的元素绑定到一个名称空间上,以后XML文件就可以通过这个URI(即名称空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束。

学习目标:不需要我们编写xsd 重点:根据xsd编写出xml文档。 难点:在xml中引入xsd约束

基本操作步骤:

a、根据xsd文件,找到根元素

<?xml version="1.0" encoding="UTF-8"?>
<书架>

</书架>

b、根元素来在哪个名称空间 使用xmlns关键字来声明名称空间。

<?xml version="1.0" encoding="UTF-8"?>
<tf:书架 xmlns:tf="http://www.tianfang1314.cn">

</tf:书架>

c、名称空间和哪个xsd文件对应

<?xml version="1.0" encoding="UTF-8"?>
<tf:书架 xmlns:tf="http://www.tianfang1314.cn"
    schemaLocation="http://www.tianfang1314.cn book.xsd">

</tf:书架>

d、schemaLocation来自一个标准的名称空间:固定写法

<?xml version="1.0" encoding="UTF-8"?>
<tf:书架 xmlns:tf="http://www.tianfang1314.cn"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.tianfang1314.cn book.xsd">

</tf:书架>


总结:
XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。xml是一种重要的知识点,需要多练习才能进一步的掌握。其实这些东西说难不难,说易烨不易,主要是很多细节上面的东西,希望可以多查看帮助文档来进一步了解,常用的几种格式要掌握,如果想要进进一步加强理解可以查看: http://blog.csdn.net/sdksdk0/article/details/50749326

源码地址:


© 著作权归作者所有

共有 人打赏支持
sdksdk0
粉丝 1
博文 105
码字总数 73456
作品 0
衡阳
程序员
大话爬虫的基本套路

   什么是爬虫? 也叫,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析d...

SFLYQ ⋅ 2017/10/09 ⋅ 0

Java程序员从笨鸟到菜鸟全部博客目录【2012年十一月七日更新】

本文来自:曹胜欢博客专栏。转载请注明出处:http://blog.csdn.net/csh624366188 大学上了一年半,接触java也一年半了,虽然中间也有其他东西的学习,但是还是以java为主路线,想想这一年半,...

长平狐 ⋅ 2012/11/12 ⋅ 0

Java程序员从笨鸟到菜鸟全部博客目录【2012年十一月七日更新】

本文来自:曹胜欢博客专栏。转载请注明出处:http://blog.csdn.net/csh624366188 大学上了一年半,接触java也一年半了,虽然中间也有其他东西的学习,但是还是以java为主路线,想想这一年半,...

长平狐 ⋅ 2012/11/12 ⋅ 0

《Java程序员由笨鸟到菜鸟》电子版书正式发布,欢迎大家下载

在众多朋友的支持和鼓励下,《Java程序员由菜鸟到笨鸟》电子版终于和大家见面了。本电子书涵盖了从java基础到javaweb开放框架的大部分内容。在编写的过程中,难免会出现一些错误,希望大家能...

长平狐 ⋅ 2012/11/12 ⋅ 0

《Java程序员由笨鸟到菜鸟》电子版书正式发布,欢迎大家下载

在众多朋友的支持和鼓励下,《Java程序员由菜鸟到笨鸟》电子版终于和大家见面了。本电子书涵盖了从java基础到javaweb开放框架的大部分内容。在编写的过程中,难免会出现一些错误,希望大家能...

长平狐 ⋅ 2012/11/12 ⋅ 0

大话西游三影评 - 喜剧注定消解不了悲剧

刘镇伟导演拍大话西游的在当时电影上映的时候,票房少的可怜.没有想到,在盗版发达的年代,这部电影居然也成为了经典. 刘镇伟是大话西游的导演,东成西就的导演,大话西游1/2/3的编剧. 所以,刘导是...

无与童比 ⋅ 2016/09/16 ⋅ 0

美国前特工说个人电脑反监控很难

今天腾讯的新闻:http://news.qq.com/a/20131211/001287.htm (视频这么快就删了,才几个小时)视频标题:"美前特工称监听技术很简单" 百度也可以搜到http://v.qq.com/page/p/3/u/p0013vkjo3u....

Foou ⋅ 2013/12/11 ⋅ 13

【预告】《大话计算机》内容你点我贴

在《大话计算机》助推国产半导体浴火重生!一贴中,冬瓜哥贴出了《大话计算机》一书全书目录和一些截图。很多网友大呼不过瘾。还有一些网友提出了质疑,1300页覆盖如此全面的内容,几乎是计算...

tv8mbno2y2rfu ⋅ 04/22 ⋅ 0

java 之 命令模式(大话设计模式)

命令模式,笔者一直以为当我们开发的过程中基本上很难用到,直到维护阶段或者重构阶段,我们会发现有些撤销命令和追加命令比较频繁时,自然而然就用到命令模式。 先看下类图 大话设计模式-类...

红尾巴的猪 ⋅ 2017/12/19 ⋅ 0

大叔推荐博客索引

以下是我的所有推荐文章,其中多半是文章系列,并且这个索引会在以后过程中进行追加,所以,各位看到的,永远都不是最新的,呵呵! 大叔推荐文章系列 DotNetCore跨平台~文章索引~永久更新(...

mcy247 ⋅ 2017/12/05 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

笔试题之Java基础部分【简】【一】

基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语法,集合的语法,io 的语法,虚拟机方面的语法,其他 1.length、length()和size() length针对...

anlve ⋅ 17分钟前 ⋅ 1

table eg

user_id user_name full_name 1 zhangsan 张三 2 lisi 李四 `` ™ [========] 2018-06-18 09:42:06 星期一½ gdsgagagagdsgasgagadsgdasgagsa...

qwfys ⋅ 42分钟前 ⋅ 0

一个有趣的Java问题

先来看看源码: public class TestDemo { public static void main(String[] args) { Integer a = 10; Integer b = 20; swap(a, b); System.out......

linxyz ⋅ 46分钟前 ⋅ 0

十五周二次课

十五周二次课 17.1mysql主从介绍 17.2准备工作 17.3配置主 17.4配置从 17.5测试主从同步 17.1mysql主从介绍 MySQL主从介绍 MySQL主从又叫做Replication、AB复制。简单讲就是A和B两台机器做主...

河图再现 ⋅ 今天 ⋅ 0

docker安装snmp rrdtool环境

以Ubuntu16:04作为基础版本 docker pull ubuntu:16.04 启动一个容器 docker run -d -i -t --name flow_mete ubuntu:16.04 bash 进入容器 docker exec -it flow_mete bash cd ~ 安装基本软件 ......

messud4312 ⋅ 今天 ⋅ 0

OSChina 周一乱弹 —— 快别开心了,你还没有女友呢。

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子 :分享吴彤的单曲《好春光》 《好春光》- 吴彤 手机党少年们想听歌,请使劲儿戳(这里) @clouddyy :小萝莉街上乱跑,误把我认错成...

小小编辑 ⋅ 今天 ⋅ 8

Java 开发者不容错过的 12 种高效工具

Java 开发者常常都会想办法如何更快地编写 Java 代码,让编程变得更加轻松。目前,市面上涌现出越来越多的高效编程工具。所以,以下总结了一系列工具列表,其中包含了大多数开发人员已经使用...

jason_kiss ⋅ 昨天 ⋅ 0

Linux下php访问远程ms sqlserver

1、安装freetds(略,安装在/opt/local/freetds 下) 2、cd /path/to/php-5.6.36/ 进入PHP源码目录 3、cd ext/mssql进入MSSQL模块源码目录 4、/opt/php/bin/phpize生成编译配置文件 5、 . ./...

wangxuwei ⋅ 昨天 ⋅ 0

如何成为技术专家

文章来源于 -- 时间的朋友 拥有良好的心态。首先要有空杯心态,用欣赏的眼光发现并学习别人的长处,包括但不限于工具的使用,工作方法,解决问题以及规划未来的能力等。向别人学习的同时要注...

长安一梦 ⋅ 昨天 ⋅ 0

Linux vmstat命令实战详解

vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix最喜爱的命令...

刘祖鹏 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部