以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 XML基础 』 (http://bbs.xml.org.cn/list.asp?boardid=1) ---- [Microsoft]了解 XML (http://bbs.xml.org.cn/dispbbs.asp?boardid=1&rootid=&id=5702) |
-- 作者:admin -- 发布时间:3/17/2004 10:29:00 PM -- [Microsoft]了解 XML 了解 XML Dare Obasanjo Microsoft Corporation 2003年7月 摘要:了解可扩展标记语言 (XML) 如何帮助我们实现通用的数据访问。XML 是一种基于 Unicode 的纯文本元语言,即一种用于定义标记语言的语言。它不依赖于任何编程语言、操作系统或软件供应商。XML 可以提供对各种数据处理、构建、转换和查询技术的访问。(本文包含一些指向英文站点的链接。) 简介 随着 XML 的应用日益普及,现在人们已普遍认同,XML 不仅有助于为 Web 描述新文档的格式,而且也适用于描述结构化的数据。所谓结构化的数据包括那些电子表格、程序配置文件和网络协议中通常所包含的信息。 XML 要优于早期的数据格式,因为 XML 可以很轻松地表示表格式的数据(如数据库中的关系数据或电子表格)和半结构化的数据(如 Web 页面或业务文档)。早已存在且应用广泛的一些格式(如逗号分隔值 [CSV] 文件)可以有效地处理表格式数据,却不能很好地处理半结构化数据,而 RTF 等则只能专门用于半结构化的文本文档。因此,XML 作为信息交换的通用语言被广泛接受。 无处不在的 XML XML 的可扩展性表现在多个方面。首先,与 HTML 不同,XML 没有固定的词汇表。相反,用户可以使用 XML 定义特定的应用程序或行业专用的词汇表。其次,与使用其他格式的应用程序相比,处理或使用 XML 格式的应用程序对 XML 结构的更改更具“抵抗力”,只要这些更改是附加的。例如,如果某个应用程序主要处理具有 customer-id 属性的 <Customer> 元素,如果再向 <Customer> 元素添加一个 last-purchase-date 属性,该应用程序通常也不会被破坏。这样的适应性在其他的数据格式中很少见,这也成为使用 XML 的一个显著优势。 XML 不依赖于任何编程语言、操作系统或软件供应商。事实上,使用各种编程语言都可以很容易地生成或使用 XML。而平台独立性使得 XML 有助于在不同编程平台和操作系统之间实现互操作。 很多人已经意识到将数据发布为 XML 有很多优势,由此也推动了 XML 数据源的大量应用。人们正在或者已经将业务文档、数据库和业务间的通讯等信息源转换为使用 XML 作为表示格式。Microsoft 的产品,如 Microsoft Office®、Microsoft SQL Server™ 和 Microsoft .NET Framework,都能使最终用户和开发人员将文档、网络信息和其他数据生成为 XML 或作为 XML 使用。 XML 1.0 语法 XML 和 HTML 的对比 但是,HTML 与 XML 之间存在一个显著的差别,即 XML 区分大小写,而 HTML 不区分大小写。也就是说,在 XML 中,起始标记 <Table> 和 <table> 是不同的,而在 HTML 中则是相同的。HTML 与 XML 之间的另一个差别是,XML 引入了“良好结构”的概念。XML 的“良好结构”规则通过强制规定一些规则来消除在处理 HTML 等标记语言时存在的一些固有的模糊性,如它强制规定了所有属性都必须用括号括起,所有元素都必须具有一对起始标记和结束标记,或者明确指出其为空元素。有关良好结构的简短说明,请参阅“XML FAQ”的 D.2 部分。 HTML 与 XML 之间最显著的区别在于,HTML 已预先定义了元素和属性,元素和属性的行为已完全指定,而 XML 则不是这样。相反,文档作者可以创建自己的特定于其应用程序或业务需求的 XML 词汇表。目前已有的 XML 词汇表适用于许多行业和应用程序,从财务信息报告 (XBRL)、金融服务 (FpML) 到 Web 文档 (XHTML)、网络协议 (SOAP)。由于不必关注那些用来指定如何呈现或显示 XML 文档的预定义元素和属性,因此文档作者在创建文档时就可以将重点放在与其特定问题领域相关的语义信息上。XML 词汇表带来了内容与形式的分离,使得信息和内容可以得到更大规模的重复利用。 XML 文档剖析 <?xml version="1.0" encoding="iso-8859-1" ?> <order id="ord123456"> <!-- 要多走几英里找到顾客 --> 文档的开头是可选的 XML 声明,用以指定所使用的 XML 版本,然后是文档所使用的字符编码。接下来是 XML 样式表处理指令,用来绑定样式表。样式表中包含的 XML 文档的格式化指令可以用更生动的方式在用户应用程序(例如 Web 浏览器)中呈现 XML 文档。处理指令通常用来在 XML 文档中嵌入特定于应用程序的信息。例如,处理以上文档的大多数应用程序都会忽略 XML 样式表处理指令,而用于显示 XML 文档的应用程序(例如 Web 浏览器)则会使用处理指令中的信息,以确定将包含了用于显示文档的特殊指令的样式表定位在哪里。 Unicode + 尖括号 = 互操作 以 Unicode 为基础的 XML 也适用于在全球网络中共享信息,例如在 Web 上。 信息集 (Infoset) 和 XML 系列技术 XML 信息集 XML 信息集是 XML 文档的树状层次表示。一个 XML 文档的信息集包含许多信息项,这些信息项是 XML 文档组件的抽象表示,其中包括表示文档、文档的元素、属性、处理指令、注释、字符、表示法、命名空间、未分析的实体、未扩展的实体引用和文档类型声明的信息项。XML 信息集是被正式推荐的机制,通过它来定义 XML 文档中应被重视的重要信息。例如,信息集不区分空元素的两种形式。因此根据 XML 信息集,以下两种表示方法 <test></test> 是相同的。同样,属性所使用的引号类型也不重要,因此根据 XML 信息集,元素 <test attr='value'/> 是相同的。XML 信息集认为不重要的 XML 1.0 语法内容列表在 W3C XML Information Set 推荐的附录 D 中提供。 XML Information Set 推荐介绍了“综合信息集 (Synthetic Infosets)”的概念。所谓综合信息集是指除使用分析文本形式的 XML 文档之外还用其他方法创建的信息集。综合信息集为使用 XML 技术处理非 XML 数据奠定了基础,当然前提是此类数据可以映射到 XML 信息集。处理综合信息集的一个示例是 ObjectXPathNavigator,它允许用户在 .NET Framework 中使用 Xpath 查询对象,或者使用 XSLT 转换对象。 架构语言 XSD 在 XML 架构语言中是独一无二的,因为它最先尝试扩展 XML 架构的作用,使之不再局限于仅用来描述两个实体交换文档时的约定。XSD 引入了“后架构验证信息集 (Post Schema Validation Infoset,PSVI)”的概念。一个完整的 XSD 处理器接受 XML 信息集作为输入,并在验证时将其转换为后架构验证信息集 (PSVI)。PSVI 是初始的输入 XML 信息集,带有添加的新信息项和添加到现有信息项中的新属性。W3C XML Schema 推荐列出了后架构验证的信息集的组成要素。 类型注释是 PSVI 组成要素中很重要的一类。元素和属性需进行严格的类型定义,并具有与之相关的数据类型信息。经过严格类型定义的 XML 有很多用途,可以使用 .NET Framework 的 XmlSerializer 等技术将其映射到对象,可以使用 SQLXML 和 .NET Framework 的 DataSet 技术将其映射到关系表格,或者使用利用了严格类型机制的 XML 查询语言,如 XPath 2.0 和 XQuery 对其进行处理。 以下示例是一个架构片段,描述了 XML 文档剖析 一节中示例文档的 items 元素。 <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="items"> <xs:element name="compact-disc"> </xs:schema> 基于树模型的 API 以下示例使用 .NET Framework 中的 XmlDocument 类获取 items 元素中第一个 compact-disc 的艺术家姓名和标题。 using System; public class Test{ public static void Main(string[] args){ XmlDocument doc = new XmlDocument(); XmlElement firstCD = (XmlElement) doc.DocumentElement.FirstChild; Console.WriteLine("Artist={0}, Title={1}", artist.InnerText, title.InnerText); 基于游标的 API 以下示例使用 .NET Framework 中的 XPathNavigator 类获取 items 元素中第一个 compact-disc 的艺术家姓名和标题。 using System; public class Test{ public static void Main(string[] args){ XmlDocument doc = new XmlDocument(); XPathNavigator nav = doc.CreateNavigator(); nav.MoveToFirstChild(); //从根节点移至文档元素 (items) //从 artist 元素移至 title 元素 Console.WriteLine("Artist={0}, Title={1}", artist, title); 流式 API 基于推进的分析器(如 SAX)的工作方式是在 XML 数据流中移动,并在遇到 XML 节点时将事件“推进”到已注册的事件处理程序(回调方法)。基于拉出的分析器(如 .NET Framework 中的 XmlReader 类)则在 XML 数据流中用作只向前的游标。 以下示例使用 .NET Framework 中的 XmlReader 类获取 items 元素中第一个 compact-disc 的艺术家姓名和标题。 using System; public class Test{ public static void Main(string[] args){ string artist = null, title = null; reader.MoveToContent(); //move from root node to document element (items) /* 保持读取,直至获得第一个 <artist> 元素 */ if((reader.NodeType == XmlNodeType.Element) && reader.Name.Equals("artist")){ artist = reader.ReadElementString(); XML 查询 以下示例显示了如何使用 XPath 获取 items 元素中第一个 compact-disc 的艺术家姓名和标题。 using System; public class Test{ public static void Main(string[] args){ XPathNodeIterator iterator = nav.Select("/items/compact-disc[1]/artist | /items/compact-disc[1]/title"); iterator.MoveNext(); iterator.MoveNext(); } XML 转换 XSLT 是一种优秀的 XML 转换语言。XSLT 中阐述的转换说明了将源树转换为结果树的规则。转换通过关联模式和模板来完成。一个模式是一个 XPath 表达式,可以将其视为与 XML 源树的部分相匹配的正则表达式,与字符串的匹配部分相对。模式与源树中的元素进行匹配。成功匹配后,模板成为创建结果树部分的例示。在构建结果树时,可以对源树中的元素进行筛选和重新排序,还可以添加任意结构。 以下 XSLT 样式表将 items 元素转换为包含光盘信息表的 XHTML Web 页。 <xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0" xmlns="http://www.w3.org/1999/xhtml"> <xsl:output method="xml" indent="yes" <html lang="en" xml:lang="en"> <xsl:for-each select="items/compact-disc"> </table> </xsl:stylesheet> XHTML 文档由如下所示的样式表生成: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 它在 Web 浏览器中如下所示。 Artist Title Price 小结
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
62.500ms |