以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Semantic Web(语义Web)/描述逻辑/本体 』 (http://bbs.xml.org.cn/list.asp?boardid=2) ---- 有点老的语义网和本体介绍资料系列之一 (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=86719) |
-- 作者:soxmemo -- 发布时间:9/13/2010 12:49:00 PM -- 有点老的语义网和本体介绍资料系列之一 在业界工作久了,也淡忘了珞珈山上曾经的书生意气。翻出我的博士论文,挑出一些有意义的部分,逐步发表,希望能够有益于后来者的学习研究。 2.1语义网技术 2.1.1 语义网的产生 随着互联网应用的高速发展,网上信息资源的数量正以几何级数爆炸性增长。据统计,目前万维网(WWW)上的网页数量就超过了10亿个[]。一方面,大量信息资源的出现,为人类知识宝库积累了丰富的数字信息;另一方面,传统的互联网技术仅仅是实现网络资源的连接,并不考虑网络资源间的结构组织,导致各种知识无序、零散的分布在成千上万的存贮介质上。过于庞大的互联网资源对于网上应用产生了各种各样复杂的技术问题,这些问题[]往往又可以归结到一个问题,即如何在浩如烟海的网上信息资源中准确、快速的找到用户需要的信息。 要解决这个搜索问题,核心在于找到有序的网上信息资源的组织方法。语义网(Semantic Web)技术正是找到这种方法的一枚钥匙。分析一下现代网络搜索技术,无论是google、yahoo还是msn等搜索引擎,根本上来讲它们采用的都是文本匹配这种最简单的搜索方式。文本匹配方式可以解决一些应用要求较低的搜索问题,但对于应用要求较高的问题(如希望知道两个事务之间的联系等),或文字匹配容易产生混淆的情况下,这种方式就不能胜任了。几乎每个经常使用网络搜索引擎的用户都会有这样的体验,就是搜索结果往往和自己所期望得到的信息不匹配。比如在google中输入关键词“黄牛”希望查找有关这种家畜的资料,我们找到的结果除了包括这种家畜的网页以外,还有“黄牛党”、“老黄牛气冲天的说”等。 2001年,万维网的发明人Tim Berners-Lee在《科学美国人》(American Scientist)上发表了著名的文章“the Semantic Web”[1],引起广泛关注。这是公认的语义网技术产生的里程碑。Berners-Lee的文章指出:语义网是对现有Web的扩展,这种扩展将信息赋予定义良好的意义,更加便利计算机和人的协同(The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.)。在随后的数年间,学界掀起了语义网技术研究的热潮,并围绕语义网技术的各个层次、环节展开了全面深入的讨论。传统的知识工程领域的研究者也纷纷加入,使得语义网技术得到较快的发展。目前,以英国的曼彻斯特大学、美国斯坦福大学、马里兰大学、德国卡尔斯鲁尔大学AIFB研究所、德累斯顿技术大学、荷兰Vjrve自由大学等为代表的大批科研院所的众多科研人员都致力于语义网各方面技术的研究和开发,很多系统正在进入实用阶段。近年来,欧盟更是斥巨资支持欧洲地区的语义网研究。可以说,语义网技术目前正处于其发展的高峰期。 2.1.2 语义网的层次结构模型 语义网实质上是多种现存技术结合构成的有机整体。Berners-Lee提出语义网这个技术概念时,XML技术已经在网络上大行其道;RDF开始初露端倪;本体技术、逻辑语义在知识工程领域已经有几十年的研究历史。但正是Berners-Lee创造性的将这些技术的应用结合起来,设计出了语义网的技术层次架构图。如图2-1,是应用最多的关于语义网结构的层次模型,或称协议栈(Protocal Stakes)。 图2-1 语义网结构层次模型图[51] 1.Unicode和URI层:语义网的最底层。Unicode用来定义国际化、通用化的字符集。URI是统一资源标识符(Uniform Resource Identifiers)的缩写。在语义网环境中,所有需要描述的事物都称之为资源,而每一个资源都用唯一的URI标识。 2.XML+NS+xmlschema层:语义网的基础描述语言层。XML是语义网层次模型的基础,它是网络最通用的标签式描述语言,命名空间(Name Space)为XML文档中的结构化标记的定义和使用提供上下文机制,用以指明涵义,避免命名冲突。XML Schema为XML文档提供了语法结构上的约束,保证XML文档的完整性与有效性。 3.RDF/RDF Schema层:RDF资源描述框架[53](Resource Description Framework)是一种用于表达网上资源的语言。RDF层的功能就在于表达丰富的网上信息资源,是构建语义网这栋大厦的砂石砖块。RDF Schema则为RDF更丰富的结构表达提供了一套类型定义系统。 4.本体(Ontology)层:本体技术是语义网的核心。本体的功能就是提供网上互操作体之间关于信息的共同理解,也就是“语义”。在语义Web的交互中,本体担当着语义互操作的重要角色。实践中,用RDF定义了网上信息资源,再用本体定义了互操作的语义空间,就构成了一个基本的语义网应用环境。这一层有时还包括规则(Rule)子层。加入规则子层,可以提高本体描述能力,增强信息的语义表达能力。规则子层还可以定义与具体应用相关的知识描述,提供个性化的私有描述。 5.逻辑(Logic)层:该层用以提供公理和推理规则,为智能推理提供基础。 6.证明(Proof)层:证明层用于提供认证机制,执行逻辑层产生的规则。 7.信任(Trust)层:主要负责提供信任机制,保证资源的交互安全可靠。 2.1.3 语义网的层次结构模型的实现 语义网层次结构模型是一个相对高层的模型,很多技术细节尚未考虑到。通过近7年的讨论和实践,语义网构建的层次架构日益具体化,并形成两种主要观点[52]:一是以描述逻辑为语义基础来构建该模型,另一种以Datalog规则为基础来构建模型。这两者观点分别提出了各自的实现方案,并形成竞争。如图2-2,这种在实践中同时存在的两种方案并存的格局,Horrocks称之为双塔模型[51]。 图2-2 关于语义网层次结构的Horrocks的双塔模型[51] 从图中可以看到,右侧塔代表了第一种观点,即以标准逻辑(命题逻辑、一阶逻辑、描述逻辑)为基础。这种方案按照W3C的推荐标准,在数据描述方面采用RDF/RDFS[54]语言,在本体层采用OWL语言为基础,对于逻辑、证明层则以标准一阶逻辑为基础。该观点在理论上以经典逻辑的标准模型论为基础,比如RDF、OWL都是以模型论语义为基础构建的。左侧塔则代表了第二种观点。这种观点以面向对象数据库和规则语言为基础。是以DLP为描述基础,以OWL Flight[55]作为本体层描述语言。该观点的理论基础是Datalog[56]的形式化理论,包括非单调扩展。两种观点的明显不同还表现在逻辑假设上,前者因为基于描述逻辑,所以支持开放世界假设(OWA)(详见2.3.6.3小节),而后者因为基于Datalog,所以支持封闭世界假设(CWA),执行NAF(negation as failure)机制。两种观点在实现上完全不同,在功能上各有所长,因此引发了语义网相关研究社区的长期广泛的讨论。本文则采用第一种观点,即标准逻辑观点。后文则不再特别声明。 由于不知道如何上图(需网址?),如需看完整版,请访问我的技术博客:
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
31.250ms |