中文XML论坛--Web3.0--用P2P网络实现Web语义搜索的知识共享系统设计与分析

引子：小儿科样的Web3.0，跟这里所要阐述的语用网相比，我以为已经足够简单了。微软很早就联系了我，说他们被google的成功气炸了肺，发誓定要搞个盖了帽的东西出来不可。但我却不能理解微软为何迟迟不把这个玩意儿上线，害得我不得不详细写出来，好让大家理解完整了。看了这里，我们大家就都可以成为计算机专家、特别是网络专家了。写全面一点，免得误解。

摘要：完整给出了Web3.0的问题、系统实现与模型分析

标题：Web3.0系统—用P2P网络实现Web语义搜索的知识共享

赵维谈什么是Web3.0之一—Web3.0问题

第一篇：什么是Web3.0的系统问题

Web是服务于全人类的社会信息资源共享系统。但Web1.0、web2.0之后，人们似乎看不明白是否还需要web3.0了，或者说人们不知道需要Web3.0来解决什么问题。下面我给出一个相当浅显的分析。

1、什么是知识的问题？

口渴了，要喝水。这是人的自然需求。但是养生学告诉我们，人体补水的最佳时机是在口渴感觉出现以前。等你感觉到口渴的时候，人体已经缺水到了很严重的程度了。确定人体补水的最佳时机，属于养生知识。

社会发展的目标就是满足其成员的各种资源需求。但相对于贪婪的人类来讲，资源总是有限的。资源又是相对的，对某些人无用的资源却可能是另一些人所急需的。因此如何解决人与资源相结合的问题，就显得很重要了。知识是人们用来解决资源与人相结合的时机问题的。多也不行，少也不行；早也不行，晚也不行。这个最恰当时机通常是在人的自我意识自我感觉出现以前。

人们也许会反问：难道人还不知道自己需要什么吗？在现实生活中，这样的例子比比皆是：等你感觉到身体的病痛了，往往就已经丧失了最佳的医学治疗时机。人类都向往共产主义，但如何实现却不得而知。因此知识很难获取，极为重要。

在最适当的时机，把最适当的资源，分配给最适当的人群，就是知识（共享）系统所要解决的问题。

2、什么是知识计算？

知识是人类最为宝贵的财富，我们需要知识的共享，我们更需要知识的自动化。所谓知识的自动化，就是知识计算。

用简单的话来说，1）人只有掌握了知识，才能应用知识。所以知识学习总是必要的。2）即使知识被人类研究出来了，但要人人都掌握这些知识，也是很困难的，甚至是不可能的。因为知识的数量呈爆炸式成指数样增长，而人的学习能力仅仅是线性的，人的寿命又是短暂的，所以知识计算就成为了人们的必然追求。

知识计算是解决知识爆炸的必然手段。事实上，当年计算机的发展就是解决计算爆炸的必然手段。2次世界大战中，为了破译德军的通信密码，就遇到了计算爆炸问题。图灵因此获得了资助，最终提出了图灵机系统模型。

在最适当的时机，把最适当的计算资源（统统记录在第四部分讲到的UEFI里的handle数据库里了的图灵机系统），分配给最适当的人群，就是知识计算系统所要解决的问题。

3、什么是Web3.0问题？

Web资源搜索，如google、百度，就是人们满足自己对Web资源的需求。但事实上由于存在知识局限性，人们并不真正知道自己到底需要什么样的资源。那么在最适当的时机，把最适当的Web资源，“推送”给最适当的Web客户，就是Web知识共享系统、也即Web3.0所要解决的问题了。

当此时的Web资源都是计算资源时，该系统将是知识计算系统了。此时的Web将从人类社会基础设施，演化成为知识计算系统的社会性基础设施。

博客（http://blog.donews.com/ygzw/）指出知识以及知识计算的系统理论，并阐述其系统技术实现的。

4、如何实现Web3.0？

现有的基于XML的RSS、OPML + P2P的IM = Web知识共享系统。这个Web知识共享系统，就是人们所设想和追求的Web3.0系统，或者叫做“语义网”系统。

聚合（http://blog.donews.com/ygzw/archive/2007/07/02/1181837.aspx）是其中的关键概念。所谓聚合，就是具有时空特性的集合。

赵维谈什么是Web3.0之二—我的系统

Web3.0系统--用P2P网络实现Web语义搜索的知识共享

技术领域

本发明涉及一种万维网（Web）资源管理领域的应用系统，特别涉及一种用P2P技术来实现Web资源聚合共享的系统性方法。

背景技术

随着Web系统的日益普及，搜索技术的重要性越来越明显了。目前基于关键字搜索技术的网站系统，如google和百度的十分盛行，就很好地说明了这一点。但是基于关键字的搜索系统，其搜索广度和搜索深度都有不足，其搜索结果的语义相关性、或者上下文相关性也不够，而且系统还可能引入人为干扰因素。

语义搜索（Semantic Search and Retrieval）就是人们针对这一问题而设想的未来系统，但什么是语义搜索，以及如何建设语义搜索系统等在理论与技术界看来都是悬而未决的问题。本发明就是解决这个问题的一个系统性方法。

RSS技术（Really Simple Syndication、RDF Site Summary或者Rich Site Summary的缩写），是Web资源的聚合技术，是典型的所谓Web2.0技术。可以说RSS是XML的第一个具有广泛社会意义的成功应用。OPML技术（Outline Processor Markup Language的缩写）是RSS的集合描述，主要用于导入导出特定的RSS列表。譬如看天下和周博通RSS阅读器。

P2P技术（Peer-to-Peer的缩写）系统，可以理解为“点（Peer）对点”的意思，或称为对等联网,譬如QQ和MSN。在P2P系统里面，点是一个地位平等的自由实体，点可以相互发现，点可以自由决定相互组成为邻居关系，邻居间可以通信消息，点自由决定收到消息后的行为。

当前，RSS、OPML技术、以及P2P系统的研究与发展都已经相当成熟了，它们将共同组成为本发明的系统性基础。

发明内容

用P2P网络实现Web语义搜索的知识共享系统方法。

具体实施方式

本发明定义了一个P2P系统。

该P2P系统中的点是一个RSS集合，即OPML描述；邻居间的关系是点自身RSS集合的一个子集合，也是一个OPML描述。

即点由内涵与外延两方面定义：内涵就是点描述自己内容RSS集合的OPML；外延是点把自己内容的一个RSS子集的OPML描述给邻居点。点只有一个内涵，但可以有多个外延。

因此本发明P2P系统的点由3部分定义：

1、描述点自身RSS集合的OPML。

2、描述点输出邻居的OPML集合，一个输出邻居一个OPML描述，多个输出邻居可以多个OPML描述。

3、描述点输入邻居的OPML集合，一个输入邻居一个OPML描述，多个输入邻居可以多个OPML描述。

描述邻居间的消息的OPML在传递过程中保持不变，即组成消息体的OPML描述由输出邻居创建，由输入邻居接受，其内容始终如一。

系统分析

RSS是Web资源聚合，编辑们根据自己的认识主动聚合相关内容，而人的认识具有相对性，时空特性。OPML是RSS聚合，一般称为个人偏好。偏好当然是人的认识，仍然具有相对性，时空特性。这里的知识共享系统则是通过p2p系统聚合OPML，在人群的朋友间的认识聚合。群体认识，也具有相对性，时空特性。

因此，聚合的最大特性是时空性，相对性。不同领域称呼“相对性，时空特性”也不同。哲学称之为“社会”，爱因斯坦称之为“相对论”，计算机称之为“context”，人工智能、特别是语义网系统称之为“本体”。
聚合的过程是人们根据自己的认识而对资源的一个社会化分类。本系统将对所有Web资源进行有序化分类化，实现了Dublin Core机构的设想，也实现了语义搜索。语义搜索是google与百度等的关键字搜索的实现Web资源共享的下一代系统性技术。因为一般认为google与百度等的关键字搜索为Web2.0技术，所以我叫知识共享系统为web3.0。

赵维谈什么是Web3.0之三—知识共享系统解析

解析《Web3.0—用P2P网络实现Web语义搜索的知识共享系统设计》

什么是互联网

什么是互联网？早有定论：基于TCP/IP协议的广域网。在上个世纪七八十年代互联网出现以前，局域网盛行。当时的网络操作系统如著名的Novell公司的Netware系统。在局域网内信息实现了很好的共享，一般是文件服务器存储共享文件和打印服务器共享外设。但是信息在跨各局域网间就不能很好共享。

为了解决信息在跨局域网间的共享问题，人们提出并实现了互联网（Inter-net，当时有人翻译为“网间网”恰说明了这一点）。互联网确实很好地解决了信息在跨域间的共享问题。如曾经的局域网内的文件服务器变成了互联网里的ftp（文件传输协议）服务器，实现了全球共享。后来又出现了著名的邮件（e-mail）服务器也是一样的全球共享。

什么是Web

万维网（Web，虽然当初不叫Web，叫什么我忘了）系统发明人觉得ftp与邮件服务，并不能很好地满足人们的信息共享需要。在一个松散的全球大研究机构（CERN）里供职的他考察了学术论文的一般形式，发现了参考文献的查阅实在耗费时间。因为那里的科学家来自于世界各地，他们论文的参考文献也保存在世界各地的服务器里，如此要理解这些论文就不得不在各地的服务器里查找论文的参考资料。为此，他发明了Web系统，用著名的超链接来自动地解决论文间的相互引用问题。实现超链接的Web系统协议就是更加著名了的http协议。

网络技术发展到现在呢，Web系统已然成为互联网的杀手应用，最大应用。今天我们所说的上网，实际上指的是上Web。Web系统的客户端就是著名的浏览器，如微软的ie浏览器和早期的Netscape浏览器。

以上分析清楚表明：文件系统-ftp系统-Web系统间存在着技术继承与发展脉络的连贯性。计算机早期资源种类有限，应用稀少。所谓资源主要是指的文件；而应用就是文件驱动，也即读写该文件的应用系统。如阅读电影文件的播放器，编辑电影文件的movie maker。现在的计算机资源种类及应用已经非常繁多，它们的存储依然是文件系统，虽然有了巨大的技术提高与进步。

早期的Web里只有静态的html网页，而现在的Web里不仅包含了所有可能的文件资源，更包含了驱动文件的各种应用系统。可笑的是，现在的人们却认为这个系统已经不再是Web系统了，而是什么Web2.0或者什么Web3.0的系统。那人们为什么没有叫出个文件系统2.0或者文件系统3.0的名字来呢？

资源种类再多，也还是原来的文件系统；资源种类再多，也还是原来的Web系统。

Web的结构

局域网里，人们只能访问本地网络服务器里的文件系统，这里我们忽略了单机系统里的文件系统，毕竟我们是在谈论网络嘛。互联网里，人们可以访问全球各地的ftp服务器里的文件系统，ftp是孤立的、分散的文件系统。Web里，人们可以访问全球各地的Web服务器里的文件系统，但Web是整体的、联系的文件系统。因此特别称这样的文件为网页（Webpage）。

如果以网页为点，超链接为边，我们就可以画出来整个Web系统的结构。前面讲过，网页表示学术论文，超链接表达了论文间的相互引用。学术论文是人们对于客观世界的某一个知识点的详细阐述，因此Web系统结构表达了客观世界的普遍联系特性。

Web系统结构表达的是客观世界的普遍联系特性，这个结论太重要了。我用红色突出出来。

RSS是Web2.0

按前文所说，似乎不应该有什么Web2.0和Web3.0嘛，我还讲什么Web2.0呢。实践出真知。实践已经有了：RSS技术就是Web2.0，其应用叫RSS阅读器。RSS阅读器包涵并建立在Web浏览器之上的。

RSS阅读器一定不就是Web浏览器，否则就不应当叫RSS阅读器，而直接叫Web浏览器算了。但RSS阅读器确实与Web浏览器紧密相关，RSS的内容就是从Web里直接聚合而来的。因此我们只能叫RSS技术为Web2.0，而不能其它了。

以上的分析决定了RSS是第一个被普遍接受的xml技术应用。

有人问我，为什么只把RSS称为web2.0技术，而把其它Web2.0名称提出者（注意：不是发明人哦）概括的诸如blog、viki以及ajax等排除在外呢？这些技术实际上都是Web系统里的文件（或数据资源）驱动（读写）系统，只能属于Web系统。

这里我指出了Web2.0系统，而不把Web系统叫做Web1.0。因为Web就是Web，哪来什么Web1.0系统呢？

P2P系统结构

虽然P2P出来很久了，甚至技术研究也已经结束了。但真正理解P2P的人应该不多。前面我已经说过：客观世界是普遍联系的，知识点是相互关联的，学术论文是相互引用的，统统体现在了Web系统结构中了。实际上，我们的主观世界也是普遍联系的，那么要如何体现呢？可能有人已经猜到了。对了，就是要体现在这个P2P系统结构里了。

主观世界就是人，主观世界的普遍联系就是人的相互关系。人是如何联系的呢？联系人啊。人人都有自己的联系人吧？所谓联系人，就是出了问题，自己可以指望得上的人。开始是你父母，后来是你认识的所有亲戚朋友，现在大概是你手机里的所有联系人了。就这些。

那么什么是P2P系统结构呢？当以人为点，以各自的联系人为边，我们就可以画出来主观世界的普遍联系图了。该图就是P2P系统结构。

因此揭示P2P规律的那个著名“小世界现象”或者“小世界理论”或者叫“六度分隔理论”,还有热门的SNS等，恰描述的就是人类社会的普遍联系性。那个揭示“小世界现象”的实验人不就是让许多人把一封信通过各自的联系人逐级送到指定人处吗？

QQ、MSN等即时通信（IM）系统，不正是人的联系人关系吗？当然就是计算机世界里的主观世界的普遍联系图谱啦！

P2P系统结构表达的是主观世界的普遍联系特性，这个结论也是太重要了。我也用红色突出出来。

这时候，我们可以反过来看看P2P系统方面的主流研究，呵呵，几乎都集中到了资源分布与搜索算法方面去了，而不去揭示这个主观世界的普遍联系特性！

什么是知识的表达？

我们在哲学课上都学过了：知识就是主观世界对客观世界的作用。因此我在上一篇里把自己发明的那个简单系统叫做“用P2P网络实现Web语义搜索的知识共享系统”。

为什么叫Web3.0呢，因为知识共享系统是包含并基于RSS阅读器的，而RSS阅读器叫Web2.0了，所以我们就只能叫Web3.0了。

知识到达人的意识里，要经过人们多重努力：1）是要有网页－学术论文揭示知识点，2）是RSS聚合－是被编辑聚合进RSS里面，3是共享－优秀教师的推荐。因此我相对应于网页叫Webpage，把RSS叫图书Webook。

在知识共享系统里面，人人都是老师，人人又都是学生。老师推荐最适当的知识给学生。学生与老师有一个相似度的度量。这个度量表达学生学到了老师的几分知识。有什么样的老师，就有什么样的学生。因此主观世界里的个体，交朋友真的非常重要哦。

人类社会的主体是人，而知识系统的主体是一个OPML的聚合体，就是人工智能领域所追求的“本体”，相似度将表达本体间的距离。

知识共享系统与Web索引系统的关系

Web索引系统是如Goolge和百度的Web资源搜索系统的关键技术，是收集Web信息资源，把它们分门别类，以一种集中的统一方式向Web使用者提供Web信息搜索服务。知识共享系统也是一种索引系统。但二者有所不同。

所不同的是，1）Web索引系统需要事先收集Web信息资源，而知识共享系统不收集任何信息资源；2）Web索引系统按照某一个事先的固定的资源分类模型，而知识共享系统没有什么资源分类模型，而是按照社会的实时需要而（以P2P网络方式）存在于社会当中；3）Web索引系统是一个集中系统，需要中央数据管理机制，而知识共享系统是完全P2P的，没有什么中央控制机构；4）Web索引系统的分类是按索引关键字为序的，而知识共享系统是基于RSS/OPML/KML等Web信息资源的抽象技术之上的；4）Web索引系统关注的是Web信息资源的自然属性，即记录其URL，而知识共享系统关注的是Web信息资源的社会属性，即什么样的社会成员需要该信息资源。5）Web索引系统里的关键字是人们的访问方式，而知识共享系统里的KML就是人们所追求的“知识本体”，是从信息的社会性里面抽象出来的。第四条是总根源。

知识共享系统与文件目录系统的关系

文件系统是计算机最主要的存储系统之一，文件目录系统是该存储系统的管理机制。但文件目录系统依赖于该存储系统并且属于该文件系统的。

当文件系统里的存储系统与目录系统相分离、即目录系统虚拟化以后，在社会化作用下，该目录系统就成为了知识系统了。我们知道，任何一个文件都有一个包含路径和文件名的地址；在Web里，称该地址为统一资源定位器URL；在知识共享系统里，称该地址为统一资源标识URI；也被抽象进语用单元典里字典里的原子字。

一般的文件地址，或者URL，都不能包括社会频度以及群体偏好属性。而知识共享系统里，则特别强调这个频度或偏好。知识系统正是根据这个频度或偏好来向其不同社会成员推送相应资源的。

我们也应当知道，当文件成为数据资源时，文件目录系统就将转化为数据库管理系统了。

无论文件目录系统，还是知识共享系统，它们都是完成信息资源的区别与定位的。所不同的是目录系统仅仅考虑了信息资源的自然属性--即其自身的位置，而知识共享系统更加考虑了信息资源的社会属性--即什么样的社会成员需要什么样的信息资源。

因此知识共享系统是对Web信息资源的社会学分类，即按照不同的社会人群，来秩序化所有的Web信息资源。而这恰是由图书馆管理部门成立的Dublin Core机构所期望的。

源于这层关系，有时候我也称知识共享系统为后目录系统，或者虚（拟）目录系统。因为人们通过知识共享系统来访问Web资源，最终都具体落实到Web里的URL，也相应称文件目录系统为硬目录系统。

不同的操作系统支持不同的文件系统，那么管理Web资源的知识共享系统所适合的WebOS又是什么样子的呢，下面将论述之。

赵维谈什么是Web3.0之四—WebOS系统展:分析WebOS系统问题及由来

WebOS是计算机操作系统未来的发展方向，似乎已经没有什么质疑了。但到底要发展到什么程度，或者到底什么才是WebOS，却是一个比较令人困惑的问题。下面从网络OS的发展起步，逐步加以分析。

这里一定要首先参考下《WebOS，互联网的新宠儿？它离我们还遥远吗？ - 网易学院分析》（http://tech.163.com/special/00091N8B/analyse023.html）。全面学习完里面的3篇文章（操作系统和WebOS有何区别？、WebOS离我们遥远?、WebOS你了解吗？）。

这样我们知道了当前主流技术界对Web3.0的认识就是WebOS。而另外一篇《Embracing “Web 3.0”--Published by the IEEE Computer Society1089-7801/07/$25.00 © 2007 IEEE IEEE INTERNET COMPUTING》代表了另一个认为Web3.0就是语义网的主流研究界里的认识。我支持后者，并且认为我所实现的知识共享系统就是这个“语义网”了。那么前者所设想的呢，就是我的语用网（The Pragmatic Web--MAY • JUNE 2002 http://computer.org/internet/ 1089-7801/02/$17.00 ©2002 IEEE IEEE INTERNET COMPUTING）了。只是他们对网络OS的分析不透、认识不清而已。

Web3.0，即语义网，是在Web系统之上的一个以浏览器（Web客户端）为基本单元（即节点）的P2P网络，并且在这个P2P网络层里实现了所谓的语义特性。不就是我的知识共享系统嘛！而WebOS就是基于语义网之上的实现计算协作的语用网系统。

网络OS的发展

在互联网出现以前，还只有局域网的时候，网络OS就是如同Netware那样的系统。其典型的应用就是无盘（无硬盘，即无本机持久文件系统）工作站，利用网络文件服务器支持多个终端计算系统。降低了本地应用系统的维护，并很好地支持了网络用户间的协作。

在上面的互联网分析里，我们知道，在互联网出现以后，局域网OS可以直接发展成为互联网OS，即基于ftp服务器的终端计算系统。但由于此时的硬盘价格大降，且互联网速比起局域网速来得太慢且极不稳定，故都配有本机硬盘作为互联网ftp服务器的文件缓存系统。如此说来，当前所谓的WebOS其实就是互联网OS，而根本就不是什么基于Web的OS。造成这个尴尬的原因就是人们根本不懂得什么是Web，或者说不理解Web的本质。

难怪当时Web发明人遇到了技术界的推广和理论界的宣传都不被人理解的困难了。当今人们只是被动地接受了Web，而没有积极地去理解Web。前面有了分析：Web的本质是用网页来揭示了客观世界的普遍联系特性。那么当然地，WebOS要充分利用Webpage的这个特征的了。显然，现今的人们还不能够想象出来什么才是真正的WebOS了。

UEFI的工作

人们一定奇怪，我怎么在这里谈起了看起来似乎风马牛不相及的UEFI工作来了呢？其实不然，在所有的网络或者协作计算系统技术（如网格）探索中，只有这个UEFI才是正道！其它的Web成功都是基于特别的应用而已。

我们知道BIOS是分离或联系单个计算机系统里面的硬件与OS的系统界面。而UEFI更加抽象了一步，是分离或者联系Web里的硬件与WebOS的系统界面。UEFI认为：所有的计算功能都表现为一个对象模块--即一个图灵机系统；任何一个计算机系统都表现为图灵机系统的集合（注意这里是集合，而不是聚合或者组合）；这些对象--也即图灵机系统，都注册在UEFI里的一个handle数据库里面，并被称为软件服务。

我们访问“一个”handle数据库就可以知道该计算机系统的所有功能了，我们访问“多个”handle数据库就可以访问一个计算机系统集合的所有功能了，这里的“多个”就是“集合”。我们访问互联网中“所有”的handle数据库，就可以访问“整个”互联网里的计算了。该“所有”的handle数据库就是Web（分布式）元数据库系统。那么，一个计算机系统的集合，或者整个互联网里的计算系统，是如何表达、又是如何实现的呢？这才是WebOS的系统问题。这里的多个就是我们所熟悉了的分布式问题。

WebOS的系统问题

WebOS的系统问题就是把一个计算机系统集合如何组合或者聚合为一个互联网的计算机应用系统。这里的组合或者聚合就是我所谓的计算协作。该计算协作系统是基于我的Web3.0，也即语义网系统的。

因此，WebOS就是要实现我这里所谓的语用网，即知识计算系统（参见第一部分的知识计算定义章节）。语用网的所有问题正是这里所阐述了的或者将要更进一步阐述的。

一个WebOS所支持的应用，就是确定一个必需的图灵机系统集合，并且定义它们的偏序关系，组合（或聚合）为一个整体。Petri说该整体中的任何一个部分都不可少，否则整体就不完整了。这个应用系统是跟整个Web计算世界相关的，而不能孤立出来。Web应用正是在这种关系中体现出自身的价值来的。

很简单，很清晰，看到这里，我们大家就都可以成为计算机专家、特别是网络专家了。并且等这个知识共享系统被成功应用以后，人们再来理解我的语用网（http://blog.donews.com/ygzw/）系统应该就要简单许多了。毕竟科技进步是一点一点逐步前进的，而非跳跃式。

赵维谈什么是Web3.0之五—Web系统发展总结

至此，网络系统技术将要发展到了4个层次，从下往上依次是互联网系统的联通层，Web系统的资源层，知识系统的分配层，以及语用网的社会层。互联网实现了信息的全球联通；Web实现了信息资源的普遍联系；知识系统实现Web资源的“按需分配”；语用网实现了全球计算资源的“社会化协作”。各层功能明确，界线清晰。互联网已TCP/IP为主；Web以HTTP/超链接为主；知识系统以RSS/OPML/KML为主，其中KML指的就是我上面给出的用于集合OPML的知识标记语言；语用网以语用单元典/知识计算语言为主。

知识共享系统的“按需分配”指的是“在最适当的时机，把最适当的Web服务器里的信息资源分配给最适当的Web客户端（即现在Web系统里安装了如ie的浏览器的Client端系统）”。在Web系统里，Web客户端之间并不需要直接联系，而只跟Web服务器联系。如QQ等P2P网络，正是在Web客户端系统之间建立了直接的通信联系。知识共享系统正是利用这个P2P网络，在Web客户端系统之上建立起一个OPML社会化分享机制。此时的客户端系统所组成的P2P网络将演化发展为“人类知识本体系统”，而端系统将为“该本体系统里的一个本体”。从这个意义上来讲，本体具有了天然的社会化属性。从严格意义上讲，任何人，包括领域权威或者专家，都不能够构造出所谓的本体库来。本体库只能由社会自然演化而来，如同汉语语言里的字典是编辑出来而不能够构造出来的一样。

社会化是这里的一个最重要概念。所谓社会化，指的是这么一个系统或者机制，是由被称为其社会成员的个体们所组成的集合；社会化研究的是其社会成员间的关系--即社会关系，而非成员本身；社会关系就是社会成员间的社会分工与社会协作。这个系统或者机制的存在理由是它具有最小的系统内耗和最大的系统性能。这个社会就是我们人类的自身存在。也因此有人得出来计算机人工智能里的本体概念源自于哲学社会学里的存在概念。

语用网里，一切计算设备和（或）系统（都被称为语用设备）都将联入互联网，是Web客户端系统。所有软件资源人们都只需要部署并维护在Web服务器里的一个副本，而由知识共享系统统一“按需分配”到所有语用设备里。这里的“需”指的是语用网里的社会分工与社会协作之需，也即知识计算，或称语用工程。

语用网系统里的核心技术是语用单元典与知识计算语言。众所周知，解决数学计算问题的软件程序遵循的是图灵机模型。所有软件代码系统都将被部署于UEFI的handle数据库里的，并将被同时抽象到语用单元典里的原子字典里。语用工程遵循的则是Petri网系统，解决的是部署于UEFI里的图灵机系统的协作问题。即图灵机系统按Petri网论协作为Petri网系统。

按照Petri对语用计算的研究，语用语言包括字词句篇4级形式化技术。这正是汉语言的形式化过程。同时我们可以回顾程序语言的形式化过程恰类似于英语：有确定的保留字（英语字母），有限排列为程序语句（英语单词），有限排列为代码模块（英语语句），由模块组成应用系统（由句谋篇）。

语用语言里的字包括从UEFI里抽象来的原子字外，还有抽象一个Petri网系统的构造字。语用语言里的词抽象了实现图灵机系统间通信的消息，表达了计算系统间的社会化分工与协作的关系。

由于软件模块的复用率不同，语用字就有常用、次常用和生僻字之分了。由于不同领域所依赖的数学计算不同，语用工程里的字也有不同领域之分。同样描述图灵机系统间通信的词，也就有了常用、次常用和生僻词之分了。

语用句似乎令人费解，但代码模块却能被软件工程界所自然接受。与软件工程关注的是系统内部实现不同，语用工程关注的系统间的关系问题。字抽象了图灵机的复用，词抽象了消息的复用。而某些图灵机系统间的消息序列也具有复用价值，这个消息序列的复用就由语用句来抽象了。

如果我们把语用网里的所有图灵机系统抽象为点，而把图灵机间的通信消息抽象为边的话，我们就可以画出来语用网的系统结构图了。该图就是Petri网系统所组合成的Petri网社会。当然可以按照合并复用性原则来化简。这个系统结构图就是人类社会图谱：以人为点，社会关系为边；按照社会分工与协作合并化简。

该系统的特点是可以用线性的代价获得指数的性能。这正是社会系统的“最低代价与最大性能有机结合”的特别之处。社会系统里，成员是由成员间关系描述的。任何个体的关系总是有限的，如同人手机里的通信录大小总是有限，一般为200。社会个体数目每增加一个，每一个成员都将增加一个关系可能。那么全社会就增加了无限个可能。这即是社会系统所具有的“以有限的代价换取无限的可能”的特质。（待续）

摘要：完整给出了Web3.0的问题、系统实现与模型分析

标题：Web3.0系统—用P2P网络实现Web语义搜索的知识共享

赵维谈什么是Web3.0之一—Web3.0问题

赵维谈什么是Web3.0之二—我的系统

赵维谈什么是Web3.0之三—知识共享系统解析

赵维谈什么是Web3.0之四—WebOS系统展:分析WebOS系统问题及由来

赵维谈什么是Web3.0之五—Web系统发展总结

（以上请参见上一篇--【总结篇】Web3.0系统纵论（上）--8月18日更新，紧接着部分为以下【总结篇】Web3.0系统纵论（下）的内容）

赵维谈什么是Web3.0之六—知识共享系统之深度解析

深度解析《Web3.0—用P2P网络实现Web语义搜索的知识共享系统设计》

在上面的“Web3.0之五”里已经说过：社会化网络包括实现信息联通的互联网、实现资源共享的万维网（Web）、实现知识共享的语义网（Web3.0），以及实现计算协作的语用网等界线分明、功能依次递进的4个层次。那么在各个层次里的技术系统又是如何发展的，并且是什么样的规律在技术发展的现象背后起着决定性的作用的呢？该问题的理解需要非常的智慧，以下我试着讲解。

实现信息联通的互联网已经深入人心了，并且已经被确认了，社会信息网络正3网合一到互联网上来了，自不必多言。下面分别从Web、语义网和语用网3方面来谈。

Web存在与发展的理由

在实现资源共享的Web层面，有早期局域网络系统里的文件服务器和广域网络（即互联网）里的ftp服务器，人们完全没有看清Web服务器的必要性。这就是Web发明人当年推广Web系统技术不起来的根本原因。后来是在网景公司获得成功，以及IBM等大型机构的参与下才逐渐把Web发展成为社会信息基础设施的。可惜人们似乎并没有分析这里的深层次原因，来吸取经验教训，以避免类似的先进技术不被投资与科研界所认同的尴尬再次发生。这里试图做一弥补。

文件服务器是局域的，ftp服务器是广域的，它们都是孤立的，相互没有联系的，因而是无结构的。而Web网络却是相互联系的，把整个Web资源相互联系为一个整体。该整体就是Web的系统结构。请参见上面系统分析里的“什么是Web”以及“Web系统结构”的有关章节。

普遍联系的特性是客观世界的本源特征之一。Web恰是揭示了这一世界本源，因而才得以普及为社会信息基础设施的。而且Web之后将不会再有其它什么系统来更好地实现资源共享了。也就是说在资源共享网络层里，Web就是最佳答案了。所发展的也是Web自身的发展，而不能取代和推翻。如Web取代了ftp服务器，语义网实现的知识共享将推翻如Google和百度的Web关键字索引系统。

语义网存在与发展的理由

在Web广为社会所接受以后，其发明人又开始搞了语义网，虽然推广了许多年，但人们仍然不理解。是因为Web发明人并没有认识清楚语义网的本质和关键，所以他阐述得不够明晰，因而人们就无法实现了。

在Web发明人，即语义网概念提出人的眼里，Web之后的一切都是语义网了。其实这是错误的，不正确的。早在2002年就有人指出Web之后必然存在着语用网系统（The Pragmatic Web--MAY • JUNE 2002 http://computer.org/internet/ 1089-7801/02/$17.00 ©2002 IEEE IEEE INTERNET COMPUTING）。而在2007年更有人指出来语义网并没有提出人所阐述的那么先进和智能，而仅仅就是Web3.0（Embracing “Web 3.0”--Published by the IEEE Computer Society1089-7801/07/$25.00 © 2007 IEEE IEEE INTERNET COMPUTING）。这里我更给出了我所发明的这个知识共享系统，并且明确指出来：语义网层次里，这个知识共享系统就是最终系统了。因为它揭示了主观世界的普遍联系特性，该特性也是主观世界的本源特征之一。

语义网的基本实现就是RSS、OPML和这里将给出的实现知识共享的KML（Knowledge Markup Language，知识标记语言）。其中RSS聚合Web资源，OPML聚合RSS，而KML是在Web客户端世界里组建的P2P网络里聚合OPML。KPL将演进为“知识本体库”。

从关注Web资源的社会学属性，而发展出来的知识共享系统，不久将成长为社会知识的基础设施，并将以“知识本体”的身份或面貌发展成为实现社会知识计算的语用网系统的支撑。

语用网存在与发展的理由

语义网知识本体是Web里网页资源的聚合而来。当Web资源是程序模块时，软件模块聚合为更大的模块甚至系统。模块聚合需要明确定义模块间的关系。这里的模块就是对象，或者类。模块间的关系就是消息，实现对象间通信的消息。

Web资源是软件时，称该软件为Web服务，简称服务。这个领域的研究通常把这里的模块聚合叫做服务组合，即SOA。语用网就是具体实现SOA的技术系统。

但语用网与SOA仍然有根本区别：SOA的软件部署于Web服务器端，服务组合发展在Web服务器端之间；而语用网的计算模块部署于Web客户端，计算协作发展在Web客户机端之间，Web服务器里仅仅存储了计算模块软件的执行代码系统。

理解语用网确实有点困难。这个理解困难主要体现在以下3点：1）要理解软件系统都遵循图灵机模型。任何软件系统，小至一个计算模块，大至一个计算应用，都是一个图灵机系统。2）图灵机系统的偶模型叫Petri网。3）Petri网模型的实现技术就是语用网系统了。以下试着分别阐述。

软件系统实现图灵机模型

计算是人类认识与实践活动的基础。所有数学系统里，自然数都属于公理性认识。加减乘除四则运算，至少加法和乘法运算，也是公理范畴。当我们要求加法与减法互逆的时候，运算的数域将扩大到了整数范畴。同样乘法与除法互逆的要求将扩大数域到了有理数。而继续引入的其它运算，如指数对数三角等，又在逆运算的要求下扩大数域至实数范畴了。在更大的数域里增加更多的运算子，是人类数学认识的一般发展过程。

运算的通用模型为（P,D,I,O）四元组。其中P是运算符或者叫做操作符，D是被运算数或者叫被操作数，I是运算数或者叫操作数，O是运算结果或者操作结果。一般计算任务，通常不能由一次运算获得，而需多次连续运算。称该多次连续运算过程为该计算任务的图灵机进程。因此图灵机进程就是我们解决数学应用的计算过程。一个完整的计算过程就是一个图灵机系统。称实现图灵机系统（具有相同的条件I和相同的结果O）的所有图灵机进程等价。因此图灵机系统又称特殊图灵机模型。而研究所有图灵机进程的一般性规律的就属于通用图灵机模型了，研究通用图灵机模型将导出著名的算法实践。因此算法是计算机工程里最重要的部分了，算法的实现就是软件系统。

特殊图灵机模型定义为（I,O；P,D），即在已知操作数（I）和预期操作结果（O）的情况下，如何用连续的操作符与被操作数组合（P,D）来完成计算任务。称这个连续的（P,D）组合--还是（P,D）组合--为该计算的图灵机进程。通用图灵机研究图灵机进程的一般性规律。因此算法必需包含2个部分：记录运算子的操作符号系统，记录被运算数的操作数据系统。操作系统就是合理安排该操作符号与操作数据的计算机系统。

算法都体现为一个软件，小至一个具体的计算模块，大至控制许多计算模块组合规则的应用系统。程序实现算法，图灵机回答算法的正确性和有效性问题。其中算法有效性又叫算法复杂度。如今居然有软件人员不知道算法，更不知有图灵机的，实在令人汗颜！

图灵机模型与Petri网模型对偶

一个图灵机系统定义为（I,O；P,D），即在已知操作数（I）和预期操作结果（O）的情况下，如何用图灵机系统来实现计算任务。一个Petri网系统定义为（P,D；I,O），即在已知图灵机系统的情况下，如何用联系图灵机系统间的输入输出（I/O）消息来实现图灵机系统的组合，以实现动态系统的计算模拟--称该计算模拟为系统仿真。并称这个沟通图灵机系统的消息序列为该计算的Petri网进程。我称这里实现算法组合的计算为Petri计算。相对应的，我称实现算法的计算为图灵计算。

当我们把图灵机模型（I,O；P,D），与Petri网模型（P,D；I,O），放一起对比研究的时候，我们发现它俩具有特别的关系：图灵机模型的问题域--（I,O）组合--恰是Petri网模型的解域，而图灵机模型的解域--（P,D）组合--恰又是Petri网模型的问题域。反之亦然。

在数学里，我们称这种问题域与解域互换的一对数学模型为对偶模型。对偶模型间存在对偶关系，即任一系统里的命题的偶命题就是其对偶系统里的命题。这是我们研究对偶模型的价值所在，如此就可以迅速地扩展人类的认识范围。

知识计算实现Petri网模型

如上分析所知，Petri网系统解决软件系统的组合、即图灵计算协作问题。我称实现图灵计算协作的Petri计算为知识计算。不同于以往的计算就是软件里的图灵计算，以后的计算不仅包括以前的图灵计算，更有这里的Petri计算了，因此我们要特别指出不同的计算模型。如不指明就是缺省的Petri计算了，因为这里研究的就是Petri计算。

知识计算是以软件模块为基础，统一解决模块复用问题。如何实现知识计算呢？首先是抽象软件模块，再定义模块间的消息。当计算机系统里的所有软件模块以及沟通模块间联系的消息，统统都定义完整了的话，该系统将被唯一确定。

在UEFI里，软件模块被注册于handle数据库里。知识计算就是基于该handle数据库之上通过定义消息序列来构造计算机应用系统的。称一个Petri网计算机应用系统里的所有消息所组成的偏序序列为Petri计算的进程。网论里，称Petri网系统为特殊网论。而通用网论研究所有网系统的Petri计算进程的规律性，从而导出语用网和知识计算，如同通用图灵机研究导出算法和程序设计一样。图灵机回答算法的正确性和复杂度，Petri网回答了知识计算的正确性和不变量。其中不变量回答了知识计算系统的有效性、即效率问题。

软件计算发展为知识计算

软件工程技术当前已经发展到了面向对象（OO）这里了。在OO技术里，一切都是对象，对象就是一个图灵机模型的实现。OO技术（如java）里最重要的发展是实现了接口（interface）与实现（implementation）相分离。但这个分离不够彻底，系统访问模块的正常方式是接口，但也可以直接访问模块本身。而且在程序设计中，这种直接访问方式使用的似乎更多更广。人们只在特别需要标准化的地方才设计出接口来。

在UEFI里，已经不在直接访问模块本身了。所有注册进handle数据库的模块都被抽象为接口。UEFI里的接口叫协议（Protocol），是模块间的相互访问标准。在OO里我们知道，一个模块可以实现多个不同的接口，同样，一个接口可以被多个不同的模块分别实现。接口只有被实现后才能访问，访问的是模块，而不是接口本身。接口本身不能被访问。

如此分析，我们就知道了：知识计算只不过是软件工程技术自身发展的一个必然；而在技术发展背后起决定作用的却是计算系统基础理论的质变过程。

我们应该如何学习？

这个话题我说了很多遍了。在一个注重原始创新的社会里，我们一定要学习原文。所谓学习原文，指的不是学习英文，我指的是学习发明人的原始著作，比如学习图灵机就只能阅读图灵自己的著作，学习Petri网也一定要阅读Petri本人的原著！他人的文章一般不可阅读，至多只能当理解发明人原著有困惑时的参考。这个参考价值实在是微乎其微：一般来讲，没有人比发明人自己对他的东西更理解的了，否则就是别人的发明了，至少也是别人更进一步的补充发明了。

用这个阅读原创发明的观点和方法来看，可以供我们阅读和学习的东西其实真的很少。一般来讲，当今社会发达的时代，发明总是相当困难的。一个人一生也不会有太多，一篇，甚至有一句话传世下来，就应当是很了不起的事情了。那些所谓著作等身的达人们，通常写的都是小说或者以写小说的方式来做研究而已，如徐志伟老师的《电脑启示录》。

跟发明家学习原始创新，而跟小说家学习就只能写出小说来了。这是我国计算机科研领域内的当前写照！

赵维谈什么是Web3.0之七—基本概念补充

这个部分主要阐释一些特别重要又很基础的基本概念和观点。如计算机科学的研究领域，以及什么是计算语言，以及语法的研究对象。

什么是语义学和语用学？

语义与语用都是语法学里的专有术语。所谓语言就是一个符号系统，语法研究符号系统规律或规则。语言有自然语言与理论语言之分。一般而言，自然语言就是人类语言；理论语言从数学语言到专业词汇等，主要是人们设计出来用于表达和描述某一模型或系统规则与行为的。自然语言语法研究自然语言规律，理论语言语法定义理论语言规则。人们是从自然语言规律中认识语法，并在理论语言规则中实践应用语法的。

哲学研究世界本源。人类一切认识，特别是具体领域科学，都起源于哲学。因此语法学的起源就是语言哲学了，语义学和语用学都是语言哲学的研究领域或分支。特别是语用学几乎还没有被从哲学领域里分离出来。语义学和语用学定义不同理论语言规则。

语义学规则形如英语（或者程序设计语言），有26个字母的基本语言元素（或者确定数量的程序设计语言关键字与保留字），字母有限排列为单词（或者关键字有限排列为程序语句），单词有限排列为语句（或者程序语句有限排列为程序模块），语句有限排列为文章（程序模块有限排列为程序系统）。

语用学规则形如汉语（或者知识计算语言），有理论无穷实则有限多个汉字（或者理论无穷实则有限多个语用字），组词（语用组词），造句（语用造句），谋篇（语用谋篇）。

人们特别称被物理实现了以后的理论语言为计算语言。因此语义学语言就是算法理论与程序设计语言，而语用学就是我的研究并在这里指出其实现方法论的。

语义学概念与语义网项目间的关系

上面所说明的语义学是语法学研究的分支，目的是给出语义学理论语言来。而语义网项目是Web发明人提出来的Web系统技术的一个发展方向或者可能，但多年没有实现。在语法学里很早就有语义学研究了，早期的人们认为语法里面只有语义学一个理论。直到1938年前后人们才认为语义学不能阐述全部语法现象，因而才杜撰并引入语用学概念来。但语用学的研究却一直萌芽中，没有深入。上面给出的只是我个人的研究。语义网项目的发起人所说的语义就是早期语义，即没有分化出语用学的语义概念。因此我的“语用网与知识计算”研究实际上是探索了语义网项目的一条切实可行的实现道路。

语义网里的重要技术概念RDF、OWL等，被实践技术RSS、OPML以及这里的KML等所覆盖和实现。

什么是网格（Grid）计算？

早年由Ian Foster发起的网格计算项目，曾以其华丽的名头吸引了国内众多的跟风者。但人们始终回答不了“什么是网格”，以及“网格如何解决问题”等基本概念，从而导致该项目早已成为了镜中花水中月。事实上Foster设想网格计算项目也是希望解决计算协作问题的，因为计算机工程里只是”计算协作问题“才是实现图灵机系统以后的最根本问题。

该境况在语义网格等其它众多探索性项目里一样存在着。这里就不一一而足了。

什么是计算机科学的研究对象？

自然科学都是自己明确的研究对象，如物理研究客观世界的组织结构规律，化学研究物质的分子学规律，历史研究人类过去经历，地理研究地球发展规律。那么，计算机科学研究的对象是什么呢？

有人说是计算机硬件系统，即逻辑与数字的电子电路学。这个认识显然是错误的，硬件部分只是计算机系统的物理实现，而不是计算机的本质。

还有人说计算机是研究图灵机及其实现的科学，这个理解在过去算是基本正确。图灵机是一个数学的理论模型，理论模型表达为理论语言系统，人们称表达图灵机的理论语言为算法。因此计算机的研究对象是算法及其物理实现。

计算机研究图灵机语言与实现，图灵机只是一个数学模型。那么其它数学模型是否也可以是计算机所研究的对象呢？答案是肯定的，只是其语言与实现技术没有被发明出来，也就缺乏实用价值，因而缺乏研究罢了。Petri网便是另一个研究计算理论的数学模型。由于Petri网与图灵机对偶，而图灵机是已经实现了的计算模型，所以我们可以基于图灵机系统之上实现Petri网模型。Petri说实现Petri网模型的理论语言就是语用学。与算法相对应，我称语用学研究内容为知识。因此我的研究实际上是探索了一条以图灵机系统为基础实现再一个计算模型的方法和道路。该道路是比软件工程更为抽象的一门语言和方法论。

就是因为人们对计算机科学研究对象的模糊性认识，导致如今人们虽然须臾都离不开计算机，但还存在有怀疑计算机是否能够算作一门科学的声音。

计算机科学的本质是研究人类意识的理论化及其物理实现的系统技术，也即吴文俊所谓的“脑力劳动机械化”。

“语用网与知识计算”属于计算机的哪个研究领域？

前面分析所知，计算机科学不仅具有数学属性，更具有哲学属性。人工智能研究起源了计算机科学的各个领域，很有着“计算机系统哲学”的味道。因此语用网首先属于人工智能范畴。

语用网落在Web发明人所提出的语义网领域。可以这么说：语用网项目研究并实现了Web发明人所提出来的语义网项目的全部设想，语用网项目给出了“语义网项目设想”的以Petri网论作为系统理论依据、语用网作为物理实现方法与知识计算作为计算发展道路等一揽子计划与方案。

什么是KML语言？

Web资源聚合语言已经包括RSS聚合Web资源、OPML聚合RSS，由于RSS和OPML里所包含的语义学特性不足，因此我发明了这个知识共享系统。按此专利可以直接导出聚合OPML的技术标准，该标准就是KML，知识标记语言。

实现Web资源聚合的语义网，发展到KML时就完整了。KML将直接演化出“知识本体”来，因此也叫KOL，知识本体语言。

总结

如上分析，Web网络的4层结构：互联网、Web资源网、语义分配网和语用协作网。语义分配网指语义网实现Web资源分配、计算分工；语用协作网指语用网解决基于UEFI的计算协作问题。两者都属于社会学分工与协作的范畴，因此我称它们为社会计算。现在来理解语用网与知识计算系统，是否会更加容易些呢？


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	156.250ms