新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → 什么是语义搜索引擎 -- 读书笔记 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 11902 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 什么是语义搜索引擎 -- 读书笔记 举报  打印  推荐  IE收藏夹 
       本主题类别: Ontology Engineering | RDF/RDFS    
     FullerHua 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:6
      积分:112
      门派:XML.ORG.CN
      注册:2009/4/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给FullerHua发送一个短消息 把FullerHua加入好友 查看FullerHua的个人资料 搜索FullerHua在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看FullerHua的博客楼主
    发贴心情 什么是语义搜索引擎 -- 读书笔记

    最近读了Leigh Dodds的一篇文章[URL=http://blogs.talis.com/nodalities/2009/04/streams-pools-and-reservoirs.php]Streams, Pools and Reservoirs[/URL],可谓长见识,Leigh Dodds认为语义搜索引擎(semantic search engine)和具有语义分析能力的搜索引擎(semantically enabled search engine)是两码事,得出这个结论的根据是对Web内容组织和检索的历史的回顾,类比曾经发生的Web的几个历史阶段,Leigh Dodds展望了基于linked data cloud的语义搜索引擎的特征,下面整理一下该文的要点及其思考

    Web内容组织和检索历史回顾

    Web的演变过程可以归纳成以下阶段:

       1. 内容在线发布,当数据量增大后,用一种分类索引的方式组织Web上的内容,我估计原文作者可能指类似于Yahoo早期的分类索引
       2. 搜索引擎自动地为内容建立索引,用了一个词“create a link-base”
       3. 搜索引擎的特色化和增值业务


    结构化内容(data sets)的组织和检索展望

    Leigh Dodds认为当前已经处于类似上述第一阶段的后期了,即,有大量的结构化数据用RDF描述,然后还有LOD项目(Linking Open Data),即将出现语义搜索引擎将data sets联系起来。

    当前阶段的描述是:data sets之间的关系和联系的维护在很大程度上还是手工的,引自原文如下:

    Not in the sense that members of the LOD community are manually entering data to link datasets together, but rather at the level of looking for opportunities to link together datasets, encouraging data publishers to co-ordinate and inter-relate their data, and by attempting to organically grow the link data web by targeting datasets that would usefully annotate or extend the current Linked Data Cloud.

    因此,Leigh Dodds预测:语义搜索就是自动地将data sets联系和组织起来。区别了语义搜索引擎和具有语义分析能力的搜索引擎。

    他认为,具有语义分析能力的搜索引擎(semantically enabled search engine)是

    use techniques like natural language parsing and improved understanding of document semantics in order to provide an improved search experience for humans

    而语义搜索引擎(semantic search engine)是:

    A Semantic Web search engine should offer infrastructure for machines. Simple semantic web search engines like Swoogle and Sindice provide a way to for machines to construct '''link bases''', based on some simple expressions of '''what data is of relevance''', in order to find data that is of interest to a particular user, community, or within the context of a particular application. And crucially this can be done without having to always crawl or navigate over the entire linked data web. This process can be commoditised just as it has with the web of documents

    思考

    在两年前着手开发[URL=http://www.gooseeker.com/cn/node/Fuller/2009041502]MetaSeeker工具包[/URL]的时候,这种声音并不是主流,当时更多的人将重点放在语义识别上,我选择不同的方向不是因为更有眼光,而是凭着一个老程序员的这点技能,搞人工智能或者本体论相关方面的探索想都别想,我更愿意开发一个实用的工具,让建设垂直搜索和社交网站的人能够低成本甚至零成本的提取Web数据。因此,选择了Web内容结构化的路,实际上这条路也不简单,例如原文说的data relevance的组织和建设,至今还没有找到一种很有效的方法。

    普通搜索和语义搜索的对比

    作者用一个表格进行了对比,抄录如下:(表格不知道怎样排版,可以访问[URL=http://www.gooseeker.com/cn/node/Fuller/20090427]看这个表格[/URL])

    Document Web Semantic Web Infrastructure Description
    Google Image Search Type Searching Ability to discover resources of a particular type: e.g. Person, Review, Book
    Google Translate Vocabulary Normalisation Application of simple inferencing to expose data in more vocabularies that made available by the publisher
    Google Custom Search Community Constructed Data Sets and Indexes Ability to create and manipulate custom subsets of the linked data cloud
    Google Trends Linked Data Analysis & Publishing Trends Identifying new data sources; new vocabularies; clusters of data; data analysis

    我从开发实现的角度并没有理解这个表格,开发出来的目标系统的外在的特征应该是什么样子的,Leigh Dodds认为后两项是:

    to be able to easily aggregate, combine and analyse aspects of the linked data cloud

    没有理解该怎样实现。

    参考实现

    Leigh Dodds使用水流比喻在理想的Web环境中,数据应该也是类似流动的,从stream,到pool,再到reservoir,作者认为必须有一个基础设施保证数据流的顺畅。作者举了一个例子Talis Platform,认为其建立了一个建设数据水库的生态环境,并在文章Enabling the Linked Data Ecosystem中进行了论述。该系统的功能特性:

        * RSS,比作data stream,Leigh Dodds称其为core search service,没有理解,应该是内容推送,怎么会是搜索?
        * SPARQL,对数据进行查询
        * Augmentation service,在RSS推送的内容中增加metadata
        * store groups,将多个data set组织成更大的实体

    思考

    看来,我应该参考一下Talis Platform的store groups特性,改进我刚刚发布的[URL=http://www.gooseeker.com/cn/node/download/front]共享软件MetaSeeker[/URL],也许就是前面我提到的data relevance的建设。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/4/27 16:27:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客2
    发贴心情 
    语义搜索的概念可以分为广义的和狭义的,本文中的语义搜索引擎是狭义的语义搜索引擎。
    从不同的角度看语义搜索引擎会得到不同的结论。

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/4/28 8:00:00
     
     richardjya 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究汇编)
      文章:32
      积分:224
      门派:XML.ORG.CN
      注册:2007/7/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给richardjya发送一个短消息 把richardjya加入好友 查看richardjya的个人资料 搜索richardjya在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看richardjya的博客3
    发贴心情 
    赞同Leigh Dodds的观点
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/4/28 9:12:00
     
     whfcarter 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机学士学位(贵宾)
      文章:143
      积分:2145
      门派:XML.ORG.CN
      注册:2005/3/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给whfcarter发送一个短消息 把whfcarter加入好友 查看whfcarter的个人资料 搜索whfcarter在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看whfcarter的博客4
    发贴心情 
    挺有意思的帖子,其实不管是狭义还是广义,只要有用,比现在的有提高就是好的。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/4/29 19:29:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/6 9:25:05

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    58.594ms