新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论XLink, XPointer, XQuery
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 XQuery/XLink/XPointer/ 』 → 全文检索(Full-Text Search)与XML 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 10096 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 全文检索(Full-Text Search)与XML 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     ksu99 帅哥哟,离线,有人找我吗?天秤座1974-10-20
      
      
      威望:4
      头衔:完美生活
      等级:大三暑假(ITELS考了6.5分!)
      文章:74
      积分:763
      门派:XML.ORG.CN
      注册:2004/6/3

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ksu99发送一个短消息 把ksu99加入好友 查看ksu99的个人资料 搜索ksu99在『 XQuery/XLink/XPointer/ 』的所有贴子 引用回复这个贴子 回复这个贴子 查看ksu99的博客楼主
    发贴心情 全文检索(Full-Text Search)与XML


    (ksu99@163.com 摘译自XQuery 1.0 and XPath 2.0 Full-Text W3C Working Draft 09 July 2004
    http://www.w3.org/TR/2004/WD-xquery-full-text-20040709/)
    XML文档可能包含高度结构化的数据(数字、日期)、非结构化数据(无标签的自由流文本)和半结构化数据(使用内含标签的文本)。当一个文档包含非结构化或者半结构化数据时,能够使用像全文检索这样情报检索(Information Retrieval)技术检索那样的数据是很重要的。 全文检索与子串检索在很多方面不同:
    1. 全文检索(full-text search)搜寻短语(一个单词的序列)而不是子串。使用子串检索(substring search)包含字符串“lease”的新闻条目,将会返回一个包含“Foobar Corporation releases the 20.9 version ...”的新闻条目,而对短语“lease”的全文检索不会这样。
    2. 期待中的全文检索将支持基于语言和基于标志的检索,而子串检索不能。基于语言检索的一个例子为“给我查找所有包含与‘mouse’有相同词干的词(查找‘mouse’和‘mice’)的新闻条目”。一个基于标记的检索的例子为“给我查找所有在3个词(标记)的‘查询’内包含词‘XML’的新闻项”。
    3. 全文检索受语言的变化和微小差别影响。返回的结果常常具有不同的有效性。当你在一个网站上检索所有价格少于100美元的照相机时,这是一个精确的查找。有一组照相机符合这个检索,也有一组不符合。同样地,当你对新闻条目用“mouse”做一个字符串检索时,只有一个预期结果集。当你做全文检索,假定检索所有包含单词“mouse”的新闻条目,你可能希望找到有单词“mice”,可能还有“rodents(啮齿动物)”(或许是“computers”!)。但是不是所有的结果都合适:一些结果比别的更“mousey(像老鼠)”。因为全文检索可以是不精确的,我们有计分或者相关性的概念:我们通常期待看到最有关的结果在结果列表的顶端。当然相关性在旁观者(beholder)的眼中。注意:随着XQuery/XPath的发展,会把计分概念应用到查询结构化检索中。比如,在制订旅行计划或者选购照相机时,有时获得一个接近结果的有序表更有用。如果XQuery/XPath 定义一个统一的不精确的匹配,我们假定能够利用由full-text语言提供的计分构架。
    4. 随着XML成为主流,用户期待能以XML格式存储并检索他们的文档。这需要一个标准的方式来对XML文档做全文检索,以及结构化检索。一个相似的对全文检索的需求引导ISO定义SQL/MM-FT标准。SQL/MM-FT定义扩展了SQL,提供了类似的功能,使其能够表达全文查询,正如这里提到的full-text语言对XQuery 1.0/XPath 2.0所做的扩展一样。
    5. 全文查询执行在标记化的文本上,也就是分成单词序列、标点符号单元和空格。
    6. 一个单词定义为由标记器返回的任意字符、元语法、或者字符序列,作为被查询的基本单元。一个单词的每个实例由一到多个连续的字符组成。除此之外,单词由实现定义。注意连续字不需要由标点或者空格分开,且单词可能交迭。短语是有序字的一个序列,可以包含任意数量的单词。
    7. 标记化使得可以用函数和操作符表示单词的相对位置(举例来说,近似操作符)。它也唯一识别包含单词的句子和段落。标记化也使函数和操作符可以操作于单词的一部分或者词根(举例来说,通配符、词干)。
    8. 我们使用命名空间“ft”(代表full-text)与URL http://www.w3.org/2004/07/xquery-full-text 相应并用来定义全文检索的命名空间。我们也使用“fts”来在语义章节里做定义。


    [此贴子已经被作者于2004-12-26 11:23:30编辑过]

       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    交个朋友吧!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/12/26 10:24:00
     
     ksu99 帅哥哟,离线,有人找我吗?天秤座1974-10-20
      
      
      威望:4
      头衔:完美生活
      等级:大三暑假(ITELS考了6.5分!)
      文章:74
      积分:763
      门派:XML.ORG.CN
      注册:2004/6/3

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ksu99发送一个短消息 把ksu99加入好友 查看ksu99的个人资料 搜索ksu99在『 XQuery/XLink/XPointer/ 』的所有贴子 引用回复这个贴子 回复这个贴子 查看ksu99的博客2
    发贴心情 
    W3C全文检索规范是对XQuery的扩展,也是一个新的突破点。

    ----------------------------------------------
    交个朋友吧!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/1/13 15:30:00
     
     GoogleAdSense天秤座1974-10-20
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 XQuery/XLink/XPointer/ 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/5/12 11:18:23

    本主题贴数2,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms