以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web Services & Semantic Web Services 』  (http://bbs.xml.org.cn/list.asp?boardid=10)
----  [讨论]语义搜索技术  (http://bbs.xml.org.cn/dispbbs.asp?boardid=10&rootid=&id=62034)


--  作者:Humphrey
--  发布时间:4/30/2008 3:52:00 PM

--  [讨论]语义搜索技术
咱们论坛里不乏见多识广的有识之士,语义搜索方面据说现在有不少成果了。可是我们能见到的好像还是老样子。
主流搜索引擎采用某些算法来实现语义分析功能,形成了“使用算法进行检索排序=利用本体进行语义分析”的应用效果格局。
传统算法与本体语义分析在使用效果上基本等同?
当前真正实践语义检索或搜索技术的搜索引擎有哪些呢?
请各位了解语义搜索领域的同仁谈一谈您的看法,谢谢!
--  作者:nesodic
--  发布时间:5/1/2008 11:02:00 AM

--  
共同研究一下。。
--  作者:lxqneu
--  发布时间:5/3/2008 2:56:00 PM

--  
看看
--  作者:lxqneu
--  发布时间:5/3/2008 8:19:00 PM

--  
深奥
--  作者:lxqneu
--  发布时间:5/3/2008 8:20:00 PM

--  
共同研究一下
--  作者:smile_lulu
--  发布时间:5/4/2008 11:26:00 AM

--  
同问,也想多了解一下这方面哦
--  作者:Humphrey
--  发布时间:5/5/2008 11:29:00 AM

--  
万马齐喑究可哀。同志们有什么高见尽管帖出来啊!有见解才有交流嘛。
--  作者:Humphrey
--  发布时间:5/5/2008 11:33:00 AM

--  
常用的可应用于语意检索的泛本体都有哪些?哪个更好或更常用一些呢?
--  作者:jpz6311whu
--  发布时间:5/5/2008 1:41:00 PM

--  
楼主可以看看国外相关文献:
semantic search,ontology based search/retrieval
--  作者:Humphrey
--  发布时间:5/5/2008 2:35:00 PM

--  
正在看的说……,不过如果有人了解,大家交流一下经验和看法岂不很好?
三个臭皮匠,顶个诸葛亮。大家纸上谈兵、坐而论道也是一件幸事。
--  作者:zhkf603
--  发布时间:5/9/2008 5:44:00 PM

--  
一起研究~~~~·
--  作者:lycsyd
--  发布时间:5/9/2008 8:00:00 PM

--  
CNKI上关于这方面的文章好少  有谁了解 说说这个东西
--  作者:Humphrey
--  发布时间:5/12/2008 4:21:00 PM

--  
虽然国内做这个的很少(或者说成果出众的很少),但不是没有。我看到一篇写得不错。但是平时大家谈论这方面内容的情况的确不多,一些概念也很模糊。
--  作者:ceruleanstone
--  发布时间:5/12/2008 6:07:00 PM

--  
整准备做这方面研究,大家一起来讨论!!
--  作者:Humphrey
--  发布时间:5/13/2008 11:25:00 AM

--  
各位目前进度如何?有什么收获了么?
想做这方面研究的人还是不少的,或者是最好的选择?
--  作者:inswords
--  发布时间:5/13/2008 9:30:00 PM

--  
talk with others together
--  作者:Humphrey
--  发布时间:5/14/2008 8:53:00 AM

--  
有没有专门讨论语义搜索的讨论群可以加入呢?大家一起研究,互通有无也是不错的选择啊!
--  作者:zibo
--  发布时间:5/14/2008 10:18:00 PM

--  
关注中!!
现在有不少论文中有关于检索的例子,但是没有实例演示还是不太明白
请教本体与数据库如SQL SERVER如何实现语义检索?
--  作者:zeng16107
--  发布时间:5/15/2008 5:22:00 PM

--  
。。。。mark
--  作者:y6cn
--  发布时间:5/15/2008 11:13:00 PM

--  
哈,说来说去还是白说,没一点讨论成果。
--  作者:Humphrey
--  发布时间:5/16/2008 1:52:00 PM

--  
不错,或许是大家过于保守了。刚刚起步时走的总是不会很顺利,磕磕绊绊。
但是当您逐步深入的时候,就会有截然不同的感觉了。只是很少有人在这里分享经验,可能是担心论文的创意流失而不易通过吧。
--  作者:ceruleanstone
--  发布时间:5/25/2008 8:01:00 PM

--  
我的研究点是语义Web查询,重点准备放在数据库这一块,有什么想法大家留下来啊
--  作者:Humphrey
--  发布时间:5/26/2008 8:50:00 AM

--  
很好,您的重点是数据库,那么您使用哪种数据库呢?是侧重于数据异构还是数据挖掘呢?
根据您的理解这两者的关系如何呢?我们完全可以讨论一下。
--  作者:ceruleanstone
--  发布时间:5/26/2008 11:07:00 AM

--  
Oracle数据库,现在没有做数据异构和数据挖掘!
做过一点RDF存储方面的研究,关系数据库的语义检索,关系数据库的本体提取等
……………………………………………………………………………………
想:关系数据库的查询优化在语义查询中可以做点什么?
--  作者:Humphrey
--  发布时间:5/26/2008 1:28:00 PM

--  
看来您已经做了一部分东西了,我目前采用的是MySQL。
但是据我所知,本体库存储到关系数据库之后是无法直接用SQL查询的,只能通过本体库编辑工具。不知道Oracle在这方面怎么样?
--  作者:hahahoho
--  发布时间:5/28/2008 3:52:00 PM

--  
共同研究。
语义化的知识要进行语义化的查询还是有路子可循的。
研究重点一是如果抽取语义信息,二是在于如何将查询语义化,例如将自然语言查询转换为SPARQL查询。三是将语义查询结果生成自然语言文本。
--  作者:Humphrey
--  发布时间:5/28/2008 5:09:00 PM

--  
自然语言查询转化,的确如此,但是搜索内容的处理也同样不能忽视。
否则咱们搜索什么,不是吗?对搜索内容也要进行统一整理,进行语义化的。
--  作者:Humphrey
--  发布时间:5/28/2008 8:51:00 PM

--  
我有些时候觉得,用传统搜索引擎的某些算法好像也能在一定程度上达到语义分析类似的效果。而且为了达到语义检索的效果,还需要加入专门的语义分析及推理模块,这本身就会降低检索效率,使检索结果不能马上返回。而且同样也会面临海量数据无法迅速分析和操作的问题,以及结果的反馈问题。
机器加程序分析能够和绝大多数人的想法完全重合吗?我有些怀疑……
--  作者:hejing
--  发布时间:5/28/2008 9:44:00 PM

--  
感觉讨论的很空,没什么实际的东西

--  作者:Humphrey
--  发布时间:5/29/2008 3:19:00 PM

--  
刚刚入手,至少我目前还处在入门阶段。入门阶段的我能提出多少实际性的东西呢?
但是大家的想法千差万别,它山之石可以攻玉。如果没有有实践经验的同志的发言,这样的讨论只能停留于肤浅和空洞。
如果您有高见,欢迎赐教,小可不胜感激。
--  作者:ceruleanstone
--  发布时间:5/29/2008 10:35:00 PM

--  
同28楼  
     我也觉得用传统搜索引擎的某些算法也能在一定程度上达到语义分析类似的效果。在《Sesame:A Generic Architecture for Storing and Querying RDF and RDFS》一文中,提出了将RDF(S)转换为关系模式存储的策略。我也写过一篇这方面的文章,所以有了这种想法并且完全可以实现:设计合理的关系模式存储RDF(S),那么可以基于用户的普通SQL查询,构造出复杂的SQL查询(构造过程中包含了简单的语义推理:如subClassof、subPropertyOf关系等),从而也就可以实现基于关系数据库的语义查询了!——当然,感觉只能实现简单的语义推理查询,如果要实现高级复杂的推理过程,是否也可以做到?
      个人之见,欢迎交流!
--  作者:beyondlei
--  发布时间:5/29/2008 11:53:00 PM

--  
我觉得大家可以结合论文来讨论,这样讨论会比较具体,先列出一些我看过的论文:
1. SemSearch: A Search Engine for the Semantic Web
   http://kmi.open.ac.uk/publications/pdf/semsearch_paper.pdf
这是四篇文章中最早发的一篇,给出了 semantic search 的整体架构,
(1)首先对ontology进行index,大部分的实现采用lucene来完成;
(2)接着当用户输入keywords,利用上一步的index来完成semantic entity匹配,即找到keywords对应的ontology中的entities(literal,property,concept);
(3)然后使用上一步的entities来构建formal query,比如 Sparql查询语句;
(4)最后使用已有的工具jena,sesame2, kaon2执行上一步得到的formal query语句
当中还可以加入ranking query这一步。
本文给出了语义搜索的架构,但具体第(3)步如何构建formal query,采用了template方法,所以有很多限制,效果并不理想,后面几篇论文都是在如何构建formal query,以及如何ranking query这两个问题上进行的改进。  

2. SPARK: Adapting Keyword Query to Semantic Search (ISWC2007)
   http://iswc2007.semanticweb.org/papers/687.pdf
这篇是上海交通大学的ISWC07的论文,对上一篇中第(3)步构建formal query的步骤采用先分割query set,再使用minimum spanning tree算法构建 query graph,最后利用一些概率的方法来完成ranking query,得到Sparql查询语句。

3. Ontology-based Interpretation of Keywords for Semantic Search (ISWC2007)
   http://iswc2007.semanticweb.org/papers/519.pdf
这篇论文主要对第(3)步构建formal query的步骤提出了如何connect第(2)步中得到的entities来构建query query graph的算法,ranking query采用简单的path lenth为标准。

4. Q2Semantic: A Lightweight Keyword Interface to Semantic Search (ESWC2008)
   www.aifb.uni-karlsruhe.de/WBS/dtr/papers/eswc08_q2semantic.pdf
这篇是上海交通大学的ESWC08的论文,是对之前方法改良较大的一篇,最重要的改进是引入了clustered RACK graph(a summarz of the original RDF graph)的概念和方法,比如把original RDF graph中所有的instances都map进其相应的concept节点等等,这样大大减小了RDF graph的size,使得query construction和ranking更加快速,另外一个好的改进在于:ranking query不仅考虑了keywords matching relevance,path length,还考虑类似于Google PageRank的Importance of Edges and Nodes。
但同时也引入了一些问题,由于构建query时没有考虑instance和instance之间的连接(instance都map进相应的concept),所以有可能得到的formal query(Sparql查询)查询不到任何结果。

个人的理解,可能有些地方不准确。


--  作者:63henry.black
--  发布时间:5/30/2008 10:56:00 AM

--  
恩,楼上说的很多和我思路一样,我也是通过算法来实现推理的,感觉这样会比较简单,也比较容易出成果,不结合算法的推理现在我还没想到怎么做
--  作者:zr_84
--  发布时间:5/30/2008 11:32:00 AM

--  
学习
--  作者:ceruleanstone
--  发布时间:5/31/2008 9:43:00 PM

--  
谢谢32楼的beyondlei提供的资料
   
  正想找点东西来读!
--  作者:Humphrey
--  发布时间:6/1/2008 4:56:00 PM

--  
个人以为最大的问题是如何快速有效地进行推理和检索,毕竟用户最关心的是检索结果,而不关心如何实现。语义搜索引擎天生就比普通搜索引擎多出一个推理模块,自然会降低检索速度。为了做到有效的推理,知识库又需要足够完整。我试用了几款语义搜索引擎,有一些能看到明显的缺陷,足见这个领域仍处于起步阶段。
话说回来,其实我感觉beyondlei和63henry.black同志和我,咱们考虑这个问题有很多相通之处,或许这样的结果和我们所接触的材料有关。而且一旦形成思维模式可能不太容易跳出这个框框了。
--  作者:Humphrey
--  发布时间:6/1/2008 5:46:00 PM

--  
还有两个重要问题是:
采用哪种本体查询语言来进行推理和检索,目前有SPARQL、DAML+OIL、OWL等若干种语言,哪种功能最完善效率最高?
如何提取有效的URL,即信息提取器的选择,普通的信息提取器恐怕难以胜任针对语义网络的信息抽取,只能使用特别用于语义网的。这里面还包括如何使信息提取器提供有效的URL以方便信息抽取。
不知各位有何高见?
--  作者:ceruleanstone
--  发布时间:6/2/2008 9:08:00 AM

--  
OWL功能应该是最强大的,也是W3C所推荐的本体描述标准。
其中OWL Lite的推理能力较弱,而OWL DL和OWL Full的描述能力和推理复杂度都是很强的!
信息提取器偶不是很清楚!
--  作者:Humphrey
--  发布时间:6/2/2008 9:23:00 AM

--  
其实“信息提取器”是这类工具的统称,也可以称作“爬虫”、“蜘蛛”或“机器人”。
语义搜索技术无非是对海量的信息用计算机进行高等级的序化,如果没有这种工具,只能由人工添加记录,就会变成传统的网络目录了。
--  作者:Humphrey
--  发布时间:6/2/2008 1:43:00 PM

--  
现在国外号称使用语义检索技术的搜索引擎很多,但是国内的却还没见到。
国内语义搜索引擎目前发展到什么程度了?有应用的实例吗?可否推荐一二?
--  作者:ceruleanstone
--  发布时间:6/2/2008 8:49:00 PM

--  
中科院计算所的知识网格:http://www.knowledgegrid.net/
东南大学的万维网科学研究所:http://iws.seu.edu.cn/page/chinese/
清华大学的知识工程研究室http://keg.cs.tsinghua.edu.cn/

当然还有其他的一些,在这上面有一些相关的研究动态以及应用系统体验!


--  作者:Humphrey
--  发布时间:6/3/2008 2:39:00 PM

--  
看来国内好像没有多少开放运行的语义搜索服务系统,即使是以上几个权威机构也只提供了在特定领域的应用,而没有全面的互联网语义搜索引擎。或者是我太笨,偏偏没看着?
或许我们必须承认,我们国家的语义搜索技术还是落后于国外。难道国内真的没有多少值得称道的语义搜索应用吗?我期待着答案……
--  作者:zibo
--  发布时间:6/3/2008 6:45:00 PM

--  
分析得很有意义,学习中!
--  作者:Humphrey
--  发布时间:6/4/2008 10:38:00 AM

--  
我们还有个任务,要求列举国内外语义搜索技术的动向和存在的问题。
不过说实话,这也太难把握了。看会议论文再总结,费力气和时间不算什么,但是对这个领域不很熟悉,怎么做到有效的评论和展望?
而且文章以介绍成果居多,哪些会成为将来时代的主流,作为新手如何预测?!
还望同志们多多给予指导,谢谢!
--  作者:Humphrey
--  发布时间:6/4/2008 3:06:00 PM

--  
有一种说法是:国内偏向理论研究,国外偏向实践应用。
不敢确定。掌握国内外发展动态不是看几篇文章就能够有定论的,而会议论文分类又比较宽泛,所以请教对语义搜索技术领域比较熟悉的同志谈谈自己的看法。如果确实属实,那么接触和研究进入实质性阶段的同志应该是为数不少的。
我不相信我们国家只有三两个机构在进行相关研究,一定还有更多……
--  作者:Humphrey
--  发布时间:6/4/2008 9:02:00 PM

--  
搜索了一阵子,终于有所斩获,与本主题相关的内容如下:
我打算做一个基于语义搜索的数据网格http://bbs.w3china.org/dispbbs.asp?boardID=57&ID=17252
Google是一种语义搜索引擎吗?http://bbs.w3china.org/dispbbs.asp?BoardID=35&id=44480&replyID=44480&star=1&skin=0
关于语义搜索http://bbs.w3china.org/dispbbs.asp?boardID=10&ID=6543
关于“语义搜索”的系统设计http://bbs.w3china.org/dispbbs.asp?boardid=57&id=48682&star=1
要开始啦!关于语义搜索引擎的...... http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=25220&replyID=15580&star=1&skin=0
不过暂时还没有看完,稍后继续……
--  作者:ceruleanstone
--  发布时间:6/4/2008 9:18:00 PM

--  
谢谢Humphrey的辛勤工作和分析      抓紧时间学习中……
一起继续努力啊,把研究做下去!!!
--  作者:cassiemudan
--  发布时间:6/4/2008 9:44:00 PM

--  
学到很多,多谢各位了!
又看到语义检索的希望了^_^
不久前微软研究院院长来我们学校做报告,还重点强调了他们也在搜索这块做了很多东西,我问了一下他们有没有做语义检索,用本体之类,他说他们没有用什么ontology,但说语义检索要看怎么理解,他觉得只要符合用户需要的就是语义检索,他们现在做的就是语义检索!
--  作者:Humphrey
--  发布时间:6/5/2008 10:29:00 AM

--  
感谢同志们的支持!我很羡慕你们,能够听到权威机构的报告;有传承有序的帮带。而我却什么也没有,对这个领域的研究就是我一个人的战役,所能借重的只有你们和无边的网络……。
希望大家能够把自己的感受和最新的信息带到这里,一同分享。
我们一起努力,把这个项目做好!
--  作者:63henry.black
--  发布时间:6/5/2008 4:35:00 PM

--  
恩,很多资料都出来了,感谢各位的辛勤工作.
  语义推理中怎么使用owl中的规则进行推理应该是研究的方向和趋势,但是如何用,我看了那么多没有想法,有高手有这方面的研究么?
--  作者:Humphrey
--  发布时间:6/6/2008 3:36:00 PM

--  
诸位能否再提供一些国内语义搜索方面的开放型应用实例?(除41楼列出的3个外的其它研究情况)
我稍后将把自己目前所掌握的国外语义搜索应用实例整理奉上,敬请期待。
--  作者:Humphrey
--  发布时间:6/9/2008 4:15:00 PM

--  
国内很多项目目前似乎都是正在建设中,除了东南大学之外真的没有其他研究机构开发出可用的语义搜索引擎吗?
如果事实如此,那么近几年来我国在理论上有哪些进展呢?(研究状况如何?)
--  作者:Humphrey
--  发布时间:6/9/2008 5:41:00 PM

--  
有这样的搜索引擎,它不仅允许人们用所谓的"关键词"对信息库进行检索,而且允许人们用"概念"甚至用"自然语言"进行检索。这种具有自然语言理解功能的搜索引擎能划入“语义搜索引擎”范畴吗?
--  作者:ceruleanstone
--  发布时间:6/10/2008 1:46:00 PM

--  
53楼的问题
我个人的看法是:可以划入“语义搜索引擎”的范畴。
     因为,语义搜索若完全依靠本体库进行推理实现语义查询,在目前知识库不是很完备的情况下,反而在一定程度上降低了查全率!譬如假定对于用于输入的查询,如果在知识库中没有找到对应的本体实例,那么查询结果为零,而如果直接利用关键字在文档中搜索反而可能得到查询结果。所以为了平衡因知识库不完备而导致的查全率下降的情况,可以把传统的关键字检索加入进来,作为语义搜索的一个重要补充手段。
--  作者:Humphrey
--  发布时间:6/10/2008 6:14:00 PM

--  
楼上所言有理,但是这必然增加我们对“语义搜索引擎”的研究和测度范围。而且事实上这种搜索引擎几乎可以说相当于传统搜索引擎的分词与同义词表加强版,某种角度讲和我们平时所说的“语义搜索引擎”有很大不同。
重要的是如果将其划入“语义搜索”范畴,可能要改变我们一直遵从的语义网和语义搜索的认知。部分传统搜索引擎也将因其采用一些有利于自然语言分析的算法和新型检索策略增强用户体验来达到接近语义分析的效果。这种情况下,我们是把它们也算作“语义”搜索还是“非语义”搜索呢?
--  作者:lizfsmile
--  发布时间:6/12/2008 10:34:00 PM

--  
受益非浅,感谢大家的讨论,慢慢学习中。。。。
--  作者:lxqneu
--  发布时间:6/13/2008 3:16:00 PM

--  
对于语义搜索引擎,用户输入了java这个搜索词,语义搜索引擎是怎么样工作的呢?rdf,owl在这里起到了什么样的作用?是怎么起作用的?
--  作者:lxqneu
--  发布时间:6/13/2008 3:16:00 PM

--  
对于语义搜索引擎,用户输入了java这个搜索词,语义搜索引擎是怎么样工作的呢?rdf,owl在这里起到了什么样的作用?是怎么起作用的?
--  作者:ceruleanstone
--  发布时间:6/17/2008 9:32:00 PM

--  
关于国内语义web的发展情况,我从17th International World Wide Web Conference的报告中整理了一份资料,大家可以了解一下。
      http://blog.tianya.cn/blogger/post_show.asp?idWriter=0&Key=0&BlogID=450994&PostID=14289700
--  作者:ceruleanstone
--  发布时间:6/17/2008 9:37:00 PM

--  
文中提到了IBM中国,东南大学,上海交大,浙江大学,清华大学在semantic web方面所做的研究,其中有很大一块与Semantic Search and Query相关,且已有了对应的实用系统。具体详情大家可以访问文中提到的URL。
--  作者:inswords
--  发布时间:6/18/2008 9:58:00 PM

--  
google上的那两个group怎么才能加入?
--  作者:ceruleanstone
--  发布时间:6/19/2008 11:22:00 AM

--  
先注册成为google的用户,然后再“Apply for group membership”就可以了,在那两个地址的链接页面中都有。提交自己的申请后,要等待其批准加入才OK!
--  作者:inswords
--  发布时间:6/19/2008 12:50:00 PM

--  
google group人数有限制吗?怎样申请才能让那两个group接受呢?
--  作者:Humphrey
--  发布时间:6/23/2008 7:59:00 PM

--  
感谢ceruleanstone同志提供的分析材料,使我们对07-08年度国内的语义搜索研究和实践有了不少了解。美中不足,分析材料中的有关RelSE语义检索系统在页面中不包含任何帮助或对其所属单位的链接;反过来APEX中也未能找到指向RelSE的链接。在不能明确地知晓其应用情况和技术的情况下,仅有单一的系统应用链接是无法说明问题的。
请问有关RelSE的说明或相关文章有哪位同志掌握吗?可否指教一二?谢谢。
--  作者:Humphrey
--  发布时间:6/24/2008 10:46:00 AM

--  
讨论区中有关近年来重要国际会议上我国成就统计文章链接:
ISWC2006: http://bbs.w3china.org/dispbbs.asp?BoardID=2&ID=37501&replyID=58987&skin=1
ISWC2007: http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=50267
WWW2006: http://bbs.w3china.org/dispbbs.asp?BoardID=2&replyID=31089&id=29838&star=1&skin=1
WWW2007: http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=43178&replyID=78822&skin=1
WWW2008: http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=58809&replyID=58809&star=1&skin=0
以上评论皆出自管理员admin之手(其中ISWC2006部分评论有leopard同志的增补)借此机会对管理员admin同志的辛勤工作致以崇高的敬意,同时也对leopard同志的补充表示感谢!
--  作者:shibin0528
--  发布时间:6/25/2008 10:04:00 AM

--  
一直有一个疑惑,语义在语义搜索中的作用是不是仅仅在于扩展概念呢?而搜索结果的准确性还是依靠搜索结果的RANK算法.希望得到大家的意见.
--  作者:rosskwok
--  发布时间:6/26/2008 9:12:00 AM

--  
语义在语义搜索中的作用并不仅仅在于扩展概念这么简单,对结果用RANK算法的前提是你有哪些结果,而加上了语义的搜索明显对其具有影响,还是那个经典的例子:
比如网上有一个叫宠物粮的店铺,由于宠物种类很多,不能全部列出来,现在想买“狗粮”这个物品,如果店铺里没有这个词,搜索的时候就无法匹配,而在semantic search里,如果有“狗是宠物”这样一条知识,就可以匹配到结果。


--  作者:markero
--  发布时间:6/26/2008 8:19:00 PM

--  
我的博士答辩口试题目就是 Search engines for the Semantic Web。从现在开始我有两个星期去准备一个关于这个题目的45分钟的talk,还有30分钟的questions。要命的是我之前做的完全不是这方面。现在在抓紧时间看一些资料,希望跟大家有些交流。我的msn: bd_huang@msn.com。
--  作者:twwwgauts
--  发布时间:6/27/2008 11:27:00 AM

--  
图像的语义检索也值得做吧!
--  作者:Humphrey
--  发布时间:6/27/2008 9:15:00 PM

--  
以下是引用twwwgauts在2008-6-27 11:27:00的发言:
图像的语义检索也值得做吧!


不错,语义图像检索方面的文章也不少。只要基础扎实、技术过硬,完全可以做出高质量的东西来。
--  作者:beyondlei
--  发布时间:6/27/2008 10:01:00 PM

--  
大家可以推荐一些多媒体语义搜索方面的好文章吗
--  作者:shrink
--  发布时间:6/29/2008 5:36:00 PM

--  
关于搜索和推理,个人感觉其目标是一致的,最终结果都是返回用户所期望的数据。最近把Kaon2的几个例子跑了一下,感觉如果要结合常用的关系数据库进行推理,还是可行的,最起码本体的解析过程会提速很多!Kaon2的做法是采用了虚本体的方式,与数据库建立映射关系。另外WSMO的那一帮人搞了一套东西,叫做加载推理(姑且这么叫!呵呵),通过把检索语句(面向某个本体,支持合取检索,Datalog,SPARQL)/本体/本体之间的映射关系/本体与本地数据源模式之间的映射关系,共同加载到推理机中,通过逻辑推理(还有一些LP逻辑编程的东西),一次性的完成检索任务,感觉很不错!但是没有看到最终的系统!大家可以关注一下!


--  作者:Humphrey
--  发布时间:6/30/2008 8:21:00 AM

--  
用Kaon2有一定的麻烦,主要是说明文档太少,上手不容易。楼上所说的结合常用的关系数据库进行推理,不是本体持久化后进行推理吗?如果是,那么当前主流推理引擎应该都能做到吧。至于它的推理性能,因为没有使用过,因此也不便评论。不过若如楼上所言,应该属于整合的推理方式,至于是否节约推理时间,个人认为最好做一个测试来进行比较。不知楼上以为如何?
感谢shrink与我们分享有关Kaon2的概况,在此表示感谢,谢谢!
--  作者:beyondlei
--  发布时间:6/30/2008 11:25:00 AM

--  
我觉得kaon2上手还是比较容易的,尤其是那10个example简洁易懂,看完以后基本的功能都应该可以写了,http://ontoware.org/ 是aifb的一个code repository,上面大部分工具都是基于kaon2开发的,很多是开源的,其中有相当出名的neon toolkit,但我下了几个,有些代码编译总是报错。

效率记得好像版主有个帖子比较过。


--  作者:shrink
--  发布时间:6/30/2008 5:14:00 PM

--  
感觉自己闷着头干还是疑问多多!看了大家的帖子很有收获!
以下是我的一点想法:
结合常用的关系数据库进行推理,不是本体持久化后进行推理吗?如果是,那么当前主流推理引擎应该都能做到吧。
这里面有个先鸡还是先蛋的问题,呵呵!如果对遗留数据源进行集成,这时候Kaon2的东西就挺好用的!不用把数据库的数据导成本体实例呀!关于本体持久化了解不是很多,感觉是先有本体,在讨论本体实例的数据库存储问题!              不知理解的对不对!Humphrey

至于它的推理性能,因为没有使用过,因此也不便评论。不过若如楼上所言,应该属于整合的推理方式,至于是否节约推理时间,个人认为最好做一个测试来进行比较。不知楼上以为如何?
我可能没有表述清楚!他们提出这种方法适用于基于本体模式映射的集成环境,此处应该不是推理性能的问题!如果你阅读了DERI的相关delivery,会发现此种方法是一种技术上的创新!


欢迎其他的同道来此分享!把自己的想法用几句话说明白也是一种写作的锻炼嘛!


--  作者:Humphrey
--  发布时间:7/4/2008 10:02:00 AM

--  
这两天浏览器莫名其妙地不能登陆讨论区,因此没能及时回复,请原谅。
使用最多的推理引擎是Jena,但是并不是说KAON2就不好。关键是易用性和效率,至于使用什么工具,我觉得您自己觉得有兴趣就可以用。常见的名气较大的免费推理引擎有Jena, Pellet, Kaon2, RacerPro(需使用校园电子邮件地址注册)等。
本体持久化,通俗地说就是将本体数据用数据库保存,以增强检索效能。为大量本体文件提供高效检索和管理渠道。
推理引擎的应用环境应该基本上是一致的,或许某个方面具有独到的优势,理论上讲功能和应用测评应该是最理想的判断优劣的方法。毕竟实践是检验真理的唯一标准。如果同志们对推理引擎有所了解,不妨讨论讨论。语义搜索的重要组成部分之一就是推理引擎,因此对推理引擎的运用也直接影响着搜索的结果和效率。
--  作者:李宁
--  发布时间:7/5/2008 5:24:00 PM

--  
有收获
--  作者:shrink
--  发布时间:7/8/2008 7:53:00 PM

--  
几天没上网了!Humphrey的想法很有见地,现在还有个问题,比如最常用的Sparql语言,是针对本体模式检索的,那么如果配合以推理机,能够达到什么效果那?是否可以实现诸如大家常说的同位、上下位、蕴含之类的语义检索功能那?换句话说,检索的图模式是否可以自动进行扩充那?检索中出现的本体概念能否自动的扩展到同位、上下位、蕴含的概念那?比如检索Java语言类书的作者张三,但是没有符合的实例,同时张三写了一本C语言的书,是否通过推理可以扩展到C语言类,从而获的检索结果,因为他们的父类是计算机类图书?
呵呵!描述逻辑研究不深!可能有弱弱的地方,大家不吝赐教!!
--  作者:Humphrey
--  发布时间:7/9/2008 9:32:00 AM

--  
感谢shrink同志提供新的想法,您所说的“检索Java语言类书的作者张三,但是没有符合的实例,同时张三写了一本C语言的书,是否通过推理可以扩展到C语言类,从而获的检索结果,因为他们的父类是计算机类图书?”事实上目前国内已经有类似项目,那就是清华大学的ArnetMiner,它所提供的功能中有一部分和您所说的极为相似。
对于“本体查询语言”其实我还没有进行过深入了解,不过据我所知目前推理引擎对某一种或几种本体查询语言提供了支持。我感觉它们之间的关系类似理论和实践的关系:推理引擎提出了一种语义推理的思想和方法,而操作则需要通过具体的查询语言和本体库作为“工具”。或许这种理解有失偏颇,不过一个只能想不能做的“推理引擎”是没什么用处的。


[此贴子已经被作者于2008-7-11 17:01:31编辑过]

--  作者:Humphrey
--  发布时间:7/11/2008 5:21:00 PM

--  
目前我们所能接触到的语义搜索引擎并不多,其中有一部分商用,其算法和结构等同于商业机密。就像前几天论坛里讨论到的Powerset;还有一些虽然有名,却不能使用:国际万维网协会有一个称作Ontaria的项目就是语义搜索引擎,但是服务已经停了不知多长时间了;还有一部分属于研究中的语义搜索引擎,概念很新,但是检索效果不好,例如Koru。剩下一小部分是技术公开的,我们可以找到相关论文或技术文档,如Swoogle。不过仅从这一小部分语义搜索引擎的情况就能获悉整个语义搜索领域的现状和发展趋势吗?我觉得很玄。
究竟还有多少语义搜索引擎是我们所不知道的呢?
--  作者:shrink
--  发布时间:7/11/2008 6:47:00 PM

--  
看了Humphrey的回复很有感触!语义检索和推理方面的研究太多了,而且对逻辑学方面要求颇高,比如现在很火的描述逻辑DL和逻辑编程LP,看了一些文章感觉两者结合起来确实好,但是想深入做点应用却步履维艰!呵呵,水平有限呀!

对于“本体查询语言”其实我还没有进行过深入了解,不过据我所知目前推理引擎对某一种或几种本体查询语言提供了支持。我感觉它们之间的关系类似理论和实践的关系:推理引擎提出了一种语义推理的思想和方法,而操作则需要通过具体的查询语言和本体库作为“工具”。或许这种理解有失偏颇,不过一个只能想不能做的“推理引擎”是没什么用处的。

Humphrey的想法和我的有些不同,接下来探讨一下。1)不通过推理引擎,SPARQL是否可以执行呢?因为据我所了解的情况,所有的推理引擎均不支持完整的SPARQL语法,但网上有一些SPARQL在线执行的例子却可以完整的支持。那么是否可以得出结论,检索语言和推理引擎并不需要配套使用。2)通过推理引擎,SPARQL获得了那方面的支持那?换句话说,和不加载推理引擎所完成的检索在结果集上有什么区别那?
感觉还是有点糊涂!!大家支支招!


--  作者:Humphrey
--  发布时间:7/11/2008 7:40:00 PM

--  
以下是引用shrink在2008-7-11 18:47:00的发言:
1)不通过推理引擎,SPARQL是否可以执行呢?因为据我所了解的情况,所有的推理引擎均不支持完整的SPARQL语法,但网上有一些SPARQL在线执行的例子却可以完整的支持。那么是否可以得出结论,检索语言和推理引擎并不需要配套使用。2)通过推理引擎,SPARQL获得了那方面的支持那?换句话说,和不加载推理引擎所完成的检索在结果集上有什么区别那?


我还没做到这么多呢,还得向shrink同志多学习呀!您所说的情况都存在,虽然我对SPARQL并不清楚,但是根据SQL的情况可以类比的得出它的情况(有可能并不正确)。
首先这种查询语言是否可以脱离推理引擎而使用?我认为完全可以。SQL也同样可以,所以才有了利用数据库漏洞执行SQL进行爆库的攻击方式,而且有专门为SQL开发的执行器。
推理引擎给SPARQL提供了哪些支持?可能只是作为一个对本体库进行操作的工具,而支持那种查询语言事实上只是出于效能、兼容性以及用户的使用习惯等因素考虑。
一家之言,仅供参考。若所述有误,欢迎拍砖。
--  作者:Humphrey
--  发布时间:7/13/2008 9:42:00 AM

--  
在有关PowerSet的话题中:http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=64148
讨论了有关语义搜索引擎类型的问题。业内权威人士也提出了他们自己的看法。
但是我仍有一事不明:既然语义搜索引擎可以有“面向用户型”,必然也会有其他类型。那么其他类型是什么?或者是“面向知识库(本体)”型和其他一些类型?
谁能回答这个问题呢?期待中……
另外,将谷歌的特殊搜索方式(~+关键词)列为语义搜索表面看来应该没有太大的问题,但是它的实现方式是否符合我们对语义搜索引擎的定义呢?相关技术文档也一直没有找到。甚至在谷歌的搜索帮助中也只字未提!
--  作者:beyondlei
--  发布时间:7/13/2008 10:07:00 AM

--  
连 baojie 这样的牛人也不知道什么是“真正的”语义搜索引擎,
看来目前还没有语义搜索的公认定义。
类似Google找"~fast food", 返回 Burger King, Taco Bell,... 只要搜索中有语义匹配,都能算语义搜索; 搞语义网的人会说用了ontology来完成语义匹配和查找的是语义搜索; 看过Microsoft Research Asia有几篇论文关于 ·Object level Vertical Search· 就是不以页面为单位而以页面中的元素即object为单位并为这些objects建立relation来完成object级的搜索,他们也说这是语义搜索。

面向用户型我觉得就是指普通老百姓能用的。
--  作者:Humphrey
--  发布时间:7/13/2008 10:26:00 AM

--  
其实我认为鲍大哥对此还是比较清楚的,他已经给出了答案:目前似乎没有真正的语义搜索引擎。不过现有的语义搜索引擎将会被列为什么种类岂不成了问题?
而我始终认为:只有具备自主分析推理能力的搜索引擎才是真正的语义搜索引擎,换句话说就是它必须具备类似于知识库和推理引擎这样的用于分析其接触的内容的基础架构。故而我把语义搜索引擎仅分为广义和狭义。
--  作者:yangzeyuan
--  发布时间:7/13/2008 12:48:00 PM

--  
有一些自己的想法,回头整理一下发上来

--  作者:Humphrey
--  发布时间:7/13/2008 2:43:00 PM

--  
以下是引用yangzeyuan在2008-7-13 12:48:00的发言:
有一些自己的想法,回头整理一下发上来


欢迎您参与讨论!
--  作者:shrink
--  发布时间:7/13/2008 5:46:00 PM

--  
以下是引用Humphrey在2008-7-11 19:40:00的发言:
[
我还没做到这么多呢,还得向shrink同志多学习呀!您所说的情况都存在,虽然我对SPARQL并不清楚,但是根据SQL的情况可以类比的得出它的情况(有可能并不正确)。
首先这种查询语言是否可以脱离推理引擎而使用?我认为完全可以。SQL也同样可以,所以才有了利用数据库漏洞执行SQL进行爆库的攻击方式,而且有专门为SQL开发的执行器。
推理引擎给SPARQL提供了哪些支持?可能只是作为一个对本体库进行操作的工具,而支持那种查询语言事实上只是出于效能、兼容性以及用户的使用习惯等因素考虑。
一家之言,仅供参考。若所述有误,欢迎拍砖。

第一个观点我很赞同,后来考虑了一下,的确应该如Humphrey所说;
但是后面一个观点我有点不同的想法,如果仅仅是出于优化、使用习惯方面来考虑检索,那么本体所体现出来的“显式的语义表达与描述”去哪里了呢?跟一般的作用于数据库模式上的SQL又有何区别呢?既然叫做“推理引擎”,总得做点“顾名思义”的工作吧!!



--  作者:shrink
--  发布时间:7/13/2008 5:49:00 PM

--  
以下是引用Humphrey在2008-7-13 9:42:00的发言:
在有关PowerSet的话题中:http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=64148
讨论了有关语义搜索引擎类型的问题。业内权威人士也提出了他们自己的看法。
但是我仍有一事不明:既然语义搜索引擎可以有“面向用户型”,必然也会有其他类型。那么其他类型是什么?或者是“面向知识库(本体)”型和其他一些类型?
谁能回答这个问题呢?期待中……
另外,将谷歌的特殊搜索方式(~+关键词)列为语义搜索表面看来应该没有太大的问题,但是它的实现方式是否符合我们对语义搜索引擎的定义呢?相关技术文档也一直没有找到。甚至在谷歌的搜索帮助中也只字未提!

和Humphrey同志的研究方向可能有差别,我现在比较关注基于模式方面的,而Humphrey则是类似于现在的Google搜索引擎类的。因此,研究的重点也会有所区别。模式集成往往是有领域限制的,因此形成共识就会有一定的基础;但是搜索引擎面向整个Web,因此想要做到粒度够精细的程度,不太现实。因此现在为止通用的标准也只有DC、FOAF等寥寥几个。如果仅仅是通过一个同义词库来实现,是否也可以说是语义检索呢?呵呵!定义太混乱!!


--  作者:Humphrey
--  发布时间:7/14/2008 10:18:00 AM

--  
以下是引用shrink在2008-7-13 17:46:00的发言:
如果仅仅是出于优化、使用习惯方面来考虑检索,那么本体所体现出来的“显式的语义表达与描述”去哪里了呢?跟一般的作用于数据库模式上的SQL又有何区别呢?既然叫做“推理引擎”,总得做点“顾名思义”的工作吧!!


事实上在数据容量较小的时候用本体推理实现的效果和使用关系数据库差距不大。只有在数据容量较大时才能看到明显差别。换句话说,纯粹用关系数据库做出一个模型,也可以达到和本体推理同样的效果,当然数据量不要太大,查询采用SQL;顶层服务与正常搜索引擎相同。
所以说,如果数据量小其实用SPARQL和SQL实现效果的确没什么区别。当然,实现方式不同,结构也不一样。
--  作者:ceruleanstone
--  发布时间:7/14/2008 11:08:00 AM

--  
对上面说法的个人认为:
————————————————————————————
我个人感觉SPARQL和SQL还是有区别,当然如Humphrey所言数据量的大小会影响最终查询结果的质量,但还有另外一个很重要的因素,那就是数据之间语义关系的复杂程度。
实现基于RDB的语义查询,途径之一便是可以对RDB上的SQL查询进行扩展,将一个SQL查询转换成多个查询加以执行,称之为OntoQE(Ontology_based Query Expansion)。但这种查询扩展只能利用数据之间同义、上下位等简单关系,并且这种查询扩展在提高了查全率的同时,极有可能降低查准率。
所以即使设计出来的关系模式很完善,但我感觉基于其上的推理能力(不管这种推理是直接实现还是间接实现)还是比较有限,对于OWL中定义的一些复杂语义关系,SQL似乎无能为力,而推理应该是语义查询很重要的一个方面。

——————————————————
关系数据库查询和语义查询之间的关联和转换不知道有没有其他人在做?大家一起讨论讨论啊


--  作者:shrink
--  发布时间:7/14/2008 5:50:00 PM

--  
这几天看了一些文章 ,先感慨一下!还是要多阅读!有一些新的想法根大家交流,SPARQL是一种针对本体模式的查询语言因此,可以下结论上述所说的所有的推理能力(也就是对RULE的处理能力)他都不具备,看下面的说法

Pellet supports SPARQL, which will allow you to make ontology queries.
However, SPARQL is an RDF-based query language and has no understanding
of OWL. It will, however, work with OWL if you have very simple queries.
I'm not sure how it will interact with SWRL though.

SPARQL can express RDF queries and will work with OWL in some
circumstances. However, its lack of understanding of OWL's semantics can
make it incredibly difficult to write many OWL queries.

对于rULE有SQWRL来处理:

1. Understands OWL with RuleML/SWRL
2. Handels queries in form of rules

o'k!看来得扩展一下思路了!
http://protege.cim3.net/cgi-bin/wiki.pl?SQWRL

正在阅读中!后续再聊!


--  作者:Humphrey
--  发布时间:7/20/2008 3:30:00 PM

--  
最近几天看不到大家在这里讨论问题了,主题也跟着慢慢下滑了。很抱歉,最近几天,可能还将有近一个月的时间,我都必须把文献整理作为主要工作。看到诸位的进度,我实在是感到惭愧!
最初发表这样一个话题正是因为对“语义搜索”不甚了了,希望向各位同行师长们学习,和有着相同研究方向的同志砥砺思想。这个初衷现在不会变,以后也不会变。即使我说不上什么,也会经常过来看看,向各位学习。
虽然暂时没有什么能和大家交流,但是你们还是可以在这里各抒己见。我也会尽力赶上来,和各位分享心得。希望整理工作不会白费,也希望诸位不要忘记这个讨论“语义搜索技术”的角落。
--  作者:baojie
--  发布时间:7/21/2008 10:06:00 AM

--  
Check this out

http://www.devx.com/semantic/Article/38595/1954?pf=true

Semantic Search Arrives at the Web
The current generation of search engines is severely limited in its understanding of the user's intent and the web's content. Find out how semantic search can address these limitations.  

by Peter Mika


--  作者:shibin0528
--  发布时间:7/21/2008 1:22:00 PM

--  
以下是引用rosskwok在2008-6-26 9:12:00的发言:
语义在语义搜索中的作用并不仅仅在于扩展概念这么简单,对结果用RANK算法的前提是你有哪些结果,而加上了语义的搜索明显对其具有影响,还是那个经典的例子:
比如网上有一个叫宠物粮的店铺,由于宠物种类很多,不能全部列出来,现在想买“狗粮”这个物品,如果店铺里没有这个词,搜索的时候就无法匹配,而在semantic search里,如果有“狗是宠物”这样一条知识,就可以匹配到结果。




谢谢你的回复,不过我对于这个例子的理解是,我在语义搜索的过程中扩展了狗粮这个实例,将它匹配到"狗粮"这个概念上,或者不叫做"狗粮"叫什么其他的概念上.而那条知识起到的效果可能就是将"狗粮"这个概念扩展到"宠物粮"这个概念上,与它是subclass的关系.不知道我的理解对不对.
--  作者:hahahoho
--  发布时间:7/29/2008 8:41:00 AM

--  
以下是引用Humphrey在2008-5-28 20:51:00的发言:
我有些时候觉得,用传统搜索引擎的某些算法好像也能在一定程度上达到语义分析类似的效果。而且为了达到语义检索的效果,还需要加入专门的语义分析及推理模块,这本身就会降低检索效率,使检索结果不能马上返回。而且同样也会面临海量数据无法迅速分析和操作的问题,以及结果的反馈问题。
机器加程序分析能够和绝大多数人的想法完全重合吗?我有些怀疑……

很好的直觉.数据挖掘的算法也是为了发现关系.而语义网则是显示表示和处理关系.所以数据挖掘的确能达到语义搜索的效果.但精确度肯定是不够的.
数据挖掘一般都需要有一个数据模型.所以如果语义网的确定模型应用到数据挖掘中可能会有意想不到的效果.
大家共同研究


--  作者:Humphrey
--  发布时间:7/29/2008 11:47:00 AM

--  
感谢楼上的交流,让我接触到了数据挖掘。不过我从接触语义网开始就没和数据挖掘打过交道,只是听说而已。您讲到“数据挖掘一般都需要有一个数据模型.所以如果语义网的确定模型应用到数据挖掘中可能会有意想不到的效果”,就是说必须要有一个领域模型或者泛本体一类的样本作为信息抽取的依据,是这个意思吧?
从另一个角度讲,语义搜索引擎似乎是少不了数据挖掘的。毕竟从包含海量信息的网络里抽取有效信息并“语义化”,必须经过这样的步骤。看起来和传统搜索引擎的抽取模式也是相似的,不过远高于关键词提取的等级。
--  作者:Humphrey
--  发布时间:8/1/2008 11:36:00 AM

--  
近几天看了"Semantic Search Arrires at the Web"(详见94楼,鲍大哥的推荐),对目前语义搜索的状态又有了新的了解,真心希望这样的文章能多找到一些!那样的话就不至于把语义搜索的发展脉络看偏了。
文中有一段内容很有意思,是有关SPARQL的。其中提到该语言虽是W3C标准却过于复杂,甚至远比任务实际需要复杂得多,开发人员掌握起来不容易,并推荐选择适宜的查询语言。前面我们曾讨论过这种语言,你们比我接触得多,对这种情况,你们怎么看?是否考虑过用什么查询语言替代呢?
--  作者:baojie
--  发布时间:8/1/2008 11:57:00 AM

--  
我觉得semantic mediawiki那种查询语言就很不错,简单,好用,对付日常应用足够了。

http://semantic-mediawiki.org/wiki/Help:Semantic_search


--  作者:Humphrey
--  发布时间:8/5/2008 9:48:00 AM

--  
最近十几天对会议论文的总结整理中发现了一个涉及次数较多的问题:关键词转译。
简单说来就是把关键词转译为描述逻辑查询。不过我私下以为关键词检索在语义搜索方面似乎是否转译意义不大。如果不转译,关键词就会像普通搜索引擎的关键词检索一样运作;如果转译,也无非是强制性将关键词纳入语义操作范畴。但是从检索效果而言两者未必有较大区别,同样无法避免关键词的模糊性和二义性带来的不确定影响。
将描述性查询进行转译完全可以理解,而关键词转译真的很有必要吗?如果它真的具备独特的优势,那么优势在哪里呢?不知诸位有何感想,欢迎交流。
--  作者:Humphrey
--  发布时间:8/8/2008 9:44:00 AM

--  
由于近日要将手头的工作赶出来,因此暂时还不能抽出时间来详细了解关于semantic mediawiki查询语言的适用任务规模和效果等相关问题,尤其是它能否承担语义搜索引擎的查询服务。当前工作完成后,我会尽快了解有关此查询语言的细节。借此机会对鲍大哥的支持和提示表示衷心的感谢,欢迎您光临指导。
--  作者:Humphrey
--  发布时间:8/13/2008 5:38:00 PM

--  
真正做到对整个网络进行语义搜索短期内确实不太现实。不仅是语义搜索技术本身的问题,网络文档结构也同样带来麻烦。另一方面是作为承载搜索服务的服务器也不能太平庸。总之面临的困难很多,但是既然选择了还是得做下去。不过结果如何,可真是一点儿底也没有。
其实一些研究机构和企业已经逐步推行统一文档结构了,微软的Office2007就采用了这样的方式。不知道XML/RDF标准今后的推广和发展会怎样。
--  作者:Humphrey
--  发布时间:8/16/2008 4:51:00 PM

--  
近日狂看语义搜索相关文献,看到头晕。
语义搜索应用领域十分宽广,即使到了今天我仍然不敢说我已经了解了语义搜索技术的全部应用。相应地我的记录也已经多次修改,有些面目全非了。
但是现在感觉其应用方向主要是搜索引擎、搜索代理、网格三方面。好像和传统搜索技术的应用范围也很接近吧?现在真是不敢下结论了,害怕了。
--  作者:Humphrey
--  发布时间:8/28/2008 1:42:00 PM

--  
知识库的选择
我们熟知的如WordNet、维基百科等都有相关的项目。并制成了RDF文档。同时也引发了使用哪些RDF文档的问题,而对于每个RDF的说明确又十分稀少,并且似乎是把一个整体的词典分解为若干小块,分解的依据也不甚明了。所以选什么?用什么?怎么选?怎么用?就成了语义搜索的头等大事。
我想还是请论坛中有开发经验的同志谈谈他们的看法吧,毕竟你们亲身经历了这个过程。谢谢大家。
--  作者:Humphrey
--  发布时间:9/6/2008 9:10:00 AM

--  
论坛中的语义搜索相关话题:
语义搜索引擎设计思路(基于现有的web)。http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=23187
语义搜索引擎swoogle:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=28257
我打算做一个基于语义搜索的数据网格:http://bbs.w3china.org/dispbbs.asp?boardID=57&ID=17252
语义搜索引擎:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=54126
Google是一种语义搜索引擎吗?:http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=44480
关于“语义搜索”的系统设计:http://bbs.w3china.org/dispbbs.asp?boardid=57&id=48682&star=1
关于语义搜索:http://bbs.w3china.org/dispbbs.asp?boardID=10&ID=6543
下一代搜索引擎:http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=46101
OntoSCORM:一个基于领域本体的知识搜索引擎http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=33180&replyID=43483&star=1&skin=0
关于语义搜索的问题,恳请赐教http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=6541

--  作者:Jevin
--  发布时间:9/8/2008 11:03:00 AM

--  
也在做搜索引擎这个方向,不过我们学校烂,老师刚开始这个方向懂得也不多,全靠自己一点点的肯。刚入门还没有具体的思路,有太多的盲点,一点点想法也随着论文的阅读以及学习的深入不断变化,感觉一个人做这个方向太累了,而且很难出成果,所以想在细化一下,选做语义搜索中的某个小块,这样仿真也容易,感觉楼主研究的比较深入能给你建议吗?
--  作者:Humphrey
--  发布时间:9/10/2008 3:15:00 PM

--  
Jevin同志过奖了,我也是最近才接触这个领域。您想从某一部分开始做的想法也应该是可以的。事实上,现行的语义搜索引擎功能上都只是针对语义网的。换句话说就是语义搜索的一部分啊。所以自己选择了什么方向,考虑好就尽快付诸实践或许是最好的办法。但是前提是您要对自己将投身的领域有一个总体的了解。
--  作者:lxqneu
--  发布时间:9/10/2008 8:47:00 PM

--  
据说语义标注是语义网及语义搜索的前提,不知各位大侠有什么考虑?既然语义搜索很难一步实现,为何不考虑一下标注的问题!不知道各位有什么意见?
--  作者:Humphrey
--  发布时间:9/11/2008 9:09:00 AM

--  
当然可以,如果您对语义标注有好的想法,并且能够付诸实践,完全可以在这个领域进行研究。语义标注从某种意义上讲将是未来语义搜索的依据,对现有的资源进行有效标注当然也是值得研究的。不过就我而言,目前研究方向和题目已定,不可能等到所有资源都有了有效标注之后再做语义搜索。事实上就是个人的选择问题,选择不同,想法和路线也不同。
--  作者:Humphrey
--  发布时间:9/23/2008 8:59:00 AM

--  
与语义搜索相关的基础技术的讨论
检索与推理:
语义网推理的新方法:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=63718&star=1
基于本体的数字图书馆检索模型研究http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=38100
工具部分:
求助:哪位版友下载过<Protege用法参考(基础篇+推理篇+进阶篇)>?能否分享一下?http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=50311&replyID=101742&star=1&skin=0
关于Jena环境设置: http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=61597
使用jena持久化OWL本体到MySQL:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=60494
利用Jess推理的初步实践http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=67408
protege和Eclipse怎么连接:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=62403
语言部分:
RDF数据查询语言SPARQL 学习笔记: http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=57075
OWL的存储方法的选择: http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=20862
RDF语义总结(ppt,英文)http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=66918
sparql查询语言学习摘要:http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=63811


[此贴子已经被作者于2008-9-24 8:32:47编辑过]

--  作者:Humphrey
--  发布时间:9/27/2008 5:36:00 PM

--  
搜索引擎框架有很多,包括lucene、nutch、compass等不一而足。既然我们选择了研究语义搜索,这些搜索引擎框架是不能不考虑的。大家通常使用哪种搜索引擎框架?配合什么程序设计工具来进行编程呢?让我们一同讨论吧。
--  作者:lsx_221
--  发布时间:10/1/2008 11:43:00 PM

--  
关注
--  作者:lsx_221
--  发布时间:10/1/2008 11:51:00 PM

--  
..
--  作者:Humphrey
--  发布时间:11/5/2008 4:58:00 PM

--  
最近讨论区里多了一组语义应用的介绍,一共分为3篇。前几天浏览了一下,哪知现在找起来已经很困难了。所以我把链接列出,方便大家参考。个人以为这款工具并不是语义搜索引擎,但是同为语义应用,应该会有一些启示吧,而且这似乎是全讨论区中介绍篇幅最长,内容最详细的一款工具了。
Twine 发布 1.0 版,盯上 Facebook、Google Reader、Delicious、Digg等http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=68591
语义网应用 Twine 发布1.0版,开放注册,无需邀请。http://bbs.w3china.org/dispbbs.asp?boardid=35&id=68587&star=1
Twine试用感想http://bbs.w3china.org/dispbbs.asp?boardid=35&id=68588&star=1
--  作者:xskina
--  发布时间:11/6/2008 6:37:00 AM

--  
实践中....学习.....
--  作者:Humphrey
--  发布时间:11/15/2008 11:34:00 AM

--  
维基百科能够算作语义搜索引擎吗?或者只是在线词典(等同于WordNet)?
--  作者:admin
--  发布时间:11/16/2008 12:56:00 AM

--  
以下是引用Humphrey在2008-11-15 11:34:00的发言:
维基百科能够算作语义搜索引擎吗?或者只是在线词典(等同于WordNet)?

不能算吧。


--  作者:Humphrey
--  发布时间:11/16/2008 3:54:00 PM

--  
最近越来越发现维基百科涉及的东西太多了,似乎什么东西在上面都有个影子,故有此问。
感谢管理员同志的热心回答,谢谢!
--  作者:Humphrey
--  发布时间:11/18/2008 8:55:00 AM

--  
在(第1期@Semantic Web专题讨论) 究竟什么是Semantic Web,它有什么标志特征?它能给我们带来什么?http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=69324的讨论中。
两位语义网领域的资深人士提到了Semantic wiki,并提到该技术可以用于内部网络。对这种技术,还是头一次接触,以前只知道维基百科。
Semantic wiki和维基百科有什么样的关联,Semantic wiki又是怎样应用的呢?

--  作者:Humphrey
--  发布时间:11/28/2008 3:43:00 PM

--  
有一个问题想向各位前辈讨教:在哪里能够找到Lucene与Jena连接用的API?我现在因有任务在身急需此物,而自己又没有能力编写这样一个接口。
请大家帮帮忙,谢谢各位!谢谢!
--  作者:launix
--  发布时间:11/28/2008 4:15:00 PM

--  
学习!!
--  作者:whfcarter
--  发布时间:12/1/2008 6:38:00 PM

--  
Wikipedia可以看成一个覆盖面广且领域无关的多语言知识库。当然其中的知识并不都是显式的,因此有DBpedia将其转换成为RDF数据,并且加入到Linking Open Data (LOD)项目中。大家如果有兴趣可以关注。
Semantic Wiki是一个技术的词,它和Wikipedia一样是使用Wiki技术(即协同编辑),不同的是Semantic Wiki是基于Semantic Web technology的,如可以支持Typed Link或者Attributes等来标注Triple。同时,所有的数据使用Triple store等来存储,并支持online template等功能。具体可以看Semantic MediaWiki等。如果你有兴趣,也可以看一下近几年的SemWiki这个Workshop。

Semantic search是一个很含糊的名词,包括Natural language query, Semantic Web search等。但是无论如何,他是基于搜索的,所以我们不能撇开Lucene等搜索框架而重头设计一套东西。需要了解现有框架或者系统的不足,以及考虑哪些地方可以扩展。


--  作者:Humphrey
--  发布时间:12/1/2008 8:56:00 PM

--  
感谢whfcarter同志对此前有关Semantic Wiki问题的解释,不仅概括了它的特点,还给出了进一步学习了解的渠道。讨论区里做语义网的大腕都推荐Semantic Wiki,而我却对此不甚了了,所以想请教一下,至少先有一个概念。
语义搜索其实分为若干流派的,可是我也无法枚举出来。只知道实现的方法不同,对查询的控制也不同。提到工具,确实很挠头。虽然搜索引擎框架功能强大,也避免了自己从头编写的麻烦,但是在短时间内理解和使用还是一件很有难度的事。现在的我还真不敢说怎么做最好,欢迎大家一起讨论吧。
--  作者:Humphrey
--  发布时间:12/15/2008 8:15:00 AM

--  
前些天了解到语义搜索分为三个研究流派:语义搜索扩展、语义搜索约束,还有一个好像是语义路径图?
我看过一些材料,但是还真没找到相关记述。查询扩展和查询约束还比较容易理解,应该是对检索条件在一定程度上进行放大和缩小,以便获得更佳的查询结果吧。但是那个“路径图”什么的究竟代表了什么呢?以前好像没听说过这个概念,不知道是不是我记错了。请对此有研究的同志教我,谢谢!
--  作者:Humphrey
--  发布时间:12/17/2008 9:26:00 AM

--  
几天前,一个有关语义网应用排名的文章出炉了,其中第1、2、5个是直接和语义搜索相关的。详情请参见:
2008十大语义网产品http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=70340
--  作者:richardjya
--  发布时间:12/22/2008 7:23:00 PM

--  对语义搜索的理解
很不错,我觉得语义搜索很难走下去
,语义到底如何处理是关键
.说到最后怎么还是基于关键字去匹配了

--  作者:whfcarter
--  发布时间:12/23/2008 12:20:00 AM

--  
to Humphrey: 语义路径图我的理解是discover complex semantic relations between entities,即给定至少2个对于entity或者schema的描述,然后找出它们之间对应的关系(可能是路径),我们称其为compelx semantic relations。对于这些找到的paths运用合理的ranking function进行排序。最简单的是根据长度排序,直接的应用大家可以看DBpedia path finder。这个应该属于semantic search中比较难的内容,因为相比social network里面check两个人是否认识或者发现由固定几个关系组成的path,这里要解决的问题更加通用。如果有兴趣可以看一下这几天WWW的相关paper, Amit是这方面的先驱者。

to richardjya,语义搜索包含很多内容,即使是semantic web search也有很多步骤运用不同的语义技术,因此说语义搜索走不下去未免过于绝对。同时我认为现阶段的semantic search肯定不是基于NLP的,而应该是考虑如何最大限度地利用meta data,那么就涉及到如何exploit或者leverage这些graph-based data,会有新的ranking问题,有新的更scalable的图遍历算法等产生,甚至对search的整体infrastructure进行修改。拿google作例子,可能会对GFS, Bigtable, Map-reduce等进行必要的修改和扩展。所以我觉得结构发现和匹配是关键。你不可能让用户是指定SPARQL或者指定其中包含的结构,但是不代表semantic search不要利用这些资源或者信息。


--  作者:Humphrey
--  发布时间:12/23/2008 9:32:00 AM

--  
从whfcarter同志的阐述中又学到了一个新的概念,虽然现在还不太理解,但是毕竟有了一个直观的印象。感谢您的热心指导。
语义搜索确实很宽的,richardjya同志提到“最后怎么还是基于关键字去匹配了”。对此我个人是这么考虑的:在接触这个领域时间比较短,准备尚不充分的情况下,不妨从我们熟悉的角度入手,先做一些东西。在这个过程中继续学习,发现新的问题,进而考虑引入更复杂更高级的方法加以解决。另一方面,用户的使用习惯也是应该着重考虑的问题。完全创新自成一派当然好,但是用户使用起来应该顺手。毕竟增加了语义的搜索不是增高了搜索的门槛。
--  作者:richardjya
--  发布时间:12/23/2008 10:41:00 AM

--  语义处理及语义关系存储
语义搜索走不下去可能绝对了点.但放眼望去,我觉得已经存在的(包括前面提到的一些)语义搜索应用都没有在以下几个方面处理的很好:
1.语义搜索的界面处理:大都还是基于传统搜索的界面.那么就有问题了,你输入的是关键字,当然也有在界面上做限制范围的,但是如何让用户很方便的表达语义,这个问题没有解决好.单靠用户输入"苹果",你是没有办法判断语义的,计算机无法判断,只能模糊处理,或者推荐分类.这是从语义同义角度讲,如果从语义推理角度讲,那基于传统界面更没有办法处理.
2.语义推理:当然这个是比较难的,现在还没有很强大的推理系统.
3.语义表示:大家都在使用本题来表示,有没有别的方法?
3.语义的存储:包括语义关系存储
不知道大家对这个如何看?
--  作者:whfcarter
--  发布时间:12/23/2008 10:53:00 AM

--  
to Humphrey: 我很赞同你的看法。语义搜索不仅需要提高搜索的精度,帮助用户表达更加复杂的查询需求,同时也要考虑不能提高搜索的门槛。很多研究者也如你所说从现有熟悉的交互方式或搜索出发,进而提出基于关键字或自然语言的语义搜索引擎。对于这一系列的工作,你可以看一下下面的paper。

基于关键字的语义搜索:
SemSearch: A Search Engine for the Semantic Web. EKAW 2006
A Relation-based Search Engine in Semantic Web. TKDE 2007
SPARK: Adapting Keyword Query to Semantic Search. ISWC 2007
Ontology-based Interpretation of Keywords for Semantic Search. ISWC 2007
Q2Semantic: A Lightweight Keyword Interface to Semantic Search. ESWC 2008
Top-k Exploration of Query Candidates for Efficient Keyword Search on Graph-Shaped (RDF) Data. ICDE 2009.

关于自然语言查询接口,你可以关注PowerAqua (KMi的工作)以及Controlled Natural Language (University of Zurich的工作),具体的paper列表我就不列了。


--  作者:richardjya
--  发布时间:12/23/2008 11:06:00 AM

--  
刚看到的大牛对语义搜索的阐释:
Rudi Studer (RS): We look at semantic search as a process of information access, where one or several activities can be supported by semantic technologies. These activities include preprocessing and extraction of information, the interpretation of user information needs, the actual query processing, the presentation of results, and finally, the processing of user feedback for subsequent queries and to generate improved refinements..
他认为语义搜索可以分为:信息予处理和信息抽取, 用户信息需求的结实,真正的查询处理,结果表示和用户反馈及优化处理.
--  作者:Humphrey
--  发布时间:12/23/2008 4:03:00 PM

--  
楼上引用的内容来自:AFIB老大Rudi Studer教授就 语义搜索技术 接受Yahoo采访
http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=70734
特保留原始链接于此,以资参考。
--  作者:richardjya
--  发布时间:12/23/2008 4:52:00 PM

--  
有人做社会标注和语义搜索结合的吗?
--  作者:Humphrey
--  发布时间:12/23/2008 7:10:00 PM

--  
有关“查询扩展”、“查询约束”、“路径图”等内容,我都是听前辈们说的。对于它们其实我并不熟悉,甚至就连正确的英文表述都不知道。能否请各位前辈简单地作一个介绍?如果再推荐一些相关的经典文章,小可更是感激不尽!在此先谢谢各位同仁,并祝节日愉快!
--  作者:richardjya
--  发布时间:12/24/2008 9:40:00 AM

--  关于语义推理
TO:whfcarter
    现在的语义搜索应用是怎么实现?因为输入的基本上还是关键字,那么搜索引擎是怎么知道我输入的关键字之间的语义关系的?看了一些文章,都是利用本体来处理,也就是直接使用本体内涵的概念关系来扩展,进而来进行语义推理.然后去匹配检索.有没有脱开本体的进行语义处理的?我跟我的副导师谈可以用基于规则进行推理,他说必须是特定领域也就是专家系统才能基于规则.我不能认同他非要用本题来进行语义处理.
  能否给我你的QQ或邮箱?我的QQ:56078275
--  作者:Humphrey
--  发布时间:12/24/2008 10:29:00 AM

--  
有采用基于统计方法实现类似语义效果的方法,也就是脱离本体的一种实现方法。就是自然语言处理,如果你不想用知识库做,就考虑用这种基于统计学的方法来实现吧。
目前一些大型搜索引擎事实上正是采用了这样的方法,例如谷歌。至于具体实现方法,您只能自己想办法查资料总结了,因为我没采用这种实现方式,没有调查就没有发言权。
--  作者:richardjya
--  发布时间:12/24/2008 2:21:00 PM

--  
但基于统计方法的能实现语义推理吗?
--  作者:boxsc
--  发布时间:12/25/2008 11:26:00 PM

--  
关注,你的这些问题很有意思、
--  作者:Humphrey
--  发布时间:12/31/2008 9:40:00 AM

--  
从whfcarter同志的讲述中,我们了解了有关“路径图”的基本知识。
但是最近几天通过实际查询才发现,有关语义网路径图方面的文章在国内是没有的,语义搜索的另一个流派“查询约束”也无从查考。这样一来,想从中文文献获取相关知识已不可能。所以小可只好再次向各位请教有关“查询约束”和“路径图”的标准英文表达方法,以期能够获取英文文献。谢谢大家!
--  作者:Humphrey
--  发布时间:1/2/2009 2:55:00 PM

--  
whfcarter同志,您好。通过您的介绍,我对“路径图”有了基本的了解,不过在查找文献时遇到了一些麻烦。
您所说的“这几天WWW的相关paper”应该不是WWW2008的文献资料吧?如果真的不是,应该是什么会议或论文集呢?
另一方面“Amit是这方面的先驱者”,我将Amit作为关键词进行搜索,但是结果似乎都与我的目标无关,能否告诉我他的全名是什么呢?
最后,还有一个额外的话题,是有关“查询约束”的问题,您的经验远比我丰富,一定听说过这种搜索技术流派吧。虽然我通过对“查询扩展”逆推,大致上知道它是怎么一回事,不过始终没有找到相关文献佐证,只好麻烦您了。
问题比较杂乱,我了解的还是很有限,不太容易说清,请您见谅。
--  作者:whfcarter
--  发布时间:1/4/2009 3:12:00 PM

--  
to  Humphrey: 放假期间没有关注论坛,所以没有及时回答你的问题。
Amit的全称是sheth amit, 他现在是Wright University的教授,他是ISWC 2006的local chair, ISWC 2008的Program Chair以及IJSWIS的chief-in-editor。你可以通过DBLP查到他的相关论文,应该是WWW 2007的(如果没有记错的话)。
对于"查询约束",我没有听说过,英语是"query constraint"还是"search constraint"?
同时,"查询扩展"和你所说的约束应该不是逆推的关系,这里我想就我对于查询扩展的理解简单说明一下,查询扩展故名思义就是扩展原有的查询,最简单的是google的relevance feedback,当然在Semantic Web中最一开始得应用是根据一个thesarus或者taxonomy对查询(最常见是关键字)进行disambiguation或者指定sense或context,从而增加搜索的recall (通过扩展获得的新的查询)获得原先找不到的相关结果。当然,在我原先的帖子中提到query interpretation,即从一种查询语义到另一种查询语义的转换。例如对于Semantic Web查询引擎要求输入SPARQL或者RQL等formal query,但是为了提高系统的受用群体或者改善易用性,我们可以支持natural language或keyword,将这些转换为formal query的过程可以看作是query rewritting,对于keyword 到sparql的转换,你补全了很多原本Keyword中缺失的语义信息等,可以看作是一种expansion,而这种应用可以提高search的precision。当然这种你可以看作是对于原有查询增加新的约束条件。

另外和你说的相关的还有faceted browsing或者叫exploatory search,最简单的就是很多e-business的购物网站,提供各种product的属性等来约束搜索结果,同时,query relaxing是另外一个相关的topic,他的想法是根据用户的preference或者当前的search context对于某些搜索条件添加不同的权重,或放宽搜索约束条件。

希望这些简单的解释对你有帮助。


--  作者:wangjp0702
--  发布时间:1/7/2009 2:06:00 PM

--  
真正的语义网应用还没到来
--  作者:Humphrey
--  发布时间:1/8/2009 9:23:00 PM

--  
“语义搜索”,或者说“语义搜索引擎”的出现是在语义网概念提出之前呢,还是在语义网概念提出之后呢?虽然我看了一些资料,试图找出结果,但是至今也没有获得明确的答案,只好拜托诸位前辈指教。虽然问题比较原始,但是似乎不是很容易能有理有据的说明的。
--  作者:whfcarter
--  发布时间:1/9/2009 12:47:00 AM

--  
语义搜索,就是semantic search,指更加智能的搜索引擎,这是所有搜索引擎的一致目标。他代表支持用户表达复杂的查询需求,精确定位并给出答案。这个概念在Semantic Web之前就已经出现。大家都知道,搜索引擎的核心技术是信息检索(Information Retrieval),这最早在digital library中得到应用,并且在早期的搜索中主要使用基于逻辑表示的boolean匹配。在近年中,随着自然语言技术的成熟以及现有syntax-based技术的缺陷,在一些企业搜索应用(如IBM)或者站点搜索(如Wikipedia, Freebase)甚至垂直搜索(如专家搜索,机票搜索等)中,语义技术(不仅仅局限于Semantic Web technology)被越来越多的提到和应用。PowerSet被称为成功的semantic search engine (主要基于自然语言处理的),之后被微软高价收购。而很多基于metadata的语义搜索引擎原型也被提出,其中包括Yahoo的microsearch和searchMonkey等。我觉得Semantic Web的出现使得语义搜索更加流行也更加受到关注。但同时也使得semantic search这个词更加具有歧义了,:)
--  作者:viaphone
--  发布时间:1/10/2009 8:37:00 PM

--  
现在问题是网络里没有有效的充足的语义知识基础设施,sematic search 还只能做为传统IR的一个补充部份来做。也许还只某些具体的领域,或具体的环节改进查询结果。要真正实现所谓语义查询估计还有时日。即使真正这一天到来,传统IR我相信依旧会在其中拌演相当重要的角色。
--  作者:Avansky
--  发布时间:1/11/2009 10:10:00 PM

--  
2008十大语义网产品

Top 10 Semantic Web Products of 2008
Written by Richard MacManus / December 2, 2008 9:57 AM

In 2008 we saw the Semantic Web gain traction, giving us plenty of choice when selecting the 10 best Semantic Web products of 2008.
This is the first in a series of posts we'll publish over December, listing our choices for the top web products of the year. Then at the end of December, we'll post a Top 100 list - which we'll be promoting over 2009 and opening up at some point for public voting. Without further ado, let's jump into the top 10 Semantic Web products of 2008.
Earlier this month we posted an update to 10 Semantic Web applications that we have been tracking for a year now. Some of those make this list, as well as some from our follow-up post 10 More Semantic Apps to Watch. We also have a couple of other products in this list, which for one reason or another didn't get mentioned in our watch-lists.
You may disagree with our selections, so do tell us in the comments what you think.
Note: the products listed below are in no particular order
1. Yahoo! SearchMonkey
In May this year Yahoo! launched an open developer platform for search called SearchMonkey. Yahoo hasn't had the happiest of years, but its willingness to innovate in search is to be commended. As we reported at the Web 2.0 Expo in April, SearchMonkey is a component of a major overhaul at Yahoo! across all of its properties to "rewire" for the social graph and data portability. SearchMonkey allows developers to build applications on top of Yahoo! search, including allowing site owners to share structured data with Yahoo!, using semantic markup (microformats, RDF), standardized XML feeds, APIs (OpenSearch or other web services), and page extraction.
We think this is the best use of Semantic Web by an Internet bigco this year. So for that reason SearchMonkey makes our top 10 list. Related: The Story of SearchMonkey.
2. Powerset (acquired by Microsoft in '08)
Powerset (see our initial coverage here and here) is a natural language search engine. It's fair to say that Powerset has had a great 2008, having been acquired by Microsoft in July this year.
At the time of the acquisition, Powerset said that it needed a bigger partner to expand its product beyond its current state of only searching Wikipedia - something we had speculated about when the rumors of the acquisition first appeared. In its own statement, Microsoft stressed how useful Powerset's technology will be for improving Microsoft's own search products and to "take Search to the next level." In our analysis of the deal, we noted that it was a "bold play requiring exact execution" by Microsoft.
3. Open Calais (Thomson Reuters)
At the end of 2007, ClearForest had been recently acquired by Reuters and at that point it had a Web Service and a Firefox extension. What a change a year brings! ClearForest went on to release Calais, a toolkit of products that enable users to incorporate semantic functionality within their blog, content management system, website or application.
Since launching the Open Calais API early this year, over 6,000 developers have registered with it and the service is doing more than 1 million transactions a day. Version 3.0 was released earlier this month and version 4 is expected by January 09.
4. Dapper MashupAds
In November we wrote about the recent improvement in Dapper MashupAds, a product we first spotted over a year ago. The idea is that publishers can tell Dapper: this is the place on my web page where the title of a movie will appear, now serve up a banner ad that's related to whatever movie this page happens to be about. That could be movies, books, travel destinations - anything. We remarked that the UI for this has grown much more sophisticated in the past year.
The company believes that its new ad network will provide monetary incentive for publishers to have their websites marked up semantically. We think this has plenty of promise, so it makes our year-end list.
5. Hakia
Hakia is a search engine focusing on natural language processing methods to try and deliver 'meaningful' search results. Hakia attempts to analyze the concept of a search query, in particular by doing sentence analysis. Over the past year Hakia has been busy extending its reach - licensing its proprietary OntoSem technology to other companies in March and announcing a Semantic API in June. It was also one of the first companies to utilize Yahoo! BOSS, by integrating their semantic parsing with the Yahoo! search index.
We think Hakia has made good progress getting its technology into the hands of third parties and making use of Yahoo's broader index, so for that reason it's among our top 10 for the year.
6. TripIt
Tripit is an app that manages your travel planning. With TripIt, you forward incoming bookings to plans@tripit.com and the system manages the rest.
Over the past year TripIt has continued to iterate on its feature set - introducing LinkedIn integration, better mobile functionality, more social networking features, and other goodies. In short, it's user experience continues to rock!
7. BooRah
BooRah is a restaurant review site that we first reviewed earlier this year and has come on in leaps and bounds over 2008. BooRah uses semantic analysis and natural language processing to aggregate reviews from food blogs. Because of this, BooRah can recognize praise and criticism in these reviews and then rates restaurants accordingly. BooRah also gathers reviews from Citysearch, Tripadvisor and other large review sites.
BooRah also announced last month the availability of an API that will allow other web sites and businesses to offer online reviews and ratings from BooRah to their customers. The API will surface most of BooRah's data about a given restaurant, including ratings, menus, discounts, and coupons.
8. AdaptiveBlue
Disclosure: AdaptiveBlue's founder Alex Iskold is a feature writer at RWW.
AdaptiveBlue are makers of the Firefox plugin, BlueOrganizer. As we wrote in January this year, the basic idea behind BlueOrganizer is that it gives you added information about webpages you visit and offers useful links based on the subject matter.
Over the past year the company has been working on a new product, called Glue. Launched last month, Glue is a more social networking oriented version of BlueOrganizer - it connects you to your friends based around things like books, music, movies, stars, artists, stocks, wine, restaurants, and more. We think the company has diversified smartly in 2008, by integrating social networking and mobile functionality into its products.
9. Zemanta
Zemanta is a blogging tool which harnesses semantic technology to add relevant content to your posts. While it didn't make either of our 'Semantic Apps to Watch' lists in November, a number of commenters pointed it out as something they use. In September we covered a major upgrade to Zemanta's service, allowing users to specify the sources they want to see in the suggestions list that Zemanta provides. Users can now incorporate their own social networks, RSS feeds, and photos into their blog posts. As we noted, this makes Zemanta a lot more appealing to established bloggers who are in less need of suggestions and more in need of automation.
Zemanta's API is also being used by startups, including semantic bookmarking service Faviki - which we mentioned in our second Watch-list. So all up, we think Zemanta has done enough this year to be included in our top 10 list.
10. UpTake
Semantic search startup UpTake (formerly Kango) aims to make the process of booking travel online easier. In our review in May, we explained that UpTake is a vertical search engine that has assembled what it says is the largest database of US hotels and activities - over 400,000 of them - from more than 1,000 different travel sites. Using a top-down approach, UpTake looks at its database of over 20 million reviews, opinions, and descriptions of hotels and activities in the US and semantically extracts information about those destinations.
And now please let us know in the comments what you think of our selections. Do you think we've picked the best 10 Semantic Web products of the year?


--  作者:Avansky
--  发布时间:1/11/2009 10:10:00 PM

--  
大家看看这个,或许对你们有点帮助
--  作者:Humphrey
--  发布时间:1/12/2009 8:42:00 AM

--  
whfcarter同志的意思是,语义搜索的产生要比语义网概念的提出要早,而垂直搜索、元搜索即属于早期语义搜索范畴。我的理解没错吧?
自己感觉:一方面,回答这种问题需要对整个语义搜索领域的发展史比较熟悉,或者占有一些较明确的直接相关资源;另一方面,这种“先有鸡还是先有蛋”的问题的答案似乎也依赖于对“语义搜索”概念的界定。
感谢whfcarter同志的热心解答,谢谢。
--  作者:Humphrey
--  发布时间:2/4/2009 12:22:00 PM

--  
最近一段时间被一些家庭琐事所困,没能抽出时间到论坛参与讨论。不过相关的问题还是一直都在考虑着的,就是不能上网查资料,也不能写什么,好闷啊!
言归正传,语义搜索事实上应该是可以用于全网络的,就是包括万维网、互联网和内部网的。前一段我们主要是概略地讨论语义搜索的,没针对哪一种网络。不过语义搜索总要有一个对象,所以我想先从针对语义网的语义搜索开始和大家一块儿讨论。
我粗略地看了一些东西,总体感觉语义网的语义搜索目前比较窄,或许是和语义网的规模有关。凡是成型的语义网语义搜索引擎无非都是对本体库或者对社会网络(不知道这样称谓是否合适,就是类似FOAF的那种结构)进行简单搜索;或基于关键词,或基于简单描述列表。甚至给我最深刻的印象就像一个在线词典。不知道,对于语义网的语义搜索给各位留下什么印象?欢迎诸位跟帖讨论。
感谢大家对本论题的关注,祝大家新春愉快!
--  作者:Humphrey
--  发布时间:2/24/2009 7:07:00 PM

--  
补充几个由whfcarter同志发表的与语义搜索相关的话题,以资参考:
Our vision of semantic Web search
对2007年到2008年之间whfcarter同志所在研究组的工作总结
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71338
Evolving Web, Evolving Search
whfcarter同志对语义搜索的看法
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71295
whfcarter同志发布的其他搜索领域相关材料:
1st Call for Papers SEMSEARCH'09
一篇征稿启事,但是对热点研究方向有所涉及
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71208
Google Researcher Targets Web's Structured Data
来自著名计算机刊物《微电脑世界》的一篇文章,末尾附有whfcarter同志的简要评论
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71707
--  作者:Humphrey
--  发布时间:2/24/2009 7:07:00 PM

--  
补充几个由whfcarter同志发表的与语义搜索相关的话题,以资参考:
Our vision of semantic Web search
对2007年到2008年之间whfcarter同志所在研究组的工作总结
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71338
Evolving Web, Evolving Search
whfcarter同志对语义搜索的看法
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71295
whfcarter同志发布的其他搜索领域相关材料:
1st Call for Papers SEMSEARCH'09
一篇征稿启事,但是对热点研究方向有所涉及
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71208
Google Researcher Targets Web's Structured Data
来自著名计算机刊物《微电脑世界》的一篇文章,末尾附有whfcarter同志的简要评论
http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=71707
--  作者:Humphrey
--  发布时间:3/22/2009 3:09:00 PM

--  
由micky同志发布的有关语义搜索的讨论:[原创]语义搜索引擎设计思路(基于现有的web),欢迎交流。http://www.w3china.org/dispbbs.asp?BoardID=2&id=23187&replyID=153918&star=1&skin=0
这似乎是micky同志唯一篇与语义搜索有关的讨论,并提供了语义搜索引擎模型设计文档.很有参考价值.如果您有什么高见也欢迎来此或到该话题进行讨论.谢谢!
--  作者:Humphrey
--  发布时间:3/22/2009 3:10:00 PM

--  
由micky同志发布的有关语义搜索的讨论:[原创]语义搜索引擎设计思路(基于现有的web),欢迎交流。http://www.w3china.org/dispbbs.asp?BoardID=2&id=23187&replyID=153918&star=1&skin=0
这似乎是micky同志唯一篇与语义搜索有关的讨论,并提供了语义搜索引擎模型设计文档.很有参考价值.如果您有什么高见也欢迎来此或到该话题进行讨论.谢谢!
--  作者:dd2086
--  发布时间:4/5/2009 8:54:00 PM

--  
这种东西难嘛?
--  作者:Humphrey
--  发布时间:4/28/2009 8:03:00 AM

--  
资源补充:由FullerHua同志发表的《什么是语义搜索引擎 -- 读书笔记》
http://bbs.w3china.org/dispbbs.asp?boardid=2&id=74541&star=1#175805
是对狭义语义搜索引擎的探讨。
--  作者:Humphrey
--  发布时间:5/25/2009 8:39:00 AM

--  
大型会议一般不会缺少信息检索这个重要议题,在whfcarter同志的最新报告“Trip report on ICDE 2009”http://bbs.w3china.org/dispbbs.asp?boardid=2&id=75045&star=1#177190中同样展示了搜索的重要性。
大规模图搜索仍是热点,关键词搜索在未来3年中仍会大行其道。
"Trip report of FOWS 2009 and WWW 2009"http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=75057同样也出自whfcarter同志之手,这是一个与语义搜索关系更为紧密的报告。


[此贴子已经被作者于2009-5-26 14:15:12编辑过]

--  作者:Humphrey
--  发布时间:7/12/2009 9:25:00 AM

--  
2009年7月8日,读写网(ReadWriteWeb)刊登了对伯纳斯·李的专访。访谈按主题分为两个部份第一部分是关联的数据;第二部分是搜索引擎、数据的用户界面、计算型知识引擎Wolfram Alpha及其它。虽然伯纳斯·李先生并非搜索技术领域的专家,但鉴于他在万维网和语义网研究中举足轻重的作用,将此访谈链接保留如下:
[访谈原文第一部分]http://www.readwriteweb.com/archives/interview_with_tim_berners-lee_part_1.php
[访谈原文第二部分]http://www.readwriteweb.com/archives/readwriteweb_interview_with_tim_berners-lee_part_2.php
讨论区中有管理员同志的转载,分别是:http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=75953
http://bbs.w3china.org/dispbbs.asp?boardID=35&ID=75952
--  作者:Humphrey
--  发布时间:8/13/2009 12:17:00 PM

--  
由版主hongjunli同志提供的搜索引擎方面资料,介绍了传统搜索引擎的工作原理、实现技术及其系统构建方案。对我们在语义搜索领域的研究是十分有益的。
[分享]搜索引擎-原理、技术与系统【pdf格式】http://www.ieee.org.cn/dispbbs.asp?boardID=69&ID=76122
管理员同志也曾发布了一个有关开源搜索引擎框架Lucene的电子书。研习过搜索引擎知识的同志对此不会陌生吧。
Lucene权威书籍下载: Lucene in Action (pdf格式)http://bbs.w3china.org/dispbbs.asp?boardID=69&ID=33299
--  作者:fanwander
--  发布时间:8/14/2009 4:10:00 PM

--  
楼主是不是在做这方面的研究?
我们现在初步完成了一个基于本体的搜索引擎的开发,能体现部分语义特点,但还是有好多问题没有解决好,比如句型匹配、本体的自动构建等,现在也是很迷茫。越深入本体越感觉这个东西好是好,但是想把它做大还存在很大的困难,现在怀疑这个东西能不能担负起支撑语义网的重担。
--  作者:Humphrey
--  发布时间:8/16/2009 9:52:00 AM

--  
fanwander同志您好,我的研究方向确实是语义搜索,不过只是刚刚起步而已,您现在已经有完成品问世了,程度远超过我,我还得好好向您学习呀!
至于没有解决的问题,不论什么系统都存在。就像微软的视窗操作系统,从投入市场到退役一直需要对其存在的安全隐患进行不断的修复,事实上直到这款操作系统退役,安全漏洞也仍然会存在,只是微软不会再提供安全更新而已。这还仅仅是完善已有的功能,那么增加新功能呢?一定是更为困难的。
您所在的团队制作的语义搜索引擎目前开放了吗?可否介绍一下?
--  作者:fanwander
--  发布时间:8/17/2009 11:12:00 AM

--  
我们开发的引擎还没有验收,没有开放。我们现在完成的是一个仪表领域的基于本体的搜索引擎,前期准备时有好多的想法,但是真正开发起来发现其中有很多问题要解决,并没有完全达到预期设计。十分渴望与大家讨论。楼主是学人工智能的吗?
--  作者:Humphrey
--  发布时间:8/17/2009 5:43:00 PM

--  
十分抱歉,我的专业并非人工智能.语义网实际上和人工智能领域还是不同的,应用范围也不一样,有一种十分流行的说法是人工智能领域现在已经处于瓶颈期,这个领域中的成就往往都来自于其他领域的启发。您很幸运,能够参与到语义网的实际应用中,有时间还请您多多指教。
--  作者:shenxin1986
--  发布时间:12/24/2009 2:58:00 PM

--  
我论文的题目也是基于语义网的WB信息检索,大家共同探讨一下
--  作者:Humphrey
--  发布时间:12/24/2009 8:40:00 PM

--  
欢迎shenxin1986同志加入,您可以把您学习和工作中的感想收获、疑问建议发布上来。大家可以一块儿研究,互通有无。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
757.813ms