以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 人工智能 :: 机器学习|数据挖掘|进化计算 』  (http://bbs.xml.org.cn/list.asp?boardid=62)
----  有没有研究web表格信息抽取(information extraction)的同盟阿?  (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=17194)


--  作者:泡泡天上飘
--  发布时间:4/19/2005 8:51:00 PM

--  有没有研究web表格信息抽取(information extraction)的同盟阿?
交流一下嘛!迷茫阿……
narcia@163.com
--  作者:eyounx
--  发布时间:4/19/2005 9:40:00 PM

--  
好具体啊,听过Web Mining
--  作者:buzheng
--  发布时间:4/20/2005 9:49:00 PM

--  
我的方向是智能规划与规划识别
--  作者:eyounx
--  发布时间:4/20/2005 10:01:00 PM

--  
我的方向是Evolutionary Computing和Machine Learning
--  作者:泡泡天上飘
--  发布时间:4/21/2005 9:38:00 AM

--  
以下是引用eyounx在2005-4-20 22:01:51的发言:
我的方向是Evolutionary Computing和Machine Learning



看了你的homepage的。关于machine learning 也可以用在信息提取里面,不过我现在打算用ontology来做。你现在主要用machine learning 在做什么呢?data mining?
--  作者:eyounx
--  发布时间:4/21/2005 11:18:00 AM

--  
以下是引用泡泡天上飘在2005-4-21 9:38:05的发言:
看了你的homepage的。关于machine learning 也可以用在信息提取里面,不过我现在打算用ontology来做。你现在主要用machine learning 在做什么呢?data mining?


概念上可以,learn出extract的方法
现在在做的是machine learning中的ensemble
ontology是什么?
--  作者:泡泡天上飘
--  发布时间:4/21/2005 11:53:00 AM

--  
国内把ontology翻译为“本体”,我觉得有点不是很恰当,所以还沿用国外的说法。
具体可以参照  W3CHINA.ORG讨论区 - Web新技术讨论 → 『 Semantic Web(语义Web)/描述逻辑/本体 』 中间的内容
我在接触ontology的过程中,发现国外也有很多人在用ontology做data mining,可能对你会有帮助吧.
以后要是遇到machine learning的东西还要向你请教哦!
--  作者:eyounx
--  发布时间:4/21/2005 2:13:00 PM

--  
以下是引用泡泡天上飘在2005-4-21 11:53:14的发言:
国内把ontology翻译为“本体”,我觉得有点不是很恰当,所以还沿用国外的说法。
具体可以参照  W3CHINA.ORG讨论区 - Web新技术讨论 → 『 Semantic Web(语义Web)/描述逻辑/本体 』 中间的内容
我在接触ontology的过程中,发现国外也有很多人在用ontology做data mining,可能对你会有帮助吧.
以后要是遇到machine learning的东西还要向你请教哦!


看了一点点,感觉是在做知识格式化,知识表达规整以后挖掘要容易一些
--  作者:jsnjjjxy
--  发布时间:5/1/2005 10:03:00 AM

--  
数据挖掘
主要是文本分类
--  作者:gaolaotou
--  发布时间:5/16/2005 12:29:00 PM

--  
46235604
QQ加我好吗
--  作者:dawnice
--  发布时间:7/3/2005 12:27:00 AM

--  
你说的是不是wrapping啊?
--  作者:泡泡天上飘
--  发布时间:7/3/2005 2:40:00 PM

--  
wrapping是一个方面,我的两个同门师兄在做,我和另外一个同门在做通用表格提取。
--  作者:kingbull
--  发布时间:7/13/2005 12:15:00 PM

--  
由人愿意讨论一些包装器生成吗
--  作者:kingbull
--  发布时间:7/13/2005 12:26:00 PM

--  
关于通用表格的信息抽取一般用正则表达来做。例如"<(?:TABLE|table)[^>]*><(?:TR|tr)[^>]*><(?:TD|td)[^>]*>公司名称:(.*?)</(?:TD|td)></(?:TR|tr)></(?:TABLE|table)>";这个规则可以抽取公司名称后面的公司名
--  作者:carrol
--  发布时间:9/2/2005 8:12:00 PM

--  
我的方向就是Wrapper的生成,不过看了些论文,还是很迷茫。希望高手指点一下!
--  作者:chenjianyyzz
--  发布时间:9/29/2005 5:46:00 PM

--  
有谁在研究wrapper吗?咱们可以一起探讨一下啊?我的MSN:chenjianyyzz@hotmail.com
--  作者:rcc123
--  发布时间:10/23/2005 8:30:00 AM

--  
多看一些外文资料
--  作者:dududjf
--  发布时间:10/28/2005 12:14:00 PM

--  
我也正在搞这一方面的研究,主要使用概率模型学习,如Conditional Random Fields(CRF)。多多交流。Email: dududjf@21cn.com
--  作者:surmount
--  发布时间:10/28/2005 6:32:00 PM

--  
是用算法从WEB的HTML或XML语法中取得数据不
--  作者:ljztyygx
--  发布时间:2/3/2006 2:27:00 PM

--  用XML
先把HTML转换成XML,然后把XML集成到关系数据库,最后进行数据挖掘。ljztyygx@126.com
--  作者:chenfengyu
--  发布时间:3/26/2006 11:49:00 PM

--  
我的方向也是这方面的 information extraction  以后多交流吧 wcl535@163.com
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
85.938ms