新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> XML与各种文件格式的相互转换及相关工具。 word to xml, xml to word, html to xml, xml to pdf,
    csv to xml, rtf to xml, text to xml, xml to text, xls to xml, xml to xls
    FOP
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 WORD to XML, HTML to XML 』 → tidy:将html转换为xhtml(xml)的工具,实例配合[原创] 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 69523 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: tidy:将html转换为xhtml(xml)的工具,实例配合[原创] 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客楼主
    发贴心情 tidy:将html转换为xhtml(xml)的工具,实例配合[原创]

    1.tidy能干什么

    现在的网站大部分都是HTML的,如果希望将它们标准化,手工的一页一页修改非常麻烦。tidy就是一个能够把html页面转换为xhtml和xml的工具,对于html中许多不规范的标记甚至是错误的标记能够予以修正。

    我们还可以利用它生成多种样式的标签代码风格。

    当我们需要从原始的html中提取数据时,可以利用它先转换为xml格式数据,然后再利用开发语言中的xml操作类去提取。

    2.功能示例

    a.丢失匹配对:
       <h1>heading
       <h2>subheading</h3>
    被修正为
       <h1>heading</h1>
       <h2>subheading</h2>

    b.结束标记错误
       <p>here is a para <b>bold <i>bold italic</b> bold?</i> normal?
    被修正为
       <p>here is a para <b>bold <i>bold italic</i> bold?</b> normal?

    c.
       <h1><i>italic heading</h1>
       <p>new paragraph
    修正为:
       <h1><i>italic heading</i></h1>
       <p>new paragraph

    d.
       <i><h1>heading</h1></i>
       <p>new paragraph <b>bold text
       <p>some more bold text
    修正为:
       <h1><i>heading</i></h1>
       <p>new paragraph <b>bold text</b>
       <p><b>some more bold text</b>

    e.
       <h1><hr>heading</h1>
       <h2>sub<hr>heading</h2>
    修正为:
       <hr>
       <h1>heading</h1>
       <h2>sub</h2>
       <hr>
       <h2>heading</h2>

    f.将缺少的"/" 放到结束标签的位置:
       <a href="#refs">References<a>
    修正为:
       <a href="#refs">References</a>

    g.
       <body>
       <li>1st list item
       <li>2nd list item
    修正为:
       <body>
       <ul>
       <li>1st list item</li>
       <li>2nd list item</li>
       </ul>

    当标签属性值缺少引号,也会被加上,修正与属性值引号有关的错误

    未知的标签和属性会报告出来

    加入合适的DOCTYPE标签,使它符合w3c的标准

    确少的 '>' 也会被修正

    等等

    3.多种格式化代码的风格:

    a1.
    <h1 align="right">
      Heading
    </h1>

    a2.
    <h1 align="right">Heading</h1>

    b1.
    <td><img src="foo.gif"></td>
    <td><img src="foo.gif"></td>

    b2.
    <td>
      <img src="foo.gif">
    </td>
    <td>
      <img src="foo.gif">
    </td>

    4.扩展
    tidy不仅只有命令行的形式,还有GUI界面的版本和DLL的可别调用的库文件

    5.实例操作

    下载tidy和一个需转换的文档

    此主题相关图片如下:
    按此在新窗口浏览图片

    cmd下通过:tidy -h可以查看相关命令选项

    此主题相关图片如下:
    按此在新窗口浏览图片

    需转换文档的htm代码

    此主题相关图片如下:
    按此在新窗口浏览图片

    转换后代码

    此主题相关图片如下:
    按此在新窗口浏览图片

    转换的命令

    此主题相关图片如下:
    按此在新窗口浏览图片

    6.参考和下载
    http://www.w3.org/People/Raggett/tidy/
    http://tidy.sourceforge.net/

    cmd版tidy及示例文档下载


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/3 2:39:00
     
     fangel2000 帅哥哟,离线,有人找我吗?
      
      
      头衔:w3china第一水王
      等级:大四寒假(收到Microsoft的Offer啦)
      文章:283
      积分:1503
      门派:W3CHINA.ORG
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fangel2000发送一个短消息 把fangel2000加入好友 查看fangel2000的个人资料 搜索fangel2000在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fangel2000的博客2
    发贴心情 
    上面是将html文档转换成xml文档,但是要提取网站上的某个网页文件,再转换成xml,怎么实现呢?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/20 21:39:00
     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客3
    发贴心情 
    那就是先把那个目标文件下载保存起来,然后再进行转换。
    下载目标html文件可以搜索相关资料。

    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/25 17:49:00
     
     xndd 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:64
      门派:XML.ORG.CN
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给xndd发送一个短消息 把xndd加入好友 查看xndd的个人资料 搜索xndd在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看xndd的博客4
    发贴心情 
    非常不错,不过喜欢gui版本
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/26 12:41:00
     
     fangel2000 帅哥哟,离线,有人找我吗?
      
      
      头衔:w3china第一水王
      等级:大四寒假(收到Microsoft的Offer啦)
      文章:283
      积分:1503
      门派:W3CHINA.ORG
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fangel2000发送一个短消息 把fangel2000加入好友 查看fangel2000的个人资料 搜索fangel2000在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fangel2000的博客5
    发贴心情 
    以下是引用hongjuesir在2007-11-25 17:49:00的发言:
    那就是先把那个目标文件下载保存起来,然后再进行转换。
    下载目标html文件可以搜索相关资料。

    你知道这方面的资料么?如何下载html文件?急需

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/12/11 12:10:00
     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客6
    发贴心情 
    如何下载html?在IE中另存为啊,如果要在程序里实现则翻阅相应语言手册
    关于资料,最好是google一下

    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/12/11 19:11:00
     
     XSLFO 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:9
      积分:109
      门派:XML.ORG.CN
      注册:2008/4/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给XSLFO发送一个短消息 把XSLFO加入好友 查看XSLFO的个人资料 搜索XSLFO在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看XSLFO的博客7
    发贴心情 
    我隐约记得,IBM网站上曾经介绍到:
    1。用tidy对html进行处理, 使之成为格式规范的Html
    2。然后将特定的Html文件,用XSLT进行转换,  切换到XML文件。

    当然,由于Html文件格式较复杂, 所以没有通用的XSLT。
    只能根据需求进行定制开发。

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/4/18 23:13:00
     
     fangel2000 帅哥哟,离线,有人找我吗?
      
      
      头衔:w3china第一水王
      等级:大四寒假(收到Microsoft的Offer啦)
      文章:283
      积分:1503
      门派:W3CHINA.ORG
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fangel2000发送一个短消息 把fangel2000加入好友 查看fangel2000的个人资料 搜索fangel2000在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fangel2000的博客8
    发贴心情 
    同意楼上的观点
    第一点正确的说法应该是:用tidy对html进行处理, 使之成为格式规范的XHTML
    XHTML基本上已经是xml的语法了
    这样的通用程序是没有的
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/4/22 12:10:00
     
     airglecorp 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:8
      积分:82
      门派:XML.ORG.CN
      注册:2008/5/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给airglecorp发送一个短消息 把airglecorp加入好友 查看airglecorp的个人资料 搜索airglecorp在『 WORD to XML, HTML to XML 』的所有贴子 访问airglecorp的主页 引用回复这个贴子 回复这个贴子 查看airglecorp的博客9
    发贴心情 
    有没有直接的资料可以下载研究

    ----------------------------------------------
    Airgle Corporation - Air Purifiers

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/5/21 1:03:00
     
     leo_navy 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:59
      门派:XML.ORG.CN
      注册:2008/11/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给leo_navy发送一个短消息 把leo_navy加入好友 查看leo_navy的个人资料 搜索leo_navy在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看leo_navy的博客10
    发贴心情 
    有不是2进制版的实例么?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/11/30 15:42:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 WORD to XML, HTML to XML 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/4/19 20:51:30

    本主题贴数12,分页: [1] [2]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    109.375ms