新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> XML与各种文件格式的相互转换及相关工具。 word to xml, xml to word, html to xml, xml to pdf,
    csv to xml, rtf to xml, text to xml, xml to text, xls to xml, xml to xls
    FOP
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 WORD to XML, HTML to XML 』 → tidy:将html转换为xhtml(xml)的工具,实例配合[原创] 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 56975 个阅读者浏览上一篇主题  刷新本主题   平板显示贴子 浏览下一篇主题
     * 贴子主题: tidy:将html转换为xhtml(xml)的工具,实例配合[原创] 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客楼主
    发贴心情 tidy:将html转换为xhtml(xml)的工具,实例配合[原创]

    1.tidy能干什么

    现在的网站大部分都是HTML的,如果希望将它们标准化,手工的一页一页修改非常麻烦。tidy就是一个能够把html页面转换为xhtml和xml的工具,对于html中许多不规范的标记甚至是错误的标记能够予以修正。

    我们还可以利用它生成多种样式的标签代码风格。

    当我们需要从原始的html中提取数据时,可以利用它先转换为xml格式数据,然后再利用开发语言中的xml操作类去提取。

    2.功能示例

    a.丢失匹配对:
       <h1>heading
       <h2>subheading</h3>
    被修正为
       <h1>heading</h1>
       <h2>subheading</h2>

    b.结束标记错误
       <p>here is a para <b>bold <i>bold italic</b> bold?</i> normal?
    被修正为
       <p>here is a para <b>bold <i>bold italic</i> bold?</b> normal?

    c.
       <h1><i>italic heading</h1>
       <p>new paragraph
    修正为:
       <h1><i>italic heading</i></h1>
       <p>new paragraph

    d.
       <i><h1>heading</h1></i>
       <p>new paragraph <b>bold text
       <p>some more bold text
    修正为:
       <h1><i>heading</i></h1>
       <p>new paragraph <b>bold text</b>
       <p><b>some more bold text</b>

    e.
       <h1><hr>heading</h1>
       <h2>sub<hr>heading</h2>
    修正为:
       <hr>
       <h1>heading</h1>
       <h2>sub</h2>
       <hr>
       <h2>heading</h2>

    f.将缺少的"/" 放到结束标签的位置:
       <a href="#refs">References<a>
    修正为:
       <a href="#refs">References</a>

    g.
       <body>
       <li>1st list item
       <li>2nd list item
    修正为:
       <body>
       <ul>
       <li>1st list item</li>
       <li>2nd list item</li>
       </ul>

    当标签属性值缺少引号,也会被加上,修正与属性值引号有关的错误

    未知的标签和属性会报告出来

    加入合适的DOCTYPE标签,使它符合w3c的标准

    确少的 '>' 也会被修正

    等等

    3.多种格式化代码的风格:

    a1.
    <h1 align="right">
      Heading
    </h1>

    a2.
    <h1 align="right">Heading</h1>

    b1.
    <td><img src="foo.gif"></td>
    <td><img src="foo.gif"></td>

    b2.
    <td>
      <img src="foo.gif">
    </td>
    <td>
      <img src="foo.gif">
    </td>

    4.扩展
    tidy不仅只有命令行的形式,还有GUI界面的版本和DLL的可别调用的库文件

    5.实例操作

    下载tidy和一个需转换的文档

    此主题相关图片如下:
    按此在新窗口浏览图片

    cmd下通过:tidy -h可以查看相关命令选项

    此主题相关图片如下:
    按此在新窗口浏览图片

    需转换文档的htm代码

    此主题相关图片如下:
    按此在新窗口浏览图片

    转换后代码

    此主题相关图片如下:
    按此在新窗口浏览图片

    转换的命令

    此主题相关图片如下:
    按此在新窗口浏览图片

    6.参考和下载
    http://www.w3.org/People/Raggett/tidy/
    http://tidy.sourceforge.net/

    cmd版tidy及示例文档下载


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/3 2:39:00
     
     GoogleAdSense魔羯座1982-1-1
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2022/12/9 23:51:57

    本主题贴数12,分页: [1] [2]

     *树形目录 (最近20个回帖) 顶端 
    主题:  tidy:将html转换为xhtml(xml)的工具,实例配合[原创](2479字) - hongjuesir,2007年11月3日
        回复:  不错 顶一下www.yinlingkeji.com(32字) - yulong0216,2009年3月23日
        回复:  有不是2进制版的实例么?(25字) - leo_navy,2008年11月30日
        回复:  有没有直接的资料可以下载研究(28字) - airglecorp,2008年5月21日
        回复:  同意楼上的观点第一点正确的说法应该是:用tidy对html进行处理, 使之成为格式规范的XHTM..(140字) - fangel2000,2008年4月22日
        回复:  我隐约记得,IBM网站上曾经介绍到: 1。用tidy对html进行处理, 使之成为格式规范的Ht..(227字) - XSLFO,2008年4月18日
            回复:  哪位大哥能提供一个某html页面转xml的xsl样式表吗?急需!!!(58字) - leo_navy,2008年12月2日
        回复:  如何下载html?在IE中另存为啊,如果要在程序里实现则翻阅相应语言手册关于资料,最好是goog..(94字) - hongjuesir,2007年12月11日
        回复:  非常不错,不过喜欢gui版本(24字) - xndd,2007年11月26日
        回复:  上面是将html文档转换成xml文档,但是要提取网站上的某个网页文件,再转换成xml,怎么实现呢?..(88字) - fangel2000,2007年11月20日
            回复:  那就是先把那个目标文件下载保存起来,然后再进行转换。下载目标html文件可以搜索相关资料。..(88字) - hongjuesir,2007年11月25日
                回复:  [quote][b]以下是引用[i]hongjuesir在2007-11-25 17:49:00[..(219字) - fangel2000,2007年12月11日

    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    62.500ms