新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> XML与各种文件格式的相互转换及相关工具。 word to xml, xml to word, html to xml, xml to pdf,
    csv to xml, rtf to xml, text to xml, xml to text, xls to xml, xml to xls
    FOP
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 WORD to XML, HTML to XML 』 → 什么是CSV格式文档 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 42856 个阅读者浏览上一篇主题  刷新本主题   平板显示贴子 浏览下一篇主题
     * 贴子主题: 什么是CSV格式文档 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客楼主
    发贴心情 什么是CSV格式文档

        在集图的过程中,你肯定会常常听到CSV文件这个词。那么所谓CSV文件到底是个什么东西呢? 它有什么用处呢?又要如何使用呢?认真读完下面的文字,相信你对CSV会有一个初步的了解。

        所谓“CSV”,是Comma Separated Value(逗号分隔值)的英文缩写,通常都是纯文本文件。 下面是一个实际CSV文件中的部分内容,让大家对他有一个感性的认识。我们选的是Sjojo_Rescan 的CSV文件(Sjojo是ASW-亚洲扫图风的成员之一)。

    sj_mino1001.jpg,715282,4FB55FE8,
    sj_mino1002.jpg,471289,93203C5C,
    sj_mino1003.jpg,451929,C4E80467,    

    通常CSV文件开头是不留空的,以行为单位,每行中记录一张图片的了多项数据,每项数据用逗号 来分隔(标准英文逗号)。一般说来集图用的.CSV文件的格式是这样的:

    文件名,文件大小(以字节为单位),CRC校验值,注释(可省略)
    sj_mino1001.jpg,715282,4FB55FE8,
         |             |       |        |
       文件名      文件大小  CRC值   注释(已省略)     

    如果你的机器上装了Microsoft Excel的话,.csv文件默认是被Excel打开的。需要注意的是,当你 双击一个.CSV文件,Excel打开它以后即使不做任何的修改,在关闭的时候Excel往往会提示是否要 改成正确的文件格式,这个时候千万记得要选择“否”。因为Excel认为.CSV 文件中的数字是要用 科学记数法来表示的,而我们要的.CSV文件中的数字是普通的。如果你选择了“是”的话,Excel 会把CSV文件中所有的数字用科学计数来表示(2.54932E+5这种形式),这个文件就没法用了。 所 以如果你的CSV文件绝大部分都是用在集图上的话,建议把.CSV的默认打开方式改成任意一个文本 编辑器,系统自带的记事本就是个不错的选择。

        好,让我们回到CSV文件的格式中来。见上面,从左到右 sj_mino1001.jpg是文件名,715282 是以字节表示的文件大小。当文件名中包含逗号的时候,由于逗号在CSV文件中特殊的作用,为了 不至于产生歧义,需要用引号把文件名括起来。比如 "The Art, Fantasy.jpg",384211,...,.... 接着是一个8位的16进制数字 4FB55FE8,这是文件的CRC32校验值。整个CSV文件的精髓都在这里。

    让我们举个小例子来说明它的意义:Sjojo发布了一张图sj_mino1001.jpg,假设你是从朋友手中拿 到这张图的,那么你肯定常常会有这样的疑问,这张图在传播的过程中是否被改动过呢?是否无意 中遭到了损坏呢?CRC就是为解决这个问题而存在的。一般情况下,扫图家每发布了一套图,就同 时放出一个CSV文件(这种CSV通常叫做Official CSV,也就是官方发布的CSV的意思),这个CSV中 的CRC值是用专门的软件通过CRC32算法(常用的CRC算法还有CRC16)对文件运算后生成的一个值, 这个值可用作文件真身的标志。在绝大多数情况下,如果这个文件在传播过程中无论是大小还是内 容被改动过。那么,用同样的CRC32算法再对文件进行运算后产生的CRC校验值就完全不一样了。如 果得出的CRC值是一样的,则完全有理由认为这个文件是真身,没有被改动过。还有些时候,收来 的图片文件名被改动过了,那么你怎么知道谁是谁呢?这个时候CRC值又起作用了:用专用的软件对图片处理后,可以得到文件的大小和CRC值,然后根据大小和CRC值在CSV中寻找是否有适合的图片。如果有,就会把图片的名字改成CSV里的。举个例子,你收到了一张图片,名字是pic0001.jpg,同时你知道这张图片是Sjojo_Rescan这个集子里面的,但是不知道具体是哪一张。用软件得到它的大小和CRC分别是715282和4FB55FE8,那么软件在CSV文件里找到一行sj_mino1001.jpg,715282,4FB55FE8,大小和CRC都符合,软件就认为这张图片的原名是sj_mino1001.jpg,接着自动把文件的名字改成sj_mino1001.jpg。改动的不是CSV文件而是图片的文件名。接下来的是注释和说明,可以省略掉。需要注意的是注释的后面是没有逗号的,如果要省略注释的话,一定要在CRC值的后面保留一个逗号,否则软件会把CRC值认为是注释的。

        相信看完上面的一大堆东西后,你不但对CSV文件有了个大概地了解,对它的用途应该也有些模糊的概念了吧。我们收集图片往往是通过各种各样不同的渠道,比如从网站上,IRC上,抑或干脆是朋友送的光盘。在整个的传播过程中,图片有可能遭受到各种各样的非人待遇。尤其是从网站上收来的图片。有些时候仅仅是简单的改了一下名字,更多的时候由于很多PLMM站空间有限,常把图片的尺寸缩小,或者把图片文件缩小。一张1356x588的图被改成了678x294,或者一个四五百K的文件被缩成了几十K都是常有的事。比较可恶的是,许多网站把原来扫图家的Logo去掉,打上自己网站的Logo。还有些许搞笑派的玩家,把各种各样的图片移花接木,改头换面。这些对于一般的看图娱乐无伤大雅,但是对于集图来说,收到这样的图片是无法容忍的。如何验明图片的正身,这是扫图家和集图者共同面对的问题。CSV文件就是为了解决这样的问题而出现的。CSV文件最早用在简单的数据库里,由于其格式简单,并具备很强的开放性,所以起初被扫图家用作自己图集的标记。 如上面所说的,CSV文件是个纯文本文件,每一行表示一张图片的许多属性。你在收一套图集时,只要能找到它的CSV文件,用专用的软件校验后,你对该图集的状况就可以了如指掌。比如这套图一共有多少张,你收到了多少张,哪些是原图,那些是可能被改动过或者损坏了的图片......我们可以把.CSV文件看作一份索引,你不但可以“按图索骥”,还可以检查自己收来的“马子”血统是 否纯正。

        CSV文件的来源通常有两种:一种是扫图家自己发布的CSV,一般称作Official CSV。也就是官方发布的CSV,通常说来是有相当的权威性的。比较特殊的是亚洲的许多扫图家,除了公开发布的图以外,还有一些私下发布的Special图,或者一些专门送给朋友的图。加上扫图家不愿意或者不会做CSV,所以他们图集的CSV往往由集图界中一些资深前辈出头来做。在这种情况下,往往会出现一个图集有好几个版本的CSV文件,并且每个版本之间都有不小的差别。此时的CSV不仅是验明真身的依据,同时也给了集图者一个希望:即使缺的再多,即使用这个版本csv收全的人再少,一定会有一个人是全的,就是此CSV的作者!集图界前辈LiQing有一句名言:“有CSV就表示一定有图!” 自然而然的,民间现了一些权威的做CSV的玩家。比如早期的EDZONE,现在依然活跃的OSun,shum,vsam,TE,Paul... 还有偶们COC图盟的WQC  

        好了,说了那么多,大家可能会问,CSV文件那么好用,到底要怎么用呢?不会要自己手工来检测吧?呵呵,还记得上文中一再出现的“软件”这个字眼吗?有专用的软件可以帮助我们完成这项工作。常用的软件有The!Checker和The Hunter。目前这两个软件都有汉化的简体中文版,汉化人是来自北方的snowtank(感谢snowtank)

    转自:http://www.cppblog.com/tx7do/archive/2006/07/20/10266.html

    [此贴子已经被作者于2007-11-3 16:56:48编辑过]

       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/3 16:17:00
     
     GoogleAdSense魔羯座1982-1-1
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2022/12/9 23:13:12

    本主题贴数5,分页: [1]

     *树形目录 (最近20个回帖) 顶端 
    主题:  什么是CSV格式文档(5583字) - hongjuesir,2007年11月3日
        回复:  祝福牛年万事平安顺利,新春愉快(29字) - hjx_221,2009年1月23日
        回复:  看来以后的多来看看!虽然我不是学这行的但是我比较感兴趣!以前以为自己对这方面还挺懂得,看来还是水品..(106字) - 小牛牛,2008年5月30日
        回复:  thankyou(8字) - xcy2004,2008年4月14日
        回复:  好文啊!(8字) - wssmao,2008年3月24日

    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    46.875ms