文 章

电子书质量 内码校对是基础

作者:赵 欣   2013年01月22日   来源:出版商务周报

(点击图片 进入论坛)


    亚马逊中国电子书商店上线,成为近期业界热议话题。亚马逊中国电子书商店内所售电子书的质量之高有目共睹,相比之下,如何保证电子书最基本的质量成为摆在国内电子书制作者面前的一大问题。正如中国铁道出版社数字出版领导小组办公室项目主管李军所言:“一听到某电商宣布某期限内制作上线多少万册图书,就为该批书的质量担忧”。

质量之本 乱码零出现

    相信大多数“运气好”的读者都遇到过这种情况,当你从国内某电商下载一本图书准备阅读时,竟然发现题目是匪夷所思的乱码,无奈之余想必也对该书的质量产生了巨大的怀疑。然而,这些乱码缘何而来?其实这些并非乱码,而是未被识别的代码,也就是文本内码出现的错误。目前国内电子书制作有一部分基于PDF格式,还有一部分是基于流式文件格式,但是若乱码出现了,即文本字内码错了,一切都是枉然。
  
    “代码错误始终困扰数字出版,在于应用。目前电子书所采用的流式排版,是基于HTML 、XML这样的文档,基于这些东西来做出的电子书,其交换码的调用和PDF所用字不是完全一样的。计算机系统中显示出来的字符,是通过每个字符对应的内码,再用此字符不同字体的字模样式显示出来。以PDF文档来说,我们看到是每个字符的字模样式,但若是字模与该字符对应的内码不能对应时,将PDF文档内的字符复制出来则会出现乱码现象,即显示非对应内码的另外一个字符,以此为基础制作的流式文件就会出现不能阅读的乱码。就出现了PDF环境阅读下这个字是对的,但因为在HTML、XML环境中有无法阅读的代码,字的对应关系发生错误即代码错误的现象。”李军解释说。试想,若是一本电子书只错了一个字,符合差错率,但是错的是主人公的名字,那么该电子书阅读者的阅读体验将有多糟糕。
  
    对此,李军颇有研究,他指出这些乱码实际大部分情况下是未被正确识别的代码,它的出现绝非偶然,在技术上是可以解决的。何谓内码?就是汉字的二进制编码。输入码,即天天用的各种输入法,比如说五笔、sogou输入法、包括各种语音识别技术的输入法;交换码,如国标码,它相当于字库,例如国标2312,收入了7445个字符,其中文字收入6763个,其余都是标点符号等各种图形;机内码,简称“内码”,即计算机语言,二进制码;字型码,就是字模,计算机处理能力差的时候使用16*16的点阵,目前能达到48*48点阵。例如你在记事本输入“联通”二字后保存,再将该文件打开,文件内就会呈现各种符号即乱码了。而这个原因是ansi编码的BUG造成的。李军坦言:“实际上,所谓乱码的展现形式很多,乱码是内码错了还是交换码错了还是字型错了?这三个地方都有可能出现问题,唯一不太可能出现问题的是输入码。”
  
    PDF环境下看起来是对的字,能读能打印,但是复制粘贴出来的字,就会出现乱码,如何解决?事实上,这一错误在技术上完全可以解决,但是代价也很高。李军认为有三个办法:首先,可以更新字库、字模;其次采用OCR技术,辅以人工校对,但是时间成本、人工成本就会增加;再次,内码校对技术,就是把没能够被正确解读的代码转换成常用字库对应的交换码、字模等。

解决之道 内码校对技术

    据李军介绍,目前在很多电子书制作项目的招投标中,很少有要求内码校对这一项。他指出,这一技术能够保证电子书最基本的要求:文本差错率,这是最基本的质量保障。遗憾的是该技术不被重视,而增加成本是一大原因。
  
    无疑,内码校对这一技术会带来成本增高,假设目前一页文字的内码校对的价格大致在0.5至1元左右,计算下来内码校对的费用仍然占用了电子书制作成本的一大块,何况市场价格会更高。“你不能确定是哪本书的PDF内码有问题,以PDF为基础的电子书就要每本都查,那么电子书的价格就受影响,消费者最终埋单。”李军如是说。消费者的消费习惯是“免费”,若是免费情况下电子书质量有瑕疵,或许“无关紧要”,若是付费情况下,出现各种瑕疵,那么该书的销售情况堪忧。确实如此,悉数销售排在前列的电子书,其价格都较高,制作成本也都很高。
  
    对于国内电子书质量问题,李军很是重视,在他眼里内码校对仅是电子书质量最基本的保障。“国内电子书制作者应该多向亚马逊电子书学习,他们对电子书品质的追求是国内电子书制作者所没有的。”他对此感慨颇深。亚马逊制作电子书所签署的合同中,有几十页都在讲产品要求,其中技术要求占30%,而产品展现形式占70%,包括对文字代码的要求,很值得学习。

    原文标题:电子书质量 内码校对是基础

作者:赵 欣

来源:出版商务周报

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 查看详情

百道学习

百道学习

点击图片 查看详情

相关文章

发表评论前,请先