文 章

更好的数据管理能让出版做得更出色

作者:波特•安德森;骆双丽 编译   2014年08月21日   来源:百道网

(点击图片 进入论坛)

【百道编按】信息大爆炸的背景下,数据管理至关重要。于出版行业而言,管理好元数据、建立一个行之有效的数据库系统将有助于出版商、代理机构和作者更有序及高效地工作。

(“悦读”摄影比赛作品。图片来源:北京阅读季)

走向数据穹顶

Bookigee的克里斯汀•麦克莱恩在她主持的 “教作者认识元数据”(Understanding Metadata for Authors)栏目中告诉我们,目前的出版数据库系统“相当复杂”且“十分混乱”,再加上“‘各自为政’的数据业务”和“没有中央数据处理中心”,眼前的现状实在没法儿令人充满信心。

麦克莱恩说:“数据正以十分杂乱的模式变化着,反馈系统亦未见成效。”

正如任何一位关注该领域的人所知,事实上,统一标准的缺失及不同模式间的冲突并非当前面临的唯一难题。

有时,专有权益也会误导人们的看法。例如,有的人从未意识到ASIN和ISBN是完全不同的。他们不知道ASIN是亚马逊标准识别号码,是应用于亚马逊西雅图系统中的一个产品生命周期跟踪代码;而ISBN则是国际标准图书编号,通常可以读取和跟踪图书从图书馆到书店再到研究人员的整个过程。不过,自助出版作者可能不会花钱购买ISBN——这也是今天ISBN无法统计或记录内容生产的原因。总之,将ISBN和ASIN这两种标识等同起来是一种错误的想法。

图1 克里斯汀•麦克莱恩

麦克莱恩认为:“小说销量受数据匮乏的影响最大。”从零售上的数据来看,应用了元数据编码的“符合标准的图书”比不符合标准的多售出98%;有封面图片的图书又较之多售268%。符合标准、配有封面图片且有增强型元数据的图书则能多售2600个单位。

麦克莱恩进一步向大家介绍了BISAC编码(Book Industry Standards and Communications,书业标准与通讯),这是一种以元数据为支撑的标准化图书分类标签,而很多人却对此一无所知。

麦克莱恩与尼尔森公司有广泛的合作,她也与鲍克出版公司的劳拉•道森进行过交流。劳拉•道森以“步入攻坚阶段”(Into the Stratosphere)为主题的演讲主要关注数据采集和交换的领先领域,各代理机构和有关部门也都在致力于促进全球标准的制定和实施。

庞大数据笼罩之下:道森的新成果

通过呈现近年来收集的数据所绘成的图表,道森清晰明了地向大家展示了数字时代图书内容的绝对数量是如何“爆炸”的。

以下3条似是而非的消息或许能成为朋友们周末聚餐的谈资:

1)1999年,鲍克出版公司可以基于其“在版书目”数据库(Books in Print)识别约90万本图书;而2013年则达到了2800万本图书的识别能力。

2) 2006年,“在版书目”数据库收录了65000家出版商;2013年,“在版书目”数据库内保守估计的出版商数量就已达51.7万。

3) 时至今日,“在版书目”数据库内大约已有900万名作者。

值得一提的是,还有很多图书是鲍克出版公司所无法跟踪的,因为很多自助出版商都不会采用ISBN来保证自己的作品被追踪到。

图2 劳拉•道森

此外,道森还补充道:“除图书信息外,还有期刊和杂志文章,在网站和博客上免费发布的内容,以及脸书、推特和领英上的信息……可以说,我们身处信息的洪流中。”

讽刺的是,数字范式最大的益处之一就是永久性,而这也可以看做是数据专家们的另一个难关。“内容得以永久性存在,这是前所未有的。”道森说,“位于旧金山的互联网档案馆缓存网页,国会图书馆存档信息,什么都不会消失。数据或许会迷失在过载的信息海洋中,但它依然是存在的。”

道森使用“流动性”一词形容当今内容的变化趋势。“信息的形式是多样化的,它不存在边界。”道森说,这是因为信息大部分都存在于虚拟的互联网中。

“在这个信息丰富、永久存在且不断流动的世界中,可发现性至关重要。”道森解释说,而支撑可发现性的就是元数据。

有关元数据的四项创新

道森说:“不管你处于图书行业的哪个环节,如今都会花更多时间在修复、解读和担忧之前的元数据上。”

道森的目标是创建一个能够阅读信息的机器读取层,使计算机能理解编码化的说明。

“语义网”是推动通用数据元以使计算机更好地发现和理解在线数据的一个巨大进步,其“本体”就是通用数据元本身。

目前,以下四方面是元数据的讨论焦点:

1)Thema是全球性的主题代码,被定义为用作一个作品的主题的任何实体,它可以跨越语言障碍,使出版商、代理机构和作者能够在国际市场上销售图书。

2)ISNI(国际标准名称标识符)是一种新的标识符,它不是指向一部作品(ISBN则是),而是指向作品的作者或艺术家,以及图书、音乐或艺术作品背后的创意工作者等。ISNI可以解决作者元数据信息不规范而造成的无法互联等问题。

3)Schema.org是目前主流的微数据标记,主要是为网页创建元数据。它一般为大型搜索引擎所使用,可以将信息映射在某个主题或项目上创建出我们所见的“丰富的网页摘要”。谷歌搜索引擎使用的就是Schema.org。

4)W3C(万维网联盟)启动的数字出版计划中,数字出版相关的标准工作将主要由“数字出版兴趣组”(Digital Publishing Interest Group)承担。数字出版兴趣组的任务是创设建立元数据所需的条件,制定数字出版格式标准,促进数字出版中可访问性、布局和样式、内容标记等技术的发展。

这其中有的项目才刚刚起步。道森说,即使足够幸运,我们也至少需五年的时间来让这些项目走上正轨。

作者:波特•安德森;骆双丽 编译

来源:百道网

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 查看详情

百道学习

点击图片 查看详情

相关文章

发表评论前,请先