文 章

耿相新:全球数据库出版图谱

作者:耿相新   2015年12月23日   来源:百道网·耿相新专栏

(点击图片 进入论坛)

百道网·耿相新专栏数据库出版是数字出版转型中最成功、商业模式最清晰、目标客户最明确的一次转型。出版商聚集海量专业知识和学术成果,并将其销售给研究型图书馆或机构以供专业人员使用,在欧美,这一出版模式已经使数据库出版成为图书出版的利润中心。

由数字技术催生的数据库以及数据库出版,改写了人类的知识结构、知识图谱和知识体系,改写了人类的认知关系与逻辑关系,也改写了人类的出版历史和现实图景。学术出版获得了新生,专业出版焕发着前所未有的生机,出版的边界快速滑向每个学科的专业领地。借助数据库,出版实现了全学科有效出版。

数据库是按照数据结构来组织、存储和管理数据的仓库。而数据结构则是将元数据信息按照一定的不同的逻辑关系而建立的结构模型,由此区分为层次式数据库、网络式数据库和关系式数据库三种类型。无论以何种形式建立的数据库,它们都对元数据信息进行重新标引、标识和分类,对元数据信息进行集中控制和统一管理。元数据信息往往是海量的,甚至是超乎想象的海量,以此而形成不同级别的数据库或大数据库。元数据信息可以是文字、图像,也可以是音频、视频,所有的知识信息全部可以用数据库去描述、存储、整合、搜索、分析。理论上讲,人类有史以来的所有知识信息和文字典籍全部可以实现数据库化。换句话说,数据库完全能够承担记录、存储、传承、传播人类知识的出版功能,数据库由此而成为新的出版形式。数据库出版不仅拓展了出版的外延,同时也赋予了出版这一行为活动的新内涵。

数据库出版是数字出版转型中最成功、商业模式最清晰、目标客户最明确的一次转型。出版商聚集海量专业知识和学术成果,并将其销售给研究型图书馆或机构以供专业人员使用,在欧美,这一出版模式已经使数据库出版成为图书出版的利润中心。目前,数据库出版商主要有五类企业或团体组织:

一是由传统纸质出版商转型而来,最典型的是励德·爱思唯尔集团公司,转型成功的还有美国汤姆森学习出版集团、德国施普林格出版集团、麦格劳·希尔公司、威利父子公司、牛津大学出版社等,这些传统出版商大多依然从事纸质出版,但数据库出版所占市场份额和利润总额越来越重,不过,励德·爱思唯尔除外,它已几乎不再从事纸质出版。

二是政府机构或大学或志愿者所创建的的免费数据库,尽管数据库具有免费的公益性质,但这些组织或机构实际上扮演了出版商的角色。如美国教育部教育资源信息中心创建了ERJC数据库,收录了980多种教育及和教育相关的期刊文献的题录和文摘、部分全文教育文献数据库;美国国立医学图书馆下属生物信息技术中心创建了免费的Medline数据库(文稿类医学文献);如瑞典隆德大学图书馆创建的开放存取DOAJ数据库,所收期刊超过1500种。免费数据库经营者还包括志愿者们联合创建的合作型数据库,如Repec是由分散于全球51个国家的100多名志愿者无偿建立的,主要搜集与经济学相关的预印本论文。免费数据库的创建是国家对学术生态的一种保护性措施,是大学、学者对数据库出版商高额收费的一种学术反应和抗争。

三是各种学科性学会、协会摇身而成专业数据库提供商。如英国机电工程师学会(1871年成立)创办的INSPEC数据库,是以物理、电子与电机工程、计算机与控制工程、信息技术、生产和制造工程为主要专业方向的理工学科数据库;如美国数学学会(1888年创办)依托全球600多个学术机构会员和3万个人会员创建了数学专业数据库American Mathmatics;如美国化学学会(1876年成立)是世界上最大的科技协会之一,个人会员超过16万人,学会整合全球顶尖学术资源,创建了ACS美国化学学会全文数据库,可检索自1879年学会化学期刊创刊以来的所有论文。

四是新创办的专门以数据库出版为主营业务的出版商。如中国的清华同方,以中国知网-CNKI中国期刊全文数据库为主要出版方向,其产品进入中国的各个大学;如北京万方数据股份有限公司,与中国科学技术信息研究所合作,以出版万方数据库为主要产品,该数据库已成为市场广受欢迎的大型综合型数据库;如美国斯坦福大学图书馆1995年创立Highwire Press数据库,目前已是全球最大的提供免费全文的学术文献出版商;如英国的Ingenta公司1998年创建学术信息平台Ingenta网站,先后兼并多家信息公司及其数据库,目前此网站已成为全球学术信息服务领域的一个重要的文献检索系统。这些新创办的数据库出版公司更具活力和学术资源整合能力。

五是数据库集成商的商业模式已日益受到客户的重视。如美国的EBSCO公司即是一家具有60多年历史的大型学术信息专业服务公司,共开发100多个在线文献数据库,内容涉及自然科学、社会科学、人文科学、艺术等学术领域;如美国的Proauest information and learning公司也是一家数据库集成商,其所创建的综合性学术期刊数据Academic research library颇具影响力;如中国搜库(esocoo.com)科技公司是国内首家商业数据库整合服务商,创建专业数据库联盟,覆盖100多个行业和领域。数据库集成商往往也是专业搜索引擎技术提供商。数据库提供商的生成图景也基本上决定了数据库内容的生成格局,每一个数据库的构建,其背后肯定依托着一家强有力的机构或团体,这是数据库出版与其他出版形式显著不同之所在。

数据库出版已经覆盖所有的学科领域。目前中国大学使用数据库情况,所购中文数据库和外文数据库(包括光盘数据库、视频数据库、全文数据库、文摘数据库、在线数据库)已覆盖大学所有学科,如哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、军事学、管理学、生物科学、医学等。如果依照数据库类型还可以分为图书、期刊、报纸、检索平台、搜索引擎、多媒体、数据、商业信息、索引、名录、参考工具、百科全书、专利、技术标准、技术报告、政府出版物、会议论文、预印本、法律法规、学位论文,等等不同类别。我之所以罗列了以上学科和类型名称,仅仅是想说明一点:数据库出版远远超过我们的想象,如果从内容的丰富和数量而言,数据库出版已远远超过纸质出版。从内容资源挖掘的深度和所涉及的学科领域的广度而言,数据库出版已经成为专业学术出版的主流。

如果以数据库内容资源文献类型去扫描,电子期刊与会议记录是最大宗,其次是电子图书和参考工具,其下依次是文摘索引与评论、多媒体资源、报纸、学位论文、专利和标准。学术期刊数量巨大,尽管出版得十分分散,但期刊的学科性、专业性十分强,以学科研究为主体的各类学会和协会对学术期刊具有很强的依赖性,历来为各大学和专业机构所重视,因此,各大图书馆往往都会收藏专业性较强的学术期刊。

巨大专业需求的驱动力和集中度高的收藏基础,让期刊的数据库化走在了图书、报纸等媒体的前面。同时,学术出版中心由图书转向学术期刊,以论文为学术成果衡量标准的学术评价体系,为期刊数据库化提供了广泛的社会基础。论文生产的外部检索需求,同行之间交流的频繁以及必须了解学科学术前沿和以往学术成果的需求,推动了期刊数据库出版的发展和枝繁叶茂。

图书数据库位居期刊之后的现实,说明图书在专业学者心目中的地位依然十分牢固,专著依然是衡量一个学者学术水平的重要标准之一。图书一方面是学术研究的坚实基础,尤其是社会科学和人文科学的研究,书籍往往是材料、观点和思想之源,另一方面书籍也是最方便数字化的纸质媒介,并且也容易实现纸质出版和数字出版的同步进行。参考工具、文摘索引、数据检索是与数据库共同成长起来的研究工具,随着研究成果的海量集中和即时集中,全文数据库及索引式数据库日益走向数据库出版的中心地位。检索工具和数据内容是相辅相成的正比例关系,随着论文数据库和图书数据库的扩容,研究工具也必定相应的发达,这是学术研究的必然需求。

与数据搜索型数据库需求增多相类似,多媒体资源数据库正在剧增。音频、视频数字化技术的进步为音、视频数据库的建立提供了先决条件,这一技术也直接影响到高校教学和研究生态,也直接推动了多媒体教学和在线教学,而教学和研究的数字化需求又为多媒体数据库出版提供了市场动力。因此,多媒体数据库和在线教学平台将日益成长为数据库出版的主力之一。

作为一种以聚集海量专业内容并可以进行便捷检索的出版形式,数据库出版已渗透到每个专业学科。各专业学科均相应的建立了若干数据库,这些不同语种的数据库已经成为不同专业的研究基础,作为全球使用最为广泛的语言,英语数据库已走进不同国家、不同语种的大学和科研机构的图书馆中,数据库出版的全球化、国际化倾向日益明显。数据库出版涉及人文学科、社会学科、理工学科、经济学科及法政学科等。之所以将经济与法律单列,是因为这两个学科的数据库出版量尤为显著,其数量堪与人文、理工学科的总量颉颃。这两个学科的国际化倾向尤为明显,这是经济活动和国际活动激增的一种出版反应。法律具有标准化趋向和特质,因此各个法系均试图通过全文数据库的建立以方便律师及研究者利用。

理工类数据库化的程度最高。医学、化学、生物、计算机、数学、物理、机械、工程等学科均已形成全球性的十分专业的学科数据库。理工类数据库往往以学科全球性学会或协会为依托,汇集全球顶尖作者资源和论文、专著资源,自其创建数据库之始,权威性和前沿性就是这些数据库的学术追求。总体而言,理工类数据库的利用率较高,这与理工学科内容的高度集中化有密切关系,也与科学家们追求目标学术前沿性密不可分。理工类数据库已经成为理工学科的研究和学术基础。

社会学、人文学科类数据库具有追溯性、工具性特点。相对于理工学科数据库的即时性和前沿性,社会学科和人文学科更强调数据库内容的历史性、文献性和综合性以及工具化。这两类数据库除少数专业性强的学科主题数据库,大多数据库是综合性的,它们往往是多种学科汇集在一起的一个共同学术内容平台,例如中文社科引文索引、中国人民大学复印报刊资料、皮书数据库等。由社科、人文数据库的综合性特点所引导,该类数据库的平台化、工具化的特点也比较明显,如综合型人物传记数据库、百科全书、联合书目、索引、数字图书馆、年鉴、工具书、电子报纸等形式的数据库构成社科及人文类数据库的出版主体。社科、人文数据库还具有明显的文献性特点,如电子书籍及期刊、过刊图片、档案性文献、史料及古籍、会议文献等数据库多是以其重要的文献价值、史料价值而创建的。如此概论,并不是否定社科公文类数据库的即时性,以期刊论文为主体的数据库与理工类数据库同样追求学术成果的即时性和前沿性的。不过,相对而言,社科人文数据库具有滞后事实的偏向,这一偏向也是毋庸置疑的。

数据库技术应用与人类的各门类知识整理,将各个细分的专业知识门类的数字记录存储方式置放在一个空间里,可供不同的人们以不同方式同时检索并获取自己所需要的知识,这种出版形式改写了出版概念的边界。建立在数据库技术上的基因组学、蛋白组学以及天体物理学,已经证明数据库技术可以改写学科面貌并创造新的学科。同理,数据库技术应用于出版,也创造了新的出版门类,开辟了新的出版领地。数据库出版不是传统的百科全书、类书、丛书的量的巨量扩容,而是建立在层次模型、网状模型、关系模型逻辑基础之上的采集、记录、存取、管理数据系统,这些数据扩张到了数字、字母、文字、图形、图像、影像、音频、视频等媒介领域。

数据库出版不仅仅限于文本内容,它的出版内容领地还延伸到了图像和音、视频领域。数据库出版至少在三个维度上拓展了出版的边界:一是拓展了以数字、字母、文字等文本数据为基础的出版领域,这些文本无论是书籍、报纸、期刊论文、统计数据,还是引文索引、联合目录等,绝大多数在纸质出版领域是无法再出版的,甚至还有相当数量的文本是无法进入出版领域的,而数据库出版则将这些过往文本重新进行编辑定义,以一种新的出版形式进行了传播呈现。二是多媒体数据库的出版拓宽了出版的内容形式。视频数据库、数字音乐数据库、图片数据库或者三种数据库的综合型数据库,为出版商、内容提供商开辟了新的出版资源。三是建立在即时采集数据信息基础上的大数据库,为内容、信息提供商提供了充分的服务想象空间。文本数据库和多媒体数据库均是由专家生成的数据库,但目前另两种内容生成形式——用户生成数据库和设备采集生成内容数据库——更引起国家及机构的关注,用户行为数据库已经成为现实,如用户消费、用户地理位置、用户社交媒体、用户金融信息、用户创造的网文和微博及微信内容、用户评论及交流内容等等,均已经成为大数据库内容数据挖掘的一部分,数据挖掘而形成的商业模式已经成熟并得到了商业应用。大数据之于出版商的诱引,尽管目前并不成功,但大数据无论多大,它都属于内容信息中间商的范畴,其他内容在出版范畴之内,毫无疑问,大数据库将出版的边界拓展到了新的方向和境地。

数据库出版的商业环境是建立在B2L2R(从出版社到图书馆到读者)的商业模式之上的。随着大数据库的兴起,数据挖掘、定量分析人类行为和用户行为、搜索分析文化发展趋势和商业发展趋势,数据库出版也许将转移到政府用户、机构用户和公司用户,这一商业模式的转移,一定会引起信息内容、内容传播形式、用户阅读使用行为等等一系列迁移,这些因数字技术而引起的内容迁移,将成为未来出版文化的重要组成部分。

作者:耿相新

来源:百道网·耿相新专栏

(点击图片 进入论坛)

加编辑群提问

百道网

百道网

百道网

百道网

点击图片 查看详情

相关文章

发表评论前,请先