文 章

王晓光:专业知识库是专业出版商向服务提供商转型的发力点

作者:王晓光   2013年12月31日   来源:百道网

(点击图片 进入论坛)

当下中国,数字出版方兴未艾,出版机构特别是科技和专业出版社,纷纷在进行出版流程的数字化和内容资源的深加工工作,部分单位也已经踏上从传统出版商向信息服务商或知识服务商的转型之路。在此过程中,借助已有的图书资源开发建设专业知识库逐渐成为一种新兴趋势,并得到越来越多的出版人的关注。

对出版商来说,专业知识库建设是一项新业务,以往它主要属于图书馆界和信息服务商的工作范畴。然而,随着数字出版理念的发展,越来越多的出版人开始认识到图书除了单本或成套发行外,还可以作为一种高价值的内容资源进行开发。由此导致,基于图书的内容知识库建设逐渐成为专业出版机构数字化转型发展的不二之选。

在新技术和网络环境下,将传统印刷图书作为一种内容资源进行二次开发,必须要打破图书之间的界限。从知识库的角度来看,科技类和专业类图书就像一个个“知识孤岛”,建立知识库就是要打破知识孤岛之间的隔阂,使孤岛上的知识融合链接成为“知识大陆”,让用户可以自由地在“知识大陆”上驰骋。这种变化给内容资源带来的增值效应不是1+1的关系,而是指数增长的态势。

基于图书的知识库开发带来的内容增值效应源于两个方面:一是开发过程中的编辑再加工价值,将图书转换成知识库需要大量的二次编辑和内容条目的深度加工工作,例如知识单元的切分、知识条目的标引、知识关联的建立、知识主题的聚合、内容篇章的重组等等。这些工作常常依赖专业编辑和领域专家的进行,所以其劳动价值被转移进知识库内,形成了第一个价值增值的源泉。第二个来源是知识单元脱离了图书的天然界线,形成了知识网络,由此带来了网络效应。网络经济的重要特点就是具有网络效应,它不仅可以带来正反馈,还为网络内的个体带来指数级的增值效应,可以大大提高单个知识片段的效用价值。

尽管开展知识库建设和向知识服务商转型已经成为众多专业出版机构的集体选择,出版人对知识库的认识依旧参差不齐。何谓知识库?它与数据库有何区别?它最大的特征是什么?如何才能最大限度地发挥知识库对用户的利用价值?出版人还必须认真思考这些具有挑战性的新问题。

从字面意思来看,知识库是一种存储“知识”而非“数据”的系统组件。早期“知识库”的概念是指智能决策系统的组成部分,包含某个特定领域的所有专家知识,例如自动化领域的故障知识库。由于“知识”概念的模糊性和多义性,以及常见的“数据-信息-知识-智慧”概念框架,人们常常无法准确理解“知识库”的概念及其与“数据库”的本质差别。

从“知识库”的概念发展来看,自动化、人工智能领域的学者最早使用此概念。他们普遍认为知识库是一种具有结构化、层次化、模块化等特征的特殊的机器可读的数据库,内部存储的知识常常是谓词逻辑。企业管理界和图书情报界则普遍将知识库当作一种文档库,存储的是人类可读的各种案例文档、程序手册、企业数据或者学术论文、档案资料等内容。应该说这两种理解都是现实存在的,那么近 些年来,出版业界建设的知识库属于何种范畴呢?

出版领域的知识库显然即不是第一种知识库,但也不完全是第二种知识库。目前,知识库建设正在向精细化、语义化、网络化方向发展。出版领域的知识库建设目的是为了提供知识服务,所以出版知识库内部的知识单元不是一本书、一篇文章这样粗粒度的内容,而是更为精细的知识片段,如一个章节、一个段落、一个图表,甚至一个句子。这种精细化的加工,需要出版商借助专业知识对大块的图书内容进行结构化和精细化切分,以及深度的语义标注,进而建立跨域的知识网络和知识聚类。

从知识库的内容更新频率来看,知识库一般可以分为静态的知识库和动态的知识库。静态的知识库指内容更新频率低或者几乎没有更新的情况,例如古籍知识库,这种知识库的内容是一定历史时期的古籍集合,更新缓慢,甚至几乎没有更新增长,所以内部结构及关联关系都是静态的。动态知识库是指内容频繁更新的知识库,例如医学知识库,由于科研和实践领域知识生产速度很快,所以知识库内的知识单元也在快速增长,知识单元的关联关系也在不断丰富和调整,知识主题聚类也在持续更新换代。从知识库的内容类型看,知识库还可分为文本图像型、视听型以及混合型。相对而言,由于文本图像加工较视频和音频容易,所以文本图像型知识库建设更为方便,投入相对较小,是目前出版业界建设的主流对象。

新型知识库建设除了依赖传统的数据建设工具外,更依赖新型的语义技术,包括文档切分技术、语义标注技术、知识链接技术、本体组织技术、主题词表技术等。从知识库建设流程和模块来看,知识库建设阶段和涉及技术大概可以分为以下5个方面:

(1)知识源选择与数字化

建设知识库必须首先选择合理的知识内容源,保证内容的版权合法。没有版权的内容是不能进入知识库内部的。其次,还要选择具有权威性的知识源,例如知名作者或机构出版的图书,经典的专业图书、善本等,都可以作为知识库的内容来源。确定了来源后,就要对内容进行数字化转换,这一过程的关键是保证转换的正确性和完整性。可能遇到的问题包括图像表格的表示方式、稀有字体的编码等。

(2)知识的切分与标注

在选定知识来源以后,就要对内容进行切分。出版领域的知识库建设与图书馆领域略有不同,出版领域的知识库应保证内容切分完以后还可以重组为一本图书,例如ePub格式的电子书,这是为了复合出版的需要。这就要求切分时不能只选择图书内有价值的内容,而忽略一切体例性内容,如图书前沿、后记等。图书的切分要首先建立图书结构模型,然后确定内部的知识单元类型,切分的粒度大小,这就需要考虑知识单元的独立性和可重用性。切分方案确定后,就需要对不同粒度的知识单元添加元数据、进行语义标注、设置单元属性,如单元的适用领域、读者特征、难度等级等。

(3)知识网络链接与存储

在知识单元切分和标注完成后就需要建立知识网络。信息资源的网络化组织是信息组织发展的方向。知识网络是知识库与一般的文献库不同的地方,也是其网络效应发挥的基础。文献库内的文章单元难于相互链接,而知识库内的知识单元常常存在天然的语义关联,所以为了方便用户获取知识片段,必须利用DOI、URL、OpenURL等技术在知识单元之间建立知识链接。这种关联关系的建设往往需要专业知识和领域本体做支撑,如医学领域本体用于指导医学知识单元链接网络建设。一般说来,知识库网络模型构建以后,还要依赖于关系型数据库做最后的存储。相对而言,关系数据库还是最有效率的信息存储方式,所以必须考虑如何将知识网络模型向关系型数据库进行转换。

(4)知识检索与展示系统的开发

存储好知识库以后就要建设知识检索系统和展示系统的开发。检索系统常常需要借助全文检索和半结构化检索系统,进行文档建模和索引。展示系统也就是知识网络的网站表示模型。一般说来,知识网络不是一个检索列表,而是可视化的网络空间或知识地图,它支持用户在知识网络空间内或知识地图上进行自由地浏览和知识发现。所以如何借助信息构建技术、XML语言和信息可视化技术实现知识网络的导航是这一环节的关键。

(5)知识组织标准的建设

为了支持以上环节的进展,出版机构必须首先开发建设知识组织基础标准,包括知识源选择规范、领域主题词表、领域本体、图书结构化规范、知识单元标引规范、知识网络链接规范、知识网络导航规范等。这些基础性标准必须嵌入知识库加工的对应环节,并严格执行,才能保证知识库的质量和效用。

专业知识库的建设无法一蹴而就,它涉及到的信息技术较为前沿,工程量大,对编辑再加工的能力要求高,需要较多的人财物投入。尽管前期成本较大,但在建立之后,可以树立较高的市场进入门槛,也可以凭借网络经济的赢者通吃法则形成一定的市场垄断,进而保证较高的利润率和长期获益能力。

总的来说,知识库建设是专业出版机构向知识服务商转型的基础保障,也是一种可行的和成熟的商业模式。利用已有的存量图书资源,开发建设专业知识库,推动数字出版向高级的语义出版和知识服务转型,正在成为出版业界技术更新和产业蜕变的新兴趋势。

作者:王晓光

来源:百道网

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 查看详情

百道学习

百道学习

点击图片 查看详情

相关文章

发表评论前,请先