【百道编按】信息检索领域,精准地呈现用户想要搜索的内容被视为满足用户需求的要务,然而在学术领域却会造成研究者信息寻求上的缺失。学者真正需要的内容发现系统应该不仅能找到自己想找的内容,还能提供对研究工作有帮助却不被主动查询的内容资源。
当光被物体阻挡时,影子就会形成。这块阴暗的部分,叫“本影”(umbra),但我总是对半影(penumbra)更感兴趣,半影指的是光线被遮挡部分穿透物体的区域。我把半影看做学术内容发现过程中最值得重视的部分。研究者的学术兴趣可能局限于某些具体领域,但有效的学术内容发现,也有助于研究者留心临近领域,甚至照顾到完全的非本职领域。
我们有时候会无视这种学术内容发现过程中非常重要的部分,称其为不够专心的“机缘巧遇”。“机缘巧遇”(serendipity)这个词历史悠久,现在它主要是用来强调意外惊喜。帕特里克·卡尔(Patrick Carr)最近指出,“机缘巧遇是有问题的,因为它的出现,意味着用户的查询意向和查询结果之间出现了不协调”。
在过去几十年里,能够创造机缘巧遇、依赖机缘巧遇的内容查询系统已经变得式微了。期刊也许是学术工作中创造机缘巧遇最重要的系统,这个系统围绕某个大主题把各种文章汇集在一起。浏览最新的学术期刊,有助于学者掌握某个领域里的当前状态,这一点对学术工作是必要的,即使里面很多文章都不是学者在明确意向下去查找的。
在传统期刊向在线期刊转型的过程中,内容平台让研究者通过电子邮件接收所有相关期刊的目录信息。人们都知道,这些含有目录信息的提醒邮件并不受欢迎,学者往往被眼花缭乱的目录信息弄晕了。这种信息系统里的内容,重点不突出,在我看来,还不够个人化,满足不了读者的需求。对于人文社科研究者来说,浏览藏书架也效果不佳,达到了其极限。因为各种庞大合集让内容变得越来越散碎,数字化的资料整合程度很低。在上述两种情况里,搞出适当的结合和替代,仍苦不可得。
在当今经过百般设计的内容发现环境下,我们应该打造一套能向学者提供更有用资源的系统,而不能仅仅让学者因能享受拾得遗珠之乐而千恩万谢,特别是在旧系统已经走向式微的时候。问题在于,怎么做才是最佳的。
我最近谈到,数据能够也应该用于内容发现的个人化,并极大地提高研究工作效率,但大卫·克罗帝(David Crotty)也提出了一些非常重要的问题,他认为这种系统会降低“机缘巧遇”。我们也担心另一种所谓“过滤器泡沫”的批评,在这种情况下,内容查询的结果,几乎全部是符合口味的。这种情况在那些“由跟随者驱动”的内容系统里太常见了,如推特。在推特里,太多聪明人仅仅是跟随那些发表自己喜欢的观点的人跑,而不是尝试理解那些关于任何话题的同样聪明的看法。学者真正需要的内容发现系统应该不仅能找到自己想找的内容的系统,还要能提供对研究工作有帮助却不被主动查询的内容资源。
设计出一种避免过滤器泡沫、确保研究人员不仅在感兴趣领域之外还能有其他收获,是目前学术内容发现领域里的基本问题。解决这个问题可在现有系统基础上开发富数据的系统,效果将会是不错的,跟当年开发现在普遍使用的信息检索系统一样。
举个例子,一个化学专业的研究者,她关注的领域是聚合物。她想要在这个小领域里以最快速度穷尽所有最新信息。与此同时,她还希望对临近领域的动态有大致的了解,可能在研究方法上有助于自己的工作。正是这些周边领域,才需要在保持一定程度关注的同时,寻求机缘巧遇。
数年前,本·肖沃斯(Ben Showers)和我提议在个人化信息平台上增设一个“机缘巧遇键”。尽管内容发现系统还会在研究者关注的“本影”之内提供查询结果,但我们可以开始想象一种新的机制,它将相邻领域里的内容资源和与方法论有关的内容,也就是研究资料的半影部分,按照一定比例给予呈现。一种方法是通过使用数据衡量某个内容资源的重要性或者知名度,一个内容资源之所以可纳入到相邻领域的搜索结果,首先是它本身在自己领域里具有重要意义。这种方法不一定是线性的,可从多个维度同时开展。最终意义上,我们要实现的是功能比期刊更强大的过滤,提供过滤功能,同时避免过滤器泡沫。
这个方法强调了控制数据(或者至少是获取数据)的重要性,让数据不仅仅与研究者的研究兴趣和工作内容有关,还要与研究资料本身和研究资料的使用方式有关。数年前,使用数据主要是出版社方面在弄,但随着学术文章越来越多地以在线免费形式出现(不管是学校科研机构的内容库,还是诸如Mendeley、ReadCube、ResearchGate这样的学术文章管理工具),使用数据中,各个方面到底占了几成,变得不清楚了。
当然,利用资源使用数据绝对不是打造机缘巧遇的唯一手段。最近出现了经过重新整合的虚拟浏览体验,是有益的补充。但如果不对内容资源发现做更为精心的设计,那么我们可能还是跟以前一样,只看到本影,这是学术工作的一种真正的损失。
(本文编辑 晨瑾)
发表评论前,请先[点此登录]