文 章

搜索引擎只能触及到10%的内容,深网中的内容如何浮出?

2016年08月15日   作者:百道新出版研究院

(点击图片 进入论坛)

 【百道研究】流行的搜索引擎只能触及到10%的互联网内容,其余90%在网页上并没有收录,要想把位于“深网”的内容挖掘出来,研究者正在制定标准,或者说是资源描述框架。


(图片来源:Thinkstock)

根据互联网数据中心(IDC)的预测,从2013年到2020年,网络数据的数量将会以10倍的数量增长,从4.4万亿到44万亿。流行的搜索引擎只能触及到10%的互联网内容,其余90%在网页上并没有收录,因为这些数据大部分都储存在图书馆中。这些数据要么是存储的格式决定了其不能被搜索到,要么则是其所在区域的安全措施不允许机器自动搜索进入。要想把位于“深网”的内容挖掘出来,研究者正在制定标准,或者说是资源描述框架(RDF)。这些标准和框架能够让人类可读的信息变成可理解的并且可被搜索工具再次利用的,这些搜索工具能够对分配到网页上的元数据进行筛选。

学术内容日渐开放的趋势为更加直接的搜索路径和界面创造了条件。联网的开放数据在语义网的发展中是一个关键性的进展。这一网络信息的标注也由一个RDF来组织,其中包含了一个唯一的资源标识地址,并可使用超文本协议(HTTP)访问,但是这只适用于公开得到许可的资源。开放性一直是全球文化机构和图书馆的一个重要追求,其中就包括欧洲数字图书馆——一个关于欧洲文化产品的大型线上资料库。“欧洲数字图书馆数据交换协议”是他们的许可框架管理规定,要求数据提供者和整合者赋予欧洲数位图书馆在知识共享组织“CCO 1.0 公共领域奉献”下发布数据的权力。结果,每一件数字艺术品都被编入索引,可通过搜索找到,并且附带了所有权标签,说明其版权归属。

古代世界研究协会(ISAW)的研究者最近描述了他们建立“罗马帝国货币在线”网站的经历。这是一个综合性的、易搜索的、以古代货币为对象的收藏网站。该网站已经收录了上千枚硬币,并且每天都有新的加入。该机构面临着对这些形形色色、有着不同来源和主题背景的内容进行分类的难题。最后,ISAW的研究者找到了一个学科专用渠道,专门处理连接着所有具有技术价值的罗马古币的联网数据,并且能够在不同的情境下,链接到特定的古币类型例子中去。

许多机构都在创造分享性的工具,把书目元数据嵌入日常的搜索实践和工作流程中。牛津大学电子研究中心开发的OntoMAton是一个开放资源的小插件,能够在谷歌的电子数据表上增加可搜索的标签。这一新形式的注释方法作为一种合作活动,支持研究和数据分析,这可以在所有的学科间方式,并且能够由在世界上任何地方的科学家进行操作。

语义网的潜力已经被大量的学术机构认识到。LinkedUP项目是一个合作性的研究,由欧盟的第七框架项目资助,汉诺威的莱布尼兹大学主导。该项目正在追踪通过其年度的展示会追踪这些新兴的用法。这一学术性的竞赛吸引了联网数据领域主要的竞争者,其中就包括阿姆斯特丹的社会历史国际研究所,这一机构制定了一个可视化的界面,使用联网的、相互关联的一手和二手数据,来帮助历史学家破译国家实验室中重大的数据趋势,这些数据在过去的700年中一直存在争议。类似的,联合国的食物和农业组织主导的搜索引擎AGRIS使用联网数据协议来把关于农业的信息集中起来,允许用户能够在一个站点就获得站点内和外部的两种数据。

(本文编辑:吴妮)

作者:百道新出版研究院

来源:百道网

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 立即购买

百道学习

点击图片 立即购买

百道学习

点击图片 查看详情

百道学习

点击图片 查看详情

相关文章

发表评论前,请先