文 章

期刊出版商须知:文本挖掘入门

2015年06月10日   作者:罗伊·考夫曼;杨潇 编译

(点击图片 进入论坛)

【百道编按】通过对海量信息进行分析处理,文本挖掘能够为学术和商业带来意想不到的效果。文本挖掘市场正在呈上升趋势,作为“燃料”(内容)供应商,出版商们需要了解这一新兴领域 。


Scholarly Kitchen的忠实读者已经注意到,过去几年里,版权结算中心(CCC)正在和用户、出版商、科技供应商一道,提高从订阅、退订、和开放存取期刊中挖掘文本的效率。这项工作引起了众多讨论——从许可规范到XML标准;他们也和政府官员举行会议,试图确定这项工作的意义所在。老笑话讲,美国人和英国人被同一种语言分离开来;我们也发现,这些讨论和科学文献一样,都缺乏共同的定义。基于此,我们联系了在Scholarly Kitchen工作的朋友,得到他们的许可,向出版商们提供一个简短的初级试读材料。

什么是文本挖掘?

文本挖掘是对自然语言作品进行数据分析,文本在这里被当作一种数据的形式。文本挖掘常常和数据挖掘结合在一起——后者是指对数据作品和数据库进行数据分析,被统称为“文本和数据挖掘”,或者简单地说“TDM”。这里,文本是“非结构化数据”的一种形式。

TDM不同于搜索。它包括使用复杂的软件来阅读和消化数字信息,其速度远远超过人类,然后将这些信息分解为原始数据和文本,对其进行分析后再将其进行新的关联。例如,这种关联可能是一种意想不到的蛋白质互动模式,据此能够开发一种新型药品;或者可能是天气模型的一次微妙转变,据此能够预测出小麦价格的下滑。在许多情况下,从文本中抽取出来的数据都会分布在众多信息来源之中。

文本挖掘的市场规模如何?

据估计,2014年文本挖掘市场的价值超过20亿美元,复合年均增长率超过25%。正如下文所言,这个市场既有“工具”,又有“燃料”。

为什么要进行文本挖掘?

在科学、经济、人文、语言学以及其他领域,学术研究人员使用文本挖掘来实现更进一步的目标。

商务人士使用文本挖掘的原因很多:

·  管理品牌、产品或信誉

·  管理客户体验

·  进行调查

·  搜集竞争情报

·  搜集信息、获取信息,或回答问题

市场是如何组织的?

简单而言,我们推荐使用“工具加燃料”的比喻。Linguamatics、爱思唯尔、IBM/沃森、SAS等公司,以及其他一些小型创业公司,都能提供文本挖掘的软件工具。企业和学术机构也会使用内部开发的工具。其他一些公司,如Twitter、报纸和期刊出版商则提供内容以供挖掘,是这些工具的“燃料”。讨论文本挖掘时,我们必须记住这一区别。

最受欢迎的“燃料”是什么?

一份研究显示了排名前十的挖掘文本类型:

·  博客(长博客和微博)

· 新闻文章

· 对博客和文章的评论

· 客户和市场调查

· 在线论坛

· Facebook发布

· 科学或技术文献

· 在线访谈

· 邮件和通信

· 联系中心的票据或副本

用户目前如何在期刊内容中进行挖掘?

对期刊内容的挖掘一般通过JSTOR(社会科学)、库、A&I服务,以及与出版商直接交易进行。通过CCC、出版商授权协会、Crossref,出版商也能提供泛产业解决方案。此外,众多开放存取的出版商都会在其网站提供XML订阅。

研究者如何更加便捷地挖掘?

· 从一个位置直接下载多个出版商的全文XML内容的能力;

·从多个出版商的订阅、退订和开放存取内容中进行挖掘的能力;

·使用多个出版商的内容时通用一套条款和条件;

·下载结果适配他们所偏好的文本挖掘工具。

管理文本挖掘的法律?

由于技术使用的具体细节不同,TDM与版权的互动有多重方式:

· 存取文本(公开、控制发行的权利)

· 下载文本(复制)

· 文本重排(复制、翻译)

· 储存文本(复制)

· 包括文本的输出(复制、衍生)

适用于TDM的版权和版权例外情况要取决于当地法规。除了版权之外,文本挖掘还涉及其他受法律管辖的领域,包括隐私、商业机密和合同。这些领域的法律适用性也因当地法规而有所不同。

(本文编辑 晨瑾)

来源:百道网

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 立即购买

百道学习

点击图片 立即购买

百道学习

点击图片 查看详情

百道学习

点击图片 查看详情

相关文章

发表评论前,请先