【百道编按】通过对海量信息进行分析处理,文本挖掘能够为学术和商业带来意想不到的效果。文本挖掘市场正在呈上升趋势,作为“燃料”(内容)供应商,出版商们需要了解这一新兴领域 。
Scholarly Kitchen的忠实读者已经注意到,过去几年里,版权结算中心(CCC)正在和用户、出版商、科技供应商一道,提高从订阅、退订、和开放存取期刊中挖掘文本的效率。这项工作引起了众多讨论——从许可规范到XML标准;他们也和政府官员举行会议,试图确定这项工作的意义所在。老笑话讲,美国人和英国人被同一种语言分离开来;我们也发现,这些讨论和科学文献一样,都缺乏共同的定义。基于此,我们联系了在Scholarly Kitchen工作的朋友,得到他们的许可,向出版商们提供一个简短的初级试读材料。
什么是文本挖掘?
文本挖掘是对自然语言作品进行数据分析,文本在这里被当作一种数据的形式。文本挖掘常常和数据挖掘结合在一起——后者是指对数据作品和数据库进行数据分析,被统称为“文本和数据挖掘”,或者简单地说“TDM”。这里,文本是“非结构化数据”的一种形式。
TDM不同于搜索。它包括使用复杂的软件来阅读和消化数字信息,其速度远远超过人类,然后将这些信息分解为原始数据和文本,对其进行分析后再将其进行新的关联。例如,这种关联可能是一种意想不到的蛋白质互动模式,据此能够开发一种新型药品;或者可能是天气模型的一次微妙转变,据此能够预测出小麦价格的下滑。在许多情况下,从文本中抽取出来的数据都会分布在众多信息来源之中。
文本挖掘的市场规模如何?
据估计,2014年文本挖掘市场的价值超过20亿美元,复合年均增长率超过25%。正如下文所言,这个市场既有“工具”,又有“燃料”。
为什么要进行文本挖掘?
在科学、经济、人文、语言学以及其他领域,学术研究人员使用文本挖掘来实现更进一步的目标。
商务人士使用文本挖掘的原因很多:
· 管理品牌、产品或信誉
· 管理客户体验
· 进行调查
· 搜集竞争情报
· 搜集信息、获取信息,或回答问题
市场是如何组织的?
简单而言,我们推荐使用“工具加燃料”的比喻。Linguamatics、爱思唯尔、IBM/沃森、SAS等公司,以及其他一些小型创业公司,都能提供文本挖掘的软件工具。企业和学术机构也会使用内部开发的工具。其他一些公司,如Twitter、报纸和期刊出版商则提供内容以供挖掘,是这些工具的“燃料”。讨论文本挖掘时,我们必须记住这一区别。
最受欢迎的“燃料”是什么?
一份研究显示了排名前十的挖掘文本类型:
· 博客(长博客和微博)
· 新闻文章
· 对博客和文章的评论
· 客户和市场调查
· 在线论坛
· Facebook发布
· 科学或技术文献
· 在线访谈
· 邮件和通信
· 联系中心的票据或副本
用户目前如何在期刊内容中进行挖掘?
对期刊内容的挖掘一般通过JSTOR(社会科学)、库、A&I服务,以及与出版商直接交易进行。通过CCC、出版商授权协会、Crossref,出版商也能提供泛产业解决方案。此外,众多开放存取的出版商都会在其网站提供XML订阅。
研究者如何更加便捷地挖掘?
· 从一个位置直接下载多个出版商的全文XML内容的能力;
·从多个出版商的订阅、退订和开放存取内容中进行挖掘的能力;
·使用多个出版商的内容时通用一套条款和条件;
·下载结果适配他们所偏好的文本挖掘工具。
管理文本挖掘的法律?
由于技术使用的具体细节不同,TDM与版权的互动有多重方式:
· 存取文本(公开、控制发行的权利)
· 下载文本(复制)
· 文本重排(复制、翻译)
· 储存文本(复制)
· 包括文本的输出(复制、衍生)
适用于TDM的版权和版权例外情况要取决于当地法规。除了版权之外,文本挖掘还涉及其他受法律管辖的领域,包括隐私、商业机密和合同。这些领域的法律适用性也因当地法规而有所不同。
(本文编辑 晨瑾)
发表评论前,请先[点此登录]