期刊出版商须知：文本挖掘入门

作者：罗伊·考夫曼；杨潇编译 2015年06月10日来源：百道网

【百道编按】通过对海量信息进行分析处理，文本挖掘能够为学术和商业带来意想不到的效果。文本挖掘市场正在呈上升趋势，作为“燃料”（内容）供应商，出版商们需要了解这一新兴领域。

Scholarly Kitchen的忠实读者已经注意到，过去几年里，版权结算中心（CCC）正在和用户、出版商、科技供应商一道，提高从订阅、退订、和开放存取期刊中挖掘文本的效率。这项工作引起了众多讨论——从许可规范到XML标准；他们也和政府官员举行会议，试图确定这项工作的意义所在。老笑话讲，美国人和英国人被同一种语言分离开来；我们也发现，这些讨论和科学文献一样，都缺乏共同的定义。基于此，我们联系了在Scholarly Kitchen工作的朋友，得到他们的许可，向出版商们提供一个简短的初级试读材料。

什么是文本挖掘？

文本挖掘是对自然语言作品进行数据分析，文本在这里被当作一种数据的形式。文本挖掘常常和数据挖掘结合在一起——后者是指对数据作品和数据库进行数据分析，被统称为“文本和数据挖掘”，或者简单地说“TDM”。这里，文本是“非结构化数据”的一种形式。

TDM不同于搜索。它包括使用复杂的软件来阅读和消化数字信息，其速度远远超过人类，然后将这些信息分解为原始数据和文本，对其进行分析后再将其进行新的关联。例如，这种关联可能是一种意想不到的蛋白质互动模式，据此能够开发一种新型药品；或者可能是天气模型的一次微妙转变，据此能够预测出小麦价格的下滑。在许多情况下，从文本中抽取出来的数据都会分布在众多信息来源之中。

文本挖掘的市场规模如何？

据估计，2014年文本挖掘市场的价值超过20亿美元，复合年均增长率超过25%。正如下文所言，这个市场既有“工具”，又有“燃料”。

为什么要进行文本挖掘？

在科学、经济、人文、语言学以及其他领域，学术研究人员使用文本挖掘来实现更进一步的目标。

商务人士使用文本挖掘的原因很多：

· 管理品牌、产品或信誉

· 管理客户体验

· 进行调查

· 搜集竞争情报

· 搜集信息、获取信息，或回答问题

市场是如何组织的？

简单而言，我们推荐使用“工具加燃料”的比喻。Linguamatics、爱思唯尔、IBM/沃森、SAS等公司，以及其他一些小型创业公司，都能提供文本挖掘的软件工具。企业和学术机构也会使用内部开发的工具。其他一些公司，如Twitter、报纸和期刊出版商则提供内容以供挖掘，是这些工具的“燃料”。讨论文本挖掘时，我们必须记住这一区别。

最受欢迎的“燃料”是什么？

一份研究显示了排名前十的挖掘文本类型：

· 博客（长博客和微博）

· 新闻文章

· 对博客和文章的评论

· 客户和市场调查

· 在线论坛

· Facebook发布

· 科学或技术文献

· 在线访谈

· 邮件和通信

· 联系中心的票据或副本