文 章

关键词和机器学习会是图书发现的突破口吗?

作者:吉姆·布莱恩特;易东明 编译   2015年05月25日   来源:百道网

(点击图片 进入论坛)

【百道编按】随着图书数量的指数级增长,如何找到一本符合口味的图书变得越来越难。电商所广泛应用的算法推荐一度遭人诟病,那么加上关键词提取是否会带来理想的解决方案呢?


十多年前,出版界业内顶尖的分析师就已强调要提升“发现图书”的能力。几年前,这一问题被认为是出版业未来将要面临的最大挑战之一。时至今日,已经没有人对“发现图书”的相关问题持有异议了。

历史上从未有过如此多的读者和书籍,这一人所共知的事实让“发现图书”的挑战日益严峻。

出版商发行了海量的再版书;

电子书零售商和自出版平台提供了海量的自出版图书;

海量的海外出版图书进入了国内市场。

这一切的发生是理所当然的,因为电子书可以广泛传播而且很容易在网上查找并预定,也能在新买的移动设备上方便地阅读。

解决图书发现问题的一种新方法是利用从书籍中提取的关键词。方法是用算法将每一句话拆析成语流中的一个一个词或短语,然后基于每个词在这本书中使用频率与在母语中使用频率的比例,赋予该词一个分值。关键词也可以这样抽取,将句子中的人物、地点和其他有意义的语词单位,例如SAT的考纲词汇甚至脏话等等,识别拆分出来。利用关键词和句法结构,我们还可以从算法上测量出故事的复杂程度并预估读懂这本书所需要的平均阅读水平。

这里有一个提取关键词多么有用的例子。从以下由《梅奥食谱》(The Mayo Clinic Diet)形成的“词汇云”,我们能轻易发现整本书中使用频率较高的两个关键词是卡路里和锻炼。但这两个词并没有出现在标题或简介中。当电子书零售商和图书馆把这些关键词融合到到搜索程序中时,像这样的好书就更容易被发现了。



算法推荐为图书发现的困境提供了新的解决方案。由于可供挑选的书籍的基数如此之大,精准推荐的价值也就愈发凸显,并在应用上获得了越来越多的成功。能够比较两本书之间关键词、情感、强度、气氛、复杂性、阅读水平、适读年龄等几十种变量的复杂算法已经被研发出来。

人类历史的许多成就发生在一个相对短期的时间内。我们都记得莱特兄弟在基蒂霍克成功试飞后66年,尼尔·阿姆斯特朗就登上了月球。

仅在三年以前,Small Demons公司就利用自然语言处理技术在指定书籍中成功地识别出了特定的品牌和知名人士。两年前,BookLamp公司(现已成为苹果公司旗下的分公司)宣布了一项取得初步成功的成果:识别大众书的主题。时至今日,Trajectory能够通过比较提炼出相关的关键词并形成基于算法的推荐结果。考虑到机器处理的快速和机器学习的进化,今后60年的变化值得人们期待。也许算法会被用来帮助作者为读者量身定制故事,抑或算法本身就可以创作故事。

(本文编辑 晨瑾)

作者:吉姆·布莱恩特;易东明 编译

来源:百道网

(点击图片 进入论坛)

加编辑群提问

百道学习

随时随地 百道学习

百道学习

点击图片 查看详情

百道学习

百道学习

点击图片 查看详情

相关文章

发表评论前,请先