在慧眼识书这件事上——数据比编辑更靠谱吗？

韩玉 2016年09月26日百道网

【百道编按】过去，编辑依靠经验和直觉判断一本书的畅销潜力，但这种主观的、个人化的判断终究伴随着较大的风险，似乎不如数据来得有理有据。因此，用数据说话，以此取代或者说校验编辑的判断在近些年渐成趋势。那么，数据究竟靠不靠谱呢？

畅销书究竟为什么畅销？是成功的营销，文字本身的魔力还是靠运气？恐怕没人能给出答案。但这个问题始终拨动着出版人的心弦，现在人们开始寄望于数据科学来破解畅销的“密码”。过去，编辑依靠经验和直觉判断一本书的畅销潜力，但这种主观的、个人化的判断终究伴随着较大的风险，似乎不如数据来得有理有据。

因此，用数据说话，以此取代或者说校验编辑的判断在近些年渐成趋势。美国及海外国家的一些初创公司都声称研发出了能够识别受读者亲睐的小说和纪实作品、并将书与读者相匹配的算法，或者其他能够达到同一目的的数据驱动的方法。传统出版商也在做这样的尝试：去年西蒙舒斯特招聘了首批数据研究员；今年5月，麦克米伦收购了数字出版平台Pronoun，部分原因就在于看中了其数据分析能力。

乔蒂·阿彻和马修·L.乔克斯这个月出版的新书《畅销书密码：畅销小说解析》（The Bestseller Code：Anatomy of the Blockbuster Novel，麦克米伦旗下圣马丁出版社）再次点燃了业界对于这一问题的讨论。十多年前，丹·布朗的《达芬奇密码》横扫全球，对于这本书的热销，乔蒂•阿彻一直大惑不解。那时她还在企鹅英国公司工作，她知道单靠市场营销这本书是卖不了8000万册的，那成功的密码到底是什么？到2007年，阿彻离开企鹅，去斯坦福攻读英语文学博士学位，这个问题仍然困扰着她。后来她遇到了做文本分析的斯坦福文学实验室（Stanford Literary Lab）的联合创始人马修•L.乔克斯，后者确信计算机能够以不同于人类的独一无二的“方式”来观察图书。

很快两人开始合作探寻“畅销”之秘诀：怎么才能知道哪些书会风靡市场，哪些书会遭遇滑铁卢，为什么？在四年多时间里，他们把过去30年间出版的5000本小说（其中500本畅销小说，4500本非畅销，从格式来说包括精装书、平装书和电子书）输入电脑，让机器学着去“阅读”并分析这些书的主题、人物、情节、背景，甚至作者的用词频率、标点符号的使用等等细节，然后他们用所谓的机器分类算法将大多数畅销书共有的特征“拎”了出来。

最终，他们的研究结晶就是一种能预测小说能否大卖的算法，这就是《畅销书密码》这本书的主题。那么在计算机看来，畅销书都有哪些特征呢？首先含涉的主题不应该太多，一到两个为宜；女主人公年轻、坚强而又不善于与人相处（《火车上的女孩》《消失的爱人》《龙纹身的女孩》都是这一类型）；无涉性爱，只是描述亲密的情感；提及狗比提及猫更好；“需要”（need）这一动词频繁出现；大量的缩写；不常用感叹号，诸如此类等等。大至主题、小至标点符号，机器分类汇总出的畅销书的突出特征总计有2799个。

一种可以预测畅销书的算法自然让出版界和作者们兴奋不已，何况其准确率还是80%。不过，数字出版技术公司Jellybooks创始人安德鲁·隆伯格在读了样书后指出，这个准确度要从统计学的角度来理解，当这一算法被应用于大容量样本时会产生大量误报。“考虑到每年有100万种新书出版，所谓的‘畅销书’算法并不能为出版业带来突飞猛进的变化。虽然它为如何辨别畅销书提供了一种新的角度，但并不能因此取代编辑的地位。”

隆伯格最终的结论是，出版业还是个带点儿博彩性质的行业，“中奖”的几率的确可以通过优质数据和算法获得提升，但是采集优质数据意味着要理解人们的阅读方式，以及他们会在什么时候推荐图书，不能仅仅依据销售数据或一本书在畅销榜单上的位置来判定成功与否。

当然，也有对数据持保留态度的一方。文学代理公司Kneerim & Williams的合伙人凯瑟琳·弗林认为，图书不同于冰箱之类物件的魅力在于它能带来意外发现的惊喜。你会接触到此前并不认为自己会喜欢的书。你喜欢网球，但可以读一本有关篮球的书。数据可能会“扼杀”这种可能性，窄化我们的选择。

因此综合来看，出版商在数据上所做的努力可能会给行业带来利益，但对文学创作以及读者来说有益无益就很难下定论了。

本文撷取《连线》杂志苏珊娜·阿尔特霍夫及Jellybooks创始人安德鲁·隆伯格的观点整理而成。

（本文编辑晨瑾）

发表评论前，请先[点此登录]

在慧眼识书这件事上——数据比编辑更靠谱吗？

相关文章