【百道编按】美国出了本书,声称研发了能够预测畅销书的算法,准确率高达80%。这着实让出版行业和创作圈兴奋,但很快技术专家就出来泼冷水了,这种算法并不像人们想的那么神通,所谓80%的准确度要从统计学的专业角度来解读,结果就不那么令人欣喜了。
圣马丁出版社(St. Martin Press)9月就要出版的《畅销书密码:畅销小说解析》(The Bestseller Code:Anatomy of the Blockbuster Novel )一书正在获得越来越多的关注。一个人真能预测哪种书会成为纽约时报畅销书吗?很多出版行业人士和作者们为书中所声明的畅销书预测算法而兴奋。
因为有出版技术以及读者分析方面的经验,好几个记者联系我,询问对于这本书的看法。这让我对这本书产生了阅读兴趣,而且我有幸收到了圣马丁出版社寄来的样书。
首先这本书可读性很强。我会把它作为消遣或学习读物推荐给所有对图书这一行业感兴趣的人。作者就是要写给大众看的,所以语言平易,尽可能避免使用行业和学术用语,列举了很多有关作者、读者的掌故和事例。
书里所指的“密码”是把最前沿的机器学习技术应用于出版业而发明的算法,不过作者试图尽最大可能简化这种计算机背景。书中并没有提“大数据”或人工智能,只是简单描述了“黑盒子”是做什么的,为想要了解更多黑盒子内部工作方式的读者提供参考。
作者提到“这种算法可以预测一本书是否会成为畅销书,准确率为80%”,在采访过程中我感觉很多记者都对这段表述产生了误解,他们是这样理解的:“如果今年《纽约时报》的畅销书有500本,那么这种算法就可以生成这500本书的书单,其中有400最终会真的成为畅销书。”事实上,准确率80%不是这个意思,误解之处在于“生成500本书的书单”。
如果了解一点统计学知识的话能更好地理解这段话。有关80%的准确度作者是这样描述的:
如果有50本真正的畅销书,算法能够从中确认40本(80%),但会把另外10本(20%)“错误地”辨别为不畅销(“否定”结果)。这10本书就属于统计学中所说的“漏报”(false negatives)。
如果用算法来辨别50本非畅销书,同样其中40本(80%)会被确认不是畅销书,其他10本(20%)会被算法“错误地”归类为是畅销书(“肯定”结果),但实际上它们不是。因而,这10本被错认为畅销的书就是统计学中所指的“误报”(false positives)。
我们可以设想另外一种情境。假设在一家巴诺超级店里,书架上有20万本整齐摆放的书,其中“《纽约时报》新旧畅销书”区有1000本。
这时一群特朗普支持者闯入书店,把所有的书都扔到地上,以抗议特朗普的《交易的艺术》没有被陈列在畅销书区。这些人对阅读并无兴趣,因此离开的时候没有带走任何一本,所以现在20万本书杂乱地散落在地板上。
巴诺派一位实习生把畅销书区的1000本书重新摆好,但是实习生并不知道哪些书才算畅销书,因此他决定使用这种神奇的新算法。
现在他要用这种算法来检测所有20万本书。当检测到那1000本畅销书时,算法正确地识别出了800本,但把另外200本归入非畅销书了。
有意思的事情来了。在分析剩下的199000本书时,算法认定其中80%,也就是159200本不是畅销书,剩余的20%被“错误地”归为畅销书,那可是整整39800本。也就是说,实习生最终用算法把40600本书(39800+800)指认为《纽约时报》畅销书。他发现的不只是他要找的那1000本书,而是“漏掉”了200本真正畅销书的398 00本伪畅销书。这才是《畅销书密码》中说的80%准确度的含义。
当应用于大容量样本——里面很多非畅销书——时,算法会产生大量误报。
但它的确发挥了作用。鉴于最初的20万本书里,只有0.5%是畅销书(1000本),在新的包含39800本书的小样本里,有2%的畅销书(800本),这样畅销书的“浓度”(enrichment)提升了4倍,但仍有200本畅销书被漏掉,因为算法并不是百分百准确的。
现在,我们换种玩法。假设实习生偷懒,把算法最先辨认为畅销书的1000本摆到了书架上。根据刚才提到的浓度反推,我们知道在实习生最先选择的这1000本书里,只有2%会是畅销书。因此,重新摆放后的“畅销书区”里几乎所有的书都不是畅销书。甚至有0.005%的概率,特朗普的书会出现在这个位置。
这样看的话,这种算法听起来也没那么神,但这就是80%的准确率所意味的结果。考虑到每年有100万种新书出版,所谓的“畅销书”算法并不能为出版业带来突飞猛进的变化。虽然它为如何辨别畅销书提供了一种新的角度,但并不能因此取代编辑的位置。
机器正变得越来越聪明,机器学习能力不断提升,人工智能也变得越来越智能。如果算法的准确度提升到99.9%又会怎么样呢?到那时候,实习生可以从随机散落在地板上的1000本畅销书里准确地识别出999本,而只有1本的遗漏。而在检测剩余的199000本书时,也只会产生199本的“误报”。
这个结果听起来很让人振奋,但人类的品味和潮流太难预知,算法要达到99.9%的准确度还有很长一段路要走。出版业还是个带点儿博彩性质的行业,不过“中奖”的几率是可以通过优质数据和算法获得提升的。采集优质数据意味着要理解人们的阅读方式,以及他们会在什么时候推荐图书,而不是仅仅依据销售数据或一本书在畅销榜单上的位置来判定成功与否。
作者:安德鲁·隆伯格(Andrew Rhomberg),技术公司Jellybooks创始人,该公司致力于收集、分析读者信息,专注于为作者、代理商和出版商提供图书营销、销售和发现工具。
(本文编辑 晨瑾)
发表评论前,请先[点此登录]