用算法为历史文献断代

作者：The Physics arXiv Blog 2013年01月17日来源：麻省理工《科技创业》中文网

    如何保存财产和土地交易的记录，从而完善地建立起所有权制度并解决纠纷，这对任何社会来说都是至关重要的。在中世纪的英国，这一过程在很大程度上是由宗教和皇家机构实施的，他们用拉丁语文献的形式保存这些记录，名曰“契据”。

    今天，大约有100多万份契据被保存下来，有的是原始文献，更多的是原件的古代复制品。它们为今天人们了解10世纪至14世纪间英国的政治、经济和社会状况提供了非常好的依据。比如，历史学家可以利用这些文献来研究军事和宗教组织的兴衰。对耶路撒冷圣约翰医院勋章的研究就是一个很典型的例子，耶路撒冷圣约翰医院是在11世纪西方对耶路撒冷的征服（即第一次十字军东征）之后建立的宗教和军事组织。

    历史学家表示，这份契据清楚地显示该组织是如何为响应1145年的第二次十字军东征的号召而逐步军事化的。这次军事行动的起因是穆斯林军队占领了当地的多座城镇。

    显然，这些文献有巨大的历史价值，但存在一个问题：大多数契据都没有标明年代，在1066年至1307年的诺曼人统治时期尤其如此。

    留给历史学家的问题是要找到方法按时间顺序排列这些文献。但这是个很困难的任务。

    现在，多伦多大学教授杰里拉•提拉汗（Gelila Tilahun）和他的同事们探讨了这一难题，大致提出了他们用来解决这个问题的新的计算机统计技术。

    他们的方法是，使用10000份署有年代的一部分契据，考察所使用的语言随时间的变化情况，以此来确定其他契据的年代。比如，他们表示“amicorum meorum vivorum et mortuorum”这个短语（意为：我活着的或死去的朋友）在1150年至1240年间很常见，在其他年代不常见。而“Francis et Anglicis”这一称呼（意为“到法国和英格兰”）在1204年英格兰将诺曼底割给法国后就逐步消失了。

    不过，这个统计方法要比仅仅考察常用短语严密得多。提拉汗和同事们使用计算机对出现一次、两次、三次等单词的分布方式进行搜索。他们表示：“我们的目标是开发出一套算法，通过纯计算的方法让对年代缺失的契据进行断代的过程实现自动化。”

一份中世纪时期的契据

    这一方法在他们试图对单个文献进行断代的测试过程中展现出多种模式。他们表示，最好的方式是用最流行的技术：这一统计技术通过将文献中的单词集与训练集中的分布情况进行比较，得到可能性最大的年代结果。

    提拉汗和同事们表示，他们的方法也有其他用途。比如，同样的技术可以用来推断文献的作者是谁，也可以排除赝品，而赝品的数量可能是巨大的。

    那么这种方法实际用起来如何？提拉汗和同事们在论文的结尾给出了一则关于一份中世纪英格兰的契据的趣闻。这份契据是在尼亚加拉大瀑布附近的布鲁克大学图书馆的一个抽屉中发现的，上面没有署年代，许多历史学家都试图推断出它是何时所写。开始的推测是在14世纪，但不久又改为13世纪。最终，一位学者通过和其他记录的比较，确定这份契据作于1235年至1245年间。

    提拉汗和同事们受到媒体对这份契据关注的启发，对其使用他们的自动化方法进行了估计。他们带着点儿得意地表示：“我们获得的估计数据显示是1246年。”不赖！

    原文标题：用算法为历史文献断代

发表评论前，请先[点此登录]

用算法为历史文献断代

相关文章