历史上的文学大数据分析-数据分析

虽然大数据概念近些年才热起来，但早在19世纪，人们就见到了文学作品的定量分析的身影。

2014年7／8月号的《美国科学家》杂志发表了Brian Hayes的文章《文学与大数据一相逢》。他说，虽然大数据概念近些年才热起来，但早在19世纪，人们就见到了文学作品的定量分析的身影。

在计算机尚未问世时，英国统计学家G. Udny Yule和C.B. Williams就尝试过如何利用句长的差异来表征不同的文学风格，识别不同的作者。1964年，出现了史上第一个主题为“文学数据处理”的学术会议，参会者有150人，讨论题目包括“计算文体学”，还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候，Frederick Mosteller和David L. Wallace就曾对《联邦党人文集》中常见词的词频（例如also、an、by、of）进行统计分析，试图确定哪些文章是汉密尔顿写的，哪些文章是麦迪逊写的。

Brian Hayes特别想介绍的是19世纪美国的两位“数字人文学”先驱人物。一位叫Thomas Corwin Mendenhall（1841~1924），是科学家，曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887年，他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为，正如光谱线的模式可以表明存在着某化学元素一样，通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象，看看两人的“词谱”差异大不大，结果发现，差异不足以区分开两个作者。

另一位先驱人物叫Lucius Adelno Sherman（1847~1933），他的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》，从中可以看出他喜欢定量研究。例如，他统计了这首诗歌中用了多少介词、连词和否定式表达。1893年，Sherman发表了一部著作《文学分析学：关于如何对英语散文与诗歌进行客观研究的手册》。《科学》杂志发表过一篇书评，称此书是“划时代”的作品。在书里，他想做的不仅仅是通过定量分析来区分作者，如Mendenhall所尝试过的，而且涉及更多内容。比如，他在讲授英语文学演变的过程中，注意到了一桩事实：从14世纪的诗人乔叟到17世纪的莎士比亚，再到19世纪的爱默生，文学家们写出的句子越来越简单，摆脱了过去那种“凝重”和繁复。他从每个作家的作品中抽取500个句子，统计其平均句长。16世纪初的Robert Fabyan平均句长为63个单词，19世纪的爱默生平均句长只有20.5个单词。

他在搜集基础数据方面是下了苦功夫的，比如某个暑假里，他花了三周的时间，从麦考莱的五卷本《英国史》中整理出了4万多个句子中的单词。当然，有学生给他帮忙，因为他是教授嘛。

按现在的标准来看，这些数字人文学的先驱所做的工作都很简单，也不是那么成功，但是其开拓之功是不容否认的。有先进信息技术的助力，相信21世纪的数字人文学研究一定能别开生面。

转载请注明：数据分析 » 历史上的文学大数据分析