法律语料库在线网站推荐

想必你会有这样的需求:知道一篇文章或者一本书中哪些词汇出现的频率最高。你可能认为这需要什么复杂的付费软件甚至写程序,其实不然,有个特别简单的在线词频分析工具。

闲话少说,直接上网址:

corpus.org/

这是教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”。这个网站有一项功能就是词频分析。下面我以分析文本《阿Q正传》为例,介绍一下该网站如何使用。

《阿Q正传》的统计结果一***是2948个字词及符号,此处“出现频率”的单位是百分比(%):

排在第一的文字是“的”,出现了712次,占了全文的4.4453%。对不对呢?我们在原文的word里核实一下:

在word里,查找出了747个“的”,比上面的统计结果多出了35个,这是为什么呢?

原因很简单,有些“的”被切进了其他词,比如“似的”“别的”“的确”等等,加在一起正好是747个,一个都不少。

不过,这个工具的确有不完善之处,比如同一个词重复出现,或者被切错,因此使用时一定要在excel里筛选一下。

如上图所示,“赵”“赵家”“赵司”都重复出现了,而且“赵家”还出现在了“连赵家”里,核实一下word,“赵家”一词确实出现了11次。

不过这个不完善之处并不妨碍使用,这个工具毕竟可以提供一个比较可靠的线索,准确的数据还需要在excel里仔细统计。

我们来看下迅翁在《阿Q正传》里最喜欢用哪些字词。

单字:

这20个单字加在一起一***出现了5118次,占了全文的31.95%!

词汇:

“阿Q”在语料库里并不是一个词,所以没被切出,该词在文章中出现了274次,应该位居第一。

从结果来看,迅翁和大家一样,很喜欢用口语化的词,在一篇一万多字的文章中就用了45次“因为”,用了35次“而且”!但是迅翁就是迅翁,这些普通的词在他的笔下出神入化,构成了文学经典。

大家如有兴趣,不妨去试一试这个工具。