(4月13日补充:这两天用网上的一些文章和GMAT的一份资料验证了一下这个WORDLIST的覆盖率,证明它的20000单词的覆盖率真的很高,几乎全部覆盖,只有一两个很个别的词没查到。它的前5000单词所带的词族估计有一万多单词,如果能熟练运用,英语水平就已经很不错了)。因为准备8月开始的MBA课程,所以最近有意识地上网找wordlist(单词表)来加强一下词汇。GMAT、gre的单词表中很多生涩的单词只有专业文章才用,在日常学习生活中使用率很低,所以学习效率不高。后来找到了一个网上很流行的6138个单词的词频表,没看完就晕了,一方面因为它的出处是英国英语,另一方面拼写方式都很古老,甚至有whilst这样的词。whilst在美国现代用语中肯定是20000以外的词汇。可见那个表的古老程度了。功夫不负有心人,终于发现了一个最新的来自于CCAE的单词表。CCAE“美国当代英语词汇研究”(Corpus of Contemporary American English)是这个世纪里最大的美国语言学研究项目,地位相当于影响深远的英国的BNC-British National Corpus。我们目前使用的大多数英语词频表都是从BNC来的,换据话说都是英国英语的词频,而且是1980年代以前的词频。美国CCAE至今还没结束,目前收集了4亿词汇的文献资料。这4亿词汇的基础材料包括1990-2009二十年里阅读量最广泛的小说和杂志(“TIME”、“New Yorker”等都是项目的参与者),电影、电视节目,大量的电话记录和面对面谈话记录,甚至还包括911报告等...)。它根据使用时间、文献性质等使用统计学方法进行分类统计,等于是在编一本带词频和流行用法的新美国英语使用辞典。在CCAE当前成果基础上,美国杨百翰大学对这个资料库用计算机方法筛选出了美语使用频率最高的20,000个高频词汇和它的类词库。 |
Word frequency lists and dictionary | |||||||||
home | uses | compare | samples | free list | n-grams | non-english | academic | purchase |
Any frequency list is only as good as the corpus (collection of texts) that it is based on. Our data is based on the only large, genre-balanced, up-to-date corpus of American English -- the 450 million word Corpus of Contemporary American English. You can be sure that the data that you find here represents what you would encounter in the real world. If you are a language learner, you can use the frequency lists to maximize your study of vocabulary in a way that is not possible with any other resource. If you are a (computational) linguist, you will have access to highly accurate, robust and useful data for research and for Natural Language Processing. (More information on how to use this data.) The English frequency data comes in a number of different formats, shown below. You can also get frequency data for Spanish and Portuguese or Academic English.
Contact information |