词频,一部隐秘的历史

来源 :初中生学习·博闻 | 被引量 : 0次 | 上传用户:woainiwgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  早在2002年,谷歌就有了一个类似“全世界无产阶级联合起来”的理想,这个理想就是把全世界的数字图书馆项目统一起来,谷歌由此诞生了GooglePrint项目。
  到2010年,谷歌已经扫描了1 500万册书,这时谷歌决定将已经扫过的书的某些统计结果公开,这便是Google BooksNgrams。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开,只要输入任何词语,都会出来一个像股票价格一样的词频走势曲线图。
  当我们把“市场”“价格”这两个词语输入后,会发现“价格”的第一个高点出现在1955年,然后像鱼一般一个猛子扎了下去,到了1967年,这个词语几乎消失在词语的海洋中,然而在1976年,这个词语以45度角的姿态重新跃出水面,向上飞腾。
  而“市场”这个词的表现更让人惊叹,从1940年开始只是一些小的波纹,和“价格”一样,它在1976年左右猛然爆发,但是它的体量更加惊人,仿佛一条座头鲸,并且以接近90度角的姿态向上攀升,如同一支射出的箭,到了1997年才到达顶点开始回落。
  如果把“国家”“个人”这两个词输入,我们会发现,“国家”这条曲线总是远远高于“个人”。从上世纪70年代到90年代,“国家”曲线一路上扬,而“个人”曲线则波澜不起,呈现出几乎和横坐标平行的曲线。
  当我们将词语换成“黑暗”和“光明”时,得到的曲线和词语本身的文学性一样的复杂,“黑暗”和“光明”互相纠缠,彼此追逐。1964年到1971年间,“光明”获得了短暂的胜利,把我们带到这一段“阳光灿烂的日子”,然而有意思的是,在1972年“黑暗”超过“光明”之后,虽然彼此都很接近,但“光明”再也没有冲破“黑暗”。
  我们来看看“腐败”和“廉洁”吧。“廉洁”这个词一直是躺在地平线上,从上世纪80年代开始抬头向上攀缘,而“腐败”的词频曲线则野性十足,从1984年到1998年经历了第一轮波澜壮阔的牛市,指数从2 000点一直上涨到9 000点,一路上扬势不可当,从1998年到2002年,经过短暂的调整以后,2003年以更加凌厉的幅度继续上攻,轻松突破一万点。
  “敌人”和“伟大”这两个词从1940年开始飙升,在1974年同时达到最高峰后一路下滑,到了2004年,近九成的“敌人”被消灭,“伟大”也缩水了八成。
  最后,我们来说说“人民”“群众”和“公民”吧,“人民”从上世纪40年代中期笔直上扬,整个图形像青藏高原一样壮观,而“群众”在上世纪50年代到70年代也颇具规模,只有“公民”像这些山脚下修建的一条小路,低调而含蓄。
  那些如恒河沙数般的词汇正静悄悄地躺在电脑磁盘中,这些词汇将为我们揭示出一部隐秘的历史。
  编辑/王一鸣
其他文献
8月13日晚,上海世博创意秀场,平头,黑T形象出现在众人面前的黎瑞刚,开启了颠覆互联网电视的旅程。发布会上,黎瑞刚以微鲸科技创始人兼董事长的身份宣布,华人文化、阿里巴巴、腾讯、中央人民广播电台参加了微鲸的创始发起人组合,从资本、政策、技术、内容、服务等各种资源角度形成了深度的战略合作。  就在发布会开始前的48小时,黎瑞刚刚刚从美国飞回上海。大洋彼岸的美国有线电视界正风云激荡。迪斯尼董事长宣布,本
小学阶段抓好学生的课外阅读能力已经显得越来越重要。本文分析目前我国小学生课外阅读方面存在的问题、对策,期待小学生养成科学持久的课外阅读习惯。 Primary school gras