我们每天都在说汉语,大量的词汇在各种各样的环境中频繁使用,到底什么词使用频率高?无论是语言学家还是普通大众往往全凭感觉。近日,商务印书馆出版的《现代汉语常用词表》(草案)面世,头一回全面披露常用词语家底:当今社会,经常使用的词共有56008个。
这56008个常用词中,包括单音节词3181个,双音节词40351个,三音节词语6459个,四音节词语5855个,五音节和五音节以上词语162个。 常用词表诞生历时10年 早在1998年7月,《现代汉语常用词表》研制项目启动,这是一个庞杂而艰难的项目,由国家语言文字工作委员会组织实施。该词表是作为国家已经公布的《现代汉语常用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。 课题组负责人李行健说:“大家知道现代汉语有常用字表,共收入常用字3500个;有通用字表,收入通用字7000个。但长期以来,一直没有常用词表,常用词有多少?是哪些?一直是个谜。”而推广常用词,对于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等都是急需的。 研制工作中大多是白发退休专家,他们不需要国家经费,迎难而上。他们中有语言学家、有大学教授,今年74岁的李行健说:“完全是出于对语言的兴趣和社会责任感,我们这些老头儿才乐此不疲。”可是谁也没想到,这一路走来,竟然走过了10年。增补、修订,再增补、再修订,最后才有了放在人们面前的《现代汉语常用词表》。李行健介绍,常用词检测词频的语料库有三种:一是国家语委研制的“现代汉语通用语料库”核心语料库,这个通用语料库收有4500万字语料,缺点是有的词年代久远,如今已不经常使用。二是《人民日报》2001年至2005年约1.35亿字的分词标注语料;第三种是厦门大学研制的现当代文学作品语料库,约7000万字语料,总共2.5亿字。 目前我们看到,在《现代汉语常用词表》中使用频率越高的词排序越靠前,使用频率越低的词排序越靠后,这种降序排列让人一目了然。李行健说,研制过程中采取了课题组独创的“词频频级排序法”。由于词语的来源比较广泛、各自不同,各种语料都有自己的覆盖面和构成特点,词表中的词语不能在每种语料中都得到全面显现。比如,同一个词,在三种语料库中的词频就会不同,有的还差别很大。为了科学反映每个词较真实的词频,采用了频级的统计方法,即将每个词语的三种语料的频级之和除以三的办法。这样就能较好反映出一个词现实生活中的综合的常用度,在此基础上,再由专家进行人工审核筛选,“也就是说,这些常用词的出笼是客观和有科学依据的。” 一个时代有一个时代的关键词 从56008个常用词中,我们很容易触摸到我们所处这个时代的关键词、热点词。 李行健举例说,在热点词中,新中国成立前,“看相、抽签、算命”,可能是相当活跃的词语,现在已不是常用词了。解放初期,“土改、统购统销、合作社、互助组”词频相当高,如今在常用词中已不见踪影了。曾经在“文革”中红红火火的词,如“斗争、阶级、样板戏、走资派、臭老九”等等很常用、很热闹的词语,现在已经退出了常用词的舞台,其生命力也随之走向衰落了。 而如今,“法律、汽车、市场、资金、责任、成功、精神、文化、价值观”等等则变成了出现频率相当高的常用词。民间词语收藏家黄集伟认为,这些词与老百姓的生活密切相关,它所涉及的领域一定是社会的热点,也一定是我们社会生活变化最快的那部分。比如“价值观”,黄集伟就认为,这个词是常用的中性词。改革开放后,我们现实生活中发生了很多价值观的大讨论,这个时代发生的许多争论、争吵,比如对与错、道德与情感,种种社会矛盾等,总的来说都隐含着价值观的不同。 词汇是随社会发展变化的,它是社会变化的一面镜子。社会中出现新的事物,如“宇宙飞船、电视、手机、股票、证券”等等,人们就会创造出新词来记录反映它们。词语使用的频度决定于它同人们社会关系的程度,所以一个时代有不同的常用词表。 新词折射社会生活巨大变化 “真正的语言是活的,它潜伏或奔突于我们生活的方方面面,它不会像新闻那样被正式发布,却像血液一样弥散在我们生活的每根血管中。”黄集伟说。正如此言,在《现代汉语常用词表》中,大量与社会生活变迁同步的新词,反映了社会点点滴滴的变化。 《现代汉语常用词表》责任编辑余桂林和记者一起总结了涉及社会生活的方方面面变化的一些新词。 反映政治生活变迁的有“三个代表、邓小平理论、三农”等。 1978年高考恢复后,与考试有关的词汇多了起来,“自考、电大、函授、博士点、会考、考级”等等天天与大家见面。 随着市场经济的发展,房地产业带动起词汇的飞速发展,“房市、商品房、期房、现房、房改、房贴、租房、房源、业主、二手房”等等,都是许多年前从未见过的新词。 跟网络有关的词汇表现最为活跃,新词呈逐年上升的趋势。“网吧、上网、互联网、局域网、计算机网络、网管、网卡、网络化、网警、网络游戏、网民、网页、网站、网址、发帖”等,在过去简直是闻所未闻。 跟金融有关的词汇也很多,比如“银行卡、信用卡、刷卡、按揭、理财、基金”等。 有关职业、身份的新词非常多,如“白领、蓝领、单身贵族、工薪族、上班族”,不过,这几年时兴的“金领、粉领”等还未收入,专家分析,可能是因为它们还不稳定的原因。 和股票有关的词语,比如“飘红、飘绿、熊市、牛市、参股、股市、股利、股民、股息”等足有一大串。 随着明星对社会生活的影响力加大,由明星生发出了诸多词汇,如“丑星、歌星、球星、童星、舞星、笑星、新星、影星”等。 这些年,在新闻中出现频率很高的词汇,如“艾滋病、非典、禽流感”也是常用词。 而一些大家熟悉的俗语,如“暴发户、二百五、三陪”等也被收入其中。 “的”使用频率最高 56008个常用词中,“的”使用频率最高。 民间词语收藏家黄集伟集词历史足有10年,他认为“的”这个语言文化现象很值得探究。“在现代汉语里,‘的’属结构助词,我相信,经过很多年,这个词依然会是词频很高的词。”他接着解读道,“的”字词组也相当常见,比如,打酱油的、撑船的、唱歌的,这时“的”代指人。 黄集伟曾注意到一个有趣的现象,江苏作家程庸写《官窑美人》,这部25万字的长篇小说拒绝用“的”,一度为人关注。黄集伟认为,生活中去掉“的”可以,但是会很不习惯,一定要换一种表达方式才行。比如,“这是一个漂亮的杯子”,去掉“的”就变成了“这个杯子很漂亮”。 而实际上表达的意思已经走了样。 过去许多语言学家如吕叔湘、王力等,也曾多次创导汉语言要简洁生动,台湾作家余光中曾作过测试,要看语言简洁与否,只要看为文,通常20个字里只能出现一个“的”,超过两个则是啰嗦。 但语言学家也认为,可有可无的“的”完全可以不要,但“的”毕竟是一个很有用的助词。《现代汉语常用词表》同其他词表一样,汉语中第一高频词就是“的”。助词在汉语中表示的语法意义非常重要,如果不用“的”是不可能的,不是表达不清,就是表意混乱或产生歧义。 常用词表将每5至10年修订一次 李行健说,现代汉语常用词将每5年至10年修订一次,应与时俱进。否则,常用词表很容易边缘化。 语言是不断变化的,几年之后,很多词会从常用词里隐退出来,又有许多表现稳定的新词会出现,因此要密切跟踪语言的发展。“我们此次发布的《现代汉语常用词表》,虽然词语统计用了三种语料库,但毕竟还有局限,收入的词语也可能有缺漏,不可能一下做到尽善尽美。所以必须5至10年修订一次。” 语言专家认为,当今社会语言处于飞速发展期,这与经济社会环境、新观念、新思想、新事物不断出现有关。与过去相比,因为有网络的出现,新词的产生和传播也更加迅猛,新词往往开始在小圈子传,但有不少词很快在大众范围内传播。“不过,大多数新词仅是昙花一现。真正有生命力的新词,需要时间的检验。”李行健说。 有人很关注《现代汉语常用词表》中收了多少网络词。李行健说:“网络词语能否进入常用词表,有两道门槛必须逾越。首先它必须进入社会大众的语言中,其次还要为人们广泛使用具有很高的使用度,达到常用词的标准后才可能进入词表。如”网民、网吧、网址“等就经过了上述过程才得以进入常用词表的。 |