Discuz!NT
欢迎 游客 , 注册 | 登录 | 界面 | 简洁版本 | 在线 | 帮助
分栏模式|网站首页|语言学网文

本主题被查看1341次, 共1个帖子, 1页, 当前为第1页     选择页数: 1      跳转到第   上一主题   下一主题
标题: ZT:汉字字位学
金立鑫
 

来自:
状态: 离线
lixinjin@gmail.com lixinjin@gmail.com
只看楼主 2007-11-13 19:12
ZT:汉字字位学

汉字字位学


Xieyan Hincha



摘要
汉字有多少?有说5万到6万的,也有说8万的,甚至还有说达10万的。这几种说法都是从大型字典收录的字形数那儿来的。
大约从80年代开始,有些学者提出来:应该把代表相同语素的字形合并为字种;汉字的规模应该按字种数儿计算。这是学术上的一个进步,但是这些学者没有讲,合并后,字形被并到哪儿去了。
本文作者把拼音文字字位学里面的术语“字位”引进到了汉字系统的结构,并且根据汉字的特点,在字位这个层次上,又做了进一步的引伸,为汉字系统拟订了一个结构模式;此外,还讲述了大陆跟台湾的汉字系统有什么区别。
根据我对《汉语大字典》,《中华字海》进行的统计,我给“汉字有多少?”这个问题的答案是:即使从历时的角度看汉字系统,也就是说,把至少两千年积累下来的汉字数量都加在一块儿,汉字系统的规模由26.500个单位组成,根本就没有象一些人声称的那么多。



有人常问过我:中国有多少汉字?好长时间我只能拐弯抹角地回答。我说:学会七千字足够了;学会三千基本上也够;学会一千字就不算是文盲了。现在我想尝试着回答这个难题,不过,在这篇文章的后面来做。
三十年代以来,中国语言学者致力于把汉字进行简单化和清晰化的工作。曾经采取了三项措施:
1.减少汉字的数量,比如:1970年中国新闻联合会(Chinese Press Association)制定 了一个收录三千汉字的字表,并建议新闻界只使用这些字。这三千字在林语堂编的《当代汉英词典》的检字表里标示出来了。
2.汉字书写形式的简笔和简单化。
3.引入一种合理的汉字计数方法。习惯上是按照字符(Graphe)计数的,但是,因为里面有不少形体不是汉字(见下:6.1.1),应该称它们为书写格式塔(Glyphe,是成字和不成字的形体的总称)。大约自八十年代开始,中国某些语言学学者写过,不应该按照书写形式(字形),而是应该按照它们所代表的语素来计字。”够“和”夠“是两个字形,但是它们的意义和语音是一样的,因此可以把它们合并。把两个或更多的字形合并后就叫作“字种“(比较苏培成.1994:9)。这样﹐汉字系统的总量就压缩了,这实在是一个进步;但是这还不能得以看到文字系统结构的全貌。因此我建议,用“字位“概念来替代“字种“概念。为了避免误会,我强调,“字位”不应该作为“汉字”的译词。

1.字位和字位变体
对“grapheme"概念有两个由翻译推荐的同义汉语词:“字位“和“字素“(黄长著等.1981:151)。这两个意义并列的术语在我所看到的文献当中,还没有用到汉语里面。在汉语语音学里,与此相反,类推的“音位“和“音素“概念是常见的;Allophon汉语叫作“音位变体“(比较马学良等.1997:54页)。Allograph概念,翻译照例译为“字位变体“和“字素变体“。
在拼音文字系统里,一个字位是一个最小的区别单位。一个字位由一组字位变体组成,一个字位变体是一个字位当中的一个异体形式。在汉字里,情况就比较复杂了。
我们还来看“够“和“夠“这个例子。这两个字是表示同样语素的两个字符。在一个字位里,把那些只是具有不重要差别的,也就是互相没有区别性的,如只是在形体上有差别的字符合并。所以,一个字位不是具体的字,而是一组表示相同语素的字。一个字位里面的成员叫作这个字位里的字位变体。“够,夠“组成一个字位,这两个字形就是gou4音,”足”义字位的字位变体。一个字位也可以由单一字位变体组成。
一个文字系统里的单位不是一个个的字位变体,而是(暂这样讲)字位,这就像语音学里通行的那样,计的是音位,而不是音位变体(音) 。

2. 字位代表字
字位[gou4]需要有一个名字。实际的方法是:从字位变体当中选出一个来专门代表这个字位。名称的选择一般由政府委托科学院或其他科学机构来决定。与此同时也就达到了标准化。中国国家语言工作委员会把”够“确定为标准字,这就是说,把它当作了这个字位的代表和这个字位命名的获选者。我把这样的代表字叫作“字位代表字“ 。
走到这一步,汉语里的情况跟其他拼音文字是没有太大差别的。把字位引进汉语语言学是很有优越性的,因为清晰度大大地升高了。为了说明,看一下“Chaos“.恰恰是这个表示“Chaos“的luan4字,字典《中华字海》(冷玉龙,韦一心等.1994,简称《字海》)里有不下60个形体。在台湾的《异体字字典》(国语推行委员会.2001)里甚至有71个,在www.edu.tw/mandr可以找到它们。正字“亂“在那里的编号是A00045。

3.字位统领字和字位统领字变体
在中国,有人为汉字的特色感到自豪。但是,有些应该最好放弃,这里我说其中的三个:
1.汉字当中有不少同形异音异义字(homograph)。我自己数《新华字典》(中国社会科学院语言研究所.1998年版,简称《新华》)和《現代汉語詞典》 (中国社会科学院语言研究所.1984年版,简称《现汉》)的结果是:
                          新华字典            现代汉语词典
字头总数                   8.681                       10.508
不重复的字头字形数        7.806              8.605
同形异音异义字形数           768 (7.806的9.46%)        904(8.605的10.51%)
同形异音异义字头数        1.643(8.681的18.93%)    1.920(10.508的18.23%)

在这儿,我给出一个《现汉》(1996年版)里的“了”liao3,le5(第763-764页)例 子:
字位                          字位变体            字位代表字
(1)[liao3]①完毕;结束        /了/                    <了>
          ②放在动词后
          ③完全(不);一点(不)
(2)[liao3]明白                /了,瞭/              <了>
(3)[le5]  ①用在句子的末尾或  /了/                    <了>
            句中停顿的地方
          ②用在动词或形容词后面
这个例子表现出,在字位层次上还有三个同形异音异义的字位代表字。拿它们怎么办呢?

2.汉语词汇学上存在着语素分析不明了的情况﹐比如:在《现代汉语规范字典》(吕叔湘,李行健.1998:465页,简称《规范》)和《现汉》里,为了把有明显差别的两组意义区分开,”尚”字都作为字头出现了两次。我在此给出《现汉》(1996年版,1110页) 的例子:
《现汉》的解释是:
尚1        ①尊崇;注重②风尚③姓
尚2        ①还 ②尚且
按照《现汉》的体例,字位的情况是:
字位                                字位变体        字位表字
(1)shang4 尊崇,注重;风尚;姓        /尚/          <尚>
(2)shang4 还;尚且                    /尚/            <尚>
在这不是多音,但是多义的情况下,在字位这个层次上,还是有两个字位代表字。这样把意义组分开的情况,已经说过了,不仅是在《现汉》里,而且在其他字典里也有,如:《规范》。我把《现汉》(1984年版)通数过:711字被多次列为字头,也就是1.598次,占总字头数10.508的15.2%”。《现汉》的编者把这711字不知什么原因分别列出了。与此相反, 《新华》的编者没有看到有这样做的必要性。

3.“够“在所有字典里都作为一个字头出现,但是对它的解释各编者的意见并不统一。在《规范》里,[gou4]有四个意义;《现汉》有仨;《新华》只有俩。这样就造成了模糊不清的问题,[gou4]到底代表几个语素,也就是需要列出几个字位?
为了把同形异音异义和语素分析不明了的问题跳过去,以便确保找出文字(不是语言)中意义单位的最少数目,就必须再把所有的字位代表字进一步处理。为此我设置了一层新的概念层次:字位命名的获选字,也就是字位代表字再归并为一个组;这样的一个组,我叫它为字位统领字。字位统领字的成员叫作allographem,汉语为“字位统领字变体”。一个字位统领字只由一个字位统领字变体组成是可能发生的。

4.汉字系统的结构
汉字系统可以用一下这个基本结构模式来表示:
字符→
字位/字位变体/→
<字位代表字>→
{字位统领字}//字位统领字变体//
举一个从中日韩国际标准字符集选出的例子:(1)干(2)乾(3)亁(4)漧(5)幹(6)榦(7)乹.这七个字符将为两个字位统领字。
语素                        字位
                字位变体            字位代表字
 [gān] trocken (gānzào)        /乾, 亁, 漧, 干/     <乾>
 [gān]Himmelsstamm (tiāngān)    /干/                      <干>
 [gàn] machen (gànshìr)        /幹/                <幹>
 [gàn] Baumstamm (shùgàn)    /榦/              <榦>   
 [qián] Weltall (qiánkūn)        /乾, 乹/        <乾>
字位统领字        字位统领字变体
1. {乾}        // [gān]   <乾> /乾, 亁, 漧, 干/; [qián]  <乾> /乾, 乹/ //
2. {干}        // [gān]   <干> /干/ //
3. {幹}        // [gàn]   <幹> /幹/ //
4. {榦}        // [gàn]   <榦> /榦/ //

汉字字位统领字的定义:

汉字字位统领字是一个抽象设置结构(construct),也就是一组形体相同的字位代表字的代表。字位统领字是经过多层次抽象过程提取出来的。在抽象地观察汉字系统的规模时,这个系统是由字位统领字构成的。

5.大陆与台湾汉字系统的差别

5.1.在字位统领字数量上的差别
上面我给出的{干},{乾}例子是大陆的。可能有人认为,把这个例子当中的简化字变成繁体字,也就适用于台湾了。但是,情况不是这样的。台湾的字数总量跟大陆是不完全一样的。区别在于,两岸有不同的文字标准。到1964年为止,大陆把2.260个繁体字减少到了2.236个(中国语言文字工作委员会.《简化字总表》1986年版)。台湾仍然停留在2.260个繁体字上。这就造成差别不仅是在字位统领字的数量上,而且也在它们的表示形体上。为了比较方便,我还是类推用那七个字符:(1)干 (2)乾 (3) 亁 (4)漧 (5)幹 (6)榦 (7)乹.
语素                    字位
                    字位变体        字位代表字
 [gān] trocken (gānzào)        /乾, 亁, 漧, 干/     <乾>
 [gān]Himmelsstamm (tiāngān)    /干/                      <干>
 [gàn] machen (gànshìr)        /幹/                <幹>
 [gàn] Baumstamm (shùgàn)    /榦/              <榦>   
 [qián] Weltall (qiánkūn)        /乾, 乹/          <乾>
字位统领字        字位统领字变体
1. {乾}        // [gān]   <乾> /乾, 亁, 漧, 干/;    [qián]  <乾> /乾, 乹/ //
2. {干}        // [gān]   <干> /干/ //
3. {幹}        // [gàn]   <幹> /幹/ //
4. {榦}        // [gàn]   <榦> /榦/ //
台湾的字位统领字数总体上比大陆多一些,但是这个差别是比较小的。

5.2. 在字位统领字表示形体上的差别
1965年12月,大陆颁布了《印刷通用汉字字形表》(汉字字形整理组.1964)。民众口头上把这个字形表里的字叫作“新字形”,把以前的字形叫作“旧字形”。在台湾现在(绝大部分)还使用那所谓的“旧字形”。因为台湾使用“旧字形”,字位统领字的表示形体也就是另外的样子,但是字位统领字的数量是不变的。
台湾    大陆
1. {兌}  //兌//  <兌>  /兌, 兑/
2. {骨}  //骨//  <骨>  /骨, 骨/
3. {涼}  //涼//  <涼>  /涼, 凉/
4. {黃}  //黃//  <黃>  /黃, 黄/     1. {兑}  //兑//  <兑>  /兑, 兌/
2. {骨}  //骨//  <骨>  /骨, 骨/
3. {凉}  //凉//  <凉>  /凉, 涼/
4. {黄}  //黄//  <黄>  /黄, 黃/

费锦昌(1993:37-3将台湾《常用国字标准字体表》(中华民国教育部.1982)与大陆《现代汉语通用字表》(国家语言文字工作委员会等.1998)当中的4.784字的字形进行过比较分析。他找出2.839组有差别,占总数的59%”。这在字位统领字上是起作用的。可惜的是,信息工程的专业人士把这些差别当成了书写形式类型的边缘现象。

6.汉字系统的总量

6.1. 大陆汉字系统的总量

现在汉字计数的对象还是书写形体的格式塔。这种计数方法是中国人从祖先那里继承来的,并且直到今天仍在保留着。《字海》当中那所谓85.568个汉语楷书单字就是按书写形体格式塔数出来的。为了能初步得出关于汉字系统总量的信息,我把《字海》里面的字位统领字数通数过。在数的过程中,我采用了两种方法:一是抽查统计,二是编号。

6.1.1.抽查统计《字海》的方法和结果:

(1)将字典字头分为两类:
第一类:音义解释齐全,并且出处为中国字书的字头;
第二类:上类之外的其他字头,其中包括:类推简化字,讹字,音义不详或音义待考字,不成字的偏旁部首,日本汉字,朝鲜汉字,壮字等等。
(2)每隔50页(第50,100,150页)就分别数一下总字头数,第一类字字头数和第二类字字头数,这样一共抽查了35页。
(3)35页里的总字头数为1.817个,其中第一类字字头有581个,占总数约31.98%;第二类字头有1.236,占总数约68.02%。用抽查出来的百分比分别乘以《字海》的字头总数85.568,结果是:
第一类字头:(581/1.817) X 85.568 = 27.361
第二类字头:(1.236/1.817) X 85.568 = 58.207
27.361就是《字海》当中字位统领字的大约数。为什么这样说呢?这是因为,在一个字位有多个变体,而这些变体都为字头的情况下,编者只在一个变体字头下面标示出单个或多个音义解释。编者做的这项编纂工作为计算字位统领字数提供了方便。

6.1.2. 《字海》的编号结果

为了检验抽查的结果“27.361”,我为第一类字头编了序号,结果是:26.446个。
因为抽查与编号的差别是非常小的,所以抽查的结果是可信的。因此,我又用抽查的方法考查了《汉语大字典》1995年3卷本当中的字位统领字字数。

6.1.3. 《汉语大字典》的抽查结果

(1)采用与抽查《字海》相同的办法,把字头分为两类;
(2)每隔100页分别数不同的字头,共数了48页。
(3)48页上的字头总数为551,其中第一类字头为267,第二类字头284。按照《汉语大字典》检字表,我数出来的字典收字符数为54.709(这与1990年版的54.678非常接近,见苏培成.1994-9)。
第一类字头:(267/551)X 54.709 = 26.511
第二类字头:(284/551)X 54.709 = 28.198
《汉语大字典》编排的体例与《字海》相同,所以可以把26.511看作是这本字典的字位统领字大致的数量。
《字海》和《汉语大字典》是目前大陆的两本大型字典,27.361,26.446,26.511三个结果也表明,《字海》和《汉语大字典》的字位统领字数是非常接近的,因此可以得出这样一个初步的结论:大陆汉字系统的字位统领字字数,也就是其规模,在26.500稍微偏低一点。

6.2.台湾汉字系统的规模

2001年7月,在台湾国语推行委员会的网址上公布了《教育部异体字字典》正式第一版。这部字典分两部分:正字:29.871个; 异体字:76.131; 总共:106.002个.
台湾的“29.871正字”比《字海》,《汉语大字典》的字位统领字数量大约多3.000个。这个区别主要在于字位统领字的概念不完全同于正字。台湾“正字”当中包括了:
(1)旧用的计量符号,如“ 糎”(编者管它叫“单位词”)。
(2)不成字的偏旁部首,如编号为N00050的亠;
(3)音义不详字,如编号为C16005的 (编者管它叫“符号词”);
(4) 日本汉字;
(5) 朝鲜汉字。
虽然存在着这几点模模糊糊的地方,台湾29.871这个规模还是不错的,而且跟大陆的也很接近.

6.3.附加的信息
1.郑林曦写过:《康熙字典》里收录的字当中,有40%是异体字。艾伟数出的《康熙字典》收字数为42.174。从42.174当中减去40%的异体字,《康熙字典》实有约25.304个字位统领字。这个数字是非常有意思的,应该进一步对它进行考查。

七. 总结

A.三本大型字典的数字(和《康熙字典》的大约数)说明,汉字系统在经过了2000余年的堆积后, 其规模在26.500和少于29.800之间。
为了能够看得清楚一些,现将四本大型字典收字情况列表如下:

字典    字符数    字位统领字字数
康熙字典    42.174    约 25.300
汉语大字典    54.709    约 26.511
中华字海    85.568    26.446
异体字字典    106.002    少于 29.871

B.表格里的结果说明:大型字典,无论收的字符量是42.000,54.000,85.000,或者甚至是100.000, 它们的核心部分是基本相当的。
C.换一种说法:自《康熙字典》以来,字位统领字的数量,根本就没有象字位变体数量那样膨胀。膨胀的数量是往我们的眼睛里撒的沙子。因此可以说,搞竞赛,一个劲儿地追逐更高的字位变体数量已经没有意义,相反:把字典当中的字符归整好,并且练习一下谦虚谨慎才有意义。词典学不是体育运动,而是一门应用科学。对计算机标准来说也同样。
D.异体字也是汉字。国家语言工作委员会不能简单地通过颁布规定禁止它们,把它们除掉。汉字字位系统不是铲除异体字,而是把它们安排到汉字系统结构当中最低的那一层次,也就是字位变体。谁都不会感到缺它们,传统也将继续传下去。

引用文献:
Fei Jinchang费锦昌.1993. Haixia Liang’an Xianxing Hanzi Zixing deBijiao Fenxi. In Yuyan Wenzi Yingyong. 1993, H. 1, S. 37-48. Beijing
Guojia Yuyan Wenzi Gongzuo Weiyuanhui u. a.. 1988. Xiandai Hanyu Tongyong Zibiao. Beijing
Guoyu Tuixing Weiyuanhui. 2001. Yitizi Zidian. Taipei: www.edu.tw/mandr
Hanzi Zixing Zhenglizu. 1964. Yinshua Tongyong Hanzi Zixingbiao. Beijing
Huang Changzhu黄长著等. 1981. Yuyan yu Yuyanxue Cidian. Shanghai: CishuChubanshe (译自: Hartmann R. R. K./ F. G. Stock. Dictionary of Languageand Linguistics. 1972. Applied Science Publishers LTD London)
Leng Yulong冷玉龙, Wei Yixin韦一心等. 1994. Zhonghua Zihai. o. O.: Zhonghua Shuju/ Zhongguo Youyi Chuban Gongsi
Lin Yutang林语堂.1972. Chinese-English Dictionary of  Modern Usage. Hong Kong: The Chinese University Press
Lü Shuxiang吕叔湘/ Li Xingjian李行健.1998. Xiandai Hanyu Guifan Zidian. Beijing: Yuwen Chubanshe
Ma Xueliang马学良等. 1997. Putong Yuyanxue. Beijing: Minzu Daxue Chubanshe
Su Peicheng苏培成.1994. Xiandai Hanzixue Gangyao. Beijing: Beijing Daxue Chubanshe
The Unicode Consortium. The Unicode Standard. Version 1.0, Volume 1. Reading, Mass., usw.: Addison-Wesley 1991
Wei Juxian卫聚贤.1979. Wenzixue. Taipei: Liming Wenhua Shiye Youxian Gongsi
Xu Zhongshu徐中舒等. Aufl. 1995. Hanyu Da Zidian. o.O.: Sichuan Cishu/ Hubei Cishu Chubanshe
Zhang Yushu张玉书等. Kangxi Zidian (Nachdruck 1985). Shanghai: Shanghai Shudian
Zheng Linxi郑林曦. 1981. Jingjian Hanzi de Lilun he Shijian. Beijing: Shehui Kexue Chubanshe
Zhongguo Shehui Kexueyuan Yuyan Yanjiusuo. Aufl. 1984 u. 1996. Xiandai Hanyu Cidian. Beijing: Shangwu Yinshuguan
Zhongguo Shehui Kexueyuan Yuyan Yanjiusuo. Aufl. 1998. Xinhua Zidian. Beijing: Shangwu Yinshuguan
Zhongguo Yuyan Wenzi Gongzuo Weiyuanhui. 1986. Jianhuazi Zongbiao
#1  
本主题被查看1341次, 共1个帖子, 1页, 当前为第1页     选择页数: 1      跳转到第







现在的时间是 2008-11-21 06:50:12
沪ICP备010383

版权所有 东方语言学网Eastling.Org  
         Powered by Discuz!NT 1.0.2656    Copyright © 2001-2008 Comsenz Inc.
Processed in 0.064 seconds