中文域名及中文繁简问题研究
发布时间:2005-02-17   浏览次数:718618
中文域名及中文繁简问题研究 中文域名及中文繁简问题研究 计算机网络资源名称是用来表示网络资源的,而采用中文字符来表示计算机网络资源,涉及到中文用户的认知问题和使用习惯问题,中文字符的繁简等效是其中的重要问题之一。当然中文字符繁简等效只是异体等效问题中的一种,但是却是最为重要的一种,因为异体等效中大部分都是简繁体的等效。中文域名异体等效是中文域名系统设计中最为核心和关键的也是最难解决的需求。我们知道英文字母也具有大小写的区别,在Unix文件系统中,大小写通常是敏感的(case sensitive),而在DNS系统中大小写是不敏感的(case insensitive),即大小写等价,而且在IDN系统标准中已经规定直接将大写字符映射成为小写字母,直接按照Unicode标准做Case Folding。英文字母只有26个,而且大小写的关系是一一对应的关系,无论是直接做映射还是做其他类型的等效处理都是比较容易实现的,然而中文异体字符的等效问题则比英文大小写问题复杂多了。首先,仅Unicode基本平面I-Zone包括的中文字符已经超过两万个,在Extension A中还有数万字,根据简化字总表,其中仅具有简繁体异体关系的中文字符超过了2300多组,还不包括其他未收录的简繁体和异体关系。再者,而且也是最为重要的,他们之间的异体关系不仅是一一对应的关系,还有一对多,一代多和多对多的关系,十分复杂,即使采用人工智能的方式,简繁体转换的结果也不能保证百分白的正确,因此在DNS系统中试图模仿英文大小写的解决方案来解决中文字符的异体等效问题是不现实的。现行国际标准的DNS系统是基于ASCII编码的,对于英文世界的人来讲是足够了。但是,世界上多数用户使用的编码都不是仅仅局限于七位ASCII编码,随磐缡褂玫钠占埃魑缡澜缛肟诘挠蛎哺绲钠占按戳瞬焕姆矫妫桓龇矫媸怯⑽牟灰子诩且洌硪环矫嬗⑽牟荒苋非斜晔队涤姓咚胍暮濉U庋没惹邢M梢杂帽竟镅岳幢晔队蛎5牵没Р荒苋我庋≡褡约合胍谋嗦耄蛭澜缟霞负跞魏我恢殖S糜镅远加兴约旱谋镜乇嗦耄茄筒荒鼙VNS名字空间的一致性,因此IETF国际化域名工作组选定的编码标准是Unicode。Unicode几乎包含了当前世界上所有的字符,它不区分国家本地编码,仅以字形来区分,比如中日韩越等国共同使用着汉字,Unicode收录了所有的字体形式,然后进行编码,通称为CJKV。然而由于选择了Unicode,无法区分各国文字,但是我们知道,将国际化的文字引入DNS,意味着将文字本身的特点也同时引入DNS体系,而Unicode CJK码位统一导致了中文本身特性的,从而引起了一些处理上的问题。比如,对于国际化域名的子集——中文域名而言,处理中文域名的繁简等效变得非常困难。从语言学的角度来讲,中文并不区分人群和地域,但是其书写方式确并不统一,比如中国大陆和新加坡采用简体中文书写方式,而港澳台以及大多数海外华人则使用繁体中文书写方式。那么首先什么是简体中文和繁体中文呢?通常我们说的简体中文是指满足以下三个条件:字形采用简体字型书写,无繁简差别的除外;字符集通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)等由中国大陆政府正式颁发的字符集;词语用法通常为中国大陆的用法。繁体中文是指满足以下三个条件:字形采用繁体形式书写,即使具有常用简体形式,而官方用法仍然保持繁体书写;字符集通常使用BIG5编码,以及台湾官方发布的CNS14649,而词语的用法通常采用台湾、香港或者澳门的用法。语言是交流的工具。如果语言是统一的语言,而书写方式是两种书写方式,那么必然存在着同一语言中不同书写方式的转换或者对应的问题,这是简繁体等效问题的来源。多数情况下,人们把这个问题称为简繁体转换而不是简繁体等效,但是事实上很多情况下由于一些策略或者技术上的原因,是不可以直接做转换处理的,这个问题更多的是指如何处理其中的等效关系,而不是将一方转换到另一方,某种意义上讲,转换意味着一种书写方式的消失,因此,这种说法是不确切的,本文采用简繁体等效这种概念。现在处理繁简转换的工具比较多,已有的研究也比较多,但是这些研究以及设计的工具进行的多数是不同字符集之间的转换。因为最初大陆广泛使用的是GB2312编码字符集,主要收录了简体汉字,共计6763个;港澳台使用的是BIG5字符集,主要收录了繁体汉字,共计13068个,多数中文繁简转换的处理主要是做不同字符集之间的转换,而不是做不同繁简字型之间的转换或者等效处理。但是,事实上中文的简繁体等效或者异体等效问题远远不是不同字符集之间转换那么简单,而且也不是同一个概念。比如现有中国大陆推行的GB18030标准,收录了所有简繁体中文字符,基于这个字符集再去做字符集之间的转换将会是十分复杂的也是没有意义的。中文是象形文字,用图形来表示语言的含义,虽然这极大的丰富了中文的使用,但是这也注定让中文具有数以万计的字符,而其中的绝大部分都是常人所不识的。中文字符在它几千年的历史中经历了许多变迁。很多书法风格,异体字,和字体设计以及由于印刷和书写习惯的问题都导致了它的逐步演变。有些完整的以及常用的字体形式被作为常用字或者正体字,而这些正体字还具有多种多样的异体形式,并且这种异体形式之间的关系十分复杂,而最典型的是简繁体等效的问题。所以,我们说事实上中文简繁体的等效处理不在于字符集的不同,而更多是在于字型书写方式,词汇的选择,甚至语义上的差别。中文域名系统关注的也是努力解决的是有关简繁体书写方式的等效问题。Unicode/ISO10646一定程度上解决了不同码制间同字型的简繁体等效问题,CJKV占用同段码位,并进行同字型同编码,在一定程度上统一了很多字的编码,也为那些在不同本地编码方式中没有码位的字留出了码位。但是Unicode并没有解决绝大多数的简繁体等效问题,即不同简繁体字型的等效问题。而这一部分恰恰是中文简繁体等效的重点和难点。根据中文繁简转换的陷阱一文中的论述,中文字符不同字型间简繁体等效具有四个层次:级是码点等效。因为每个字都对应一个Unicode码点,码点之间的等效是不考虑上下文的关系,直接用另外一个码点和要对应的码点建立等效转换关系。这种转换对于“国”和“國”的这类关系的转换是可以的,因为他们是一对一的,在任何“国”出现的地方都可以直接用“國”来替换而不会引起任何意义上的变化;但是对于“发”字不一样了,当是“头发”的时候,它的繁体形式是“頭髮”,“发”对应于“髮”;而当是“发展”的时候,它的繁体形式是“發展”,“发”对应于“發”,这个例子是一简对多繁,大概有四百对这种一对多的方式,多半是基于语义的转换。而一繁对多简的情况也有近80组,而常见的有11组。比如繁体“著”对应于简体的“着”和“著”,当是“著作”的含义是对应于“著”本身,而当是“著火”的时候对应是“着”了,这是最为常见的一组。目前基于码点直接转换的方法有三种:种是直接替代法,最简单,耗费资源也最少,但是也最不准确;第二种是基于词频的方式,统计词频中字的用度,用度高则首先采用,但也不准确;第三种是基于词频和候选方式,所有候选字按词频统计用度,用度的排在位,其他也提示用户以便选择,这样正确率。第二级是基于词义的等效。通常采用的方法是首先对要转换的文字进行切词,然后以词为单位查找确定应该采用哪个对应的码点来替换被转码点。还以“发”字为例,如果发现和“头”字相连,那么对应“髮”,如果和“展”字相连,那么对应““發”。这种方法转换正确与否,决定于切词的正确性,比如“二锅头发展有限公司”,那么如果将“二锅头”切词在一起那么转换结果是对的,但是如果将“二锅”切在一起,而将“头发展”切在一起,那么转换结果是错的。切词方式的转换是不能保证的,除非切词工具建立了词库“二锅头”,否则极有可能的是将“头”和“发”切在一起,因此导致错误。第三级是基于上下文语义的等效。因为大陆和港澳台使用词语的习惯不同,虽然词语指称相同,但是表达方式却不同,比如英文CD-ROM对应的中文在大陆称为“光盘”而在台湾则称为“光碟”,这种繁简转换实际上是繁简词语的对应转换,这种转换也需要切词的准确性以及对繁简地区用词习惯的词语收集程度。这种转换类似于英文中美式英语“color”和英式英语“colour”的区别。第四级是基于语境的等效。比如“文件”这个词在简繁体里都是存在的,但是当作普通文件的时候,繁简都是“文件”但是如果当作计算机系统中的“文件”之后,简体计算机“文件”会对应到繁体计算机“档案”。是说词语在基于不同上下文语境的时候,其对应的词语也是不一样的。在简化字总表中定义的00多组简繁体对照涉及到的几乎都是常用字,因为不常用也通常不会考虑简化它,简化的目的是为了简化使用以便书写方便。这些简体字几乎占了人们日常使用中文字符的一半以上,因为国家颁发的现代汉语常用字表也只有3500字。而00多个简体字中,有一百多组是非一一对应的,这也恰是简繁体等效的难点所在,而根据作者制作对照表的经验,这个问题十分严重。常用的简体词中有大约%有一对多的情况,而我们统计现有中文域名注册系统中,有接近90%具有简繁体等效的问题。随着中文应用的普及,比如中文域名的开发和中文上网方式的开发都加剧了对中文异体等效特别是简繁体等效的问题的研究,但是目前已有的简繁体等效的技术方案多存在一些问题,并不能满足中文简繁体等效的处理需求。比如,由于理论研究水平的限制,现存的研究不能保证转换结果的正确性,即使采用人工智能的方式,也只是尽可能提高转换结果的正确性,比如95%以上,而不能到。已有方案多半是采用切词查表的方式来完成转换,但是如果切词存在错误,那么查表的结果必然不会正确。国家已经启动了中文信息处理词典的计划,大概会收录两千多万的词语,以便为信息处理使用,但是在此出台前,没有很好的权威词库供信息处理使用。如果采用人工进行转换,虽然正确率会提高,但是其代价也会增高。那么如何分散这种人工的代价是中文域名的考虑问题,中文域名简繁体等效的实现方案是将繁简转换的工作推给用户,由于域名的注册是分散的而且是由注册用户本身进行操作的,因此减少了代价也增加了正确性。CNNIC对中文繁简转换,特别是中文域名中的繁简体域名解析的等效问题做了十分深入的研究,并向国际互联网标准组织IETF提交了多项技术草案,引起了IETF对中文繁简问题的广泛重视,为互联网的中文化做出了很大的贡献。CNNIC已经推出了中文域名的注册和解析服务,在未来的中文域名服务中,CNNIC将逐步引入在此领域内的研究成果,为广大的中文域名用户提供更好的服务。 关于中文域名注册的繁简问题,请访问网站“中文域名注册测试系统”。 计算机网络资源名称是用来表示网络资源的,而采用中文字符来表示计算机网络资源,涉及到中文用户的认知问题和使用习惯问题,中文字符的繁简等效是其中的重要问题之一。当然中文字符繁简等效只是异体等效问题中的一种,但是却是最为重要的一种,因为异体等效中大部分都是简繁体的等效。中文域名异体等效是中文域名系统设计中最为核心和关键的也是最难解决的需求。我们知道英文字母也具有大小写的区别,在Unix文件系统中,大小写通常是敏感的(case sensitive),而在DNS系统中大小写是不敏感的(case insensitive),即大小写等价,而且在IDN系统标准中已经规定直接将大写字符映射成为小写字母,直接按照Unicode标准做Case Folding。英文字母只有26个,而且大小写的关系是一一对应的关系,无论是直接做映射还是做其他类型的等效处理都是比较容易实现的,然而中文异体字符的等效问题则比英文大小写问题复杂多了。首先,仅Unicode基本平面I-Zone包括的中文字符已经超过两万个,在Extension A中还有数万字,根据简化字总表,其中仅具有简繁体异体关系的中文字符超过了2300多组,还不包括其他未收录的简繁体和异体关系。再者,而且也是最为重要的,他们之间的异体关系不仅是一一对应的关系,还有一对多,一代多和多对多的关系,十分复杂,即使采用人工智能的方式,简繁体转换的结果也不能保证百分白的正确,因此在DNS系统中试图模仿英文大小写的解决方案来解决中文字符的异体等效问题是不现实的。现行国际标准的DNS系统是基于ASCII编码的,对于英文世界的人来讲是足够了。但是,世界上多数用户使用的编码都不是仅仅局限于七位ASCII编码,随磐缡褂玫钠占埃魑缡澜缛肟诘挠蛎哺绲钠占按戳瞬焕姆矫妫桓龇矫媸怯⑽牟灰子诩且洌硪环矫嬗⑽牟荒苋非斜晔队涤姓咚胍暮濉U庋没惹邢M梢杂帽竟镅岳幢晔队蛎5牵没Р荒苋我庋≡褡约合胍谋嗦耄蛭澜缟霞负跞魏我恢殖S糜镅远加兴约旱谋镜乇嗦耄茄筒荒鼙VNS名字空间的一致性,因此IETF国际化域名工作组选定的编码标准是Unicode。Unicode几乎包含了当前世界上所有的字符,它不区分国家本地编码,仅以字形来区分,比如中日韩越等国共同使用着汉字,Unicode收录了所有的字体形式,然后进行编码,通称为CJKV。然而由于选择了Unicode,无法区分各国文字,但是我们知道,将国际化的文字引入DNS,意味着将文字本身的特点也同时引入DNS体系,而Unicode CJK码位统一导致了中文本身特性的,从而引起了一些处理上的问题。比如,对于国际化域名的子集——中文域名而言,处理中文域名的繁简等效变得非常困难。从语言学的角度来讲,中文并不区分人群和地域,但是其书写方式确并不统一,比如中国大陆和新加坡采用简体中文书写方式,而港澳台以及大多数海外华人则使用繁体中文书写方式。那么首先什么是简体中文和繁体中文呢?通常我们说的简体中文是指满足以下三个条件:字形采用简体字型书写,无繁简差别的除外;字符集通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)等由中国大陆政府正式颁发的字符集;词语用法通常为中国大陆的用法。繁体中文是指满足以下三个条件:字形采用繁体形式书写,即使具有常用简体形式,而官方用法仍然保持繁体书写;字符集通常使用BIG5编码,以及台湾官方发布的CNS14649,而词语的用法通常采用台湾、香港或者澳门的用法。语言是交流的工具。如果语言是统一的语言,而书写方式是两种书写方式,那么必然存在着同一语言中不同书写方式的转换或者对应的问题,这是简繁体等效问题的来源。多数情况下,人们把这个问题称为简繁体转换而不是简繁体等效,但是事实上很多情况下由于一些策略或者技术上的原因,是不可以直接做转换处理的,这个问题更多的是指如何处理其中的等效关系,而不是将一方转换到另一方,某种意义上讲,转换意味着一种书写方式的消失,因此,这种说法是不确切的,本文采用简繁体等效这种概念。现在处理繁简转换的工具比较多,已有的研究也比较多,但是这些研究以及设计的工具进行的多数是不同字符集之间的转换。因为最初大陆广泛使用的是GB2312编码字符集,主要收录了简体汉字,共计6763个;港澳台使用的是BIG5字符集,主要收录了繁体汉字,共计13068个,多数中文繁简转换的处理主要是做不同字符集之间的转换,而不是做不同繁简字型之间的转换或者等效处理。但是,事实上中文的简繁体等效或者异体等效问题远远不是不同字符集之间转换那么简单,而且也不是同一个概念。比如现有中国大陆推行的GB18030标准,收录了所有简繁体中文字符,基于这个字符集再去做字符集之间的转换将会是十分复杂的也是没有意义的。中文是象形文字,用图形来表示语言的含义,虽然这极大的丰富了中文的使用,但是这也注定让中文具有数以万计的字符,而其中的绝大部分都是常人所不识的。中文字符在它几千年的历史中经历了许多变迁。很多书法风格,异体字,和字体设计以及由于印刷和书写习惯的问题都导致了它的逐步演变。有些完整的以及常用的字体形式被作为常用字或者正体字,而这些正体字还具有多种多样的异体形式,并且这种异体形式之间的关系十分复杂,而最典型的是简繁体等效的问题。所以,我们说事实上中文简繁体的等效处理不在于字符集的不同,而更多是在于字型书写方式,词汇的选择,甚至语义上的差别。中文域名系统关注的也是努力解决的是有关简繁体书写方式的等效问题。Unicode/ISO10646一定程度上解决了不同码制间同字型的简繁体等效问题,CJKV占用同段码位,并进行同字型同编码,在一定程度上统一了很多字的编码,也为那些在不同本地编码方式中没有码位的字留出了码位。但是Unicode并没有解决绝大多数的简繁体等效问题,即不同简繁体字型的等效问题。而这一部分恰恰是中文简繁体等效的重点和难点。根据中文繁简转换的陷阱一文中的论述,中文字符不同字型间简繁体等效具有四个层次:级是码点等效。因为每个字都对应一个Unicode码点,码点之间的等效是不考虑上下文的关系,直接用另外一个码点和要对应的码点建立等效转换关系。这种转换对于“国”和“國”的这类关系的转换是可以的,因为他们是一对一的,在任何“国”出现的地方都可以直接用“國”来替换而不会引起任何意义上的变化;但是对于“发”字不一样了,当是“头发”的时候,它的繁体形式是“頭髮”,“发”对应于“髮”;而当是“发展”的时候,它的繁体形式是“發展”,“发”对应于“發”,这个例子是一简对多繁,大概有四百对这种一对多的方式,多半是基于语义的转换。而一繁对多简的情况也有近80组,而常见的有11组。比如繁体“著”对应于简体的“着”和“著”,当是“著作”的含义是对应于“著”本身,而当是“著火”的时候对应是“着”了,这是最为常见的一组。目前基于码点直接转换的方法有三种:种是直接替代法,最简单,耗费资源也最少,但是也最不准确;第二种是基于词频的方式,统计词频中字的用度,用度高则首先采用,但也不准确;第三种是基于词频和候选方式,所有候选字按词频统计用度,用度的排在位,其他也提示用户以便选择,这样正确率。第二级是基于词义的等效。通常采用的方法是首先对要转换的文字进行切词,然后以词为单位查找确定应该采用哪个对应的码点来替换被转码点。还以“发”字为例,如果发现和“头”字相连,那么对应“髮”,如果和“展”字相连,那么对应““發”。这种方法转换正确与否,决定于切词的正确性,比如“二锅头发展有限公司”,那么如果将“二锅头”切词在一起那么转换结果是对的,但是如果将“二锅”切在一起,而将“头发展”切在一起,那么转换结果是错的。切词方式的转换是不能保证的,除非切词工具建立了词库“二锅头”,否则极有可能的是将“头”和“发”切在一起,因此导致错误。第三级是基于上下文语义的等效。因为大陆和港澳台使用词语的习惯不同,虽然词语指称相同,但是表达方式却不同,比如英文CD-ROM对应的中文在大陆称为“光盘”而在台湾则称为“光碟”,这种繁简转换实际上是繁简词语的对应转换,这种转换也需要切词的准确性以及对繁简地区用词习惯的词语收集程度。这种转换类似于英文中美式英语“color”和英式英语“colour”的区别。第四级是基于语境的等效。比如“文件”这个词在简繁体里都是存在的,但是当作普通文件的时候,繁简都是“文件”但是如果当作计算机系统中的“文件”之后,简体计算机“文件”会对应到繁体计算机“档案”。是说词语在基于不同上下文语境的时候,其对应的词语也是不一样的。在简化字总表中定义的00多组简繁体对照涉及到的几乎都是常用字,因为不常用也通常不会考虑简化它,简化的目的是为了简化使用以便书写方便。这些简体字几乎占了人们日常使用中文字符的一半以上,因为国家颁发的现代汉语常用字表也只有3500字。而00多个简体字中,有一百多组是非一一对应的,这也恰是简繁体等效的难点所在,而根据作者制作对照表的经验,这个问题十分严重。常用的简体词中有大约%有一对多的情况,而我们统计现有中文域名注册系统中,有接近90%具有简繁体等效的问题。随着中文应用的普及,比如中文域名的开发和中文上网方式的开发都加剧了对中文异体等效特别是简繁体等效的问题的研究,但是目前已有的简繁体等效的技术方案多存在一些问题,并不能满足中文简繁体等效的处理需求。比如,由于理论研究水平的限制,现存的研究不能保证转换结果的正确性,即使采用人工智能的方式,也只是尽可能提高转换结果的正确性,比如95%以上,而不能到。已有方案多半是采用切词查表的方式来完成转换,但是如果切词存在错误,那么查表的结果必然不会正确。国家已经启动了中文信息处理词典的计划,大概会收录两千多万的词语,以便为信息处理使用,但是在此出台前,没有很好的权威词库供信息处理使用。如果采用人工进行转换,虽然正确率会提高,但是其代价也会增高。那么如何分散这种人工的代价是中文域名的考虑问题,中文域名简繁体等效的实现方案是将繁简转换的工作推给用户,由于域名的注册是分散的而且是由注册用户本身进行操作的,因此减少了代价也增加了正确性。CNNIC对中文繁简转换,特别是中文域名中的繁简体域名解析的等效问题做了十分深入的研究,并向国际互联网标准组织IETF提交了多项技术草案,引起了IETF对中文繁简问题的广泛重视,为互联网的中文化做出了很大的贡献。CNNIC已经推出了中文域名的注册和解析服务,在未来的中文域名服务中,CNNIC将逐步引入在此领域内的研究成果,为广大的中文域名用户提供更好的服务。 关于中文域名注册的繁简问题,请访问网站“中文域名注册测试系统”。
立即预约