译吧网

您好,欢迎来译吧网!客服QQ:89411289 客服电话:15311317772 帮助中心

7×24小时翻译服务热线:15311317772(孟)

您的位置: 主页 > 民族文化 > 维吾尔语 > 维文版Office设计中关键技术的研究与实现-英语阅

维文版Office设计中关键技术的研究与实现-英语阅

来源: 分享至:
 (1.中国科学院理化技术研究所,新疆乌鲁木齐830011;
  2.中国科学院 研究生院,北京100039;3.中国建设银行 新疆分行,新疆 乌鲁木齐830011)
  摘 要:维吾尔文,汉文和英文等多文种办公套件,对少数民族地区信息化的发展,起着重要作用。该文首先介绍了维吾尔文的特点,然后分析并实现了永中集成 Office维吾尔文版设计中的自动选形、按音节断行和自动拉长等处理维吾尔文的关键技术。这些关键技术在维吾尔文版Office中应用后,通过测试能使 维吾尔文排版非常规整。同时这些关键技术对维吾尔文文字处理,对其他维吾尔文软件的开发都有普遍地指导作用。
  关键词:计算机应用;中文信息处理;维吾尔文处理;算法;自动选形;自动拉长;断行
  中图分类号:TP391 文献标识码:A
  
  1 引言
  
  维吾尔语(以下简称“维文”)在政府办公和人民生活中有着广泛应用,而2004年底还没有一款很好的处理维文的软件,严重影响了新疆维吾尔自 治区信息化的发展。针对以上实际,我们设计开发了维吾尔文版Office。虽然微软Office能够处理维文,但是它不能对维文按音节断行和自动拉长,对 维文的字母变形支持也不充分。在永中Office维文版中,采用了本文论述的关键技术,彻底解决了上述问题,能够使维文排版更加美观。
  下面首先介绍维文的特点,然后论述永中集成Office维文版设计开发中的关键技术:自动选形、按音节断行和自动拉长。
  
  2 维文特点
  
  维文属于阿尔泰语系突厥语族。维文有32个字母组成,而且有120多个字符形式。其特点如下:
  (1)维文的书写方向为从右到左,行向为从上往下。维文字母有4种不同的字形(书写、显示、打印的时候真正使用的字符图形,在Unicode 编码中一个字形有唯一的编码对应):只有尾部与下一个字母相连的“首写形式”、首尾与相邻字母连接的“中间形式”、只有首部与上一个字母相连的“尾写形 式”和首尾与相邻字母都不相连的“独立形式”。维文字母使用何种书写形式是根据其周围字母的属性及其本身属性所决定的。完全不同于汉字、英文等。
  (2)维文的词是由一个或多个字母组成。根据书写规则,这些字母可能前后相连形成一个或几个连体字母段或称连体段。无论是印刷体还是手写体,在连体字母段中,字母是沿着某一水平线相连的,这种水平线被称为维文基线。
  如图1所示,其中:1为从右向左的书写方向:2为基线;3为五个字母的连体字母段;4为首写形式;5为中写形式;6为尾写形式:7为独立形式;8为插入的直杠;a、b、c、d均为多字母、多部分构成的词。
  下面具体论述在永中集成Office维文版中处理维文的关键技术。
  维文版Office设计中关键技术的研究与实现图片1
  
  3 关键技术的研究和实现
  
  3.1 自动选形
  书写维文时一个字符具体选用它的哪一种字形与此字符两边的其他字符有关。因此在处理显示维吾尔文时需要频繁地把一个字符的某一种形状替换成另一种形状。自动实现此过程的方法称为自动选形。
  目前,维文处理中选形技术有很多种,普遍采用的是Opentype字体贴标签的方式,根据字形、字体属性,来进行变形。该技术需要复杂的字体 解析机制,实现起来比较复杂,实现后性能也不一定很好。本文论述的自动选形技术是基于Java平台JDK1.5开发的,它不依赖于字体(无论是 Opentype还是Truetype)类型,所以不需要复杂的字体解析机制,也使它的应用不受系统平台(Windows或Linux等)的限制。
  维文字形按用途被分为不同的连接类型,包括:右连型、双连型、连接影响型和透明型。通过大量研究,针对字母的连接类型总结出六条选形规则,应用规则的优先级是从高到低,只有前面的规则都不适用时,才应用下一个规则,如表1所示。
  通过大量分析维文的选形规则及其Unicode编码,设计了一个选形模块,处理流程如图2所示(i为当前需要选形的字符)。
  其中核心技术是自动选形算法,该算法具体实现过程如下。
  首先,我们建立一个数组int[]UIGHUR—LINK,在数组UIGHUR_LINK中,存储的是一系列整数,每个整数表示一个维文的 Unicode码信息属性,例如其中一个整数1+32+256*0x11,它表示Unicode码0x0622的信息属性。可以看到整数有三部分相加而 成,形式为x+y+z,数组UI—GHUR_LINK中的每个整数的组织形式都是这样,其中x变形种类、y双字符字型中的字符(16表示LAM字符,32 表示ALEF字符)、z在FE70区间的偏移量。例如上面的1+32+256*0x11其中1表示有两种变形,32表示是双字符字型中ALEF字 符,0x11表示字型由0xFE70+11获得。
分享至:
Tags: