LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1372|回复: 5

SCIM智能拼音中简繁转换过滤器的一个问题

[复制链接]
发表于 2005-9-23 04:34:50 | 显示全部楼层 |阅读模式
小弟猜测在启动SC-TC或者TC-SC之后,这个转换过程应该是以字为单位的吧?
从繁体转换到简体,以字为单位没有问题,因为这是顺应简化字产生过程
但是在简体转换到繁体的时候,以字为单位就会出现问题了。
由于当时简化的时候,有部分简化是将几个不同的字合为一个,而它们的繁体字写法是各不相同的。
比如简体字里面的“后来”和“皇后”,到了繁体就是“後?怼焙汀盎屎蟆薄!巴贩ⅰ焙汀胺⒄埂钡搅朔碧寰褪恰邦^髮“和”發展“,而使用现在基于字为单位的简繁转换,就全部变成“後?怼昂汀被梳帷埃鳖^發“和”發展“了。

不知道作者在今后是否能就简繁过滤器进行一些改进,增加以词为单位的转换,这样对于上述的问题就能比较好的解决了。而且利用以词为单位的转换,还能应付一些大陆和香港以及台湾不同的说法,比如“软件”和“軟體“
发表于 2005-9-23 08:55:04 | 显示全部楼层
繁简转换好像是以维基给出的对应表为基础的。
回复 支持 反对

使用道具 举报

发表于 2005-9-23 11:15:05 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2005-9-23 14:16:29 | 显示全部楼层
是的,这是以字为单位转换的缺点。如果你有兴趣可以帮忙实现一个智能化的以词句为单位的简繁转换模块,我很乐意把这个模块集成到SCIM中。

Post by earlzhang
小弟猜测在启动SC-TC或者TC-SC之后,这个转换过程应该是以字为单位的吧?
从繁体转换到简体,以字为单位没有问题,因为这是顺应简化字产生过程
但是在简体转换到繁体的时候,以字为单位就会出现问题了。
由于当时简化的时候,有部分简化是将几个不同的字合为一个,而它们的繁体字写法是各不相同的。
比如简体字里面的“后来”和“皇后”,到了繁体就是“後?怼焙汀盎屎蟆薄!巴贩ⅰ焙汀胺⒄埂钡搅朔碧寰褪恰邦^髮“和”發展“,而使用现在基于字为单位的简繁转换,就全部变成“後?怼昂汀被梳帷埃鳖^發“和”發展“了。

不知道作者在今后是否能就简繁过滤器进行一些改进,增加以词为单位的转换,这样对于上述的问题就能比较好的解决了。而且利用以词为单位的转换,还能应付一些大陆和香港以及台湾不同的说法,比如“软件”和“軟體“
回复 支持 反对

使用道具 举报

发表于 2005-9-23 14:26:33 | 显示全部楼层
如果是五笔这样的字词输入法,以词为单位进行繁简转换可能会比较难控制。当初我的那个request就是发给scim-pinyin的,因为繁体字和简体字的五笔编码应该不同
回复 支持 反对

使用道具 举报

 楼主| 发表于 2005-9-23 16:34:40 | 显示全部楼层
Windows下微软拼音对这个问题似乎支持得不错,切换到繁体输入时候,诸如頭髮和發展这样的词汇可以很正确的输出,我估计是他针对繁体字也有一个专门的基于词组的码表。
其实SCIM本身也有类似简体、繁体、中文的切换功能,只不过繁体下面只有字,而缺乏词组的支持。如果能够给繁体输入部分也配上词组的话,那么就可以暂时绕开简繁转换过滤器的问题了。至于繁体的词组,我想利用诸如开放码表的繁体注音输入法来转换一下应该有可能吧,注音和拼音毕竟只是表现形式不同,它们之间的转换应该容易一些。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表