欢迎访问西安电子科技大学通信工程学院网站!

【挑战杯一等奖】实现维语和藏语的手写识别输入

发布时间:2015-12-01 浏览:

带着民族梦前行

——记第十四届“挑战杯”国家一等奖作品

记者 赵玉娟

项目名称:基于移动智能终端的维吾尔语和藏语手写识别输入法

项目简介:本项目致力于研究手写维吾尔语和藏语识别技术,是基于联机手写环境,主要包括字符识别、字符分割和单词识别等主要内容,研究的目标是建立自然书写的联机手写维吾尔语识别系统。并在此识别系统上,开发基于Android系统智能终端的维吾尔语和藏语手写输入法。项目团队将信息融合技术引入文字识别领域,提出手写维吾尔语字符识别中的多部件自适应融合算法。创新性的提出了藏语基于手写与按键相结合的新型输入法,结合信息融合技术,研发针对维吾尔语与藏语新型的手写识别算法,实现了高识别率高效率的输入法。

团队核心成员所在院系:通信工程学院、计算机学院、经济与管理学院、微电子学院

发微博,刷朋友圈,已是当下大学校园中流行的一种生活方式,位于智能手机终端的人们摁动手指,就可以轻松地遨游在网络的海洋中。在校园中,畅想网络信息时代的便捷。

可是西安电子科技大学的大三女生帕提古丽·艾麦尔尼亚孜,并不能享受这样的便捷和快速,因为如果她使用手机发朋友圈的话,只是用键盘按键输入她的名字就需要至少4秒钟。因为手机按键输入维语,找字母翻页非常地费时费力。但是现在帕提古丽没有了这样的烦恼。手写输入1秒,算法识别20毫秒,不到2秒钟,帕提古丽·艾麦尔尼亚孜的名字就出现在她手上的平板电脑。’

初遇手写识别 志同道合

与帕提古丽有同样烦恼的,还有西安电子科技大学的藏族小伙次仁旦增。

“藏文是个美丽的语言,藏族文化有其独特的魅力和精髓。”但是在我生活的藏区,我的很多朋友都已经不太会书写藏语了,尤其是信息化时代,在手机上我们也多是使用汉语,因为没有便捷的藏语输入法。

来到西电上学后,次仁旦增得知通信工程学院卢朝阳教授一直在研究维吾尔语识别技术,他便主动向卢老师教关于模式识别、文字识别等方面的问题,让他更惊喜的是卢老师的团队中已经有两位师兄在着手研究藏语的手写识别,遇到了与自己志同道合的同学,次仁旦增非常兴奋并很快加入了这个团队。

帕提古丽、次仁旦增之所以会想到做自己民族的语言文字识别,并非偶然。因为他们都有个共同的梦想,希望能够为本民族文化的传承发展做一些自己的贡献。

一开始,小组成员满怀热情,可是却不知从何下手,每天都很忙碌但工作却没有什么进展。但是一时的迷茫并没有把这个多民族同学们组成的小团队打败,很快维吾尔族姑娘帕提古丽也加入进来队。

经过多次的讨论和研究,他们有了第一个明确的方向。研发维语、藏语手写输入法,最重要的是要建立字符部件库、采集手写体字符样本。 

繁琐的样本采集  困难重重

藏语文字和维吾尔文字都是极具代表性的少数民族文字,藏语的书写在基本字的基础上有上加字、下加字、前加字、第一后加字、第二后加字、声调这一非常复杂的文字特点,而且分为四个方向书写。维吾尔语有28个字母,但是变形有128种写法,书写是从右到左,手写体会有连笔变形的难点。这些因素给准确识别手写文字带来很大挑战。

面对困难,次仁旦增和团队的小伙伴们并没有退缩,而是积极地开始着手建立藏语的手写数据库。他们首先在安卓手机上先开发了一款界面简陋但是功能完善的采集软件,并采集至少100人的书写数据。

这项工作并不如想象中那么简单,需要不同人将藏语基础字符书写多次。事实上,在西安的藏族同学虽不少,但许多人都已经不会书写藏语了。但是次仁旦增的藏族同胞们十分支持他的梦想,同学们都认真地一遍遍地书写藏语字符,为数据库贡献自己的力量。同时,次仁旦增还发动家乡亲朋好友,终于成功把手写100份的基础数据采集完毕。

在前期采集样本工作中,先后有200多名维吾尔族和藏族学生的参与,为自建数据库打好了扎实的基础。最终,团队自建维语数据库10套(500个词+15个标点),合计样本5150个;自建藏语数据库1000套(39个基字),合计样本39000个。

这样一个标准的数据库建立是他们迈向成功的第一步。

“藏语文字和维吾尔文字的手写体文字的形变非常复杂,字形与字母差别较大,完全不同于汉字,这对识别算法也提高了更高的要求。”团队成员郝珍珍如是说。

“花费了大量的时间,经历了大量的失败。” 次仁旦增说,“维吾尔语与藏语手写形式复杂多变,识别算法还需要一遍遍的改进完善和调试,前后对比识别正确率与效率。”

次仁旦增与小伙伴们常常在实验室一待就是一天。

“在这个关键时刻,非常感谢我们的指导教师,是他一直鼓励我们,带着我们去新疆大学,西藏大学去调研,请教维吾尔族和藏族的教师帮助我们分析其中存在的问题,出主意想办法。”能够坚持克服困难完成项目,这与导师给我们的鼓励和帮助密不可分。

日日夜夜地努力换来了不小的收获,次仁旦增和他的伙伴们,用了一年的时间便研发出基于移动智能终端的维吾尔语和藏语手写识别输入法。

赛场展身手  小露锋芒

李克、次仁旦增、帕提古丽、侯伯、郝珍珍,这个多民族的五人小团队的努力和钻研终于有了回报。

2014年12月,第二十六届星火杯大学生课外学术科技作品竞赛,获得特等奖;2015年5月,第十届“挑战杯”陕西省大学生课外学术科技作品竞赛荣获特等奖;2015年11月,第十四届“挑战杯”全国大学生课外学术科技作品竞赛中荣获一等奖。

目前,团队成功研发的基于安卓系统维吾尔语和藏语手写识别输入法,在自建维语、藏语数据库基础上,联机样本集字符分割准确率达到:97.98%,联机样本集单词识别率达到:94.93%。

目前这款软件也处于试运行阶段,西电校园中的维吾尔族、藏族同学已经率先在安卓手机上使用这款APP了,大家的普遍反映良好。

“我们参加的几次比赛,与其说是比赛不如说是获得了多个展示自我的机会,也收获了很多有价值的建议。我们的项目也在一次次比赛中更加趋于完善和成熟,这对我们团队来说意义非凡。”

一次次的参赛也给了他们一次次的锲机,激发了团队新的创意,也确定了他们下一阶段的研发方向;少数民族文字识别翻译系统。其中除了已经研发成功的安卓系统维吾尔语和藏语手写识别输入法,还包括自然环境下维语藏语标牌识别,反恐、安全维稳的敏感词识别和珍贵典籍的数字化等研发方向。

维吾尔语与藏语是我国使用最为广泛的少数民族语言,目前我国使用维语的人数约为1200万,使用藏语的人数约为640万。面对如此多的使用人数和市场需求,相信它一定会大有所为。

竞赛获奖后,陕科创投、中辰伟业等有很多投资机构主动和他们洽谈合作,“看到有这么多人愿意为我们提供帮助,无疑是给大家打了一剂强心针。” 团队成员信心满满。

在收获了满满的成绩后,次仁旦增说:“获奖并不是我的目的,我来西电就是希望把互联网的新科技带回家乡,把信息时代的产物带回家乡,让每一个小朋友、叔叔阿姨、爷爷奶奶都可以享受数字信息时代的便利,让家乡的人们可以更方便的书写家乡话。”

“谈及所做的项目能为少数名族文化传承做出一点点贡献,对少数名族信息化建设和实现各名族共同繁荣发展都具有重要意义。”五位队员相视一笑,留下了五张天真灿烂的笑脸。