打造蒙汉巴别塔之路 --- 腾讯民汉翻译蒙语同声传译 阅读:4376回复:3
| 导语 蒙古文是世界上唯一一个从上往下写的语言,文字看起来漂亮和美观,极具特色。长期以来,由于传统蒙古文编码规范不统一、编码控制符等问题,导致目前互联网上传播的蒙古文本含有很多错别字。同时,加上蒙古语的采集人群偏远,口音变化丰富,以及蒙古语本身的发音规则多样等语言特点,使得蒙古语成为民族语言里最难做语音识别的一门。经过半年的研发,《腾讯民汉翻译》终于攻克了关键技术,上线了蒙古语同声传译功能,今天就由小编来介绍一下这个重磅技术。 图片:http___images8.m.china.com.cn_mchina_img211_2018_01_04_21_61f657ce34d31eb050dbbb 一、蒙古语同声传译技术重磅问世 大家好,今天小编给大家带来一款新的技术体验-----《腾讯民汉翻译》中的蒙古语同声传译功能。打开民汉翻译小程序,页面上部我们可以选择具体的翻译语言对,我们将语种选择为汉语<-->蒙古语。在蒙汉互译页面下,可以点击左下角的键盘或语音按钮即可使用文本翻译或语音翻译功能(如图)。 图片:2.png 以下是文本翻译效果展示,上面为汉语翻译成蒙古语,下面为蒙古语翻译成汉语: 图片:3.png 此外,蒙古语文本输入的不便性,大大地阻碍了蒙古语在手机等设备上的使用。为此,我们特意上线了蒙古语语音识别功能,用户只需按住按钮,说出自己的话即可实时识别并翻译。蒙汉实时语音翻译不仅对较短的日常口语,包括较长的新闻领域的语音也有很好的识别能力和翻译能力(汉翻蒙类似,输入汉语文本或点击对应汉语语音按钮即可)。 下面是随口说的一句日常口语的实时语音识别及翻译体验展示: 针对较长的新闻领域的文本,也随机在网上读取最新的一则消息。在这一段新闻文本中准确识别出其中的时间、人名、机构名等内容,同时翻译也有较好的结果: 二、技术背后的故事 天苍苍,野茫茫,风吹草地见牛羊。作为《腾讯民汉翻译》产品作者-----一名来自呼伦贝尔草原的蒙古族男孩儿,阿敏从小生活在祖国的边疆,沐浴在自己民族文化和语言文字中,那落日下的草原,也永远是他魂牵梦绕的地方。小学三年级时,他开始接触汉语,但蒙语仍然是主要的交流语言,直到上大学后才真正从自己熟悉的蒙语语言环境进入到了一个全新的世界。在这个新世界里,他切切实实感受到语言差异带来的困难以及蒙古语在这互联网时代举步维艰的困境。为此,毅然决然选择攻读自然语言处理方向的硕士研究生,希望自己能为蒙古语的信息化发展贡献一份自己的力量。 图片:4.jpg 毕业之后阿敏加入了腾讯民汉翻译团队,《腾讯民汉翻译》小程序是国内首个在小语种领域布局维、藏、蒙、哈、朝、彝等多语种全方位同声传译、实时互转的民汉交流工具。其有力地促进了汉族与少数民族之间的交流,推动少数民族语言信息化发展,促进了民族团结,这款产品获得了2019年中国人工智能协会的《紫金科技创新奖》。在团队中,阿敏充分利用了自己的母语优势,参与了蒙汉翻译及蒙语语音识别相关的研发工作。目前,经过团队不懈的努力,腾讯民汉翻译小程序正式上线了业界第一个蒙古语实时语音翻译功能。实时的蒙古语语音识别简化了用户的输入,不仅提高了用户体验,很大程度上提升了用户使用效率。在翻译方面,团队于今年全国机器翻译大赛(CCMT19)中蒙汉翻译评测中取得了冠军的成绩,基于评测中的技术沉淀和后续的持续打磨,也将会大家带来更好的翻译体验。下表是今年CCMT19评测最终结果(仅展示前十名,前三列分数越高表示性能越好): 图片:5.png 三、技术概览 在技术实施方面,《腾讯民汉翻译》使用了当前最为先进的语音识别和机器翻译的技术框架。同时针对蒙古语特有的语言特点,进行了刻苦攻坚。主要难点有:1)蒙古语虽然也是一种拼音文字,但是它的发音与书写形式没有一一对应的关系;2)蒙古语有三种发音规则,分别为元音变异规则、辅音绑定规则以及元音和谐规则;3)蒙古语属于一种黏着语言,同一个词附加不同的后缀时其词根或词缀的发音都有可能随之而改变。对此,团队通过对蒙古语发音及发音规则的研究总结出包含有几十种发音的集合,并在此基础上利用先进的神经网络模型以及前沿的训练方法扩充蒙古语语料资源。针对蒙古语数据在书写错误问题、符号乱用等问题也进行了一定的校正处理。同时,在机器翻译方面,对双语数据进行了归一化、过滤不合法句对等操作。在翻译模型的选择上,使用目前最新的基于自注意力的Transformer系统,并特意针对蒙汉翻译进行参数微调,更是结合腾讯民汉翻译团队在全国机器翻译大赛中使用的前沿技术和算法进一步提升模型的翻译能力。 用户如对腾讯民汉翻译小程序有任何疑问或者建议可点击右上角菜单选项后点击帮助与反馈按钮即可与客服小哥哥小姐姐交流,为用户提供更为贴心的服务: 图片:1.jpg 四、总结 作为科技向善使命的践行者,《腾讯民汉翻译》团队始终为我国少数民族文化发展、民族交融贡献着自己的一份力量。后续,团队会继续将自己的技术应用落地于西里尔蒙-汉以及更多其他语种、更多实用功能上,真正实现我国民族间无缝交流,同时促进各个民族的语言信息化、语言学习的发展。最后,让科技向善,让技术有温度,是我们民汉翻译团队始终保持不变的初心,科技向善,我们在路上。 图片:9.jpg 微信长按小程序码体验 |
這個不錯,不過蒙古文橫過來寫應該要從右邊往左邊寫比較符合傳統閱讀方式
也許是考慮到阿拉米文字右-左顯示方式在技術處理上的不便? 我在用Word處理阿拉伯文跟希伯來文時也經常會搞混游標的實際位置 但總的來說,有這樣的軟件程序是極好的一件事,目前正試圖研究彝語-羌語-藏語的比較,要是能有彝語翻譯軟件和發音這就再方便不過了 |
|
|