科大讯飞“AI同传造假”风波:机器翻译替代人工还很遥远

云视角

2018-09-25

科技云报道原创。
2018世界人工智能大会刚落幕,科大讯飞却陷入了“AI同传造假”的风波。9月20日,一位同传译员在知乎上发文称,讯飞的翻译其实为人工同传,并非机器智能翻译,并且译文由机器进行朗读,此事引发了媒体的广泛关注。

科大讯飞AI同传造假一事引起了轩然大波,业界对AI同传的能力产生质疑的同时,也让科大讯飞成为了舆论中心。针对此事,科大讯飞董秘江涛对外回应称,“讯飞从没讲过AI同传的概念,始终强调是人机耦合的模式。” 

科大讯飞这么解释同传领域的人机耦合:“翻译字幕上中英文同时显示时,是嵌入式机器实时全自动同传,单个语种显示时是人工同传。人工翻译时,讯飞听见可以帮助同传提升效率和水平。”

 按照科大讯飞的解释,科大讯飞的机器只是起到了识别同传人员的语音翻译,再用AI将翻译机器播报出来,与语音识别有关,却与AI同传无关。 

事实上,科大讯飞并不是第一家被质疑AI造假的企业。两年前,搜狗在乌镇世界互联网大会秀的一把“实时机器翻译”现场演示,就在网络上引发了一波“伪科技”的质疑。 

大会演讲现场不仅实时语音识别显示中文内容,还有机器同步翻译成英文,生成双语滚动字幕。据搜狗方面称,其机器翻译准确率达90%,未来有望取代人类同传。 

然而搜狗现场机器翻译不时出现的“中式英语”翻译,甚至当中文识别出现错别字时,英文翻译却毫无错误,这些BUG的出现不禁让人质疑,难不成机器翻译早已熟知稿件,而并非根据实时中文来进行翻译? 

无论是谷歌、微软,还是百度、有道、金山等,国内外目前对于机器翻译的准确率并没有一个准确的数据,基本都以“翻译错误降低率”来衡量其进步,而搜狗却直接对外抛出了90%的准确率,着实令业内哗然。 

机器翻译的乌龙闹剧并未停止。今年4月,博鳌亚洲论坛有4场分论坛应用了腾讯AI同传,结果腾讯AI同传现了单词乱码、连续出现同一个单词的卡机状况。更为严重的是,腾讯AI同传将“一带一路”变着花样翻译成了好几种不同的说法,因此只能紧急应召同传译员来救场。

AI机器翻译实际水平如何?

无论是科大讯飞的AI同传造假事件,还是搜狗、腾讯的机器翻译事故都让人困惑,一直闹得火热的AI同传停留在了什么层次?距离同传人员“被下岗”还有多久?

 从目前AI同传在大会上的表现来看,同传人员目前依然是同传领域的主力军,还要频频为出意外的AI君救场。在同声传译领域,AI需要正视这些事情。

 

AI机器翻译的准确率有多高? 

评价AI机器翻译内容质量的好坏,国际上有一些方法,除了人工评测,也有多种自动评测方法有,其中,IBM的watson研究中心在2002年提出的BLEU方法被业界较为广泛认可。 

参考《机器翻译及其评测技术简介》的说法,BLEU方法就是比较候选译文(candidate)与参考译文(reference)中相同的片段数量。其思想是用翻译结果中连续出现的N元组( n个单词/字或标点)与参考译文中出现的N元组进行比较,计算完全匹配的N元组的个数与翻译结果中N元组的总个数的比例。

 然后,作者使用一个测试语料,让2个翻译专家和3个机器去翻译,也就是它允许一个原文有多个参考译文。但请记住,对于机器翻译的准确率没有一个绝对值,而是以“翻译错误降低率”来衡量自身技术的成熟度。 

不过对于AI而言,如果要提高其准确率,首先得保证它你能“听得懂”和“听得清”。 

机器翻译技术被检验过了吗? 

之前搜狗机器翻译之所以被嘲笑,另一个原因就是未经验证,这其中最大的BUG是技术还未获得足够量级的测评,也就是技术的成熟度未经市场验证。比如有媒体就直言“从始至终,搜狗实时机翻的用户只有王小川一人。” 

所以“光说不练假把式”,技术不能被钉在墙上当作菩萨拜,AI要真正取代人工,做同声传译、写作等人类高复杂的工作,就得先应用到实战中来。 

机器缺失的情感因素怎么补? 

语言是门艺术,是活的,是有起伏有感情的,只有放在一个大的语境下面才可能被完全准确理解。即便是同一句话,放在不同语境下表达的也是不同的感情色彩,对应的翻译也就不同。 

也许,AI机器能达到95%准确的翻译,但是那剩下5%的感情,又该如何表达出来呢?这5%的情感就可能造成一定的理解障碍甚至是误解。 

要让这些机器表达出这些情感因素,最基础的前提是AI需要提高语境理解能力。目前智能翻译对于中文复杂含义句式中的时态辨别能力还不够,往往需要充分理解整句话的意思才能准确把握时态。

但智能翻译并非基于理解,而是基于统计学与语料库,只能做到将这句话意思大致翻译准确,所以在识别感情色彩方面,还需加强。 

口语化能特殊处理吗? 

前面说,要提高AI翻译的准确率,需要保证能“听得懂”和“听得清”,这不仅要求AI能准确判断出被翻译对象(如演讲者)的语音、停顿,并在极短时间内进行“语音断句”,还需要在涉及一些模糊音时能够根据“上下文”进行及时调整,更棘手的是要让A能灵活处理一些特殊情况,比如口语。

要应付这些复杂情况,AI需要大量补充口语化语料,并且需要改变直译方式,让机器翻译真正智能起来。 

事实上,同声传译需要有极高的资格才可以担任。在同声传译中,译员需要遵循顺句驱动、随时调整、适度超前、信息重组、合理简约、信息等值等基本原则,此外,由于演讲者讲话速度普遍较快,演讲中可能掺杂各地口音和方言,同传译员还需要调动自己的一切知识储备和经验全力以赴。 

看来用机器取代人类同传的高调口号在短期内还只是空谈。神经机器翻译系统目前所能做的只是优化翻译结果,并不是万能药,将其作为黑科技大书特书,过分拔高人们对于机器翻译实际水平的期待,实际上并不可取。

不仅仅是科大讯飞、腾讯、搜狗,所有的人工智能应用和公司都应该正视人类和机器真正的差别,这不仅仅是一场技术谁优谁劣的较量,更是一场如何理解人和人的需求的对垒。如果科技公司给予人们太多不切实际的幻想,那么无形中也将透支着公众对于AI的兴趣。

【科技云报道原创】

微信公众账号:科技云报道

推荐文章