Kinect 就是一个很好的利用成熟的技术使得人们可以去尝试和解决许多生活中遇到的问题的例子。并且,这不仅是像微软这样有钱的大公司能做到,一些像波兰的Migam这样的小团队也能做到。
坦诚而言,看到如此之多的关注,资源,以及新型的科技被投入到构架视觉语言与听觉语言(以及语言差异其本身)之间的桥梁上,我们感到极为振奋。然而,有关机器能翻译手语的言论是一个特殊语境下的夸张。
一如既往的,这个项目引起了聋哑人群体的巨大关注,他们对于手语翻译的交流便利性和语言准确性都十分重视。然而现在这个版本的 Kinect 却有严重的不足:它不能识别手语中每根手指的动作,手部的旋转以及面部的表情。
这些都是手语识别的巨大障碍。尽管对单个词汇的识别是有建设性的意义的,然而对手语中单独词汇的识别是无法构建起有意义的整句的。微软的自然用户界面主管 Stewart Tansley 也解释说,“目前的这个模型只能辨别每个单词并把它们在手语言和书写语言间转换。”
我们也极为关注机器翻译的实现方式和视科技发展对手语翻译带来新的可能性,正如我们也清楚人类的交流并非只是信息的传递这么简单。譬如在手语中,除了单词和手势外,还有重要的精微之处,比如语境,文化,关系,腔调,情感等。
自然手语
手语都不是线性的。它们不像口语一样一词接一词地成序列的表达。手语的词汇几乎都是都是同时发生的。空间位置的不同,手掌的方向,以及手在空中的运动比起手势本身能传递多的多的意义。
并且,许多手语中重要的含义都是通过面部的语法表达和手与手,身体之间的相对距离来得以表达的。DePaul University 的 R.J. Wolfe 教授(the international Sign Language Translation and Avatar Technology symposium的主办者),便举例说道,美国手语(ASL)中的一些例如“大”和“小”这样的形容词便不是以单独的手语,而是以手语者对空间的应用以及其他不用手势的方式来表达的。
“手语识别技术离完善依然还有很长的路要走,”Gallaudent University in Washington 的技术入口 (Technology Access) 项目的负责人 Christian Vogler 如是说,“依我所见,这个项目组的人还没有考虑任何手语中的语法因素—不论是面部语法表达还是手势之间的转换。”
简单的来说,手语和口语间是没有简单的对应关系的。机器化的手语翻译不会比机器化的书面语言翻译更简单。
下一代Kinect
来自 Migam 项目的 Kamil Drabek 解释道,新一代的 Xbox One Kinect 上会有许多重要的创新,其中包括一些对面部表情和身体位移的识别:包括单个手指的移动(不只是手掌),以及手在运动中的转动等。
Migam 正在设计一个波兰手语词典,并且这个词典就要向公众开放“贡献新手语”的功能了。这个功能依赖于一种基于 Kinect 的算法,能学习和理解那些新的手语。Drabek 表示:“这真心是个耗时极长的大型研究项目。”
人机交互
现代人对于“机器也能对我们开口讲话”这个概念的执着在科幻小说,概念视频,以及各种技术的演示中屡见不鲜,Google 的“星际迷航电脑计划”就是一个很好的例子。(通用翻译器只是其中的一部分)
显而易见的,在我们达到真正的人工智能(计算机能真正的理解,思考以及与人类交流)之前,我们始终会停留在对机器发出语音指令这个阶段:也就是我们需要去学习和适应那些愚蠢的机械表达。玩儿过 Siri 的人应该对这点感同身受。
一个很好的例证就是现在直播节目的字幕的产生方式。现在电视台不用打字快速的人来制作字幕,而是让人去听节目,然后再把听到的内容用一种机械的,算法能理解的方式说出来,使得机器能识别节目中说话者本来所说的话。BBC 的字幕制作者说,他们“不能以正常的方式对着麦克风说话。我们必须极为小心的,确保每个字都说得十分清楚,这几乎是一种完全机械且不自然的说话方式。”
Wolfe 博士说:“用户调查显示,聋哑人群体普遍表示他们更喜欢人类录制而非拟真人像的手语视频,因为它们更好懂。大多数拟真人像都不能完全的表达手语,因为它们只能模仿手臂和手部的动作,然而手语中有很多表达是依赖头,脸,和身体的。”Vogler 教授补充道:“目前的翻译机原型离能翻译真正的手语还太远了,然而 Kinect 2 的出现似乎能带来一些提高。”
我们能比“翻译个大概”做的更好
不仅无人能预测这类项目的进展,什么时候机器翻译超过“大概这样”的质量也难以预测。现在的语音翻译就好像许多上过几节语言课的游客,只知道几个大致的单词,总会在时态,韵律,和语法上犯错误。
再宽容的用户也可以(并且应该)质疑那些伪装成智能的科技。然而,如果我们能如此大方的宽恕机器的翻译错误,为何不能原谅那些远比机器做的更好的人类翻译者?毕竟他们更为可靠,而且能帮助人们找到错误的翻译,语意的误解,失礼的地方等。
我们推荐一种混合的翻译方式,利用众包的便利和移动设备的网络通讯的力量,即,将需要翻译服务的用户通过远程视频连线到一个翻译者那里。真人总是能更好的保证交流的质量,获得远超“还可以”的质量,从而帮助人们完全的表达和理解他人。
(视频来源:36Kr)