首页娱乐

鹅厂最新数字人,体温36.5℃

网络2021-12-04 15:34:19 32

  今天是国际残疾人日,正巧,也是《国王排名》更新的日子。

  这部 42 岁作者产出的作品,主角波吉正是一名聋哑人,画风不算成熟,却在 11 月一跃成为现象级作品,热度高到出圈:

  故事中的波吉听不见、说不出,但除了师长亲人外,身边愿意为他学习手语的人却少之又少。

  看过这部动漫后,不少网友开始意识到,自己身边同样有不少无法通过言语交流的“波吉”们:

  跟动画中的波吉一样,现实中的听障人群迫切地想要和这个世界建立联系,读懂他人传递的信息,但,并非每个人都能找到一个像卡克一样愿意随时充当“翻译”的小伙伴。

  同样,在现实生活中,中国的 14 亿人口里有超过2700 万残疾性听力障碍人士,专业手语翻译却少之又少。

  曾有统计数字显示,在上海约有 23 万听障人士,能真正胜任工作的手语翻译却不足百人。

  而看新闻、刷视频这样的平常小事,在他们的世界里,也充满困难和障碍:

  相比于自然语言,手语更像是一门与母语相差甚远的外语。

  举个例子,在语序上,两者就存在较大差异。像“开车不喝酒”这句话,手语表达的顺序其实是依次打出“开车”、“喝酒”、“不许”这三个手势。

  在这种情况下,世界更多地对他们呈现出一种冰冷的姿态。

  所幸,科技的发展,如今正在真实地改变“波吉”们的生活。

  例如,有这样一类 AI 手语主播,Ta 们7×24 小时无休,让人们感受到了人性的温度。

  Ta 们不仅能够随时随地提供实时手语翻译,翻译质量也相当可靠——

  以上面这位来自腾讯的 AI 手语主播“小聪”为例,其手语翻译的可懂度能达到 80%+。

  不过,要想达到这样的水准,AI 要做的事情绝非仅仅“翻译”那么简单。

  AI 手语主播背后的挑战

  相对社会大众,听障人群是一个少数群体,这就意味着,想要打造一个手语翻译相关的 AI,首先要面对的就是数据匮乏这一先天挑战。

  并且由于语言本身词汇量很大,如果要通过把所有词汇都用手语打一遍的方式来采集数据,从技术的角度来看,时间和数据量的压力都会非常大。

  而这,还只是第一重挑战。

  更大的困难在于,语音转手语,并不是简单地构建一个从语音到视觉的转换模型就行。

  正如前文所提到的,手语表达的顺序与自然语言输出的顺序并不一致,在语句文字输出量大、语音播报速度比手语播报快 30%-50% 的情况下,手语翻译的速度很难跟上人的语速。

  此外,表情神态也是手语表达中极为重要的一部分,并不能简单忽略。

  这也是为什么,早在 2018 年,新华社就曾与搜狗合作推出数字人主播,却直到今年 5 月,全球首个手语数字人(同样出自搜狗)才正式登台亮相。

  所以,程序员们具体是如何攻克难题的?

  以前面提到的 AI 手语主播“小聪”为例,这一腾讯云小微的产品首先是利用数据标注、数据增强技术,在不需要采集所有手语动作的前提下,扩展词汇量储备。

  其次,是在翻译的过程中,先通过语义理解技术进行文本摘要,再在保障事实正确率的前提下进行手语翻译及合成,在解决词汇量问题的同时,缩短表达时长。

  而小聪诞生的过程中,腾讯云小微也邀请了手语专家、使用手语的听障人士协助测评,以最终让小聪打出“听障人士看得懂的手语”。

  这里怎么理解呢,举个例子,市面上的手语数字人打手语的速度往往符合健全人的视觉习惯,而在听障人士看来,就太慢了。

  在此之外,AI 手语主播还需要更像“人”,比如表情神态、动作的流畅度,以及理解输出的“业务能力”等等方面。这一点不仅适用于 AI 手语主播,其他数字人产品也是如此。为了重新定义产品及背后的技术要求,腾讯的技术工作者们发布了全新的、智能化的数字人产品——

  腾讯云小微数智人。

  AI 手语主播如何成为数“智”人?

  事实上,任何虚拟的人物形象都可以被称作数字人,但数智人产品的技术要求则要严格不少。

  对于数智人产品,腾讯云小微给出了这样的技术描述:

新一代多模态人机交互系统。

  所谓多模态交互,简单来说就是能听、能看、能说、能思考。

  这表明数智人的“智”,不仅仅指知识储备量,更表示它们能真正像人一样,结合视觉、听觉等多种感官理解外界信息,并及时做出反馈。

  从实现方式看,数字人要想成为一名数“智”人,至少要有 5 个方向上的技术储备:

  这意味着,如果一名虚拟数字人被称作“数智人”,那它除了需要贴合应用场景,还需要解决以下两个问题。

  其一,数字人在表达时,往往会出现肢体动作僵硬不自然的问题。

  现在,形象和外观早已不是数字人最大的难点,通过动捕、渲染等技术,可以轻易将数字人的形象做得非常逼真。

  但在进行语音交流的时候,数字人却极容易出现肢体僵硬不自然的问题。

  人类在说话的时候,手部和身体会有轻微的随机动作,伴随情绪语气和用词发生变化。

  为了模拟这些动作,不少数字人选择设置一套随机肢体动作的程序,让数字人在说话的时候,按程序固定做出一些动作。

  然而,由于这套程序与用词、语气和情绪并不挂钩,往往会显得肢体非常僵硬,甚至出现“讲述伤感故事时开怀大笑”的场景。

  此前,国外某公司曾推出过一款数字人,虽然脸部已经非常逼真,但肢体动作却非常僵直,交流时不免溢出一丝诡异感:

  针对这个问题,腾讯云小微的解决方案是引入语义驱动技术,即根据数智人说话的语义,去匹配对应的动作和字词。

  需要说明的是,这样的语义驱动并非是靠 1 对 1 的动作-文字匹配实现——这种方案会使得数字人的运营配置成本过高,而是利用 NLP 技术对语句进行语义理解,确保数智人所有的肢体动作都是在理解对话的基础上进行的。

  例如,云小微数智人不止会根据文字的语气做出沮丧、高兴或生气等 8 种细节表情(精细到眉毛那种),还能自行归类各种近义词句,做到说话时从表情到肢体动作都接近真人。

  其二,是语音交互沟通中语句理解的问题。

  尽管除了语音外,数智人的交互也包括触摸、图形、文字等交互方式,但在人类日常沟通中,语音仍然是最自然的方式,在人机沟通中更是如此。

  同时,语音交互又是人机交互中最复杂的技术之一,目前人类和 AI 在日常沟通上仍然存在不少障碍。

  其中一个非常大的问题,就是 AI 无法理解我们说的是什么,包括口语化表达、口音、说话习惯等等因素都会对 AI 理解语句带来很大挑战。

  面对这种问题,腾讯实现了非常全面的 AI 技术储备。

  在NLP技术上,腾讯云小微在国际对话系统技术挑战赛(DSTC8)中,一连斩获 4 项世界第一,无论是数据、模型还是场景,都处于行业领先的地位。

  其中,在数据上,云小微支持自动学习、自动化扩展百万级语料;模型也非常全面,从任务、闲聊到问答型都有,也支持在线&离线融合语义理解;最重要的是,云小微由于有全双工、多轮对话能力相关的技术加成,能够很好地完成复杂场景的对话任务。

  而在 NLP 以外,腾讯在语音合成上也有 AI LAB 自研的 DurIAN 等语音合成框架。

  据负责人介绍,在语音合成方面,腾讯云小微不仅支持少样本声音复刻、达到“20 句就能生成极具个性化的语音声线”的效果,而且合成效果拟声度高、同时支持 11 种语言和方言。

  这样一来,数智人不仅解决了语音上“理解”的问题,也解决了个性化“表达”的问题,应用在手语主播这样的场景中,才能更好地向听障群体放出善意与温暖。

  科技的增量价值

  当数智人们变得越来越智能,不止是当主持人、当手语 AI 主播,「向善」的科技同样也能应用在更广更多的领域中,越来越多的职业岗位上都开始出现 Ta 们的身影,比如导游、客服、虚拟偶像等等。

  例如,在传媒领域,数智人就能在新闻主播忙不过来的时候,成为一个“虚拟分身”,为他们进行一个高并发的信息输出。

  这样一来,不仅能解决新闻量高并发的问题,还能解决新闻主播受到时差、语言等方面限制的问题,实现 7x24 小时在线。

  又例如,今年由于疫情原因,不少银行等金融机构开始开启线上业务办理,然而员工们却无法到线下的网点上班,导致客户同样也无法办理业务。

  在这种情况下,数智人就能帮助金融机构,通过语音交互完成一个无接触面对面的业务办理,同时结合视觉、大数据等技术,实现金融风险评估等更加复杂的操作。

  但值得一提的是,正如同手语数智人的出现,让所有电视节目都配上手语老师成为可能,在这些场景中,数智人也并非在“替代”人类工作,而更多地是填补空白,起到“增量”的效果。

  在那些人力短缺,或仅凭人力难以兼顾的场景中,数智人作为一种提升服务效率的方式,不仅能够避免重复性劳作带来的效率降低,也能保持长期工作中的服务体验感。

  这也是科技背后真正的价值——并非取而代之,而是协助人、去做人所不能之事。

  从这个角度来看,数智人仿佛也拥有了人类一般 36.5℃的体温,不再只是一个冰冷的数字形象。

  事实上,也只有真正有温度的科技、无障碍的科技,才能够在时间的检验下保持长久的生命力。

  近年来,像腾讯这样的科技公司其实一直在进行无障碍设施的落地,践行上述理念。

  而现在,历经数年技术积累,从实验室走向台前的 AI 手语数智人们,也正是“科技有温度”的最新体现。

  并且,科技越发展,形态越进化,弱势群体和世界之间的裂隙,也越来越能够为技术所抚平——

  相比翻译机,AI 手语数智人更进一步地解决了双向沟通的问题,不仅让听障人士理解想要表达的信息,也让更多人走进听障人士们的内心世界。

  愿科技的发展,能让每一个人都感受到被重视的“温度”。


标签:

随机快审展示 刷新 快审榜
加入快审,优先展示

加入VIP