当前位置: 首页 > 隐秘往事

别在路边商量抢银行的计划了,监控探头已经学会了读唇术

06-20


文 | 木子Yanni

为什么说无声胜有声?因为无声饱含秘密。

遥远的月球上,有一块被深埋了几百万年之久的黑色石板,强有力的放射性发光体正对着木星,这勾起了人类的好奇心。

18 个月后,“发现者一号”太空船起航,两名飞行员、三位“冬眠”的科学家,以及一台完美型人工智能电脑“哈尔 9000”,一齐踏上了全程五亿公里的木星探秘之旅。

俗话说,有“人”的地方就是江湖。在太空漫游的过程中,人工智能哈尔在工作中出现失误,做出飞船某零件将要出现故障的判断,谨慎起见,两位飞行员考虑要关闭哈尔。

万万没想到,这一商量,出事了。

深知哈尔的智能程度,为了避免谈话被哈尔听到,俩人特意找了个借口,躲进了备用仓,始料未及的是,哈尔居然会读唇语。在悄咪咪围观完两人的谈话后,哈尔知道自己将要被关闭,决定先下手为强,它不仅找机会把两位飞行员关在舱外,还干掉了仍在睡眠仓里沉睡的三位科学家。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图1)

哈尔正在暗中解读唇语

值得庆幸的是,作为飞行员之一的大卫顶着重重危险,终于回到飞船内,成功关掉了哈尔。

在这部 1968 年上映的《2001 太空漫游》中,导演斯坦利·库布里克幻想了一种奇技:面对无声的秘密,AI 可以读唇。

当年的幻想,在斯坦利·库布里克去世二十年后,终成现实。

唇语之难

唇读有多难呢?你关掉字幕,把电视音量调到零体验一下。(友情提示,千万别看朱广权,不然你可能会觉得我在为难你。)

结果你会发现,是不是朱广权,其实对结果根本没什么影响。

之前,网上有个风靡一时的游戏:两人配合,一个人说词,另一个人戴上播放音乐的耳机猜。听起来很简单对不对?别急,把此刻离你最近的人拉过来 PK 一下,如果你能百猜百中,壮士,请收下我的膝盖。

唇语之所以难看懂,是因为当你在说话时,上下唇处于持续的活动当中,不仅变化速度快,而且看不出音调,唇形哪怕是一点点的微弱变化,都能匹配上不同的字,这就需要在语境当中进行上下文匹配,你才知道我说的是“按钮”还是“爱你呦”。

正因为唇读的难度很高,而且过程中总会出现各种难以预料的不可描述,所以在很多综艺节目里,它都会被改造成不同游戏,负责承包笑点。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图2)

道歉、郝建、脚垫傻傻分不清

我身边的很多朋友,第一次公开听说唇读这个词儿,都是从“头顶门事件”开始的。

2006 年 7 月 9 日,正值德国世界杯决赛,万千球迷握拳屏气,期待着一场巅峰决战:法国球星齐内达率领球队一路闯进决赛,将与意大利一决胜负。

决赛在万千期待中顺利进行着,但强强对决,高下难分,加时赛进行到 109 分钟时,双方比分依然僵持在 1:1,就在此时,意想不到的事情发生了。

正在回防的齐达内,似乎听到了什么,一个转身,果断用头砸向马特拉齐的胸口,把他撞翻在地。齐达内这个举动的代价是,被红牌罚下,与大力神杯失之交臂,赛后,34 岁的他宣布退役。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图3)

“头顶门”瞬间

舆论毫无争议地集中在一点:马特拉齐到底说了些什么?

为了抢爆料头条,多家媒体不惜请来唇语专家,通过现场视频对马特拉齐读唇,以此还原当时的情况。但事实是,一百个唇语专家,就算没有一百种解读,也能有九十九种,一时间,关于马特拉齐言论的版本满天飞。

综合来看,比较受认可的说法是,马特拉齐用恶劣词汇提及了齐达内的姐姐,而一直以来,家人都是齐达内尽全力守护的目标,这才爆发了此次冲突。但是,要想深究翻译的准确率,恐怕只有当事人最清楚,这不,因为争议太多,直接逼得马特拉齐出了一本书,书名就叫做《我对齐达内说了什么》。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图4)

《我对齐达内说了什么》

虽然唇读很难,但术业有专攻,要想让无声开出花儿来,还得靠专家。

一直以来,唇读主要集中在案件侦查、残障教育等场景中,主力军都是经过长久且专业培训的读唇专家。

读唇女王和英国劫钞案

杰西卡·里斯是英国著名的读唇专家,她在 4 岁那年失去听力后,开始练习读口型来理解意思,长年累月的练习后,她掌握了“读唇术”,并成长为政府盖戳认证的“官方读唇证人”,被视为英国司法界的“奇迹武器”。

英国著名的「“零证据”劫钞案」,正是在杰西卡的协助下,警方才最终找到关键证据,得以顺利破获。

2002 年 2 月 11 日,凌晨 6 点刚过,一架航班冲破夜色,徐徐降落在伦敦希思罗机场第四航站楼。机上除了有 187 位旅客外,还有 8 箱美钞,总数超过 600 万美金,正等待转运回美国。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图5)

图片来源于网络

飞机刚停稳,一辆运钞车已经到达指定位置接应,车身的醒目位置还贴着一个英航的标志。

35 岁的帕达,是这辆运钞车的司机,他瞧着飞机已经停稳,便熟练的跳下车,进入飞机行李舱,敏捷地卸下了 8 个沉甸甸的红色现金箱,并逐一搬上了运钞车。完成这一系列动作后,他不经意地看了一眼时间,刚刚 6:30。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图6)

图片来源于网络:红色现金箱就长这样

齐活儿嘞,帕达哼着小调,一屁股扎进驾驶位准备开车离开,不料,脚刚踩在离合上,就瞅见一辆小货车开了过来,车身上也贴着英航的标志。帕达丝毫没多想,因为这是机场,随处可见这样的行李运载货车,没什么奇怪的。

然而,接下来发生的事情,却令帕达终身难忘。

他被人硬生生从车上拽下来,捆成一只肉粽后,扔在了冰冷坚硬的水泥地上,全身像筛子一样颤抖着,内心的惊恐早已翻江倒海,嗓子里却一点儿声音都发不出来,身体已经僵硬到可以盖过骨头被小石子抵着的疼痛。帕达无法控制地假想着一颗随时可能飞来的子弹,也许会射在腿上,也许是头。

今天会死在这里吗?他只能祈祷。

时间一分一秒在游走,不知过了多久,刺耳的警铃响彻整个机场,一阵由远及近的脚步声发现了帕达,而此时,运钞车停在原地,但 8 箱现金已不见踪影,同时消失的,还有那辆带着英航标志的货车。

听着警察们嘈杂的议论,帕达才知道,自己经历的漫长煎熬,其实只有短短五分钟。

正当警察在梳理线索时,大老远有一个穿着机场警员服装的人,跌跌撞撞地朝警察所在的方向晃来,还没等警察询问,这位自称叫森迪普的人已经开口了。森迪普说事发时,他正在巡逻,一辆小货车很自然的停在了他身边,说时迟那时快,两个蒙面人从车上冲下来,高举着手里的刀,将他挟持到货车的驾驶位上,逼着他将车开出了机场。

刚一出机场,劫匪就迫不及待的下车,麻溜的把现金箱从货车上卸下来,转而搬进了一辆早已停在这里的车,森迪普趁着劫匪忘我地搬钱时,撒腿就跑,这才逃了出来。

要知道,希思罗机场作为欧洲最为繁忙的机场之一,居然发生了一起如此神速的劫钞案,劫匪完成捆绑司机、转移现金、迅速消失这一系列动作,仅仅耗时五分钟,更令人震惊的是,抢劫发生的地点在航站楼侧面,正好是机场内公认的“超级安全区域”,如此看来,此案堪称是惊天丑闻。

而此时,由神探尼尔森领头的破案小组,把初步怀疑放在了运钞车司机帕达和警员森迪普身上,理由是:能顺利进入机场,在最安全区域迅速完成抢劫后,还能毫发无损的离开,肯定有内应,而这两人恰好还都在险中逃生,十分可疑。

然而,没有证据,警方也不能随便对嫌疑人进行窃听,怎么办呢?神探尼尔森只能派人远远的跟着两名嫌疑人,用微型摄像机拍下他们的行踪,但距离太远,所有的影像资料都听不到声音。

很快,一年时间过去了,拍摄的视频已经装满了 23 盘录像带,神探尼尔森还是一无所获。这两人看起来都很正常,大多数时间都陪着各自家人,就算外出聚会,也毫无异常,不毒、不赌也不嫖。

截至目前,此案还是零证据。神探尼尔森陷入了自我怀疑,难道从一开始就错了吗?

突然的一天,神探尼尔森听说有人可以靠读唇破案,一打听才知道,此人正是英国著名的读唇专家杰西卡·里斯。天啦噜,这简直是上天派来的救兵,尼尔森立刻找到杰西卡,说明来意后,杰西卡很乐意帮助,并留下了那 23 盘录像带。

七天后,有了结果。

杰西卡把重点放在录像中频繁出现的五个人身上,靠着录像带里的口型,翻译出了他们说的话。

场景一:抢劫案发生当晚,机场警员森迪普和他的哥哥坐在家附近的公园长椅上,眉飞色舞的畅谈着,哥哥说:“哈哈,我们发财了。”森迪普高兴地回应:“没错,而且这帮傻警察完全想不到我们是怎么发财的。”

场景二:运钞车司机帕达和机场警员森迪普碰面,帕达对森迪普说:“沉住气,千万别露出马脚,半年甚至更长一段时间里,我们都得保持穷样子,你还是继续在机场当临时警卫比较好。”

场景三:机场警员森迪普的哥哥对运钞车司机帕达说:“放心,没有人被怀疑,警方没有发现任何线索。如果警方真的问起,我什么都不承认,他们没有证据。”

场景四:一个露天酒吧里,几人在谈论:怎么样才能在不引起怀疑的情况下,把那些美元换成英镑。

靠着读唇专家杰西卡的翻译,警方顺利找到了嫌疑人藏钱的地方,并还原了抢劫案经过:机场警员森迪普和哥哥不想太辛苦,做梦都想轻轻松松地找钱花,恰好,他俩遇到了同样想不劳而获的运钞车司机帕达,三人一拍即合,又拉来两个帮手,组建了五人弄钱小团队。

经过一番头脑风暴,行动开始。

机场警员森迪普借工作之便,先把三个同伙藏在了机场安全区域外,凌晨时分,运钞车司机帕达顺利进入机场。6:20 左右,藏在安全区域外的三人,开着提前准备好的货车试图靠近安全区域,这时,机场警员森迪普找借口引开检查人员的注意力,三人顺利进入安全区域,准备接应运钞车司机帕达。

当钱箱已经被司机帕达装入运钞车后,接应的三人迅速卸下箱子,并把司机帕达绑了起来,然后,警员森迪普开车直接把三人送出了机场,随后迅速返回,故作慌张的向警察传达虚假信息。

法庭上,法官宣布读唇专家杰西卡的证据有效,五人在证据面前也低头认罪,这场抢劫案到此水落石出。

尽管读唇女王杰西卡参与了 700 多起刑事审判,但她在 2004 年被指控简历造假,因为简历上显示她拥有牛津大学贝利奥尔学院的学位,但实际上她只读了两年,这件事经过媒体发酵后,英国皇家检察署决定不再依赖杰西卡。

有没有人能胜过唇读专家呢?肯定有。

AI 读唇术

2016 年,读唇专家遇到了强劲的对手:人工智能。

首先出场应战的选手,是来自于牛津大学计算机科学系的 LipNet。LipNet 称得上是当时最优秀的唇读系统,尽管供它学习的数据集只有 51 个特殊单词,但是经过测试,在同一份材料下,读唇专家的准确率是 52.3%,而 LipNet 的准确率则达到了 93.4%,AI 胜出。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图7)

图片来源于网络

不过要提一下的是,LipNet 能达到这样的准确率,是因为所有的句式都相同,而且涉及词汇量极少,难度较低。

随后登场的这位选手,与 LipNet 相比,能力不止高了一个台阶,它就是由 DeepMind 和牛津大学共同选送的人工智能系统 WLAS。

与 LipNet 仅有 51 个单词的学习样本不同,研究人员给 WLAS 准备的,是超过 5000 小时的 BBC 节目全家桶套餐,涵盖 2010 年 1 月到 2015 年 12 月之间的《新闻之夜》、《BBC 早餐》等各种视频素材,约有 118000 个句子。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图8)

图片来源于网络:BBC 节目数据库

WLAS 需要仔细观看这些长达数千小时的视频,先从画面中识别出说话的人脸,抽取说话人的唇形变化特征,再将这些特征和发音进行匹配,牢记唇形和文字之间的对应关系。在学习完这 118000 个句子后,WLAS 只看无字幕版视频,就能够自动补充字幕,即使是唇形变化不那么明显的句子,WLAS 也能够通过唇形正确识别,比如:“我们知道也将有上百位记者会出席” (We know there will be hundreds of journalists here as well)。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图9)

图片来源于网络

光说不练假把式,是人工智能还是人工智障,拉出来一溜便知。

研究人员在 2016 年 3 月- 6 月的 BBC 节目中,随机挑选了 200 个视频片段作为考题,在这场人机对比测试中,WLAS 的唇读准确率为 46.8%,而人类唇读专业人员的准确率只有 12.4%,AI 再次胜出。

此后,加入唇语识别这条赛道上的公司越来越多,其中也包括阿里、搜狗等中国公司。

当 AI 掌握了读唇术,科幻电影中的又一情节,成功奔现。

作为新晋的 AI 读唇专家,要想大有所为,就必须有用武之地,因为有应用才有资本聚集,有资本才有可能真正下沉落地。就目前而言,AI 唇语识别会朝着身份验证(唇码系统已有进展,有兴趣可以了解)、公共安全(比如摄像头解读犯罪之语)、语音识别(嘈杂环境下也能精准识别),在辅助残障人员理解方面,也意义重大。

现实生活中,聋哑人被误解是常态。央视新闻曾报道过这样一件事:2016 年,一位 80 岁的老人找到律师,说自己的女儿被指控偷了一部手机,在手语师的辅助下,已经认罪,可她是冤枉的。律师受理后,反复观看审讯视频,发现老人的女儿不停用手语表示“我没偷”,可手语师却翻译成“我偷了一部金色的苹果手机”。

倒不是说手语师有心而为,而是因为普通话手语和自然手语之间存在细微差别,很容易弄错,这个场景就非常适合 AI 的参与。

当然不可否认,AI 唇读也是把双刃剑,伤敌还是伤己,需要时间给我们答案。

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图10)

嗨,这里是浅黑科技,在未来面前,我们都是孩子。想看更多科技故事,欢迎戳→微信公众号:浅黑科技(qianheikeji)

别在路边商量抢银行的计划了,监控探头已经学会了读唇术(图11)


版权保护: 转载请保留链接: https://www.qianhei.net/yinmiwangshi/133.html