当前位置: 首页 > 刨根问底

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?

01-13

文 | 谢幺

从前有一家公司,它说自家的人工智能技术第二,几乎没人能认第一。同样是这家公司,它说自家的验证码技术最牛,全球应用最广,也没人不服。

人工智能技术的任务是让机器像人类那样工作,识别图像、语音等等,而验证码的任务是区分机器模拟的人类和真实的人类。

于是问题来了,用他家的人工智能技术来进攻他家的验证码系统,何如?

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


真有人就这么干了。2021年1月,一位叫 Nikolai Tschacher 的研究人员用一个视频给了大家一个答案:利用谷歌的“语音转文字”系统可以攻破谷歌的reCAPTCHA验证码系统,且成功率为97%。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?

(有兴趣的可以自行检索相关视频)

大致流程是这样的:

目前我们见到的谷歌reCAPTCHA验证码已经是第三代产品,一般长这样:

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


勾选一下“我不是机器人”,系统会自动采集你在网站上活动时的各种“蛛丝马迹”来给你打分,看你有几分像个人,分数达标就直接通过,否则弹出一道“考题”,这个“考题”其实是验证码系统的第二代产品。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


如上图,你可以“答题”,选择相应的图片并点“验证”。

如果你觉得太麻烦,也可以点击左下角的那个“耳机图标”,这是谷歌为了照顾视力障碍人士而设计的替代方案,点一下这个图标,你会听到一段声音,只要把听到的单词输入到框里,点确认,同样可以证明自己是个人类,而不是机器人。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


研究人员想出的办法是,如果写个程序,把验证码系统播放的声音丢给谷歌自家的“语音转文字(Speech-to-text)服务接口”,再把返回来的结果自动填入方框,不就可以破解验证码系统?一试果然成功。

这并不是人们第一次这样尝试。其实早在2014年甚至更早,就有人试过这种方法,屡试不爽,但早期reCAPTCHA验证码系统的“语音单词挑战”还比较简单,都是一些阿拉伯数字。

2018年6月,改进了机器人检测功能,并且支持口语短语而不只是阿拉伯数字,然而这似乎并没有什么卵用,因为语音识别技术也在进步,研究人员很快就发现,新的reCAPTCHA验证码系统依然阻止不了这种攻击。

这个问题也许永远无解。因为谷歌的reCAPTCHA验证码系统跟谷歌的AI有着说不清道不明的关系。

reCAPTCHA 这个词是怎么来的呢?是re 和 CAPTCHA两部分,CAPTCHA在英文里是“验证码”的意思,它是21世纪之初才诞生并流行起来的新词,意为:“Completely Automated Public Turing test to tell Computers and Humans Apart”(用于区分人类和计算机的完全自动、面向公众的的图灵测试)

2000年前后,二十岁出头的路易斯·冯·安(Luis von Ahn)和小伙伴一起研发出了初代的验证码系统,最初是用扭曲的文字来让人类辨认,以区分人类和机器人,用来对抗那时开始用自动化程序来抢票和搞事的黑灰产。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?

(已经有年头没见到这种古老的验证码了)

后来冯·安想到,与其自己花费精力生成这些扭曲的文字,不如利用现成的图片,于是在2007年,他发明了reCAPTCHA。

reCAPTCHA就是在CAPTCHA前面加了re的前缀,re的前缀在英文里有“返回、重新”的意思,所以reCAPTCHA颇有“取之于民,用之于民”的意思,它展示的扭曲文字不再是刻意生成的,而是来自图书馆里的旧书,这些旧书等待着被数字化,却又因为字迹不清、字体不好辨认或其他原因无法用常规的技术识别。

reCAPTCHA推出后,成千上万的网友成了“众包工人”,帮助图书馆转录文字。当然,也许“工人们”并没有意识到自己干了活。

2009年,Google以2780万美元的价格收购了reCAPTCHA,并开始用它来帮助谷歌的人工智能系统标记数据。

人工标记的数据集对于训练人工智能系统非常关键,相当于喂养人工智能系统的食物。用标注过的数据训练AI,叫做“有监督学习”(区分于无监督学习),相当于就像是母亲经常指着苹果对几个月的孩子说:“苹——果——”,然后慢慢孩子就知道了苹果是什么。

2012年,人们发现reCAPTCHA验证码开始出现Google街景中的照片,这说明,谷歌很有可能已经在借用网友们的力量来训练他们的图像识别系统。今天谷歌的图像识别技术位居世界前列,Waymo自动驾驶汽车在城市里畅通无阻,其中就有成千上万用过reCAPTCHA验证码的网友们的功劳。

看到这里你就会明白:用谷歌的“语音转文字”服务来攻破谷歌的reCAPTCHA验证码,其实是一个“教会了徒弟,干掉了师傅”的故事。

它揭示了一个深层矛盾 —— 从本质上来说,验证码系统就是一个图灵测试,而现代人工智能技术的目标就是突破图灵测试,让系统区分不出人类和机器。那么注定验证码和人工智能永远都是相爱相杀的虐恋关系。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


就文头提到的那个例子而言,其实攻击者不光能用谷歌自己的AI来攻击它的验证码,完全也可以用其他公司比如百度、科大讯飞家的语音转文字来进行攻击。

而且不单能用“语音转文字”来攻击,甚至可以直接用“图像识别”服务来攻击验证码系统的图片考题,对现在的人工智能来说,识别一个物体并不是什么难事。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


我猜想,当人工智能技术越来越成熟,门槛越来越低,灰黑产很快也会用人工智能来武装自己,从前那些雇佣“打码工人”,以后直接像工厂一样,用机器替代人类。

自相矛盾科技版:以谷歌之AI攻谷歌之验证码,何如?


到最后,验证码之战将演变成人工智能技术之战。矛戳破盾,盾折断矛,在不断的攻防之中,验证码和人工智能的不断奔涌向前。


欢迎关注公众号:浅黑科技,id:qianheikeji


版权保护: 转载请保留链接: https://www.qianhei.net/paogenwendi/207.html