隐秘往事 加密货币“主神”的烈日与黄昏

你抛过硬币吗?当你极端不信它的正面,其实是在笃信它的反面。而笃信,是灾祸的开端。
05-08 10401 阅读详情

土嗨大事 国产超500比特量子计算芯片“骁鸿”发布,将接入“天衍”量子计算云平台,向全球开放

量子计算是个漫长征程,要翻过很多高峰才能真正迈向实用。
04-25 19060 阅读详情

土嗨大事 售价78.9万元起,极氪009光辉开启纯电四座超豪华MPV时代

作为一款四座超豪华旗舰,极氪009光辉围绕高端出行需求,配置全部顶级拉满,既是最高效的出行工具,也是最安全的隐私空间,更是让感官沉浸的愉悦天地。
04-19 19112 阅读详情
制约人工智能统治世界的原因千千万,不懂“因果”最要命_浅黑科技
当前位置: 首页 > 刨根问底

制约人工智能统治世界的原因千千万,不懂“因果”最要命

05-30

1907 年,马克·吐温带火了一句话。

世界上有三种谎言:谎言、该死的谎言,和统计数据。


There are three kinds of lies: lies, damned lies, and statistics.

巧的是,我们现在所处的时代,正好叫做大数据时代。

以微小字节计算的数据,正汇成汪洋大海,滋养之地,阿法狗精修棋艺,波士顿动力狗勇当警犬,无人驾驶加紧练习以防变狗…

制约人工智能统治世界的原因千千万,不懂“因果”最要命

卧倒待命的“波士顿动力警犬”

这些“未来”场景的背后,都是基于数据的机器学习在支撑,而且在很多方面,人工智能已经突破人类的局限,以绝对的硬实力成为社会进步的一环。

永远有一部分人相信:人工智能终将统治世界。

可如果用来学习的数据会说谎,那么我们眼前的“人工智能”,到底能不能统治世界?

1、辛普森悖论

围绕自动驾驶,一直有个争议:机器和人类相比,到底谁开车更安全?

在一次人工智能论坛上,特斯拉公司的董事会主席德霍姆摆出了数据:自动驾驶每 400 万英里发生一次事故,而人类司机呢?每 50 万英里就会有一次事故

制约人工智能统治世界的原因千千万,不懂“因果”最要命


显而易见:自动驾驶胜。

不过,同样是摆数据、讲道理,有人却给出了相反的结论。

来自伊利诺伊大学的一个研究团队,研发出了一种针对自动驾驶的故障评估技术,他们分析了 Uber 和 Waymo 在 2014-2017 年间提交的所有安全报告 (涵盖 144 辆车,累计行驶里程 1116605 英里) 。

最后,结果显示:在同样的行驶里程数下,人类驾驶汽车发生事故的可能性,比自动驾驶汽车低 4000 倍

如此看来:人类司机胜。

怪了,两方都是以客观数据为依据,却论证了两个截然相反的观点,这就显得有些玄学了。

这种看似违背常理的诡异现象,其实是个非常经典的统计学问题:辛普森悖论

1951 年,辛普森在论文中阐述了一种奇怪的现象:当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。但是,在分组比较中都占优势的一方,在总评中,反而成了失势的一方

举个栗子,假设你是某大学校长,正坐在办公室里。

突然,秘书眉头紧锁推门进来,对你说:大事不好了,校门口有很多男生举着横幅抗议,说咱们的录取环节存在性别歧视,女生的录取率是 42%,男生的录取率却只有一半,仅为 21%。

听完秘书的汇报,你觉得很疑惑,反问秘书:之前咱们不是专门开会说,今年要提高男性的录取率嘛,怎么还搞成这样?

秘书哭丧着脸回答说:我确实是严格按照计划行事的呀,您看,我还做了个表呢。

从秘书制作的统计表中,你清楚地看到:商学院的录取率中,男生是 75%,女生是 49%;法学院的录取率中,男生是 10%,女生是 5%。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


不管看哪个学院,都是男生的录取率高,可不知为什么,合在一起看,男生的录取率反而低了。

同样的数据,却得出相反的结论,这就是辛普森悖论。

就这个例子看,究其原因,是因为秘书只从表面统计了数据,却没有考虑数据间的因果性。

1) 忽略了申请者的性别权重

申请商学院的女生人数是男生的 5 倍,表示女生更偏爱商学院。在 53.3% 的录取率中,男生申请人数少,所以不被录取的人数也相对少,女生刚好相反,导致男生录取率反而高于女生。

相反,申请法学院的男生人数是女生的 5 倍,显示男生更愿意申请法学院。同理,在 9.2% 的录取率下,尽管最终录取了 10 名男生,1 名女生,但由于女生申请人数本来就少,被淘汰的人数自然也少,导致男生录取率再次高于女生。

可是,一旦将两组录取率进行简单平均,忽视两个学院录取率的巨大差异 (53.3% 和 9.2%),女生录取率自然就反超了。

2) 忽略了其他的潜在影响因素

在录取率面前,申请者出现比较大的性别差异,只是一种随机事件,往大看,性别甚至可能对录取率毫无影响,仅是这届学生的入学成绩恰好出现这种比例,容易让人误认为是性别因素导致。

虽说上面这个故事纯属虚构,但在现实生活中,确实存在很多辛普森悖论,在政治领域,政客们更是经常利用辛普森悖论来拉拢人心

福特总统在 1974~1978 年的任期中,对各个收入人群实施减税,从下图中就能看出,每个纳税区间的税率都有所下降,但事实是,在此期间,整体税率出现上升,税收额明显上涨。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


辛普森悖论揭示了一个很容易被忽略的真相:数据是个强有力的武器,但它是会骗人的,只有考虑整个数据的生成过程,弄清来龙去脉,才能精准找出其中的影响因素,得出客观结论。

我们都知道,数据是机器学习的三要素之一,如果在训练人工智能的过程中,只是一味给它灌输数据,忽略数据之间的因果联系,会发生什么呢?

2、光头的诱惑

去年年底,人工智能出了个大糗。

2020 年 10 月底,苏格兰足球冠军联赛火热举行。可是,受疫情影响,苏格兰正处在严格的隔离政策下,球迷无法到场观看。

为了解决这个问题,比赛前一周,因弗内斯俱乐部引入了一套全新的 AI 智能转播系统,内置具有 AI 追踪技术的摄像头,可以自动追踪足球,解放以往需要在赛场里来回狂奔的摄像师。

更重要的是,球迷坐在家里,花点小钱就能乐享实时赛况,不必因为疫情而被迫失去一个成年人难得的快乐。

只是没想到,直播第一天,就出了意外。

比赛刚开始,一切正常,双方球员在中场等待门将开球,AI 缓缓将镜头拉远,静待赛事继续。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


可随后,AI 只是多看了一眼站在球场边的“光头”边裁,直播画面就朝着奇怪的方向去了。

AI 将边裁锃亮的脑袋认成了足球,尽职尽责进行着赛事直播:边裁走到那儿,AI 的镜头就转到哪儿。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


哪怕边裁离球万里,AI 也会不顾一切调转镜头,尽职尽责地追踪边裁。。。的光头。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


场外的万千球迷,原本都在家聚精会神的观赛,很快,他们就觉察出不对劲:屏幕正中间的最佳位置,永远闪着一颗光头,至于球到了哪儿,又被传给了谁,不知道。

这就尴尬了。

察觉到这一异常,技术人员迅速手动修正,企图纠正人工智能的错误认知:小子,你看清楚了,这个不是球,是裁判的光头,那个又白又圆、飞来飞去的才是,记住了啊。

于是,直播回复正常,直到...边裁再次入镜,一切回到最初的起点:AI 又将边裁的头当成了足球,持续追踪...

这下可好,人工干预也无法阻止这场“光头的诱惑”,即使多次手动修正,奈何 AI 偏有自己的想法,固执认为边裁的头,就是足球。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


原来当年传唱的惊悚校园歌谣,是有现实依据的:XX 的头,像皮球…

这下,直播变得有趣了:90 分钟的比赛,其中绝大部分时间,手握啤酒在家观看的球迷们,只能看到边裁的光头停在屏幕中央,至于球在哪儿、有没有进?看不见。

好在,这场比赛最终停在了 1:1,不至于让球迷太过心痛。

比赛结束了,快来近距离看看这位全程尊享 C 位的光头边裁。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


看完边裁英俊的外貌,我们回到这起直播事故,想想为什么人工智能非要把边裁的头,当足球?一个容易被忽略的深层原因就是:缺乏对因果关系的推断。

这里有个动图,人类在观看时,不用额外思考,也能轻松推论出不同元素间的因果关系。比如当你看到球棒和运动员的手臂同时运动,就知道是运动员的手臂带动了球棒的运动,进而影响了球的运动轨迹。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


同样,人类还能进行反事实思考:如果这个球飞的再高一点,球棒没有击中它,会发生什么?

不论是推论因果联系,还是反事实思考,对人类来说都不难,因为从出生开始,我们就一直在做这样的事情。

可就是这样简单的事情,放在机器学习身上,就成了挑战。

人工智能可以在围棋等赛事中赢过人类,可以在医学影像中预测癌变,可以在海量数据中发现微妙的规律,却无法做到简单的因果判断,例如利用球员腿部动作和足球轨迹间的联系,实现球赛追踪直播,而不是忽略场上的运动员,平白无故将一个又大又白的脑袋当成足球,令人哭笑不得。

尽管可以通过加大数据“投喂量”的方式,改进算法,提高 AI 自动追踪的能力,而这也是当下的主流做法,但随着 AI 应用场景的逐步拓展,此类“翻车”事件还将长期存在。

3、高尔顿钉板

贝叶斯网络之父朱迪亚·珀尔 (Judea Pearl),是人工智能领域的先驱,也是图灵奖得主,可他却曾经自嘲:我是 AI 社区的反叛者。

他所谓的“反叛”,是指技术路线的转变。

在朱迪亚·珀尔看来,尽管现有的机器学习模型已经取得巨大进步,但遗憾的是,所有的模型,都是在对数据进行精确的曲线拟合。从这一点来说,现有的模型,只是在上一代的基础上提升了性能,但在基本的思想方面,没有任何进步。

要想改变“有多少人工,就有多少智能”的困境,需要一场「因果革命」

这里说的因果,不是指一个新的研究课题,朱迪亚·珀尔把它称作“新科学”,这是一道新的大门,对人工智能的进步,将会产生巨大的推动作用。

既然如此,那还等什么,赶紧把它写进代码里呀!但事实却是,根本不存在这样的代码。

在长达数十年的时间里,科学界广泛认为,因果关系根本不存在,所以压根儿就没把它划进科学家族中,更别说用科学的语言来描述它了。

当然,这种局面可不是科学家们拍拍脑袋达成的共识,而是实践后得出的结论。

1877 年,英国著名的生物统计学家高尔顿,做了一个并不复杂的试验。

他立起一块木板,上半部分是很多排交错的小格挡 ,下半部分则是几个垂直的竖槽。小球从上部正中央的入口处掉落,经过一排排小格挡的碰撞,就会落到下面的竖槽中。

这个板叫做高尔顿钉板。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


在小球掉落的过程中,碰撞是随机发生的,落到哪个槽里也无法预测,可随着小球的数量增加,你就会发现,小球的分布是有规律的。

越靠近中间的竖槽,小球越多,越到两边,小球就越少,整体分布呈现平滑的中型曲线,统计学把这种现象叫做正态分布。

高尔顿用这个实验来模拟人的遗传。

人的身高会受到很多遗传因素的影响,就像高尔顿钉板的小格挡一样,但不管有多少种因素,最终都会呈现出正态分布,也就是说,大部分人都将处在平均身高区间,特别高和特别矮都是少数。

后来,高尔顿将这个实验进行了延伸:在原有的高尔顿板下面,又接了一个高尔顿板,这样一来,结果会有不同吗?

有。

从这次结果来看,第一代中,特别高和特别矮的人都是少数,到了第二代,特别高和特别矮的人增多了,平均身高区间的人数有所减少。

当然,你肯定意识到了,现实世界并不是这样,不管经历多少代,特别高和特别矮的人,始终都是少数。

此外,高尔顿还观察了 600 多位英国名人, 最后发现,正如“富不过三代”,这些名人的儿子们,普遍没有父辈有名。

高尔顿将这种现象叫做回归平庸,并用了 12 年时间,采用各种研究方式,企图找出原因。

最后,他得出结论:没有原因。这个世界,并非因果能解释。

再往后,高尔顿的学生皮尔逊,将老师的思考进一步发展,得出一个结论:世界上只有相关性,没有因果。其中,有的相关性是有意义的,比如父辈的身高和后代的身高;有的相关性是没有意义的,比如公鸡打鸣和太阳升起。

这一观点,逐渐成为不少科学家的共识。

但这里,其实有个问题。

什么是没有意义?就是说,公鸡打鸣不会导致太阳升起。各位注意看这个词,“导致”。

“导致”用来说明的,就是因果联系。皮尔逊虽然不承认因果,可他在判断相关性的时候,还是用了因果联系。

这就让局面变得有些尴尬了:科学上,我们不能证明因果联系,但在思考上,我们又离不开因果联系。

贝叶斯网络之父朱迪亚·珀尔,运用哲学的方式,对这一难题给出了自己的看法。

他认为,要把主观和客观这两个维度分开来看。

因果是一种主观的思维方式,人类看到客观现象,就会主观建立起因果联系,但客观世界,并不一定是按照因果规律运转的。

因果联系是人类建立认知的一种基本方式,即使是一次再简单不过的思考,我们也在调用因果思维。更进一步说,不管客观世界存不存在因果,作为人类,主观上都无法离开因果这个思考方式。

只是,用当下的科学研究,还无法给因果联系一个定论。

当然,我们可以慢慢纠结,等到能够用科学语言来描述因果关系,可人工智能等不了。

真要等研究明白这个问题,再把它变成代码,输入人工智能,那在此之前,人工智能将长期处于“有多少人工、就有多少智能”的时代。在这个效率至上的时代,这个方案显然不可取。

在现实世界,不是非要搞明白牛顿力学,才能造出一把锤子,很多实践进步,都出现在理论形成之前。所以,在人工智能面前,人类最重要的,不是搞清楚因果联系,而是完善因果思维。

我们来看两个故事。

第一个是后羿射日。远古时期,天上有九个太阳,导致温度太高,不适宜人类生存,于是,一个叫后羿的暖男,举起一把大弓,追着射下八个太阳,让地球成为适宜人类居住的星球。

第二个来源于三体。遥远的外星系,挂着三个太阳,它们在万有引力的作用下互相吸引,做出了很多没有规律的不规则运动,这超出了人类的数学极限,你根本不能通过计算,预知它们下一步的运动轨迹。

在第一个故事中,存在的因果模型很简单:九个太阳,导致热,射下八个,不热。这里要抓的关键因素只有一个:热。

在第二个故事中,同样还是太阳,但因果模型有所变化,关键因素增加了:人们意识到了万有引力的存在,而三个太阳除了热,还多了人类无法预测的不规则运动。

其实,第二个故事中的因果模型,也并不一定完全准确,也许你明天早上一睁眼,打开热搜发现,有科学大神找到了一个除万有引力之外的新规则。所以这意味着:世界同时存在不同维度的各种规则,你能察觉的规则越多,越关键,你的因果模型也就越准确。

贝叶斯网络之父朱迪亚·珀尔,给出了一些完善因果思维的方法,其中有两个方法的使用频率最高:1、区分混杂因子;2、找到中间因素。

第一个方法,区分混杂因子,这其实是破解“辛普森悖论”迷局的关键。

如果你还记得你在本文第一部分当校长的经历,很容易就能理解这个方法:找到造成“双面数据”的混杂因子,也就是能够同时影响原因和结果的那个因素,把与它相关的因素分开计算 (性别),就能得出正确结论(男生录取率确实高于女生,与原有招收目标一致)。

第二个常用的方法,找到中间因素

在数百年前的大航海时代,船员们经常得坏血病,人们就怀疑,很可能是因为船上缺少新鲜蔬菜和水果。

到了 18 世纪,苏格兰海军有了发现:柠檬这个黄黄的水果,可以预防坏血病。于是,船员们人手捧着这种黄色水果,坏血病很少出现。

没多久,苏格兰海军发现,虽然得病的人少了,可柠檬贵啊,大量供应挺费钱,一研究,他们发现:比起西班牙柠檬,西印度柠檬更便宜。

于是,海军高层不仅将柠檬换了品种,而且为了防止腐坏,还把柠檬榨汁煮熟后带上船。

这下可好,不仅坏血病没防住,反而大面积爆发,比以往任何时期都严重。

在这个案例里,人们以为的因果模型是:航行期间缺少新鲜蔬菜,导致没有柠檬供应,导致坏血病爆发。其中,柠檬就是中间因素,它能够直接导致最终结果。

可事实上,柠檬不是,柠檬中的维生素 C 才是。

西印度柠檬虽然便宜,可它的维生素 C 含量,只有西班牙柠檬的四分之一,而榨汁煮熟,更是将为数不多的维生素 C 破坏,这才导致坏血病的突然爆发。

所以说,找到正确的中间因素,才是建立因果模型、最终解决问题的关键。

运用因果推理,让人工智能“更聪明”,正在成为行业内的新发力点。前两天,我刚好看到一个新闻,说阿里巴巴达摩院将因果推理引入计算机视觉,试图让 AI 想象从未见过的事物,比如学过人类照片和鱼类照片后,再给 AI 看一张美人鱼的照片。

至于 AI 能将美人鱼认成什么,我还没去探索,但我希望技术人员给 AI 看的美人鱼照片,不是长下面这样。

制约人工智能统治世界的原因千千万,不懂“因果”最要命


参考资料:

1、
https://www.sciencedaily.com/releases/2019/10/191025170813.htm

2、
https://bdtechtalks.com/2021/03/15/machine-learning-causality/

3、
https://arxiv.org/pdf/2102.11107.pdf


文 | 木子Yanni

嗨,这里是浅黑科技,在未来面前,我们都是孩子。

想看更多科技故事,欢迎戳→微信公众号:浅黑科技:qianheikeji


版权保护: 转载请保留链接: https://m.qianhei.net/paogenwendi/254.html