当前位置: 首页 > 刨根问底

难以被检测到的后门技术,恐在摧毁人工智能信任

06-29

宇宙是浪漫的。

有句子这样写道:你身体里的每一粒原子,都来自一颗爆炸了的恒星。形成你左手的原子,可能和形成你右手的属于不同恒星。

简单点说,原子是宇宙的元素表达。

人工智能也是浪漫的。

它在方方面面辅助人类走进科技生活,而机器学习模型作为人工智能的引擎,重要万分。

简单点说,机器学习模型是人工智能的数学表达。

机器学习模型由数据助力,通过梳理海量数据,迅速找到规律并进行精准预测,远比人类更有效率。

机器学习模型是为了辅助人类而生,它的行为原本应该安全,但后门技术的存在,令机器学习成了难以被信任的家人。

后门是一种将秘密行为植入经过训练的机器学习模型的技术,也就是给模型动手脚,给它的行为赋予威胁性。

数据中毒就是一种简单的后门方法。

我们先来看一张图。

难以被检测到的后门技术,恐在摧毁人工智能信任


你能识别出这三张图中的物体么?

很简单对不对,它们分别是鸟、狗和马。

但你知道它们在算法模型的眼里是什么吗?

是带着黑框的白色正方形,而且三张都是。

通过对图片像素点进行调整,便能达到让模型错误识别物体的目的,这就是数据中毒的一个例子。

当然,后门技术可不止数据中毒这一种。

最近,加州大学伯克利分校、麻省理工学院和高级研究所研究人员,发表了一篇论文,叫做「Planting Undetectable Backdoors in Machine Learning Models」。

论文中提到了 2 种机器学习后门技术,其一是使用数字签名的黑盒不可检测的后门,其二是基于随机特征学习的白盒不可检测后门。

1、黑盒不可检测后门技术

这一后门借用了非对称密码算法和数字签名的概念。

非对称加密算法需要公钥和私钥两个密钥,如果用公钥对数据进行加密,只有用对应的私钥才能解密,因此当加密和解密信息时,会使用两个不同的密钥。每个用户都有一个可自己保留的私钥和一个可发布给他人使用的公钥,这是一种用于安全发送信息的机制。

数字签名采用反向机制。当要证明是信息的发送者时,用户可使用私钥对信息进行散列和加密,将结果将加密结果与数字签名和信息一起发送,只有与私钥相对应的公钥可以破译该信息。因此,信息接收者可以使用对应的公钥来解密签名并验证其内容是否被篡改过。其中,数字签名不能被逆向修改(至少今天的计算机无法做到),即便签名数据发生再小变化、也会致使签名失效。

Zamir 和他的同事将相同的原则应用于他们的机器学习后门。

给定任何分类器,将其输入解释为候选消息签名对,使用与原始分类器并行运行的签名方案的公钥验证过程来扩充分类器。

这种验证机制由通过验证的有效消息签名对触发,一旦该机制被触发,它就会接管分类器并将输出更改为它想要的任何内容。

这意味着当后门 ML 模型收到输入时,便会寻找只能使用攻击者持有的私钥创建的数字签名。如果输入被签名,则触发后门。如果没有,模型便将继续正常行为。这确保后门不会被意外触发,并且不会被其他参与者进行逆向工程。

难以被检测到的后门技术,恐在摧毁人工智能信任


值得注意的是,这种基于数据签名的 ML 后门有几个较为突出的特性。

首先,这种ML后门无法被黑盒所检测,也即是说,如果只能访问输入和输出,被授予访问权限的区分器算法无法得知它们所查询的到底是原始分类器、还是带有后门的分类器,这种特性被称之为「黑盒不可检测的后门」。

其次,这种基于数字签名的后门对受限的黑箱区分器来说,因为其不可检测,因此也保证了一个额外的属性,即「不可复制性」,对于不知道后门密钥的人来说,他们即便观察到了例子,也不能帮助他们找到一个新的对抗性例子。

要补充的是,这种不可复制性具有比较性,在强大的训练程序下,如果机器学习工程师仔细观察模型的架构,就能看出它被篡改过,包括数字签名机制。

2、白盒不可检测后门技术

这是一种强大的后门技术变体。

论文这样写道:即使给出返回分类器的权重和架构的完整描述,也没有有效的区分器可以确定该模型是否有后门。白盒后门特别危险,因为它们也适用于在线存储库上发布的开源预训练ML模型。

「我们所有的后门构造都非常高效,」Zamir说,「我们强烈怀疑其他许多机器学习范式也应该有类似的高效构造。」

通过使其对机器学习模型修改使之具有鲁棒性,将不可检测的后门又向前推进了一步。在许多情况下,用户得到一个预先训练好的模型,并对它们进行一些轻微的调整,例如在额外的数据上进行微调。

研究人员证明,一个有良好背景的ML模型将对这种变化具有鲁棒性。

这一结果与之前所有类似结果的主要区别在于,这是第一次证明后门无法被检测到。

这意味着,对于模型使用者来说,很难意识到这种恶意后门的存在。

就像最初,黑客要想拿到用户的信息,需要用户配合点击链接才行,可现在,无需用户配合进行任何动作,黑客同样可以侵入用户设备。

难以被发现的后门,对于建立人工智能信任来说,是一颗不定时炸弹,造成的后果很可能是不可估量的。

参考资料:

1、Machine learning has a backdoor problem

2、Planting Undetectable Backdoors in Machine Learning Models


文 | 木子Yanni

嗨,这里是浅黑科技,在未来面前,我们都是孩子。

想看更多科技故事,欢迎戳→微信公众号:浅黑科技:qianheikeji



版权保护: 转载请保留链接: https://www.qianhei.net/paogenwendi/419.html