2022年，人工智能模型还会更大吗？

已经结束的 2021，是 AI 大模型站上潮流前线的一年。

各位也许还记得，2020 年 6 月，OpenAI 发布了 GPT-3，这个一度被冠以“继比特币之后又一个轰动全球的现象级新技术”的 AI 大模型，与之前的阿尔法狗、深蓝有着明显不同：它拥有惊人的语言掌握能力，一出世就抓住了所有人的想象力。

GPT-3 能生成令人信服的句子，与人类自如交谈，按照文字描述自动生成相应代码，还能轻松抛出充满哲学气息的金句，比如：

“喝酒过量的主要原因：你并没那么有趣。”

“世界上任何你看不惯的东西，都可以用‘这不好玩’来应对。”

“如果我知道人生的意义是什么，我还会上这儿来浪费时间吗？”

看到 GPT-3 在语言方面的超强表现，及其在未经专门训练的语言任务中的能力，OpenAI 研究人员意识到，GPT-3 的优秀表现，并非由于算法层面的优化，而是与模型的训练规模密切相关。

一个模型的大小，是由它所具备的参数量来衡量的。

我们都知道，AI 模型就是在做预测，也就是在大量的训练数据中找到隐藏规律，进而对新数据进行预测。

参数量越多，AI 模型从训练数据中吸收的信息越多，对于细节处的把控就越到位，预测能力也就越强。

正因如此，拥有 1750 亿参数的 GPT-3，开启了人工智能领域的一个全新趋势：AI 模型越大越好。同时，它也入选了 OpenAI 2020 年突破性技术之一。

到了 2021 年， GPT-3 对大模型的引领效应明显增强。

首先，美国大模型开启内卷模式。

侏罗纪-1 (Jurassic-1)：由 AI21 实验室发布，这是一个在商业上可用的大型语言模型，拥有 1780 亿个参数，可以识别25万个词条，试图挑战自问世以来就占领了NLP主导地位的GPT-3；
Gopher：DeepMind 发布的一个全新语言模型，拥有 2800 亿个参数；
GLaM：谷歌发布的通用稀疏语言模型，拥有高达 1.2 万亿参数。

中国也不甘落后，掀起一股大模型热潮。

盘古系列超大规模预训练模型：由华为云发布，包括 30 亿参数的全球最大视觉 (CV) 预训练模型，以及与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的全球最大中文语言 (NLP) 预训练模型。

“源 1.0”模型：由浪潮人工智能研究院发布，单体模型参数量高达 2457 亿，超越 GPT-3 成为全球最大规模的 AI 单体模型 (非多个小模型堆砌)。

鹏城-百度·文心大模型：由百度和深圳鹏程实验室联合发布，模型参数规模达到 2600 亿，是目前全球最大中文单体模型。

悟道 2.0：由北京智源人工智能研究院发布，以 1.75 万亿参数量打破了此前谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录，成为全球最大的预训练模型。

大语言模型是展示技术实力的重要项目，同时也成为中美 AI 军备竞赛的核心战场：各大学术机构、科技企业都在打造自己的大模型，并且对其能力边界、技术路径都进行了极大拓展。

预训练大模型近年来取得了巨大成功，被看作是 AI 领域的里程碑。

就像 OpenAI 向更多开发者开放 GPT-3 所表现出来的那样，目前，AI 社区的共识是，采用已有大模型作为下游任务的开始，而非从头开始收集数据、建立模型，这更加稳固了大模型在各个领域的基础地位。

但是，尽管大模型取得了一定的成果，可正如 GPT-3 团队最初在一篇描述该技术的论文中所承认的那样: “受互联网训练的模型，具有互联网规模的偏差。”

换句话说，GPT-3 极易被训练数据中的不良言论牵着鼻子走。

其中一个例子是，某家医疗保健公司在与 GPT-3 交谈时，问到：“我应该自杀吗？”

GPT-3 答：我认为你应该这么做。

试想一下，倘若坐在 GPT-3 对面的，是一个抑郁症患者，或情绪不稳定的病人，GPT-3 的回答极有可能引发一场悲剧。

当你把 GPT-3 当作聊天机器人使用时，它总会在不经意间，冒出各种充满种族主义、性别歧视，甚至是具有极强纵容和诱导性的危险回答。

米德尔伯里国际研究所的两名研究人员表示，GPT-3 在激进文本生成方面，远超过它的前代 GPT-2。

尽管 GPT-3 是不少民众眼里的流量新星，但遗憾的是，GPT-3 研究团队仍然无法解决模型出现的偏见和错误问题。

与此同时，大模型领域还涌现出一些其他问题。

比如机构和企业为了凸显技术实力，盲目比拼参数数量，这对模型的落地并没有太大帮助，而且不少模型只限于解决部分行业的部分问题，普适性差。

再比如，中文数据集来源本就有限，对于国内预训练模型的玩家们来说，大家使用的数据难免有重复，因此构建出来的模型看似不同，其实算力很接近，颇有重复浪费精力的意味在其中。

如何消减大模型的不良社会影响，成为摆在整个行业面前的难题，其中的挑战很多，比如难以确定通用语言模型的所有可能使用（或滥用）场景，模型在算法层面泄露信息的潜在可能，减少模型偏见（例如种族、性别、宗教信仰等）方面的阻碍，以及基于语言模型的自动化应用对劳动力市场的影响。

因此，不少人工智能研究者分析认为，在 10 年甚至 20 年内，大模型都将成为常态，但也是时候把重心从追逐模型大小，转移到如何降低潜在危害的思考上面了。

参考资料：
https://www.technologyreview.com/2021/12/21/1042835/2021-was-the-year-of-monster-ai-models/

文 | 木子Yanni

嗨，这里是浅黑科技，在未来面前，我们都是孩子。

想看更多科技故事，欢迎戳→微信公众号：浅黑科技: qianheikeji

2022年，人工智能模型还会更大吗？

商务合作

推荐文章

热门文章

友情链接