文心一言与 New Bing有差距,但比预期更好

文心一言是一个大语言模型、生成式 AI 产品,发布会上演示了五个使用场景中的综合能力。其中,文学创作、商业文案创作、数理推算是大语言模型常见的能力,在此基础上,中文理解及多模态生成能力更能体现技术水平。


到今日晚间,「光锥智能」拿到文心一言的内测邀请码,在提出多个问题测试之后我们发现,文心一言与 New Bing 虽然有差距,但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的解释上都十分完整。但同时也存在一些不足,比如在计算 " 同时抽水和放水 " 的数学问题时,文心一言就出现了审题错误。



金玉在前,百度在文心一言发布会召开后,无论是产品口碑,还是股价表现,短期内一定会有压力。毕竟,世界上还只有一个 OpenAI。


面对如此大的压力,李彦宏回应了为什么依然要在 3 月 16 日公开发布的原因:第一是市场需求,无论是百度的产品,还是客户,都有需求。第二是收集反馈," 一旦有了真实的人类反馈,文心一言的进步速度会非常快,我们都希望它快点成长 "。

事实上,在 ChatGPT 惊艳亮相之前,GPT 的 1~3 版本,都是在长期低调开源测试后,才达到了后面的结果。

短期表现和长期价值还是有所不同,抛开情绪,我们更关心,文心一言和 GPT-4 在技术上有哪些相同和不同?模型真的是越大越好吗?利用大模型的产业化之路,应该怎么走?

01 " 文心一言 " 对线 "GPT-4"

文心一言在发布会上相对出彩的展示,莫过于多模态生成。

在发布会上,李彦宏先是让文心一言为 2023 智能交通大会生成了一张海报,然后又让其撰写了一段关于智能交通的文字,并让其用四川话读出来,最后还让文心一言用这些素材生成了一段视频。

昨天,在 GPT-4 的发布会上,Open AI 总裁和联合创始人 Greg Brockman 展示了 GPT-4 基于一张草图生成网站的过程,让许多人知道了大模型单模态与多模态的区别。

GPT-4 是一个典型的多模态预训练模型,它能够支持图像和文本的输入,然后以文本的方式输出。而文心一言展示的则是以文本的方式输入,以文本、语音、图像和视频的方式输出。

输入和输出其实具有本质上的区别。

有 AI 开发从业者向光锥智能表示,多模态输出其实并不难,难的是输入。比如输出语音,不过是先输出文字然后再加一个 TTS 技术,已经很成熟了。

而多模态输入,则需要大模型真正 " 长出眼睛 " 读懂图片意思,需要在预训练阶段就将图片和图片标注信息放入训练数据中。

比如这次 GPT-4 令人惊艳的强大,就表现在图片理解上。

给到一个物理题的照片,GPT-4 能够读懂题目然后解答。


GPT-4 还能识别图片中的幽默部分,比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?GPT-4 能回答说,因为 VGA 线充 iPhone。


但无论怎么说,从 GPT-4 到文心一言都在说明李彦宏的那句话," 多模态是生成式 AI 一个明确的发展趋势。"


据王海峰介绍,文心一言主要脱胎于两大模型,百度ERNIE 系列知识增强千亿大模型,以及百度大规模开放域对话模型 PLATO。


此基础上,主要采用了六项核心技术,包括监督精调、人类反馈强化学习(RLHF)、提示构建、知识增强、检索增强和对话增强技术。


其中,人类反馈强化学习是目前大模型训练中普遍应用到的技术,ChatGPT 能够在 GPT-3 的基础上产生质变,成为跨时代的产品,很大程度上依赖于此。


这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。

其中,知识增强主要包含知识内化和知识外用两部分,知识内化又包括语义学习和数据构造,知识外用则包含知识推理和提示构架。

这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型,是指一个由世间万物构成的 " 实体 " 以及他们之间的 " 关系 " 构建起来的庞大 " 知识 " 网络。

百度CTO 王海峰曾介绍,"百度构建了世界上最大规模的知识图谱,拥有超过 50 亿实体,5500 亿事实,能够通过语言、听觉、视觉等获得对世界的统一认知,突破了实际应用中场景复杂多变、数据稀缺等难题。"

在这个知识图谱中,除了基础的通用图谱之外,百度还针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。

检索增强则与百度在搜索引擎上的技术积累有关,简单理解就是,当用户问出一个问题后,文心一言会先通过搜索引擎将知识都检索一遍,然后再筛选整合其中有用的信息作为输出。

最后的对话理解,则包含百度积累的记忆机制,上下文理解,对话规划等等。

除了基础技术架构,百度并没有公布模型结构和参数,而是花了大量的时间用来解释自己在文心大模型、产业大模型、AI 技术四层构架上的布局。

由于这都是此前积累的能力,因此这次文心一言的发布,不像是百度研发了一个新产品和新技术,更像是百度之前所有的工作打包,以文心一言的方式整合输出。所以,我们会在文心一言里看到文心一格的图片生成,会看到已经在百家号应用的自动图文转视频的功能。

就像李彦宏提到的一样," 从某种意义上说,我们已经为此准备了多年,十几年前就开始投入 AI 研究,2019 年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。"

02 摸着 OpenAI 过河,让 " 涌现现象 " 更有效率发生

虽然除了 OpenAI,其他的公司目前都是 others,但大家都在摸着 GPT 过河,在寻找更优质的模型方案。中国公司也一直在积极探索相应大模型的研发和应用,并总结出了许多 " 中国经验 "。

什么样的模型是一个好模型?模型真的是越大越好吗?

要回答这个问题,得先理解,ChatGPT 和 GPT-4 能表现出类人的图片和语言理解能力,就是因为 " 涌现现象 ",说得通俗一点,就是 " 开窍了 "。

涌现现象,是指在当大模型的数规模达到一定程度时,其解决问题的能力就会发生突变。大模型能力的提升,很大程度上依赖于这种涌现能力,也就是 " 大力出奇迹 "。所以,现在模型规模被越做越大,一定程度上因为大家想要通过增大参数规模来获得更多的涌现能力。

目前这一能力通常在百亿、千亿级别的参数区间出现。" 但具体多少参数能够出现涌现现象,也与具体任务、具体模型有关,某些任务 13B 规模即可,有些任务需要 540B,大部分要达到 70B。" 新浪新技术研发负责人张俊林提到。


但模型做大之后,却又带来产业落地方面的问题。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,这让一些垂类领域,如学校,医院等场景很难负担得起。


因此,在产生 " 涌现能力 " 的阈值后,如何将模型做 " 小 " 反而是产业落地的一个重要课题,并且也是技术发展的一个重要方向。

那么问题来了,如何既将模型做小,又能保证涌现能力呢?

张俊林提到几个例子,比如 DeepMind 发布的 Chinchilla 和 Meta 发布的 LLaMA,其中 Chinchilla 的模型规模只有 70B,LLaMA 的模型规模在 7B 到 65B 之间,都是目前规模相对较小的模型。

而从实验结果上看,即使模型规模相对较小也同样可以具备涌现能力,但前提是增加更多的训练数据量。以 Chinchilla 为例,其对标的模型规模是 280B 是 Gopher,而 Chinchilla 能够以 70B 的参数规模做出同样的效果,代价是将训练数据提升了 4 倍。


因此,张俊林认为:" 减小模型大小增加训练数据数量,可能不影响小模型的涌现能力。" 这成为做小模型的一个前提。" 在这样的基础上,我们或许可以先做小,再做大。"


在解决了涌现能力之外,将模型做小的另一个原因在于,现在大模型的许多参数其实并没有被有效利用。

DeepMind 在 2022 年的一个研究中提到,在给定总计算量不变的情况下,模型训练 Loss 在模型参数量和训练数据量的变化存在一个最优的平衡点。

该研究给出了三种最优计算方式,并且比较了 GPT-3 等千亿模型,发现它们都没有达到理论上的最优点,这意味着 GPT-3 庞大的数据其实并没有被充分利用。

达观数据董事长 CEO 陈运文认为,当下的千亿参数模型可能只发挥了百亿模型的理论效果,一些参数可能被浪费了。换句话说,千亿规模的大模型其实是可以压缩,并做得更小的。

Meta 在这方面就曾做过尝试,2023 年 Meta 推出百亿规模的模型 LLaMA,虽然参数规模只有百亿,不到 GPT-3 的十分之一,但通过实验显示在下游任务中的表现好于 GPT-3 等千亿规模的模型。这其中的关键在于,Meta 使用了 1.4 万亿 Token,是 GPT-3 的近 4.7 倍。

所以陈运文也认为," 整体来看尽管模型的参数规模越大越好,但性价比更高的参数规模方案仍然值得探索。"

除了将 " 大 " 模型做 " 小 " 更利于产业落地之外, 通过更新指令学习方法,用更小的样本获得更好的学习效果也是目前国内在探索的方向。

做这样的探索也和目前中文产业面临的客观环境有关。一方面,中文数据在整个互联网中的占比本身就比较小,仅有 5% 左右。另一方面,即使数量庞大的英文数据在模型爆炸的今天也面临着即将被耗尽的问题。

有研究预计,互联网上可用的数据资源很有可能会被耗尽,其中高质量的语言数据大约在 2026 年耗尽,低质量语言数据大约在 2050 年耗尽,视觉图像数据也将在 2060 年耗尽。


因此,如何提高数据的利用效率成为一个重要的课题。


目前,AI 大模型的理解能力主要来源于两个方面,即 " 预训练 + 参数微调 " 以及 " 预训练 + 提示学习 ",这两个学习方式各有优劣。

其中 " 预训练 + 参数微调 " 会面临资源占用过多,过拟合问题严重,缺乏通用能力等问题。而提示学习也有单一的外部提示信号难以最大限度地激发预训练大模型的能力,从而高质量地完成具体任务的问题。

在这样的背景下,行业提出了从提示学习到指令学习的改变。

所谓指令学习,是指通过若干任务相关提示增强来监督数据,优化模型参数。即通过参数微调提升多任务执行效果,利用提示语出发模型执行特定任务。


其核心在于,它仍然像微调一样调整其中的参数来使大模型适应不同的任务,但调整完成之后的模型是一样的,所有的任务都可以对应一个模型。


有了这样的调整,对大模型的训练效率就会提升。

比如在 Google 的一个案例中,他们在 62 个数据集中的 40 个任务进行训练。但模型参数达到百亿规模之后,这几十个参数的联合指令学习却可以解决许多之前未训练的问题。

在这之前,大家普遍应用的是多任务学习,即学习一个任务解决一个任务,没有学习过的任务就没法解决。而在这之后,一些之前没有训练过的任务也能够被解决,即大模型的通用能力在增强。

但要实现这个问题,找到合适的指令就变得非常重要,毕竟不同的任务、不同的样本、用什么样的提示语才能获得更好结果是需要去尝试的。

这也是 OpenAI 选择免费开放 ChatGPT 的一个重要原因,因为它需要通过这种方式收集全球的问题指令,来完成大模型的进一步优化。

李彦宏也在文心一言发布会上提到,之所以选择在这个时候发布文心一言,除了许多业务和客户需要这项技术外,也因为文心一言本身需要通过用户使用来收集数据。

针对这个场景,中科院自动化所就提出,能不能通过机器自动去寻找这些提示语,让整个模型的效果变得更好。因此他们提出了统一的提示语学习方法,可以同时建模任务级信息和样本级信息。

这种学习方法的优势在于,它可以为每个任务学习以一个提示,为任务中的每个样本学习一个提示,然后将两类提示信息进行融合,获得最佳提示。

通过统一提示学习方法,中科院自动化研究所的 SuperGLEU 标准数据集上取得少样本学习的最佳平均性能。

其中,在单任务和句子分析上,Dyanmic-UPL 获得了 83.2 分,GPT-3 则是 70 分。而在双任务和双句子的分析上,Dyanmic-UPL 获得 70 分,GPT-3 是 49.8 分。


03 得到一个好答案,不如提出一个好问题


GPT-4 依然在不断突破着人们对 AI 认知的可能性,对意图理解的高度提升,并且不仅停留在语言上,更升维到图像里。另外,它还拥有几乎全能的专业和职业技巧,人类生物脑无法比拟的数据存储容量、进化速度。

这几点加起来,就非常可怕。有网友就贴出了一张 ChatGPT 回答的图片:


兴奋之后,技术进步带来的总是焦虑。


18 世纪 60 年代,当珍妮机大规模进入工厂拉开第一次工业革命的大幕时,就曾有大批纺织工人聚集起来,将制作好的 " 珍妮机 " 通通捣毁。两百多年后的今天,当 ChatGPT 风靡全球之后,人们争相讨论的焦点仍然是 " 谁将会被替代 " 的问题。

但实际上,"GPT" 们要全面替代人可能并不容易。

我们会看到,ChatGPT 能够写作,能够做规划,甚至能自动编程、Stable Diffusion 能够完成 AI 绘画,以及各种能自动生成周报,能写诗的大模型和产品层出不穷。

但这些强大的能力背后仍然需要人去操作,这其中甚至需要人具备更多的专业知识。

比如在下面这张图片生成中,创作者对 AI 的创作进行了详细的规划,包括风格、眼睛、衣服、甚至光线。


在这样的限制下,AI 就能发挥出比较稳定的结果,生成出高水平的作品。而这些词汇,在大模型的生成训练中被称为 " 提示词 ",提示词越准确生成的结果越好。


从光锥智能获得的一份关于 AI 绘画的提示词中可以看到,其中涉及到许多专业词汇,比如东方山水画、日本浮世绘、抽象风、墨水渲染、概念艺术、哥特式黑暗等等。

可以看到,对这些词汇背后的含义,用在绘画上的效果以及如何搭配更富有美感,非专业人士其实并不容易掌握。


再以编程为例,普通人确实可以随机让 ChatGPT 编写一条程序,但面对复杂 APP 时,什么样的提示词能够获得最优的代码,系统整体代码需要如何架构、程序如何编写运行更有效率、AI 生成的程序是否存在错误等等,这些也并非普通人上手就能完成的。


也就是说,虽然 GPT 这类的大模型降低了许多工作的门槛,但这些工作的上限并没有改变。即普通人能够生成一些基础的内容,但要持续、稳定、高质量的生成专业内容,对背后操作人员的专业性仍然具有挑战。

比如在 NLP 大模型研发领域,由于不同提示语产生的结果往往差异很大,如何为每个问题寻找提示语成为难题。 中科院自动化所研究员张家俊提到,现在行业里出现了一个提示工程师的职业,工作就是研究如何为每一个问题寻找最佳的提示语。

也就是说,在大模型应用之后,许多人的工作不是被替代掉了,而是转变了工作性质和工作方式。比如画师从具体动手画一幅画转变成提出想法、丰富细节,然后让 AI 去做执行。

而这个过程本质上是 AI 在作为一种工具去提高劳动者的劳动效率。但同时,也是 AI 在反向给人类工作者提出更高的要求,即在 AI 能够将一些想法直接变成现实的背景下,相比于给出一个好的答案,不如提出一个好的问题。

正如李彦宏在文心一言发布会上提到的,随着大模型的使用,脑力工作者的效率会有 4 倍的提升,许多人的工作性质会发生不可逆转的改变。

但不可否认的是,随着大模型的普及,大多数的现有工作和岗位配置的价值定位都需要重新思考。同时我们对于人才培养的标准、筛选模式都需要重新构建。

毕竟 GPT-4 在考试中已经能够超过 80%~90% 的学生,如果仅仅依靠考试成绩来筛选人才,那对于大多数岗位来说,不如选择 AI。