谷歌再雪前耻：新 Bard 逆袭 GPT-4 冲上 LLM 排行榜第二

润好困 发表于 2024/1/28 15:30:48

谷歌再雪前耻：新 Bard 逆袭 GPT-4 冲上 LLM 排行榜第二

谷歌 Bard 又行了？在第三方 LLM「排位赛」排行榜上，Bard 击败 GPT-4 成为第二名。Jeff Dean 兴奋宣布：谷歌回来了！

一夜之间，Bard 逆袭 GPT-4，性能直逼最强 GPT-4 Turbo！这个听起来似乎像梦里的事情，确确实实地发生了。

就在昨天，谷歌首席 Jeff Dean 发推提前透露了谷歌的最新版模型 ——Gemini Pro-scale。基于此，Bard 相较于 3 月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。

可以看到，在最新的 Gemini Pro-scale 加持下，Bard 直接蹿升到了排行榜第二名的位置。

一口气把之前的两款 GPT-4 模型斩于马下，甚至和排名第一的 GPT-4 Turbo 的差距也非常小。

虽然 Jeff Dean 并没有具体阐述「scale」的含义，但从名称上推测，很可能是一个比初代 Gemini Pro 规模更大的版本。

而根据前段时间外媒曝出的内部邮件，搭载 Gemini Ultra 的 Bard Advanced 已经全面开放给谷歌员工试用。也就是说，距离谷歌最强模型的上线，已经不远了。

随着谷歌对 Gemini Pro 更新后不断大幅上涨的表现，也让所有人对完全体 Gemini Ultra 的能力有了更多的期待。

不过，新推出的 Bard 目前只接受了约 3,000 次评价，而 GPT-4 的评价次数已高达 30,000 次。因此，这个结果后续很可能还会发生变动。

但不管怎样，这对于谷歌来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过 Gemini Pro-Scale 性能的最强 AI 模型 Gemini Ultra 充满期待。

谷歌 Bard 超越 GPT-4 跃居第二

简单介绍一下，这个由 UC 伯克利主导，CMU，UCSD 等顶级高校共同参与创建的聊天机器人竞技场「Chatbot Arena」，是学术圈内一个很权威的大模型对话能力排行榜。

榜单通过类似 Moba 游戏中的「排位赛」机制，让各家大模型通过 PvP 的方式来排出性能高低。

期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。

这种方式能够有效地避免很多 PvE 基准测试中可能出现的，通过「刷题」来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。

为了便于区分，LMSYS Org 指出，目前 Gemini Pro 市面上总共有 3 个版本：

- Gemini Pro API：用户可以通过谷歌云的 Vertex AI API 进行访问

- Gemini Pro（dev）API：开发者 API 可以通过谷歌 AI Studio 进行访问

- Bard（1 月 24 日更新的 Gemini Pro）：是目前唯一可以访问到 1 月 24 日更新的 Gemini Pro 的方式

同时，谷歌 Bard 项目的高级总监 Sadovsky 也透露，排行榜上的 Bard 和 Gemini Pro（API）是两个在微调层面不同的模型，而且 Bard 可以检索互联网上的信息。

在 ChatBot Arena 中，1 月 24 号更新的 Bard 由于支持检索互联网，相比于之前放出的 Gemini Pro（API）对于实时信息问题的回复提升巨大。

从谷歌的这波更新可以看出，Gemini Pro 的潜力似乎远远没有被完全释放，希望谷歌能再接再厉，对 OpenAI 一家独大的格局形成挑战。

以下是 1 月 14 号更新的 Bard 在 ChatBot Arena 中的成绩的明细：

模型 A 相对于模型 B 在所有非平局对决中获胜的比例

不同模型组合间对决的次数统计（排除平局情况）

通过 1000 轮随机抽样对 Elo 评分进行的自举法（Bootstrap）估计

在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率

Elo 评分系统

Elo 等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo 评分越高，那么就说明这个玩家越厉害。

比如英雄联盟、Dota 2 以及吃鸡等等，系统给玩家进行排名的就是这个机制。

举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。

而且，这个 Elo 评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过 Elo 的评分来判断哪个聊天机器人更厉害。

具体来说，如果玩家 A 的评分为 Ra，玩家 B 的评分为 Rb，玩家 A 获胜概率的精确公式（使用以 10 为底的 logistic 曲线）为：

然后，玩家的评分会在每场对战后线性更新。

假设玩家 A（评分为 Ra）预计获得 Ea 分，但实际获得 Sa 分。更新该玩家评分的公式为：

网友热议

对此，网友提问：现在能够访问的 Bard 就是这个排名第二的 Bard 了吗？

谷歌官方回复，是的，而且现在访问的 Bard 比排行榜的上的 Bard 还能支持更多的像地图扩展等应用。

不过还是有网友吐槽，即使在 PvP 排行榜上 Bard 已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard 和 GPT-4 依然还有很大差距。

也有网友认为，用能联网的 Bard 和离线的 GPT-4 打有失公平。甚至，就这样还没打过……

而最有意思的，还要数网友在排行榜中发现的「华点」了：号称是 GPT-4 最大竞品的 Claude 居然越更新越弱了。

对此，之前有分析认为，Anthropic 一直在大力发展的与人类对齐，会严重影响模型的性能。

GPT-4 Turbo 超长上下文 A / B 测试

有趣的是，这个连 Jeff Dean 都亲自下场的「刷榜」，正巧就在 OpenAI 连发 5 款新模型的第二天。

根据 OpenAI 的介绍，新版 GPT-4 Turbo——gpt-4-0125-preview，不仅大幅改善了模型「偷懒」的情况，而且还极大地提升了代码生成的能力。

不过，正如大家对 Bard 的怀疑，GPT-4 这次到底有没有变强也有待验证。

对此，AI 公司 Smol 的创始人 Shawn Wang，就在超过 100k 单词的超长上下文中，对比测试了新旧 GPT4-Turbo 的总结能力。

Wang 表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。

虽然没有严格限制，但每个模型都进行了超过 300 次的 API 调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。

结果显示，2024 年 1 月的 GPT4-Turbo 花费了 19 分钟来生成 20,265 个单词，相比之下，2023 年 11 月的用 16 分钟生成了 18,884 个单词。

也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约 7%。

质量方面：

- 2024 年 1 月的模型在主题选择上略有改善，但仍存在问题

- 2023 年 11 月的模型会产生更多错误信息

- 2024 年 1 月的模型在总结中添加小标题的能力略有提升

- 2024 年 1 月的模型出现了一次严重的格式错误，而这在之前是极为罕见的

- 2023 年 11 月的模型文本详情更加丰富

总体而言，新版 GPT4-Turbo 在总结这一应用场景上有所退步。

左侧：2023 年 11 月；右侧：2024 年 1 月（左右滑动查看全部）

OpenAI 最后的「开源遗作」两周年

不得不说，AI 领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。

今天，英伟达高级科学家 Jim Fan 发推纪念了 InstructGPT 发布二周年。

在这里，OpenAI 定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如 DPO）。

它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇 OpenAI 详细说明他们如何训练前沿模型的论文。

论文地址：https://arxiv.org/ abs / 2203.02155

- InstructGPT 在 2022 年的 NeurIPS 会议上首次亮相，但它并不是 RLHF 的发明者。实际上，相关博客将读者引向了 OpenAI 团队在 2017 年完成的原始 RLHF 研究。

这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务 —— 通过一名人类标注者提供的 900 个二选一偏好，RLHF 让一个简单的「跳跃」机器人在模拟环境中学会了后空翻。

论文地址：https://arxiv.org/ abs / 1706.03741v4

- 模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的 GPT-3-175B 相比，标注者明显更喜欢 Instruct-1.3B。微软最知名的「小模型」Phi-1 也是 1.3B。

- InstructGPT 展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为 AI 领域最标志性的图像之一。引言部分直接了当，用粗体突出了 8 个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。

参考资料：

https://twitter.com/JeffDean/status/1750930658900517157
https://twitter.com/asadovsky/status/1750983142041911412?s=20
https://twitter.com/DrJimFan/status/1751285761364906476

科学探索 Archiver