老男人
首页 时尚 玩车 保健 情感
更多
腕表 饮食 视频 美女 百科
0
老男人 > 科技 > 正文

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

2023-12-21 07:00:39 发布人:hao333 阅读( 6776)

谷歌 Gemini 实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。不...

谷歌 Gemini 实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不会像谷歌官方发布会那样,用 CoT@32 对比 5-shot 了。

一句话结果:Gemini Pro 版本接近但略逊于 GPT-3.5 Turbo,GPT-4 还是遥遥领先。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在深入分析中还发现 Gemini 一些奇怪特性,比如选择题喜欢选 D……

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不少研究者表示,太卷了,Gemini 刚发布没几天就搞出这么详细的测试。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

六大任务深入测试

这项测试具体比较了 6 大任务,分别选用相应的数据集:

知识问答:MMLU

推理:BIG-Bench Hard

数学:GSM8k、SVAMP、ASDIV、MAWPS

代码:HumanEval、ODEX

翻译:FLORES

上网冲浪:WebArena

知识问答:喜欢选 D

从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

MMLU 数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini 更喜欢选 D。

GPT 系列在 4 个选项上的分布就要平衡很多,团队提出这可能是 Gemini 没针对多选题做大量指令微调造成的。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

另外 Gemini 的安全过滤比较严重,涉及道德问题只回答了 85%,到了人类性行为相关问题只回答了 28%。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro 表现超过 GPT-3.5 的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

推理:长问题不擅长

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 系列对此更稳健。

GPT-4 Turbo 尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

如果按问题类型来分析,Gemini 特别不擅长“tracking_shuffled_objects”这类问题,也就人们交换物品,最后让 AI 判断谁拥有哪些物品。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini 比较擅长的任务是,需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词,解析表格。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

数学:复杂任务反超

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

这一次问题本身太长 Gemini Pro 和 GPT-3.5 表现就一起下降,只有 GPT-4 还能保持一贯水准。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

但使用的思维链提示长度最长时,Gemini 反超 GPT-3.5。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

代码:擅长 matplotlib

对于代码问题,Gemini 在参考答案长的问题上表现很差。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

按调用的库来分类,GPT 系列在大多数类型更强,但 matplotlib 就完全不行。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

翻译:只要回答了,质量就很高

翻译任务上,有 12 种类型 Gemini 拒绝回答,但是只要回答了的翻译质量都很高,整体表现超过 GPT-4。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini 拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

网络导航:擅长跨站点冲浪

WebArena 给 AI 模拟了一个互联网环境,包括电子商务、社交论坛、GitLab 协作开发、内容管理系统和在线地图等,需要 AI 查找信息或跨站点完成任务。

Gemini 在整体表现不如 GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

网友:但是它免费啊

最后,CMU 副教授 Graham Neubig 承认了这项研究的一些局限性。

基于 API 的模型行为可能随时变化

只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样

无法控制测试集是否泄露

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

谷歌大模型推理团队负责人周登勇指出,对于推理任务把 Gemini 的温度设置为 0 可以提高 5-10 个百分点。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

这项测试中除了 Gemini 与 GPT 系列,还搭上了最近很受关注的开源 MoE 模型 Mixtral。

不过强化学习专家 Noam Brown 认为可以忽略其中 Mixtral 的结果,因为用的是第三方 API 而非官方实现。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI 创始人也来给团队提供了官方版调用权限,认为能得到一个更好的结果。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

总得来,虽然 Gemini Pro 还是不如 GPT-3.5,但是它胜在每分钟调用不超过 60 次就免费。

所以还是有不少个人开发者已经转换了阵营。

谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

目前 Gemini 最高版本 Ultra 版尚未发布,到时 CMU 团队也有意继续这项研究。你觉得 Gemini Ultra 能达到 GPT-4 水平么?

论文:

https://arxiv.org/abs/2312.11444

参考链接:

[1]https://twitter.com/gneubig/status/1737108977954251216

          
  • 上一篇:两媒体泄密小米汽车 吉利杨学良:接下来我们违约金1000万起步

相关阅读

RelatedReading
  • 谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复 谷歌Gemini Pro实测不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
  • 两媒体泄密小米汽车 吉利杨学良:接下来我们违约金1000万起步 两媒体泄密小米汽车 吉利杨学良:接下来我们违约金1000万起步
  • 北汽蓝谷:目前与日本公司合作的车型在研发样车试制阶段 北汽蓝谷:目前与日本公司合作的车型在研发样车试制阶段
  • 何小鹏:如果你想坑朋友就让他去造车,小米雷军造车“不关我事” 何小鹏:如果你想坑朋友就让他去造车,小米雷军造车“不关我事”
  • 杨元庆宣布向母校中国科大捐资2亿元:支持科研基础设施建设 杨元庆宣布向母校中国科大捐资2亿元:支持科研基础设施建设
  • 美国FBI与BlackCat黑客团队展开“拉锯战”,勒索软件网站关停后再度“复活” 美国FBI与BlackCat黑客团队展开“拉锯战”,勒索软件网站关停后再度“复活”

猜你喜欢

Guessyoulike
海外需求不及预期、地方政府收紧…一些光伏组件厂“闲了”

海外需求不及预期、地方政府收紧…一些光伏组件厂“闲了”

hao333 3930次阅读2023-12-21 06:58
量子通信相关公司哪家比较好_12月20日成交量前10排名

量子通信相关公司哪家比较好_12月20日成交量前10排名

hao333 9107次阅读2023-12-21 06:55
三大射频识别核心龙头股企业,收藏别错过(2023/12/20)

三大射频识别核心龙头股企业,收藏别错过(2023/12/20)

hao333 7388次阅读2023-12-21 06:54
羞耻 第二季电视剧观看全集免费(羞耻 第二季第12集,每集45分钟剧情免费看)

羞耻 第二季电视剧观看全集免费(羞耻 第二季第12集,每集45分钟剧情免费看)

hao333 8305次阅读2023-12-21 06:54
专题页

HOT榜单

  • 美容十大排行榜-2023第三季度股票每股收益排名一览

  • 2023第三季度分级诊疗概念股每股收益排名TOP20

  • 识别芯片十强公司是哪几家_2023年第三季度股票毛利润排行榜

  • 碳交易相关公司哪家比较好_12月20日成交额前10排名

  • 海南自贸港相关企业前十名_2023第三季度营收增幅排行榜

  • 航天航空十大排名_2023年12月20日概念股市盈率排行榜

  • 纸箱十强相关企业_概念股每股收益排行榜名单公布(2023年第三季度)

  • 两媒体泄密小米汽车 吉利杨学良:接下来我们违约金1000万起步

  • 北汽蓝谷:目前与日本公司合作的车型在研发样车试制阶段

  • 2023年12月20日:铁矿概念股票主力净流入排行榜前十名单

换一组看看

频道最IN
>十大醋酸排行榜_相关股票净利率榜单(2023第三季度)

十大醋酸排行榜_相关股票净利率榜单(2023第三季度)

>水力发电概念股每股收益排行榜|三季度

水力发电概念股每股收益排行榜|三季度

>石油相关企业前十名_三季度净利率排行榜

石油相关企业前十名_三季度净利率排行榜

关于我们 法律声明 联系我们 广告服务 隐私条款
@老男人网 版权所有/信息产业部备案号:蜀ICP备13015099号-1