老男人
首页 时尚 玩车 保健 情感
更多
腕表 饮食 视频 美女 百科
0
老男人 > 科技 > 正文

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

2023-10-01 10:10:01 发布人:hao333 阅读( 4209)

悄无声息,羊驼家族“最强版”来了!与GPT-4持平,上下文长度达3.2万token的LLaMA 2 Long,正式登场。在性能上全面超越LLaMA 2。和竞争对...

悄无声息,羊驼家族“最强版”来了!

与GPT-4持平,上下文长度达3.2万token的LLaMA 2 Long,正式登场。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

在性能上全面超越LLaMA 2。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

和竞争对手相比,在指令微调MMLU 等测试集上,表现超过ChatGPT。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

在人类评估上甚至优于10万token的Claude 2,这个话题还在Reddit上引发了讨论。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

要知道,这些对比版本中,LLaMA 2 Long使用的最大版本也只有70B,远小于其他大模型。

这让人不禁感慨:Meta确实还是有两下子的。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

也有人觉得,这才是最近Meta发布会的最大新闻啊,比Meta版ChatGPT要更令人兴奋。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

论文介绍,LLaMA 2 Long使用了4000亿token语料加持下,并进行位置编码修改。

所以LLaMA 2 Long究竟是如何诞生的?

只对位置编码进行了一个非常小的改动

与LLaMA 2相比,LLaMA 2 Long的变化并不多。

一是训练参数上,采用了高达4000亿token的数据源。

——相反,原始LLaMA 2包含多个变体,但最多的版本也只有700亿。

二是架构上,与LLaMA 2保持不变,但对位置编码进行了一个非常小的必要修改,以此完成高达3.2亿token的上下文窗口支持。

在LLaMA 2中,它的位置编码采用的是旋转编码RoPE方法。

它是目前大模型中应用最广的一种相对位置编码,通过旋转矩阵来实现位置编码的外推。

本质上来说,RoPE就是将表示单词、数字等信息的token embeddings映射到3D图表上,给出它们相对于其他token的位置——即使在旋转时也如此。

这就能够使模型产生准确且有效的响应,并且比其他方法需要的信息更少,因此占用的计算存储也更小。

在此,Meta的研究人员通过对70亿规模的LLaMA 2进行实验,确定了LLaMA 2中的RoPE方法的一个关键限制:

即,阻止注意力模块聚集远处token的信息。

为此,Meta想出了一个非常简单的破解办法:

减少每个维度的旋转角度。

具体而言就是将超参数“基频 b”从10000增加到500000。

这一改动立刻奏效,缩小了RoPE对远端token的衰减效应,并且在扩展LLAMA的上下文长度上优于一项类似的名为“位置插值”的方法。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

Ps. 图中RoPE表示基线方法,RoPE ABF为Meta此次发明的新方法,xPos是另一种应用了该方法的旋转编码变体。

一个问题是,通过上面这个可视化结果,Meta观察到RoPE在长程区域出现了较大的“振荡”,这对于语言建模来说可能不是个好消息。

不过,通过报告几种方法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个任务上的表现来看,问题不大。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

而且,尤其在后者任务上,他们提出的RoPE ABF是唯一一个可以始终保持性能的变体。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

在附录中,Meta还通过可视化为螺旋图这一非常有趣的方式,将RoPE ABF与RoPE PI的差异进行了理论分析。

结果是,与RoPE PI相比,RoPE ABF的优势主要体现在它能以更大的粒度分配嵌入向量,从而使模型更容易区分位置。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

此外,他们还观察到,嵌入向量之间的相对距离既对RoPE PI的关键参数有线性依赖性,也对RoPE ABF的关键参数也有对数依赖性。

这也就是为什么我们可以很容易地对基频这一超参数“下手”。

最终,LLaMA 2 Long凭借着这一改动,达成了3.2万的上下文token,并通过长下文连续预训练的共同作用,获得了开头所示的好成绩:

除了全面超越LLaMA 2、在特定任务上超越Claude 2和ChatGPT,Meta也给出了它和一些开源长下文模型的对比。

结果也相当不赖。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

One More Thing

值得一提的是,这个最新的版本,是用LLaMA2生成的文本内容来进行训练的。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

官方会不会正式发布这一版本,现在还没有更明确的消息,模型的网址也还没有找到。

不过已经有人提前兴奋起来了:

这对可商用微调大模型来说太有用了!

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

而在此之前,已经有非官方版本实现了3.2万token上下文,也是开源可商用。

“长颈鹿”基于13B版本的LLaMA2打造。

研究团队提出了一种称为“截断”的方法,对原始RoPE编码进行变换。

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

llama-2-7b-32k-instruct也可以支持3.2万上下文,模型规模是7B。

— 完 —

          
  • 上一篇:英媒:天文学家首次发现黑洞旋转的直接证据

相关阅读

RelatedReading
  • 带你看看今年的AWE展会 TCL展区尤为值得关注 带你看看今年的AWE展会 TCL展区尤为值得关注
  • 揭开神秘面纱:阿维塔12全球首发无伪装照曝光 揭开神秘面纱:阿维塔12全球首发无伪装照曝光
  • 苹果称iPhone 15 Pro过热与钛合金边框无关,将通过iOS 17系统更新解决 苹果称iPhone 15 Pro过热与钛合金边框无关,将通过iOS 17系统更新解决
  • 极星成立战略合资企业,持续加速中国市场发展 极星成立战略合资企业,持续加速中国市场发展
  • 市政工程新体验 江铃凯运+有妙招 市政工程新体验 江铃凯运+有妙招
  • 火山引擎混合云VeStack,助力新网银行提升金融服务体验 火山引擎混合云VeStack,助力新网银行提升金融服务体验

猜你喜欢

Guessyoulike
垃圾分类十大排行榜-2023年9月18日相关股票市盈率排名一览

垃圾分类十大排行榜-2023年9月18日相关股票市盈率排名一览

hao333 8135次阅读2023-09-19 04:19
中银三星人寿首季亏损7275万元 2022年净利降94%

中银三星人寿首季亏损7275万元 2022年净利降94%

hao333 2207次阅读2023-05-09 12:02
家具概念上市公司成交量排行榜|2023年9月21日

家具概念上市公司成交量排行榜|2023年9月21日

hao333 2795次阅读2023-09-21 17:52
价格没谈拢?谷歌考虑抛弃AI赢家博通自研TPU

价格没谈拢?谷歌考虑抛弃AI赢家博通自研TPU

hao333 9938次阅读2023-09-21 22:02
专题页

HOT榜单

  • 风机股票有哪些龙头股?(2023/9/24)

  • 众筹板块股票毛利润十大排行榜,你更看好谁呢?(2023年第二季度)

  • 五指山长江村镇银行被罚140万元 大股东为武汉农商行

  • LAMOST和APOGEE巡天数据揭示银河系的“体重” 约为8050亿个太阳质量

  • 复混肥上市公司营收榜来了,2023年第二季度兴发集团70.39亿

  • 日本网友请求华为照顾日本市场,让Mate X5在当地开售

  • 夏日出街轻装上阵 三星Galaxy S23成时尚达人理想型

  • 突然宣布解约!终止合作

  • 环保板块涨2.37% 超越科技等涨20%居首

  • 收评:沪指午后拉升收涨0.49% 建筑装饰板块领涨

换一组看看

频道最IN
>同花顺龙虎榜:机构净买入1亿元

同花顺龙虎榜:机构净买入1亿元

>服务器概念上市公司2023第二季度营收10大排名(附榜单)

服务器概念上市公司2023第二季度营收10大排名(附榜单)

>十大商超企业-第二季度商超每股收益榜单

十大商超企业-第二季度商超每股收益榜单

关于我们 法律声明 联系我们 广告服务 隐私条款
@老男人网 版权所有/信息产业部备案号:蜀ICP备13015099号-1