老男人
首页 时尚 玩车 保健 情感
更多
腕表 饮食 视频 美女 百科
0
老男人 > 科技 > 正文

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

2023-10-01 13:42:15 发布人:hao333 阅读( 6966)

只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。规模上,最长可以扩展到10万token,一口气就能读完一本小说。贾佳亚韩松联合团队提出的这...

只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。

规模上,最长可以扩展到10万token,一口气就能读完一本小说。

贾佳亚韩松联合团队提出的这个基于LoRA的全新大模型微调方法,登上了GitHub热榜。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

这种方式叫做LongLoRA,由来自香港中文大学和MIT的全华人团队联合出品。

在一台8个A100组成的单机上,增大窗口长度的速度比全量微调快十到二十倍。

网友看了之后不禁表示,这个效率实在是令人印象深刻:

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

那么,用LongLoRA微调之后,模型会有什么样的变化呢?

一口气读完一部小说

研究团队的实验当中使用的模型是Llama 2。

经过LongLoRA方法微调之后,Llama 2-7B的窗口长度最高可提升到10万token。

实测发现,微调后的模型可以一口气读完一部小说,然后回答各种问题。

比如总结一下大刘在《三体》第三部中体现的中心思想,比总结内容还高出了一个层次。

模型给出的答案是与外星文明首次接触的危险性、星际旅行之困难与人类文明之脆弱,以及团结协作的重要性等内容。

的确每条在原著中都有所体现,而且也比较全面了。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

除了对整部作品进行概括提炼,局部内容当然也可以询问。

小说中的角色也能对答如流,比如《西游记》中孙悟空是怎么开花成长的。

模型告诉我们,孙悟空很有智慧,但又有一颗顽皮的心,在伴随唐僧取经的过程中走向了成熟。

这次的总结依旧是很到位。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

而且不仅是单个角色,不同人物之间复杂的关系也能了如指掌。

提问的方式可以简单粗暴些,直接要求描述这本书中的人物关系。

模型以哈利·波特为中心,介绍了他的朋友韦斯莱、赫敏,敌人马尔福,以及邓布利多教授等人物。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

除了看小说,LongLoRA微调后的Llama还可以读论文,生产力一下子就提高了。

无论是整体概括还是局部询问,微调后的模型都能准确地给出答案:

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

△

中文部分为谷歌机翻

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

为了从宏观上把握模型的表现,研究团队用了如下数据集进行了测试:

PG19:来自书籍的长篇文档数据集,用来测试语言建模效果。

Proof-pile:来自arXiv的数学论文数据集,用来测试语言建模效果。

LongQA:作者自行构建的长序列问答数据集,用于有监督的微调。

LongChat:第三方构建的长对话理解数据集,用来测试长序列叙述理解效果。

结果显示,LongLoRA在PG19和Proof-pile上的困惑度与全量微调接近。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

在问答数据集上,LongLoRA微调出的模型表现也很优异,长文本理解方面更是达到了SOTA水平。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

当然,LongLoRA的意义不仅在于提高了窗口长度,关键在于用更少的消耗提高了窗口长度。

以7B参数量的Llama-2为例,如果使用全量微调,从4k提升到32k,在一台8个A100的单机上需要五天。

而改用LongLoRA方式,则只用11.3小时就能完成,连半天都不到,效率提升近十倍。

如果提升到65k,全量微调所需时间将超过1000小时,LongLoRA却只用52.4小时。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

那么LongLoRA又是怎么做到的呢?

“大而化小”降低计算量

LongLoRA建立在LoRA的基础之上,引入了一种称为“移位短注意力”的机制。

这种机制只需要两行代码就能实现:

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

Transformer架构的核心是自注意力计算。

短注意力就是将训练文本划分为多个组,使自注意力计算在每个组内分别进行,从而达到降低运算量的目的。

而在这一过程中注意力头也被进行了分组,通过注意力头的位移,就实现了组间的信息交互。

划分出的每个组之间有重叠部分,确保了数据可以在全文中流通。

这样一来,每次计算都只需要对组内的token进行操作,运算量大大降低。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

除了对输入进行分割之外,LongLoRA相比于Lora还可以微调embedding层和normalization层。

这两项内容占的参数量很小,以Llama 2-7B为例,embedding层只占1.94%,normalization层更是不到十万分之四。

消融实验结果表明,除了核心的Attention层,这两个占比很小的部分也起到了重要作用。

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增

除了核心的短注意力机制,研究团队引入了DeepSpeed和FlashAttention方式,进一步降低了训练消耗。

目前,LongLoRA微调过后不同参数量和窗口长度的Llama 2已经开源,感兴趣的话可以到GitHub页面中查看。

          
  • 上一篇:别用GPT-4直出文本摘要!MIT、哥大等发布全新“密度链”提示:实体密度是摘要质量的关键

相关阅读

RelatedReading
  • 人民数据研究院发布《我国未成年人数据保护蓝皮书(2023)》 人民数据研究院发布《我国未成年人数据保护蓝皮书(2023)》
  • “真香神机”C11G Pro正式发布:电视换代首选Mini LED “真香神机”C11G Pro正式发布:电视换代首选Mini LED
  • 最后一家手机工厂关闭!消息称三星显也结束中国代工生产示器:转移越南 最后一家手机工厂关闭!消息称三星显也结束中国代工生产示器:转移越南
  • iPhone 15超大杯DXO排名第二,但苹果早已走下神坛 iPhone 15超大杯DXO排名第二,但苹果早已走下神坛
  • 深蓝汽车发布四款全新车型预告,展现独特造型与特点 深蓝汽车发布四款全新车型预告,展现独特造型与特点
  • 壳牌全球最大电动汽车充电站在深圳开业,壳牌比亚迪合资公司运营 壳牌全球最大电动汽车充电站在深圳开业,壳牌比亚迪合资公司运营

猜你喜欢

Guessyoulike
博主:华为星闪连接目前仅Mate60支持,其他机型不支持

博主:华为星闪连接目前仅Mate60支持,其他机型不支持

hao333 1806次阅读2023-09-26 13:11
汶川地震发生在哪一年几月几号(汶川地震发生的具体时间是几号)

汶川地震发生在哪一年几月几号(汶川地震发生的具体时间是几号)

龙鑫 3412次阅读2023-03-31 10:19
天图投资通过港交所聆讯 业绩连降H1转亏投资收益缩水

天图投资通过港交所聆讯 业绩连降H1转亏投资收益缩水

hao333 9628次阅读2023-09-19 17:54
短短数日,人民币贬值近1000基点,创2007年以来最低值,还能涨回来吗?

短短数日,人民币贬值近1000基点,创2007年以来最低值,还能涨回来吗?

hao333 8011次阅读2023-09-09 15:14
专题页

HOT榜单

  • 国融基金2只债基增聘基金经理李青华

  • 麦士德福终止创业板IPO 保荐机构为民生证券

  • 华为MatePad Pro 13.2或采用刘海屏设计,不排除能变形

  • 创金合信聚利债券增聘基金经理金莉

  • 油气存储相关企业前十名|9月28日成交额排行榜前10

  • 宿迁联盛换手率69% 上市募资5.4亿元收现比未超0.8

  • 边骂边买,马斯克演绎iPhone人精神现状

  • 电解铝上市公司十强是哪几家_二季度每股收益排行榜

  • 收评:指数走势分化沪指小幅收涨 电子信息板块领涨

  • 应急产业10大股票排行榜(9月25日市值榜)

换一组看看

频道最IN
>游戏玩家起诉微软收购暴雪损害竞争 周五开始法庭交锋

游戏玩家起诉微软收购暴雪损害竞争 周五开始法庭交锋

>生物酶制剂概念股龙头是哪只股票?(2023/9/21)

生物酶制剂概念股龙头是哪只股票?(2023/9/21)

>食品加工制造板块跌0.74% 佳禾食品涨5.28%居首

食品加工制造板块跌0.74% 佳禾食品涨5.28%居首

关于我们 法律声明 联系我们 广告服务 隐私条款
@老男人网 版权所有/信息产业部备案号:蜀ICP备13015099号-1