大语言模型 (LLM) 正在席卷整个机器学习世界。得益于其 transformer 架构,LLM 拥有从大量非结构化数据 (如文本、图像、视频或音频) 中学习的不可思议的能力。它们在 多种任务类型 上表现非常出色,无论是文本分类之类的抽取任务 (extractive task) 还是文本摘要和文生图像之类的生成任务 (generative task)。
顾名思义,LLM 是 _大_模型,其通常拥有超过 100 亿个参数,有些甚至拥有超过 1000 亿个参数,如 BLOOM 模型。 LLM 需要大量的算力才能满足某些场景 (如搜索、对话式应用等) 的低延迟需求。而大算力通常只有高端 GPU 才能提供,不幸的是,对于很多组织而言,相关成本可能高得令人望而却步,因此它们很难在其应用场景中用上最先进的 LLM。
在本文中,我们将讨论有助于减少 LLM 尺寸和推理延迟的优化技术,以使得它们可以在英特尔 CPU 上高效运行。
(资料图)
LLM 通常使用 16 位浮点参数 (即 FP16 或 BF16) 进行训练。因此,存储一个权重值或激活值需要 2 个字节的内存。此外,浮点运算比整型运算更复杂、更慢,且需要额外的计算能力。
量化是一种模型压缩技术,旨在通过减少模型参数的值域来解决上述两个问题。举个例子,你可以将模型量化为较低的精度,如 8 位整型 (INT8),以缩小它们的位宽并用更简单、更快的整型运算代替复杂的浮点运算。
简而言之,量化将模型参数缩放到一个更小的值域。一旦成功,它会将你的模型缩小至少 2 倍,而不会对模型精度产生任何影响。
你可以进行训时量化,即量化感知训练 (QAT),这个方法通常精度更高。如果你需要对已经训成的模型进行量化,则可以使用训后量化 (PTQ),它会更快一些,需要的算力也更小。
市面上有不少量化工具。例如,PyTorch 内置了对 量化 的支持。你还可以使用 Hugging Face Optimum-Intel 库,其中包含面向开发人员的 QAT 和 PTQ API。
量化 LLM最近,有研究 [1][2] 表明目前的量化技术不适用于 LLM。LLM 中有一个特别的现象,即在每层及每个词向量中都能观察到某些特定的激活通道的幅度异常,即某些通道的激活值的幅度比其他通道更大。举个例子,下图来自于 OPT-13B 模型,你可以看到在所有词向量中,其中一个通道的激活值比其他所有通道的大得多。这种现象在每个 transformer 层中都存在。
图源: SmoothQuant 论文
迄今为止,最好的激活量化技术是逐词量化,而逐词量化会导致要么离群值 (outlier) 被截断或要么幅度小的激活值出现下溢,它们都会显著降低模型质量。而量化感知训练又需要额外的训练,由于缺乏计算资源和数据,这在大多数情况下是不切实际的。
SmoothQuant [3][4] 作为一种新的量化技术可以解决这个问题。其通过对权重和激活进行联合数学变换,以增加权重中离群值和非离群值之间的比率为代价降低激活中离群值和非离群值之间的比率,从而行平滑之实。该变换使 transformer 模型的各层变得“量化友好”,并在不损害模型质量的情况下使得 8 位量化重新成为可能。因此,SmoothQuant 可以帮助生成更小、更快的模型,而这些模型能够在英特尔 CPU 平台上运行良好。
图源: SmoothQuant 论文
现在,我们看看 SmoothQuant 在流行的 LLM 上效果如何。
使用 SmoothQuant 量化 LLM我们在英特尔的合作伙伴使用 SmoothQuant-O3 量化了几个 LLM,分别是: OPT 2.7B、6.7B [5],LLaMA 7B [6],Alpaca 7B [7],Vicuna 7B [8],BloomZ 7.1B [9] 以及 MPT-7B-chat [10]。他们还使用 EleutherAI 的语言模型评估工具 对量化模型的准确性进行了评估。
下表总结了他们的发现。第二列展示了量化后性能反而得到提升的任务数。第三列展示了量化后各个任务平均性能退化的均值 (* 负值表示量化后模型的平均性能提高了)。你可以在文末找到详细结果。
如你所见,OPT 模型非常适合 SmoothQuant 量化。模型比预训练的 16 位模型约小 2 倍。大多数指标都会有所改善,而那些没有改善的指标仅有轻微的降低。
对于 LLaMA 7B 和 BloomZ 7.1B,情况则好坏参半。模型被压缩了约 2 倍,大约一半的任务的指标有所改进。但同样,另一半的指标仅受到轻微影响,仅有一个任务的相对退化超过了 3%。
使用较小模型的明显好处是推理延迟得到了显著的降低。该 视频 演示了在一个 32 核心的单路英特尔 Sapphire Rapids CPU 上使用 MPT-7B-chat 模型以 batch size 1 实时生成文本的效果。
在这个例子中,我们问模型: “ What is the role of Hugging Face in democratizing NLP?”。程序会向模型发送以下提示:“ A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user’s questions. USER: What is the role of Hugging Face in democratizing NLP? ASSISTANT:”
这个例子展示了 8 位量化可以在第 4 代至强处理器上获得额外的延迟增益,从而使每个词的生成时间非常短。这种性能水平无疑使得在 CPU 平台上运行 LLM 成为可能,从而为客户提供比以往任何时候都更大的 IT 灵活性和更好的性价比。
在至强 CPU 上体验聊天应用HuggingFace 的首席执行官 Clement 最近表示: “专注于训练和运行成本更低的小尺寸、垂域模型,会使更多的公司会收益。” Alpaca、BloomZ 以及 Vicuna 等小模型的兴起,为企业在生产中降低微调和推理成本的创造了新机会。如上文我们展示的,高质量的量化为英特尔 CPU 平台带来了高质量的聊天体验,而无需庞大的 LLM 和复杂的 AI 加速器。
我们与英特尔一起在 Spaces 中创建了一个很有意思的新应用演示,名为 Q8-Chat (发音为 Cute chat
)。Q8-Chat 提供了类似于 ChatGPT 的聊天体验,而仅需一个有 32 核心的单路英特尔 Sapphire Rapids CPU 即可 (batch size 为 1)。
Space 体验地址: https://intel-q8-chat.hf.space
下一步我们正致力于将 Intel Neural Compressor 集成入 Hugging Face Optimum Intel,从而使得 Optimum Intel 能够利用这一新量化技术。一旦完成,你只需几行代码就可以复现我们的结果。
敬请关注。
未来属于 8 比特!
本文保证纯纯不含 ChatGPT。
致谢本文系与来自英特尔实验室的 Ofir Zafrir、Igor Margulis、Guy Boudoukh 和 Moshe Wasserblat 共同完成。特别感谢他们的宝贵意见及合作。
附录: 详细结果负值表示量化后性能有所提高。
英文原文: https://hf.co/blog/generative-ai-models-on-intel-cpu
原文作者: Julien Simon
译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。
审校/排版: zhongdongy (阿东)
标签:
上一篇 : 小块头也有大智慧 赋能轨道交通“永磁时代”|焦点快报
下一篇 : 最后一页
6月1日后暂时未有合资格的交易平台能向散户投资者提供虚拟资产交易服务,预料今年下半年才有平台能开放予
05-24 00:22:48
中新网青海刚察5月23日电 题:青藏联网工程直流系统起始站调相机检修 为迎峰度夏做准备作者董庆芳
05-23 23:19:37
1、首先,我们在使用过程中遇到了什么问题,要表达清楚,比如微信转账没有及时到账,我们会对这个页面进行
05-23 22:23:02
哈姆:我们仍有机会去做些特别的事这就是夏天的工作,湖人,特别的事,中国足球,美国足球,丹佛掘金队,米娅...
05-23 21:39:57
作者:围裙书香来源:国学生活(ID:gxsh789)气场,是一个人行走的名片。♬点上方绿标可收听国学文化主播
05-23 21:02:42
你们好,最近小未来发现有诸多的小伙伴们对于变形警车珀利动画片全集,警车珀利这个问题都颇为感兴趣的,今
05-23 19:44:30
你们好,最近小活发现有诸多的小伙伴们对于小升初择校考试,小升初择校这个问题都颇为感兴趣的,今天小活为
05-23 19:12:34
据中国土地市场网公布的数据显示,未来三个月,湖北恩施州本级与恩施市至少有5宗合计353亩住宅用地将挂牌出
05-23 18:14:34
佛燃能源(002911)05月23日在投资者关系平台上答复了投资者关心的问题。
05-23 17:44:08
中新网北京5月23日电(记者陈杭)2023中关村论坛将于5月25日至30日在北京举行。作为中关村论坛永久会址所在地
05-23 17:00:50
截至5月19日的一周,贝克休斯天然气钻井平台数量没有变化,这可能意味着钻井活动到目前为止并没有放缓,整
05-23 16:31:45
想必现在有很多小伙伴对于王者荣耀补刀和推塔怎么用方面的知识都比较想要了解,那么今天小好小编就为大家收
05-23 15:15:40
智通财经APP获悉,根据美国纽约房地产委员会(REBNY)的一份报告,经纪人对纽约市商业房地产市场的信心在2023
05-23 14:41:21
任维东是甘肃西和人,多年来,他对家乡满怀热爱之情,对家乡文化更是满腔赤忱。在繁重的工作之余,手不释卷
05-23 14:07:13
5月23日,周二亚市盘中,美元指数微跌,目前交投于103 22附近。美元过去两周上涨,上周四一度触及3月20日以
05-23 13:17:41
“暴雪制片厂”名不虚传:《暗黑破坏神4》剧情预告CG公布
05-23 12:54:45
原因如下:银行发行额度少,投资者需求大:储蓄国债的发行额度规定了它只能发行那么多,而市场对于储蓄国债
05-23 11:42:53
【温岭市】全面推进民营企业合规建设,经营,温岭市,民营经济,合规建设,市场主体
05-23 10:57:49
1、意义之大、解决就业压力、农村致富、可什么时候能让有志大学生的到任还是空话。本文到此分享完毕,希望
05-23 10:10:58
杭州热电:目前公司无超超临界机组和虚拟电厂业务北极星电力网获悉,杭州热电5月22日发布股票交易异常波动
05-23 09:46:24
5月23日,生意社聚合氯化铝基准价为1781 25元 吨,与本月初(1800 00元 吨)相比,下降了-1 04%。聚合氯化铝
05-23 09:20:02
“杂交水稻之父”袁隆平已经离开大家两年了。袁老广为人知的“禾下乘凉梦”,至今仍令人倍感珍视和动容...
05-23 08:42:24
5月22日,宝光股份(600379)融资买入326 12万元,融资偿还187 91万元,融资净买入138 21万元,融资余额6475 05万元。
05-23 08:01:25
1、1铜矿各个种族的新手地区和低级地区-65锡矿低级地区青铜锭1铜锭+1锡锭=2青铜锭熔炼青铜锭需要采矿技能(
05-23 07:09:56
本文内容是由小编为大家搜集关于建行车贷,以及的资料,整理后发布的内容,让我们赶快一起来看一下吧!随着
05-23 06:14:16
“专网通信”案又一涉案公司处罚落地。5月21日晚,北京合众思壮科技股份有限公司(简称“合众思壮”,002...
05-23 04:40:56
1、《建筑工程安全施工指南》是2000年7月1日中国建筑工业出版社出版的图书。2、作者是上海市工程建设监督研
05-23 02:01:17
来源:Kevin改变世界的点滴PMTalk近期因为网络升级和系统维护的原因,外网的朋友无法访问了,于是我收到了
05-22 22:56:39
智通财经APP讯,华新水泥(600801)(600801 SH)发布公告,公司近日收到中国证监会出具的《关于同意华新水泥股
05-22 22:03:21
未成年人的保护问题,一直备受社会各界的关注。农村留守儿童的安全问题,是近些年随着经济发展带来的问题。
05-22 21:25:07
初舞台排名第一,一公个人喜爱度又排名第三。浪姐4的舞台上,谢娜的人气居高不下。然而在网络上,谢娜正在
05-22 20:30:28
大家好,我是良许。在我的直播间,每天晚上都有人在问,我今年30多岁了,还能不能转行做程序员呢?我一般都
05-22 19:58:31
1、Unturned是一款画风类似与Minecraft,玩法则和Dayz相似的求生游戏。2、玩家可以在游戏中搜集食物、寻
05-22 18:58:43
此前,凭借着了比较低廉的售价和小巧的体型,五菱宏光旗下的MINIEV家族成为了很多消费者选择代步车的首要考
05-22 18:23:05
目前公司无超超临界机组和虚拟电厂业务。另外,2022年公司光伏业务占主营业务收入不到1%,对公司经营业绩影
05-22 17:39:06
最近,许多人在感染新冠肺炎后出现了各种轻微症状。很多人都会有吞口水如刀的现象,那么如何才能缓解这种情
05-22 17:08:53
2023年5月22日,凯龙高科发生3笔大宗交易,总成交45万股,成交金额992 7万元,成交均价22 06元,折价2 00%。
05-22 16:33:53
小米有品资质证照怎么查看小米有品资质证照查看方法,
05-22 16:08:30
1、密封冷藏2天左右。2、制作的生蚝酱汁当中,都会放入切好的葱、蒜等材料,这些新鲜的食材不同于调味料,
05-22 15:38:25
5月21日,在万众瞩目中,总奖金20万元的2023年环四川穿越大凉山会理山地自行车公开赛举行。300余名国内外选
05-22 14:54:29
智通财经APP获悉,Canalys发布的数据显示,2023年第一季度,中东(不包括土耳其)智能手机出货量为880万部,
05-22 14:21:39
唐人神05月04日在投资者关系平台上答复了投资者关心的问题。您好,截至4月28日,公司股东数为64,252。财务
05-22 13:37:12
1、【上课玩手机检讨书1000字一】 这是一次十分深刻的检查,我对于我这次犯的错误感到很惭愧,我真的不
05-22 12:57:38
近期涉及到的伽古拉个人传的官方小说中,补完了很多有关伽古拉个人的外传内容和设定,填坑能力可以说是超一
05-22 12:20:49
昨天(21日)晚间到今天上午,江西赣州石城县遭遇强降雨天气,部分乡镇累计雨量达210毫米,强降雨导致城乡
05-22 11:43:41
主持人:记者日前从市版权局了解到,近日,国家版权局公布2022年中国版权金奖获奖名单,驻津央企、麒麟软件
05-22 11:25:13
江苏苏州:盛泽“小满戏”开演5月21日,观众在盛泽镇先蚕祠观看“小满戏”。当日是二十四节气中的小满,...
05-22 11:10:49
天津港(600717)05月22日在投资者关系平台上答复了投资者关心的问题。投资者:请问人民币汇率维持低位对天津
05-22 10:25:21
美国财政部非常规手段还剩920亿美元避免违约的窗口越来越窄,耶伦,共和党,美国政府,美国财政部,美国众议院
05-22 10:11:26
5月20日至21日,2023斯巴达勇士赛上海站在临港新片区拉开战幕,这是2022赛季中国系列赛的终章之战,本站赛
05-22 09:41:25
6月1日后暂时未有合资格的交易平台能向散户投资者提供虚拟资产交易服务,预料今年下半年才有平台能开放予
2023-05-24
中新网青海刚察5月23日电 题:青藏联网工程直流系统起始站调相机检修 为迎峰度夏做准备作者董庆芳
2023-05-23
1、首先,我们在使用过程中遇到了什么问题,要表达清楚,比如微信转账没有及时到账,我们会对这个页面进行
2023-05-23
哈姆:我们仍有机会去做些特别的事这就是夏天的工作,湖人,特别的事,中国足球,美国足球,丹佛掘金队,米娅...
2023-05-23
作者:围裙书香来源:国学生活(ID:gxsh789)气场,是一个人行走的名片。♬点上方绿标可收听国学文化主播
2023-05-23
7月7日,中国消费者协会、中国保健协会化妆品发展工作委员会联合发布暑期消费指示,保障儿童用妆安全。...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
新华社华盛顿11月20日电 通讯:“留在中国的决定让我拥有一段值得讲述的人生”——留华美国学生韩...
上市公司频获机构调研 接待机构来访量为20.89万家
Copyright © 2015-2022 海峡纤维网版权所有 备案号:皖ICP备2022009963号-10 联系邮箱:396 029 142 @qq.com