永利官网app下载 更好的硬件何如将零值酿成AI加速引擎:疏淡贪图让AI更轻量、更高效
在AI模子领域,领域至关要紧。
尽管部分AI大家申饬称,捏续扩大大言语模子的领域正在遭受性能收益递减的瓶颈,各大公司仍在束缚推出体量更大的AI用具。Meta最新发布的Llama模子领有高达2万亿个参数。
跟着模子领域的扩大,其才略也在增强,但随之而来的是更高的能耗需乞降更长的运行时刻,进而加重了碳排放问题。为了缓解这些问题,业界运转转向领域较小、才略相对有限的模子,并尽可能给与低精度数值来暗示模子参数。
但是,还有另一条旅途,有望在保留超大模子高性能的同期,缩小运行时刻、降顽皮耗。这一顺次的中枢,即是充分期骗大型AI模子里面大批存在的零值。
关于好多模子而言,大多数参数——包括权重和激活值——实质上王人是零,或者绝顶接近于零,宽裕不错在不示寂精度的前提下将其视为零惩处。这种特色被称为疏淡性。疏淡性为直率贪图资源提供了弘大契机:与其挥霍时刻和能量对零进行加法或乘法运算,不如径直跳过这些贪图;与其在内存中存储大批零值,不如只保存非零参数。
缺憾的是,现时主流硬件(如多核CPU和GPU)并弗成自然充分期骗疏淡性。要确实确认疏淡性的上风,忖度东谈主员和工程师需要再行念念考并重构总计这个词设计架构,涵盖硬件、底层固件和应用软件各个层面。
在斯坦福大学的忖度团队中,咱们斥地出了(据咱们所知)首款八成高效惩处各种疏淡和传统使命负载的硬件芯片。在不同使命负载下,能耗直率幅度互异权臣,但平均而言,咱们的芯片能耗仅为CPU的七十分之一,贪图速率平均擢升至CPU的八倍。为罢了这一目的,咱们从底层运转,对硬件、固件和软件进行了全面的针对疏淡性的工程设计。咱们但愿这只是硬件与模子协同发展的启程点,最终罢了更高能效的AI。
数组与疏淡暗示
神经收集偏激输入数据以数字数组的情势暗示,这些数组不错是一维(向量)、二维(矩阵)或更高维度(张量)。疏淡向量、矩阵或张量中大多数元素为零。疏淡进程因情况而异,但当零值占比荒谬50%时,就不错从特意针对疏淡性的贪图顺次中获益。与之相对的是"密集"对象——即零值数目相干于元素总和较少的情况。
疏淡性不错自然存在,也不错通过东谈主工方式引入。举例,外交收集图自然即是疏淡的。假想一个图,其中每个节点代表一个东谈主,每条边代表一段友谊关系。由于大多数东谈主互相并不清爽,暗示总计可能集合关系的矩阵中绝大多数元素王人是零。其他AI应用场景,如图学习和推选模子,通常存在自然的疏淡性。
平庸情况下,一个4×4的矩阵不管包含几许个零值,在内存中王人会占用16个存储空间。若矩阵是疏淡的,即大批元素为零,则不错更高效地用"纤维树"结构暗示:最初是包含非零元素所在行坐标的"纤维",集合至包含非零元素列坐标的纤维,最终贯串到对应的非零值自身。在贪图机内存中存储纤维树时,每条纤维的端点(即"段")会与坐标和数值一同保存。
除自然存在的疏淡性外,还不错通过多种方式在AI模子中主动引入疏淡性。两年前,Cerebras的忖度团队讲解,不错将大言语模子中多达70%至80%的参数缔造为零,而不示寂任何精度。Cerebras在Meta开源的Llama 7B模子上考证了这一论断,关联念念路通常适用于ChatGPT、Claude等其他大言语模子。
疏淡贪图的上风
疏淡贪图的高效性源于两个基本特色:压缩零值的才略,以及零的特殊数学性质。疏淡贪图算法和专用硬件王人充分期骗了这两个中枢念念路。
最初,疏淡数据不错被压缩,从而以"疏淡数据类型"的情势更直率内存地进行存储。压缩还能在惩处大批数据时质问数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例:传统方式会将其完好意思存储,占用16个内存空间;而压缩为疏淡数据类型后,A8体育app2026世界杯中国官方下载只需保留非零元素,仅占用3个存储空间,相较于底本的16个大幅直率。跟着疏淡进程和矩阵领域的增大,这种直率效果将更加权臣。
除实质数据值外,压缩数据还需要存储元数据,即非零元素的行诸君置信息。这平庸以"纤维树"的方式抒发:列出包含非零元素的行标签,并与对应的列标签不时,进而贯串到存储在这些位置的数值。
在内存层面,情况更加复杂:每个非零值的行列标签,以及记号标签数目的"段"信息,王人需要一并存储,以便明晰差别元数据和实质数据。
在密集、未压缩的矩阵数据类型中,不错逐个或并行打听数值,且其位置可通过节略公式径直贪图。但在疏淡压缩数据中,打听数值需要先查找行索引坐标,再"辗转"查找列索引坐标,最终才气定位到目的值。由于疏淡数据的位置具有立时性,这些辗转查找操作可能极为立时,导致贪图历程依赖于数据自身,并需要动态分拨内存打听。
其次,零的两个数学特色使软件和硬件不错大批跳过贪图:任何数乘以零等于零,因此无需实质奉行乘法;任何数加零等于其自身,因此加法也不错径直跳过。
在矩阵-向量乘法这一AI最常见的运算中,除触及两个非零元素的贪图以外,其余贪图均可跳过。畴前述4×4矩阵与一个四元素向量的乘法为例:在密集贪图中,需要16次乘法和16次加法;而在疏淡贪图中,只需惩处向量中的非零元素,澳门永利皇宫中国官网入口通过辗转查找定位矩阵中对应的非零元素,仅对这部分进行乘加运算——在示例中,只需奉行两次乘法,而非16次。
现存硬件的局限
缺憾的是,当代硬件并不擅长加速疏淡贪图。以矩阵-向量乘法为例,在单核CPU中,向量中的每个元素需逐个相乘后写入内存,效用低下。因此,实质使用中时常借助救济向量运算的CPU或GPU,将总计元素并行惩处,大幅擢升速率。但当矩阵和向量王人极为疏淡时,向量化CPU和GPU的大部分算力王人挥霍在了与零的乘法运算上,产生大批无效贪图。
新一代GPU八成对一种特定类型的疏淡性——结构化疏淡性——进行一定进程的硬件加速。结构化疏淡性假定每四个相邻参数中有两个为零。但是,部分模子更允洽非结构化疏淡性——即允许恣意参数(权重或激活值)为零并被压缩,不管其位置何如。GPU不错通过软件方式(如cuSparse库)救济非结构化疏淡贪图,但这种救济时常十分有限,GPU硬件期骗率偏低,大批算力虚耗在额外支拨上。
在通过软件进行疏淡贪图时,当代CPU无意比GPU更具上风,因为CPU具备更好的活泼性。但CPU在疏淡贪图中常受限于辗转查找操作带来的性能瓶颈。CPU平庸会凭证预期需求对数据进行"预取",但关于立时疏淡数据,这一机制时常失效,导致CPU不得不挥霍时钟周期恭候正确数据加载。
苹果公司率先通过在A14和M1芯片的预取器中救济"指针数组"打听模式,加速了辗转查找速率。尽管预取手艺的翻新使苹果CPU在疏淡贪图方面更具竞争力,但CPU架构仍存在专用疏淡贪图架构所不具备的根人性支拨,因为CPU需要兼顾通用贪图需求。
其他公司也在斥地加速疏淡机器学习的硬件,包括Cerebras的晶圆级引擎(Wafer Scale Engine)和Meta的检修与推理加速器(MTIA)。Cerebras的晶圆级引擎偏激配套疏淡编程框架,在大言语模子上罢了了高达70%的疏淡度,效用不凡。但其硬件和软件决策仅救济权重疏淡性,不救济对好多应用至关要紧的激活值疏淡性。MTIA第二版声称在疏淡贪图性能上较初版擢升七倍,但现在公开露馅的疏淡性救济信息仅限于矩阵乘法,尚未祛除向量或张量运算。
尽管矩阵乘法占据了大多数当代机器学习模子的主要贪图时刻,但为其他运算提供疏淡性救济通常至关要紧。为幸免在疏淡与密集数据类型之间平庸切换,总计操作王人应原生救济疏淡惩处。
Onyx:从底层救济疏淡贪图的硬件加速器
针对上述各种折中决策的不及,斯坦福大学团队研发了一款硬件加速器——Onyx,八成从底层充分期骗疏淡性,不管是结构化还口舌结构化疏淡性均可救济。Onyx是首款可编程加速器,同期救济疏淡和密集贪图,八成对两种模式下的要道操作进行加速。
CPU、粗粒度可重构阵列(CGRA)和现场可编程门阵列(FPGA)代表了效用与活泼性之间的不同衡量。CPU的每个逻辑单位针对特定功能高效设计;FPGA的每个比特均可竖立,极具活泼性但效用较低;CGRA则旨在兼顾FPGA的活泼性与CPU的效用。
CGRA由针对特定应用领域优化的可竖立内存和贪图单位组成,顺次员不错在高级次上对其里面进行再行竖立,使其比FPGA更高效,同期比CPU更活泼。
Onyx基于CGRA架构构建,由活泼可编程的惩处单位(PE)模块和内存(MEM)模块组成。内存模块厚爱存储压缩矩阵和其他数据神气,惩处单位模块则径直对压缩矩阵进走运算,排斥总计不消要的无效贪图。
Onyx的编译器厚爱将软件辅导改动为CGRA竖立。最初,输入抒发式(如疏淡向量乘法)被转动为抽象内存节点和贪图节点组成的图;编译器将这些抽象节点映射到CGRA的内存模块和惩处单位上,并筹划数据传输旅途;最终身成竖立CGRA所需的辅导集。
由于Onyx具备可编程性,工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。
性能评估
咱们给与"能量延长积"(EDP,即能耗与贪图时刻的乘积)来评估硬件的效用擢升,该方针概述响应了速率与能耗之间的衡量关系。
Onyx的能量延长积最高可达使用专用疏淡库的CPU(12核Intel至强惩处器)的565倍。此外,Onyx还可竖立为加速成例密集贪图应用,肖似GPU或TPU的使命方式:当贪图为疏淡类型时,Onyx切换至疏淡贪图模式;当贪图为密集类型时,则切换至并行加速模式。这一架构为在吞并芯片上同期加速疏淡与密集贪图迈出了要紧一步。
通常值多礼贴的是,Onyx开启了算法层面的新念念路。疏淡加速硬件不仅能擢升AI的性能效用和动力效用,还将激发忖度东谈主员和工程师探索具有结巴性后劲的新式算法。
改日瞻望
咱们的团队已在Onyx基础上入部属手斥地下一代芯片。除矩阵乘法外,机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器偏激编译器添加对完好意思贪图类型的救济。由于疏淡机器学习模子可能同期包含疏淡层和密集层,咱们也在忖度何如更高效地将密集与疏淡加速架构集成于吞并芯片,以罢了不同数据类型之间的快速改动。此外,咱们还在探索通过更有用地拆分疏淡数据来结巴内存驱散,从而在多个疏淡加速芯片上协同运行贪图任务。
与此同期,咱们正在研发八成预测疏淡加速器性能的系统,以援助更优硬件的设计使命。从长久来看,咱们但愿不雅察高度疏淡性是否会在更多模子类型中取得普及,以及疏淡加速器是否会在更大领域上取得应用。
为非结构化疏淡性构建硬件、充分期骗零值的后劲,只是是个运转。有了这么的硬件,AI忖度东谈主员和工程师将有契机探索以全新、敷裕创意的方式期骗疏淡性的模子与算法。咱们确信,这是应答AI束缚增长的运行时刻、资本和环境影响的要道忖度场合。
Q&A
Q1:什么是疏淡贪图?它对AI有什么意旨?
A:疏淡贪图是一种期骗AI模子中大批参数为零这一特色来跳过无效运算、压缩存储的贪图方式。由于模子中70%以上的参数可能为零或接近零,疏淡贪图不错径直跳过与零关联的乘法和加法,从而权臣降顽皮耗、加速运算速率,在不阵一火模子精度的前提下擢升全体效用。
Q2:现存的GPU和CPU为什么弗成很好地救济疏淡贪图?
A:GPU主要救济一种叫作念"结构化疏淡性"的特定模式,对更活泼的非结构化疏淡性救济有限,导致大批算力被挥霍在无效的零值运算上。CPU诚然更活泼,但在疏淡贪图中常受限于立时内存打听导致的预取失败问题,通常存在效用瓶颈。两者王人穷乏从底层针对疏淡贪图特意设计的架构救济。
Q3:Onyx芯片比拟往常CPU能擢升几许性能?
A:Onyx在能量延长积(速率与能耗的概述方针)上永利官网app下载,最高可达12核Intel至强CPU的565倍。平均而言,Onyx的能耗仅为CPU的七十分之一,贪图速率则平均擢升至CPU的八倍。Onyx同期救济疏淡和密集贪图,八成凭证任务类型自动切换贪图模式,是现在已知首款兼顾两种贪图模式的可编程加速器。
Z6尊龙凯时官方网站