标签:大模型技术,M3 MacBook Pro,LLAMA模型,内存带宽 时间:2023-11-04T18:59:05
标签:大模型技术,M3 MacBook Pro,LLAMA模型,内存带宽
在最新的M3系列中,尽管高端高内存模型看起来价格不菲,但如果能在保持高效能和便携性的同时,运行更大的LLAMA 2模型,对于某些使用场景来说,可能是值得的。本文将深入探讨128GB M3 MacBook Pro运行最大LLAMA模型的理论极限。
M3 MacBook Pro的标准配置为14核CPU,30核GPU,内存带宽限制为300GB/s。如果要升级到128GB内存,你还必须升级CPU到16核CPU,40核GPU。升级后的版本能够提供400GB/s的内存带宽。因此,如果有人提到128GB MacBook Pro,你可以推断出它的内存带宽是400GB/s,就像M2 Max和M1 Max之前的版本一样。
需要注意的是,内存带宽是最大可用的,实际在推理过程中的带宽使用率更低。Apple在内存层次结构上的工作可能会在推理过程中提高带宽利用率。但是,我们无法预知这一点,除非有人实际获取了这些机器,进行了测试,并分享了结果。如果开发者发现可以在新硬件上提高利用率的代码更改,可能需要更长的时间。
在什么样的模型大小下,带宽会成为瓶颈,这是一个值得关注的问题。实际上,128GB MacOS机器应该有97GB的VRAM工作空间,与M1 Ultra Mac Studio相同。这意味着你可以运行一个70b q8,或者一个180b q3_K_M。
然而,问题将是内存带宽。M1 Ultra和M2 Ultra mac studios的带宽为800GB/s,上述模型在它们上面运行得相当好。然而,M3 MBP的内存带宽为300GB/s,我不确定它如何处理那些更大的模型。
综上所述,我不确定购买128GB M3 MBP进行推理是否值得。如果你确实要购买MBP并且不需要将RAM用于其他任何事情,我可能会坚持选择64GB的版本以节省一些钱,因为我不期望更大的模型能够运行得很好。尽管如此,如果能在保持高效能和便携性的同时,运行更大的LLAMA 2模型,对于某些使用场景来说,可能是值得的。
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
使用R语言进行K-means聚类并分析结果
深度学习技巧之Early Stopping(早停法)
H5文件简介和使用
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介