世界上最强大的超级计算机使用了超过8%的gpu来训练包含一万亿参数的大型语言模型(LLM),与OpenAI的GPT-4相当。
位于橡树岭国家实验室(Oak Ridge National Laboratory)的Frontier公司使用了3072块AMD Radeon Instinct gpu来训练一个万亿参数规模的人工智能系统,并使用了1024块gpu(约2.5%)来训练一个1750亿参数的模型,其规模与ChatGPT基本相同。
根据他们的论文,研究人员至少需要14TB的RAM来实现这些结果,但每个MI250X GPU只有64GB的VRAM,这意味着研究人员必须将几个GPU组合在一起。然而,这以并行的形式引入了另一个挑战,这意味着随着用于训练LLM的资源的总体规模的增加,组件必须更好、更有效地进行通信。
法学硕士通常不是在超级计算机上训练的,而是在专门的服务器上训练的,需要更多的gpu。例如,根据TrendForce的数据,ChatGPT在超过20,000个gpu上进行了训练。但研究人员想要展示的是,通过利用超级计算机架构所带来的各种技术,他们是否可以更快、更有效地训练超级计算机。
科学家们使用了张量并行性(gpu组共享相同张量的部分)和管道并行性(gpu组托管相邻组件)的组合。他们还使用数据并行性来同时消耗大量令牌和大量计算资源。总体效果是实现了更快的时间。
对于220亿个参数模型,他们的峰值吞吐量为38.38% (73.5 TFLOPS),对于1750亿个参数模型,他们的峰值吞吐量为36.14% (69.2 TFLOPS),对于1万亿参数模型,他们的峰值吞吐量为31.96% (61.2 TFLOPS)。
他们还实现了100%的弱缩放效率%,1750亿参数模型的强缩放性能为89.93%,1万亿参数模型的强缩放性能为87.05%。
尽管研究人员对所使用的计算资源和所涉及的技术持开放态度,但他们忽略了以这种方式培训法学硕士所涉及的时间尺度。
TechRadar Pro向研究人员询问了时间安排,但他们在撰写本文时尚未作出回应。