首页 > 生活 > 正文

走向伟大世界上最快的计算机进行大型语言建模

来源:生活2024-05-15 16:37:52
导读 由能源部橡树岭国家实验室的研究人员领导的团队在世界上最快的超级计算机的帮助下探索了迄今为止最大的人工智能模型之一的训练策略。这些发...

由能源部橡树岭国家实验室的研究人员领导的团队在世界上最快的超级计算机的帮助下探索了迄今为止最大的人工智能模型之一的训练策略。

这些发现可以帮助指导新一代人工智能模型的科学研究训练。

这项由ORNL的SajalDash、FeiyiWang和PrasannaBalaprakash领导的研究采用了世界上第一台百亿亿级超级计算机Frontier,在类似于OpenAI的ChatGPT的大型语言模型上运行初始阶段的训练。研究团队使用一组测试数据来预测具有220亿、1750亿和1万亿个参数或变量的模型如何在Frontier的9,400多个节点中的128个以及后来的384个节点上运行。该团队并未尝试训练完整的模型。

该作品发布在arXiv预印本服务器上。

“这项研究和我们的发现与其说是一本手册,不如说是为用户训练大型模型提供的一套潜在指南,”达什说。“他们可以借鉴我们的经验来决定如何使用Frontier的资源来训练他们的特定模型,并最有效地利用分配的计算时间。”

该团队将于5月在德国汉堡举行的2024年高性能国际超级计算会议上展示该研究。橡树岭国家实验室的科学家同事IsaacLyngaas、JunqiYin、XiaoWang、GuojingCong以及巴黎-萨克雷大学的RomaineEgele也参与了这项研究。

该研究的重点不是模型开发,而是确定利用图形处理单元(GPU)的最有效方法,GPU为Frontier和类似的超级计算机提供动力,并将其用于训练人工智能。Frontier的每个节点都依赖于四个AMDMI250XGPU,总共超过75,000个GPU。

训练对测试数据的约1亿个标记(单词和字符等文本的基本单位)运行了几个小时。这大约是完成训练万亿参数模型所需数据的万分之一,甚至是所需时间的更小部分。

研究团队使用这些运行的数据来计算,如果在Frontier上完成训练,万亿参数模型的表现如何。

“这项研究主要是为了表明我们可以在Frontier上以特定的规模和特定的效率水平训练特定大小的模型,”Wang说。“我们还没有接近完整大型语言模型的终点线。”

大型语言模型松散地模仿人类大脑学习和识别单词和数字模式的能力,并随着时间的推移通过额外的训练来提高学习能力。目标:设计一个模型,可以吸收和调整从训练数据中学到的经验教训,并将这些知识一致、准确地应用于新的、不熟悉的数据和任务。

此类培训所需的大量数据集和强大的处理器仍然大部分是学者无法接触到的,而由私营公司拥有,这些公司往往将这些资源视为专有资源,并设定严格的使用条件。这些条件通常会限制研究机会,并且不允许轻易验证结果。

但是像Frontier这样的领导级超级计算机,通过美国能源部的创新和新颖的计算对理论和实验的影响项目,为科学研究人员提供计算时间,如果科学家找到正确的方法,可以更快地训练新一代人工智能模型。

“传统上,这个过程依赖于专家知识或反复试验,”橡树岭国家实验室人工智能项目主任巴拉普拉卡什说。“我们在这项研究中的工作亮点之一是在大量选项中自动识别高性能策略。我们利用开源可扩展调整软件DeepHyper来自动确定最佳设置。

“我们计划扩展这种自动化方法,以极大程度地微调系统级性能并提高效率。此外,我们还使我们的方法和软件民主化,以造福科学界。这一策略确保我们的见解可以被广泛获取用于未来在科学中训练大型人工智能基础模型的研究。”

模型及其训练数据集越大,其性能越好,但对计算能力的要求也越高。即使以Frontier世界领先的速度,在没有优化的情况下,从初始阶段到完成训练一个万亿参数的大型语言模型也需要数月时间。

ORNL的研究检验了数据并行性的方法(Frontier等超级计算机使用的一种过程,用于将大问题分解为更小的问题,以便更快地找到解决方案)来训练人工智能,以及如何将训练移植到竞争供应商制造的GPU专有框架上。

“这是为了找到训练策略的最佳组合,同时获得最佳吞吐量,”达什说。“大多数深度学习框架都针对NVIDIA制造的GPU,而不是为Frontier提供支持的AMD制造的GPU。我们想看看现有模型是否可以在Frontier上运行,如何充分利用Frontier的计算能力以及如何实现这一点跨GPU平台可能达到的性能水平。

“例如,我们无法在单个GPU或单个节点上训练这种大小的模型,每次我们跨越节点之间的障碍时,都需要更多的通信,从而消耗更多的时间。我们如何跨GPU分割模型,以便我们可以拟合和训练模型,而不会损失太多节点之间通信的时间和精力?”

研究人员发现,针对计算平台定制的并行策略混合效果最佳,但表示他们的工作还远未完成。

“我们通过该模型在Frontier上实现的效率不错,但还不够好,”王说。“在极端规模下,我们实现了30%的效率,这意味着我们将Frontier约70%的计算能力留在了现场。我们需要更多的优化,以使机器在这种规模下更加高效。”

该团队的下一步包括使用跨更多节点的同行评审科学数据进一步训练模型。

关键词:
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

猜你喜欢

最新文章