研發(fā)類GPU集群任務(wù)數(shù)據(jù)集的構(gòu)建及分析
計算機工程與科學(xué)
頁數(shù): 10 2024-12-15
摘要: 近年來,隨著深度學(xué)習(xí)模型訓(xùn)練需求增長,研究機構(gòu)和企業(yè)通過搭建共享GPU集群來降低成本和提高效率?,F(xiàn)有研究主要關(guān)注企業(yè)生產(chǎn)類GPU集群的任務(wù)調(diào)度和資源分配。針對研發(fā)類GPU集群鵬城云腦I,進行任務(wù)運行時關(guān)鍵指標(biāo)的監(jiān)控和數(shù)據(jù)采集,構(gòu)建含任務(wù)細粒度時序資源使用信息的深度學(xué)習(xí)訓(xùn)練任務(wù)數(shù)據(jù)集——鵬城云腦I任務(wù)數(shù)據(jù)集。該數(shù)據(jù)集是首個面向研發(fā)類GPU集群公開數(shù)據(jù)集,揭示了研發(fā)類GPU集群中資... (共10頁)