面向大模型時代的網(wǎng)絡基礎設施研究:挑戰(zhàn)、階段成果與展望
計算機研究與發(fā)展
頁數(shù): 14 2024-11-15
摘要: 擁有千億級別參數(shù)的大語言模型(large language model,LLM)已為今天的人工智能和云服務帶來了巨大的技術和商業(yè)變革.然而,大模型訓練與傳統(tǒng)的通用云計算(例如,亞馬遜EC2彈性計算服務)之間存在較多根本性的網(wǎng)絡行為差異,從而帶來了很多新的挑戰(zhàn),主要包括流量模式差異造成負載難均衡(挑戰(zhàn)1)、多訓練任務通信競爭影響GPU利用率(挑戰(zhàn)2),以及對網(wǎng)絡故障的高敏感性(挑... (共14頁)
開通會員,享受整站包年服務