Thumbnail Title
提升大語言模型在實際應用的效率
王威教授榮獲ACM EuroSys最佳論文獎
Body
香港科技大學(科大)計算機科學及工程學系副教授王威,憑著其共同撰寫的論文《SpInfer:利用低稀疏度在GPU上實現高效LLM推理》,在第20屆歐洲計算機系統會議(EuroSys)上榮獲最佳論文獎。
論文由科大、科大(廣州)及哈爾濱工業大學(深圳)合作完成,第一作者為范睿博,是科大(廣州)數據科學與分析學域博士生,由王威教授及科大(廣州)的褚曉文教授共同指導。
EuroSys是計算機系統領域的國際頂級學術會議,對論文的遴選非常嚴格。本屆於2025年3月30日至4月3日在荷蘭鹿特丹舉行,共接獲全球696篇投稿,當中85篇論文被錄用,錄用率僅為12%,其中只有兩篇論文奪得最佳論文獎。
在這項開創性的工作中,王威教授及其合作者針對大語言模型(LLM)實際部署的核心難題展開研究。儘管LLM功能強大,但其龐大的計算資源需求導致在常規硬件上部署運行十分困難。研究團隊開發的SpInfer框架創新性地採用先進「剪枝」技術,通過移除模型中非關鍵部分,顯著降低GPU內存佔用與計算耗時。該技術首次提出面向現代GPU優化的稀疏存儲與處理機制,在保持模型性能的同時實現運算速度與內存效率的突破性提升,為LLM提供了前所未有的高性價比部署方案。值得注意的是,SpInfer是全球首個將非結構化剪枝理論成功轉化為LLM推理實踐效能提升的技術,標誌著人工智能系統高效化研究取得重要突破。
相關連結: