DeepSeek本周为开源周,并将连续开源五个软件库,继日前宣布开源MLA解码核FlashMLA以及DeepEP两款代码库後,今日(26日)再开放DeepGEMM代码库。
据悉,DeepGEMM是专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计,同时支援普通的和专家混合(MoE)分组的GEMM运算。该库使用CUDA编写,在安装过程中无需编译,通过在运行时使用轻量级即时编译模块来编译所有内核。
目前,DeepGEMM仅支援英伟达(NVDA.US) Hopper架构运算,为解决FP8张量核心累加不精确的问题,它采用CUDA核心的两级累加(提升)方法。该代码库只有一个核心内核函数,代码量约为300行。(jl/da)(美股为即时串流报价; OTC市场股票除外,资料延迟最少15分钟。)
AASTOCKS新闻