设为首页 - 加入收藏   AI,DeepGEMM,DeepSeek,人工智能,开源库 – 后发制人网
您的当前位置:首页 > DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网 正文

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网

来源:DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网 编辑:DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网 时间:2025-03-24 17:49:02

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

#人工智能 DeepSeek 开源 DeepGEMM 通用矩阵乘法库用来提高效率,这个开源库核心代码仅 300 行,支持普通和混合专家模式。DeepSeek 发布的这些开源库都是在自家产品中使用的,属于经过测试和验证后再开源。查看全文:https://ourl.co/108068

DeepSeek AI 开源周目前进行到了第三天,今天 DeepSeek 开源名为 DeepGEMM 的通用矩阵乘法库 (GEMM),专门为英伟达 Hopper GPU 上的 AI 训练和推理任务设计。

DeepGEMM 是一个为清洁和高效的 FP8 GEMM 设计的开源库,FP8 是一种低精度格式,提供比传统 FP32 或 FP16 更高的计算吞吐量和更低的内存使用,这对大型 AI 模型至关重要,尤其是设计矩阵乘法的任务。

这个开源库支持普通和混合专家 (MoE) 分组 GEMM,同时也适用于多种 AI 架构,DeepSeek 开源的这些基本都已经在自家模型中使用,属于经过测试和验证后再开源的产品。

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

在 GitHub 中 DeepSeek 也对 DeepGEMM 进行了详细说明:

DeepGEMM 的实现以简单性和效率而著称,使用 CUDA 编写利用 NVIDIA 的 GPU 编程模型,通过轻量级即时编译模块在运行时编译所有内核,无需在安装旗舰进行编译,这个特点让 DeepGEMM 可以根据特定硬件和输入大小生成高度优化的代码从而提高性能。

这个开源库借鉴了开源项目 CUTLASS 和 CuTe 的概念,但避免了依赖于这些项目的复杂模板或代数,相反 DeepGEMM 设计简单,核心内核函数大约在 300 行左右,从而提高简洁和易用性。

支持多种不同的布局:

DeepGEMM 还支持密集布局和两种 MoE 布局,适用于标准矩阵乘法和专门的 MoE 架构,这些架构被用于大型语音模型中以高效处理稀疏数据。

DeepGEMM 的性能在各种矩阵形状上匹配或超过专家优化库,这对仅 300 行代码的开源库来说是个巨大成就,专家优化内核通常通过技术如循环展开和分块手工优化,针对特定硬件设计,而 DeepGEMM 使用双极累积解决 FP8 精度问题,确保计算的准确性从而提高模型性能。

有兴趣的开发者可以通过 GitHub 获取代码:https://github.com/deepseek-ai/DeepGEMM

版权声明:
感谢您的阅读,除非文中已经注明来源网站,否则均为 蓝点网 原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于蓝点网及本文完整链接,感谢!内容来源:蓝点网 -

相关文章

Copyright © 2025 DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网 – 后发制人网DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网 – 后发制人网

sitemap