DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网

来源：DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网编辑：DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网时间：2025-03-24 17:49:02

DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率

#人工智能 DeepSeek 开源 DeepGEMM 通用矩阵乘法库用来提高效率，这个开源库核心代码仅 300 行，支持普通和混合专家模式。DeepSeek 发布的这些开源库都是在自家产品中使用的，属于经过测试和验证后再开源。查看全文：https://ourl.co/108068

DeepSeek AI 开源周目前进行到了第三天，今天 DeepSeek 开源名为 DeepGEMM 的通用矩阵乘法库 (GEMM)，专门为英伟达 Hopper GPU 上的 AI 训练和推理任务设计。

DeepGEMM 是一个为清洁和高效的 FP8 GEMM 设计的开源库，FP8 是一种低精度格式，提供比传统 FP32 或 FP16 更高的计算吞吐量和更低的内存使用，这对大型 AI 模型至关重要，尤其是设计矩阵乘法的任务。

这个开源库支持普通和混合专家 (MoE) 分组 GEMM，同时也适用于多种 AI 架构，DeepSeek 开源的这些基本都已经在自家模型中使用，属于经过测试和验证后再开源的产品。

在 GitHub 中 DeepSeek 也对 DeepGEMM 进行了详细说明：

DeepGEMM 的实现以简单性和效率而著称，使用 CUDA 编写利用 NVIDIA 的 GPU 编程模型，通过轻量级即时编译模块在运行时编译所有内核，无需在安装旗舰进行编译，这个特点让 DeepGEMM 可以根据特定硬件和输入大小生成高度优化的代码从而提高性能。

这个开源库借鉴了开源项目 CUTLASS 和 CuTe 的概念，但避免了依赖于这些项目的复杂模板或代数，相反 DeepGEMM 设计简单，核心内核函数大约在 300 行左右，从而提高简洁和易用性。

支持多种不同的布局：

DeepGEMM 还支持密集布局和两种 MoE 布局，适用于标准矩阵乘法和专门的 MoE 架构，这些架构被用于大型语音模型中以高效处理稀疏数据。

DeepGEMM 的性能在各种矩阵形状上匹配或超过专家优化库，这对仅 300 行代码的开源库来说是个巨大成就，专家优化内核通常通过技术如循环展开和分块手工优化，针对特定硬件设计，而 DeepGEMM 使用双极累积解决 FP8 精度问题，确保计算的准确性从而提高模型性能。

有兴趣的开发者可以通过 GitHub 获取代码：https://github.com/deepseek-ai/DeepGEMM

AI(825)DeepGEMM(1)DeepSeek(14)人工智能(900)开源库(5)

版权声明：
感谢您的阅读，除非文中已经注明来源网站，否则均为蓝点网原创内容，转载时请务必以超链接(而非纯文本链接)标注来源于蓝点网及本文完整链接，感谢！内容来源：蓝点网 - DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率

DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网

DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率

Dropbox继续扩展自己的版图：9500万美元收购表单签名公司FormSwift

罗马法院要求Cloudflare分享盗版网站运营者信息并永久禁止其注册新域名

苹果推出搭载M3芯片的14/16英寸MacBook Pro 依然祖传8GB内存起步

研究人员再次利用漏洞破解BitLocker硬盘加密微软预计到2026年才能彻底修复

X(原推特)推出价格更高的订阅会员每月16美元可以去除大部分广告

英伟达称该公司的AI芯片性能进步速度超过摩尔定律这得益于架构和算法等

微软收购动视暴雪基本失败 FTC直接超期安排要付30亿美元分手费

OpenAI的武当梯云纵、左脚踩右脚：推出新模型CriticGPT修正AI错误

星链调整卫星上网包月价格不到1年内2次涨价月费增加20美元

OpenAI宣布用户可以通过拨打电话和发短信与ChatGPT进行快速沟通

电源制造商海韵电子建议用户安装RTX 4090电源线时先用吹风机软化弯曲

京东支付与微信支付实现互联京东金融可扫描微信收款码获得立减优惠

友情链接

DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网

相关文章

Dropbox继续扩展自己的版图：9500万美元收购表单签名公司FormSwift

罗马法院要求Cloudflare分享盗版网站运营者信息 并永久禁止其注册新域名

苹果推出搭载M3芯片的14/16英寸MacBook Pro 依然祖传8GB内存起步

研究人员再次利用漏洞破解BitLocker硬盘加密 微软预计到2026年才能彻底修复

X(原推特)推出价格更高的订阅会员 每月16美元可以去除大部分广告

英伟达称该公司的AI芯片性能进步速度超过摩尔定律 这得益于架构和算法等

微软收购动视暴雪基本失败 FTC直接超期安排 要付30亿美元分手费

OpenAI的武当梯云纵、左脚踩右脚：推出新模型CriticGPT修正AI错误

星链调整卫星上网包月价格 不到1年内2次涨价 月费增加20美元

OpenAI宣布用户可以通过拨打电话和发短信与ChatGPT进行快速沟通

电源制造商海韵电子建议用户安装RTX 4090电源线时先用吹风机软化弯曲

京东支付与微信支付实现互联 京东金融可扫描微信收款码获得立减优惠

友情链接

罗马法院要求Cloudflare分享盗版网站运营者信息并永久禁止其注册新域名

研究人员再次利用漏洞破解BitLocker硬盘加密微软预计到2026年才能彻底修复

X(原推特)推出价格更高的订阅会员每月16美元可以去除大部分广告

英伟达称该公司的AI芯片性能进步速度超过摩尔定律这得益于架构和算法等

微软收购动视暴雪基本失败 FTC直接超期安排要付30亿美元分手费

星链调整卫星上网包月价格不到1年内2次涨价月费增加20美元

京东支付与微信支付实现互联京东金融可扫描微信收款码获得立减优惠