DeepSeek-V3绕过CUDA，采用PTX优化，硬件效率高出10倍

帝王棋牌玩法规则图解大全

热点资讯

不到5K，终于等到它出小尺寸

“龙虾”代排队走红科技圈：一

深中通道：巨龙腾飞，连接未来

2025年安徽省高校校园原创

努尔哈赤起兵之初，只有百余人

你的位置：帝王棋牌玩法规则图解大全 > 新闻动态 > DeepSeek-V3绕过CUDA，采用PTX优化，硬件效率高出10倍

新闻动态

DeepSeek-V3绕过CUDA，采用PTX优化，硬件效率高出10倍

发布日期：2025-02-04 23:51 点击次数：77

最近，英伟达似乎刚刚从一场由DeepSeek-R1引发的4万亿元市值暴跌中恢复过来，但新的挑战又接踵而至。这一次，焦点集中在DeepSeek-V3的硬件优化技术上，这一技术甚至绕过了英伟达的CUDA，采用了更底层的编程语言进行优化。这一发现引发了业界的广泛讨论和关注。

DeepSeek-V3的硬件优化

根据韩国未来资产证券的分析，DeepSeek-V3的硬件效率之所以能比Meta等高出10倍，主要是因为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，DeepSeek团队对132个流式多处理器（SMs）中的20个进行了修改，使其负责服务器间的通信而非计算任务。这种操作实际上绕过了硬件对通信速度的限制。

PTX与CUDA的比较

DeepSeek-V3的技术报告中提到，这种优化是通过英伟达的PTX（Parallel Thread Execution）语言实现的，而不是通常使用的CUDA。PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程虽然复杂且难以维护，但DeepSeek团队显然已经将其做到了极致。

行业反应与未来展望

有网友表示，如果有一群人嫌CUDA太慢而使用PTX，那一定是前量化交易员。一位亚马逊工程师甚至提出了灵魂质问：CUDA是否还是护城河？这种顶尖实验室可以有效利用任何GPU。甚至有网友开始畅想，如果DeepSeek开源了一个CUDA替代方案，那么事情是否真会如此？

DeepSeek是否真的绕过了CUDA？

首先，需要明确的是，PTX仍然是英伟达GPU架构中的技术，它是CUDA编程模型中的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。PTX类似汇编语言，代码在实际编译流程中，CUDA代码首先被编译为PTX代码，PTX代码再被编译为目标GPU架构的机器码（SASS,Streaming ASSembler）。CUDA起到了提供高级编程接口和工具链的作用，可以简化开发者的工作。而PTX作为中间层，充当高级语言和底层硬件之间的桥梁。

DeepSeek的跨硬件生态支持

DeepSeek做了PTX级别的优化并不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。事实上，我们也能看到DeepSeek已经与AMD、华为等团队紧密合作，第一时间提供了对其他硬件生态的支持。

AI自我改进的新方向

还有人提出，让AI擅长编写汇编语言是AI自我改进的一个方向。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码，但确实刚刚见证了DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。Llama.cpp项目中的一个新PR请求，使用SIMD指令（允许一条指令同时处理多个数据）显著提升WebAssembly在特定点积函数上的运行速度，提交者表示：这个PR中的99%的代码都是由DeepSeek-R1编写的。我唯一做的就是开发测试和编写提示（经过一些尝试和错误）。

结语

DeepSeek-V3的硬件优化技术无疑为AI领域带来了新的突破，但这是否意味着CUDA的护城河已经被突破，还有待观察。无论如何，DeepSeek的这一创新无疑为AI硬件优化开辟了新的道路，值得我们持续关注。

参考链接：

[1] https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead[3]https://tinkerd.net/blog/machine-learning/cuda-basics/[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html— 完—量子位智库年终发布三大年度报告！带你一起回顾2024年人工智能、智能驾驶、 Robotaxi新趋势，预见2025年科技行业新机遇！2024年度AI十大趋势报告Robotaxi2024年度格局报告智能驾驶2024年度报告返回搜狐，查看更多

上一篇：没有了

下一篇：国外“护熊奇人”认为动物有人性，与女友护熊13年，全部被熊吃掉