DeepSeek-V3绕过CUDA,采用PTX优化,硬件效率高出10倍
发布日期:2025-02-04 23:51 点击次数:75
最近,英伟达似乎刚刚从一场由DeepSeek-R1引发的4万亿元市值暴跌中恢复过来,但新的挑战又接踵而至。这一次,焦点集中在DeepSeek-V3的硬件优化技术上,这一技术甚至绕过了英伟达的CUDA,采用了更底层的编程语言进行优化。这一发现引发了业界的广泛讨论和关注。
DeepSeek-V3的硬件优化
根据韩国未来资产证券的分析,DeepSeek-V3的硬件效率之所以能比Meta等高出10倍,主要是因为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时,DeepSeek团队对132个流式多处理器(SMs)中的20个进行了修改,使其负责服务器间的通信而非计算任务。这种操作实际上绕过了硬件对通信速度的限制。
PTX与CUDA的比较
DeepSeek-V3的技术报告中提到,这种优化是通过英伟达的PTX(Parallel Thread Execution)语言实现的,而不是通常使用的CUDA。PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。这种编程虽然复杂且难以维护,但DeepSeek团队显然已经将其做到了极致。
行业反应与未来展望
有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。一位亚马逊工程师甚至提出了灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。甚至有网友开始畅想,如果DeepSeek开源了一个CUDA替代方案,那么事情是否真会如此?
DeepSeek是否真的绕过了CUDA?
首先,需要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。PTX类似汇编语言,代码在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。
DeepSeek的跨硬件生态支持
DeepSeek做了PTX级别的优化并不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。事实上,我们也能看到DeepSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。
AI自我改进的新方向
还有人提出,让AI擅长编写汇编语言是AI自我改进的一个方向。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码,但确实刚刚见证了DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:这个PR中的99%的代码都是由DeepSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。
结语
DeepSeek-V3的硬件优化技术无疑为AI领域带来了新的突破,但这是否意味着CUDA的护城河已经被突破,还有待观察。无论如何,DeepSeek的这一创新无疑为AI硬件优化开辟了新的道路,值得我们持续关注。
参考链接:
[1] https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead[3]https://tinkerd.net/blog/machine-learning/cuda-basics/[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html— 完—量子位智库年终发布 三大年度报告!带你一起回顾2024年 人工智能、 智能驾驶、 Robotaxi新趋势, 预见2025年科技行业新机遇!2024年度AI十大趋势报告Robotaxi2024年度格局报告智能驾驶2024年度报告返回搜狐,查看更多
上一篇:没有了
Powered by 帝王棋牌玩法规则图解大全 @2013-2022 RSS地图 HTML地图
Copyright Powered by365站群 © 2013-2024