无需CUDA代码给H100加速33%-50%
量子位｜ 2025-07-11

声明： 本消息或因风格和篇幅原因进行过编辑，但未经核实，也不代表我们的立场、观点或建议。如有侵权，联系秒删。[ 使用条款 ]

赞助信息

无需CUDA代码，给H100加速33%-50%！

Flash Attention、Mamba作者之一Tri Dao的新作火了。

他和两位普林斯顿CS博士生提出了一个名叫QuACK的新SOL内存绑定内核库，借助CuTe-DSL，完全用Python写，一点CUDA C++代码都没用到。

在带宽3TB/s的H100上，它的速度比像PyTorch的torch.compile、Liger这类已经过深度优化的库还要快33%-50%。

点
击
图
片
看
原
图

Tri Dao表示，让内存密集型的内核达到“光速”并非什么神秘技巧，只需把几个细节处理到位就行。

点
击
图
片
看
原
图

我很喜欢Phil Tillet对不同工具在生产力和性能方面各有取舍的观点，比如torch compile、triton、CUDA、PTX。

您的观点至关重要

点击朱笔，直抒胸臆


By Google


© 2026 八阕之地™ by Towards Digital Group	关于我们｜反馈意见｜业务合作｜八阕书局｜隐私政策｜使用条款

无需CUDA代码给H100加速33%-50%量子位 ｜ 2025-07-11