新 闻科教                                             

无需CUDA代码给H100加速33%-50%
量子位 | 2025-07-11  

声明: 本消息或因风格和篇幅原因进行过编辑,但未经核实,也不代表我们的立场、观点或建议。如有侵权,联系秒删。[ 使用条款 ]
赞助信息

无需CUDA代码,给H100加速33%-50%!

Flash Attention、Mamba作者之一Tri Dao的新作火了。

他和两位普林斯顿CS博士生提出了一个名叫QuACK的新SOL内存绑定内核库,借助CuTe-DSL,完全用Python写,一点CUDA C++代码都没用到。

在带宽3TB/s的H100上,它的速度比像PyTorch的torch.compile、Liger这类已经过深度优化的库还要快33%-50%。

点击图片看原样大小图片





Tri Dao表示,让内存密集型的内核达到“光速”并非什么神秘技巧,只需把几个细节处理到位就行。

点击图片看原样大小图片





我很喜欢Phil Tillet对不同工具在生产力和性能方面各有取舍的观点,比如torch compile、triton、CUDA、PTX。

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

赞助信息

您的观点至关重要

点击朱笔,直抒胸臆

Google: super cool 200

    © 2025    八阕之地™ by Towards Digital Group关于我们反馈意见业务合作八阕书局隐私政策使用条款  
无需CUDA代码给H100加速33%-50%