Triton-RISCV 完成 RISC-V 原生编译适配，SG2044 平台验证 AI 算子 RVV 加速性能

晟盈英才 2026-05-10 共72人围观

在中国科学院软件研究所智能软件研究中心与如意 RISC-V 软件生态的持续推动下，Triton-RISCV项目正式开源。该项目基于主流 AI 算子编译框架 Triton，首次实现了在 RISC-V 平台上的原生编译与 RVV 向量加速，并在算能第二代服务器级 RISC-V 处理器 SG2044 平台上完成了系统性性能验证。

Triton-RISCV 项目已在如意社区 GitHub 仓库开源。这一成果标志着 Triton 编译生态正式延伸至 RISC-V 平台，为 AI 算子开发、深度学习编译优化、大模型推理等关键应用场景在 RISC-V 上的落地提供了坚实的软件基础。

这一进展不仅是 RISC-V AI 编译生态的重要里程碑，也充分验证了算能 SG2044 在服务器级 AI 编译与高性能向量计算场景下的平台能力。

在 SG2044 单线程评测中，相比官方 triton-cpu 基线，Triton-RISCV 整体平均性能提升达 1.57x，峰值提升达 4.16x。

打通 Triton 到 RVV 的端到端编译路径

本次适配工作的核心，在于围绕 triton-shared 与 buddy-mlir 两大开源基础设施，构建了一条从 Triton 前端算子到 RISC-V 向量指令的完整编译链路。

1. 首先将Triton算子转换成Triton官方的TTIR层中间表示；

2. 然后通过triton-shared转换到Linalg层中间表示；

3. 接下来在核心优化阶段接入buddy-mlir，基于自定义的VIR方言完成向量化；

4. 最后逐步下降到LLVM IR，最终完成RVV指令的代码生成

该方案在保持 Triton 编程模型可移植性的同时，使 RISC-V 平台能够充分利用 RVV 的并行计算能力，为深度学习算子开发与大模型推理等典型负载提供稳定且可持续的性能基础。

与现有方案相比，Triton-RISCV 具备两个核心特点:

原生支持 RVV 架构。Triton-RISCV 可在 SG2044 平台上直接完成原生构建与原生运行，无需交叉编译，显著简化了开发与调试流程，使 RISC-V 服务器具备作为完整 AI 算子开发平台的工程能力。

复用 buddy-mlir 向量化能力。在 SG2044 单线程评测中，相比官方 triton-cpu 基线，Triton-RISCV 整体平均性能提升达 1.57x，峰值提升达 4.16x。

适配思路:面向 AI 编译生态的分层递进

本次适配工作围绕 Triton 编译流程进行了分层优化，重点突破两个关键层级，使 RISC-V 平台对 Triton 算子的支持从"可运行"迈向"可向量化、可优化、可工程化"的阶段。

1. Triton → Linalg:访存路径优化

针对原有 triton-shared 实现中存在的临时数据搬运冗余(如 memref.copy、tensor.extract_slice、bufferization.materialize_in_destination 等)，项目在该层级对访存链路进行了系统性精简:输入拷贝改为显式向量循环并配合尾部标量循环处理剩余元素;输出写回采用 vector.transfer_read 与 vector.store 组合，辅以尾部标量处理。访存路径的简化为后续向量化阶段释放出更大的优化空间。

2. Linalg → VIR → LLVM IR:向量化覆盖率提升

该阶段复用 buddy-mlir 的向量化能力，针对两类 Linalg 算子开展专项优化。一类是 matmul、conv、reduce 等粗粒度算子;另一类是基于 linalg.generic 的细粒度算子，覆盖 arith、cmp/select、min/max、位运算与移位等常见操作。上述算子在 VIR 中间表示层完成向量化改写后，进一步下降至 LLVM IR 并最终映射为 RVV 指令，整体向量化覆盖率显著提升。

系统性覆盖率与性能验证

为系统性验证适配成果，项目从功能覆盖率与性能两个维度对 Triton-RISCV 进行了评估。

在功能覆盖率层面，triton-shared 官方提供的 25 个 Triton 测例已在 SG2044 平台上全部跑通，覆盖矩阵计算、规约、索引、掩码、访存等典型场景。同时，项目从大模型算子库 FlagGems 中挑选并改写了 12 个代表性测例，涵盖 attention、blas、norm 与 distributed 四类核心负载，亦全部验证通过，具体如下表所示。

类别	算子示例
attention	attention_flash、attention_paged_varlen、attention_sdpa
blas	addmm、bmm、mm
norm	batch_norm、group_norm、layer_norm
distributed	exponential、normal、uniform

在性能评估层面，以官方 triton-cpu为基线，在 SG2044 平台单线程下采用 warmup=5、repeat=20 的标准化方法测量 Wall time。测试结果显示，在纳入统计的 15 个算子中，Triton-RISCV 整体平均加速达到 1.57x，峰值加速达到 4.16x(matmul 算子);mask、scalar_store、layernorm、tensor_index_iterargs 等典型算子均实现稳定的性能提升。

测试结果表明，在 RVV 1.0 原生执行环境下，Triton-RISCV 能够将上层编译优化与底层硬件向量化能力有效衔接，为 RISC-V AI 编译栈在服务器级场景下的性能潜力提供了实证依据。

SG2044：服务器级 RVV 1.0 的关键载体

Triton-RISCV 端到端优化路径的性能落地，最终依赖于 RVV 1.0 指令在硬件平台上的高效执行。算能 SG2044 作为面向 AI 与高性能计算场景的 64 核服务器级 RISC-V 处理器，原生支持 RVV 1.0 扩展，并具备完整的 Linux 工具链与软件支持，能够原生承载大型基础软件项目的构建与运行。

正是基于上述硬件与软件基础能力，本次 Triton-RISCV 适配工作选择 SG2044 作为评测与开发平台，并在该平台上完成了从 Triton 前端到 RVV 指令的完整编译路径性能验证。这一实践也进一步印证了 SG2044 在 AI 编译、科研计算与服务器级智能计算等场景下的适用性。