一文看懂 TritonNext 2026：FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”！_行业新闻

一文看懂 TritonNext 2026：FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”！

创始人

2026-01-12 11:09:55

0次

作者 | CSDN 编辑部

出品丨AI 科技大本营（ID：rgznai100）

算力已成为 AI 时代的“石油”，但如何高效挖掘异构算力的潜能，打破单一硬件架构的软件壁垒，是全行业面临的共同考题。

过去二十年，CUDA 几乎定义了 GPU 编程的主流路径。但在 2026 年，随着更多国内 AI 芯片算力崛起与异构计算的普及，Triton 正从一个学术界的编程语言，演变为工业界打破 CUDA 垄断、连接上层算法与底层芯片的关键“通用语”。然而，语言的繁荣也带来了新的挑战：算子开发如何平衡易用性与极致性能？如何解决碎片化的硬件适配难题？

1 月 9 日，由众智 FlagOS 开源社区、北京智源人工智能研究院与 CSDN 联合主办的「2026 TritonNext 技术大会」在北京海淀区中关村国家自主创新示范区展示中心盛大开幕。

作为国内首个聚焦 Triton 生态与下一代算子编程和编译器技术的硬核盛会，本次大会以“聚焦下一代算子编程语言与真实落地实践”为核心，汇聚了来自北京智源人工智能研究院、中科院计算所、华为、蚂蚁集团、字节跳动、百度、摩尔线程等顶尖机构与企业的 AI 系统专家。从 FlagOS 的统一生态构建到大厂的落地实战，从 AI 辅助编程到 RISC-V 的前沿探索，与会专家共同探讨了 AI 编译器、高性能算子开发及异构硬件适配的最新解法，吹响了 AI 系统软件栈向“好用、通用”进军的号角。

本次大会由 FlagOS 开源社区秘书长朱其罡主持，他热烈欢迎了所有开发者的到来。朱其罡表示，纵观计算机技术发展史，编程语言总是向着更高级、更抽象的方向演进。在 AI 领域，Triton 凭借其高效与优雅，吸引了无数开发者。接下来，一起聆听专家们对“下一代”算子编程语言的演进洞察及应用实践。这不仅是对技术的深挖，更是对 AI 基础设施的一次全面检阅。

林咏华：三大挑战指引 FlagOS v1.6 探索方向，以插件体系、语言扩展及 AI 赋能，加速破解 AI 软硬件“M x N”的生态难题

林咏华北京智源人工智能研究院副院长兼总工程师

“我们不仅着眼于今天的 Triton，更要探索 Triton 的 Next。”

大会伊始，北京智源人工智能研究院副院长兼总工程师林咏华便为本次技术大会定下了前瞻性的基调。她回顾了海外 Triton 大会的技术热潮，并指出，在中国举办首届 TritonNext 大会，旨在汇聚生态之力，共同思考 AI 系统软件的未来演进。

林咏华首先重温了 FlagOS 的初心：“让 AI 算法创新不用担心下层‘计算’的问题，芯片创新不用担心上层‘生态’的问题。”基于这一愿景，FlagOS 自 2022 年底 PyTorch 2.0 发布后便选择 Triton 路线。经过近两年的发展，其生态已初具规模——不仅打造了全球最大的通用算子库 FlagGems，更构建了已支持 12 家厂商 AI 芯片的统一多芯片编译器 FlagTree，初步解决了国产芯片生态的“南向”统一问题。

然而，AI 软硬件生态正迎来新一轮的剧烈变局。林咏华将其总结为三大核心挑战：芯片架构的快速迭代、算子语言的生态分裂、以及 M 种框架与 N 种芯片的“M x N”适配难题。

为应对新变局，林咏华在现场分享了最新的开源统一 AI 系统软件栈 FlagOS v1.6。新版本通过 FlagScale 开源插件体系，将框架与芯片解耦，把复杂的“M x N”适配问题降维为“M+N”，目标是要极大降低国产大模型的迁移成本；针对算子语言的碎片化趋势，FlagOS 推出了 TLE (Triton Language Extension) 预览版，在保持易用性的同时赋予开发者更强的性能控制力；同时，将 Triton-Copilot 正式升级为 KernelGen v1.0，构建起覆盖“描述-生成-验证-适配”全生命周期的自动化平台，将算子开发从“劳动密集型”推向“AI 自动化”。

演讲最后，林咏华展示了 FlagOS 社区的硬核数据：截至目前，项目已累计拥有 2,546,586 行代码，Git Clone 次数高达 162,789 次，汇聚了 658 位代码贡献者。她表示，FlagOS 正携手 65 家生态伙伴，致力于成为 AI 时代的开放计算基石，共同推动技术向前。

崔慧敏：AI for Compiler，以“自适应编译”破解芯片快速演进难题

崔慧敏中国科学院计算技术研究所研究员、博士生导师，中科加禾创始人兼 CEO

“我们希望把 AI 的技术引进编译器，从过去的人工牵引，转向未来的智能驱动。”面对日新月异的芯片架构，传统编译器漫长的开发周期已成为算力创新的瓶颈。中国科学院计算技术研究所研究员崔慧敏在演讲中指出，理想的编译器需要兼顾“好”（强优化能力）与“快”（快速生成适配），而 “AI for Compiler” 的自适应技术，正是实现这一目标的破局之道。

为实现这一构想，崔慧敏团队构建了一套 AI 驱动的工具链。首先，VEGA 工具通过自动化流程生成编译器后端，将过去需要数月人工编写数万行代码的工作大幅提速。为进一步提升代码质量，团队还构建了包含 74 万样本的专用数据集 ComBack++，并基于此微调出后端专用大模型 BePilot，可作为开发者的智能编程助手，将关键任务的准确率从零提升至近 60%。

而最令人兴奋的突破在于性能优化。通过构建优化专用数据集 IR-OptSet，团队训练的 AI 编译器竟找到了超越人类专家设计的优化路径。崔慧敏展示的数据显示，在测试中，AI 优化的结果有 64 个案例的性能超越了业界公认高度优化的 LLVM -O3。

崔慧敏总结道，从自动生成到智能优化，AI 正在重塑编译器的开发范式，为国产 AI 芯片的快速生态构建提供了强大的“智能引擎”。

致谢仪式：众智 FlagOS 社区致谢生态贡献

一场技术盛会的价值，不仅在于前沿思想的碰撞，更在于生态力量的凝聚。当上午场的技术分享渐入佳境，议程也迎来了一个特别的环节，将全场目光聚焦舞台中央，共同见证 FlagOS 社区发展历程中的两个里程碑时刻。

首先，大会举行了“众智 FlagOS v1.6 研发致谢单位授予仪式”。北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS v1.6 版本研发中做出卓越贡献的单位代表上台，接受了这份代表社区认可的荣誉。

紧接着，“众智 FlagOS 社区 FlagTree 项目第一届项目管理委员会”正式成立。傅振东（天数智芯）、刘笑妍（北京智源人工智能研究院）、刘红雨（百度）、门春雷（北京智源人工智能研究院）、邱凌峰（摩尔线程）、任鸽（昆仑芯）、杨锐林（北京智源人工智能研究院）、郑杨（北京智源人工智能研究院）、曾平（寒武纪）九位来自社区核心单位的技术负责人。这标志着 FlagOS 社区的治理迈向了更加开放、共建的新阶段。

这一环节不仅是对过去一年多来所有贡献者辛勤付出的肯定，更展现了 FlagOS 社区“众智”的力量——正是这些来自产学研各界的核心力量，共同推动着国产 AI 系统软件栈从愿景走向现实。

上海人工智能实验室：DLCompiler，打破算子开发与优化的“不可能三角”

“高性能算子体系是国际 AI 竞争的核心战场，也是 NVIDIA 生态的核心护城河。”上海人工智能实验室专家在演讲中指出，当前国产算子开发正深陷“开发门槛高、调优难度大、架构兼容难”的“不可能三角”困境，严重制约了国产芯片的生态建设。

为打破这一僵局，团队推出了 DLCompiler——一套基于 Triton 扩展的全栈优化解决方案。它并非简单地进行后端适配，而是在语言、模型和编译链路上进行了深度创新。

在语言层面，DLCompiler 重构并扩展了 Triton 的语法原语，同时提供了从初学者到专家的四层渐进式 API，在降低入门门槛的同时，也为追求极致性能的专家提供了精细化控制硬件的能力。

针对昇腾等国产芯片 Cube 核与 Vector 核分离的架构特性，DLCompiler 创新性地提出了 Produce/Consumer 编程模型。通过显式的流水线编排取代通用调度，该模型能更精细地控制数据在不同计算单元间的流动，从而在 Attention 等复杂算子上榨干硬件性能。

实战效果验证了 DLCompiler 的威力。专家展示的数据显示，在昇腾平台上，优化后的算子性能相比社区通用实现提升了 1.2 至 1.9 倍；特别是在 8k 输入的 AttentionProlog 融合算子场景下，性能加速比甚至达到了惊人的 180%。

演讲最后，专家展望了 DLCompiler 的未来蓝图：通过打造产业级工具链，迁移 1000+ 算子到国产 AI 芯片，加速替代 CUDA 生态，突破国产 AI 芯片大规模落地的瓶颈。目前，DLCompiler 与其高性能算子库 DLBlas 均已开源。

门春雷：FlagTree v0.4 亮相，以“三层 DSL”重塑异构芯片编译生态

门春雷北京智源人工智能研究院 AI 系统研究团队负责人

“一次编写，多处编译。FlagTree 的目标是大幅降低跨平台适配成本，让开发者专注于算法本身。”面对 AI 芯片生态的碎片化现状，智源研究院 AI 系统团队负责人门春雷在演讲中，详细介绍了统一编译器 FlagTree 的最新进展。

门春雷首先强调了统一编译器的价值所在。他指出，GPGPU 与 DSA 架构的差异导致了严重的生态割裂，开发者为不同芯片重写优化、掌握多种编程模型的成本极高。FlagTree 的核心理念正是通过分层抽象架构，实现“Write once with Triton, compile anywhere”。

为此，FlagTree 团队推出了 TLE (Triton Language Extensions)，一个创新的三层协同 DSL 扩展：

TLE-Lite：面向算法工程师，通过高层语义提示引导编译器优化，实现“一次编写，到处运行”。
TLE-Struct：面向性能优化工程师，暴露 GPGPU/DSA 通用的并行和存储结构，实现“架构感知，精细调优”。
TLE-Raw：面向底层开发者，支持内联厂商原生代码，实现“原生透传，极致掌控”。

通过这套渐进式语言体系，FlagTree 在易用性、可移植性和极致性能之间取得了精妙平衡。门春雷展示的实测数据显示，在 DeepSeek 的核心算子上，仅需一行 TLE-Lite 的异步加载提示，GPU 性能便提升了 27%；在 DSA 硬件上，TLE 优化后的算子延迟相比原生 Triton 降低了 50% 以上。

除了语言层面的创新，门春雷还重点介绍了 FlagTree 对开发者体验的极致追求。通过 PyPI 一键安装、预编译包离线部署等方式，将过去动辄半小时的编译安装流程缩短至 5 分钟以内，解决了企业内网、超算中心等场景的部署难题。同时，深度集成的 CI/CD 质量保障体系、性能回归测试、以及与 PyTorch/PaddlePaddle 的无缝集成，都旨在为开发者提供一个稳定、易用、高效的开发环境。

门春雷透露，团队正在“憋大招”——设计一套面向 DSA 架构的统一中间表示 FL-IR，并将在未来版本中正式发布，进一步推动多芯片生态的融合。

郑思泽：Triton-Distributed，从单卡到多卡的“编译级”性能跨越

郑思泽字节跳动工程师

“如果仅仅因为更换了网络拓扑或并行策略，就需要重写成百上千行的 CUDA 代码，这种工程代价是不可接受的。”字节跳动工程师郑思泽的开场，一针见血地指出了当前大模型分布式编程的痛点。

为解决这一难题，字节 Infra 团队带来了他们的开源解决方案——Triton-Distributed。其核心目标是抽象底层硬件和通信的复杂性，让开发者能以编写单卡 Triton 的简洁体验，开发出高性能的分布式算子。

Triton-Distributed 的创新之处在于引入了一套三层编程模型（Tile, Chunk, Task）。该模型为开发者提供了从细粒度的线程级通信（Tile），到数据块的异步搬运（Chunk），再到上层计算任务图调度（Task）的灵活抽象。这套体系，配合分布式数据重排（Swizzling）、硬件指令调用等一系列深度优化技术，使得计算与通信能够实现极致的重叠（Overlap）。

实战性能数据验证了 Triton-Distributed 的强大能力。在单层算子上，其性能相比传统的 CuBLAS+NCCL 方案最高可提升 1.43 倍。更令人瞩目的是，在 LLaMA3-70B 模型的端到端推理中，它将 Token 生成延迟从近 50ms 压缩至 12.25ms。而在带宽受限的 PCIe 集群上，其优势更为明显，在 MoE 场景下甚至取得了高达 49.84 倍的惊人加速。

郑思泽表示，Triton-Distributed 致力于让开发者从繁琐的分布式细节中解放出来，推动开源 AI 生态的繁荣。

甄羿：DeepSeek 落地实战——Triton 是国产 DSA 的“破局之刃”，但还需打磨

甄羿蚂蚁集团技术专家

“在真正的落地场景中，无论模型多么宏大，最终一切都会落到算子上面。”当千亿参数的 DeepSeek V3.2 遇上新兴的国产 DSA（专用领域架构）芯片，会擦出怎样的火花？蚂蚁集团技术专家甄羿在演讲中，给出了来自工业界一线的答案。

甄羿首先肯定了 Triton 在多芯片适配中的核心地位。他直言，相比为每款新硬件手写底层代码，Triton 极大地降低了开发门槛，缩短了接入周期，这对于成本和时间极其敏感的商业公司至关重要。然而，他也坦言 Triton 并非“万能药”，其原生为 GPU 设计的编程模型与许多国产 DSA 硬件存在天然的“映射错位”，加之后端工具链尚不成熟，导致直接迁移的代码性能不佳。

面对 DeepSeek 中的 TopK 排序、KV Cache 融合等“硬骨头”，蚂蚁团队并未退回到手写 Native 代码的老路，而是利用 TLE (Triton Language Extension) 进行突围。例如，在 TopK 算子中，通过桶排序算法规避了硬件指令的短板；在 KV Cache 融合算子中，通过改变切分方式并引入 Double Buffer 机制，将性能从原生的 2400us 优化至 50.13us，实现了超过 40 倍的跃升，几乎追平了手写 Native 算子的极限。

演讲最后，甄羿向全行业发出呼吁：共建“评测-优化-开源”的正向生态循环。他强调，蚂蚁集团通过与 FlagOS 社区的深度合作，利用 FlagGems 算子库和 FlagTree 编译器，有效避免了“重复造轮子”。他希望更多开发者加入进来，共同打磨 Triton 和 FlagOS 工具链，让国产 AI 软硬件生态从“单点突破”走向“全面繁荣”。

马永强：飞桨支持原生 triton，大模型 triton 算子可一键迁移

马永强百度资深工程师

“开发者不应在底层硬件的适配泥潭中挣扎。飞桨要做的，就是让 Triton 算子在不同芯片上‘无感’迁移，像用 Python 一样简单。”百度资深工程师马永强在演讲中，从生态兼容与开发效率的角度，分享了飞桨（PaddlePaddle）如何通过原生支持 Triton，打通大模型落地的“最后一公里”。

马永强开场便强调了生态兼容的重要性。通过对 Triton 的原生编译器支持，飞桨实现了对 import triton 的无缝兼容。这意味着，开发者现有的 Triton Kernel 代码仅需一行声明，即可直接在飞桨框架中运行，极大降低了用户从 PyTorch 生态迁移的学习成本，可以复用社区中丰富的算子资产。

为应对国产芯片“百芯大战”的局面，飞桨推出了 CustomDevice 硬件接入机制。这一机制让飞桨能够快速扩展朋友圈，目前已高效支撑了 10+ 家硬件厂商的 25+ 款芯片接入。

在性能方面，马永强展示了飞桨“软硬结合”的威力。通过引入 WINT2 极致量化和 CUDA Graph 图优化技术，在大模型推理上取得了显著突破。以文心 4.5 (300B) 模型为例，优化后的飞桨推理吞吐量（TPS）高达 276.42，相比主流开源推理引擎提升了 40%，让单卡部署超大模型成为可能。为解决新硬件上“跑得通但算不对”的顽疾，飞桨还构建了覆盖 2700+ 开源模型的 GraphNet 自动化验证体系，以及 PaddleAPITest 算子正确性验证工具，目标是实现“GPU 收敛后，跑通即收敛”，彻底消除开发者对国产硬件稳定性的顾虑。

海纳：摩尔线程深度适配 FlagTree，三大“特化”技术榨干国产 GPU 性能

海纳摩尔线程编译器首席架构师

“作为一家硬件厂商，我们的目标不仅是让 Triton 代码跑通，更是要跑得极致。语言上不分裂，实现上各显神通，这是我们对生态的承诺。”摩尔线程编译器首席架构师海纳在演讲中，揭秘了他们在适配 FlagTree 编译器过程中的“性能密码”——通过三大技术组合拳，成功打破了国产 GPU 的性能天花板。

首先，通过 Linear Layout 的数学魔法，巧妙地建立了物理硬件与逻辑数据之间的关系，从而大幅提升访存效率，避免了因数据争抢导致的性能瓶颈。

其次，团队引入了 Warp Specialization（Warp 特化）技术。“传统的 GPU 编程像是一个人既要搬砖又要砌墙，而 Warp 特化则是让一部分线程专门负责搬运数据，另一部分线程专门负责计算。”海纳形象地比喻道。这种“专人专用”的分工模式，配合摩尔线程硬件的异步拷贝能力，使得计算单元几乎可以一直处于满载状态。

最后，通过与智源 FlagOS 团队的深度合作，利用 TLE (Triton Language Extension) 标准实现了显式的流水线控制，让计算任务像工厂流水线一样高效运转，大幅掩盖了数据读取的延迟。

在生态合作上，海纳也强调了摩尔线程的鲜明态度。他坦言，虽然摩尔线程在底层做了大量定制优化，但在上层语言标准上，未来将全面拥抱并 Follow 智源发布的 TLE 标准。“我们不希望开发者为了适配摩尔线程而学习一套新的语言，”他总结道。

刘广：KernelGen v1.0 发布，“Code is cheap”，算子开发的护城河在于验证

刘广智源系统智能研究组负责人

“在 AI 时代，代码生成变得廉价，但验证能力才是核心竞争力。Code is cheap, show me your test。”

2025 年，AI 的推理能力正从实验室走向工程可用。智源系统智能研究组负责人刘广在演讲中敏锐地指出，算子开发正如一道奥数题，它有清晰的边界、可量化的目标和可验证的标准，是 AI 发挥推理能力的绝佳场景。在此背景下，他正式发布了 KernelGen v1.0——AI 驱动的 Triton 算子自动生成与验证平台。

刘广指出，当前的算子开发仍是一个“劳动密集型”工作。KernelGen 的破局之道在于构建了一个“生成-反馈-验证”的全自动闭环。用户仅需输入数学公式或自然语言描述，平台即可自动生成 Triton 代码，并利用 PyTorch 原生实现作为 Ground-Truth 进行正确性比对和性能测试，全流程无需人工干预。刘广在现场展示了 KernelGen 的实战能力：从需求输入到生成可用代码，最快仅需 120 秒；在性能上，66% 的自动生成算子性能超过了 0.8 倍的手写 CUDA 性能，部分甚至超越了手写 Triton 代码。

演讲的尾声，刘广将话题引向了更深层次的行业思考。他提到了近期 Meta 收购 AI 代码生成公司 Manus 的热点事件，并引用其创始人的观点：Benchmark（基准测试/验证能力）才是更强大的能力。“生成的代码敢不敢用？这取决于你的验证体系，”刘广强调，KernelGen 的核心价值不在于“会写代码”，而在于其拥有基于 PyTorch 的多芯片确定性验证机制。

展望未来，KernelGen 制定了清晰的 2026-2027 路线图。团队计划在近期实现批量算子生成和性能自优化，支持 8 款芯片的后端兼容性评测。最终目标是完善算子生态，开源超过 1000 个自动生成的算子，并将算子开发效率提升一个量级，让生成时间降低到秒级。“我们的愿景，是让算子开发像写 Python 一样简单，”刘广总结道，“通过 AI 驱动的自动化，大幅降低 GPU 算子开发门槛，加速国产芯片生态建设。”

深度应用 Triton，九位一线技术专家拆解核心用法和优化思路

下午场的「Triton 最佳实践」分论坛，聚焦性能调优、跨硬件适配与编译器优化等技术方向。九位来自科研机构和产业一线的专家，依次分享了各自的实践案例，详细介绍了 Triton 在不同硬件环境中的应用方法与工程经验，进一步拓展了其应用边界。

邵恩：面向异构硬件的系统软件共性优化

邵恩中国科学院计算技术研究所高级工程师

面对异构硬件的碎片化，中国科学院计算技术研究所高级工程师邵恩指出，构建中立、可控的 SYCL 生态，并通过追求程序与硬件资源间的通用耦合优化，是缓解国产芯片生态碎片、打破行业垄断的重要途径。随后，邵恩展示了其团队在基于 SYCL 统一编程模型的代码编译生成工具链上的关键成果：其工具链已完成 SYCL 到 AMD GPU 的适配并开源到国际社区，这是首个由社区贡献的 AMD GPU SYCL 支持模块，并被 Intel oneAPI 社区采纳加入主分支（CTS 适配度超过 90%）。同时，工具链实现了 TVM-SYCL 的代码生成验证，是首个支持 Apache TVM 的 SYCL 后端，并被 TVM 社区采纳入主分支。

在此基础上，邵恩分享了面向不同体系结构的通用优化技术，包括在多租户场景下兼顾关键任务时延与整体吞吐量、挖掘 Thread Block 之间潜在数据依赖，并充分拓展可并行算子融合的范围，以提升算子执行效率。他指出，通过 SYCL 统一编程模型，这些优化能够让更多国产 AI 模型在多样化芯片上高效运行，推动国产芯片生态向可用性和通用性发展。

朱天阳：Triton语言扩展TLE硬件感知层设计和实现

朱天阳中科加禾研发总监、资深专家

尽管 Triton 通过类 Python 风格的开发体验和高效编译优化降低了算子开发门槛，但在国内异构硬件环境下仍面临挑战：GPU 是主流，而非 GPGPU 架构的 DSA 芯片差异化明显。为应对这一问题，TLE 提供分层编程接口，同时抽象 GPU 与 DSA 的通用性与硬件特性，实现跨架构适配与性能优化。中科加禾研发总监、资深专家朱天阳随后分享了 TLE 的最新进展及分层设计理念与实现。

他解释道，TLE 分层设计包括：TLE-Lite，将硬件无关的基础算子进行抽象；TLE-Struct，将具体硬件特性封装为可调参数，从而在统一框架下兼顾通用性和性能。在编译器实现方面，朱天阳表示，通常可以根据抽象层次按表中建议选择下降路径，但具体行为仍依赖于编译器实现。当前，TLE 在 DSA/GPU 抽象层的开发已覆盖 Buffer、Layout、Math、Scope、Pipeline、Slice、Sync 等模块，并可通过 to_tensor / to_buffer 与原生 Triton 混合使用。此外，工具链已完成一系列基础算子测试验证。实测显示，在国产 DS-v3.2-Exp 模型上，TLE 对关键算子优化后，kv_rmsnorm_rope 性能提升 1.4 倍，接近 CANN 原生算子性能的 95%，SparseFA 提升 8 倍以上。

郭依蓬：AscendNPU IR完备表达昇腾，开源开放支持多语言接入

郭依蓬华为昇腾 CANN 生态技术专家

华为昇腾 CANN 生态技术专家郭依蓬在大会上深度拆解了 AscendNPU IR 的核心技术架构。其多级抽象设计，通过 HFusion 多维度融合抽象层降低三方框架对接难度，提供 Tensor 级融合能力；同时，借助 HIVM 硬件抽象层，对昇腾执行细节进行完备表达——从分核架构抽象，到计算、同步、搬运操作管控，再到内存资源管理，全链路支撑面向昇腾的深度优化。这种设计，使开发者无需深入硬件细节，就能通过 Triton 等熟悉的 DSL 提升算子性能。

郭依蓬介绍，昇腾通过 Triton-Ascend 兼容社区 Triton 特性与开发范式，并基于 AscendNPU IR 协同 FlagTree 构建高效算子编程生态，已实现 140+ 昇腾高性能算子落地。当前，AscendNPU IR（https://gitcode.com/Ascend/AscendNPU-IR）与 Triton-Ascend（https://gitcode.com/Ascend/triton-ascend）已全面开源，并配套文档、样例和社区资源，支持开发者探索多语言适配和异构硬件优化。

柴赟达：面向 Triton 编译器的编译优化实践

柴赟达先进编译实验室基础编译部部长

紧接着，先进编译实验室基础编译部部长柴赟达介绍了 Triton 算子生成与编译优化的实践。他表示，Triton 算子可通过自动生成或手工实现：自动生成依托 PyTorch 的 TorchDynamo、AOT Autograd 和 PrimTorch，将操作降低为 Inductor IR 并生成 Buffer，以进行调度和融合优化；手工实现则需定义算子功能、编写实现并封装以适配 PyTorch API，如 Angle 算子支持多种数据类型和运算验证。完成算子生成后，还可通过运行时参数、启发式算法和 Auto-tune 优化 Kernel 配置，自动选取性能最优参数。

在跨架构编译优化方面，柴赟达分享了 GPU、CPU 和 DSA 的多层策略：针对 DSA，利用 Triton-Linalg 和 Hint 注释优化 DMA 调度与共享内存分配；针对 Ascend，通过 FlagTree 中间 IR Pass 兼容 Triton-Ascend 与 LLVM 版本差异；CPU 优化结合 LLVM 向量化和 OpenMP 提升吞吐量；GPU 优化包括访存合并、张量核心分块配置和代数变换，提高算力利用率。整体方案覆盖从 Triton Kernel 到后端 Target IR 的全链路，实现算子性能、硬件可编程性与多架构适配的统一。

郭晖：TLE——一种为各层次用户设计的 Triton 语言扩展

郭晖北京智源人工智能研究院 AI 编译器研究员

针对 Triton 在细粒度控制和异构硬件适配上的不足，北京智源人工智能研究院 AI 编译器研究员郭晖进一步阐述了 TLE 面向不同层次开发者的设计思路。他表示，TLE 通过构建 TLE-Lite、TLE-Struct、TLE-Raw 三层递进式扩展架构，在保持 Triton 易用性的同时，引入更灵活的控制能力，既覆盖从算法工程师到性能优化专家的多样化需求，也从架构层面缓解了 Triton 在 DSA 适配上的核心痛点。

郭晖指出，三层扩展体系各有侧重。TLE-Lite 定位为硬件无关的轻量级扩展，遵循“一次编写，到处运行”的理念，通过高层语义提示引导编译器自动优化，仅需最小代码改动即可获得跨平台性能收益，适合算法工程师在不关注硬件细节的前提下进行快速迭代。TLE-Struct 面向算子开发工程师，引入架构感知能力，依据硬件特征对后端进行 GPGPU、DSA 等聚类划分，显式暴露层次化并行与存储结构，支持精细的数据布局与并行策略定义。TLE-Raw 则进一步打破 DSL 抽象边界，支持内联 MLIR、PyCUDA 等厂商原生代码，直接生成目标指令，为性能优化专家提供对硬件的完全控制能力，以追求极致性能。

在 DSA 适配方面，TLE 也给出了分层对应的解决方案。TLE-Lite 通过统一的高层接口降低不同 DSA 架构的重复开发成本；TLE-Struct 针对 DSA 进行专门聚类，抽象共性硬件结构，减少适配复杂度；而 TLE-Raw 则依托原生代码透传能力，允许开发者直接接入 DSA 厂商的编译管线，快速响应新硬件特性，从而弥补 Triton 难以及时跟进硬件演进的不足。

张先轶：基于 FlagGems Triton 的运行时调优与算子优化

张先轶北京澎峰科技创始人兼 CEO

作为 OpenBLAS 的发起人，北京澎峰科技创始人兼 CEO 张先轶以 FlagGems C++ Wrapper 的底层依赖——轻量级 C++ 运行时库 libtriton_jit 为例，分享了团队在高性能算子库上的核心优化实践。他表示，重构 libtriton_jit 有两个核心目标：一是降低开销，消除纯 Python 运行时中不可避免的解释器开销和调度延迟；二是实现多后端统一，提供统一 C++ 接口，支持多硬件后端，并屏蔽底层 API 差异。

在技术实现上，他选择了 Policy-Based Design（编译时多态），利用 C++ 模板在编译期静态确定行为，从而消除抽象层开销，同时兼顾灵活性。虽然这种做法会增加二进制体积，但经过优化，wrapper 延迟显著下降，整体性能提升 2.5～4 倍；在小算子场景下，平均延迟仅为 11.69 μs，比重构前快 43%。此外，他进一步分享了算子层面的优化实践，包括在 mm 算子加入 TMA 优化，同时提升 TensorDescriptor 稳定性，并扩大 Triton Autotuning 搜索空间；对 Kron、argmin、resolve_conj、gelu_backward、glu_backward 等算子，则通过针对算法特性的 Block_size 调整，实现了更高加速比。整体而言，这些优化不仅大幅降低了延迟，也实现了算子层面的极致解耦，为构建高性能算子库提供了一套高效、灵活且可维护的解决方案。

吴伟：FlagOS on RISC-V 现状及规划

吴伟上海苦芽科技联合创始人

RISC-V 与 AI 的结合，正成为当前最受关注的技术方向之一。上海苦芽科技联合创始人吴伟指出，作为全球开放指令集架构，RISC-V 正逐步演变为 AI 与智算芯片领域的“默认 ISA”。同时，FlagOS 被定位为“面向多种 AI 芯片的系统软件栈”，希望通过统一的软件接口，支持不同类型的 AI 加速芯片。

如今 FlagOS 选择全面拥抱 RISC-V，吴伟称，主要基于四方面考量。首先，从产业趋势看，NVIDIA、Meta、Google、高通等厂商已在 AI 芯片中引入 RISC-V。其次，AI 算力形态日益多样，SpacemiT K1、Tenstorrent、Meta MTIA 等加速器均以 RISC-V 作为核心架构。第三，RISC-V 生态逐渐成熟，Ubuntu、Debian、OpenEuler 等主流操作系统已提供稳定支持。最后，RISC-V 在扩展性上更贴合 AI 需求，RVV 以及 AME、IME、VME 等扩展为高性能计算奠定了硬件基础。与此同时，国内“松竹梅计划”和 “RACE 委员会”也在推动产学研协同，加速完善整体生态。

吴伟表示，尽管 FlagOS on RISC-V 当前仍处于起步阶段，但发展路径已较为明确。面向未来的发展，他也分享了技术路线图：2026 年 1—4 月完成 FlagTree 对 RV64GC 后端的支持，8 月前实现 RVV 1.0 适配，年底前适配 SG2044、A210 等硬件平台；到 2027 年 5 月，计划完成对 IME、AME 扩展的实验性支持，并实现对 RVA23 的完整支持，使整体生态成熟度接近 Arm64 水平。同时，其正依托“甲辰计划”与 FlagOS 社区，通过开源实习生机制吸引人才，并连接香山、乘影等硬件社区，推动 FlagOS 融入并服务全球 RISC-V 生态。

王锋：基于 Triton 的高性能分布式算子实现及编译优化

王锋湖南卡姆派乐信息科技有限公司总经理

湖南卡姆派乐信息科技有限公司总经理王锋介绍了其团队基于 Triton 的高性能分布式算子实现及编译优化成果。他指出，Transformer Engine（TE）与 Triton Distributed（TD）是两大核心分布式算子方案：其中，TE 依托 PyTorch Distributed 的 NCCL 后端，支持 FP8 混合精度计算与通信重叠；TD 基于 NVSHMEM 构建共享内存机制，在通信性能上相较 Torch 更具优势。

王锋强调，分布式算子的性能突破离不开底层编译器与核心算子的协同优化，并重点展示了 Triton 编译器优化与 FlagGems 算子优化两方面进展。在编译器层面，Shared Memory Hint 通过注解方式显式指定数据加载至共享内存，在 A100 GPU 的 mm 算子测试中，由于 Pipeline 优化较为充分，整体性能提升有限，但为共享内存紧张场景提供了新的调度空间。基于此，团队提出 SPLIT-K 策略，对 K 维度进行二次切分，在大 K 场景下减少加载指令、小 K 场景下提升并行度，在 Shared Memory Hint 场景中效果明显。

在此基础上，FlagGems 针对 mm 算子进一步缩小 Triton 与 TileLang 的性能差距。此前在 H100 GPU 上，两者差距曾达 25.58%～39.65%。通过引入 TMA 优化（张量描述符与 descriptor_load）及新增 BLOCK_M/N=256 的配置优化，优化后经 NCU 工具测试，Triton 与 Tilelang 性能基本持平，内置计时器下差异可忽略，实现了算子性能的显著提升。

李先铎：基于 FlagOS 软件栈的多芯片统一后端插件设计与实践

李先铎北京智源人工智能研究院 AI 框架研发工程师

北京智源人工智能研究院 AI 框架研发工程师李先铎分享了基于 FlagOS 软件栈的多芯片统一后端插件设计与实践。他指出，FlagOS 统一后端插件架构以 FlagGems 算子库和 FlagCX 通信库为核心支撑，构建了高可扩展的插件化体系。该架构基于 TransformerEngine-FL 实现 0 侵入、统一后端 Op API，通过两层 Dispatch 机制解决多芯片适配难题：Language Dispatch 支持灵活选择 FlagOS 原生 Op 或厂商 Op，可无缝接入厂商高性能计算库并路由至最优性能算子；Op Dispatch 则支持 FlagOS Op 中的 Kernel 在多芯片后端运行。

在实践中，FlagOS 插件化设计已显现成效。李先铎透露，英伟达芯片上已完成 Qwen3-16B 模型分布式训练的 Triton Kernels 全覆盖，性能达原生版本约 80%；国产芯片方面，海光、昆仑芯、寒武纪等厂商均已成功接入。面向未来，FlagOS 统一后端插件将持续拓展能力边界，其中在性能优化上推进 Triton 融合算子研发，实现显存优化、降低 Kernel 启动开销，并支持分布式大 OP 计算与通信重叠调度；算子覆盖方面，将适配更多 Dense/MoE 模型及新型架构，并通过精度测试、性能基准体系和 OpManager 策略，实现算子粒度动态选择与自动化适配，推动“一次开发，处处运行”的生态建设。

三大实战工作坊：将理论与实践深度链接

下午，大会议程在广度与深度上进一步展开。除了聚焦产业前沿的分论坛，大会还特别设置了三场技术工作坊，为开发者提供了一个将前沿理论与工程实践紧密链接的交流平台。

在“‘人机协作’的 Triton 算子开发”工作坊中，来自北京智源人工智能研究院的陶健和韩冬煦，为与会者进行了一场深度的算子开发的技术剖析与现场演示。通过从官网注册到实际使用的完整走查，开发者们直观地看到了 KernelGen v1.0 如何将“自然语言描述需求”转化为“经过自动化验证的高性能 Triton 代码”，深刻体会到 AI 驱动下算子开发的全新范式。

由原点代码 CTO 宫文学主导的“FlagOS-AI 编译器实战”工作坊，则以一场 Live Coding 的形式展开。在导师的指引下，开发者们通过克隆代码库、剖析真实示例，系统地理解了从前端算子到 IR、再到后端代码生成的全过程，完成了从“会用框架”到“能造引擎”的关键认知升级。

在“基于 FlagOS 的具身一站式平台”工作坊里，北京智源人工智能研究院的敖玉龙和潘腾飞则系统性地展示了具身智能从数据到模型的工程闭环。现场详细拆解了从真实机器人数据采集，到在国产算力上完成具身模型训练的全过程，为这个前沿领域的工程落地提供了清晰的实战指引。

TritonNext：始于一行代码，成于众人之智

从上午场深度的技术趋势及架构剖析，到下午场热烈的技术实践与代码实战操练，2026 TritonNext 技术大会不仅呈现了一场关于 Triton 与 AI 系统软件的技术盛宴，更生动诠释了“众智”的力量。

当“一次编写，处处运行”不再是遥远的理想，当 AI 开始自动生成并验证算子，当开发者们能够通过统一的开源社区协同攻克异构硬件的壁垒——我们看到的，是一个正在加速繁荣的、由开发者驱动的开源新生态。这场大会是起点，更是集结号，真正的变革将在每一行被贡献的代码、每一次社区的讨论中发生。

对于奋战在一线的开发者而言，“异构适配”与“性能优化”或许是过去几年中最令人头疼的工程难题。而贯穿 2026 TritonNext 技术大会始终的，正是对这些难题的正面回应。

从 KernelGen 将算子开发门槛降至“分钟级”，到 FlagTree 让跨芯迁移成本缩短至“天级”，再到 Triton-Distributed 将分布式编程化繁为简——大会传递出一个明确的信号：工具的进化，正在将开发者从繁琐的底层适配工作中解放出来，能够重新聚焦于最具创造力的算法与应用创新。AI 系统软件的未来，正由每一位被赋能的开发者亲手构建。

FlagOS 亮点语言底层算子软件 Triton 大会芯片生态编译器

上一篇：阳光电源（300274）1月9日主力资金净卖出8.38亿元

下一篇：晶合集成申请半导体结构及其制备方法专利，提升图像传感器的成像清晰度与信噪比

一文看懂 TritonNext 2026：FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”！

相关内容

热门资讯