Orthrus：双视图扩散实现内存高效并行令牌生成，推理加速最高达 7.8 倍！-云南昆明建网站

导航菜单切换导航登录外观设置平台AI 代码创作GitHub Copilot借助 AI 编写更优质代码GitHub Spark构建并部署智能应用GitHub Models管理和比较提示词MCP Registry新集成外部工具开发者工作流Actions自动化任何工作流Codespaces即时开发环境Issues规划和跟踪工作Code Review管理代码变更应用程序安全GitHub Advanced Security发现并修复漏洞代码安全在构建过程中保障代码安全密钥保护防患于未然阻止信息泄露探索为何选择 GitHub文档博客更新日志市场查看所有功能解决方案按公司规模划分企业中小型团队初创企业非营利组织按用例划分应用现代化DevSecOpsDevOpsCI/CD查看所有用例按行业划分医疗保健金融服务制造业政府部门查看所有行业查看所有解决方案资源按主题探索AI软件开发DevOps安全查看所有主题按类型探索客户案例活动与网络研讨会电子书与报告商业洞察GitHub Skills支持与服务文档客户支持社区论坛信任中心合作伙伴查看所有资源开源社区GitHub Sponsors资助开源开发者项目Security LabMaintainer CommunityAcceleratorGitHub StarsArchive Program仓库主题热门趋势集合企业企业解决方案企业平台由 AI 驱动的开发者平台可用附加组件GitHub Advanced Security企业级安全功能Copilot for Business企业级 AI 功能高级支持企业级 24/7 支持[定价]定价搜索或跳转至...搜索代码、仓库、用户、问题、拉取请求... 搜索清除搜索语法提示提供反馈我们会阅读每一条反馈并认真对待您的意见。包含我的电子邮件地址以便与我联系取消提交反馈保存的搜索使用保存的搜索可以更快地筛选结果名称查询要查看所有可用的限定符请参阅我们的文档。取消创建保存的搜索登录注册外观设置重置焦点您在另一个标签页或窗口中登录。重新加载以刷新您的会话。您在另一个标签页或窗口中注销。重新加载以刷新您的会话。您在另一个标签页或窗口中切换了账户。重新加载以刷新您的会话。关闭提醒 {{ message }} chiennv2000 /orthrus公开通知您必须登录才能更改通知设置分支 2星标 92代码问题 3拉取请求 0操作项目安全与质量 0洞察其他导航选项代码问题拉取请求操作项目安全与质量洞察chiennv2000/orthrus主分支分支标签转到文件代码打开更多操作菜单文件夹和文件名称名称最后提交消息最后提交日期最新提交历史记录 11 次提交11 次提交assets | assets | | src | src | | .gitignore | .gitignore | | LICENSE | LICENSE | | README.md | README.md | | pyproject.toml | pyproject.toml | | 查看所有文件仓库文件导航- README - MIT 许可证Orthrus通过双视图扩散实现内存高效的并行令牌生成Orthrus 是一个双架构框架它将自回归大语言模型LLM的精确生成保真度与扩散模型的高速并行令牌生成能力相结合这里是其官方实现和模型检查点。demo_orthrus.mp4模型库所有模型均使用 Qwen3 骨干网络并保证严格无损生成。模型基础模型HuggingFace平均加速比Orthrus-Qwen3-1.7BQwen3-1.7B HuggingFace4.25×Orthrus-Qwen3-4BQwen3-4.0B HuggingFace5.20×Orthrus-Qwen3-8BQwen3-8.0B HuggingFace5.36×安装uv pip install -e .uv pip install ninja packaginguv pip install flash-attn --no-build-isolation # 如果您的设备支持也可以使用pip install flash-attn-4[cu13] 我们推荐使用 [uv] 进行快速依赖解析。快速开始import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer model AutoModelForCausalLM.from_pretrained( chiennv/Orthrus-Qwen3-8B, dtypetorch.bfloat16, device_mapcuda, attn_implementationflash_attention_2, # 如果您的系统支持也可以使用 flash_attention_4 trust_remote_codeTrue,).eval()tokenizer AutoTokenizer.from_pretrained(chiennv/Orthrus-Qwen3-8B) prompt 编写一个程序来统计段落中每个单词的出现频率。messages [{role: system, content: }, {role: user, content: prompt}]input_ids tokenizer.apply_chat_template(messages, return_tensorspt, add_generation_promptTrue, enable_thinkingFalse).input_ids output_ids model.generate( input_idsinput_ids.to(model.device), max_new_tokens2048, use_diffusion_modeTrue, streamerTextStreamer(tokenizer, skip_promptTrue) # 启用流式生成)即将推出与 [vLLM] 和 [SGLang] 的原生集成即将推出敬请期待主要优势显著的推理加速打破了标准自回归解码的顺序瓶颈在生成任务上实现高达 7.8 倍的加速。严格无损生成采用精确的模型内共识机制确保输出与原始基础模型的精确预测分布相匹配。零冗余内存开销自回归和扩散视图都原生地关注完全相同的高保真键值KV缓存仅产生 $O(1)$ 的内存缓存开销。参数高效通过仅微调 16% 的模型总参数同时保持基础 LLM 严格冻结注入并行生成能力。性能比较Orthrus 与推测解码Orthrus 优于 EAGLE-3、DFlash 等推测解码方法。通过在双视图中原生共享完全相同的 KV 缓存Orthrus 避免了草稿模型的冗余内存开销从而显著提高了令牌接受率和推理速度尤其是在上下文长度增加时。左图与 EAGLE-3 和 DFlash 相比每次前向传播的平均验证令牌数。右图与 DFlash 相比在不同上下文长度下的模拟生成时间。与最先进的扩散模型比较尽管近期的扩散语言模型dLLM提供了并行解码功能但它们在复杂推理任务上往往会出现显著的条件漂移和严重的精度下降。Orthrus 通过将并行生成与顺序约束解耦为并行生成保真度树立了新的标杆。MATH-500 上的吞吐量与准确率。Orthrus 比 Qwen3-8B 基线实现了约 6 倍的加速且性能严格无损而 Fast-dLLM-v2 等改编模型则出现了显著的准确率下降。引用如果您在工作中发现此模型或架构有用请引用我们的[论文]misc{vannguyen2026orthrusmemoryefficientparalleltoken, title{Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion}, author{Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen}, year{2026}, eprint{2605.12825}, archivePrefix{arXiv}, primaryClass{cs.LG}, url{https://arxiv.org/abs/2605.12825}, }关于通过双视图扩散解码实现快速、无损的 LLM 推理。主题自然语言处理模型架构高效推理大语言模型 LLM 扩散语言模型 LLM 效率资源Readme许可证MIT 许可证哎呀加载时出现错误。请重新加载此页面。活动星标92星标关注者7关注分支2分支举报仓库[发布版本]发布版本未发布任何版本[包 0]包 0哎呀加载时出现错误。请重新加载此页面。[贡献者]贡献者 * * *哎呀加载时出现错误。请重新加载此页面。语言Python 100.0%页脚(C) 2026 GitHub, Inc.页脚导航条款隐私安全状态社区文档联系我们管理 Cookie不共享我的个人信息此时您无法执行该操作。

Orthrus：双视图扩散实现内存高效并行令牌生成，推理加速最高达 7.8 倍！

相关新闻

Cursor 估值 $500 亿、SpaceX $600 亿收购选项：AI 编程工具从零到企业标配的爆发之路

第23天：Python读写CSV文件

告别手动开开关关！用这个C#小工具，让你的Praat语音标注效率翻倍

最新新闻

别再死记硬背了！用Proteus仿真一个数字电子钟，彻底搞懂CD4013和NE555怎么玩

从BAM文件开始：手把手教你用bedtools和DaPars完成APA分析全流程

DriverStore Explorer：彻底解决Windows驱动存储混乱的专业指南

保姆级教程：用Qt GraphicsView从零撸一个可拖拽、能折叠的思维导图（附完整源码）

如何用1款免费工具解决Windows音频格式混乱难题

Mud印相失败率超65%？20年数字影像工程师用光谱分析仪实测验证：仅2.3%的base image满足Mud拓印前置条件

日新闻

如何用Python脚本破解百度网盘限速：完整免费教程与实战指南

Ketcher分子绘图工具完全指南：从零开始掌握化学结构绘制

Bebas Neue：为什么这款开源字体让设计师爱不释手？

周新闻

【IEEE 出版 | 成都理工大学、成都信息工程大学联合主办 | 连续4年EI检索稳定、往届快至见刊后1个月EI检索 | 高届数】第五届控制工程与机器人技术国际研讨会(ISCER 2026)

远程连MySQL还靠装工具？UU远程端口映射，一条规则搞定

小红书无水印下载工具终极指南：5分钟快速上手的完整教程

月新闻

探索Taotoken模型广场如何辅助开发者进行技术选型

OpenClaw从入门到应用——Agent：重试机制

在Node.js后端服务中集成Taotoken实现多模型API统一调用