Orthrus:双视图扩散实现内存高效并行令牌生成,推理加速最高达 7.8 倍!
导航菜单切换导航 登录 外观设置平台AI 代码创作GitHub Copilot借助 AI 编写更优质代码GitHub Spark构建并部署智能应用GitHub Models管理和比较提示词MCP Registry新集成外部工具开发者工作流Actions自动化任何工作流Codespaces即时开发环境Issues规划和跟踪工作Code Review管理代码变更应用程序安全GitHub Advanced Security发现并修复漏洞代码安全在构建过程中保障代码安全密钥保护防患于未然阻止信息泄露探索为何选择 GitHub文档博客更新日志市场查看所有功能解决方案按公司规模划分企业中小型团队初创企业非营利组织按用例划分应用现代化DevSecOpsDevOpsCI/CD查看所有用例按行业划分医疗保健金融服务制造业政府部门查看所有行业查看所有解决方案资源按主题探索AI软件开发DevOps安全查看所有主题按类型探索客户案例活动与网络研讨会电子书与报告商业洞察GitHub Skills支持与服务文档客户支持社区论坛信任中心合作伙伴查看所有资源开源社区GitHub Sponsors资助开源开发者项目Security LabMaintainer CommunityAcceleratorGitHub StarsArchive Program仓库主题热门趋势集合企业企业解决方案企业平台由 AI 驱动的开发者平台可用附加组件GitHub Advanced Security企业级安全功能Copilot for Business企业级 AI 功能高级支持企业级 24/7 支持[定价]定价搜索或跳转至...搜索代码、仓库、用户、问题、拉取请求... 搜索 清除 搜索语法提示提供反馈我们会阅读每一条反馈并认真对待您的意见。包含我的电子邮件地址以便与我联系 取消 提交反馈保存的搜索使用保存的搜索可以更快地筛选结果 名称 查询 要查看所有可用的限定符请参阅我们的文档。取消 创建保存的搜索 登录 注册 外观设置 重置焦点 您在另一个标签页或窗口中登录。重新加载以刷新您的会话。您在另一个标签页或窗口中注销。重新加载以刷新您的会话。您在另一个标签页或窗口中切换了账户。重新加载以刷新您的会话。 关闭提醒 {{ message }} chiennv2000 /orthrus公开通知 您必须登录才能更改通知设置分支 2星标 92代码问题 3拉取请求 0操作项目安全与质量 0洞察其他导航选项代码问题拉取请求操作项目安全与质量洞察chiennv2000/orthrus主分支 分支标签转到文件 代码 打开更多操作菜单文件夹和文件名称名称最后提交消息最后提交日期最新提交历史记录 11 次提交11 次提交assets | assets | | src | src | | .gitignore | .gitignore | | LICENSE | LICENSE | | README.md | README.md | | pyproject.toml | pyproject.toml | | 查看所有文件仓库文件导航- README - MIT 许可证Orthrus通过双视图扩散实现内存高效的并行令牌生成Orthrus 是一个双架构框架它将自回归大语言模型LLM的精确生成保真度与扩散模型的高速并行令牌生成能力相结合这里是其官方实现和模型检查点。demo_orthrus.mp4模型库所有模型均使用 Qwen3 骨干网络并保证严格无损生成。模型基础模型HuggingFace平均加速比Orthrus-Qwen3-1.7BQwen3-1.7B HuggingFace4.25×Orthrus-Qwen3-4BQwen3-4.0B HuggingFace5.20×Orthrus-Qwen3-8BQwen3-8.0B HuggingFace5.36×安装uv pip install -e .uv pip install ninja packaginguv pip install flash-attn --no-build-isolation # 如果您的设备支持也可以使用pip install flash-attn-4[cu13] 我们推荐使用 [uv] 进行快速依赖解析。快速开始import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer model AutoModelForCausalLM.from_pretrained( chiennv/Orthrus-Qwen3-8B, dtypetorch.bfloat16, device_mapcuda, attn_implementationflash_attention_2, # 如果您的系统支持也可以使用 flash_attention_4 trust_remote_codeTrue,).eval()tokenizer AutoTokenizer.from_pretrained(chiennv/Orthrus-Qwen3-8B) prompt 编写一个程序来统计段落中每个单词的出现频率。messages [{role: system, content: }, {role: user, content: prompt}]input_ids tokenizer.apply_chat_template(messages, return_tensorspt, add_generation_promptTrue, enable_thinkingFalse).input_ids output_ids model.generate( input_idsinput_ids.to(model.device), max_new_tokens2048, use_diffusion_modeTrue, streamerTextStreamer(tokenizer, skip_promptTrue) # 启用流式生成)即将推出与 [vLLM] 和 [SGLang] 的原生集成即将推出敬请期待主要优势显著的推理加速打破了标准自回归解码的顺序瓶颈在生成任务上实现高达 7.8 倍的加速。严格无损生成采用精确的模型内共识机制确保输出与原始基础模型的精确预测分布相匹配。零冗余内存开销自回归和扩散视图都原生地关注完全相同的高保真键值KV缓存仅产生 $O(1)$ 的内存缓存开销。参数高效通过仅微调 16% 的模型总参数同时保持基础 LLM 严格冻结注入并行生成能力。性能比较Orthrus 与推测解码Orthrus 优于 EAGLE-3、DFlash 等推测解码方法。通过在双视图中原生共享完全相同的 KV 缓存Orthrus 避免了草稿模型的冗余内存开销从而显著提高了令牌接受率和推理速度尤其是在上下文长度增加时。左图与 EAGLE-3 和 DFlash 相比每次前向传播的平均验证令牌数。右图与 DFlash 相比在不同上下文长度下的模拟生成时间。与最先进的扩散模型比较尽管近期的扩散语言模型dLLM提供了并行解码功能但它们在复杂推理任务上往往会出现显著的条件漂移和严重的精度下降。Orthrus 通过将并行生成与顺序约束解耦为并行生成保真度树立了新的标杆。MATH-500 上的吞吐量与准确率。Orthrus 比 Qwen3-8B 基线实现了约 6 倍的加速且性能严格无损而 Fast-dLLM-v2 等改编模型则出现了显著的准确率下降。引用如果您在工作中发现此模型或架构有用请引用我们的[论文]misc{vannguyen2026orthrusmemoryefficientparalleltoken, title{Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion}, author{Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen}, year{2026}, eprint{2605.12825}, archivePrefix{arXiv}, primaryClass{cs.LG}, url{https://arxiv.org/abs/2605.12825}, }关于通过双视图扩散解码实现快速、无损的 LLM 推理。主题自然语言处理 模型架构 高效推理 大语言模型 LLM 扩散语言模型 LLM 效率资源Readme许可证MIT 许可证哎呀加载时出现错误。请重新加载此页面。 活动星标92星标关注者7关注分支2分支举报仓库[发布版本]发布版本 未发布任何版本[包 0]包 0哎呀加载时出现错误。请重新加载此页面。[贡献者]贡献者 * * *哎呀加载时出现错误。请重新加载此页面。语言Python 100.0%页脚(C) 2026 GitHub, Inc.页脚导航条款隐私安全状态社区文档联系我们管理 Cookie不共享我的个人信息此时您无法执行该操作。