14500开源:黄大年“难题揭榜”第145期-太平洋会战第七期
“难题揭榜”第145期-太平洋会战第七期黄大年茶思屋145期难题 摘要本期聚焦大模型推理存储、SSD架构优化、IO时延调度、KV缓存复用、LLM长驻Agent记忆五大核心技术难题围绕多模态场景KVCache寿命精准预测、有限备电下QLC盘多Namespace扩容、大模型推理IO路径低时延稳调度、长序列块KV交叉注意力修复、LLM Agent低耗高精度记忆构建等方向直面万亿参数大模型推理缓存压力、QLC介质寿命瓶颈、高并发IO时延抖动、长序列KV复用率低、智能体记忆算力开销过大等行业痛点均给出明确量化技术指标、仿真与实测验证要求面向产业落地攻坚卡脖子算法与架构优化问题。黄大年145期难题LLM推理优化KVCache寿命预测QLC SSD架构优化大模型IO低时延块KV缓存复用LLM Agent记忆算法多模态大模型存储与AI融合长上下文推理难题1 高精准度的KVCache寿命预测算法技术背景随着模型参数迈入万亿级别、上下文长度增长至百万tokenLLM推理过程中产生TB级的KVCache缓存单一的HBM容量已经无法满足的KVCache存储需求需进一步卸载至SSD。QLC作为最新代次的SSD介质有着更低的成本以及接近TLC的性能可以充分满足KVCache的存储需求同时降低TCO。然而QLC颗粒的P/E性能低于TLC导致QLC盘的DWPD值远小于TLC盘。如何在特定场景下降低QLC盘内写放大实现等同于TLC盘的DWPD成为了目前急需解决的问题。利用多流与FDP配合精准的寿命预测算法将数据按寿命分类存放可以有效降低盘侧写放大。然而在LLM中心推理场景中精准预测KVCache的寿命具有较大挑战。用户的提示词内容无法预测用户的提问行为模式也难以预料。此外现今的LLM已从纯文本扩展至多模态。在多模态场景下LLM输入数据类型从文本扩展至图像、音频和视频等。除了会导致LLM的输入序列长度显著增长外视觉与图像语义信息冗余度相对于纯文本也明显增加关键信息相对文本更加稀疏。另外纯文本的注意力通常呈现局部性或特定的长程依赖。而在多模态中文本生成可能突然“回溯”到图像或视频的某个特定区域这种非连续、跳跃式的模式使得寿命预测难度明显提升。当前结果统计KVCache的命中的概率分布函数根据概率分布将数据分为温冷热三层配合多流/FDP实现数据依据寿命分区存储。实现纯文本包含多轮对话推理场景下盘侧写放大降低。但因寿命预测精准度不足降低幅度有限。技术诉求多模态场景下寿命预测精准度提升实现KVCache寿命的精准预测或聚类不要求寿命绝对值但同类寿命相近要求预测寿命与实际寿命的累积偏差或聚类中的任意KVCache Chunk寿命相对于该簇中心或均值的相对偏差均不超过±5%。实现盘侧写放大降低至1.1以内。验证数据及方法约束基于开源原生多模态LLM如Qwen3.5执行多模态对话推理任务数据集需包含至少2种多模态数据如OpenOmni对话模式需符合真实的中心推理场景需求应包含系统提示词等厂商特定前缀prompt且对话频次需符合真实用户的使用模式。多轮对话提问数据集大小需支撑固态硬盘写放大达成稳态写放大指标需为稳态值。寿命预测方法不能依赖模型与推理框架无特异性。测试步骤方案设计-基于合理的数据与方法自验证多盘模拟多流-华为自测同时达成以上全部技术目标。难题2 QLC盘多namespace并发备电量优化问题技术背景随着SSD容量的增长单盘故障半径和应用冲突愈发严重需要通过多namespace实现应用间性能和故障隔离。每个namespace需要独立的流量来降低写放大保障QLC介质寿命。但QLC介质特殊的二次编程需要备电来缓存写入数据每个namespace每个流需要单独的备电来保证并发受限硬件单个SSD备电量无法无限制增加需要不增加备电能力下实现namespace并发以及多流能力。以128TB大容量QLC盘为例可以按32TB大小划分4个namespace每个物理空间相互之间互不干扰。每个namespace由于要保证写放大需要提供3个流每个流128列RAID需要32MB备电因此每个namespace需要96MB备电量。4个物理模组每个模组独立配置128列RAID因此总计需要12个流共需要384MB备电量且随模组数量线性翻倍。单盘容量Namespace空间大小总流数量备电量需求出口带宽128TB32TB4组12384MB14GB/s256TB32TB8组24768MB28GB/s512TB32TB16组481536MB28GB/s1024TB32TB32组963072MB28GB/s受限盘出口带宽当流数增加到一定数量后增加备电已无法提升性能因此需要在有限备电量下实现多namespace例如24流实现32组namespace。当前结果降低RAID列数来降低备电量例如128列RAID降低为64列可缩减备电量一半。但带来额外的空间浪费空间利用率从99.22%下降至98.44%且随着模组数量利用率极速下降。Flag data技术可以降低3/4备电量但无法解决备电量仍然随模组数量线性增长且需要颗粒硬件原生支持。技术诉求固定SSD备电量实现任意数量namespace通过多流复用在不增加流数条件下支持任意个namespace且不能降低RAID比例以及不包含使用flag data技术。性能要求读写性能不下降持平单namespace读写性能。得盘率和可靠性不下降。示例128TB大容量盘分成4个namespace每组支持3个流共计12个流。通过该技术可支持8组、16组、32组等namespace数量流数不增加。同时读写性能、写放大、得盘率、可靠性影响1%。测试步骤方案设计-通过支持QLC读写的SSD仿真器进行自验证-华为自测同时达成以上全部技术目标。难题3 面向大模型推理的IO路径稳定低时延算法技术背景随着大模型向超长上下文演进海量KV Cache导致昂贵且受限的GPU HBM显存成为算力瓶颈。基于大模型注意力机制的高度“稀疏性”特征通过层次化存储架构将海量低权重、长尾的KV数据动态卸载至大容量、低成本的DDR与SSD中HBM仅保留极少量的核心热数据。该方案彻底打破了单卡显存的物理容量壁垒在保障推理性能的同时成倍提升长文本并发的系统吞吐量。技术挑战稀疏化推理KV Cache逐层加载(Decode)容量PB级(400并发时时延稳定200us)。当前结果当前Decode稀疏化跨Token相似性可以达到90%的命中效率仅仅考虑最相邻Token,仍有大量IO到SSD中。当前业界SLC颗粒读时延~25μs在高并发场景P99时延仍可到达1ms。网络流量多达一场景由于冲突网络降速整体带宽能力降低尾时延恶化。存算多卡对SSD的流量冲突带来网络时延及带宽吞吐效率降低实测部分场景仅有50%的带宽能力。NAND Flash超高并发下SSD内部控制器队列拥塞、NAND Die的并发竞争以及后台的垃圾回收GC会导致P99时延轻易突破1ms甚至达到数十ms。技术诉求二选一针对8卡对12SSD的AI流量通过拥塞消除算法实现主机NPU实际加载带宽能力达成90%(创新的算法设计端侧配合基于AI流量规律设计交换机在网计算策略等)。针对SSD长尾时延构建长尾消除调度算法达成并发P9999时延QD1时延并发量/盘内并发能力200%(2000并发需满足要求)可通过在Host端或SSD内实现精细的I/O数据排布/QoS调度达成线性的时延能力。测试步骤方案设计-软件仿真达成以上技术目标-华为基于实际环境验证达成以上技术目标。难题4 块KV复用的交叉注意力修复问题技术背景为了避免长序列prefill计算过程中Attention的复杂度平方增长问题业界普遍使用prefix cache方案要求复用的文本必须是完全相同的前缀。在检索增强生成RAG中检索出的文档顺序可能变化在长序列对话场景中可能只有中间段落可以匹配。一旦顺序变化传统的缓存失效必须全量重算。技术挑战使用独立计算的KV块拼接时存在以下问题位置编码错位KV位置变化导致RoPE失效。跨块语义断裂在独立编码时后置块无法看到前置块因此无法产生有效的跨块注意力权重。注意力汇聚效应sink部分模型在训练时将大量注意力分配给序列开头的几个token。块KV复用时厂商“假性汇聚”干扰全局注意力的分布。当前结果传统prefix cache场景要求全量前缀匹配少量词修改即导致cache无法命中。用块匹配结合CacheBlend差异性识别方法修正实现Mistral-7B 31.9%KV复用率TTFT缩减23.65%。在Qwen3-32B上复用率为10%在中文数据集例如cwedureaderpassage_retrieval精度损失20%左右。技术诉求高可用KV做chunk推理后打散数据块使用chunk KV拼接的场景下提升KV复用率80%降低TTFT 70%。精度推理精度损失小于1%。测试模型需覆盖3个及以上模型Qwen3-32B, DeepSeekV3.2, GLM5或桶参数更优模型测试数据集覆盖Ruler, LongBench中英文数据集测试步骤方案设计-基于指定的模型与数据集在开源UCM框架验证同时达成以上技术目标。难题5 面向长期运行LLM Agent的高效记忆构建和查询算法技术背景随着大语言模型LLM在各类任务中展现出强大的通用能力使其作为长期运行的Agent持续积累用户交互经验已成为重要的研究方向。然而LLM受限于有限的上下文窗口无法直接保留跨会话的长期信息因此外部记忆系统成为长期Agent的核心组件。现有的代表性记忆系统如Mem0、A-Mem、MemoryOS以及Nemori——均采用贪心式记忆固化eager consolidation策略对每一轮到来的用户-Agent交互都调用LLM进行事实提取、摘要生成或结构化更新。这种方式在长对话流中会产生巨大的token开销严重制约了实际部署的可行性。技术挑战当前记忆算法存在以下问题记忆的管理依赖大模型构建记忆需要消耗大量token算力。记忆的抽取会丢失细节导致查询阶段精度无法保障。通过多跳查询可提升精度但需要消耗更多查询的token。当前结果我们对现有代表性记忆系统在LongMemEval-S基准上的Token消耗进行了测试均使用GPT-4.1-mini作为后端结果如下已按Conversation数量做平均算法精度构建TokenK查询TokenKFull Context66.20112.5Naïve RAG67011.93MemoryOS74.4669.29.19A-Mem71.61264.315.46Mem071.21626.52可以看出现有记忆系统的构建阶段token消耗巨大Mem0和A-Mem均超过1200K而Full Context虽然无构建开销但查询时token消耗极高且在长上下文精度下降显著。技术诉求设计高效的Agent记忆构建和查询算法将记忆构建的token消耗相比现有SOTA算法降低50%查询阶段token消耗相较于现有SOTA算法不额外增加。精度相比SOTA算法提升20%。测试步骤方案设计-基于指定数据集LoCoMo和LongMemEval-S自验证-华为验证同时达成以上技术目标。