大语言模型+agent 赋能AI 科研助手再次进化:从“会聊天”到“会做生物医学分析”
01一句话读懂这篇论文作者提出了一个名为BioMedAgent的多智能体大语言模型框架。它的目标不是简单回答问题而是像一名“AI 数据科学家”一样能够根据自然语言指令自动规划分析流程、调用生物信息学工具、编写和执行代码并在完成任务后总结结果。更重要的是BioMedAgent 具备一种“自进化”能力它会把成功的工具选择、工作流和代码经验记录下来在遇到类似问题时重新调用从而逐步提升后续任务的完成能力。02为什么需要 BioMedAgent✦ 生物医学数据正在爆炸式增长作者首先指出现代生物医学研究已经进入大规模数据驱动阶段。研究人员面对的不再只是单一实验结果而是大量复杂数据包括基因组数据转录组数据单细胞 RNA 测序数据医学影像数据电子病历数据多组学联合数据临床预测和统计分析数据这些数据能够帮助研究人员发现疾病机制、寻找生物标志物、预测治疗反应甚至辅助临床决策。✦ 传统分析流程门槛很高虽然已经有很多成熟的生物信息学工具例如用于序列比对、突变检测、单细胞分析、差异表达分析、可视化和机器学习建模的工具但这些工具通常存在几个问题1. 工具种类多学习成本高一个完整分析流程可能需要组合多个工具例如 BWA、GATK、Samtools、DESeq2、Seurat 等。非计算背景的研究者很难快速掌握。2. 流程复杂步骤容易出错从原始数据到最终结论中间往往需要经历质控、比对、过滤、统计检验、模型训练、可视化等多个步骤。3. 现有平台灵活性不足Galaxy、Nextflow、DNAnexus 等平台可以帮助用户搭建工作流但很多流程仍然依赖预定义模板面对开放式科研问题时不够灵活。4. 普通 LLM Agent 还不够“懂工具”普通大模型虽然能写代码、解释概念但在真实生物医学数据分析中经常难以正确调用专业工具也难以把多个工具稳定串成完整流程。03作者提出的核心解决方案BioMedAgent✦ BioMedAgent 是什么BioMedAgent 是一个面向生物医学数据分析的自进化多智能体框架。它可以接收自然语言问题例如“请根据这些 FASTQ 文件识别致病突变。”“请分析肿瘤样本和正常样本之间的差异表达基因。”“请构建一个模型预测患者发生静脉血栓栓塞的风险。”然后系统会自动完成① 理解用户需求② 规划分析步骤③ 选择合适工具④ 编写代码⑤ 执行分析⑥ 判断是否成功⑦ 保存成功经验⑧ 输出总结报告这使 BioMedAgent 不只是一个问答工具而更接近一个能够执行真实科研任务的自动化数据分析系统。04BioMedAgent 的系统架构✦ 三个核心阶段规划、编码、执行作者将 BioMedAgent 的工作流程设计为三个主要阶段① Planning规划阶段在规划阶段多个智能体会共同理解用户输入的自然语言需求并判断任务属于哪类分析。例如是 DNA-seq 分析还是 RNA-seq 分析是单细胞分析还是机器学习建模是统计检验还是数据可视化需要哪些输入文件应该调用哪些工具最终应该生成什么结果这一阶段的目标是形成一个可执行的分析路线。② Coding编码阶段在编码阶段系统会根据规划结果生成实际可运行的代码。代码可以调用本地安装的生物信息学工具Python / R 包Web API自定义生成的分析脚本如果已有工具可以完成任务BioMedAgent 会优先调用本地工具如果没有现成工具系统可以生成自定义代码补足分析步骤。③ Execution执行阶段在执行阶段系统会运行代码、调用工具并生成结果。如果执行失败智能体会根据错误信息重新调整规划或代码继续尝试。这也是 BioMedAgent 与普通“只生成代码”的大模型系统的重要区别它不仅生成方案还会真实执行、反馈、修正和总结。05系统中的关键智能体BioMedAgent 并不是由单个大模型直接完成所有工作而是由多个具有不同职责的智能体协作完成。✦ Requirement Analyst需求分析者负责理解用户输入的自然语言任务把模糊的科研需求转化为更明确的分析目标。例如用户只说“分析肿瘤测序数据并推荐治疗方案”该智能体需要判断这可能涉及肿瘤样本与正常样本比对体细胞突变检测突变注释药物或治疗建议✦ Tool Manager工具管理者这是 BioMedAgent 的关键设计之一。Tool Manager 负责维护本地工具和 Web API并让系统知道每个工具能做什么输入文件是什么格式输出结果是什么工具依赖哪些环境应该怎样调用工具作者强调专业生物信息学工具往往不能靠大模型“凭空重写”。因此BioMedAgent 的策略不是让大模型重新发明工具而是让它学会使用已有工具。✦ Planner流程规划者Planner 会把分析目标拆解成多个步骤。例如在致病突变分析中流程可能包括将测序 reads 比对到参考基因组对 BAM 文件进行排序和去重复进行碱基质量校正调用突变注释突变判断致病性生成总结报告✦ Programmer程序员Programmer 负责把规划步骤转化为代码包括 Python、R 或命令行脚本。✦ Executor执行者Executor 负责真正运行代码、检查结果并把执行反馈传回系统。如果某一步失败系统会重新进行交互式探索和修正。06三个关键机制LTU、IE、MR这篇论文最重要的技术亮点可以概括为三个缩写LTULocal Tool Usage本地工具使用IEInteractive Exploration交互式探索MRMemory Retrieval记忆检索① LTU让大模型真正会用专业工具作者在 BioMedAgent 中集成了67 个专业生物信息学工具主要覆盖组学分析、精准医学分析和机器学习任务。这些工具显著提高了系统表现。特别是在组学分析、精准医学和机器学习任务中使用本地工具后成功率明显提升。作者还区分了两种能力能力含义LTU调用已有本地专业工具CTC当缺少现成工具时生成自定义工具代码在成功任务中单独使用 LTU 的比例为46.25%单独使用 CTC 的比例为28.85%两者结合使用的比例为24.90%。这说明BioMedAgent 的能力不是单纯来自大模型写代码而是来自“已有专业工具 自定义代码 多智能体协作”的组合。② IE通过多智能体协作提高成功率IE 指的是Interactive Exploration交互式探索。作者将这个机制设计成一种类似“团队讨论和反复尝试”的过程。当系统遇到复杂任务时不是一次性给出固定答案而是在规划和编码阶段不断探索不同解决方案。实验结果显示不使用 IE 时BioMedAgent 成功率为28%使用 IE 后成功率提升到52%探索次数从916 次增加到2696 次约60.8%原本失败的任务在 IE 帮助下转为成功也就是说IE 的价值在于它让系统拥有更多尝试机会从而提高复杂任务的解决概率。③ MR让系统从过去经验中进化MR 指的是Memory Retrieval记忆检索。BioMedAgent 会把成功完成的任务记录为记忆包括使用过的工具成功的工作流可复用的代码分析目标与任务类型当系统遇到新问题时会通过语义相似度检索最相关的历史经验并将这些经验用于新任务。作者设计了两种记忆更新策略策略含义CMAContinuous Memory Accumulation持续记忆积累保留所有成功记录IMFIterative Memory Forgetting迭代记忆遗忘选择性删除过时或冗余记录实验显示IMF 收敛更快、稳定性更好并且需要更少的中间记忆记录因此更适合长期运行的系统。通过三轮记忆学习BioMedAgent 的整体成功率从52%提升到77%。07BioMed-AQA作者构建的新基准✦ 为什么需要新基准作者指出评估生物医学 AI Agent 很困难因为真实数据分析任务往往没有唯一答案。同一个问题可能有多种合理工作流不同软件也可能产生格式不同但科学上等价的结果。因此作者构建了一个新的评估基准BioMed-AQA✦ BioMed-AQA 包含什么BioMed-AQA 包含327 个生物医学数据分析问题覆盖五大类别类别任务方向OOmics analysis组学分析PPrecision medicine support analysis精准医学支持分析MMachine learning机器学习SStatistical analysis统计分析VData visualization数据可视化这些问题进一步覆盖17 种任务类型包括 DNA、RNA、单细胞、分类、回归、聚类、深度学习、统计检验、可视化、生存分析等。✦ 问题类型Clear-step 与 Open-step作者还将任务分成两种自然语言形式Clear-step 问题用户明确指定分析步骤和工具。例如使用 BWA 比对测序数据使用 GATK Mutect2 调用突变使用 vcf2maf 注释突变并根据基因组变异推荐治疗。Open-step 问题用户只描述目标不指定工具和步骤。例如对癌症患者测序数据进行突变分析并推荐治疗方案。这个设计用于测试 BioMedAgent 是否能从模糊目标中自动规划分析流程。实验结果显示BioMedAgent 在 clear-step 和 open-step 问题上的表现没有显著差异说明它具备较强的自主规划能力。✦ 数据来源BioMed-AQA 的数据来自三类来源来源比例模拟数据37.3%工具教程数据15.9%文献来源数据46.8%这使得该基准既包含可控的模拟任务也包含更接近真实科研场景的数据任务。✦ 评估方式Win score作者采用Win score来评估任务完成度。一个任务会被拆成多个关键里程碑。如果系统完成所有里程碑Win score 为1表示成功如果只完成部分步骤则得到部分分数。例如一个任务有 4 个关键步骤系统只完成 1 个则 Win score 为0.25。作者还开发了自动评分智能体其评分结果与人工评价的一致性达到92.3%AUC 为0.926。此外作者还构建了一个BioMed-AQA-MCQ子集包含172 道选择题用于更自动化和客观的评估。08整体表现BioMedAgent 明显优于多个基线在 BioMed-AQA 上BioMedAgent 的整体成功率达到77%。不同任务类别表现如下任务类别成功率组学分析 O94%精准医学 P78%机器学习 M90%统计分析 S59%可视化 V65%这说明 BioMedAgent 不只适用于某一种任务而是可以覆盖较广泛的生物医学数据分析场景。✦ 与其他 LLM Agent 的比较作者将 BioMedAgent 与多个基线进行了比较包括 ChatGPT、GPT Assistants、GPT Function Call 等。主要结果包括GPT Assistants 成功率为39%GPT Function Call 成功率为33%ChatGPT-4o 成功率为46%BioMedAgent 最终成功率为77%使用 DeepSeek v3 作为底层模型时成功率为77%使用 Qwen3 作为底层模型时成功率为75%在 MCQ 子集上的准确率为76%尤其值得注意的是BioMedAgent 的可分析范围达到100%而在线 ChatGPT-4o 和 GPT Assistants 的可分析范围分别为68%和65%。09面对不同表达方式BioMedAgent 仍然稳健真实用户不会总是用标准格式提问。因此作者让三位医学专家对原始问题进行自然语言改写再测试 BioMedAgent 的表现。结果显示输入来源成功率原始 BioMed-AQA0.774医学专家 1 改写0.761医学专家 2 改写0.752医学专家 3 改写0.758这说明 BioMedAgent 对自然语言表达变化具有较强鲁棒性。10外部验证BioMedAgent 在 BixBench 上也表现稳定为了验证系统不是只适应作者自己构建的 BioMed-AQA作者还在外部基准BixBench上进行测试。BixBench 包含 50 多个真实分析场景和 296 个问题是用于评估生物信息学 Agent 的外部基准。在不依赖领域专用工具、主要依靠自定义代码生成的情况下BioMedAgent 仍然取得了优于 BixBench 原始基线 Agent 的结果问题类型BioMedAgentBixBench baselineOpen questions49%37%MCQs with refusal49%42%MCQs without refusal63%55%这说明 BioMedAgent 具有一定跨基准泛化能力。11与其他多组学 AI Agent 的比较作者还将 BioMedAgent 与多个已有多组学 AI Agent 进行系统比较包括 BioChatter、AutoBA、BIA、BioMaster、OLAF、ChatGPT ADA、GenoTEX、CellAgent、CASSIA 等。比较维度包括是否支持规划是否支持编码是否支持执行是否支持自然语言指令支持哪些任务类型是否支持本地工具调用是否支持自定义工具代码是否为多智能体系统是否具备自进化能力是否有大规模基准评估方式是否自动化作者认为BioMedAgent 的优势在于① 任务覆盖更广不仅支持组学分析还支持精准医学、机器学习、统计分析和可视化。② 工具使用更灵活既能调用本地工具也能生成自定义工具代码。③ 具备自进化机制可以通过 MR 记忆检索持续复用成功经验。④ 评估体系更系统BioMed-AQA 包含开放问题和 MCQ 子集并结合人工评分与自动评分。12真实应用一非小细胞肺癌跨组学分析作者使用 BioMedAgent 完成了一个复杂的跨组学问题非小细胞肺癌中高度差异表达基因主要来源于哪些细胞类型这个问题需要整合bulk RNA-seq 数据单细胞 RNA-seq 数据差异表达分析单细胞聚类marker 基因识别跨组学交集分析和可视化BioMedAgent 根据三条自然语言指令自动完成了大规模分析流程。✦ 主要结果作者使用了67 个 NSCLC bulk RNA-seq 样本34 个肿瘤样本33 个癌旁正常样本22 个 scRNA-seq 矩阵文件BioMedAgent 识别出1831 个差异表达基因其中1309 个上调522 个下调与 GEO2R 在线工具识别结果有78%覆盖一致性识别出8 种细胞类型发现 ABCC3、SERINC2、SEZ6L2 主要在上皮细胞中过表达这表明 BioMedAgent 能够把 bulk 层面的差异基因结果进一步映射到单细胞层面的细胞来源解释中。13真实应用二ctDNA 与癌症相关静脉血栓风险预测第二个应用场景是机器学习建模。作者让 BioMedAgent 复现一项关于循环肿瘤 DNA 与癌症相关静脉血栓栓塞风险预测的研究。任务目标是评估 ctDNA 是否与 VTE 风险相关并构建随机生存森林模型进行预测。✦ BioMedAgent 自动完成的步骤BioMedAgent 根据自然语言指令自动完成数据读取模型构建随机生存森林训练验证集预测c-index 性能评估多模型比较结论总结✦ 主要结果三个模型表现如下模型c-indexKhorana score 模型0.61LB 模型0.73All 模型0.74结果显示基于液体活检变量的模型明显优于传统 Khorana score 模型。作者据此说明BioMedAgent 可以帮助生物医学研究者用自然语言启动复杂机器学习建模流程降低从临床问题到计算建模之间的技术门槛。14真实应用三病理图像细胞分割与分类第三个应用场景是病理图像分析。病理图像中的细胞分割和分类对于病灶识别、肿瘤微环境分析和预后评估都很重要。但低分辨率图像会影响分割准确性。作者将分辨率增强工具MiHATP v.1.0集成进 BioMedAgent 的本地工具空间让系统自动规划数据划分图像分辨率增强细胞分割细胞分类Dice 指标评估✦ 主要结果与 baseline 相比BioMedAgent 在多个细胞类型上提升了 Dice 分数包括inflammatory cellsepithelial cellsspindle-shaped cellsother cells整体 Dice 绝对提升为0.86%同时关闭了29.9%的剩余性能差距。这说明 BioMedAgent 不仅适用于表格型和组学数据也可以扩展到医学图像任务。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】