学术速递 | ICCV 2025 Accepted Papers For Image Fusion
ICCV 2025 录用论文https://iccv.thecvf.com/Conferences/2025/AcceptedPapers检索关键词【Image Fusion】文章目录ICCV 2025 录用论文录用情况-预览01 Revisiting Image Fusion for Multi-Illuminant White-Balance Correction02 Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion03 Hipandas: Hyperspectral Image Joint Denoising and Super-Resolution by Image Fusion with the Panchromatic Image04 Highlight What You Want: Weakly-Supervised Instance-Level Controllable Infrared-Visible Image Fusion05 LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables06 DreamFuse: Adaptive Image Fusion with Diffusion Transformer07 AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation08 UniFuse: A Unified All-in-One Framework for Multi-Modal Medical Image Fusion Under Diverse Degradations and Misalignments09 MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance10 The Source Image is the Best Attention for Infrared and Visible Image Fusion11 Retinex-MEF: Retinex-based Glare Effects Aware Unsupervised Multi-Exposure Image Fusion录用情况-预览ICCV 2025 录用论文中以 “Image Fusion”为关键词共检索到11 篇相关论文。从单位来看主要来自中国高校与研究机构以及部分欧洲高校例如西安交通大学、西北工业大学、哈尔滨工业大学、武汉大学、电子科技大学、吉林大学、清华大学、昆明理工大学、大连民族大学、中北大学、合肥工业大学、澳门大学等同时也包含ETH Zurich、达姆施塔特工业大学、巴塞罗那自治大学、伯明翰大学、约克大学等国际机构以及鹏城实验室、字节跳动、Vector Institute、中国科学院计算技术研究所等科研与产业机构。从研究主题来看这些工作主要集中在红外与可见光图像融合、统一图像融合框架、多曝光融合、高光谱与全色融合、医学多模态融合以及可控/语言引导融合等方向同时也呈现出明显的新趋势例如扩散模型DiT融合、语言或文本引导融合、退化感知融合、实时融合LUT、统一多任务融合以及融合下游任务如分割等研究方向体现出当前图像融合研究正在从传统单任务融合逐渐向统一框架、可控交互、多任务和生成式模型融合发展。01 Revisiting Image Fusion for Multi-Illuminant White-Balance Correction题目Revisiting Image Fusion for Multi-Illuminant White-Balance Correction编号Poster Session 2 Exhibit Hall with Coffee Break | Exhibit Hall I [#307]单位计算机视觉中心、巴塞罗那自治大学、约克大学、向量研究所、达姆施塔特工业大学、马德里自治大学代码https://revisitingmiwb.github.io摘要白平衡White BalanceWB在多光源条件下的校正一直是计算机视觉中的一个重要挑战。近年来一些研究探索了基于融合fusion-based的策略即通过神经网络对输入图像的多个 sRGB 版本进行线性加权融合这些 sRGB 图像分别由不同的预设白平衡参数处理得到。然而我们发现这类方法仍然存在一定局限。此外现有的融合方法主要依赖 sRGB 白平衡数据集但这些数据集缺乏真正适用于多光源场景的训练数据。为解决上述问题本文提出了两项关键贡献首先设计了一种高效的基于 Transformer 的模型用于有效建模不同 sRGB 白平衡预设之间的空间依赖关系从而显著提升传统线性融合方法的性能其次构建了一个大规模多光源数据集其中包含超过 16,000 张 sRGB 图像每张图像均通过五种不同的白平衡设置进行渲染并提供对应的白平衡校正图像。实验结果表明在该多光源图像融合数据集上所提出的方法相较于现有技术最高可实现 100% 的性能提升。02 Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion题目Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion编号Poster Session 3 Exhibit Hall | Exhibit Hall I [#118]单位哈尔滨工业大学、武汉大学代码https://github.com/huxingyuabc/TITA摘要统一图像融合Unified Image Fusion旨在将多源图像中的互补信息进行整合通过一个统一的框架提升图像质量并能够适用于多种不同的融合任务。尽管将所有融合任务视为一个统一问题有助于实现任务无关知识的共享但这种方式往往忽略了不同任务的特定特性从而限制了整体性能。现有的一些通用图像融合方法通过显式的任务识别机制使模型能够适应不同的融合任务但这种在推理阶段对任务信息的依赖会限制模型对未见融合任务的泛化能力。为了解决这些问题本文提出了一种新的统一图像融合框架“TITA”能够在任务不变交互Task-invariant Interaction与任务特定自适应Task-specific Adaptation之间实现动态平衡。在任务不变交互方面提出了交互增强像素注意力模块Interaction-enhanced Pixel Attention, IPA以强化像素级交互从而更有效地提取多源图像中的互补信息在任务特定自适应方面设计了基于操作的自适应融合模块Operation-based Adaptive Fusion, OAF根据任务属性动态调整不同操作的权重。此外本文还引入快速自适应多任务优化策略Fast Adaptive Multitask Optimization, FAMO以缓解多任务联合训练过程中不同任务之间的梯度冲突问题。大量实验结果表明TITA 在三种图像融合场景中不仅能够取得与专用方法相当的性能同时还在未见过的融合任务上表现出良好的泛化能力。03 Hipandas: Hyperspectral Image Joint Denoising and Super-Resolution by Image Fusion with the Panchromatic Image题目Hipandas: Hyperspectral Image Joint Denoising and Super-Resolution by Image Fusion with the Panchromatic Image编号Poster Session 3 Exhibit Hall | Exhibit Hall I [#188]单位西北工业大学、苏黎世联邦理工学院、西安交通大学、澳门科技大学、西安交通大学代码https://github.com/shuangxu96/Hipandas摘要由于成像设备的限制高光谱图像Hyperspectral ImagesHSIs通常存在噪声较大且空间分辨率较低的问题。近年来发射的新型卫星能够同时获取高光谱图像HSI和全色图像PanchromaticPAN从而可以通过融合 PAN 图像实现高光谱图像的去噪与超分辨率重建得到更加干净且高分辨率的图像。然而以往研究通常将这两个任务视为相互独立的过程进行处理从而导致误差逐步累积。为此本文提出了一种新的学习范式——高光谱图像联合全色去噪与全色锐化方法Hyperspectral Image Joint Pandenoising and PansharpeningHipandas用于从带噪低分辨率高光谱图像NLRHS和高分辨率 PAN 图像中重建高质量的高光谱图像。所提出的无监督 Hipandas 框架由引导去噪网络、引导超分辨率网络以及 PAN 重建网络组成并结合高光谱图像低秩先验以及新提出的细节导向低秩先验进行建模。由于多个网络之间相互耦合使得训练过程较为复杂因此本文采用两阶段训练策略以确保模型能够有效收敛。实验结果表明在模拟数据集和真实数据集上的实验中该方法均优于现有最先进算法能够生成更加准确且视觉效果更好的高分辨率高光谱图像。04 Highlight What You Want: Weakly-Supervised Instance-Level Controllable Infrared-Visible Image Fusion题目Highlight What You Want: Weakly-Supervised Instance-Level Controllable Infrared-Visible Image Fusion编号Poster Session 3 Exhibit Hall | Exhibit Hall I #248单位大连民族大学、澳门大学、清华大学代码https://github.com/GMY628/RIS-Fuse摘要红外与可见光图像融合VIS-IR旨在整合两种源图像中的互补信息以生成细节更加丰富的融合图像。然而大多数现有融合模型缺乏可控性难以根据用户需求定制融合结果。为了解决这一问题本文提出了一种新的弱监督、实例级可控融合模型能够根据输入文本自适应地突出用户指定的目标实例。该模型由两个阶段组成伪标签生成阶段和融合网络训练阶段。在第一阶段在观测到的多模态流形先验的指导下利用文本信息和流形相似性作为联合监督信号以弱监督方式训练文本到图像响应网络Text-to-Image Response NetworkTIRN使其能够从实例分割结果中识别出被文本引用的语义级目标。为了实现 TIRN 中文本与图像特征的对齐本文提出了多模态特征对齐模块Multimodal Feature AlignmentMFA通过流形相似性引导注意力权重分配从而实现图像 patch 与文本嵌入之间的精确对应。此外利用空间位置关系从多个语义目标中准确选择被引用的实例。在第二阶段融合网络以源图像和文本作为输入并利用生成的伪标签作为监督对目标区域和非目标区域分别采用不同的融合策略。实验结果表明该方法在融合性能上达到当前最先进水平同时能够准确突出用户指定的目标实例。05 LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables题目LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables编号Poster Session 3 Exhibit Hall | Exhibit Hall I #429单位武汉大学、东南大学代码https://github.com/zyb5/LUT-Fuse摘要当前红外与可见光图像融合的先进研究主要集中在提升融合性能上但往往忽视了其在实时融合设备中的应用需求。针对这一问题本文提出了一种通过蒸馏学习可学习查找表Lookup Table的极高速融合方法称为LUT-Fuse专门用于图像融合任务。首先设计了一种查找表结构该结构结合了低阶近似编码与高层联合上下文场景编码从而更加适用于多模态融合任务。此外考虑到多模态图像融合缺乏真实标注ground truth本文提出了一种高效的LUT 蒸馏策略以替代传统的基于量化的 LUT 方法。通过将多模态融合网络MM-Net的性能蒸馏到MM-LUT 模型中所提出的方法在效率与性能方面均取得了显著提升。与当前轻量级最先进SOTA的融合算法相比该方法通常只需不到十分之一的运行时间并能够在各种应用场景中保持较高的运行速度即使在低功耗移动设备上也能高效运行。大量实验结果验证了该融合方法在性能、可靠性和稳定性方面的优势。06 DreamFuse: Adaptive Image Fusion with Diffusion Transformer题目DreamFuse: Adaptive Image Fusion with Diffusion Transformer编号Poster Session 4 Exhibit Hall with Coffee Break | Exhibit Hall I #231单位中山大学、鹏城实验室、字节跳动智能创作团队、广东省大数据分析与处理重点实验室代码https://ll3rd.github.io/DreamFuse/摘要图像融合旨在将前景对象与背景场景无缝整合从而生成真实且协调的融合图像。不同于现有方法通常直接将前景对象插入背景中自适应且具有交互性的融合仍然是一项具有挑战但极具吸引力的任务。这类任务要求前景能够根据背景环境进行调整或与其发生交互从而实现更加自然和一致的融合效果。为了解决这一问题本文提出了一种人机协同human-in-the-loop的迭代式数据生成流程利用少量初始数据并结合多样化的文本提示生成涵盖多种场景与交互方式的融合数据集例如物体放置、手持、穿戴以及风格迁移等。在此基础上本文提出了一种名为DreamFuse的新方法该方法基于Diffusion TransformerDiT模型能够同时利用前景和背景信息生成一致且协调的融合图像。DreamFuse 通过位置仿射机制Positional Affine将前景的尺寸和位置注入到背景特征中并通过共享注意力机制实现有效的前景–背景交互。此外本文还引入由人类反馈指导的局部化直接偏好优化Localized Direct Preference Optimization对 DreamFuse 进行进一步优化从而提升背景一致性与前景融合的自然度。DreamFuse 在实现高质量融合的同时还能够泛化到基于文本驱动的融合图像属性编辑任务。实验结果表明该方法在多项评价指标上均优于当前最先进的方法。07 AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation题目AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation编号Poster Session 3 Exhibit Hall | Exhibit Hall I #59单位吉林大学、教育部知识驱动人机智能工程研究中心、中国科学院计算技术研究所、伯明翰大学代码https://github.com/Zhonghaifeng6/AMDANet摘要多模态语义分割的挑战在于在不同模态视觉特征差异显著的情况下构建具有语义一致性且易于分割的多模态融合特征。现有方法通常通过构建跨模态自注意力融合框架或引入额外的多模态融合损失函数来实现融合特征的学习。然而这些方法往往忽视了融合过程中不同模态之间特征差异所带来的问题。为实现更加精确的分割本文提出了一种注意力驱动的多模态差异对齐网络Attention-Driven Multimodal Discrepancy Alignment NetworkAMDANet。AMDANet 通过重新分配注意力权重来降低差异特征的显著性并利用低权重特征作为线索缓解不同模态之间的差异从而实现多模态特征的有效对齐。此外为了简化特征对齐过程本文引入了一种语义一致性推理机制用于揭示网络对特定模态的内在偏置从而在基础层面压缩跨模态特征差异。大量实验结果表明在FMB、MFNet 和 PST900数据集上AMDANet 的 mIoU 分别提升3.6%、3.0% 和 1.6%显著优于当前最先进的方法。08 UniFuse: A Unified All-in-One Framework for Multi-Modal Medical Image Fusion Under Diverse Degradations and Misalignments题目UniFuse: A Unified All-in-One Framework for Multi-Modal Medical Image Fusion Under Diverse Degradations and Misalignments编号Poster Session 3 Exhibit Hall | Exhibit Hall I #399单位昆明理工大学、哈尔滨工业大学深圳、合肥工业大学代码https://github.com/slrl123/UniFuse摘要当前多模态医学图像融合通常假设源图像具有较高质量且在像素级别上完全对齐其性能高度依赖这些条件一旦面对存在配准误差或退化的医学图像时融合效果往往会明显下降。为了解决这一问题本文提出了一种通用融合框架UniFuse。该方法通过引入退化感知提示学习模块degradation-aware prompt learning能够从输入图像中融合多方向信息并将跨模态对齐与图像恢复过程进行关联在统一框架下实现两者的联合优化。此外本文设计了Omni Unified Feature Representation全向统一特征表示方案利用Spatial Mamba对多方向特征进行编码从而在特征对齐过程中缓解不同模态之间的差异。为了在All-in-One的配置下实现同时恢复与融合本文进一步提出了Universal Feature Restoration Fusion 模块其中引入基于 LoRA 原理的Adaptive LoRA Synergistic NetworkALSN。通过 ALSN 的自适应特征表示能力以及退化类型引导实现了在单阶段框架下的联合恢复与融合。与传统的分阶段方法相比UniFuse 在一个统一框架中同时完成对齐、恢复与融合。多个数据集上的实验结果表明该方法在性能上优于现有方法并展现出显著的优势。09 MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance题目MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance编号Poster Session 3 Exhibit Hall | Exhibit Hall I #164单位电子科技大学、四川省多灾种预警重点实验室代码https://github.com/294coder/MMAIF摘要图像融合是一项基础的低层视觉任务其目标是将多个图像序列整合为单一输出同时尽可能保留输入图像中的信息。然而现有方法仍然存在若干显著局限① 通常需要针对特定任务或特定数据集训练专门模型② 忽视真实场景中的图像退化如噪声在处理退化输入时性能容易下降③ 多数方法在像素空间中进行处理使得注意力机制计算开销较大④ 缺乏用户交互能力。为解决这些问题本文提出了一种统一的多任务、多退化、语言引导的图像融合框架。该框架包含两个关键组件首先设计了一种实用的退化生成流程用于模拟真实世界中的图像退化并生成交互式提示以指导模型学习其次构建了一种在**潜空间latent space**中运行的Diffusion TransformerDiT全能模型通过结合退化输入和生成的提示信息生成高质量的融合图像。此外本文还对原始 DiT 架构进行了系统性改进使其更加适用于图像融合任务。在此基础上提出了两种模型版本基于回归Regression-based和基于流匹配Flow Matching-based的变体。大量定性与定量实验结果表明该方法能够有效克服上述问题并在性能上优于现有的“恢复融合”方法以及其他一体化融合框架。10 The Source Image is the Best Attention for Infrared and Visible Image Fusion题目The Source Image is the Best Attention for Infrared and Visible Image Fusion编号Poster Session 3 Exhibit Hall | Exhibit Hall I #331单位中北大学、山西省机器视觉与虚拟现实重点实验室、山西省视觉信息处理与智能机器人工程研究中心代码https://github.com/Afreshbird/SIBA摘要红外与可见光图像融合Infrared and Visible Image FusionIVF旨在融合不同模态图像的优势信息以生成更优质的融合结果。本文首次揭示了红外图像所具有的内在“注意力特性”这种特性直接来源于其物理属性如热分布并且可以自然地与注意力机制建立联系这一点在图像分类模型的梯度加权类激活映射Grad-CAM可视化分析中得到了验证。为了在图像融合中充分利用这一特性本文提出了源红外交叉注意力Source Infrared-Cross AttentionI-SCA并进一步扩展到可见光模态提出源可见光交叉注意力Source Visible-Cross AttentionV-SCA。I-SCA 与 V-SCA 的联合使用能够有效缓解红外与可见光融合中长期存在的问题例如多模态特征交互不足以及融合不充分等。此外本文还设计了一个辅助模块 CBSM用于增强通道与特征图空间信息并抑制源图像中的冗余和误导信息从而进一步提升 I-SCA 与 V-SCA 的效果。具体而言经过 CBSM 处理的原始图像被直接作为查询query而另一模态的中间特征则作为键key和值value输入到 I-SCA 和 V-SCA 中。不同于将图像划分为 patch 或限制在局部窗口内计算的注意力机制本文提出的交叉注意力模块通过对整个图像空间进行全局建模并以线性复杂度实现更加平滑且鲁棒的图像融合。在三个常用公开数据集上的实验结果表明该方法优于当前最先进的方法。11 Retinex-MEF: Retinex-based Glare Effects Aware Unsupervised Multi-Exposure Image Fusion题目Retinex-MEF: Retinex-based Glare Effects Aware Unsupervised Multi-Exposure Image Fusion编号Poster Session 2 Exhibit Hall with Coffee Break | Exhibit Hall I [#209](javascript:单位西安交通大学、苏黎世联邦理工学院、西北工业大学代码https://github.com/HaowenBai/Retinex-MEF摘要多曝光图像融合Multi-Exposure Image FusionMEF旨在将同一场景的多张不同曝光图像合成为一张曝光均衡的图像。Retinex 理论通过将图像分解为照明illumination与场景反射reflectance两个部分为在不同曝光条件下保持场景一致性并实现有效信息融合提供了自然的理论框架。然而传统方法通常采用像素级的照明与反射相乘方式进行重建这种方式难以有效建模由过曝光引起的眩光glare效应。为了解决这一问题本文提出了一种无监督且可控的多曝光融合方法Retinex-MEF。具体而言该方法将多曝光图像分解为多个独立的照明分量以及一个共享的反射分量并对过曝光产生的眩光效应进行有效建模。共享反射分量通过双向损失bidirectional loss进行学习从而能够有效缓解眩光问题。此外本文还提出了一种可控的曝光融合准则使模型在保持图像对比度的同时实现全局曝光调节从而突破传统固定曝光水平的限制。在多个数据集上的大量实验包括欠曝光与过曝光融合、曝光可控融合以及极端曝光一致场景融合均验证了该方法在图像分解与灵活融合方面的有效性。

相关新闻

最新新闻

日新闻

周新闻

月新闻