ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical D-云南昆明建网站

ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical DataClipGS用于体绘制医学数据交互式电影级可视化的可裁剪高斯泼溅方法摘要体绘制医学数据的可视化对于提高诊断准确性、改善手术规划和医学教育至关重要。电影级渲染技术通过提供高质量的可视化效果展现精细的解剖细节显著增强了这一过程从而在医学场景中促进更深入的理解和更优的决策。然而高昂的计算成本和较低的渲染速度限制了其在实际应用中对交互式可视化的需求。本文提出 ClipGS——一种创新的支持裁剪平面的高斯泼溅Gaussian Splatting框架用于实现体绘制医学数据的交互式电影级可视化。为应对动态交互带来的挑战我们提出了一种可学习的截断机制learnable truncation scheme能够根据裁剪平面自动调整高斯基元的可见性。此外我们还设计了一种自适应调整模型adaptive adjustment model动态调节高斯基元的形变以优化裁剪表面的渲染性能。我们在五组体绘制医学数据包括CT和解剖切片数据上验证了所提方法平均达到36.635 PSNR的渲染质量、156 FPS的帧率以及仅16.1MB的模型大小在渲染质量和效率方面均优于当前最先进的方法。项目地址https://med-air.github.io/ClipGS。关键词体绘制医学数据可视化 · 交互式电影级渲染 · 可裁剪高斯泼溅1 引言体绘制医学数据的可视化[30]是现代医学实践的基石。医学体数据可视化的效果主要受两个关键因素影响。首先渲染质量直接影响所传达信息的丰富程度。近年来高质量的电影级渲染技术[10]已广泛应用于手术规划[25]和医学教育[12]。其次交互性水平影响用户对数据的理解能力。交互工具如裁剪平面[3,8]能够直观地展示复杂的医学数据并有效突出解剖异常结构。为了实现复杂解剖结构的电影级渲染光线追踪[15]被广泛用于模拟体素间的光传播从而增强细节并实现高度逼真的视觉效果[5,27]。为提升电影级医学体数据可视化在实际应用中的可用性研究者[3,8,9]引入了裁剪平面和裁剪立方体以交互方式展示内部解剖结构。然而耗时的渲染过程限制了其实际应用。为加速渲染流程基于光子映射的体绘制方法[29]被提出用于医学体数据可视化。尽管该方法具有一定优势但其计算需求仍难以在消费级硬件上实现实时性能。尽管Heinrich[11]和Taibo[26]进一步优化了交互式三维医学可视化的效率但其方法仍需牺牲渲染质量以实现带体裁剪的实时交互。如何设计一种更高效的解决方案在支持实时交互的同时实现照片级真实感渲染仍然是一个开放性挑战。近年来神经渲染技术在新视角下的照片级真实感渲染方面取得了巨大成功。神经辐射场NeRF[19]通过多层感知机MLP将三维场景表示为连续的体函数。最近三维高斯泼溅3DGS将三维场景建模为一组各向异性高斯基元[13,23,24,32]实现了基于点的辐射渲染过程在保证高质量渲染的同时展现出卓越的实时性能。受益于这些进展Niedermayr等人[20]探索了3DGS[13]技术在解剖可视化中的潜力。Kleinbeck等人[14]更进一步通过分层高斯表示逐步可视化不同的解剖结构。尽管这些方法实现了体绘制医学数据的实时电影级渲染但它们仅支持固定三维结构的渲染缺乏展示内部结构和细节的能力。这种非交互式渲染限制了其在手术规划和教育中的潜力。本文旨在构建一个基于高斯泼溅的框架用于实现体绘制医学数据的实时交互式电影级可视化。我们采用医学实践中广泛使用的裁剪平面[3,8,9]以交互方式可视化内部结构并突出细节。然而裁剪平面的引入带来了额外变量使得直接适配基于3DGS的渲染变得困难。不同于现有方法[14]为每个裁剪层单独构建三维高斯基元导致存储/内存成本呈指数增长我们提出了一种新颖的基于高斯泼溅的框架能够在实时条件下同时实现照片级真实感渲染和裁剪平面交互。我们为高斯基元引入了一个可学习属性可根据查询的裁剪平面自动控制其可见性。此外我们建议在特定裁剪平面下动态调整可见高斯基元的位置和形状以优化裁剪表面的渲染性能。本文的主要贡献总结如下– 我们提出了ClipGS一种用于实时交互式电影级解剖可视化的新型高斯泼溅框架。– 我们提出了一种可学习截断LT机制能够根据查询的裁剪平面动态控制每个高斯基元的可见性。– 我们设计了一种自适应调整模型AAM用于调节高斯基元的形变以优化渲染性能。– 我们构建了一个电影级医学数据集用于验证所提方法并证明其在视觉质量和效率方面的优越性。2 方法我们所提出框架的整体流程如图1所示。对于给定的体绘制医学数据 \( V \)我们的方法能够针对任意查询视角和裁剪平面实现实时电影级渲染。首先我们使用光线追踪渲染器在随机相机视角 \( v_i \) 和随机裁剪平面 \( z_i \) 下生成一组稀疏的电影级图像序列 \( \{I_i\}_{i1}^N \)。随后我们基于这些图像优化一个随机初始化的三维高斯点云见第2.1节。为此我们为高斯基元引入了一个可学习属性以根据查询的裁剪平面自动控制其可见性见第2.2节。为进一步提升渲染质量我们设计了一种自适应调整模型用于在特定裁剪平面下动态调整可见高斯基元的位置和形状见第2.3节。实验结果表明所提方法在渲染质量和效率方面均具有显著优势见第3节。2.1 高斯泼溅基础三维高斯泼溅3D Gaussian Splatting, 3DGS[13] 使用一组高斯基元来表示静态三维场景。其数学形式可表示为\[G(x; \mu, r, s) e^{-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu)}, \quad \Sigma R S S^T R^T,\]其中协方差矩阵被分解为旋转矩阵 \( R \) 和缩放矩阵 \( S \)。在渲染过程中3DGS 使用一个可微分光栅化器实现基于点的体渲染。图像平面上的像素颜色 \( C \) 最终通过投影到该平面上的高斯基元进行 α 混合得到\[C \sum_{i1}^{N} T_i \alpha_i G_i(x; \mu_i, r_i, s_i) c_i, \quad T_i \prod_{j \in i-1} (1 - G_j(x; \mu_j, r_j, s_j) \alpha_j),\]其中 \( T_i \) 表示第 \( i \) 个高斯基元在像素 \( x \) 处的累积透射率。二维投影高斯概率密度 \( G(x; \mu, r, s) \) 可通过相机的内参和外参进行投影操作获得。最终可优化的高斯基元由以下参数表征位置 \( \mu \in \mathbb{R}^3 \)、旋转 \( r \in \mathbb{R}^3 \)、尺度因子 \( s \in \mathbb{R}^3 \)、颜色 \( c \in \mathbb{R}^3 \) 和不透明度 \( \alpha \in \mathbb{R} \)。2.2 基于可学习截断的高斯可见性控制裁剪平面的引入为基于高斯泼溅的医学体数据电影级渲染“烘焙”过程增加了一个额外维度将原本的三维表示问题转变为四维表示问题。以往的工作 [7,18,28] 尝试沿该新增维度学习一个形变场以控制高斯泼溅的渲染。然而这些方法与一个关键观察相矛盾实际应用中裁剪平面主要影响的是高斯基元在渲染时的可见性而非其几何结构本身。受此启发我们关注裁剪平面与高斯基元之间的几何关系。直观上我们可以直接使用高斯均值 \( \mu \) 作为其位置来判断可见性我们称之为硬截断Hard Truncation, HT方案。尽管该策略通常能保证渲染结果大致正确但这种简单方法容易使模型陷入局部最优导致裁剪表面出现毛刺状伪影。具体而言考虑那些根据 3σ 原则在 99% 置信区间内与裁剪平面相交的高斯基元——它们对裁剪表面的渲染有贡献但其均值可能位于裁剪平面两侧。实际上高斯的真实“质心”相对于均值 \( \mu \) 存在一个偏移量 \( \delta \in \mathbb{R}^3 \)。因此我们定义可见性判据为\[M (\mu \delta) \cdot n z,\]其中 \( n \) 是裁剪平面的法向量\( z \) 是裁剪平面到原点的距离。\( M \in \{0,1\} \) 表示可见性位于裁剪平面下方的高斯可见反之不可见。为此我们提出一种可学习截断Learnable Truncation, LT方案为每个高斯基元引入一个额外的可优化属性 \( m \in \mathbb{R} \)。我们将 \( m \) 定义为 \( m (\mu \delta) \cdot n \)并将式 (3) 重写为 \( M m z \)。这样可确保 \( \mu \) 的优化不受式 (3) 中梯度的影响。受文献 [16] 启发我们采用直通估计器straight-through estimator[2]将可学习截断函数重新定义为\[M \text{sg}\left( \mathbf{1}[\sigma(m - z) \epsilon] - \sigma(m - z) \right) \sigma(m - z),\]其中 \( \sigma(\cdot) \) 为 sigmoid 函数\( \mathbf{1}(\cdot) \) 为指示函数\( \epsilon \) 为阈值超参数\( \text{sg}(\cdot) \) 为梯度停止算子。通过这种方式在反向传播过程中我们可以直接使用 sigmoid 函数的梯度来近似可见性阶跃函数的梯度从而自动优化参数 \( m \)。2.3 基于自适应形变调整的连续裁剪与标准三维场景表示任务相比交互式电影级可视化引入了一个额外变量即裁剪平面用于展示体绘制医学数据的内部结构。这一新增维度将任务转化为四维场景表示问题。然而现有的基于高斯泼溅的电影级渲染方法 [20,14] 仅处理三维问题。我们通过第2.2节提出的可学习截断机制控制高斯基元的可见性以实现解剖结构的电影级渲染。但由于式 (4) 中包含指示函数操作该机制在数学上不连续导致裁剪平面变化时渲染结果出现不一致。为解决此问题我们提出不直接进行可见性控制而是根据裁剪平面条件预测对高斯基元的连续调整从而有效优化渲染结果并确保不同裁剪平面间的连续性。具体地我们设计了一个自适应调整模型用于建模特定裁剪平面条件下高斯基元的动态形变。我们采用位置编码Positional Encoding, PE[19] 后接一个轻量多层感知机MLP来学习特征 \( f \)并通过一个多头 MLP 解码器生成所需的动态形变。我们将所有可见高斯的位置 \( \mu \) 和裁剪平面参数 \( z \) 分别输入位置编码模块然后将融合后的高频特征送入 MLP\[f \text{MLP}(\gamma(\mu), \gamma(z)),\]其中 \( \gamma(\cdot) \) 表示位置编码操作。随后分别使用独立的 MLP 分支 \( \phi_\mu \)、\( \phi_r \) 和 \( \phi_s \) 计算高斯基元的形变位置偏移 \( \Delta\mu \phi_\mu(f) \)、旋转偏移 \( \Delta r \phi_r(f) \) 和尺度偏移 \( \Delta s \phi_s(f) \)。注原文中“scale ∆µ ϕs(f)”应为笔误此处修正为 \( \Delta s \)。最终我们将式 (2) 中的渲染函数重写为\[C \sum_{i1}^{N} M_i T_i \alpha_i G_i(x; \mu_i \Delta\mu_i, r_i \Delta r_i, s_i \Delta s_i) c_i.\]渲染结果由所有在查询裁剪平面下可见的高斯基元通过 α 混合着色得到。2.4 ClipGS 的优化我们采用两阶段优化策略。首先利用可学习截断机制训练高斯点云获得粗略初始化随后启动自适应调整阶段以优化渲染性能并保持裁剪平面维度上的一致性。关于训练损失我们衡量渲染颜色 \( C \) 与光线追踪生成的真实电影级图像CA 图像中的真实颜色 \( C_{\text{gt}} \) 之间的差异。与 [13] 中的 3DGS 流程类似我们采用 D-SSIM 项与 L1 项的加权组合作为训练损失\[\mathcal{L} (1 - \lambda) \mathcal{L}_1(C, C_{\text{gt}}) \lambda \mathcal{L}_{\text{D-SSIM}}(C, C_{\text{gt}}).\]通过这种方式我们能够在渲染图像的感知质量与对真实数据的保真度之间取得平衡。