【论文笔记】AIR-Net：基于GAN的配准模型

2020-06-16

本文是论文《Adversarial Image Registration with Application for MR and TRUS Image Fusion》的阅读笔记。

文章提出了一个基于GAN的对MRI和经直肠超声（TRUS）图像进行多模态配准的有监督网络模型AIR-Net，其中MRI被当作固定图像，而经直肠超声图像被当作浮动图像。

模型由生成器 $G$ 和判别器 $D$ 两部分组成，其中生成器直接估计一个从浮动图像到固定图像的转换参数 $T_{est}$；然后通过一个图像采样器分别使用估计的转换参数 $T_{est}$ 和真实（ground-truth）的转换参数 $T_{gt}$ 对浮动图像进行配准处理；并通过判别器来判断图像对是通过 $T_{est}$ 还是 $T_{gt}$ 来进行对齐的。

文章将三维图像看作是多通道的二维图像，

生成器的详细结构如下：

一个空洞卷积层（128通道， dilation rate为2）用来扩大感受野，两个卷积层（128通道，步长为2）用来降低分辨率，一个包含具有残差连接的三个卷积层的残差模块（128通道），一个卷积层（卷积核大小为$1\times1$，通道数为8）用来降低参数数量，两个全连接层用来得到最终的输出，第一个全连接层的输出为256维的，第二个全连接层的输出的维度和转换参数的个数相同（如果是三维刚性配准则有6个参数，如果是三维仿射配准则有12个参数）。以上卷积层如果没有特殊声明，卷积核大小都为$3\times3$，并且后面紧跟一个ReLU激活函数。

判别器的详细结构和生成器几乎相同，唯一不同的地方在于最后一个全连接层的输出维度为1，并且后面跟着一个Sigmoid激活函数。

判别器的损失为：
$$
\mathcal{L}(D)=-\mathbb{E}{T \sim p{g t}(T)}\left[D\left(I_{f}, I_{m}\right)\right]+\mathbb{E}{T \sim p{z}(T)}\left[D\left(I_{f}, T\left(I_{m}\right)\right]\right.
$$
其中 $ I_f $ 和 $ I_m$ 分别是固定图像和浮动图像，$\mathbb{E}{T \sim p{g t}(T)}\left[D\left(I_{f}, I_{m}\right)\right]$ 表示已经对齐的MR-TRUS的图像对的判别器损失的期望，而 $\mathbb{E}{T \sim p{z}(T)}[D(I_{f}, T(I_{m})]$ 表示随机对齐的图像对的判别器损失的期望。

生成器的损失为：

$$
\mathcal{L}(G)=\mathbb{E}{T \sim p{z}(T)}\left[1-D\left(I_{f}, T_{e s t}\left(T\left(I_{m}\right)\right)\right)+\alpha\left|T_{e s t}-T^{-1}\right|^{2}\right]
$$
其中 $||T_{eset}-T^{-1}||^2$ 是估计的转换和随机生成的转换之间的欧几里得距离。

在训练时采用了和WGAN（Wasserstein GAN）类似的方法，为了保证训练的稳定性，在每次更新判别器网络的参数即后，需要将其参数clip到某个范围内，clipping 参数值设置为0.1。并且没训练一次生成器网络，判别器网络会更新两次。

本文作者： 俎志昂
本文链接： zuzhiang.cn/2020/06/16/AIR-Net/
版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！