本文是论文 End-to-End Unsupervised Deformable Image Registration with a Convolutional Neural Network 的阅读笔记。
文章提出了一种端到端的无监督配准模型——变形图像配准网络(Deformable Image Registration Network, DIRNet),并在手写数字数据集 MNIST 和心脏电影 MR 数据集 SCD 上做了实验。这个模型包括三个部分:一个由 CNN 实现的回归器、空间变换网络、重采样器。该模型是第一个基于深度学习的无监督端对端的图像配准模型。
一、网络结构
DIRNet 由回归器、空间变换器和重采样器三部分组成。如上图所示,回归器以 fixed image 和 moving image 的图像块作为输入,其输出的形变参数作为空间变换器的输入,空间变换器产生一个形变场,然后输入到重采样器中,重采样器根据形变场对 moving image 进行变换,得到配准之后的图像。整个网络通过通过计算 fixed image 和 warped moving image 之间的相似性作为损失函数来更新网络的参数。
1. 回归器
回归器的输入是 fixed image 和 moving image 中对应的图像块(patch),它利用 CNN 预测一个局部的形变参数。其网络结构具体是:4 个 $3\times3$ 的卷积层,采用 0 填充,并且使用 $2\times2$ 的下采样层,下采样层具体使用的是平均池化操作,然后是一个 $1\times1$ 的卷积层作为全连接层。每一层中都使用了批正则化,除最后一个卷积层外每个卷积层后都跟着一个指数线性单元(ELU)作为激活函数。
2. 空间变换器
空间变换器的输入是回归器预测的形变参数,其输出是一个位移向量场(形变场),具体的,空间转换器会根据薄板样条产生一个形变场,这种更适合于预测全局的形变场,即输入是整幅图像;当输入是图像块时,预测的是局部的形变场,这时 B 样表转换则更适合。
3. 重采样器
重采样器的输入是一个形变场,其输出是变形后的 moving image。
模型的优化器采用的是随机梯度下降优化器,图像之间的相似度损失采用的是归一化的互相关。
二、实验结果
1. MNIST 数据集
在处理 MNIST 数据集时,由于有 0~9 十种不同的手写数字,所以是对每一类的图像分别进行训练的,并且在训练时随机选择一个图片作为 fixed image。
上图是对 MNIST 数据集进行训练的结果,第一行是每一类图像取平均值之后得到的,第二行是 fixed image,第三行是配准之后的结果。
2. SCD 数据集
为了评估不同的网络设置对效果的影响,在 SCD 数据集上进行训练时,以第二部分网络结构
中提到的设置作为基准,分别对以下内容做了实验:
为了评估不同的下采样方法的影响,DIRNet-A1 模型使用的是最大池化操作,DIRNet-A2 模型使用的是步长为 2 的卷积操作。
为了评估不同的空间变换器的影响,DIRNet-B1 使用的是二次 B 样条变换器,DIRNet-B2 使用的是薄板样条变换器。
为了评估不同大小的接收野(即patch大小)的影响,DIRNet-C1 使用的是有重叠的图像块,该图像块大小与B样条控制点的捕获范围一致,这是通过在最终池层前后添加额外的 $3\times3$ 的卷积层来实现的;DIRNet-C2 通过将最后一层 $1\times1$ 的卷积层替换为 $3\times3$ 的卷积层,然后是一个下采样层、两个 1024 节点的完全连接层和一个 $16\times16$ 的二维控制点的最终输出层来分析每个控制点的全图像切片。
上图是根据上述不同的实验设置得到的训练结果,其中每一行分别表示配准之前的损失、SimpleElastix 模型训练的损失以及不同设置的 DIRNet 的损失。$95^{th} SD$ 是 surface distance(表面距离)的缩写,$MAD$ 是 mean absolute surface distance(平均绝对表面距离的缩写)。在所有的模型中,B2 训练时收敛的较慢,但是效果比基准网络要好,C1 的效果是最好的。
上图是 DIRNet 和 SimpleElastix 配准结果的对比图,可以看出来 DIRNet 的配准结果更接近于 fixed image。
- 本文作者: 俎志昂
- 本文链接: zuzhiang.cn/2020/03/04/DIRNet/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!