概要
ディープラーニングの画像認識モデルである ResNet を解説し、Pytorch の実装例を紹介します。
ResNet
ResNet は、画像認識のコンテスト ILSVRC 2015 にて、top5 error rate で3.57%を記録し、優勝した CNN ネットワークモデルです。下記、2論文に基づいて解説します。
ResNet が考案された背景
CNN が画像認識分野でブレイクスルーを起こしてから、層を深くすることで精度向上が図られてきましたが、一方、層を深くした影響で、勾配消失問題、劣化問題 (degradation problem) が発生し、学習が難しくなる問題が生じました。勾配消失問題は様々なアプローチで取り組まれ解決が図られましたが、もうひとつの劣化問題に着目し、深い層でも学習が行えるネットワークアーキテクチャとして ResNet が考案されました。
劣化問題
劣化問題 (degradation problem) とは、層が深いモデルの学習において、訓練誤差の改善が層が浅いモデルより早い段階で頭打ちになる現象です。
層が浅いモデルとそのモデルに何層か追加した層が深いモデルの2つがあった場合、層が深いモデルは浅いモデルより訓練誤差が同等か改善するはずです。 なぜなら、層が深いモデルは関数 は層が浅いモデルと同じに、追加した関数 は と恒等写像となるように学習すれば、浅いモデルと同じ関数を学習できるからです。

上図は18層のモデル及び34層のモデルの学習時の訓練誤差、テスト誤差の推移です。(細線が訓練誤差、太線がテスト誤差) 18層より34層のモデルのほうが、訓練誤差の改善が期待しますが、実際は層を深くした34層のモデルのほうが訓練誤差が劣化しています。訓練誤差の問題のため、過学習が原因ではありません。
Residual Network
図は左が従来のネットワーク (plain network)、右がこれから紹介する residual network の一部を表しています。
と恒等写像を学習するのが最適であった場合を考えます。 左では、非線形関数 のパラメータ を調整し、恒等写像を学習する必要がありますが、これが難しいため劣化問題が起こるのではないかと論文では推察しています。 そのため、右のように Shortcut Connection または Identity Mapping という迂回路を追加し、 を出力とするように変更しました。 こうした場合、恒等写像を学習するには 、つまりパラメータを になるよう学習すればよいので、前者に比べ学習がより簡単になります。 図の右の何層かの畳み込み層と shortcut connection から成るブロックを residual block といいます。この residual block を複数重ねたネットワークが Residual Network (ResNet) です。

上図は18層のモデル及び34層のモデルの学習時の訓練誤差、テスト誤差の推移です。(細線が訓練誤差、太線がテスト誤差) 18層より34層のモデルのほうが、訓練誤差、テスト誤差が改善していることが確認できます。
ResNet
ネットワーク構成
ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152 の5種類が提案されています。
いずれも上記の構成になっており、conv2_x, conv3_x, conv4_x, conv5_x の部分は residual block を以下で示すパラメータに従い、繰り返したモデルになっています。

shortcut connection
residual block の最後で と shortcut connection を通ってきた値 を足し合わせるため、形状を一致させる必要があります。 と の形状が異なる場合は、ゼロパディングまたは線形変換 で形状を一致させます。
論文では、ResNet-34 に対して、以下の3パターンの実験を行いました。
- A: と の形状が異なる場合のみ、ゼロパディングを行います。
- B: と の形状が異なる場合のみ、線形変換 を行い、同じ場合は とします。
- C: 常に線形変換 を行います。

結果は A < B < C の順に性能がよいことがわかりました。B と C は僅差であり、計算量は C のほうが多くなるので、論文では B を採用しました。
residual block
residual block の は通常2から3層の畳み込み層で構成されるが、それ以上でもよいです。論文では、以下の2パターンを採用しました。
- Building Block: 3×3 の2つの畳み込み層で構成。ResNet-18、ResNet-34 の residual block として使用。
- Bottleneck Building Block: 1×1、3×3、1×1 の3つの畳み込み層で構成。ResNet-50、ResNet-101、ResNet-152 の residual block として使用。

torchvision の ResNet の実装
torchvision.models.resnet の ResNet の実装について解説します。
Building Block の実装

BasicBlock クラスで Building Block を定義しています。順伝搬時の処理は以下のようになっています。
- Conv2D (kernel_size=3, padding=1, stride=1 or 2)
- BatchNorm2d
- ReLU
- Conv2D (kernel_size=3, padding=1, stride=1)
- BatchNorm2d
- 形状が入力と異なる場合は、1×1 の畳み込み層で線形変換を行います。
- shortcut connection と結合します。
- ReLU
各 Residual Blocks の最初の Residual Block では、入力と出力のチャンネル数または大きさが異なるため (in_channels != channels * self.expansion
)、shortcut connection の出力を足し合わせる際に形状を一致させる必要があります。その場合、1×1 の畳み込みを利用して、線形変換を行い、形状を一致させます。
Bottleneck Block の実装

Bottleneck クラスで Bottleneck Block を定義しています。順伝搬時の処理は以下のようになっています。
- Conv2D (kernel_size=1, padding=0, stride=1)
- BatchNorm2d
- ReLU
- Conv2D (kernel_size=3, padding=1, stride=1 or 2)
- BatchNorm2d
- ReLU
- Conv2D (kernel_size=1, padding=0, stride=1)
- BatchNorm2d
- 形状が入力と異なる場合は、1×1 の畳み込み層で線形変換を行います。
- shortcut connection と結合します。
- ReLU
Pytorch の実装は ResNet v1.5 というもので、論文の ResNet と次の点が異なります。論文ではダウンサンプリングを行う場合に1つ目の畳み込み層で行っていましたが、v1.5 では2つ目の畳み込み層で行います。この変更により、Top1 Accuracy が0.5%程度高くなり、5% 程度計算量が増えたようです。
ResNet を定義する
ResNet クラスで ResNet 全体のモデルを作成します。
- Conv2D (out_channels=64, kernel_size=7, padding=2, stride=3)
- BatchNorm2d
- MaxPool2d (kernel_size=3, stride=2, padding=1)
- Residual Blocks (in_channels=64)
- Residual Blocks (in_channels=128)
- Residual Blocks (in_channels=256)
- Residual Blocks (in_channels=512)
- Global Average Pooling
- Linear (out_channels=num_classes)
ただし、2、3、4 個目の Residual Blocks では、最初の畳み込み層で
stride=2
で畳み込みを行い、ダウンサンプリングを行います。1つ目の Residual Block は、直前で Max Pooling でダウンサンプリングを行っているので、畳み込みによるダウンサンプリングは不要です。畳み込み層の初期化は He initialization (torch.nn.init.kaimingnormal) を使用し、Batch Normalization 層の初期化は重み1、バイアス0で初期化します。

各 ResNet のモデルを作成する関数を作ります。第2引数は4つの Residual Blocks の Residual Block を繰り返す回数を表しています。
torchinfo で表示する
torchinfo で各層のパラメータや出力の形状を確認します。
torchinfo は pip install torchinfo
でインストールできます。
ResNet のパラメータ数と精度
ResNet のパラメータ数と ImageNet のエラー率は次のようになっています。層が増えるほど精度は高くなりますが、パラメータ数は増加するため、計算量が増えます。
モデル名 | 関数 | パラメータ数 | Top-1 エラー率 | Top-5 エラー率 |
---|---|---|---|---|
ResNet-18 | resnet18() | 11689512 | 30.24 | 10.92 |
ResNet-34 | resnet34() | 21797672 | 26.7 | 8.58 |
ResNet-50 | resnet50() | 25557032 | 23.85 | 7.13 |
ResNet-101 | resnet101() | 44549160 | 22.63 | 6.44 |
ResNet-152 | resnet152() | 60192808 | 21.69 | 5.94 |
ResNeXt-50-32x4d | resnext50_32x4d() | 25028904 | 22.38 | 6.3 |
ResNeXt-101-32x8d | resnext101_32x8d() | 88791336 | 20.69 | 5.47 |
Wide ResNet-50-2 | wide_resnet50_2() | 68883240 | 21.49 | 5.91 |
Wide ResNet-101-2 | wide_resnet101_2() | 126886696 | 21.16 | 5.72 |
参考
- ResNet50 v1.5 architecture
- Deep Residual Learning for Image Recognition
- Identity mappings in Deep Residual Networks
- Understanding and Implementing Architectures of ResNet and ResNeXt for state-of-the-art Image Classification: From Microsoft to Facebook [Part 1] | by Prakash Jay | Medium
- Residual Network(ResNet)の理解とチューニングのベストプラクティス – DeepAge
- ResNetの仕組み
- What exactly is the degradation problem that Deep Residual Networks try to alleviate? – Quora
- An Overview of ResNet and its Variants | by Vincent Feng | Towards Data Science
コメント
コメント一覧 (0件)
1) def __init__(self, in_channels, channels, stride=1):
print(in_channels, out_channes) <-誤字
2) tochinfoの情報と実装マッチしてますか?
3) 下記の実装はあってるのでしょうか?
# 入力と出力のチャンネル数が異なる場合、x をダウンサンプリングする。
if in_channels != channels * self.expansion:
コメントありがとうございます。
1.について
ご指摘ありがとうございます。修正しました。
2.について
torchinfo で表示しているのは resnet18 のパラメータになります。
Pytorch の resnet18 のパラメータを誤って記載していたので修正しました。
モデルの構造 (パラメータなど) は本家ののものと同一になります。
3. について
Building Block、Bottleneck Block いずれも最後の ReLU の直前で分岐させた結合を足し合わせます。その際、(C, H, W) の形状が一致している必要があるため、チャンネル数が異なる場合は 1×1 の畳み込みでチャンネルを一致させます。
実装としてはあっていると考えているのですが、もし疑問点がありましたら、確認します。