Pytorch – 学習済みモデルで画像分類を行う方法

概要

torchvision で提供されている学習済みのモデルを紹介し、推論を行う方法について解説します。

学習済みのモデル

torchvision では、以下のモデルが提供されています。これらのモデルでは、ImageNet の1000クラス分類問題を学習した重みが使えるようになっており、転移学習や fine-tuning に利用できます。

モデル名	関数名	パラメータ数	Top-1 エラー率	Top-5 エラー率	出典
AlexNet	alexnet()	61100840	43.45	20.91	One weird trick for parallelizing convolutional neural networks
VGG-11	vgg11()	132863336	30.98	11.37	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-13	vgg13()	133047848	30.07	10.75	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-16	vgg16()	138357544	28.41	9.62	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-19	vgg19()	143667240	27.62	9.12	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-11 with batch normalization	vgg11_bn()	132868840	29.62	10.19	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-13 with batch normalization	vgg13_bn()	133053736	28.45	9.63	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-16 with batch normalization	vgg16_bn()	138365992	26.63	8.5	Very Deep Convolutional Networks for Large-Scale Image Recognition
VGG-19 with batch normalization	vgg19_bn()	143678248	25.76	8.15	Very Deep Convolutional Networks for Large-Scale Image Recognition
ResNet-18	resnet18()	11689512	30.24	10.92	Deep Residual Learning for Image Recognition
ResNet-34	resnet34()	21797672	26.7	8.58	Deep Residual Learning for Image Recognition
ResNet-50	resnet50()	25557032	23.85	7.13	Deep Residual Learning for Image Recognition
ResNet-101	resnet101()	44549160	22.63	6.44	Deep Residual Learning for Image Recognition
ResNet-152	resnet152()	60192808	21.69	5.94	Deep Residual Learning for Image Recognition
SqueezeNet 1.0	squeezenet1_0()	1248424	41.9	19.58	SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size
SqueezeNet 1.1	squeezenet1_1()	1235496	41.81	19.38	SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size
Densenet-121	densenet121()	7978856	25.35	7.83	Densely Connected Convolutional Networks
Densenet-161	densenet161()	28681000	24	7	Densely Connected Convolutional Networks
Densenet-169	densenet169()	14149480	22.8	6.43	Densely Connected Convolutional Networks
Densenet-201	densenet201()	20013928	22.35	6.2	Densely Connected Convolutional Networks
Inception v3	inception_v3()	27161264	22.55	6.44	Rethinking the Inception Architecture for Computer Vision
GoogleNet	googlenet()	13004888	30.22	10.47	Going Deeper with Convolutions
ShuffleNet v2	shufflenet_v2_x0_5()	1366792	30.64	11.68	ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
ShuffleNet v3	shufflenet_v2_x1_0()	2278604			ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
ShuffleNet v4	shufflenet_v2_x1_5()	3503624			ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
ShuffleNet v5	shufflenet_v2_x2_0()	7393996			ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
MobileNet v2	mobilenet_v2()	3504872	28.12	9.71	MobileNetV2: Inverted Residuals and Linear Bottlenecks
ResNeXt-50-32x4d	resnext50_32x4d()	25028904	22.38	6.3	Aggregated Residual Transformations for Deep Neural Networks
ResNeXt-101-32x8d	resnext101_32x8d()	88791336	20.69	5.47	Aggregated Residual Transformations for Deep Neural Networks
Wide ResNet-50-2	wide_resnet50_2()	68883240	21.49	5.91	Wide Residual Networks
Wide ResNet-101-2	wide_resnet101_2()	126886696	21.16	5.72	Wide Residual Networks
MNASNet	mnasnet0_5()	2220824	26.49	8.456	MnasNet: Platform-Aware Neural Architecture Search for Mobile
MNASNet	mnasnet0_75()	3170656			MnasNet: Platform-Aware Neural Architecture Search for Mobile
MNASNet	mnasnet1_0()	4383312			MnasNet: Platform-Aware Neural Architecture Search for Mobile
MNASNet	mnasnet1_3()	6279432			MnasNet: Platform-Aware Neural Architecture Search for Mobile

パラメータ数: モデルを構成するパラメータ数を表す。パラメータが多いほど、モデルの表現力が上がるため、精度はよくなる傾向があるが、一方で計算量が増る
Top-1 エラー率: ImageNet データセットでの確率が一番高い予測ラベルが正解ラベルと一致していない割合
Top-5 エラー率: ImageNet データセットでの確率が高い上位5個の予測ラベルに正解ラベルが含まれていない割合

一般に、Top-k エラー率は、ImageNet データセットでの確率が高い上位 $k$ 個の予測ラベルに正解ラベルが含まれていない割合を表します。Top-k エラー率が低いほど、精度がよいモデルといえます。

パラメータ数と Top-1 エラー率、Top-5 エラー率の関係をそれぞれ描画すると、以下のようになります。左下のモデルほど、パラメータが少なく、精度がいいモデルということになります。

学習済みモデルで推論する

モデルを作成する際に pretrained=True を指定すると、ImageNet の1000クラス分類問題を学習した重みでモデルが初期化されます。ResNet-50 の学習済みモデルを使い、画像の推論を行う例を以下で紹介します。

必要なモジュールを import する

In [1]:

import json
from pathlib import Path

import numpy as np
import torch
import torchvision
from PIL import Image
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset
from torchvision import transforms
from torchvision.datasets.utils import download_url

デバイスを作成する

In [2]:

def get_device(use_gpu):
    if use_gpu and torch.cuda.is_available():
        # これを有効にしないと、計算した勾配が毎回異なり、再現性が担保できない。
        torch.backends.cudnn.deterministic = True
        return torch.device("cuda")
    else:
        return torch.device("cpu")


# デバイスを選択する。
device = get_device(use_gpu=True)

モデルを作成する

resnet50(pretrained=True) で学習済みの重みを使用した ResNet-50 を作成します。作成後、to(device) で計算を行うデバイスに転送します。

In [3]:

model = torchvision.models.resnet50(pretrained=True).to(device)

Transforms を作成する

ImageNet の学習済みモデルで推論を行う際は以下の前処理が必要となります。

(256, 256) にリサイズする
画像の中心に合わせて、(224, 224) で切り抜く
RGB チャンネルごとに平均 (0.485, 0.456, 0.406)、分散 (0.229, 0.224, 0.225) で標準化する

これらの処理を行う Transforms を作成します。

In [4]:

transform = transforms.Compose(
    [
        transforms.Resize(256),  # (256, 256) で切り抜く。
        transforms.CenterCrop(224),  # 画像の中心に合わせて、(224, 224) で切り抜く
        transforms.ToTensor(),  # テンソルにする。
        transforms.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
        ),  # 標準化する。
    ]
)

画像を読み込む

以下の手順でモデルに流せる状態にします。

Transforms は Pillow の画像形式が対応しているので、PIL.Image.open() で読み込む。
Transforms で変換し、テンソルにする。
unsqueeze(0) でバッチ次元を追加する。形状を (C, H, W) から (1, C, H, W) にする。
to(device) で計算を行うデバイスに転送する。

In [5]:

img = Image.open("sample.jpg")
inputs = transform(img)
inputs = inputs.unsqueeze(0).to(device)

推論する

eval() でモデルを推論モードに設定したら、順伝搬を行います。

In [6]:

model.eval()
outputs = model(inputs)

推論結果を解釈する

モデルの出力結果を解釈します。torchvision のモデルは softmax をとる前の結果なので、softmax(outputs, dim=1) で softmax を計算します。その後、sort(dim=1, descending=True) で確率が高い順にソートし、確率及び対応するクラス ID の一覧を取得します。

In [7]:

batch_probs = F.softmax(outputs, dim=1)
batch_probs, batch_indices = batch_probs.sort(dim=1, descending=True)

クラス ID だと何のクラスを表しているかわからないので、クラス名の一覧が記載されたファイルを Web 上から取得します。

In [8]:

def get_classes():
    if not Path("data/imagenet_class_index.json").exists():
        # ファイルが存在しない場合はダウンロードする。
        download_url("https://git.io/JebAs", "data", "imagenet_class_index.json")

    # クラス一覧を読み込む。
    with open("data/imagenet_class_index.json") as f:
        data = json.load(f)
        class_names = [x["ja"] for x in data]

    return class_names


# クラス名一覧を取得する。
class_names = get_classes()

確率が高い上位3クラスの名前及び確率を出力します。

In [9]:

for probs, indices in zip(batch_probs, batch_indices):
    for k in range(3):
        print(f"Top-{k + 1} {class_names[indices[k]]} {probs[k]:.2%}")

Top-1 ポメラニアン 97.72%
Top-2 パピヨン 0.42%
Top-3 キースホンド 0.40%

DataLoader を使って推論する

先程は1枚の画像を PIL.Image.open() で読み込み、推論を行いました。今度は DataLoader を利用して複数枚の画像をミニバッチ単位で一度に推論する方法を紹介します。

Dataset を作成する

まずは、指定したディレクトリ (data とします) 内にある画像一覧を読み込む Dataset を作成します。この Dataset を使って、Dataloader を作成します。

data
├── apple.jpg
├── cat.jpg
├── dog.jpg
├── imagenet_class_index.json
├── sea_turtle.jpg
└── traffic_light.jpg

In [10]:

def _get_img_paths(img_dir):
    img_dir = Path(img_dir)
    img_extensions = [".jpg", ".jpeg", ".png", ".bmp"]
    img_paths = [str(p) for p in img_dir.iterdir() if p.suffix in img_extensions]
    img_paths.sort()

    return img_paths


class ImageFolder(Dataset):
    def __init__(self, img_dir, transform):
        # 画像ファイルのパス一覧を取得する。
        self.img_paths = _get_img_paths(img_dir)
        self.transform = transform

    def __getitem__(self, index):
        path = self.img_paths[index]
        img = Image.open(path)
        inputs = self.transform(img)

        return {"image": inputs, "path": path}

    def __len__(self):
        return len(self.img_paths)


# Dataset を作成する。
dataset = ImageFolder("data", transform)
# DataLoader を作成する。
dataloader = DataLoader(dataset, batch_size=8)

各画像を推論し、結果を表示します。(Jupyter Notebook 上で実行する)

In [11]:

from IPython import display

for batch in dataloader:
    inputs = batch["image"].to(device)
    outputs = model(inputs)

    batch_probs = F.softmax(outputs, dim=1)

    batch_probs, batch_indices = batch_probs.sort(dim=1, descending=True)

    for probs, indices, path in zip(batch_probs, batch_indices, batch["path"]):
        display.display(display.Image(path, width=224))
        print(f"path: {path}")
        for k in range(3):
            print(f"Top-{k + 1} {probs[k]:.2%} {class_names[indices[k]]}")

path: data/apple.jpg
Top-1 17.94% ザクロ
Top-2 16.04% リンゴ
Top-3 11.18% 口紅

path: data/cat.jpg
Top-1 99.13% エジプトの猫
Top-2 0.66% タビー
Top-3 0.15% 虎猫

path: data/dog.jpg
Top-1 34.79% ラブラドル・レトリーバー犬
Top-2 13.69% ゴールデンレトリバー
Top-3 13.57% ローデシアン・リッジバック

path: data/sea_turtle.jpg
Top-1 75.74% とんちき
Top-2 23.19% オサガメ
Top-3 0.90% テラピン

path: data/traffic_light.jpg
Top-1 99.95% 交通信号灯
Top-2 0.01% 道路標識
Top-3 0.00% スポットライト

上手く推論できていることが確認できました。torchvision の学習済みモデルを使って正しく推論できるのは、ImageNet の1000クラスに含まれるクラスだけになります。1000クラスに含まれないクラスの分類を行いたい場合は、fine-tuning または転移学習を行う必要があります。

Pytorch – 学習済みモデルで画像分類を行う方法

概要

学習済みのモデル

学習済みモデルで推論する

必要なモジュールを import する

デバイスを作成する

モデルを作成する

Transforms を作成する

画像を読み込む

推論する

推論結果を解釈する

DataLoader を使って推論する

Dataset を作成する

コメント

コメントするコメントをキャンセル

Pytorch – 学習済みモデルで画像分類を行う方法

概要

学習済みのモデル

学習済みモデルで推論する

必要なモジュールを import する

デバイスを作成する

モデルを作成する

Transforms を作成する

画像を読み込む

推論する

推論結果を解釈する

DataLoader を使って推論する

Dataset を作成する

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル