[ディープラーニング] AlexNet

About

ImageNet を使った画像認識コンテスト ILSVRC で2012年に優勝したCNNです。

キーワード

  • AlexNet

AlexNet の構造

当時は、ネットワークを構成するパラメータを1枚のGPUのメモリに載せることができなかったため、パラメータ数を半分にした同一のネットワークを2つ用意し、2枚のGPUでそれぞれ計算し、最後に結合するという形をとっていました。



現在のGPUなら、1枚のGPUに収まるため、統合したバージョンを紹介します。
ネットワーク構成は以下のようになります。
1つ注意したいのは原論文の図で入力画像のサイズが(224x224x3)となっていますが、実際は(227x227x3)が正しいようです。
画像認識コンテスト ILSVRC は1000種類のクラス分類問題のため、出力層はニューロン数が1000であり、ソフトマックス関数を適用しています。

AlexNet

層名種類フィルタサイズパディングストライド出力数出力サイズ備考
input入力層(227, 227, 3)
conv1畳み込み層(11, 11)(4, 4)96(55, 55, 96)ReLU
norm1正規化層(55, 55, 96)LRN
pool1プーリング層(3, 3)(2, 2)(27, 27, 96)MaxPooling
conv2畳み込み層(5, 5)(1, 1)(1, 1)256(13, 13, 256)ReLU
norm2正規化層(13, 13, 256)LRN
pool2プーリング層(3, 3)(2, 2)(13, 13, 256)MaxPooling
conv3畳み込み層(3, 3)(1, 1)(1, 1)384(13, 13, 384)ReLU
conv4畳み込み層(3, 3)(1, 1)(1, 1)384(13, 13, 384)ReLU
conv5畳み込み層(3, 3)(1, 1)(1, 1)256(13, 13, 256)ReLU
pool3プーリング層(1, 1)(2, 2)(6, 6, 256)MaxPooling
fc1全結合層4096(4096)Dropout
fc2全結合層4096(4096)Dropout
fc3全結合層1000(1000)Softmax

参考資料

1コメント

  1. 私の神サイト
    AlexNetをモデルに自設計を試行中、入力に困っていくら計算しても224x224で55×55にならない。パディングで調整しても。ここで救われた。何か理由があっても実践では納得ずくで227でいく。

コメントを残す

メールアドレスが公開されることはありません。