ConvNetJS で MNIST を分類2 - 畳み込みニューラルネット

前回の続きです。今回は畳み込みニューラルネットを使って MNIST の手書き数字を分類してみます。

Node.js 5.8.0
ConvNetJS 0.3.0

ソースは http://github.com/fits/try_samples/tree/master/blog/20160328/

準備

誤差・正解率のグラフ化と畳み込みフィルタの画像化を行うため、前回の構成へ d3 等を追加しています。

package.json

{
  "name": "convnetjs_mnist_conv_sample",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "dependencies": {
    "basic-csv": "0.0.2",
    "bluebird": "^3.3.4",
    "convnetjs": "^0.3.0",
    "d3": "^3.5.16",
    "jsdom": "^8.1.0",
    "shuffle-array": "^0.1.2"
  }
}

インストール例

> npm install

(b) 畳み込みニューラルネット

畳み込みニューラルネットでは畳み込み層とプーリング層を組み合わせてレイヤーを構築します。（実際は全結合層も使います）

名称	処理	ConvNetJS の layer_type
畳み込み層	入力画像へフィルターを適用し特徴量を抽出	conv
プーリング層	入力画像へプーリング演算（フィルター内）を適用	pool

ConvNetJS の畳み込み層・プーリング層は以下のように設定します。

sx と sy でフィルターのサイズを指定（sy を省略すると sx と同じ値を適用）
pad で入力画像の周囲にゼロパディング（0埋め）する数を指定
stride でフィルタの適用位置を縦横に移動する数を指定（1 の場合は縦横に 1画素ずつずらしてフィルターを適用）

畳み込み層では filters で適用するフィルターの数を指定します。

プーリング層では「最大プーリング」（フィルターの値の最大値を採用）を行うようになっており、今回試したバージョンでは（「平均プーリング」等へ）プーリング方法を変更する機能は無さそうでした。

今回は、以下のように畳み込み層・プーリング層が 2回続くような構成にしてみました。

create_layer_conv.js （畳み込みニューラルネットのモデル構築と保存処理）

'use strict';

// 畳み込み層の活性化関数
const act = process.argv[2];
// 出力ファイル名
const jsonDestFile = process.argv[3];

require('./save_model').saveModel(
    [
        { type: 'input', out_sx: 28, out_sy: 28, out_depth: 1 },
        // 1つ目の畳み込み層
        { type: 'conv', sx: 5, filters: 8, stride: 1, pad: 2, activation: act },
        // 1つ目のプーリング層
        { type: 'pool', sx: 2, stride: 2 },
        // 2つ目の畳み込み層
        { type: 'conv', sx: 5, filters: 16, stride: 1, pad: 2, activation: act },
        // 2つ目のプーリング層
        { type: 'pool', sx: 3, stride: 3 },
        { type: 'softmax', num_classes: 10 }
    ],
    jsonDestFile
);

活性化関数へ relu を指定した場合の内部的なレイヤー構成は以下のようになりました。

学習モデルの内部的なレイヤー構成例

input -> conv -> relu -> pool -> conv -> relu -> pool -> fc -> softmax

各レイヤーの出力サイズは以下の通りです。

layer_type	out_sx	out_sy	out_depth
input	28	28	1
conv	28	28	8
relu	28	28	8
pool	14	14	8
conv	14	14	16
relu	14	14	16
pool	4	4	16
fc	1	1	10
softmax	1	1	10

学習と評価

前回作成した共通処理（learn_mnist.js 等）を使って学習と評価を実施します。

学習回数を前回と同じ 15回にすると相当時間がかかってしまうので、今回は以下の 4種類で学習・評価を試してみました。

活性化関数 = relu, 学習回数 = 5
活性化関数 = relu, 学習回数 = 10
活性化関数 = sigmoid, 学習回数 = 5
活性化関数 = sigmoid, 学習回数 = 10

学習回数以外は前回と同じパラメータを使います。

学習回数 = 15
バッチサイズ = 100
学習係数 = 0.001
学習係数の決定方法 = adadelta

処理時間は学習回数 5回で 1.5時間、10回で 3時間程度でした。

PC の性能にも依存すると思いますが、1つの CPU で処理するので比較的遅めだと思います。