銀の弾丸

プログラミングに関して、いろいろ書き残していければと思っております。

package-lock.jsonの潜在的セキュリティ脆弱性を解消しました

f:id:takamints:20180112204146p:plain
photo credit: wuestenigel blue padlock via photopin (license)

昨年12月末、GitHubに置いてる自作npmリポジトリに「潜在的なセキュリティの脆弱性がありますよ」ってメッセージが表示されるようになって、 「公開しているnpmのリポジトリに、こんなの表示されたらかなわんなあ」と思いながらも、 なんか怖いし対処法も分からんし、2週間ぐらいは見て見ぬふりしていましたが、この度正しく対処してメデタク解消致しました。

結果的には大したことはしていませんが記録として書いておきます。

github.com

www.npmjs.com

潜在的セキュリティ脆弱性があるらしい

何やら怪しげなメッセージは、コチラ(↓)です。

f:id:takamints:20180110111240p:plain

”potential security vulnerabilities”が「潜在的セキュリティ脆弱性」。

文章部分を、ちゃんと翻訳すると以下のようになりますね。

We found potential security vulnerabilities in your dependencies. Some of the dependencies defined in your package-lock.json have known security vulnerabilities and should be updated. Only the owner of this repository can see this message.


「わたしたちは、あなたの依存パッケージに潜在的なセキュリティ脆弱性の可能性を見つけました。 あなたの package-lock.json 内の依存パッケージのいくつかは、既知のセキュリティ脆弱性があり、これらは更新されるべきです。 リポジトリのオーナーだけがこのメッセージを見ることができます。

最後の一文でホッとしましたが、どうすりゃいいかはわからない。 とりあえず「Review Vulnerable dependencies」ボタンを押せば、以下(↓)の詳細が表示されます。

f:id:takamints:20180110113541p:plain

このページ、昨年末にGitHubに追加された機能ですね。「早速動いているんだな」と当たり前のことに感心しました。

それはさておき、どうやら marked0.3.6脆弱性があるようです。 そして、小さなドロップダウンを開くと、修正された 0.3.9 以降に更新すればいいよと言ってるようだ。

ただし自作パッケージではmarkedを使用していません。依存パッケージのどれかが依存しているのでしょう。

package-lock.jsonを編集するのはよろしくないかも

最初は単純に package-lock.json に記述されてる marked のバージョンを 0.3.9に書き換えればよいと思いましたが、そうでもなさそう。 セマンティックバージョニングを厳格に適用するなら、以下の理由によって正しく動作する保証がありません。

  • marked に依存しているパッケージは marked@0.3.9 で動かされた実績がありません(パッチレベルのバージョンアップですので実際には動くかもしれませんが、それでも確証はありません)。
  • markedのメジャーバージョンは0(=正式リリースされていない状態)なので互換性が保証されない可能性があります。
  • package-lock.json は古いバージョンに固定したい(勝手に新しいバージョンが使われないようにする)時に使うものだと思ってます(あってますかね?)ので、新しいバージョンに固定するのは気持ち悪い。

ということから、直接 marked に依存しているパッケージを更新し、marked@0.3.9 以上に依存するのが安全ぽいという結論に。

どいつが依存しているんだ?

しかし、package-lock.json を開いても、どのパッケージがmarkedに依存しているかという情報はないのですね。

npmの依存関係は npm ls で全部表示できるのですが、恥ずかしながらこの時スッカリ忘れていまして、findとgrepで node_modules以下にインストールされた全パッケージのpackage.jsonからmarkedをゴリゴリ検索しちゃいました。これ結構時間がかかりますので良い子は真似しない。npm ls はnode_module以下を見ずに依存ツリーを表示してくれるのでこちらが標準。

$ find . -name 'package.json' -exec egrep -H '^\s*"marked"' {} \;
./express/package.json:    "marked": "0.3.6",
./jsdoc/package.json:    "marked": "~0.3.6",
./marked/package.json:    "marked": "./bin/marked"

はい出ました。expressjsdocでした(最後の行はmarked自身)。

あとは更新してプッシュ

どちらも、npmで確認すると新バージョンが出ておりまして、それぞれ修正済みのmarkedへ依存していました。 そこで、この2つのパッケージを最新版に更新し、package-lock.json も更新し、 GitHub へアップすれば一件落着。

Push後すぐにはメッセージは消えませんでしたが、少なくとも1時間後には消えていました。

まとめ

  • ちょっと邪魔くさかったけど、定期的に npm-check-updates してればこういう目に合わなくてよいのかも知れないなと。
  • npm 5で追加されたpackage-lock.jsonについて、きちんと理解する必要があると痛感しました。

WindowsでSwift使う(iPhone開発とは言ってない)

f:id:takamints:20171227204509p:plain

詳解 Swift 第4版
詳解 Swift 第4版
posted with amazlet at 17.12.27
SBクリエイティブ (2017-12-26)
売り上げランキング: 2,188

Swift For Windowsをインストールすればヨシ。

デフォルトで C:\Swift にインストールされる。

GUIから使うにはこのままで良いのだけれど、それで満足できる君ではないだろう。

コマンドプロンプトPowerShellから使うには以下の4つにPATHを通す。

C:\Swift\mingw64\bin;
C:\Swift\wxWidgets-3.0.3\lib\gcc510TDM_x64_dll;
C:\Swift\usr\lib\swift\mingw;
C:\Swift\usr\bin;

これで難なくコンパイルできるし実行モジュールもダブルクリックで実行可能。GitBashからもOKですね。

しかしESP-IDF用にインストールしたMSYS2からは使えなかった(なんでか知らん)。 そこで、上記とほぼおなじことだけど、同MSYS2の .bash_profile に以下の4行を追加する。

PATH="${PATH}:/c/Swift/mingw64/bin"
PATH="${PATH}:/c/Swift/wxWidgets-3.0.3/lib/gcc510TDM_x64_dll"
PATH="${PATH}:/c/Swift/usr/lib/swift/mingw"
PATH="${PATH}:/c/Swift/usr/

これでめでたくいたるところでSwiftをコンパイルできて実行可能。おめでたい。

まあ、iPhoneアプリは開発できないけど、言語は習得できますね。

参考リンク:

コンソールからGoogle OAuth2の認証を行う

コンソールから Node.jsを使って Google OAuth2 クライアントID による OAuth 認証のお試しコードを書いてみました。

日々の作業でGit BashやMSYS2を多用していますが、コンソールからGoogle Driveスプレッドシートを参照したり、検索、定型データの追加などが軽くできれば、いちいちブラウザアプリを開いて「よっこらしょ」ってな感じより効率的な場合もあるかと思い、これをベースに「なんか作るか」と、思ったり思わなかったりして、いくつになってもお勉強です。

f:id:takamints:20171130164857j:plain
photo credit: suzyhazelwood DSC04299-02 via photopin (license)

JavaScriptエンジニアのためのNode.js入門
(2016-12-26)
売り上げランキング: 1,632

Google OAuth2 に必要なもの

ここで示している認証では Google Developper ConsoleAPIプロジェクト(=アプリケーション)に作成する「クライアントID」と「クライアントシークレット」を使用します(作成手順は後述します)。

これとは別に「クライアントシークレット」を使わず「API KEY」と「クライアントID」を使う方法もあるようですが、Node.js からできるかどうかわかりませんでした。

そもそも OAuth の認証・認可とは

このアプリケーションは、Google Drive API を使用して、ユーザー自身の Google Drive のファイルにアクセスします(とプロジェクトに設定している)。しかしユーザーファイルを勝手に触るわけにはいきません。 このため、実行時に認証ページを表示して、「このアプリケーションがユーザーファイルにアクセスして良い」と、ユーザーに認可してもらうのです。

ユーザーが認可すれば、認可コードがアプリケーションに通知され、アプリケーションは実際にユーザーデータにアクセスするためのアクセストークを手に入れます。

認可を求めるのは1度だけ

認可を求める認証ページが開くのは初回の認可コードを取得するときだけです。

アクセストークンには有効期限が定められていますが、新たなアクセストークンを取得するためのリフレッシュトークも含まれており、2回目以降は、これを使って新しいアクセストークンを取得できるというわけ。

(掲載しているプログラムでは、有効期限の判定は一切行わず、常にリフレッシュしています)

認可コード取得を自動化

初回の認証シーケンス(認証ページの表示から認可コードの取得まで)は一般的なウェブアプリと同じように自動化しています。 通常のサンプルコード等では「以下のURLをブラウザで表示して、表示された認証コードを入力してね」なコピペな感じですが、それよか格段に楽ですよ。

認可コードを得る部分のフローは。

  1. プロセス内にローカルウェブサーバーを起動。
  2. 認証ページをユーザーのデフォルトブラウザで表示。
  3. 認証時のリダイレクト先を上記ウェブサーバーのURLに設定。
  4. ユーザーが認証を完了させると、認可コードがリダイレクト。

認可コードはHTTP GET REQUEST の QUERY_STRINGに含まれています。 だからウェブサーバーがリクエストを受け付けた時点で認可コードを取得できるというわけです。

プロジェクトとクライアントIDを作成する

以下の手順に従って、Google Developper ConsoleプロジェクトとクライアントIDを作成し、クライアントIDのキーファイルをダウンロードしておく必要があります。

  1. Google Developper Consoleで、新規プロジェクトを作成し、上のドロップダウンから作成したプロジェクトを選択。
  2. 「ライブラリ」タブで「Google Drive API」を使用できるように設定しておきます。検索ボックスに「Drive」と入力すればすぐ見つかる。認証をおこなうだけなら不要かもしれませんが、サンプルプログラムではGoogle Driveのルートにあるファイルの一覧を表示するために必要です。
  3. 「認証情報」タブで「OAuth 2.0 クライアント ID」を新規作成(「アプリケーションの種類」は「ウェブアプリケーション」か「その他」を選択。
  4. 作成したクライアントIDのJSONファイルをダウンロードします。

サンプルコード

以下のコードは、依存モジュールをインストールすれば単体で動作します。

ちょっと(いやかなり)長くなってしまい、かつコメント無しでスミマセン。

最初に定義されてるmain()が本体。ざっくり以下の様なことをやっています。

  1. コマンドラインでクライアントIDのキーファイルを(.jsonを抜いて)指定して実行します。
  2. キーファイルを読み込んでOAuth2のクライアントを作成。
  3. 初回の認証ではブラウザを開き、認可コードを受け取ります。
  4. 2回目以降の認証ではアクセストークンをリフレッシュしています。
  5. 何れにせよアクセストークンが得られたら、ファイルに保存し、
  6. 認可したアカウントのGoogle Driveのルートフォルダのファイル一覧を表示します。

※ 実際に動かすための情報は後述。

google-oauth2.js

"use strict";
const google = require("googleapis");
const OAuth2 = google.auth.OAuth2;
const drive = google.drive({ version: 'v3' });

const listit = require("list-it");
const opn = require('opn');
const server = require("node-http-server");
const fs = require("fs");

var REDIRECT_PORT = 8800;

var clientName = process.argv[2];

function main() {
    var clientFn = clientName + ".json";
    readJsonFile(clientFn).then(function(client) {
        console.log(clientFn + " Loaded:");
        console.log("Client:");
        console.log(JSON.stringify(client, null, "  "));
        return createAuth(client);
    }).then(function(auth) {
        var acctokFn = clientName + "-auth.json";
        return readJsonFile(acctokFn).then(function(acctok) {
            console.log(acctokFn + " loaded:");
            console.log("Access Token:");
            console.log(JSON.stringify(acctok, null, "  "));
            console.log("Refresh Tokens:");
            return refreshAccessToken(auth, acctok).then(function(acctok) {
                console.log(JSON.stringify(acctok, null, "  "));
                return writeJsonFile(acctokFn, acctok);
            }).then(function() {
                return auth;
            });
        }).catch(function(err) {
            console.log("No Access Token:");
            var authUrl = auth.generateAuthUrl({
                scope: "https://www.googleapis.com/auth/drive"
            });
            console.log("Auth URL:" + authUrl);
            return getAuthCode(authUrl, REDIRECT_PORT).then(function(code) {
                console.log("Auth Code:" + code);
                return getAccessToken(auth, code);
            }).then(function(acctok) {
                console.log("Access Token:");
                console.log(JSON.stringify(acctok, null, "  "));
                return writeJsonFile(acctokFn, acctok);
            }).then(function() {
                return auth;
            });
        });
    }).then(function(auth) {
        return getFileList({
            auth: auth,
            q: "parents='root' and trashed=false"
        });
    }).then(function(resp) {
        var list = listit.buffer({ "autoAlign" : true });
        list.d([ "name", "mimeType" ]);
        resp.files.forEach(function(file) {
            list.d([ file.name, file.mimeType ]);
        });
        console.log(list.toString());
    }).then(function() {
        process.exit(0);
    }).catch(function(err) {
        console.log("Error: ", err.message);
        process.exit(-1);
    });
}

function createAuth(client) {
    var credential;
    if("installed" in client) {
        credential = client.installed;
    } else if("web" in client) {
        credential = client.web;
    }
    var auth = new OAuth2(
            credential.client_id,
            credential.client_secret,
            "http://localhost:" + REDIRECT_PORT + "/");
    return auth;
}

function refreshAccessToken(auth, oldTokens) {
    return new Promise(function(resolve, reject) {
        auth.credentials = oldTokens;
        auth.refreshAccessToken(function(err, refreshedTokens) {
            if (err) {
                reject(err);
                return;
            }
            auth.credentials = refreshedTokens;
            resolve(refreshedTokens);
        });
    });
}

function getAccessToken(auth, code) {
    return new Promise(function(resolve, reject) {
        auth.getToken(code, function(err, tokens) {
            if (err) {
                reject(err);
                return;
            }
            auth.credentials = tokens;
            resolve(tokens);
        });
    });
}

function getFileList(params) {
    return new Promise(function(resolve, reject) {
        drive.files.list(params, function(err, resp) {
            if(err) {
                reject(err);
                return;
            }
            resolve(resp);
        });
    });
};

function getAuthCode(url, redirect_port) {
    opn(url);
    return waitHttpRequest(redirect_port, "/").then(function(http) {
        var code = http.request.uri.query.code;
        http.serve(http.request, http.response,
            ["Auth Code:", code].join(" "));
        return code;
    });
}

function waitHttpRequest(port, pathname) {
    return new Promise(function(resolve, reject) {
        var config = new server.Config();
        config.port = port;
        server.onRequest = function(request, response, serve) {
            if(request.uri.pathname == pathname) {
                resolve({
                    request: request,
                    response: response,
                    serve: serve
                });
                return true;
            } else {
                reject(new Error("Illegal access."));
                return false;
            }
        };
        server.deploy(config);
    });
}

function readJsonFile(fn) {
    return new Promise(function(resolve, reject) {
        fs.readFile(fn, function(err, data) {
            if(err) {
                reject(err);
                return;
            }
            resolve(JSON.parse(data));
        });
    });
}

function writeJsonFile(fn, obj) {
    return new Promise(function(resolve, reject) {
        fs.writeFile( fn, JSON.stringify(obj, null, "    "), function(err) {
            if(err) {
                reject(err);
                return;
            }
            resolve();
        });
    });
}

main();

依存モジュールのインストール

依存モジュールは以下4つ。

これらが利用可能な状態でなければ動きません。npmでインストールして下さい。 npm install googleapis list-it opn node-http-server をコピペでいけます。

実行例

コマンドライン引数に、クライアントIDのキーファイルを指定して実行します。 以下実行例で、キーファイルは ./client_id.jsonとして保存されています。

ファイル一覧の桁がエラくズレていますが、実際のコンソールでは問題なしよ。 (デバッグ出力が長くて申し訳ない)

初回の認証実行例

$ node google-oauth2.js ./client_id
./client_id.json Loaded:
Client:
{
  "installed": {
    "client_id": "<クライアントID>",
    "project_id": "<プロジェクト名>",
    "auth_uri": "https://accounts.google.com/o/oauth2/auth",
    "token_uri": "https://accounts.google.com/o/oauth2/token",
    "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
    "client_secret": "<クライアントシークレット>",
    "redirect_uris": [
      "urn:ietf:wg:oauth:2.0:oob",
      "http://localhost"
    ]
  }
}
No Access Token:
Auth URL:<認証URL>
Auth Code:<認可コード>
Access Token:
{
  "access_token": "<アクセストークン>",
  "refresh_token": "<リフレッシュトークン>",
  "token_type": "Bearer",
  "expiry_date": 1512041811335
}
name                   mimeType
******                   application/vnd.google-apps.spreadsheet
******                   application/vnd.google-apps.folder
******                   application/vnd.google-apps.script
******                   application/vnd.google-apps.folder
Document           application/vnd.google-apps.folder
Image                  application/vnd.google-apps.folder
Google フォト    application/vnd.google-apps.folder
My Tracks            application/vnd.google-apps.folder

$

2回目以降のリフレッシュトークンを利用した実行例

$ node google-oauth2.js ./client_id
./client_id.json Loaded:
Client:
{
  "installed": {
    "client_id": "<クライアントID>",
    "project_id": "<プロジェクト名>",
    "auth_uri": "https://accounts.google.com/o/oauth2/auth",
    "token_uri": "https://accounts.google.com/o/oauth2/token",
    "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
    "client_secret": "<クライアントシークレット>",
    "redirect_uris": [
      "urn:ietf:wg:oauth:2.0:oob",
      "http://localhost"
    ]
  }
}
./client_id-auth.json loaded:
Access Token:
{
  "access_token": "<アクセストークン>",
  "token_type": "Bearer",
  "expiry_date": 1512021213468,
  "refresh_token": "<リフレッシュトークン>"
}
Refresh Tokens:
{
  "access_token": "<アクセストークン>",
  "token_type": "Bearer",
  "expiry_date": 1512040667695,
  "refresh_token": "<リフレッシュトークン>"
}
name                   mimeType
******                   application/vnd.google-apps.spreadsheet
******                   application/vnd.google-apps.folder
******                   application/vnd.google-apps.script
******                   application/vnd.google-apps.folder
Document           application/vnd.google-apps.folder
Image                  application/vnd.google-apps.folder
Google フォト    application/vnd.google-apps.folder
My Tracks            application/vnd.google-apps.folder

$

まとめ

とりあえず認証が通ったなら、あとは各種APIを利用して、いろんなことができるので、おらワクワクすっぞ!

もう少しキチンとライブラリ的にまとめられたら独立したnpmとしてpublishするつもりですが、今の段階ではこの状態でごめんなさい。

参考サイト

線形回帰で「アヤメ(iris)」の分類

f:id:takamints:20171015205935j:plain

octaveを使って線形回帰で「アヤメの分類」をやってみました。

なんで急にこんなことやり始めたかっていうと、先日、会社の方に初めて機械学習関連のお仕事が舞い込んできたようでして、自分は担当外なのですが「今の時代、それぐらいできなアカンやろーwww」とか、いつもの調子でついハッタリをかましてしまって(笑)・・・、
不安になって自宅で機械学習のコソ練せざるを得ないという。いくつになってもお勉強です(泣)

「線形回帰てなんやねん」については以下の記事で、ごく初歩の概念を説明してます。
takamints.hatenablog.jp

お仕事の方は、Chainer/XGBoost/Pythonという条件がついているようですが、我が師と(勝手に)仰いでいる Andrew Ng 先生は「最初は octave(matlab) でやりなはれや」とおっしゃられていたので、手元の octave でやってみましたという次第。

ということで、以降のスクリプトを実行するには octave または matlabが必要です。 データセットのダウンロードと変換に curl と Nodeを使っていますが、手動でやるなら不要ですよ。

octaveWindowsへの導入は、以下の記事を参考に。

takamints.hatenablog.jp

Chainer v2による実践深層学習
新納 浩幸
オーム社
売り上げランキング: 4,654
MATLABとOctaveによる科学技術計算

丸善出版
売り上げランキング: 130,528

まずはアヤメ(iris)をダウンロードして変換します

機械学習のためのオープンな訓練データとして、アヤメ(iris)というのがあるらしいと、この度初耳。

データセットは150件と小さくて、4つのパラメータで3種類のアヤメを同定するというものです。

上記のファイルをダウンロードするため以下のシェルスクリプトを書きました。

get-iris-csv.sh

#!/bin/sh
echo Downloading iris.data and iris.names.
curl --silent https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data > iris.data
curl --silent https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.names > iris.names
echo
echo Converting iris.data CSV.
echo
node conv-iris-csv.js

iris.dataをダウンロードしてCSVを変換しています(変換については次項↓参照)。

bashで実行するとこうなります。

$ ./get-iris-csv.sh
Downloading iris.data and iris.names.

Converting iris.data CSV.

The class values in column 5:
0: Iris-setosa
1: Iris-versicolor
2: Iris-virginica

CSVの5列目を数値に変換

iris.data の5列目はアヤメの種類の名前であり、文字列です。 しかし、octave の csvread 関数では数値しか読み込めません。数学的な行列ですからね。

そこで以下のNodeスクリプト。 iris.data を読み込んで、全行の5列目の文字列を 0,1,2 の数値に変換。 iris.csv に出力してます(おっと、エラーを一切見ていませんが良い子は絶対マネしないでw)。

conv-iris-csv.js

#!/usr/bin/env node
var inputFile = "iris.data";
var outputFile = "iris.csv";
var fs = require("fs");
fs.readFile(inputFile, "utf-8", function(err, data) {
    var indexOfName = {};
    fs.writeFile(outputFile, data.split(/\r*\n/).map(function(row, indexRow) {
        if(row == "") {
            return "";
        }
        return row.split(",").map(function(column, indexCol) {
            if(indexCol < 4) {
                return column;
            }
            if(!(column in indexOfName)) {
                indexOfName[column] = Object.keys(indexOfName).length;
            }
            return indexOfName[column];
        }).join(",");
    }).join("\n"),
    function(err) {
        var nameIndex = new Array(Object.keys(indexOfName).length);
        Object.keys(indexOfName).forEach(function(key) {
            nameIndex[indexOfName[key]] = "" + indexOfName[key] + ": " + key;
        });
        console.log("The class values in column 5:");
        console.log(nameIndex.join("\n"));
    });
});

データについて

iris.namesの「4. Relevant Information」には、 「ひとつは他の2つからリニアに分離できるが、他の2つは無理」と書いてありました(以下1>の行)

また、「データに間違いがある」とも書かれていました(以下2>の行)が、修正しても結果に変化はありませんでした。

4. Relevant Information:
   --- This is perhaps the best known database to be found in the pattern
       recognition literature.  Fisher's paper is a classic in the field
       and is referenced frequently to this day.  (See Duda & Hart, for
       example.)  The data set contains 3 classes of 50 instances each,
1>       where each class refers to a type of iris plant.  One class is
1>       linearly separable from the other 2; the latter are NOT linearly
1>       separable from each other.
   --- Predicted attribute: class of iris plant.
   --- This is an exceedingly simple domain.
   --- This data differs from the data presented in Fishers article
    (identified by Steve Chadwick,  spchadwick@espeedaz.net )
2>   The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa"
2>   where the error is in the fourth feature.
2>   The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa"
2>   where the errors are in the second and third features.  ```

線形回帰のoctave/matlabスクリプト

以下のoctave/matlabスクリプトが今回の御本尊。

  1. CSVを読み込んで、
  2. 学習してから
  3. 検証してます。

本来ならばデータセットの3分の1程度をトレーニングには使わず検証用に残しておくべきなのですが、 データ件数が150件と非常に小さいため、全データでトレーニングして、全データで検証してます。手前味噌な感じですが仕方がない。

iris.m

#
# Classification of iris using linear regression
#

# Clear all mat
clear

D = csvread('iris.csv');        # Load iris.csv
# D = D(randperm(size(D,1)),:); # Sort random

#
# Select training dataset
#
Dt = D(1:size(D, 1), :);    # Dt = D(1:2*size(D, 1)/3, :);
Xt = Dt(:, 1:(size(Dt,2)-1));    # Input
Xt = [ones(size(Xt,1),1) Xt];
Yt = Dt(:, size(Dt,2));      # Result

#
# Select validation dataset
#
Dv = D(1:size(D, 1), :);    # Dv = D(2*size(D, 1)/3+1:size(D,1), :);
Xv = Dv(:, 1:(size(Dv,2)-1));
Xv = [ones(size(Xv,1),1) Xv];
Yv = Dv(:, size(Dv,2));

training_data_count = size(Xt,1);
learning_rate = 0.00001     # learning rate
iteration = 5000000
report_interval = round(iteration / 10);

#
# Training
#
theta = ones(1, size(Xt,2)); # factor
numOfParam = size(theta, 2);
update = [1, numOfParam];
for n = 1:iteration
    diff = Xt * theta' - Yt;
    for j = 1:numOfParam
        update(1,j) = diff' * Xt(:,j);
    endfor
    theta = theta - learning_rate * update / training_data_count;
    if mod(n,report_interval) == 0
        cost = (diff' * diff) / ( 2 * size(Xt,1) )
    endif
endfor

#
# Validation
#
y = Xv * theta';
diff = y - Yv;
#validationResult = [Yv round(y)]

error_count = 0;
for i = 1:size(diff,1)
    diffI = diff(i,1);
    if(diffI * diffI >= 0.5 * 0.5)
        error_index = i
        error_count = error_count + 1;
    endif
endfor
theta
validationErrorRate = error_count / size(Xv, 1)
validationTotalCost = diff' * diff / ( 2 * size(Xv,1) )

結果検証

以下が上記スクリプトの実行結果。 150件中3件の判定間違いがありますが、これが限界みたいです。

learning_rate = 1.0000e-005
iteration =  5000000
cost =  0.026944
cost =  0.025440
cost =  0.024725
cost =  0.024366
cost =  0.024169
cost =  0.024048
cost =  0.023963
cost =  0.023897
cost =  0.023841
cost =  0.023792
error_index =  71
error_index =  84
error_index =  134
theta =

   0.586249  -0.177805  -0.067764   0.244015   0.621859

validationErrorRate =  0.020000
validationTotalCost =  0.023792

(2017-10-21追記①)

データの可視化をしようとしていて、単なる偶然ですが学習回数を少なくできるのを見つけました。 上の実行例では学習を500万回繰り返していますが、1万回で同じ結果を得られます。 learning_rateは1000倍で、学習は数秒で終わります。さらに誤差が若干少ない。

iris
learning_rate =  0.010000
iteration =  10000
cost =  0.025441
cost =  0.024366
cost =  0.024048
cost =  0.023897
cost =  0.023792
cost =  0.023708
cost =  0.023636
cost =  0.023575
cost =  0.023522
cost =  0.023476
error_index =  71
error_index =  84
error_index =  134
theta =

   0.464549  -0.152014  -0.066062   0.234802   0.621481

validationErrorRate =  0.020000
validationTotalCost =  0.023476

(2017-10-21追記①)おわり

別途「Iris-setosa」を、他の2つから完璧に(そしてかなり簡単に)分離できました。 しかし「Iris-versicolor」と「Iris-virginica」はパラメータ平面において数件が領域を共有してるため、線形モデルで分離するのは困難なようです。

これ以上判定精度を挙げるには別の新たなパラメータが必要になるはずです。 そんなこんなで、この分類は成功していると言えそうです。 当初はなんかおかしいと思っていましたが(笑)

結果が離散的な分類問題なので、ロジスティック回帰で解く必要があるのかも?と思いましたが、線形モデルである限りは結果は変わらないはずです。

また、ディープラーニングではキレイに分離できるはずですが、しかし、おそらくそれはオーバーフィッティングであって、一般的な解とはいえない(つまり別のデータセットを持ってきたら、やはり間違う)はず。そして、学習には膨大な中間層が必要で時間もかかると思います。

(2017-10-21追記②)

入力データと結果の可視化

入力データと判定エラーのチャートを描いてみました。 (赤:Setona、緑:Versicolour、青:Virginica)

f:id:takamints:20171021124312p:plain

○が入力データで、●は判定ミスです(間違ってこの色が示す種類に判定された)。

ご覧のように、緑:Versicolour、青:Virginicaとが入り混じっている箇所があります。 この部分がリニアには分離できないと書かれているところだと思います。

ちなみにチャートを描くスクリプトは、以下になります。

# Draw iris charts
[];

function show_chart(D, error_data, featureX, featureY, chartTitle)

    hold all

    Dy0 = D( D( :, 5 ) == 0, : );
    scatter(Dy0(:,featureX), Dy0(:,featureY), 'r')

    Dy1 = D( D( :, 5 ) == 1, : );
    scatter(Dy1(:,featureX), Dy1(:,featureY), 'g')

    Dy2 = D( D( :, 5 ) == 2, : );
    scatter(Dy2(:,featureX), Dy2(:,featureY), 'b')

    error_data_r = error_data(error_data(:,5)==0, :);
    scatter(error_data_r(:, featureX), error_data_r(:, featureY), [], 'r', 'filled')

    error_data_g = error_data(error_data(:,5)==1, :);
    scatter(error_data_g(:, featureX), error_data_g(:, featureY), [], 'g', 'filled')

    error_data_b = error_data(error_data(:,5)==2, :);
    scatter(error_data_b(:, featureX), error_data_b(:, featureY), [], 'b', 'filled')

    title(chartTitle)

endfunction

subplot(1,2,1)
show_chart(D, error_data, 1, 2, 'X:Sepal length, Y:Sepal width')

subplot(1,2,2)
show_chart(D, error_data, 3, 4, 'X:Petal length, Y:Petal width')

(2017-10-21追記②)おわり

公開リポジトリ

上記のスクリプトは、以下のGitリポジトリに置いてます。 (最新版では学習回数は1万回に設定されています)。 試してみたい人は是非どうぞ。

github.com

データ解析のためのロジスティック回帰モデル
Jr David W. Hosmer Stanley Lemeshow Rodney X. Sturdivant
共立出版
売り上げランキング: 178,009

C++でJsonを扱うクラスライブラリ jsonexpr

8月から支援に入った画像処理(リアルタイム・オブジェクト・トラッキング)プロジェクトの検証システムで、C++の本体からJSONを吐く必要がありまして、急いでやっつけたのですが、「そういや昔、C++JSON扱うクラスライブラリ作ったね・・・」と思い出しました(遅い)。

ということで、古いGitHubから引っ張り出して確認すると、どうにか使えそうなので、この場を借りて宣伝します(笑)

f:id:takamints:20170924182608p:plain

実践OpenCV 3 for C++画像映像情報処理
永田 雅人 豊沢 聡
カットシステム
売り上げランキング: 263,159

元々 Node.jsで出力したJSONファイルをC++で読み込んで処理させる目的で作ったものです。 当時、ニューラルネットワークバックプロパゲーションを理解するための実験を何故かC++で書いていましたが、Node.jsで大量に生成した訓練用データを入力する必要があったのです。結局本体もJavaScriptに移植したので存在を忘れてた。

C++で学ぶディープラーニング
藤田 毅
マイナビ出版 (2017-06-26)
売り上げランキング: 192,886

機能

JavaScriptの変数と同じように扱うためのjson::varというクラスが、ほぼすべての機能を含んでいます。他のクラスはこのクラスの内部で使用するものです。

ビルドについて

ビルドはCMakeを使っています。手元の環境では、Visual Studio 2015のソリューションは生成できました。Mingw32のG++用スクリプトが入っていますがエラーになります(原因は追求していません)。Linuxでは試していませんが、またそのうち。

ライセンス

ライセンスを明記していなかったので急遽MITライセンスを謳っておきました。

リポジトリはコチラです

github.com

同カテゴリでは picojson など著名なライブラリがいくつかあるようですが、興味のある方は試してみて下さい。 今見ると少し手を入れたい所がありますが、取り急ぎ現状のままお送りします。

以下、READMEを貼っておきます。

jsonexpr

JSONC++で自然に扱うために作ったライブラリです。

json::var クラスのインスタンスが、JavaScript のデータ型(Number, boolean, string, Array, Object)に相当します。

データ型

  1. 数値 - double型の数値
  2. 文字列 - std::string型の文字列
  3. 配列 - json::var型の配列
  4. オブジェクト - 文字列からjson::var型へのディクショナリ

初期化

json::var のコンストラクタにJSON文字列を与えて初期化できます。 プリミティブ型ではあとで説明していますが、代入するほうが直感的かも知れませんね。

//数値の初期化(内部表現は全てdouble)
json::var real("-1.234e+5");  //浮動小数点
json::var dec("1234");        //10進整数
json::var hex("0x1234");      //16進整数
json::var oct("0644");        //8進整数

//文字列で初期化
json::var str("'string'");    //シングルクォート

//配列の初期化
json::var arr("[-1.234e+5,'string']");

//オブジェクトの初期化
json::var obj("{'key':'value', foo: 'bar', arr:[1,2,3,4]}");

配列操作

  1. length() - 要素数を得る
  2. push(値) - 要素の追加。値は数値、文字列、配列、オブジェクト
  3. remove(index) - 要素の削除。
json::var arr("[]");//空の配列
arr.push(1.0);      //数値を追加
arr.push("string"); //文字列を追加
for(int i = 0; i < arr.length(); i++) {
    cout << arr[i];
}

オブジェクト操作

  1. exists(key) - キーの有無を調べる
  2. keys() - キーの配列を返す。
  3. remove(key) - キーの削除。

新たなキーに値を関連付けるには、[]で直接代入します。 ※ 定数でないoperator[](const std::string&)では、参照するだけでキーが作成されることに注意。

json::var obj("{}");    //空のオブジェクト
obj["A"] = "B";         //文字列の値を追加
obj["R"] = arr;         //既にある配列のコピーを追加
json::var keys = obj.keys();
for(int i = 0; i < keys.length(); i++) {
    cout << "#" << keys[i] << " => " << obj[keys[i]] << endl;
}

値の参照

数値型は、doubleへのキャスト、文字列型は std::string&へのキャストで値を参照します。

配列要素とオブジェクトの値は[]を使用。配列要素は添え字が整数、オブジェクトは文字列型。 ネストしたオブジェクトは二次元配列のようにかぎかっこ([])をつないで参照します。

json::var real = -1.234e+5;
double r = (double)real;     // r == -1.234e+5;

json::var str = "ABC";
std::string s = (const std::string&)str;

json::var element = arr[3];             //配列要素の参照
json::var value = obj["arr"][0];      //オブジェクト内の配列要素の参照

内部表現と矛盾する参照を行うと、例外が投入されます。

値の代入

data = 1.234;           //数値を代入
data = "string";        //文字列を代入
arr[3] = 1.234;         //配列要素の書き換え
obj["key"] = 1.234;     //オブジェクト要素の書き換え
obj["new key"] = arr;   //オブジェクトへ新たな項目を追加

JSONデータのストリーム入出力

C++の標準ストリーム入出力機能を実装しています。

std::istream からのJSONの読み込み

json::var dataobj;
ifstream is("input.json");
is >> dataobj;

std::ostreamへのJSON出力

json::var dataobj;
ofstream is("output.json");
os << dataobj;

制限事項

javascriptの仕様に完全準拠しているわけではありません。

  • NaNを扱えません。
  • Functionを扱えません。
  • オブジェクトのキーは文字列だけです。
  • 数値は内部的にdoubleだけです。

長いサンプル

    // json 文字列からの構築
    json::var num("-1.2345e+3");
    json::var str("'this is string.'");
    json::var arr("[ \"key\", 'str', 'hex', 0xABCD, 0777 ]");
    json::var obj("{ foo : 'bar', 'boo':1.2345e-6, 'arr': [0,1,2,3]}");

    // 参照
    double numval = num;
    string strval = str;
    cout << numval << endl;
    cout << strval << endl;

    numval = arr[3];
    cout << numval << endl;

    strval = (string)obj["foo"];
    cout << strval << endl;

    strval = (string)obj["arr"][2];
    cout << strval << endl;

    // 配列の扱い
    cout << "arr.length() = " << arr.length() << endl;
    arr.push(9.876);
    arr.push("string element");
    arr.push(obj);
    arr.push(arr);
    cout << "arr.length() = " << arr.length() << endl;

    //
    // オブジェクトへ新たなキーを追加
    //
    cout << "obj.exists('new key') = " << (obj.exists("new key")?"true":"false") << endl;
    obj["new key"] = json::var("[0,1,2,3]");
    cout << "obj.exists('new key') = " << (obj.exists("new key")?"true":"false") << endl;

    //
    // std::ostreamへのJSONの書き出し
    //
    ostringstream os;
    os << obj;

    //
    // std::istreamからJSONを読み出し
    //
    istringstream is("{ foo : 'bar', 'boo':1.2345e-6, 'arr': [9,8,7,6] }");
    is >> obj;

    //
    // 別の値(別の型)に書き換え
    //
    num = 4.0;
    cout << num << endl;

    num = "overwrite string";
    cout << num << endl;

    num = obj;
    cout << num["boo"] << endl;

    num["boo"] = "change by reference";
    cout << num["boo"] << endl;

    num["arr"][1] = "change by reference";
    cout << num["arr"][1] << endl;

LICENSE

このソフトウェアは、MIT ライセンスにて、提供します。LICENSE を参照下さい。

This software is released under the MIT License, see LICENSE