Gambler_AIさんの投稿を検証

ando · 2018-10-31 05:05:21 UTC

この記事面白いです。
使ってるデータもネットワークの構造もシンプルなのに150%を超える精度が出てるらしいです。

損失関数の設計が秀逸なのかな。

実行方法も書かれているので試してみます。

ando · 2018-10-31 06:37:45 UTC

とりあえず動かしてみました。

10月1日以降のデータを利用しているようです。

Train on 3780 samples, validate on 420 samples

検証用データとしては3日分くらいでしょうか。
データ量としては少ないです。

とりあえず3回、そのまま回してみました。

一回目
1%E5%9B%9E%E7%9B%AE
早速回収率100％超えが出ました。
記事では二連単が150%を超えたと書かれていましたが、三連単・三連複が100%を超えて来ました。

二回目
2%E5%9B%9E%E7%9B%AE
一瞬だけ二連単が超えましたが、それ以外はどんどん右肩下がりですね。
過学習を起こしちゃったっぽい。

三回目
3%E5%9B%9E%E7%9B%AE
これも二回目と同様。
データが少ないのが原因でしょうか

考察
検証で回収率が150％を超えるとしても3日分くらいのデータだけだとちょっと心許ない？
次は2年分くらいのデータで検証をしてみます。

ando · 2018-11-01 11:36:22 UTC

2015年1月1日からのデータ、約20万件くらいでやってみました。
何度かやってみましたが、そのままでは100%を超えることは無かったです。

とは言え、かなり良いところ（95~97%）までいきますね。
すごい

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(21)

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(18)

ando · 2018-11-02 07:06:01 UTC

色々と改良してみた結果、三連単で120を超えるパターンも出てきました。

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(25)

ただ、学習・検証の期間に含めていないデータで出してみると、怪しそう

検証期間まで含めた上での過学習になっている（データの質が変わった）のか
僕のデータの扱い方が間違っているのか

もう少しだけやってみます