Gambler_AIさんの投稿を検証


#1

この記事面白いです。
使ってるデータもネットワークの構造もシンプルなのに150%を超える精度が出てるらしいです。

損失関数の設計が秀逸なのかな。

実行方法も書かれているので試してみます。


#2

とりあえず動かしてみました。

10月1日以降のデータを利用しているようです。

Train on 3780 samples, validate on 420 samples

検証用データとしては3日分くらいでしょうか。
データ量としては少ないです。

とりあえず3回、そのまま回してみました。

一回目
1%E5%9B%9E%E7%9B%AE
早速回収率100%超えが出ました。
記事では二連単が150%を超えたと書かれていましたが、三連単・三連複が100%を超えて来ました。

二回目
2%E5%9B%9E%E7%9B%AE
一瞬だけ二連単が超えましたが、それ以外はどんどん右肩下がりですね。
過学習を起こしちゃったっぽい。

三回目
3%E5%9B%9E%E7%9B%AE
これも二回目と同様。
データが少ないのが原因でしょうか

考察
検証で回収率が150%を超えるとしても3日分くらいのデータだけだとちょっと心許ない?
次は2年分くらいのデータで検証をしてみます。


#3

2015年1月1日からのデータ、約20万件くらいでやってみました。
何度かやってみましたが、そのままでは100%を超えることは無かったです。

とは言え、かなり良いところ(95~97%)までいきますね。
すごい

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(21)

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(18)


#4

色々と改良してみた結果、三連単で120を超えるパターンも出てきました。

%E3%82%BF%E3%82%99%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%88%E3%82%99%20(25)

ただ、学習・検証の期間に含めていないデータで出してみると、怪しそう

検証期間まで含めた上での過学習になっている(データの質が変わった)のか
僕のデータの扱い方が間違っているのか

もう少しだけやってみます