ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

2019-01-14から1日間の記事一覧

scikit-learnのStratifiedShuffleSplitを使ってテストデータを作る方法

マスターデータからトレインデータとテストデータに分ける時、テストデータの目的変数分布がマスターデータの目的変数分布と同じになるように作成する方法の備忘録。kaggleのタイタニックデータを使用。 csvファイルにはtrainと書いているがこのデータが全デ…