ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

python備忘録

scikit-learnのcross_val_scoreを使って交差検証(Cross Validation)をする方法

機械学習モデルを作る時、与えられたデータを全て用いてモデルの学習・精度向上を行うと、そのデータに対してのみ精度の良いモデル(理想のモデルに近づけていない。)が出来上がってしまい、未知のデータに対して適用できなくなってしまいます。そのため通常…

pythonのitertoolsを使ってベクトル各要素の総当たりを行う方法

pythonでAというベクトルとBというベクトルがあった時に、その要素をA vs Bで総当たり的に計算させて最適解を求めたいという時に使えるツールを備忘です。itertoolsというライブラリーを使います。 import itertools 以下のようにベクトルAとベクトルBの各要…

scikit-learnのStratifiedShuffleSplitを使ってテストデータを作る方法

マスターデータからトレインデータとテストデータに分ける時、テストデータの目的変数分布がマスターデータの目的変数分布と同じになるように作成する方法の備忘録。kaggleのタイタニックデータを使用。 csvファイルにはtrainと書いているがこのデータが全デ…

pandasでサイズの大きいファイルの読み込み方

kaggleのファイルが大きすぎてpandasでまとめて読み込めなかったのでその時の対処法をメモ。 今回はCSVファイルを使っています。もうこの時点でナンセンスなのかもしれない。笑普通にCSVファイル読み込むときはこんな感じ。 df = pd.read_csv('train.csv') …

kaggleのデータファイルをコマンドでダウンロードする方法。

kaggleでコマンドを使ってデータファイルをダウンロードするまでのメモ。直接ファイルをダウンロードしてもいいのですが、kaggleのAPIを使ってterminalからダウンロードしたのでやり方を置いておきます。やり方はここに書いてあります。 まずはkaggleのコマ…

pythonのpandasで株価情報を取得してplotlyでローソクチャートを描く方法

pythonを使って株価取得からローソクチャート図作成までのメモ。 超簡単なのですぐにできるはず。 今回はplotlyを使って書いて見た。が、ドキュメントが古いらしく最新の説明が少なかったのであとでmatplotlibで書き直す予定。 plotlyのドキュメント→Python …

持ち株会入会資産シミュレーションのpythonコード

持ち株会入会資産シミュレーションを行ったpythonコードをつらつらと書いていきます。 本編こちらです↓ dorei-kaiho.hatenablog.com必要なライブラリーをインポート。 import numpy as np import pandas as pd import random import matplotlib.pyplot as pl…

pythonのscikit-learnを用いた機械学習モデルの作り方

前置き 非エンジニアの方で、AIとか機械学習とかって実際何しているんだ?と疑問に思うことは一度はあったはずです。 あるいは駆け出しエンジニアの方で、python勉強し始めたけど予測モデルとかどのように作られていかイメージできないという方少なからずい…

pythonのnumpyを用いて時系列データの外れ値(outlier)を取り除く方法

時系列データで外れ値を除去する方法についての備忘録。一般的にデータで外れ値を除去するには、例えば、データ全体の標準偏差を算出し、2σの外側に位置する値を取り除くというやり方があります。分かりやすい例があったので貼っておきます。 pandasのデータ…

pandasのDataFrameで分位点で5つに分割しグループ分けするやり方。

分位点については以下で説明しています。 dorei-kaiho.hatenablog.com今回は分位点による4分割ではなくあえて(深い意味はありません)5分割のグループ分けをしたいと思います。まずはデータを用意します。 データフレームはインデックス名をa〜uまで振ってい…

データ分析によく出てくる四分位点とは何か。

おそらく名前から想像できる概念そのままです。 データの外れ値などを捉えたい時などに使う基本的な分類手法です。 一言で言うと、「データを値の大きさに沿って等しく四分割する時の境界となる値」のことです。以下のような数字の羅列があったとしましょう…

pandasのDataFrameでgroupbyを使って項目ごとの合計値を比較する方法。

購買の記録などを分析するときに購買されたモノ別のデータを比較したい時があると思います。 今回は、モノ別の売り上げ個数合計値を比較します。まずはデータフレームを作成。 今回はフルーツの名前と、それぞれの売れた個数を表示させてます。 import panda…