ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

ジーズシアトルのプログラミングキャンプ全編

とても久々の投稿です、実に半年以上ぶり。 2020年1月に1ヶ月間シアトルで開催されたプログラミングキャンプに参加してiOS(swift)の勉強をしてきました! (コンピュータミュージアム@シアトル)キャンプを開校したのは東京をベースにしたジーズアカデミー(以下…

Rで機械学習モデルを構築する方法

個人的にはpythonが得意なのですが、Rの復習も兼ねて簡単にデータから機械学習を構築するまでの流れを追ってみました。 機械学習初学者やpython使いだけどRを勉強したいという方の参考になれば幸いです。 (Kaggleのカーネルを参考にしています。) データ確認…

herokuのPostgresSQLをNode.jsで触る方法

herokuのPostgreSQLを使ってデータの保存読み込みを行ったのでメモ。 最後はNode.jsで書いてますが、途中までは他の言語でも参考になるはずです。一連の流れの説明がなかったので残しておきます。やりたいことは、 heroku のアプリにデータベース(PostgreSQL…

アンサンブル学習、AdaBoost(アダブースト)の数式を分解してみた

機械学習と統計学は切っても切り離せない関係です。が、統計学って数学の一種なので簡単な事象に対しても小難しい式を使いがちですよね。。 私自身物理学科出身なので学生の時にシュレディンガー方程式やらマックスウェル方程式やらを扱っていましたが、数学…

Rのshinyライブラリを使って株価をグラフで見える化する方法

Rのライブラリーの一つ、練習がてらshinyを使って株価即見画面を作って見たのでコードを残しておきます。Rで株価見える化画面。株の銘柄と時期を選択すると、株情報をネットから取得して表示。shiny libraryでここまで作るのに30分。Rだけで書けるので、言語…

scikit-learnのcross_val_scoreを使って交差検証(Cross Validation)をする方法

機械学習モデルを作る時、与えられたデータを全て用いてモデルの学習・精度向上を行うと、そのデータに対してのみ精度の良いモデル(理想のモデルに近づけていない。)が出来上がってしまい、未知のデータに対して適用できなくなってしまいます。そのため通常…

pythonのitertoolsを使ってベクトル各要素の総当たりを行う方法

pythonでAというベクトルとBというベクトルがあった時に、その要素をA vs Bで総当たり的に計算させて最適解を求めたいという時に使えるツールを備忘です。itertoolsというライブラリーを使います。 import itertools 以下のようにベクトルAとベクトルBの各要…

Rのdygraphsを使っていけてるグラフを出力する

dygraphsとはJavaScriptで書かれてかっこいいグラフを描けるライブラリーです。 本当にかっこいいしすぐ作れます。今回はアマゾン株を取ってきます。まずは以下のサイトから、アマゾン株をCSVで落とします。 CSV Historical Prices | Carriage Services, Inc…

scikit-learnのStratifiedShuffleSplitを使ってテストデータを作る方法

マスターデータからトレインデータとテストデータに分ける時、テストデータの目的変数分布がマスターデータの目的変数分布と同じになるように作成する方法の備忘録。kaggleのタイタニックデータを使用。 csvファイルにはtrainと書いているがこのデータが全デ…

pandasでサイズの大きいファイルの読み込み方

kaggleのファイルが大きすぎてpandasでまとめて読み込めなかったのでその時の対処法をメモ。 今回はCSVファイルを使っています。もうこの時点でナンセンスなのかもしれない。笑普通にCSVファイル読み込むときはこんな感じ。 df = pd.read_csv('train.csv') …

kaggleのデータファイルをコマンドでダウンロードする方法。

kaggleでコマンドを使ってデータファイルをダウンロードするまでのメモ。直接ファイルをダウンロードしてもいいのですが、kaggleのAPIを使ってterminalからダウンロードしたのでやり方を置いておきます。やり方はここに書いてあります。 まずはkaggleのコマ…

pythonのpandasで株価情報を取得してplotlyでローソクチャートを描く方法

pythonを使って株価取得からローソクチャート図作成までのメモ。 超簡単なのですぐにできるはず。 今回はplotlyを使って書いて見た。が、ドキュメントが古いらしく最新の説明が少なかったのであとでmatplotlibで書き直す予定。 plotlyのドキュメント→Python …

持ち株会入会資産シミュレーションのpythonコード

持ち株会入会資産シミュレーションを行ったpythonコードをつらつらと書いていきます。 本編こちらです↓ dorei-kaiho.hatenablog.com必要なライブラリーをインポート。 import numpy as np import pandas as pd import random import matplotlib.pyplot as pl…

知らないと損する福利厚生。pythonで資産シミュレーションして見た結果。

今回は知らないと損する福利厚生、持ち株会について考えてみます。持ち株会に入るべきか否か迷ったことがあると言う人向けに、持ち株に入ることによる資産シミュレーションを行ってみました。 私自身も一時期自社の持ち株会に入るか迷った時期があって、持ち…

中国のIT産業は日本よりかなり進んでいると感じた3つのサービス

中国のITサービスがすごいってネットで騒ぐ方々がここ数年多い気がしますが、実際何がすごいのか私自身イメージが湧いていませんでした。 しかし、つい先日仕事で(初めて)中国を訪れる機会があり、中国のITサービスを目の当たりしたので、その時の話を少しし…

pythonのscikit-learnを用いた機械学習モデルの作り方

前置き 非エンジニアの方で、AIとか機械学習とかって実際何しているんだ?と疑問に思うことは一度はあったはずです。 あるいは駆け出しエンジニアの方で、python勉強し始めたけど予測モデルとかどのように作られていかイメージできないという方少なからずい…

pythonのnumpyを用いて時系列データの外れ値(outlier)を取り除く方法

時系列データで外れ値を除去する方法についての備忘録。一般的にデータで外れ値を除去するには、例えば、データ全体の標準偏差を算出し、2σの外側に位置する値を取り除くというやり方があります。分かりやすい例があったので貼っておきます。 pandasのデータ…

pandasのDataFrameで分位点で5つに分割しグループ分けするやり方。

分位点については以下で説明しています。 dorei-kaiho.hatenablog.com今回は分位点による4分割ではなくあえて(深い意味はありません)5分割のグループ分けをしたいと思います。まずはデータを用意します。 データフレームはインデックス名をa〜uまで振ってい…

データ分析によく出てくる四分位点とは何か。

おそらく名前から想像できる概念そのままです。 データの外れ値などを捉えたい時などに使う基本的な分類手法です。 一言で言うと、「データを値の大きさに沿って等しく四分割する時の境界となる値」のことです。以下のような数字の羅列があったとしましょう…

pandasのDataFrameでgroupbyを使って項目ごとの合計値を比較する方法。

購買の記録などを分析するときに購買されたモノ別のデータを比較したい時があると思います。 今回は、モノ別の売り上げ個数合計値を比較します。まずはデータフレームを作成。 今回はフルーツの名前と、それぞれの売れた個数を表示させてます。 import panda…

自己紹介

だーふと申します。メイン言語をpythonでエンジニアとして働いています。とにかくプログラミングが大好きで、頭が働いてるうちは飲みに行ったり遊んだりするよりもコーディングや!という具合で、本当にプログラミングばかりしています。私自身研究室では機…