ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

2018-01-01から1年間の記事一覧

中国のIT産業は日本よりかなり進んでいると感じた3つのサービス

中国のITサービスがすごいってネットで騒ぐ方々がここ数年多い気がしますが、実際何がすごいのか私自身イメージが湧いていませんでした。 しかし、つい先日仕事で(初めて)中国を訪れる機会があり、中国のITサービスを目の当たりしたので、その時の話を少しし…

pythonのscikit-learnを用いた機械学習モデルの作り方

前置き 非エンジニアの方で、AIとか機械学習とかって実際何しているんだ?と疑問に思うことは一度はあったはずです。 あるいは駆け出しエンジニアの方で、python勉強し始めたけど予測モデルとかどのように作られていかイメージできないという方少なからずい…

pythonのnumpyを用いて時系列データの外れ値(outlier)を取り除く方法

時系列データで外れ値を除去する方法についての備忘録。一般的にデータで外れ値を除去するには、例えば、データ全体の標準偏差を算出し、2σの外側に位置する値を取り除くというやり方があります。分かりやすい例があったので貼っておきます。 pandasのデータ…

pandasのDataFrameで分位点で5つに分割しグループ分けするやり方。

分位点については以下で説明しています。 dorei-kaiho.hatenablog.com今回は分位点による4分割ではなくあえて(深い意味はありません)5分割のグループ分けをしたいと思います。まずはデータを用意します。 データフレームはインデックス名をa〜uまで振ってい…

データ分析によく出てくる四分位点とは何か。

おそらく名前から想像できる概念そのままです。 データの外れ値などを捉えたい時などに使う基本的な分類手法です。 一言で言うと、「データを値の大きさに沿って等しく四分割する時の境界となる値」のことです。以下のような数字の羅列があったとしましょう…

pandasのDataFrameでgroupbyを使って項目ごとの合計値を比較する方法。

購買の記録などを分析するときに購買されたモノ別のデータを比較したい時があると思います。 今回は、モノ別の売り上げ個数合計値を比較します。まずはデータフレームを作成。 今回はフルーツの名前と、それぞれの売れた個数を表示させてます。 import panda…

自己紹介

だーふと申します。メイン言語をpythonでエンジニアとして働いています。とにかくプログラミングが大好きで、頭が働いてるうちは飲みに行ったり遊んだりするよりもコーディングや!という具合で、本当にプログラミングばかりしています。私自身研究室では機…