ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

データ分析によく出てくる四分位点とは何か。

おそらく名前から想像できる概念そのままです。
データの外れ値などを捉えたい時などに使う基本的な分類手法です。
一言で言うと、「データを値の大きさに沿って等しく四分割する時の境界となる値」のことです。

以下のような数字の羅列があったとしましょう。

import numpy as np
import pandas as pd
from pandas import DataFrame

data = np.random.randint(1,100,20)
data

output> array([ 8, 53, 72, 88, 39, 76, 52, 62, 83, 50, 85, 60, 92, 88, 35, 92, 41, 75, 57, 19])

小さい順に並べると

data = np.sort(data)
data

output> array([ 8, 19, 35, 39, 41, 50, 52, 53, 57, 60, 62, 72, 75, 76, 83, 85, 88, 88, 92, 92])

データが並べられている時に3番目に大きい値は何か?5番目に大きい値は何か?などと調べて行くと、四分位点は以下のように求められます。(簡単なのでコード使わずに手で数えます。)

一番小さい値〜全体の25% [8, 19, 35, 39, 41]

四分位点→47.75 (41*0.25 + 50*0.75)

全体の25%〜全体の50% [50, 52, 53, 57, 60]

四分位点→61 (60*0.5 + 62*0.5)

全体の50%〜全体の75% [62, 72, 75, 76, 83]

四分位点→83.5 (83*0.75 + 85*0.25)

全体の75%〜一番大きい値 [85, 88, 88, 92, 92]