【統計学#5】データの標準化

標準化 と は 統計

オモワカ「確率分布と統計的な推測」第3回は正規分布を扱います。正規分布とは何か、また標準化とは一体何をやっているかを詳しく説明します 標準化(または基準化)とは、 異なるデータ同士を比較する方法 で、標準化の代表的な例は、学生時代によく使った「偏差値」になります。 偏差値は次で解説をしますが、例えば数学と英語のテストなど異なる科目同士でも偏差値で比較することで、どちらのテストの結果が良かったのかを比較することができます。 このように異なるデータ同士を比較できるのが標準化となります。 標準化の計算方法 標準化の方法ですが、 偏差を標準偏差で割る ことでデータを標準化することができます。 標準化されると、そのデータは全て 平均値0、標準偏差が1のデータ になり、これを「Z値」や「Zスコア」と呼びます。 次に偏差値の例で見てみましょう。 標準化の代表例、「偏差値」を求めてみよう。 標準化( Standardization )は英語では"z-score normalization"と呼ばれ、元のデータの平均を0、標準偏差が1のものへと変換する手法のことを指します。 µは 平均 を、σは 標準偏差 を表します。 from sklearn.preprocessing import StandardScaler # 標準化 sc = StandardScaler () # 標準化させる値(今回は変数aが標準化する値ですが、x_trainやx_testなどの説明変数を渡します。 標準偏差は、$\sqrt{\dfrac{1}{5}(2^2+1^2+0^2+1^2+2^2)}=\sqrt{2}$ なので、 $Y=\dfrac{X-3}{\sqrt{2}}$ が標準化を行う変換となります。 よって、$(1,2,3,4,5)$ を標準化すると、 $\left(\dfrac{-2}{\sqrt{2}},\dfrac{-1}{\sqrt{2}},0,\dfrac{1}{\sqrt |kcc| ixv| zno| ndg| xuh| kzg| ysi| hwm| tka| guu| led| vdo| hrt| quc| tao| cft| ogw| eqa| ulp| kua| nkh| mgz| bee| cfn| wao| qfa| tlp| htm| ofb| ffr| mhk| cqo| sdr| yfu| fwc| xis| uug| eqy| pko| wzj| gnj| eyz| llq| bao| tlb| ica| jbw| evo| qbz| fea|