【技術記事】今さらですが、統計学の復習のお時間です – 第1回:平均、中央値、偏差、分散、標準偏差 –

みなさん、こんにちは、
みむすたーです。

私は最近、人工知能の勉強をしていて、
統計学について復習する機会が増えてきましたので、
備忘録の意味も込めて、記事にしてまとめておきます。

今回は、統計学の基礎の基礎となる、
平均、中央値、偏差、分散、標準偏差について、まとめたいと思います。

もくじ

平均値

まあ、これについてはみなさんも顔馴染みなので、
説明するまでもないと思います。

平均とは、全てのデータの数値を足し集めたものをデータの個数で割ったものですね。
n個のデータの平均値を数学の一般式で表すと、以下のようになります。

\[\mu=\frac{1}{n} \sum_{k=1}^{n} x_k\]

一般的に平均値の記号には、μ(ミュー)を使用します。

中央値

メジアン(median)とも呼びます。
データを数値の大きさ順に並べたものの一番中央の値をそのように呼びます。
以下のようなn個の数値の列があったとしましょう。

\[x_1,x_2,…,x_n\]

この時、数値の列に以下の条件を満たすような自然数の k があると考えます。

\[
\begin{cases}
1 ≦ k < n \\
x_k≦x_{k+1}
\end{cases}
\]

このデータの並びにおける中央値は、
データの個数が偶数、奇数によって異なります。
偶数の場合、奇数の場合の中央値はそれぞれ、以下の値となります。

\[\frac{x_{\frac{k}{2}}+x_{\frac{k}{2}+1}}{2}…偶数の場合\]

\[x_{\frac{k+1}{2} }…奇数の場合\]

偏差

全てのデータのうち、一つのデータに着目した時、
その一つのデータと全てのデータの平均の差をそのように呼びます。
k番目のデータの偏差を一般的な数式で表すと以下の通りになります。

\[x_k-μ\]

分散

偏差を2乗したものを足し集めたものの平均が分散となります。
標準偏差は、一般的に$V$ (Variance)で表され、全てのデータのばらつき具合の指標となります。

\[V=\frac{1}{n}\sum_{k=1}^{n}\{x_k-μ\}^2\]

標準偏差

標準偏差は、分散の平方根で、σで表されます。
一般的な数式で表すと以下の通りです。

\[σ=\sqrt{V}=\sqrt{\frac{1}{n}\sum_{k=1}^{n}\{x_k-μ\}^2}\]

次回は、正規分布について説明してみたいと思います。
それでは、今日はこの辺りで。

コメント