この記事は「データベーススペシャリスト資格に興味はあるが、どのようなものか?どう学ぶのか?」という方向けに、具体的な内容と私自身の挑戦ログをお伝えする。学び中の方や、これから学ぼうとされる方の参考になれば幸いだ。
今回は「統計集計関数」について書く。なお、SQL(データ分析)はあくまで目的を達成するための手段だ。例えば売り上げ増加を目的に、顧客の購入歴から筋の良い商品をSQLを使って分析するなどだ。このように「目的に沿ってデータを集め、整理、比較、分析、仮説検証する手法」が統計学であり、意味のあるデータ分析に欠かせない要素だ。よって目的を見失わないようにするため、複数回に分けて統計学の基礎をおさらいする。
※注意点として、SQLはDBMSによって作法が異なる。この記事はGoogle Big Queryに準拠するものであることをお含みおき願いたい。
SQL(統計集計関数)
前回振り返り
- SQLについて。これまで基礎(基本構文・グループ化・複数テーブル・仮想テーブル)を学び、実際に記述できるようになった。そこで応用としてSQL関数を少しづつ学んでいく。
- 前回は「日付・時刻を扱う関数」に関して学んだ。今回は「統計集計関数」について書く
平均・分散・標準偏差を求める
- データ内の平均はavg関数、分散はvar_pop関数またはvar_samp関数、標準偏差はstddev_pop関数またはstddev_samp関数。
- 引数にはデータを指定。全数の場合はpop、サンプルの場合はsampを使用。
- 語源は「average(平均)」「variance(分散)」「standard deviation(標準偏差)」
- 以下のSQLはたとえば20人のテストの点数が以下のとき、平均・分散・標準偏差を求めるもの
- (20人のテストの点数)43,47,52,52,54,61,67,67,68,69,70,71,71,73,76,78,82,84,84,91
2変数の相関係数を求める
- 2変数の相関係数はcorr関数。引数は「1つめの変数、2つめの変数」。語源は「correlation(相関)」
- 実際の利用は確認ドリル等で実施。Googleデータポータルで散布図としてビジュアライズも可能。
統計の基礎⑥(推定)
今までのおさらい
- 書籍「意味がわかる統計学」に沿って、難しい数式を使わず、確率変数を飛ばして、検定・推定のエッセンスを理解したい。
- まず、相対度数分布グラフは本書独自の概念。横軸に階級(区切り。中央が階級値)、縦軸に度数(各々の値)のグラフを作り、度数の総計が1になるよう圧縮(相対度数と呼ぶ)したもの。
- 次に、本グラフにおいて平均は「つり合いが取れるポイント」であり、値は「(階級値×相対度数)の合計」。分散は「平均から見たデータのばらつき具合」であり、値は「((階級値-平均)の二乗)×相対度数)の合計」。標準偏差は分散の平方根。
- ここで重要なのは、相対度数分布グラフがあれば、平均・分散・標準偏差が求められるということ
- そして、データ全体について「平均分を引き算し、標準偏差で割る」ことで、平均0かつ標準偏差1にすることを標準化と呼ぶ。これが正規分布(釣鐘状)のとき、この形は最も汎用的に使える重要なひな形。
- たとえば20人のテスト結果が以下のとき、相対度数分布グラフ、平均・分散・標準偏差は以下図1のとおり。
- また、標準化した結果は図2のとおり
- (20人のテスト結果)43,47,52,52,54,61,67,67,68,69,70,71,71,73,76,78,82,84,84,91
(図1)元のデータ
(図2)標準化
推定
- 推定とは「○○って、ここからここまでって範囲で予測できる?○%当たるならそれで良いから」というもの。つまり不明な情報の大まかな予測。
- たとえば、上の例で用いた20人のテスト結果について、平均は不明だが「標準偏差は約13らしい」および「サンプルとして1個取り出した値は69だった」だったとする。このとき、平均の予測範囲を95%の精度で求めてみる。
- まず、「サンプル値69から平均を引き、標準偏差13で割る」ことで標準化がされ、平均0、標準偏差1になるはずだと考える。
- 次に、「平均0、標準偏差1のグラフにおいては、中心から1.96の位置が全体の95%を占める」ことを利用する。(標準化された正規分布においては、位置と面積の割合が“分布表”として準備されている)イメージは以下のとおり。
- 最後に、-1.96~1.96の間に「サンプル値69から平均を引き、標準偏差13で割ったもの」が含まれるので、-1.96<(69-平均)/13<1.96となる。この式を変換すると44<平均<94と求まる。
- よって答えは「平均は44から94の間。95%の確率で」となる。
考察
- SQLについて。応用としてSQL関数を少しづつ学んでいく。今回は「統計集計関数(平均、分散、標準偏差の計算)」について学んだ。
- 考察。書籍「意味がわかる統計学/石井 俊全/ベレ出版」を元に「検定・推定が何をしているか」を学び直している。今回は今までの学びを振り返り(相対度数分布グラフ、平均・分散・標準偏差、標準化(平均0、標準偏差1の正規分布))、それらを用いて「推定が何をしているか」について学んだ。
考察のシンプル化と英訳(練習中)
- I learned about estimates with knowledge of standardization in statistics.
- (統計における標準化の知識を用いて、推定について学びました。)
参考書籍
- 集中演習 SQL入門/木田和廣/株式会社インプレス
- 意味がわかる統計学/石井俊全/ベレ出版
コメント