2010年4月30日 3分間ラーニング

“平均値”ってなんだろう?

「今回のアンケート、4.5だって。前回と同じの高得点だから問題ないな」

こんな発言をあなたも聞いた/したことがあるでしょう。

しかし、アンケート点数の平均が前回と同じだからといって、本当にそれで「問題ない」と言い切れるのでしょうか?

たとえばこのケースを、ある研修の受講満足度アンケートだと考えてみましょう。
研修の参加者が2回とも20人、点数は同じ5段階評価だとして、第1回は

<5点:10人><4点:10人><3点:0人><2点:0人><1点:0人>

だったので、平均点が4.5だったと仮定しましょう。
そして第2回は、以下の評価だったとしたら?

<5点:17人><4点:0人><3点:1人><2点:0人><1点:2人>

これも平均点は4.5ですね。

では、この2回の詳細データを見て、あなたは「平均点が同じだから問題ない」と言えますか?




そもそも我々が“平均値”を求めるのは、「傾向を知る」ためです。
上記のアンケートという例で言えば、「評価が人によって違うのはアタリマエ。だからその凸凹を『均(なら)して』評価の善し悪しを大まかに把握する」ことが目的でしょう。

よって平均値とは、「ある集団の特性を代弁する数値」と定義することができます。

しかしながら上記のアンケートを見てください。
2回の研修アンケートの平均点はともに「4.5点」ですが、2回の参加者の傾向は同じでしょうか?

違いますよね。

第2回は絶賛の人も初回より多いですが、初回にはいなかった酷評の人も2名います。
もしかすると、何か特定の人を怒らせるようなことを講師は言ってしまったのかもしれません。

ここから言えることは何か。

平均値を出すにしても、それで集団の特性を「わかった気になる」のは危険ということです。
また、平均値に一喜一憂して「次回も(は)頑張ろう」と終わるのも愚かなことです。

だから平均値だけでなく、バラツキや集中度合なども「どのような傾向があるか」という視点で見る必要があります。

また、個々のデータも(全部が難しければサンプルを抜き出す形で)ちゃんと見なければなりません。その際は評価点などの数値(定量)データだけでなく、フリーコメントなどの定性データも仮説検証における大きな手助けとなるでしょう。



さて、そしてもうひとつ。
平均値を安易に計算する前に考えるべきことがあります。

それは「この集団の特性を代弁する値として、本当に適切なのは何か?」という問いです。

実は(ご存じの方も多いでしょうが)集団の特性を代弁する値、これを代表値と呼びますが、この代表値は平均値だけではありません。

平均値は確かに使い勝手の良い代表値です。
特に計算式でこれを算出するため、「統計的に分析した」感じがするので、これで説明されると何となく納得させられたりします(笑)
(これ、実は冗談ではありません)
(なお、この計算がとても簡単(面倒くさい場合もありますが)なのもポイントです)

しかし平均値でその集団の特性をわかったつもりになるのは危険な場合もあるのです。

たとえばプロ野球の平均年俸は2009年のデータで3,793万円です。またトップ3は以下の通り。

1.阪神    :5,794万円
2.ソフトバンク:5,273万円
3.巨人    :4,480万円

いやあ、我々普通のビジネスパーソンからしたらうらやましい数値ですね。

しかし、この数千万円という平均値は、本当にプロ野球選手の収入の代表値でしょうか?

あまりそういう感じはしないと思います。
数億円の年俸の選手もいれば、440万円という最低年俸の選手もいるわけで、とてつもなくもらっている人が平均値を引き上げているからです。

このようなケースでよく使われる代表値が、データの「ちょうど真ん中」の数値である“中央値”です。

再びプロ野球の年俸で見てみましょう。
全選手の中央値はデータのソートがタイヘンなのでここでは割愛しますが、平均年俸トップ3については以下のようになります。

---------<平均値>-<中央値>
1.阪神・・・・:5,794万円・・1,800万円
2.ソフトバンク:5,273万円・・1,500万円
3.巨人・・・・:4,480万円・・1,800万円

いずれも平均値より大きく下がり、巨人がソフトバンクより高くなってしまいました。
ですが、こちらの方がなんとなく平均値より実態を表していると思いませんか?

そしてもうひとつの代表値が、“最頻値”です。
これは読んで字の如く、最もよく表れる数値を代表にしてしまおうという考え方です。

さて、プロ野球の年俸をこの最頻値も加えて見るとこうなります。

---------<平均値>-<中央値>--<最頻値>
1.阪神・・・・:5,794万円・・1,800万円・・1,000万円
2.ソフトバンク:5,273万円・・1,500万円・・・600万円
3.巨人・・・・:4,480万円・・1,800万円・・・800万円

中央値よりさらに下がりました。また、順位的には中央値に近いですね。
ただ、これは支配下選手として登録できる70人の枠内ですから、最頻値といっても数人レベルです。

このように3種類の代表値を実例で見てきたわけですが、ある集団の特性を明らかにしたい場合、どの代表値を採用すべきかどうかがなんとなく見えてきたことでしょう。

たとえば今回最初に使ったアンケート結果のような「上限と下限が決まっている」場合は、やはり平均値が向きます。
その上で中央値や最頻値も参考にすべきでしょう。

(ちなみに“平均値”は「足して総数で割る」相加平均だけでなく、「この場合の平均速度は~」のようなケースで使う相乗平均や調和平均もありますので、「どの平均値を使うべきか」も重要です。)

プロ野球の年俸については、中央値が適切でしょう。実際プロ野球に限らず、バラツキが大きく、「上を見ても下を見てもきりがない」ような年収については、この中央値がよく使われます。

逆に言えば、平均値を使って業種別の年収比較を比較するのはあまり意味がないのです。

最後に最頻値ですが、これ、要は『多数決』の考え方です。
たとえば遠足の行き先を決める場合、候補地の中でどこに行きたいか投票して多数決で決めるのは、これが集団の特性を代弁していると考えられるからです。
選挙で「代表を選ぶ」というのも、まさに「代表値として最頻値が適切」という大前提があるわけですね。

そしてこの最頻値、「集計後に計算がいらない」こともメリットです。
つまり「手っ取り早く代表値を特定できる」のが魅力です。



いかがでしょう。

様々な代表値があること、安易に平均値を使わないこと、そして平均値に騙されないことの重要性を少しでもご理解いただけたのなら嬉しいです。

コメント

コメントを送ってください