コンテンツにスキップ

確率と統計

データを正しく読み取り、将来を予測するには「確率」と「統計」の知識が欠かせません。確率は「ある事象がどのくらい起こりやすいか」を数値で表す考え方であり、統計は「集めたデータの特徴をつかむ」ための手法です。ITの分野では、セキュリティのリスク評価やAIの学習データ分析、品質管理など、あらゆる場面でこれらの知識が活用されています。

確率とは、ある事象(出来事)が起こる可能性の度合いを0から1の数値で表したものです。

  • 確率 = 0:その事象は絶対に起こらない
  • 確率 = 1:その事象は必ず起こる
  • 確率 = 0.5(50%):起こる可能性と起こらない可能性が同じ

確率の基本的な計算式は次のとおりです。

確率 = ある事象が起こる場合の数 ÷ すべての場合の数

たとえば、1〜6の目があるサイコロを1回振って「1の目が出る」確率は 1/6 です。すべての場合の数が6通りで、1の目が出る場合は1通りだからです。

順列とは、いくつかのものを順序を考慮して並べる方法の数です。

n個の中からr個を選んで並べる順列の数は、次の式で求めます。

ₙPᵣ = n × (n-1) × (n-2) × … × (n-r+1)

たとえば、5人の候補者から委員長1名と書記1名を選ぶ場合(兼任不可)を考えましょう。

  • 委員長の選び方:5通り
  • 書記の選び方:委員長を除く4通り
  • 合計:5 × 4 = 20通り(₅P₂ = 20)

もし兼任が許される場合は、書記も5人全員から選べるため、5 × 5 = 25通りになります。

試験で出るポイント

「兼任あり」と「兼任なし」で計算結果が変わります。問題文の条件をよく読みましょう。

組合せとは、いくつかのものを順序を考慮せずに選ぶ方法の数です。

n個の中からr個を選ぶ組合せの数は、次の式で求めます。

ₙCᵣ = ₙPᵣ ÷ r! = n! ÷ {r! × (n-r)!}

たとえば、5人から2人の委員を選ぶ(役職の区別なし)場合は、₅C₂ = (5 × 4) / (2 × 1) = 10通り です。

順列と組合せの違いをまとめると次のようになります。

概念順序計算例(5人から2人)結果
順列(₅P₂)考慮する5 × 420通り
組合せ(₅C₂)考慮しない(5 × 4) ÷ (2 × 1)10通り

順列や組合せを使って、さまざまな確率を求めることができます。

例1:サイコロを3回投げて1回も1の目が出ない確率

1回のサイコロ投げで1の目が出ない確率は 5/6 です。3回とも1の目が出ない確率は、各回が独立(互いに影響しない)なので、それぞれの確率を掛け合わせます。

(5/6) × (5/6) × (5/6) = 125/216 ≒ 約58%

例2:パスワードの組合せ数

A〜Zの26種類の文字で作るパスワードの場合を考えます。

文字数組合せ数計算
4文字26⁴ = 456,97626 × 26 × 26 × 26
6文字26⁶ = 308,915,77626 × 26 × 26 × 26 × 26 × 26

6文字のパスワードは4文字のパスワードに比べて 26⁶ ÷ 26⁴ = 26² = 676倍の組合せ数になります。パスワードの文字数を増やすほど、総当たり攻撃(すべての組合せを試す攻撃)への耐性が飛躍的に高まることがわかります。

試験で出るポイント

「n桁のパスワードでm種類の文字が使える場合の組合せ数」はmのn乗です。桁数を増やしたときに何倍になるかを問う問題がよく出ます。

集めたデータの特徴を1つの数値で要約したものを代表値と呼びます。代表的な代表値には、平均値中央値最頻値の3つがあります。

次のデータを例に、それぞれの代表値を計算してみましょう。

データ:10, 20, 20, 20, 40, 50, 100, 440, 2000(9個)

平均値は、すべてのデータの合計をデータの個数で割った値です。

平均値 = (10 + 20 + 20 + 20 + 40 + 50 + 100 + 440 + 2000) ÷ 9 = 2700 ÷ 9 = 300

中央値(メジアン)は、データを小さい順に並べたときの真ん中の値です。データが偶数個の場合は、真ん中の2つの値の平均を取ります。

データは9個なので、小さい順に並べて5番目の値が中央値です。

10, 20, 20, 20, 40, 50, 100, 440, 2000 → 中央値 = 40

最頻値(モード)は、データの中で最も多く出現する値です。

このデータでは20が3回出現しており最も多いため、最頻値 = 20

代表値特徴
平均値300極端に大きい値(2000)に引っ張られて大きくなる
中央値40極端な値の影響を受けにくい
最頻値20最もよく出現する値

試験で出るポイント

平均値は極端な値(外れ値)に大きく影響されます。一方、中央値は外れ値の影響を受けにくいため、データに外れ値が含まれる場合は中央値のほうがデータの実態を表しやすいです。

度数分布表は、データをいくつかの範囲(階級)に分け、それぞれの範囲に含まれるデータの個数(度数)を表にしたものです。

ヒストグラムは、度数分布表をもとに作成した棒グラフです。横軸にデータの範囲、縦軸に度数を取ります。データの分布の形状(山が1つか2つか、左右対称か偏りがあるかなど)を視覚的に把握できます。

データの散らばり具合を表す指標として、分散標準偏差があります。

分散は、各データが平均値からどれだけ離れているかを示す指標です。各データと平均値の差(偏差)を2乗して平均したものが分散です。

分散 = (各データ - 平均値)² の合計 ÷ データの個数

標準偏差は、分散の正の平方根です。分散は2乗の単位になってしまうため、元のデータと同じ単位に戻したものが標準偏差です。

標準偏差 = √分散

標準偏差が大きいほどデータのばらつきが大きく、小さいほどデータが平均値の近くに集まっていることを意味します。

偏差値は、あるデータが集団の中でどの位置にあるかを示す指標です。平均を50、標準偏差を10に換算した値で表します。

偏差値 = 50 + 10 × (得点 - 平均点) ÷ 標準偏差

たとえば、数学の試験で平均点58点、標準偏差6点のとき、71点を取った受験者の偏差値は次のように計算します。

偏差値 = 50 + 10 × (71 - 58) / 6 = 50 + 10 × (13/6) ≒ 50 + 21.7 = 71.7

試験で出るポイント

偏差値は「得点そのもの」ではなく「集団の中での相対的な位置」を示します。同じ71点でも、標準偏差が異なる教科では偏差値が変わります。標準偏差が小さい(ばらつきが少ない)教科ほど、平均点からの差が偏差値に大きく反映されます。

データ分析では、原因にあたる変数を説明変数(独立変数)、結果にあたる変数を目的変数(従属変数)と呼びます。

たとえば「広告費を増やすと売上が増える」という関係では、広告費が説明変数、売上が目的変数です。

2つの変数の間に何らかの関連性がある場合、それを相関関係と呼びます。相関関係の強さと方向を数値で表したものが相関係数です。

相関係数の値意味
+1 に近い正の相関:一方が増えると他方も増える
-1 に近い負の相関:一方が増えると他方は減る
0 に近い相関がない:2つの変数に直線的な関連がない

相関分析は、2つの変数の間にどの程度の関連性があるかを調べる手法です。相関係数を計算して、関連の強さと方向を判断します。

回帰分析は、説明変数から目的変数を予測するための数式(回帰式)を求める手法です。最もシンプルな回帰分析では、散布図に最も当てはまりの良い直線(回帰直線)を引いて、将来の値を予測します。

試験で出るポイント

相関関係があるからといって因果関係(原因と結果の関係)があるとは限りません。たとえば「アイスクリームの売上」と「熱中症の発生件数」には正の相関がありますが、アイスクリームが熱中症を引き起こすわけではなく、「気温」という共通の要因があるためです。

推定とは、一部のデータ(標本)から全体(母集団)の特性を推測することです。

たとえば、ある工場で生産された全製品(母集団)の品質を調べるとき、すべてを検査するのは現実的ではありません。そこで一部の製品(標本)を抜き取って検査し、全体の品質を推定します。

仮説検定とは、ある仮説が正しいかどうかをデータに基づいて判断する手法です。

たとえば「この薬は効果がある」という仮説を検証するとき、まず「この薬は効果がない」という仮説(帰無仮説)を立て、データがその仮説と矛盾するかどうかを統計的に判断します。

分野主要概念ポイント
確率順列・組合せ・確率順列は順序あり、組合せは順序なし
代表値平均値・中央値・最頻値外れ値には中央値が強い
散らばり分散・標準偏差・偏差値標準偏差=√分散、偏差値は相対位置
相関相関係数・回帰分析相関≠因果
推測推定・仮説検定標本から母集団を推測

アプリで問題を解こう!