確率と統計
データを正しく読み取り、将来を予測するには「確率」と「統計」の知識が欠かせません。確率は「ある事象がどのくらい起こりやすいか」を数値で表す考え方であり、統計は「集めたデータの特徴をつかむ」ための手法です。ITの分野では、セキュリティのリスク評価やAIの学習データ分析、品質管理など、あらゆる場面でこれらの知識が活用されています。
確率とは、ある事象(出来事)が起こる可能性の度合いを0から1の数値で表したものです。
- 確率 = 0:その事象は絶対に起こらない
- 確率 = 1:その事象は必ず起こる
- 確率 = 0.5(50%):起こる可能性と起こらない可能性が同じ
確率の基本的な計算式は次のとおりです。
確率 = ある事象が起こる場合の数 ÷ すべての場合の数
たとえば、1〜6の目があるサイコロを1回振って「1の目が出る」確率は 1/6 です。すべての場合の数が6通りで、1の目が出る場合は1通りだからです。
順列とは、いくつかのものを順序を考慮して並べる方法の数です。
n個の中からr個を選んで並べる順列の数は、次の式で求めます。
ₙPᵣ = n × (n-1) × (n-2) × … × (n-r+1)
たとえば、5人の候補者から委員長1名と書記1名を選ぶ場合(兼任不可)を考えましょう。
- 委員長の選び方:5通り
- 書記の選び方:委員長を除く4通り
- 合計:5 × 4 = 20通り(₅P₂ = 20)
もし兼任が許される場合は、書記も5人全員から選べるため、5 × 5 = 25通りになります。
試験で出るポイント
組合せとは、いくつかのものを順序を考慮せずに選ぶ方法の数です。
n個の中からr個を選ぶ組合せの数は、次の式で求めます。
ₙCᵣ = ₙPᵣ ÷ r! = n! ÷ {r! × (n-r)!}
たとえば、5人から2人の委員を選ぶ(役職の区別なし)場合は、₅C₂ = (5 × 4) / (2 × 1) = 10通り です。
順列と組合せの違いをまとめると次のようになります。
| 概念 | 順序 | 計算例(5人から2人) | 結果 |
|---|---|---|---|
| 順列(₅P₂) | 考慮する | 5 × 4 | 20通り |
| 組合せ(₅C₂) | 考慮しない | (5 × 4) ÷ (2 × 1) | 10通り |
順列や組合せを使って、さまざまな確率を求めることができます。
例1:サイコロを3回投げて1回も1の目が出ない確率
1回のサイコロ投げで1の目が出ない確率は 5/6 です。3回とも1の目が出ない確率は、各回が独立(互いに影響しない)なので、それぞれの確率を掛け合わせます。
(5/6) × (5/6) × (5/6) = 125/216 ≒ 約58%
例2:パスワードの組合せ数
A〜Zの26種類の文字で作るパスワードの場合を考えます。
| 文字数 | 組合せ数 | 計算 |
|---|---|---|
| 4文字 | 26⁴ = 456,976 | 26 × 26 × 26 × 26 |
| 6文字 | 26⁶ = 308,915,776 | 26 × 26 × 26 × 26 × 26 × 26 |
6文字のパスワードは4文字のパスワードに比べて 26⁶ ÷ 26⁴ = 26² = 676倍の組合せ数になります。パスワードの文字数を増やすほど、総当たり攻撃(すべての組合せを試す攻撃)への耐性が飛躍的に高まることがわかります。
試験で出るポイント
集めたデータの特徴を1つの数値で要約したものを代表値と呼びます。代表的な代表値には、平均値、中央値、最頻値の3つがあります。
次のデータを例に、それぞれの代表値を計算してみましょう。
データ:10, 20, 20, 20, 40, 50, 100, 440, 2000(9個)
平均値は、すべてのデータの合計をデータの個数で割った値です。
平均値 = (10 + 20 + 20 + 20 + 40 + 50 + 100 + 440 + 2000) ÷ 9 = 2700 ÷ 9 = 300
中央値(メジアン)
Section titled “中央値(メジアン)”中央値(メジアン)は、データを小さい順に並べたときの真ん中の値です。データが偶数個の場合は、真ん中の2つの値の平均を取ります。
データは9個なので、小さい順に並べて5番目の値が中央値です。
10, 20, 20, 20, 40, 50, 100, 440, 2000 → 中央値 = 40
最頻値(モード)
Section titled “最頻値(モード)”最頻値(モード)は、データの中で最も多く出現する値です。
このデータでは20が3回出現しており最も多いため、最頻値 = 20
| 代表値 | 値 | 特徴 |
|---|---|---|
| 平均値 | 300 | 極端に大きい値(2000)に引っ張られて大きくなる |
| 中央値 | 40 | 極端な値の影響を受けにくい |
| 最頻値 | 20 | 最もよく出現する値 |
試験で出るポイント
度数分布表とヒストグラム
Section titled “度数分布表とヒストグラム”度数分布表は、データをいくつかの範囲(階級)に分け、それぞれの範囲に含まれるデータの個数(度数)を表にしたものです。
ヒストグラムは、度数分布表をもとに作成した棒グラフです。横軸にデータの範囲、縦軸に度数を取ります。データの分布の形状(山が1つか2つか、左右対称か偏りがあるかなど)を視覚的に把握できます。
散らばりの指標
Section titled “散らばりの指標”データの散らばり具合を表す指標として、分散と標準偏差があります。
分散は、各データが平均値からどれだけ離れているかを示す指標です。各データと平均値の差(偏差)を2乗して平均したものが分散です。
分散 = (各データ - 平均値)² の合計 ÷ データの個数
標準偏差は、分散の正の平方根です。分散は2乗の単位になってしまうため、元のデータと同じ単位に戻したものが標準偏差です。
標準偏差 = √分散
標準偏差が大きいほどデータのばらつきが大きく、小さいほどデータが平均値の近くに集まっていることを意味します。
偏差値は、あるデータが集団の中でどの位置にあるかを示す指標です。平均を50、標準偏差を10に換算した値で表します。
偏差値 = 50 + 10 × (得点 - 平均点) ÷ 標準偏差
たとえば、数学の試験で平均点58点、標準偏差6点のとき、71点を取った受験者の偏差値は次のように計算します。
偏差値 = 50 + 10 × (71 - 58) / 6 = 50 + 10 × (13/6) ≒ 50 + 21.7 = 71.7
試験で出るポイント
説明変数と目的変数
Section titled “説明変数と目的変数”データ分析では、原因にあたる変数を説明変数(独立変数)、結果にあたる変数を目的変数(従属変数)と呼びます。
たとえば「広告費を増やすと売上が増える」という関係では、広告費が説明変数、売上が目的変数です。
2つの変数の間に何らかの関連性がある場合、それを相関関係と呼びます。相関関係の強さと方向を数値で表したものが相関係数です。
| 相関係数の値 | 意味 |
|---|---|
| +1 に近い | 正の相関:一方が増えると他方も増える |
| -1 に近い | 負の相関:一方が増えると他方は減る |
| 0 に近い | 相関がない:2つの変数に直線的な関連がない |
相関分析と回帰分析
Section titled “相関分析と回帰分析”相関分析は、2つの変数の間にどの程度の関連性があるかを調べる手法です。相関係数を計算して、関連の強さと方向を判断します。
回帰分析は、説明変数から目的変数を予測するための数式(回帰式)を求める手法です。最もシンプルな回帰分析では、散布図に最も当てはまりの良い直線(回帰直線)を引いて、将来の値を予測します。
試験で出るポイント
推定と仮説検定
Section titled “推定と仮説検定”推定とは、一部のデータ(標本)から全体(母集団)の特性を推測することです。
たとえば、ある工場で生産された全製品(母集団)の品質を調べるとき、すべてを検査するのは現実的ではありません。そこで一部の製品(標本)を抜き取って検査し、全体の品質を推定します。
仮説検定とは、ある仮説が正しいかどうかをデータに基づいて判断する手法です。
たとえば「この薬は効果がある」という仮説を検証するとき、まず「この薬は効果がない」という仮説(帰無仮説)を立て、データがその仮説と矛盾するかどうかを統計的に判断します。
| 分野 | 主要概念 | ポイント |
|---|---|---|
| 確率 | 順列・組合せ・確率 | 順列は順序あり、組合せは順序なし |
| 代表値 | 平均値・中央値・最頻値 | 外れ値には中央値が強い |
| 散らばり | 分散・標準偏差・偏差値 | 標準偏差=√分散、偏差値は相対位置 |
| 相関 | 相関係数・回帰分析 | 相関≠因果 |
| 推測 | 推定・仮説検定 | 標本から母集団を推測 |