確率と統計

データを正しく読み取り、将来を予測するには「確率」と「統計」の知識が欠かせません。確率は「ある事象がどのくらい起こりやすいか」を数値で表す考え方であり、統計は「集めたデータの特徴をつかむ」ための手法です。ITの分野では、セキュリティのリスク評価やAIの学習データ分析、品質管理など、あらゆる場面でこれらの知識が活用されています。

確率の基本

確率とは

確率とは、ある事象（出来事）が起こる可能性の度合いを0から1の数値で表したものです。

確率 = 0：その事象は絶対に起こらない
確率 = 1：その事象は必ず起こる
確率 = 0.5（50%）：起こる可能性と起こらない可能性が同じ

確率の基本的な計算式は次のとおりです。

確率 = ある事象が起こる場合の数 ÷ すべての場合の数

たとえば、1〜6の目があるサイコロを1回振って「1の目が出る」確率は 1/6 です。すべての場合の数が6通りで、1の目が出る場合は1通りだからです。

順列

順列とは、いくつかのものを順序を考慮して並べる方法の数です。

n個の中からr個を選んで並べる順列の数は、次の式で求めます。

ₙPᵣ = n × (n-1) × (n-2) × … × (n-r+1)

たとえば、5人の候補者から委員長1名と書記1名を選ぶ場合（兼任不可）を考えましょう。

委員長の選び方：5通り
書記の選び方：委員長を除く4通り
合計：5 × 4 = 20通り（₅P₂ = 20）

もし兼任が許される場合は、書記も5人全員から選べるため、5 × 5 = 25通りになります。

試験で出るポイント

「兼任あり」と「兼任なし」で計算結果が変わります。問題文の条件をよく読みましょう。

組合せ

組合せとは、いくつかのものを順序を考慮せずに選ぶ方法の数です。

n個の中からr個を選ぶ組合せの数は、次の式で求めます。

ₙCᵣ = ₙPᵣ ÷ r! = n! ÷ {r! × (n-r)!}

たとえば、5人から2人の委員を選ぶ（役職の区別なし）場合は、₅C₂ = (5 × 4) / (2 × 1) = 10通り です。

順列と組合せの違いをまとめると次のようになります。

概念	順序	計算例（5人から2人）	結果
順列（₅P₂）	考慮する	5 × 4	20通り
組合せ（₅C₂）	考慮しない	(5 × 4) ÷ (2 × 1)	10通り

確率の計算

順列や組合せを使って、さまざまな確率を求めることができます。

例1：サイコロを3回投げて1回も1の目が出ない確率

1回のサイコロ投げで1の目が出ない確率は 5/6 です。3回とも1の目が出ない確率は、各回が独立（互いに影響しない）なので、それぞれの確率を掛け合わせます。

(5/6) × (5/6) × (5/6) = 125/216 ≒ 約58%

例2：パスワードの組合せ数

A〜Zの26種類の文字で作るパスワードの場合を考えます。

文字数	組合せ数	計算
4文字	26⁴ = 456,976	26 × 26 × 26 × 26
6文字	26⁶ = 308,915,776	26 × 26 × 26 × 26 × 26 × 26

6文字のパスワードは4文字のパスワードに比べて 26⁶ ÷ 26⁴ = 26² = 676倍の組合せ数になります。パスワードの文字数を増やすほど、総当たり攻撃（すべての組合せを試す攻撃）への耐性が飛躍的に高まることがわかります。

試験で出るポイント

「n桁のパスワードでm種類の文字が使える場合の組合せ数」はmのn乗です。桁数を増やしたときに何倍になるかを問う問題がよく出ます。

統計の基本

代表値

集めたデータの特徴を1つの数値で要約したものを代表値と呼びます。代表的な代表値には、平均値、中央値、最頻値の3つがあります。

次のデータを例に、それぞれの代表値を計算してみましょう。

データ：10, 20, 20, 20, 40, 50, 100, 440, 2000（9個）

平均値

平均値は、すべてのデータの合計をデータの個数で割った値です。

平均値 = (10 + 20 + 20 + 20 + 40 + 50 + 100 + 440 + 2000) ÷ 9 = 2700 ÷ 9 = 300

中央値（メジアン）

中央値（メジアン）は、データを小さい順に並べたときの真ん中の値です。データが偶数個の場合は、真ん中の2つの値の平均を取ります。

データは9個なので、小さい順に並べて5番目の値が中央値です。

10, 20, 20, 20, 40, 50, 100, 440, 2000 → 中央値 = 40

最頻値（モード）

最頻値（モード）は、データの中で最も多く出現する値です。

このデータでは20が3回出現しており最も多いため、最頻値 = 20

代表値	値	特徴
平均値	300	極端に大きい値（2000）に引っ張られて大きくなる
中央値	40	極端な値の影響を受けにくい
最頻値	20	最もよく出現する値

試験で出るポイント

平均値は極端な値（外れ値）に大きく影響されます。一方、中央値は外れ値の影響を受けにくいため、データに外れ値が含まれる場合は中央値のほうがデータの実態を表しやすいです。

度数分布表とヒストグラム

度数分布表は、データをいくつかの範囲（階級）に分け、それぞれの範囲に含まれるデータの個数（度数）を表にしたものです。

ヒストグラムは、度数分布表をもとに作成した棒グラフです。横軸にデータの範囲、縦軸に度数を取ります。データの分布の形状（山が1つか2つか、左右対称か偏りがあるかなど）を視覚的に把握できます。

散らばりの指標

データの散らばり具合を表す指標として、分散と標準偏差があります。

分散

分散は、各データが平均値からどれだけ離れているかを示す指標です。各データと平均値の差（偏差）を2乗して平均したものが分散です。

分散 = (各データ - 平均値)² の合計 ÷ データの個数

標準偏差

標準偏差は、分散の正の平方根です。分散は2乗の単位になってしまうため、元のデータと同じ単位に戻したものが標準偏差です。

標準偏差 = √分散

標準偏差が大きいほどデータのばらつきが大きく、小さいほどデータが平均値の近くに集まっていることを意味します。

偏差値

偏差値は、あるデータが集団の中でどの位置にあるかを示す指標です。平均を50、標準偏差を10に換算した値で表します。

偏差値 = 50 + 10 × (得点 - 平均点) ÷ 標準偏差

たとえば、数学の試験で平均点58点、標準偏差6点のとき、71点を取った受験者の偏差値は次のように計算します。

偏差値 = 50 + 10 × (71 - 58) / 6 = 50 + 10 × (13/6) ≒ 50 + 21.7 = 71.7

試験で出るポイント

偏差値は「得点そのもの」ではなく「集団の中での相対的な位置」を示します。同じ71点でも、標準偏差が異なる教科では偏差値が変わります。標準偏差が小さい（ばらつきが少ない）教科ほど、平均点からの差が偏差値に大きく反映されます。

変数と相関

説明変数と目的変数

データ分析では、原因にあたる変数を説明変数（独立変数）、結果にあたる変数を目的変数（従属変数）と呼びます。

たとえば「広告費を増やすと売上が増える」という関係では、広告費が説明変数、売上が目的変数です。

相関関係

2つの変数の間に何らかの関連性がある場合、それを相関関係と呼びます。相関関係の強さと方向を数値で表したものが相関係数です。

相関係数の値	意味
+1 に近い	正の相関：一方が増えると他方も増える
-1 に近い	負の相関：一方が増えると他方は減る
0 に近い	相関がない：2つの変数に直線的な関連がない

相関分析と回帰分析

相関分析は、2つの変数の間にどの程度の関連性があるかを調べる手法です。相関係数を計算して、関連の強さと方向を判断します。

回帰分析は、説明変数から目的変数を予測するための数式（回帰式）を求める手法です。最もシンプルな回帰分析では、散布図に最も当てはまりの良い直線（回帰直線）を引いて、将来の値を予測します。

試験で出るポイント

相関関係があるからといって因果関係（原因と結果の関係）があるとは限りません。たとえば「アイスクリームの売上」と「熱中症の発生件数」には正の相関がありますが、アイスクリームが熱中症を引き起こすわけではなく、「気温」という共通の要因があるためです。

推定と仮説検定

推定

推定とは、一部のデータ（標本）から全体（母集団）の特性を推測することです。

たとえば、ある工場で生産された全製品（母集団）の品質を調べるとき、すべてを検査するのは現実的ではありません。そこで一部の製品（標本）を抜き取って検査し、全体の品質を推定します。

仮説検定

仮説検定とは、ある仮説が正しいかどうかをデータに基づいて判断する手法です。

たとえば「この薬は効果がある」という仮説を検証するとき、まず「この薬は効果がない」という仮説（帰無仮説）を立て、データがその仮説と矛盾するかどうかを統計的に判断します。

まとめ

分野	主要概念	ポイント
確率	順列・組合せ・確率	順列は順序あり、組合せは順序なし
代表値	平均値・中央値・最頻値	外れ値には中央値が強い
散らばり	分散・標準偏差・偏差値	標準偏差＝√分散、偏差値は相対位置
相関	相関係数・回帰分析	相関≠因果
推測	推定・仮説検定	標本から母集団を推測