確率と統計
データを正しく読み取り、将来を予測するには「確率」と「統計」の知識が欠かせません。確率は「ある事象がどのくらい起こりやすいか」を数値で表す考え方であり、統計は「集めたデータの特徴をつかむ」ための手法です。ITの分野では、セキュリティのリスク評価やAIの学習データ分析、品質管理など、あらゆる場面でこれらの知識が活用されています。
この章の位置づけ: ここでは「確率・統計の数理の基礎」を整理します。母集団・標本抽出・仮説検定をデータ活用の文脈で見たいときは データ利活用、回帰分析や図表を業務改善にどう使うかを見たいときは 業務分析と業務計画 も参照してください。
確率とは、ある事象(出来事)が起こる可能性の度合いを0から1の数値で表したものです。
- 確率 = 0:その事象は絶対に起こらない
- 確率 = 1:その事象は必ず起こる
- 確率 = 0.5(50%):起こる可能性と起こらない可能性が同じ
確率の基本的な計算式は次のとおりです。
確率 = ある事象が起こる場合の数 ÷ すべての場合の数
たとえば、1〜6の目があるサイコロを1回振って「1の目が出る」確率は 1/6 です。すべての場合の数が6通りで、1の目が出る場合は1通りだからです。
順列とは、いくつかのものを順序を考慮して並べる方法の数です。
n個の中からr個を選んで並べる順列の数は、次の式で求めます。
ₙPᵣ = n × (n-1) × (n-2) × … × (n-r+1)
たとえば、5人の候補者から委員長1名と書記1名を選ぶ場合(兼任不可)を考えましょう。
- 委員長の選び方:5通り
- 書記の選び方:委員長を除く4通り
- 合計:5 × 4 = 20通り(₅P₂ = 20)
もし兼任が許される場合は、書記も5人全員から選べるため、5 × 5 = 25通りになります。
試験で出るポイント
「兼任あり」と「兼任なし」で計算結果が変わります。問題文の条件をよく読みましょう。
組合せとは、いくつかのものを順序を考慮せずに選ぶ方法の数です。
n個の中からr個を選ぶ組合せの数は、次の式で求めます。
ₙCᵣ = ₙPᵣ ÷ r! = n! ÷ {r! × (n-r)!}
たとえば、5人から2人の委員を選ぶ(役職の区別なし)場合は、₅C₂ = (5 × 4) / (2 × 1) = 10通り です。
順列と組合せの違いをまとめると次のようになります。
| 概念 | 順序 | 計算例(5人から2人) | 結果 |
|---|---|---|---|
| 順列(₅P₂) | 考慮する | 5 × 4 | 20通り |
| 組合せ(₅C₂) | 考慮しない | (5 × 4) ÷ (2 × 1) | 10通り |
順列や組合せを使って、さまざまな確率を求めることができます。
例1:サイコロを3回投げて1回も1の目が出ない確率
1回のサイコロ投げで1の目が出ない確率は 5/6 です。3回とも1の目が出ない確率は、各回が独立(互いに影響しない)なので、それぞれの確率を掛け合わせます。
(5/6) × (5/6) × (5/6) = 125/216 ≒ 約58%
例2:パスワードの組合せ数
A〜Zの26種類の文字で作るパスワードの場合を考えます。
| 文字数 | 組合せ数 | 計算 |
|---|---|---|
| 4文字 | 26⁴ = 456,976 | 26 × 26 × 26 × 26 |
| 6文字 | 26⁶ = 308,915,776 | 26 × 26 × 26 × 26 × 26 × 26 |
6文字のパスワードは4文字のパスワードに比べて 26⁶ ÷ 26⁴ = 26² = 676倍の組合せ数になります。パスワードの文字数を増やすほど、総当たり攻撃(すべての組合せを試す攻撃)への耐性が飛躍的に高まることがわかります。
試験で出るポイント
「n桁のパスワードでm種類の文字が使える場合の組合せ数」はmのn乗です。桁数を増やしたときに何倍になるかを問う問題がよく出ます。
集めたデータの特徴を1つの数値で要約したものを代表値と呼びます。代表的な代表値には、平均値、中央値、最頻値の3つがあります。
次のデータを例に、それぞれの代表値を計算してみましょう。
データ:10, 20, 20, 20, 40, 50, 100, 440, 2000(9個)
平均値は、すべてのデータの合計をデータの個数で割った値です。
平均値 = (10 + 20 + 20 + 20 + 40 + 50 + 100 + 440 + 2000) ÷ 9 = 2700 ÷ 9 = 300
中央値(メジアン)
Section titled “中央値(メジアン)”中央値(メジアン)は、データを小さい順に並べたときの真ん中の値です。データが偶数個の場合は、真ん中の2つの値の平均を取ります。
データは9個なので、小さい順に並べて5番目の値が中央値です。
10, 20, 20, 20, 40, 50, 100, 440, 2000 → 中央値 = 40
最頻値(モード)
Section titled “最頻値(モード)”最頻値(モード)は、データの中で最も多く出現する値です。
このデータでは20が3回出現しており最も多いため、最頻値 = 20
| 代表値 | 値 | 特徴 |
|---|---|---|
| 平均値 | 300 | 極端に大きい値(2000)に引っ張られて大きくなる |
| 中央値 | 40 | 極端な値の影響を受けにくい |
| 最頻値 | 20 | 最もよく出現する値 |
試験で出るポイント
平均値は極端な値(外れ値)に大きく影響されます。一方、中央値は外れ値の影響を受けにくいため、データに外れ値が含まれる場合は中央値のほうがデータの実態を表しやすいです。
度数分布表とヒストグラム
Section titled “度数分布表とヒストグラム”度数分布表は、データをいくつかの範囲(階級)に分け、それぞれの範囲に含まれるデータの個数(度数)を表にしたものです。
ヒストグラムは、度数分布表をもとに作成した棒グラフです。横軸にデータの範囲、縦軸に度数を取ります。データの分布の形状(山が1つか2つか、左右対称か偏りがあるかなど)を視覚的に把握できます。
散らばりの指標
Section titled “散らばりの指標”データの散らばり具合を表す指標として、分散と標準偏差があります。
分散は、各データが平均値からどれだけ離れているかを示す指標です。各データと平均値の差(偏差)を2乗して平均したものが分散です。
分散 = (各データ - 平均値)² の合計 ÷ データの個数
標準偏差は、分散の正の平方根です。分散は2乗の単位になってしまうため、元のデータと同じ単位に戻したものが標準偏差です。
標準偏差 = √分散
標準偏差が大きいほどデータのばらつきが大きく、小さいほどデータが平均値の近くに集まっていることを意味します。
偏差値は、あるデータが集団の中でどの位置にあるかを示す指標です。平均を50、標準偏差を10に換算した値で表します。
偏差値 = 50 + 10 × (得点 - 平均点) ÷ 標準偏差
たとえば、数学の試験で平均点58点、標準偏差6点のとき、71点を取った受験者の偏差値は次のように計算します。
偏差値 = 50 + 10 × (71 - 58) / 6 = 50 + 10 × (13/6) ≒ 50 + 21.7 = 71.7
試験で出るポイント
偏差値は「得点そのもの」ではなく「集団の中での相対的な位置」を示します。同じ71点でも、標準偏差が異なる教科では偏差値が変わります。標準偏差が小さい(ばらつきが少ない)教科ほど、平均点からの差が偏差値に大きく反映されます。
説明変数と目的変数
Section titled “説明変数と目的変数”データ分析では、原因にあたる変数を説明変数(独立変数)、結果にあたる変数を目的変数(従属変数)と呼びます。
たとえば「広告費を増やすと売上が増える」という関係では、広告費が説明変数、売上が目的変数です。
2つの変数の間に何らかの関連性がある場合、それを相関関係と呼びます。相関関係の強さと方向を数値で表したものが相関係数です。
| 相関係数の値 | 意味 |
|---|---|
| +1 に近い | 正の相関:一方が増えると他方も増える |
| -1 に近い | 負の相関:一方が増えると他方は減る |
| 0 に近い | 相関がない:2つの変数に直線的な関連がない |
相関分析と回帰分析
Section titled “相関分析と回帰分析”相関分析は、2つの変数の間にどの程度の関連性があるかを調べる手法です。相関係数を計算して、関連の強さと方向を判断します。
回帰分析は、説明変数から目的変数を予測するための数式(回帰式)を求める手法です。最もシンプルな回帰分析では、散布図に最も当てはまりの良い直線(回帰直線)を引いて、将来の値を予測します(回帰分析を業務改善に活かす方法は業務分析と業務計画で詳しく解説)。
試験で出るポイント
相関関係があるからといって因果関係(原因と結果の関係)があるとは限りません。たとえば「アイスクリームの売上」と「熱中症の発生件数」には正の相関がありますが、アイスクリームが熱中症を引き起こすわけではなく、「気温」という共通の要因があるためです。
推定と仮説検定
Section titled “推定と仮説検定”推定とは、一部のデータ(標本)から全体(母集団)の特性を推測することです。
たとえば、ある工場で生産された全製品(母集団)の品質を調べるとき、すべてを検査するのは現実的ではありません。そこで一部の製品(標本)を抜き取って検査し、全体の品質を推定します(標本抽出の方法やバイアスへの対処はデータ利活用で詳しく解説)。
仮説検定とは、ある仮説が正しいかどうかをデータに基づいて判断する手法です。
たとえば「この薬は効果がある」という仮説を検証するとき、まず「この薬は効果がない」という仮説(帰無仮説)を立て、データがその仮説と矛盾するかどうかを統計的に判断します。
| 分野 | 主要概念 | ポイント |
|---|---|---|
| 確率 | 順列・組合せ・確率 | 順列は順序あり、組合せは順序なし |
| 代表値 | 平均値・中央値・最頻値 | 外れ値には中央値が強い |
| 散らばり | 分散・標準偏差・偏差値 | 標準偏差=√分散、偏差値は相対位置 |
| 相関 | 相関係数・回帰分析 | 相関≠因果 |
| 推測 | 推定・仮説検定 | 標本から母集団を推測 |
過去問で実力チェック
Section titled “過去問で実力チェック”過去問に挑戦
Q. 3人の候補者の中から兼任も許す方法で委員長と書記を1名ずつ選ぶ場合,3人の中から委員長1名の選び方が3通りで,3人の中から書記1名の選び方が3通りであるので,委員長と書記の選び方は全部で9通りある。5人の候補者の中から兼任も許す方法で委員長と書記を1名ずつ選ぶ場合,選び方は何通りあるか。
- ア 5
- イ 10
- ウ 20
- エ 25
解答(令和元年)
正解: エ
Q. 次のデータの平均値と中央値の組合せはどれか。
〔データ〕
10, 20, 20, 20, 40, 50, 100, 440, 2000
| 平均値 | 中央値 | |
|---|---|---|
| ア | 20 | 40 |
| イ | 40 | 20 |
| ウ | 300 | 20 |
| エ | 300 | 40 |
- ア 20 / 40
- イ 40 / 20
- ウ 300 / 20
- エ 300 / 40
解答(令和4年)
正解: エ
Q. 受験者10,000人の4教科の試験結果は表のとおりであり,いずれの教科の得点分布も正規分布に従っていたとする。ある受験者の4教科の得点が全て71点であったときこの受験者が最も高い偏差値を得た教科はどれか。
単位 点
| 平均点 | 標準偏差 | |
|---|---|---|
| 国語 | 62 | 5 |
| 社会 | 55 | 9 |
| 数学 | 58 | 6 |
| 理科 | 60 | 7 |
- ア 国語
- イ 社会
- ウ 数学
- エ 理科
解答(令和5年)
正解: ウ
Q. 1から6までの六つの目をもつサイコロを3回投げたとき,1回も1の目が出ない確率は幾らか。
- ア 1/216
- イ 5/72
- ウ 91/216
- エ 125/216
解答(令和6年)
正解: エ