データ利活用

ビジネスにおいてデータの重要性はますます高まっています。しかし、データはただ集めるだけでは役に立ちません。目的に合ったデータを集め、適切に前処理し、正しい手法で分析してはじめて、業務改善や意思決定に活かすことができます。この章では、データの種類と前処理、統計の基礎知識、そしてデータを活用するための手法と仕組みを学びます。

データの種類と前処理

データの分類

データにはさまざまな分類の切り口があります。それぞれの違いを理解しておくことで、適切な収集方法や分析手法を選べるようになります。

収集方法による分類

分類	説明	例
調査データ	アンケートや聞き取りなど、意図的に集めたデータ	顧客満足度調査の回答
実験データ	条件を制御した実験から得られるデータ	新商品のA/Bテスト結果
行動ログデータ	人やシステムの活動が自動記録されたデータ	Webサイトの閲覧履歴、機械の稼働ログ

一次データと二次データ

分類	説明	例
1次データ	自分（自社）が目的に合わせて直接収集したデータ	自社で実施したアンケート結果
2次データ	他者がすでに収集・公開しているデータ	政府の統計データ、業界レポート

1次データは目的に合った情報を得やすい反面、収集にコストと時間がかかります。2次データは手軽に入手できますが、自社の目的に完全には合わない場合があります。

量的データと質的データ

分類	説明	例
量的データ	数値で表され、計算が可能なデータ	売上高、気温、年齢
質的データ	カテゴリや種類を表すデータ（数値で計算しても意味がない）	性別、血液型、都道府県

たとえば「顧客の年齢」は量的データですが、「顧客の職業」は質的データです。量的データには平均値や合計が使え、質的データには度数（件数）や割合が使えます。

試験で出るポイント

量的データと質的データの区別は基本中の基本です。「数値で計算して意味があるか」で判断しましょう。アンケートの5段階評価のように、数値に見えても本質的には質的データである場合もあります。

構造化データと非構造化データ

分類	説明	例
構造化データ	表形式で整理され、行と列で管理できるデータ	データベースの売上テーブル、CSVファイル
非構造化データ	一定の形式に収まらない自由形式のデータ	メール本文、画像、動画、SNSの投稿

企業が扱うデータの大部分は非構造化データだといわれています。近年は、AIやテキストマイニングの技術によって、非構造化データからも有用な情報を引き出せるようになりました。

メタデータ

メタデータとは、「データに関するデータ」のことです。たとえば、デジタル写真のファイルには、撮影日時・撮影場所・カメラの設定情報といったメタデータが含まれています。メタデータは、大量のデータを整理・検索する際に重要な役割を果たします。

時系列データとクロスセクションデータ

分類	説明	例
時系列データ	同じ対象を時間の経過に沿って記録したデータ	ある店舗の月別売上推移
クロスセクションデータ	ある時点での複数の対象を比較するデータ	全店舗の今月の売上一覧

データの前処理

収集したデータはそのままでは分析に使えないことが多く、分析の前に前処理が必要です。

前処理	説明
名寄せ	同一の人物や企業が異なる表記で登録されているデータを統合する（例：「(株)ABC」と「ABC株式会社」を同一企業としてまとめる）
外れ値・異常値の処理	明らかに不自然な値（入力ミスなど）を検出し、除外や修正を行う
欠損値の処理	データが欠けている箇所を、平均値で補完したり、そのレコードを除外したりする
アノテーション	AIの学習に使うデータに、正解ラベル（タグ）を付与する作業

前処理はデータ分析の作業時間の大部分を占めるといわれており、分析結果の品質を大きく左右します。

統計の基礎知識

母集団と標本抽出

データ分析では、調べたい対象全体を母集団と呼びます。しかし、母集団すべてを調査する全数調査（例：国勢調査）はコストが大きいため、通常は母集団の一部を抜き出して調査します。この抜き出したデータを標本、抜き出す行為を標本抽出（サンプリング）と呼びます。

標本抽出にはいくつかの方法があります。

方法	説明
単純無作為抽出	母集団からランダムに選ぶ（最も基本的な方法）
層別抽出	母集団をグループ（層）に分け、各層から一定割合で抽出する
多段抽出	まず大きな単位を選び、次にその中から小さな単位を選ぶ（例：都道府県→市区町村→個人）

標本から母集団の特性を推定するためには、標本が母集団を偏りなく代表していることが重要です。

仮説検定

仮説検定は、「データに見られる差や傾向が、偶然ではなく統計的に意味のあるものか」を判断する手法です。

たとえば、新しい広告を出した後に売上が5%増えたとします。これは本当に広告の効果なのか、それとも偶然の変動にすぎないのか——こうした判断を客観的に行うのが仮説検定です。

検定では、有意水準（通常5%や1%）を設定し、それを下回る確率でしか起こらない結果が得られた場合に「統計的に有意である（偶然とは考えにくい）」と判断します。

検定には2種類の誤りがあります。

誤りの種類	説明	例え
第1種の誤り	本当は差がないのに「差がある」と判断してしまう	効果のない薬を「効果あり」と判定
第2種の誤り	本当は差があるのに「差がない」と判断してしまう	効果のある薬を「効果なし」と判定

バイアス（偏り）

データ分析で注意すべき大きな落とし穴がバイアス（偏り）です。

統計的バイアスは、データの収集や分析の過程で生じる偏りです。

選択バイアス: 標本の選び方に偏りがある（例：インターネット調査では高齢者が少なくなりがち）
情報バイアス: 測定や記録の方法に偏りがある（例：自己申告のデータは実際と異なることがある）

認知バイアスは、人間の思考のクセによる偏りです。たとえば「自分に都合のよい情報ばかり集めてしまう（確証バイアス）」などがあります。データ分析では、こうしたバイアスの存在を意識し、できるだけ客観的な判断を心がけることが大切です。

試験で出るポイント

AIの機械学習データにおけるバイアスの問題も近年よく出題されています（2025年問8）。学習データに偏りがあると、AIの判断にも偏りが生じるという点を押さえましょう。

データサイエンスとビッグデータ分析

BI（ビジネスインテリジェンス）

BI（Business Intelligence）とは、企業が蓄積したデータを収集・分析し、経営判断に活用する仕組みやツールの総称です。BIツールを使うと、売上データや顧客データをグラフやダッシュボードで可視化し、迅速な意思決定を支援できます。

データウェアハウスとデータマート

用語	説明
データウェアハウス（DWH）	社内のさまざまなシステムからデータを集約・統合して蓄積する大規模なデータベース
データマート	データウェアハウスから特定の部門やテーマに必要なデータを抽出した、小規模なデータベース
データレイク	構造化・非構造化を問わず、あらゆるデータを加工せずそのまま蓄積する保管場所

データウェアハウスが「きれいに整理された倉庫」だとすると、データレイクは「あらゆるものを原形のまま保管する湖」のようなイメージです。

ETL とデータクレンジング

さまざまなシステムからデータウェアハウスにデータを集める際には、ETLと呼ばれる処理を行います。

Extract（抽出）: 各システムからデータを取り出す
Transform（変換）: 形式やコードを統一する
Load（格納）: データウェアハウスに格納する

ETLの変換過程で行われるデータの品質向上処理をデータクレンジングと呼びます。重複データの削除、表記ゆれの統一、不正確なデータの修正などが含まれます。

データマイニングとテキストマイニング

データマイニングは、大量のデータの中から統計学やAIの手法を使って、隠れたパターンや法則を発見する手法です。「マイニング（mining）」は「採掘」を意味し、データの山から価値ある知見を掘り出すイメージです。

たとえば、スーパーマーケットのPOSデータを分析して「おむつを買う顧客はビールも一緒に買うことが多い」という法則を発見する、といった活用が有名です。

テキストマイニングは、データマイニングの一種で、文章データ（テキスト）を対象にしたものです。コールセンターの通話記録やSNSの投稿から、頻出するキーワードや話題の傾向を抽出するなどの用途があります。

ビッグデータ

ビッグデータとは、従来のデータベースでは扱いきれないほど巨大で多様なデータの集まりです。一般に3つのVで特徴づけられます。

特徴	英語	説明
量	Volume	データ量が膨大
速度	Velocity	データの発生・更新が高速
多様性	Variety	テキスト・画像・センサーデータなど形式が多様

ビッグデータはオープンデータ（政府や自治体が公開するデータ）やパーソナルデータ（個人の行動履歴など）を含み、その活用には個人情報保護やプライバシーへの配慮が不可欠です。

データサイエンティスト

データサイエンティストは、機械学習や統計などの手法を用いてビッグデータを分析し、ビジネスに活用するための新たな知見を導き出す専門家です。

試験で出るポイント

データサイエンティストの役割は「データ分析によるビジネス知見の獲得」です（2024年問26で出題）。システム基盤の構築やセキュリティの支援とは区別しましょう。