コンテンツにスキップ

データ利活用

ビジネスにおいてデータの重要性はますます高まっています。しかし、データはただ集めるだけでは役に立ちません。目的に合ったデータを集め、適切に前処理し、正しい手法で分析してはじめて、業務改善や意思決定に活かすことができます。この章では、データの種類と前処理、統計の基礎知識、そしてデータを活用するための手法と仕組みを学びます。

データにはさまざまな分類の切り口があります。それぞれの違いを理解しておくことで、適切な収集方法や分析手法を選べるようになります。

分類説明
調査データアンケートや聞き取りなど、意図的に集めたデータ顧客満足度調査の回答
実験データ条件を制御した実験から得られるデータ新商品のA/Bテスト結果
行動ログデータ人やシステムの活動が自動記録されたデータWebサイトの閲覧履歴、機械の稼働ログ
分類説明
1次データ自分(自社)が目的に合わせて直接収集したデータ自社で実施したアンケート結果
2次データ他者がすでに収集・公開しているデータ政府の統計データ、業界レポート

1次データは目的に合った情報を得やすい反面、収集にコストと時間がかかります。2次データは手軽に入手できますが、自社の目的に完全には合わない場合があります。

分類説明
量的データ数値で表され、計算が可能なデータ売上高、気温、年齢
質的データカテゴリや種類を表すデータ(数値で計算しても意味がない)性別、血液型、都道府県

たとえば「顧客の年齢」は量的データですが、「顧客の職業」は質的データです。量的データには平均値や合計が使え、質的データには度数(件数)や割合が使えます。

試験で出るポイント

量的データと質的データの区別は基本中の基本です。「数値で計算して意味があるか」で判断しましょう。アンケートの5段階評価のように、数値に見えても本質的には質的データである場合もあります。

構造化データと非構造化データ

Section titled “構造化データと非構造化データ”
分類説明
構造化データ表形式で整理され、行と列で管理できるデータデータベースの売上テーブル、CSVファイル
非構造化データ一定の形式に収まらない自由形式のデータメール本文、画像、動画、SNSの投稿

企業が扱うデータの大部分は非構造化データだといわれています。近年は、AIやテキストマイニングの技術によって、非構造化データからも有用な情報を引き出せるようになりました。

メタデータとは、「データに関するデータ」のことです。たとえば、デジタル写真のファイルには、撮影日時・撮影場所・カメラの設定情報といったメタデータが含まれています。メタデータは、大量のデータを整理・検索する際に重要な役割を果たします。

時系列データとクロスセクションデータ

Section titled “時系列データとクロスセクションデータ”
分類説明
時系列データ同じ対象を時間の経過に沿って記録したデータある店舗の月別売上推移
クロスセクションデータある時点での複数の対象を比較するデータ全店舗の今月の売上一覧

収集したデータはそのままでは分析に使えないことが多く、分析の前に前処理が必要です。

前処理説明
名寄せ同一の人物や企業が異なる表記で登録されているデータを統合する(例:「(株)ABC」と「ABC株式会社」を同一企業としてまとめる)
外れ値・異常値の処理明らかに不自然な値(入力ミスなど)を検出し、除外や修正を行う
欠損値の処理データが欠けている箇所を、平均値で補完したり、そのレコードを除外したりする
アノテーションAIの学習に使うデータに、正解ラベル(タグ)を付与する作業

前処理はデータ分析の作業時間の大部分を占めるといわれており、分析結果の品質を大きく左右します。

データ分析では、調べたい対象全体を母集団と呼びます。しかし、母集団すべてを調査する全数調査(例:国勢調査)はコストが大きいため、通常は母集団の一部を抜き出して調査します。この抜き出したデータを標本、抜き出す行為を標本抽出(サンプリング)と呼びます。

標本抽出にはいくつかの方法があります。

方法説明
単純無作為抽出母集団からランダムに選ぶ(最も基本的な方法)
層別抽出母集団をグループ(層)に分け、各層から一定割合で抽出する
多段抽出まず大きな単位を選び、次にその中から小さな単位を選ぶ(例:都道府県→市区町村→個人)

標本から母集団の特性を推定するためには、標本が母集団を偏りなく代表していることが重要です。

仮説検定は、「データに見られる差や傾向が、偶然ではなく統計的に意味のあるものか」を判断する手法です。

たとえば、新しい広告を出した後に売上が5%増えたとします。これは本当に広告の効果なのか、それとも偶然の変動にすぎないのか——こうした判断を客観的に行うのが仮説検定です。

検定では、有意水準(通常5%や1%)を設定し、それを下回る確率でしか起こらない結果が得られた場合に「統計的に有意である(偶然とは考えにくい)」と判断します。

検定には2種類の誤りがあります。

誤りの種類説明例え
第1種の誤り本当は差がないのに「差がある」と判断してしまう効果のない薬を「効果あり」と判定
第2種の誤り本当は差があるのに「差がない」と判断してしまう効果のある薬を「効果なし」と判定

データ分析で注意すべき大きな落とし穴がバイアス(偏り)です。

統計的バイアスは、データの収集や分析の過程で生じる偏りです。

  • 選択バイアス: 標本の選び方に偏りがある(例:インターネット調査では高齢者が少なくなりがち)
  • 情報バイアス: 測定や記録の方法に偏りがある(例:自己申告のデータは実際と異なることがある)

認知バイアスは、人間の思考のクセによる偏りです。たとえば「自分に都合のよい情報ばかり集めてしまう(確証バイアス)」などがあります。データ分析では、こうしたバイアスの存在を意識し、できるだけ客観的な判断を心がけることが大切です。

試験で出るポイント

AIの機械学習データにおけるバイアスの問題も近年よく出題されています(2025年 問8)。学習データに偏りがあると、AIの判断にも偏りが生じるという点を押さえましょう。

データサイエンスとビッグデータ分析

Section titled “データサイエンスとビッグデータ分析”

BI(ビジネスインテリジェンス)

Section titled “BI(ビジネスインテリジェンス)”

BI(Business Intelligence)とは、企業が蓄積したデータを収集・分析し、経営判断に活用する仕組みやツールの総称です。BIツールを使うと、売上データや顧客データをグラフやダッシュボードで可視化し、迅速な意思決定を支援できます。

データウェアハウスとデータマート

Section titled “データウェアハウスとデータマート”
用語説明
データウェアハウス(DWH)社内のさまざまなシステムからデータを集約・統合して蓄積する大規模なデータベース
データマートデータウェアハウスから特定の部門やテーマに必要なデータを抽出した、小規模なデータベース
データレイク構造化・非構造化を問わず、あらゆるデータを加工せずそのまま蓄積する保管場所

データウェアハウスが「きれいに整理された倉庫」だとすると、データレイクは「あらゆるものを原形のまま保管する湖」のようなイメージです。

さまざまなシステムからデータウェアハウスにデータを集める際には、ETLと呼ばれる処理を行います。

  • Extract(抽出): 各システムからデータを取り出す
  • Transform(変換): 形式やコードを統一する
  • Load(格納): データウェアハウスに格納する

ETLの変換過程で行われるデータの品質向上処理をデータクレンジングと呼びます。重複データの削除、表記ゆれの統一、不正確なデータの修正などが含まれます。

データマイニングとテキストマイニング

Section titled “データマイニングとテキストマイニング”

データマイニングは、大量のデータの中から統計学やAIの手法を使って、隠れたパターンや法則を発見する手法です。「マイニング(mining)」は「採掘」を意味し、データの山から価値ある知見を掘り出すイメージです。

たとえば、スーパーマーケットのPOSデータを分析して「おむつを買う顧客はビールも一緒に買うことが多い」という法則を発見する、といった活用が有名です。

テキストマイニングは、データマイニングの一種で、文章データ(テキスト)を対象にしたものです。コールセンターの通話記録やSNSの投稿から、頻出するキーワードや話題の傾向を抽出するなどの用途があります。

ビッグデータとは、従来のデータベースでは扱いきれないほど巨大で多様なデータの集まりです。一般に3つのVで特徴づけられます。

特徴英語説明
Volumeデータ量が膨大
速度Velocityデータの発生・更新が高速
多様性Varietyテキスト・画像・センサーデータなど形式が多様

ビッグデータはオープンデータ(政府や自治体が公開するデータ)やパーソナルデータ(個人の行動履歴など)を含み、その活用には個人情報保護やプライバシーへの配慮が不可欠です。

データサイエンティストは、機械学習や統計などの手法を用いてビッグデータを分析し、ビジネスに活用するための新たな知見を導き出す専門家です。

試験で出るポイント

データサイエンティストの役割は「データ分析によるビジネス知見の獲得」です(2024年 問26で出題)。システム基盤の構築やセキュリティの支援とは区別しましょう。

アプリで問題を解こう!