データ利活用
ビジネスにおいてデータの重要性はますます高まっています。しかし、データはただ集めるだけでは役に立ちません。目的に合ったデータを集め、適切に前処理し、正しい手法で分析してはじめて、業務改善や意思決定に活かすことができます。この章では、データの種類と前処理、統計の基礎知識、そしてデータを活用するための手法と仕組みを学びます。
この章の位置づけ: ここでは「ビジネスでデータをどう集め、どう活用するか」に重点を置きます。平均値・標準偏差・相関・回帰分析の数理そのものを整理したいときは 確率と統計、業務改善で使う分析手法や図表の使い分けを学びたいときは 業務分析と業務計画 も合わせて確認してください。
データの種類と前処理
Section titled “データの種類と前処理”データの分類
Section titled “データの分類”データにはさまざまな分類の切り口があります。それぞれの違いを理解しておくことで、適切な収集方法や分析手法を選べるようになります。
収集方法による分類
Section titled “収集方法による分類”| 分類 | 説明 | 例 |
|---|---|---|
| 調査データ | アンケートや聞き取りなど、意図的に集めたデータ | 顧客満足度調査の回答 |
| 実験データ | 条件を制御した実験から得られるデータ | 新商品のA/Bテスト結果 |
| 行動ログデータ | 人やシステムの活動が自動記録されたデータ | Webサイトの閲覧履歴、機械の稼働ログ |
一次データと二次データ
Section titled “一次データと二次データ”| 分類 | 説明 | 例 |
|---|---|---|
| 1次データ | 自分(自社)が目的に合わせて直接収集したデータ | 自社で実施したアンケート結果 |
| 2次データ | 他者がすでに収集・公開しているデータ | 政府の統計データ、業界レポート |
1次データは目的に合った情報を得やすい反面、収集にコストと時間がかかります。2次データは手軽に入手できますが、自社の目的に完全には合わない場合があります。
量的データと質的データ
Section titled “量的データと質的データ”| 分類 | 説明 | 例 |
|---|---|---|
| 量的データ | 数値で表され、計算が可能なデータ | 売上高、気温、年齢 |
| 質的データ | カテゴリや種類を表すデータ(数値で計算しても意味がない) | 性別、血液型、都道府県 |
たとえば「顧客の年齢」は量的データですが、「顧客の職業」は質的データです。量的データには平均値や合計が使え、質的データには度数(件数)や割合が使えます。
試験で出るポイント
量的データと質的データの区別は基本中の基本です。「数値で計算して意味があるか」で判断しましょう。アンケートの5段階評価のように、数値に見えても本質的には質的データである場合もあります。
構造化データと非構造化データ
Section titled “構造化データと非構造化データ”| 分類 | 説明 | 例 |
|---|---|---|
| 構造化データ | 表形式で整理され、行と列で管理できるデータ | データベースの売上テーブル、CSVファイル |
| 非構造化データ | 一定の形式に収まらない自由形式のデータ | メール本文、画像、動画、SNSの投稿 |
企業が扱うデータの大部分は非構造化データだといわれています。近年は、AIやテキストマイニングの技術によって、非構造化データからも有用な情報を引き出せるようになりました。
メタデータとは、「データに関するデータ」のことです。たとえば、デジタル写真のファイルには、撮影日時・撮影場所・カメラの設定情報といったメタデータが含まれています。メタデータは、大量のデータを整理・検索する際に重要な役割を果たします。
時系列データとクロスセクションデータ
Section titled “時系列データとクロスセクションデータ”| 分類 | 説明 | 例 |
|---|---|---|
| 時系列データ | 同じ対象を時間の経過に沿って記録したデータ | ある店舗の月別売上推移 |
| クロスセクションデータ | ある時点での複数の対象を比較するデータ | 全店舗の今月の売上一覧 |
データの前処理
Section titled “データの前処理”収集したデータはそのままでは分析に使えないことが多く、分析の前に前処理が必要です。
| 前処理 | 説明 |
|---|---|
| 名寄せ | 同一の人物や企業が異なる表記で登録されているデータを統合する(例:「(株)ABC」と「ABC株式会社」を同一企業としてまとめる) |
| 外れ値・異常値の処理 | 明らかに不自然な値(入力ミスなど)を検出し、除外や修正を行う |
| 欠損値の処理 | データが欠けている箇所を、平均値で補完したり、そのレコードを除外したりする |
| アノテーション | AIの学習に使うデータに、正解ラベル(タグ)を付与する作業 |
前処理はデータ分析の作業時間の大部分を占めるといわれており、分析結果の品質を大きく左右します。
統計の基礎知識
Section titled “統計の基礎知識”母集団と標本抽出
Section titled “母集団と標本抽出”データ分析では、調べたい対象全体を母集団と呼びます。しかし、母集団すべてを調査する全数調査(例:国勢調査)はコストが大きいため、通常は母集団の一部を抜き出して調査します。この抜き出したデータを標本、抜き出す行為を標本抽出(サンプリング)と呼びます。
標本抽出にはいくつかの方法があります。
| 方法 | 説明 |
|---|---|
| 単純無作為抽出 | 母集団からランダムに選ぶ(最も基本的な方法) |
| 層別抽出 | 母集団をグループ(層)に分け、各層から一定割合で抽出する |
| 多段抽出 | まず大きな単位を選び、次にその中から小さな単位を選ぶ(例:都道府県→市区町村→個人) |
標本から母集団の特性を推定するためには、標本が母集団を偏りなく代表していることが重要です。
仮説検定は、「データに見られる差や傾向が、偶然ではなく統計的に意味のあるものか」を判断する手法です。
たとえば、新しい広告を出した後に売上が5%増えたとします。これは本当に広告の効果なのか、それとも偶然の変動にすぎないのか——こうした判断を客観的に行うのが仮説検定です。
検定では、有意水準(通常5%や1%)を設定し、それを下回る確率でしか起こらない結果が得られた場合に「統計的に有意である(偶然とは考えにくい)」と判断します。
検定には2種類の誤りがあります。
| 誤りの種類 | 説明 | 例え |
|---|---|---|
| 第1種の誤り | 本当は差がないのに「差がある」と判断してしまう | 効果のない薬を「効果あり」と判定 |
| 第2種の誤り | 本当は差があるのに「差がない」と判断してしまう | 効果のある薬を「効果なし」と判定 |
バイアス(偏り)
Section titled “バイアス(偏り)”データ分析で注意すべき大きな落とし穴がバイアス(偏り)です。
統計的バイアスは、データの収集や分析の過程で生じる偏りです。
- 選択バイアス: 標本の選び方に偏りがある(例:インターネット調査では高齢者が少なくなりがち)
- 情報バイアス: 測定や記録の方法に偏りがある(例:自己申告のデータは実際と異なることがある)
認知バイアスは、人間の思考のクセによる偏りです。たとえば「自分に都合のよい情報ばかり集めてしまう(確証バイアス)」などがあります。データ分析では、こうしたバイアスの存在を意識し、できるだけ客観的な判断を心がけることが大切です。
試験で出るポイント
AIの機械学習データにおけるバイアスの問題も近年よく出題されています(2025年 問8)。学習データに偏りがあると、AIの判断にも偏りが生じるという点を押さえましょう。
データサイエンスとビッグデータ分析
Section titled “データサイエンスとビッグデータ分析”BI(ビジネスインテリジェンス)
Section titled “BI(ビジネスインテリジェンス)”BI(Business Intelligence)とは、企業が蓄積したデータを収集・分析し、経営判断に活用する仕組みやツールの総称です。BIツールを使うと、売上データや顧客データをパレート図や散布図などのグラフやダッシュボードで可視化し、迅速な意思決定を支援できます。
データウェアハウスとデータマート
Section titled “データウェアハウスとデータマート”| 用語 | 説明 |
|---|---|
| データウェアハウス(DWH) | 社内のさまざまなシステムからデータを集約・統合して蓄積する大規模なデータベース |
| データマート | データウェアハウスから特定の部門やテーマに必要なデータを抽出した、小規模なデータベース |
| データレイク | 構造化・非構造化を問わず、あらゆるデータを加工せずそのまま蓄積する保管場所 |
データウェアハウスが「きれいに整理された倉庫」だとすると、データレイクは「あらゆるものを原形のまま保管する湖」のようなイメージです。
graph LR
subgraph SRC["業務システム群"]
S1["販売システム"]:::base
S2["在庫システム"]:::base
S3["顧客管理<br>システム"]:::base
end
ETL["ETL処理<br>(抽出→変換→格納)"]:::primary
S1 --> ETL
S2 --> ETL
S3 --> ETL
DWH["データウェア<br>ハウス(DWH)"]:::primary
ETL --> DWH
DM1["営業部門用<br>データマート"]:::base
DM2["マーケティング<br>部門用データマート"]:::base
DWH --> DM1
DWH --> DM2
DL["データレイク<br>(生データのまま蓄積)"]:::alert
S1 -.-> DL
S2 -.-> DL
S3 -.-> DL
classDef base fill:#f8fafc,stroke:#94a3b8,stroke-width:1px,color:#333;
classDef primary fill:#eff6ff,stroke:#2563eb,stroke-width:2px,color:#1e40af;
classDef alert fill:#fef2f2,stroke:#dc2626,stroke-width:2px,color:#991b1b;
ETL とデータクレンジング
Section titled “ETL とデータクレンジング”さまざまなシステムからデータウェアハウスにデータを集める際には、ETLと呼ばれる処理を行います。
- Extract(抽出): 各システムからデータを取り出す
- Transform(変換): 形式やコードを統一する
- Load(格納): データウェアハウスに格納する
ETLの変換過程で行われるデータの品質向上処理をデータクレンジングと呼びます。重複データの削除、表記ゆれの統一、不正確なデータの修正などが含まれます。
データマイニングとテキストマイニング
Section titled “データマイニングとテキストマイニング”データマイニングは、大量のデータの中から統計学やAIの手法を使って、隠れたパターンや法則を発見する手法です。「マイニング(mining)」は「採掘」を意味し、データの山から価値ある知見を掘り出すイメージです。
たとえば、スーパーマーケットのPOSデータを分析して「おむつを買う顧客はビールも一緒に買うことが多い」という法則を発見する、といった活用が有名です。
テキストマイニングは、データマイニングの一種で、文章データ(テキスト)を対象にしたものです。コールセンターの通話記録やSNSの投稿から、頻出するキーワードや話題の傾向を抽出するなどの用途があります。
ビッグデータ
Section titled “ビッグデータ”ビッグデータとは、従来のデータベースでは扱いきれないほど巨大で多様なデータの集まりです。一般に3つのVで特徴づけられます。
| 特徴 | 英語 | 説明 |
|---|---|---|
| 量 | Volume | データ量が膨大 |
| 速度 | Velocity | データの発生・更新が高速 |
| 多様性 | Variety | テキスト・画像・センサーデータなど形式が多様 |
ビッグデータはオープンデータ(政府や自治体が公開するデータ)やパーソナルデータ(個人の行動履歴など)を含み、その活用には個人情報保護やプライバシーへの配慮が不可欠です。
データサイエンティスト
Section titled “データサイエンティスト”データサイエンティストは、機械学習や統計などの手法を用いてビッグデータを分析し、ビジネスに活用するための新たな知見を導き出す専門家です。
試験で出るポイント
データサイエンティストの役割は「データ分析によるビジネス知見の獲得」です(2024年 問26で出題)。システム基盤の構築やセキュリティの支援とは区別しましょう。
過去問で実力チェック
Section titled “過去問で実力チェック”過去問に挑戦
Q. AIの活用領域の一つである自然言語処理が利用されている事例として,適切なものだけを全て挙げたものはどれか。
a Webサイト上で,日本語の文章を入力すると即座に他言語に翻訳される。
b 災害時にSNSに投稿された文字情報をリアルタイムで収集し,地名と災害情報などを解析して被災状況を把握する。
c スマートスピーカーを利用して,音声によって家電の操作や音楽の再生を行う。
d 駐車場の出入口に設置したカメラでナンバープレートを撮影して,文字認識処理をし,精算済みの車両がゲートに近付くと自動で開く。
- ア a,b,c
- イ a,b,d
- ウ a,c,d
- エ b,c,d
解答(令和5年)
正解: ア
Q. データサイエンティストの役割に関する記述として,最も適切なものはどれか。
- ア 機械学習や統計などの手法を用いてビッグデータを解析することによって,ビジネスに活用するための新たな知見を獲得する。
- イ 企業が保有する膨大なデータを高速に検索できるように,パフォーマンスの高いデータベースを運用するためのシステム基盤を構築する。
- ウ 企業における情報システムに関するリスクを評価するために,現場でのデータの取扱いや管理についての実態を調査する。
- エ 企業や組織における安全な情報システムの企画,設計,開発,運用を,サイバーセキュリティに関する専門的な知識や技能を活用して支援する。
解答(令和6年)
正解: ア
Q. AIの機械学習で利用するデータの取扱いに関する記述のうち,バイアスの低減やデータの品質を確保するために考えられる対策として,適切なものだけを全て挙げたものはどれか。
a 学習の目的に適したデータであることを確認する。
b データの入手元 作成来歴を確認する。
c データへのアノテーションの付与は学習目的に合わせて実施する。
d 人間の目でも同定が困難と考えられる画像認識用のデータは除外する。
- ア a,b
- イ a,b,c,d
- ウ a,d
- エ b,c,d
解答(令和7年)
正解: イ
Q. 営業部のAさんは,営業担当者10人の営業成績が一目で分かるように,各営業担当者が提出する営業見込みと実績を毎月集約してグラフ化したいと考えている。この問題を解決するために適用する技術やツールとして,最も適切なものはどれか。
- ア データを学習し,分析するAI
- イ データを自動収集し,データベースに蓄積するIoT
- ウ 入力したデータを,加工して見せるオフィスツール
- エ ビッグデータを,様々な手法で分析するデータサイエンス
解答(令和7年)
正解: ウ