データ利活用
ビジネスにおいてデータの重要性はますます高まっています。しかし、データはただ集めるだけでは役に立ちません。目的に合ったデータを集め、適切に前処理し、正しい手法で分析してはじめて、業務改善や意思決定に活かすことができます。この章では、データの種類と前処理、統計の基礎知識、そしてデータを活用するための手法と仕組みを学びます。
データの種類と前処理
Section titled “データの種類と前処理”データの分類
Section titled “データの分類”データにはさまざまな分類の切り口があります。それぞれの違いを理解しておくことで、適切な収集方法や分析手法を選べるようになります。
収集方法による分類
Section titled “収集方法による分類”| 分類 | 説明 | 例 |
|---|---|---|
| 調査データ | アンケートや聞き取りなど、意図的に集めたデータ | 顧客満足度調査の回答 |
| 実験データ | 条件を制御した実験から得られるデータ | 新商品のA/Bテスト結果 |
| 行動ログデータ | 人やシステムの活動が自動記録されたデータ | Webサイトの閲覧履歴、機械の稼働ログ |
一次データと二次データ
Section titled “一次データと二次データ”| 分類 | 説明 | 例 |
|---|---|---|
| 1次データ | 自分(自社)が目的に合わせて直接収集したデータ | 自社で実施したアンケート結果 |
| 2次データ | 他者がすでに収集・公開しているデータ | 政府の統計データ、業界レポート |
1次データは目的に合った情報を得やすい反面、収集にコストと時間がかかります。2次データは手軽に入手できますが、自社の目的に完全には合わない場合があります。
量的データと質的データ
Section titled “量的データと質的データ”| 分類 | 説明 | 例 |
|---|---|---|
| 量的データ | 数値で表され、計算が可能なデータ | 売上高、気温、年齢 |
| 質的データ | カテゴリや種類を表すデータ(数値で計算しても意味がない) | 性別、血液型、都道府県 |
たとえば「顧客の年齢」は量的データですが、「顧客の職業」は質的データです。量的データには平均値や合計が使え、質的データには度数(件数)や割合が使えます。
試験で出るポイント
構造化データと非構造化データ
Section titled “構造化データと非構造化データ”| 分類 | 説明 | 例 |
|---|---|---|
| 構造化データ | 表形式で整理され、行と列で管理できるデータ | データベースの売上テーブル、CSVファイル |
| 非構造化データ | 一定の形式に収まらない自由形式のデータ | メール本文、画像、動画、SNSの投稿 |
企業が扱うデータの大部分は非構造化データだといわれています。近年は、AIやテキストマイニングの技術によって、非構造化データからも有用な情報を引き出せるようになりました。
メタデータとは、「データに関するデータ」のことです。たとえば、デジタル写真のファイルには、撮影日時・撮影場所・カメラの設定情報といったメタデータが含まれています。メタデータは、大量のデータを整理・検索する際に重要な役割を果たします。
時系列データとクロスセクションデータ
Section titled “時系列データとクロスセクションデータ”| 分類 | 説明 | 例 |
|---|---|---|
| 時系列データ | 同じ対象を時間の経過に沿って記録したデータ | ある店舗の月別売上推移 |
| クロスセクションデータ | ある時点での複数の対象を比較するデータ | 全店舗の今月の売上一覧 |
データの前処理
Section titled “データの前処理”収集したデータはそのままでは分析に使えないことが多く、分析の前に前処理が必要です。
| 前処理 | 説明 |
|---|---|
| 名寄せ | 同一の人物や企業が異なる表記で登録されているデータを統合する(例:「(株)ABC」と「ABC株式会社」を同一企業としてまとめる) |
| 外れ値・異常値の処理 | 明らかに不自然な値(入力ミスなど)を検出し、除外や修正を行う |
| 欠損値の処理 | データが欠けている箇所を、平均値で補完したり、そのレコードを除外したりする |
| アノテーション | AIの学習に使うデータに、正解ラベル(タグ)を付与する作業 |
前処理はデータ分析の作業時間の大部分を占めるといわれており、分析結果の品質を大きく左右します。
統計の基礎知識
Section titled “統計の基礎知識”母集団と標本抽出
Section titled “母集団と標本抽出”データ分析では、調べたい対象全体を母集団と呼びます。しかし、母集団すべてを調査する全数調査(例:国勢調査)はコストが大きいため、通常は母集団の一部を抜き出して調査します。この抜き出したデータを標本、抜き出す行為を標本抽出(サンプリング)と呼びます。
標本抽出にはいくつかの方法があります。
| 方法 | 説明 |
|---|---|
| 単純無作為抽出 | 母集団からランダムに選ぶ(最も基本的な方法) |
| 層別抽出 | 母集団をグループ(層)に分け、各層から一定割合で抽出する |
| 多段抽出 | まず大きな単位を選び、次にその中から小さな単位を選ぶ(例:都道府県→市区町村→個人) |
標本から母集団の特性を推定するためには、標本が母集団を偏りなく代表していることが重要です。
仮説検定は、「データに見られる差や傾向が、偶然ではなく統計的に意味のあるものか」を判断する手法です。
たとえば、新しい広告を出した後に売上が5%増えたとします。これは本当に広告の効果なのか、それとも偶然の変動にすぎないのか——こうした判断を客観的に行うのが仮説検定です。
検定では、有意水準(通常5%や1%)を設定し、それを下回る確率でしか起こらない結果が得られた場合に「統計的に有意である(偶然とは考えにくい)」と判断します。
検定には2種類の誤りがあります。
| 誤りの種類 | 説明 | 例え |
|---|---|---|
| 第1種の誤り | 本当は差がないのに「差がある」と判断してしまう | 効果のない薬を「効果あり」と判定 |
| 第2種の誤り | 本当は差があるのに「差がない」と判断してしまう | 効果のある薬を「効果なし」と判定 |
バイアス(偏り)
Section titled “バイアス(偏り)”データ分析で注意すべき大きな落とし穴がバイアス(偏り)です。
統計的バイアスは、データの収集や分析の過程で生じる偏りです。
- 選択バイアス: 標本の選び方に偏りがある(例:インターネット調査では高齢者が少なくなりがち)
- 情報バイアス: 測定や記録の方法に偏りがある(例:自己申告のデータは実際と異なることがある)
認知バイアスは、人間の思考のクセによる偏りです。たとえば「自分に都合のよい情報ばかり集めてしまう(確証バイアス)」などがあります。データ分析では、こうしたバイアスの存在を意識し、できるだけ客観的な判断を心がけることが大切です。
試験で出るポイント
データサイエンスとビッグデータ分析
Section titled “データサイエンスとビッグデータ分析”BI(ビジネスインテリジェンス)
Section titled “BI(ビジネスインテリジェンス)”BI(Business Intelligence)とは、企業が蓄積したデータを収集・分析し、経営判断に活用する仕組みやツールの総称です。BIツールを使うと、売上データや顧客データをグラフやダッシュボードで可視化し、迅速な意思決定を支援できます。
データウェアハウスとデータマート
Section titled “データウェアハウスとデータマート”| 用語 | 説明 |
|---|---|
| データウェアハウス(DWH) | 社内のさまざまなシステムからデータを集約・統合して蓄積する大規模なデータベース |
| データマート | データウェアハウスから特定の部門やテーマに必要なデータを抽出した、小規模なデータベース |
| データレイク | 構造化・非構造化を問わず、あらゆるデータを加工せずそのまま蓄積する保管場所 |
データウェアハウスが「きれいに整理された倉庫」だとすると、データレイクは「あらゆるものを原形のまま保管する湖」のようなイメージです。
ETL とデータクレンジング
Section titled “ETL とデータクレンジング”さまざまなシステムからデータウェアハウスにデータを集める際には、ETLと呼ばれる処理を行います。
- Extract(抽出): 各システムからデータを取り出す
- Transform(変換): 形式やコードを統一する
- Load(格納): データウェアハウスに格納する
ETLの変換過程で行われるデータの品質向上処理をデータクレンジングと呼びます。重複データの削除、表記ゆれの統一、不正確なデータの修正などが含まれます。
データマイニングとテキストマイニング
Section titled “データマイニングとテキストマイニング”データマイニングは、大量のデータの中から統計学やAIの手法を使って、隠れたパターンや法則を発見する手法です。「マイニング(mining)」は「採掘」を意味し、データの山から価値ある知見を掘り出すイメージです。
たとえば、スーパーマーケットのPOSデータを分析して「おむつを買う顧客はビールも一緒に買うことが多い」という法則を発見する、といった活用が有名です。
テキストマイニングは、データマイニングの一種で、文章データ(テキスト)を対象にしたものです。コールセンターの通話記録やSNSの投稿から、頻出するキーワードや話題の傾向を抽出するなどの用途があります。
ビッグデータ
Section titled “ビッグデータ”ビッグデータとは、従来のデータベースでは扱いきれないほど巨大で多様なデータの集まりです。一般に3つのVで特徴づけられます。
| 特徴 | 英語 | 説明 |
|---|---|---|
| 量 | Volume | データ量が膨大 |
| 速度 | Velocity | データの発生・更新が高速 |
| 多様性 | Variety | テキスト・画像・センサーデータなど形式が多様 |
ビッグデータはオープンデータ(政府や自治体が公開するデータ)やパーソナルデータ(個人の行動履歴など)を含み、その活用には個人情報保護やプライバシーへの配慮が不可欠です。
データサイエンティスト
Section titled “データサイエンティスト”データサイエンティストは、機械学習や統計などの手法を用いてビッグデータを分析し、ビジネスに活用するための新たな知見を導き出す専門家です。
試験で出るポイント