データ分析
データ分析とは
Section titled “データ分析とは”データベースを作るとき、いきなりデータベースソフトを操作し始めるわけではありません。まず「どんなデータが必要か」「データ同士にどんな関係があるか」を整理する作業が必要です。この最初のステップがデータ分析です。
データ分析は、データベース設計の出発点に位置づけられます。業務で使われるデータを洗い出し、それぞれの項目がどのように関連しているかを明らかにすることで、あとの設計工程をスムーズに進められるようになります。
試験で出るポイント
「データ分析」という言葉は、BI(ビジネスインテリジェンス)やデータマイニングのような”データを使って傾向を見つける活動”と混同しやすいため注意が必要です。ここでいうデータ分析は、あくまでデータベース設計の準備段階で行う作業であり、「必要なデータ項目を洗い出し、項目間の関連を整理すること」を指します。
データの洗い出しと整理
Section titled “データの洗い出しと整理”データ分析の中心となるのが、データの洗い出しと整理です。業務で実際に使われている帳票や画面、伝票などを調べ、どんなデータ項目が必要かを一つひとつ拾い上げていきます。
たとえば、書店の販売管理システムを作る場合を考えてみましょう。
- 業務フローを確認する ── 注文を受ける → 在庫を確認する → 販売する → 売上を記録する、といった流れを把握します。
- 帳票や伝票を集める ── 注文書、納品書、レシートなどから、実際に使われているデータ項目(書籍名、ISBN、価格、数量、顧客名、販売日など)を洗い出します。
- 項目間の関連を整理する ── 「一人の顧客は複数の注文を行う」「一つの注文には複数の書籍が含まれる」といった関係を明らかにします。
このように、業務の現場で使われているデータを漏れなく拾い上げ、項目同士のつながりを整理することが、データ分析の目的です。
データの結合
Section titled “データの結合”業務では、同じ種類の情報が複数の場所に散らばっていることがよくあります。たとえば、営業部門が持つ顧客リストと、経理部門が持つ請求先リストに、同じ顧客の情報が別々に管理されているケースです。
データの結合とは、こうした複数の情報源に分散しているデータを一つにまとめる作業です。結合によって、それぞれのデータが持つ情報を組み合わせ、より完全で使いやすいデータを作ることができます。
| 結合前 | 結合後 |
|---|---|
| 営業部の顧客リスト(顧客名、電話番号) | 統合顧客リスト(顧客名、電話番号、請求先住所、取引金額) |
| 経理部の請求先リスト(顧客名、請求先住所、取引金額) |
結合の際には、同じ顧客を正しく対応づける「キー」(たとえば顧客コード)が必要になります。キーがなければ、名前の表記ゆれ(「(株)ABC」と「株式会社ABC」など)によって同一データを別のものと扱ってしまう恐れがあります。
データクレンジング
Section titled “データクレンジング”データを集めて結合しただけでは、まだ品質が十分とは言えません。現実のデータには、重複・誤記・表記のばらつきなど、さまざまな問題が含まれています。こうした問題を修正し、データの品質を高める作業がデータクレンジングです。
データクレンジングで修正する問題の例を見てみましょう。
| 問題の種類 | 具体例 | 修正内容 |
|---|---|---|
| 重複 | 同じ顧客が2件登録されている | 1件に統合する |
| 誤記・入力ミス | 電話番号の桁数が足りない | 正しい値に修正する |
| 表記のばらつき | 「東京都」と「東京」が混在 | 表記ルールを決めて統一する |
| 欠損 | 住所欄が空欄になっている | 可能な範囲で補完する |
データクレンジングを行うことで、データベースに格納するデータの正確性と一貫性が確保され、あとから検索や集計を行うときに正しい結果が得られるようになります。
試験で出るポイント
データクレンジングは「データの品質を高めるために、重複や誤りを修正・統一する作業」と押さえておきましょう。また、データ分析の流れとして「洗い出し → 結合 → クレンジング → 設計へ」という順序をイメージしておくと、選択肢の判断がしやすくなります。
過去問で実力チェック
Section titled “過去問で実力チェック”過去問に挑戦
Q. データベース設計におけるデータ分析で行うこととして,適切なものはどれか。
- ア データウェアハウスから業務ごとに必要な情報を抽出する。
- イ データ項目の内容が,指定された条件を満足する行だけを抽出する。
- ウ 必要なデータ項目を洗い出し,項目間の関連を整理する。
- エ 膨大な情報から統計的手法などを用いて,ビジネスに活用できる情報を探索する。
解答(令和7年)
正解: ウ