コンテンツにスキップ

数値計算・数値解析・数式処理

コンピュータは大量のデータを高速に計算・分析できる強力なツールです。しかし、正しい結果を得るには「何を」「どのように」計算するかを理解しておく必要があります。この章では、データの集計や比較の基本的な方法、数学的な計算の考え方、そしてデータに含まれる誤差の扱いについて学びます。

データ分析の第一歩は、集めたデータを集計して全体像を把握することです。集計の基本操作には次のようなものがあります。

操作説明
データの合計を求める月別売上の合計
平均データの合計をデータ数で割るテストの平均点
最大値・最小値データの中で最も大きい値・小さい値最高気温・最低気温
件数データの個数を数える来店客数

データの並べ替えとランキング

Section titled “データの並べ替えとランキング”

並べ替え(ソート)は、データを特定の基準で順序よく並べる操作です。小さい順に並べることを昇順、大きい順に並べることを降順と呼びます。

ランキングは、並べ替えた結果に順位を付けることです。たとえば、テストの得点を降順に並べて1位、2位、3位…と順位を付けることがランキングです。同じ値がある場合の順位の付け方(同率順位の扱い)にはいくつかの方法があります。

データを比較するときは、条件をそろえて比較することが大切です。条件がそろっていない比較では、正しい結論を導くことができません。

たとえば、2つの肥料の効果を比較する実験では、肥料以外の条件(日照、水やりの量、土壌など)をすべて同じにして、肥料の違いだけが結果に反映されるようにします。このように、比較したい要因以外の条件を統一することが重要です。

システムの改善や施策の効果を測るときには、処理の前後でデータを比較します。たとえば、Webサイトの改修前と改修後のアクセス数を比較して、改修の効果を検証するといった場面です。

データを正しく扱うには、データが持つ性質を理解する必要があります。データの性質は尺度(スケール)によって分類され、4つの種類があります。

尺度説明できる操作
名義尺度分類のためだけの区別血液型(A, B, O, AB)、性別同じかどうかの判定
順序尺度順番・大小関係がある学年(1年, 2年, 3年)、満足度(高・中・低)大小比較
間隔尺度値の差(間隔)に意味がある時刻、気温(℃)加減算
比例尺度値の比に意味がある(絶対的な0がある)身長、体重、金額、睡眠時間四則演算すべて

4つの尺度は「名義 → 順序 → 間隔 → 比例」の順に扱える操作が増えていきます。

間隔尺度比例尺度の違いは、「0」に絶対的な意味があるかどうかです。気温0℃は「熱がない」わけではなく、温度の一つの点にすぎません(0℃ × 2 = 0℃ は意味をなさない)。一方、体重0kgは「重さがない」ことを意味し、「60kgは30kgの2倍の重さ」と言えます。

試験で出るポイント

尺度の種類を問う問題では、具体例が示されて「これは何尺度か」を判別させる形式が頻出です。「時刻」は間隔尺度(差に意味はあるが、比に意味はない)、「睡眠時間」は比例尺度(0時間 = 寝ていない、8時間は4時間の2倍)です。同じ「時間」でも尺度が異なる点に注意しましょう。

ベクトルとは、大きさと方向を持つ量のことです。数値の並び(列)として表すことができます。

たとえば、2次元のベクトルは (3, 4) のように2つの数値で表され、平面上の方向と大きさを示します。コンピュータの分野では、AIがデータの特徴を数値の列で表現するときや、画像処理で色や座標を扱うときにベクトルが使われます。

行列とは、数値を長方形に並べたものです。行(横方向)と列(縦方向)で構成されます。

| 1 2 3 |
| 4 5 6 |

上の例は2行3列の行列です。行列は、大量のデータをまとめて扱ったり、データの変換を行ったりする際に利用されます。画像データ(縦×横のピクセル値の並び)も行列として表現できます。

微分とは、ある関数の変化の割合(傾き)を求める計算です。「ある瞬間にどれくらいの速さで変化しているか」を知ることができます。

たとえば、時間とともに変化する距離のグラフがあるとき、そのグラフの傾きがその瞬間の速度です。AIの学習(ディープラーニング)では、誤差を最小化するために微分の考え方が使われています。

積分とは、微分の逆の操作で、「ある区間での変化量の合計(面積)」を求める計算です。

たとえば、速度のグラフの下側の面積が移動距離を表します。データ分析では、確率分布の面積を求めて確率を計算する場面などで積分が使われます。

試験で出るポイント

ITパスポート試験では微分・積分の複雑な計算が出題されることはありません。「微分 = 変化の割合(傾き)を求める」「積分 = 面積(合計量)を求める」という概念を理解しておけば十分です。

誤差とは、真の値と測定値・計算値との差のことです。コンピュータでの計算や実際のデータ収集では、さまざまな原因で誤差が生じます。

種類説明
丸め誤差小数を有限桁で打ち切ることで生じる誤差1/3 = 0.333…を0.333とする
打ち切り誤差繰り返し計算を途中で打ち切ることで生じる誤差無限級数の計算を有限回で止める
桁落ち近い値どうしの引き算で有効桁数が減る誤差1.23456 - 1.23450 = 0.00006(有効1桁)
情報落ち絶対値の大きさが極端に異なる数の加減算で、小さい方の値が無視される誤差10000000 + 0.001 → 10000000(0.001が消える)
オーバーフロー計算結果がコンピュータで扱える最大値を超える非常に大きな数の掛け算
アンダーフロー計算結果がコンピュータで扱える最小値を下回る非常に小さな数の掛け算

データに誤差が含まれることを前提として、以下のような対処を行います。

  • 有効桁数を意識する:計算結果の精度は、元のデータの有効桁数を超えることはない
  • 計算順序を工夫する:桁落ちや情報落ちが起きにくい順序で計算する
  • 誤差の範囲を見積もる:結果がどの程度信頼できるかを把握する

試験で出るポイント

丸め誤差・桁落ち・情報落ち・オーバーフローなどの用語と、それぞれがどのような状況で発生するかを区別できるようにしておきましょう。
テーマ主要概念ポイント
データの集計和・平均・並べ替え・ランキング基本操作を正しく使い分ける
データの比較条件をそろえた比較、前後比較条件統一が正しい比較の前提
尺度名義・順序・間隔・比例0に絶対的な意味があるかで間隔と比例を区別
線形代数ベクトル・行列データを数値の並びや表で扱う
微分・積分変化の割合・面積概念の理解が重要
誤差丸め誤差・桁落ち・情報落ちなど発生条件を区別する

アプリで問題を解こう!