データサイエンティスト検定

データサイエンティスト検定リテラシーレベル 頻出キーワード解説

  1. 1. 序論:データ駆動型社会におけるリテラシーの再定義
    1. 1.1 背景と目的
    2. 1.2 アシスタント・データサイエンティストの役割
    3. 1.3 本報告書の構成
  2. 2. データサイエンス力:現象を数理モデルで解釈する知性
    1. 2.1 基礎数学と記述統計:データの「顔」を読む
      1. データの種類と尺度
      2. 代表値と散布度の選定
    2. 2.2 推測統計と仮説検定:部分から全体を語るロジック
      1. 確率分布というレンズ
      2. 仮説検定の決定プロセス
    3. 2.3 機械学習とAI:データからの自動学習
      1. 教師あり学習と教師なし学習
      2. モデル評価と過学習の罠
    4. 2.4 ディープラーニングと生成AIの台頭
    5. 【表1】データサイエンス重要用語集(詳細版)
      1. 1. 数学・統計学(基礎・推測)
      2. 2. 機械学習(アルゴリズム・評価・実践)
  3. 3. データエンジニアリング力:データ分析を支える技術基盤
    1. 3.1 データベースとSQL:データの操作言語
    2. 3.2 ビッグデータとNoSQL:RDBMSの限界を超えて
    3. 3.3 データ分析基盤の進化:DWHからレイクハウスへ
    4. 3.4 クラウドとセキュリティ:守りと攻めのインフラ
    5. 【表2】データエンジニアリング重要用語集(詳細版)
      1. 1. データベース・SQL
      2. 2. ビッグデータ・インフラ・クラウド
      3. 3. セキュリティ・情報システム
  4. 4. ビジネス力:データを価値に変える翻訳能力
    1. 4.1 論理的思考と問題解決フレームワーク
    2. 4.2 データビジュアライゼーション:情報を「見せる」技術
    3. 4.3 データ・AI倫理と法的コンプライアンス
    4. 【表3】ビジネス力・重要用語集(詳細版)
      1. 1. ビジネス思考・フレームワーク
      2. 2. データ活用・法務・倫理
  5. 5. 総括と学習へのインサイト
    1. 5.1 知識の「点」を「線」で結ぶ
    2. 5.2 合格の先にあるもの

1. 序論:データ駆動型社会におけるリテラシーの再定義

1.1 背景と目的

デジタルトランスフォーメーション(DX)の波が全産業を覆う現代において、データサイエンスは一部の専門家だけが保有すべき特殊技能から、ビジネスパーソン全体に求められる「基礎教養(リテラシー)」へとその位置付けを劇的に変化させている。一般社団法人データサイエンティスト協会が主催する「データサイエンティスト検定[リテラシーレベル](以下、DS検定)」は、このパラダイムシフトを象徴する試験である。本報告書は、DS検定リテラシーレベルの試験範囲、頻出用語、およびその背後にある概念的枠組みを網羅的に調査し、約200語以上の重要用語を体系的に解説することを目的とする。

1.2 アシスタント・データサイエンティストの役割

DS検定リテラシーレベルが認定するのは、同協会が定義する「アシスタント・データサイエンティスト(見習いレベル:★)」のスキルセットである。これは、独力でプロジェクトを完遂する能力ではなく、上長やシニアデータサイエンティストの指示の下、適切なツールを用いてデータの抽出・集計・可視化を行い、基礎的な機械学習モデルの構築や結果の解釈を支援できる能力を指す。

特筆すべきは、このレベルにおいて求められる能力が単なる「計算能力」や「コーディング能力」にとどまらず、法的リスクの判断やビジネス課題の構造化といった、極めて実務的かつ多面的な視点を含んでいる点である。これは、データサイエンスが「実験室の科学」から「社会実装の工学」へと進化したことを示唆している。

1.3 本報告書の構成

本報告書では、データサイエンティスト協会が提唱する以下の3つのスキル領域に基づき、詳細な分析と用語解説を行う。

  1. データサイエンス力:統計学、数学、機械学習、AIの理論と手法。
  2. データエンジニアリング力:データの収集、加工、蓄積、セキュリティ、ITインフラ。
  3. ビジネス力:論理的思考、課題解決、データビジュアライゼーション、法務・倫理。

各章では、単なる用語の羅列を避け、用語間の相互関係、実務における文脈、そして技術の歴史的背景を詳述した上で、学習効率を高めるための詳細な用語表(合計200語以上)を提示する。


2. データサイエンス力:現象を数理モデルで解釈する知性

データサイエンス力の中核は、不確実な現実世界の事象をデータという「数値」に置き換え、そこから意味のあるパターンや法則性を導き出すことにある。このプロセスには、基礎的な数学力、統計的推論、そして機械学習アルゴリズムの理解が不可欠である。

2.1 基礎数学と記述統計:データの「顔」を読む

データ分析の第一歩は、手元にあるデータの性質を正確に把握すること(記述統計)である。ここでは、データの中心がどこにあり(代表値)、どれくらい広がっているか(散布度)を数値化する。

データの種類と尺度

データを扱う際、まずそのデータが「質的変数(カテゴリカルデータ)」なのか「量的変数(数値データ)」なのかを区別する必要がある。さらに細分化すれば、名義尺度(血液型など)、順序尺度(アンケートの5段階評価など)、間隔尺度(気温など)、比例尺度(身長、年収など)の4つの尺度が存在する。これらの尺度の違いは、適用可能な計算(足し算ができるか、比率に意味があるか)や分析手法を決定づけるため、基礎的だが極めて重要である。

代表値と散布度の選定

「平均値」は最も一般的な代表値だが、外れ値(Outlier)に極端に弱いという欠点を持つ。例えば、平均年収が一部の億万長者によって引き上げられるようなケースでは、データを順に並べた中央の値である「中央値」の方が実態を表す場合がある。また、データのばらつきを評価する「分散」や「標準偏差」は、リスク管理や品質管理において平均値以上に重要な意味を持つ。標準偏差が大きければ、予測の不確実性が高いことを示唆するからである。

2.2 推測統計と仮説検定:部分から全体を語るロジック

ビジネスの現場では、全数調査(母集団全体を調べること)がコストや時間の制約で不可能な場合が多い。そこで、一部のデータ(標本)から全体(母集団)の性質を推測する「推測統計」が用いられる。

確率分布というレンズ

推測統計の根底には「確率分布」の概念がある。世の中の多くの現象(身長の分布、工場の誤差など)は「正規分布」に従うと仮定できる。正規分布の性質(平均±1.96標準偏差の範囲に約95%のデータが含まれる)を知っていれば、あるデータが「ありふれたもの」なのか「異常なもの」なのかを確率的に判断できる。他にも、コイン投げのような二値の結果を表す「二項分布」や、稀な事象の発生回数を表す「ポアソン分布」など、データの生成メカニズムに応じた分布の選択が求められる。

仮説検定の決定プロセス

「新薬Aは旧薬Bより効果があるか」「Webサイトのデザイン変更でクリック率は上がったか」といった問いに答えるのが仮説検定である。ここでは直感ではなく、「p値(確率)」という客観的な指標を用いて判断を下す。

  1. 帰無仮説を立てる(「差はない」という否定したい仮説)。
  2. データから検定統計量を計算する。
  3. その統計量が得られる確率(p値)を求める。
  4. p値が基準(有意水準、通常5%)より低ければ、帰無仮説を棄却し、「差がある」と結論付ける。このプロセスにおける「第1種の過誤(あわてんぼうの誤り:差がないのに差があると判定)」と「第2種の過誤(ぼんやりものの誤り:差があるのに見逃す)」のトレードオフを理解することは、ビジネスにおけるリスク許容度を決定する上で重要である。

2.3 機械学習とAI:データからの自動学習

現代のデータサイエンスの主役は機械学習である。これは、人間が明示的にルール(if-then文)を書くのではなく、データからアルゴリズムが自動的にルールを学習する技術である。

教師あり学習と教師なし学習

学習データに「正解(ラベル)」が含まれているかどうかが最大の分岐点となる。

  • 教師あり学習:過去の売上データ(正解)から来月の売上を予測する「回帰」や、メールがスパムかどうか(正解)を判定する「分類」が含まれる。線形回帰、ロジスティック回帰、決定木、サポートベクターマシン(SVM)、ランダムフォレストなどが代表的手法である。
  • 教師なし学習:正解のないデータから構造を見出す。顧客を購買傾向の似たグループに分ける「クラスタリング(k-meansなど)」や、多項目のデータを少数の指標に要約する「次元削減(主成分分析)」がある。
  • 強化学習:ロボット制御やゲームAIのように、エージェントが試行錯誤を通じて報酬を最大化する行動を学習する。

モデル評価と過学習の罠

機械学習モデルは「過去のデータ」には完璧に当てはまるが、「未来のデータ」には全く通用しないという現象(過学習:Overfitting)に陥りやすい。これを防ぐために、データを学習用とテスト用に分ける「交差検証(Cross Validation)」や、モデルの複雑さにペナルティを課す「正則化」といった技術が用いられる。また、モデルの精度を測る指標も、単なる正解率(Accuracy)だけでなく、見逃しを避けたい場合は再現率(Recall)、誤検知を避けたい場合は適合率(Precision)など、ビジネス目的に応じて使い分けるリテラシーが求められる。

2.4 ディープラーニングと生成AIの台頭

近年のAIブームを牽引しているのがディープラーニング(深層学習)である。人間の脳神経回路を模したニューラルネットワークを多層化し、データに含まれる複雑な特徴量(画像のエッジや質感、言葉の意味など)を自動的に抽出する能力を持つ。

特に、Transformerアーキテクチャの登場以降、自然言語処理の精度が飛躍的に向上し、大規模言語モデル(LLM)や生成AI(Generative AI)が実用化された。DS検定リテラシーレベルにおいても、これら最新技術の概要、プロンプトエンジニアリング、そしてハルシネーション(もっともらしい嘘)などのリスクに関する知識が新たに追加されている。


【表1】データサイエンス重要用語集(詳細版)

1. 数学・統計学(基礎・推測)

カテゴリ用語読み詳細解説関連概念
尺度名義尺度めいぎしゃくど分類のためだけに数値を割り当てたもの(例:男性=0, 女性=1)。大小関係や演算に意味はない。質的変数
尺度順序尺度じゅんじょしゃくど順序には意味があるが、間隔には意味がないもの(例:1位, 2位)。平均値の計算は不適切。中央値
尺度間隔尺度かんかくしゃくど目盛りの間隔が等しいもの(例:摂氏温度)。差には意味があるが、比(2倍など)には意味がない。0の定義
尺度比例尺度ひれいしゃくど絶対的な原点(0)が存在し、比率にも意味があるもの(例:身長、金額)。全ての演算が可能。量的変数
代表値算術平均さんじゅつへいきん全データの総和を個数で割った値。最も一般的だが、外れ値に引っ張られやすい。トリム平均
代表値中央値ちゅうおうちデータを順に並べた際の真ん中の値(メジアン)。所得分布など歪んだデータで有用。ロバスト性
代表値最頻値さいひんち最も頻繁に出現する値(モード)。質的データでも定義できる唯一の代表値。ヒストグラム
散布度分散ぶんさん各データと平均値の差(偏差)を2乗して平均したもの。値が大きいほどばらつきが大きい。偏差平方和
散布度標準偏差ひょうじゅんへんさ分散の正の平方根($\sigma$)。元のデータと同じ単位で扱えるため解釈しやすい。偏差値
散布度不偏分散ふへんぶんさん標本から母分散を推定する際に用いる分散。割る数を $n$ ではなく $n-1$ にすることでバイアスを補正する。自由度
散布度変動係数へんどうけいすう標準偏差を平均値で割った値。単位の異なるデータ間(例:身長と体重)でばらつきを比較する際に用いる。相対評価
関係性共分散きょうぶんさん2つの変数の偏差の積の平均。正なら正の相関、負なら負の相関があるが、値の大きさは単位に依存する。相関の方向
関係性相関係数そうかんけいすう共分散を各変数の標準偏差の積で割った値(ピアソンの積率相関係数)。-1から+1の範囲をとり、単位に依存しない。線形関係
関係性擬似相関ぎじそうかん2つの変数に直接の因果関係はないが、共通の第3の要因(交絡因子)によって相関が見える現象。因果推論
関係性シンプソンのパラドックス-全体で見ると相関があるように見えるが、層別に分けると相関が逆転したり消えたりする現象。層別解析
確率分布正規分布せいきぶんぷ平均を中心とした左右対称の釣り鐘型の分布。ガウス分布とも呼ぶ。統計学で最も重要。標準正規分布
確率分布標準化ひょうじゅんかデータを平均0、分散1の標準正規分布に従うように変換すること($Z = (x - \mu) / \sigma$)。Zスコア
確率分布二項分布にこうぶんぷ成功か失敗かの2通りの結果が出る試行を$n$回行った時の成功回数の分布。ベルヌーイ試行
確率分布ポアソン分布-単位時間・単位空間あたりに平均$\lambda$回起こる稀な事象の発生回数の分布(例:1時間のコールセンター着信数)。稀少事象
理論大数の法則たいすうのほうそく試行回数を増やすと、標本平均は母平均に収束していくという定理。確率収束
理論中心極限定理-母集団の分布が何であっても、サンプルサイズが大きければ標本平均の分布は正規分布に近づくという定理。推定の基盤
検定帰無仮説きむかせつ検定において「差がない」「効果がない」など、棄却することを目標に立てる仮説($H_0$)。対立仮説
検定対立仮説たいりつかせつ帰無仮説が棄却されたときに採択される、「差がある」という主張したい仮説($H_1$)。両側/片側検定
検定有意水準ゆういすいじゅん帰無仮説を棄却する基準となる確率($\alpha$)。通常5%(0.05)や1%(0.01)に設定される。危険率
検定p値ピーち帰無仮説が正しいと仮定したとき、手元のデータ以上に極端な値が得られる確率。有意差
検定第1種の過誤-帰無仮説が正しい(差がない)のに、誤って棄却してしまう(差があるとする)誤り。偽陽性。確率は$\alpha$。疑わしきは罰せず
検定第2種の過誤-帰無仮説が誤り(差がある)のに、棄却しない(見逃す)誤り。偽陰性。確率は$\beta$。検出力 ($1-\beta$)
検定t検定-母分散が未知の場合やサンプルサイズが小さい場合に、2つの平均値の差を検定する手法。スチューデントのt分布
検定カイ二乗検定-観測された頻度と期待される頻度のズレを検定する手法。クロス集計表の独立性検定などで利用。適合度検定
推定点推定てんすいてい母数(母平均など)を1つの値(ピンポイント)で推定すること。不偏推定量
推定区間推定くかんすいてい母数が含まれるであろう範囲を確率(信頼係数)付きで推定すること。95%信頼区間が一般的。信頼区間
推定ベイズ推定-事前分布(主観的な確率)を、データ(尤度)によって事後分布へと更新していく推定手法。ベイズの定理
数学微分びぶん関数の局所的な変化率(傾き)を求める操作。機械学習の最適化(勾配降下法)でコスト関数を最小化するために必須。偏微分
数学偏微分へんびぶん多変数関数において、1つの変数以外を定数とみなして微分すること。各パラメータごとの勾配を求める。勾配ベクトル
数学行列ぎょうれつ数を長方形に並べたもの。大量のデータやニューラルネットワークの重みを一括計算するために不可欠。線形代数
数学内積ないせき2つのベクトルの要素ごとの積の和。類似度の計算やニューラルネットワークの計算で頻出。コサイン類似度
数学固有値・固有ベクトル-行列による線形変換において、方向が変わらないベクトルとその倍率。主成分分析(PCA)の原理となる。行列分解

2. 機械学習(アルゴリズム・評価・実践)

カテゴリ用語詳細解説用途・備考
教師あり単回帰分析1つの説明変数$x$で目的変数$y$を予測するモデル($y=ax+b$)。最小二乗法で係数を求める。売上予測
教師あり重回帰分析複数の説明変数を用いる回帰分析。変数の影響度を比較するには偏回帰係数を標準化する必要がある。要因分析
教師あり多重共線性重回帰分析で、説明変数同士に強い相関がある場合に係数の推定が不安定になる現象(マルチコ)。変数選択
教師ありロジスティック回帰線形回帰の結果をシグモイド関数で0から1の範囲に変換し、確率として分類を行う手法。2値分類
教師あり決定木データを条件分岐(IF-THEN)で分割していく手法。結果の解釈が容易(ホワイトボックス)。分類・回帰
教師あり不純度決定木の分岐基準。ジニ係数やエントロピーなど、データの混ざり具合を表す指標。小さいほど良い。情報利得
教師ありランダムフォレスト多数の決定木を作り、その多数決や平均をとるアンサンブル学習手法。バギングを用いる。高精度化
教師ありブースティング弱学習器を直列に繋ぎ、前のモデルが間違えたデータを重点的に学習させていく手法(GBDT, XGBoostなど)。Kaggleで人気
教師ありSVM (サポートベクターマシン)データを分割する超平面とデータとの距離(マージン)を最大化する境界線を引く手法。マージン最大化
教師ありk近傍法 (k-NN)新しいデータのクラスを、距離が近い順にk個のデータの多数決で決める手法。学習プロセスがない(怠惰学習)。推薦システム
教師なしk-means法データをk個のグループに分けるクラスタリング手法。重心の更新を繰り返す。初期値依存性がある。顧客セグメント
教師なし階層的クラスタリング似たデータを順次結合し、デンドログラム(樹形図)を作成する手法。クラスタ数を後から決められる。系統樹
教師なし主成分分析 (PCA)多くの変数を、情報をなるべく損なわずに少数の合成変数(主成分)に圧縮する次元削減手法。データ可視化
教師なしアソシエーション分析「Aを買う人はBも買う」という関連ルール(相関ルール)を発見する手法。バスケット分析とも呼ばれる。同時購買
指標支持度 (Support)アソシエーション分析で、全データの中で商品AとBが同時に出現する割合。ルール抽出
指標確信度 (Confidence)アソシエーション分析で、Aを買った人の中でBも買った人の割合(条件付き確率)。ルール抽出
指標リフト値 (Lift)アソシエーション分析で、Bの自然な人気度に対し、Aを買った時のBの購買率が何倍になったか。1より大きいと意味がある。ルール抽出
評価正解率 (Accuracy)全予測の中で正解した割合。クラス不均衡データ(例:病気の人が1%)では役に立たないことがある。基本指標
評価適合率 (Precision)陽性と予測したもののうち、実際に陽性だった割合。「誤検知(スパム誤判定など)」を減らしたい時に重視。質の指標
評価再現率 (Recall)実際に陽性のもののうち、陽性と予測できた割合。「見逃し(がん発見など)」を減らしたい時に重視。量の指標
評価F値 (F-measure)適合率と再現率の調和平均。両者のバランスを見る指標。総合評価
評価混合行列 (Confusion Matrix)予測結果と実測値をマトリクスにしたもの(TP, FP, FN, TN)。すべての指標の基礎。誤り分析
評価ROC曲線閾値を変化させた時の真陽性率(縦軸)と偽陽性率(横軸)の軌跡。左上に膨らむほど良い。閾値決定
評価AUCROC曲線の下側の面積。0.5(ランダム)から1.0(完璧)の間をとる。モデルの性能比較に使う。順位付け性能
学習過学習 (Overfitting)学習データに適合しすぎて、未知のデータへの予測性能(汎化性能)が落ちる現象。バリアンスが高い
学習未学習 (Underfitting)モデルが単純すぎて、学習データのパターンさえ捉えられていない状態。バイアスが高い
学習正則化損失関数にペナルティ項(L1ノルムやL2ノルム)を加え、係数が大きくなりすぎるのを防ぐ手法。Lasso / Ridge
学習交差検証 (Cross Validation)データをk個に分割し、学習と検証をk回繰り返して平均をとる評価手法。データの偏りの影響を減らす。k-fold法
学習ホールドアウト法データを学習用とテスト用に一定比率(例:7:3)で分割する単純な手法。データ量が多い場合に使う。単純分割
学習グリッドサーチハイパーパラメータ(人間が決める設定値)の全ての組み合わせを試して、最適な値を探す手法。パラメータ調整
深層学習ニューラルネットワーク脳の神経回路を模したモデル。入力層、隠れ層、出力層で構成される。非線形な表現が可能。多層パーセプトロン
深層学習活性化関数ニューロンの発火を表現する関数。シグモイド、ReLU(正規化線形関数)、ソフトマックスなどがある。非線形性
深層学習誤差逆伝播法出力と正解の誤差を計算し、出力層から入力層に向かって順に重みを修正(学習)していくアルゴリズム。バックプロパゲーション
深層学習CNN (畳み込みNN)画像処理に特化したNN。畳み込み層で特徴(エッジ等)を抽出し、プーリング層で位置ズレを吸収する。画像認識
深層学習RNN (再帰型NN)隠れ層の出力を次の時刻の入力に戻すループ構造を持つNN。時系列データや自然言語処理に強い。時系列・音声
深層学習LSTMRNNの「勾配消失問題」を解決し、長期的な記憶を保持できるようにしたモデル。ゲート構造を持つ。自然言語処理
深層学習TransformerRNNを使わず「Attention機構」のみで文脈を学習するモデル。並列処理が可能で、LLMの基礎となっている。BERT / GPT
深層学習GAN (敵対的生成NW)生成器(Generator)と識別器(Discriminator)を競わせて、本物そっくりのデータを生成する技術。画像生成
深層学習オートエンコーダ入力と同じものを出力するように学習し、中間層でデータの特徴を圧縮・抽出する教師なし学習手法。異常検知
AI大規模言語モデル (LLM)膨大なテキストデータで学習された超巨大なパラメータを持つモデル。文章生成、要約、翻訳などが可能。基盤モデル
AIプロンプトエンジニアリングLLMに対して適切な指示(プロンプト)を与え、意図した回答を引き出すための技術・工夫。In-context Learning
AIファインチューニング事前学習済みのモデルを、特定のタスクのデータで再学習させ、微調整する手法。転移学習
AIハルシネーション生成AIが、事実ではないもっともらしい嘘を出力してしまう現象(幻覚)。AIリスク

3. データエンジニアリング力:データ分析を支える技術基盤

どれほど優れた分析アルゴリズムも、高品質なデータと安定した計算基盤がなければ機能しない。データエンジニアリング力は、データを「収集・加工・蓄積・提供」する一連のデータパイプラインを構築・運用する能力であり、DS検定においてはSQLによるデータ操作、データベース知識、セキュリティ、クラウドインフラが重点的に問われる 2

3.1 データベースとSQL:データの操作言語

ビジネスデータの大部分はリレーショナルデータベース(RDBMS)に格納されている。データサイエンティストにとって、SQLを用いたデータ抽出は呼吸をするように行えなければならない。

  • SQLの3要素:データ定義言語(DDL: CREATEなど)、データ操作言語(DML: SELECT, INSERTなど)、データ制御言語(DCL: GRANTなど)があるが、分析者が最も使うのはDML、特にSELECT文である。
  • 結合と集計:複数のテーブルに散らばった情報(例:注文履歴テーブルと商品マスタ)をJOINで結合し、GROUP BYでカテゴリごとに集計する処理は実務の基本動作である。
  • 正規化理論:データベース設計において、データの重複を排除し、矛盾(アノマリー)を防ぐためにテーブルを分割することを正規化と呼ぶ。第3正規形までの理解が必須である。

3.2 ビッグデータとNoSQL:RDBMSの限界を超えて

SNSの投稿、IoTセンサーログ、画像データなど、従来のRDBMSでは扱いきれない「3つのV(Volume:容量、Velocity:速度、Variety:種類)」を持つビッグデータが登場した。これに対応するために、スキーマレスでスケーラビリティに優れたNoSQL(Not Only SQL)データベースや、Hadoop、Sparkといった分散処理フレームワークが開発された。データエンジニアは、データの特性に応じてRDBMSとNoSQLを使い分ける必要がある。

3.3 データ分析基盤の進化:DWHからレイクハウスへ

データを分析するために集約する場所も進化している。

  • データウェアハウス (DWH):分析用に整理・構造化されたデータを格納するDWH。
  • データレイク:加工前の生データ(Raw Data)をそのまま大量に投げ込むデータレイク。
  • ETL処理:基幹システムからデータを抽出し(Extract)、分析しやすい形に変換し(Transform)、DWHにロードする(Load)一連の処理。近年では、これらを統合した「データレイクハウス」という概念も登場している。

3.4 クラウドとセキュリティ:守りと攻めのインフラ

現代の分析環境は、AWS、Google Cloud、Azureといったクラウドサービス上に構築されるのが一般的である。サーバーを自前で持つ(オンプレミス)時代から、必要な時に必要なだけ借りる(クラウド)時代へのシフトは、コスト構造と開発スピードを一変させた。

一方で、データの集中はセキュリティリスクを高める。機密性(Confidentiality)、完全性(Integrity)、可用性(Availability)の「CIA」を維持するために、暗号化、認証、ネットワーク防御(ファイアウォール等)の知識が不可欠である。特に、SQLインジェクションや標的型攻撃といったサイバー攻撃の手口を知ることは、データを守るための第一歩である 5。


【表2】データエンジニアリング重要用語集(詳細版)

1. データベース・SQL

カテゴリ用語詳細解説関連・対義語
DB基礎RDBMSリレーショナル(関係)データベース管理システム。データを2次元の表(テーブル)形式で管理する。Oracle, MySQL, PostgreSQLなど。NoSQL
DB基礎主キー (Primary Key)テーブル内の行(レコード)を一意に識別するための列。重複やNULLは許されない。複合主キー
DB基礎外部キー (Foreign Key)別のテーブルの主キーを参照している列。テーブル間のリレーション(関係)を定義し、参照整合性を保つ。参照整合性
DB基礎インデックスデータの検索速度を向上させるために列に設定する索引。読み込みは速くなるが、書き込み(更新)は遅くなるトレードオフがある。B木インデックス
DB基礎ビュー実際のデータを保持せず、SELECT文の結果を仮想的なテーブルとして見せる機能。複雑なクエリの隠蔽やセキュリティ確保に使う。マテリアライズドビュー
DB設計ER図実体(Entity)と関係(Relationship)を用いてデータの構造を図示したもの。DB設計の設計図。概念データモデル
DB設計正規化データの重複をなくし、矛盾が生じないようにテーブルを分割・整理する工程。非正規化
DB設計第1正規形1つのセルに1つの値しか入っていない状態(スカラ値)。繰り返し項目を排除したもの。アトミック性
DB設計第2正規形第1正規形であり、かつ主キーの一部に依存する項目(部分関数従属)を別テーブルに分離したもの。部分関数従属
DB設計第3正規形第2正規形であり、かつ主キー以外の項目に依存する項目(推移的関数従属)を別テーブルに分離したもの。推移的関数従属
DB制御トランザクション関連する複数の処理をまとめた単位(例:送金処理=出金+入金)。すべて成功か、すべてキャンセルかのどちらかになる。コミット
DB制御ACID特性トランザクションが満たすべき4要件。Atomicity(原子性)、Consistency(一貫性)、Isolation(独立性)、Durability(永続性)。信頼性担保
DB制御コミット / ロールバックトランザクションの処理結果を確定させること(コミット)、または処理前の状態に戻すこと(ロールバック)。確定/取消
DB制御ロックデータの整合性を保つため、他者によるデータの読み書きを一時的に制限すること。共有ロックと排他ロックがある。同時実行制御
DB制御デッドロック複数のトランザクションが互いに相手のロック解除を待ち続け、処理が止まってしまう状態(すくみ)。膠着状態
SQLSELECTデータを取得する命令。SELECT 列名 FROM テーブル名 が基本形。射影
SQLWHERE抽出条件を指定する句。WHERE 年齢 >= 20 のように使う。集計前の行に対する絞り込み。選択
SQLGROUP BY指定した列の値が同じデータをグループ化して集計する句。COUNTSUMなどの集計関数と共に使う。集計
SQLHAVINGGROUP BYで集計した後の結果に対して条件を指定する句。集計後の絞り込み
SQLORDER BY抽出結果を並べ替える句。ASC(昇順)やDESC(降順)を指定する。ソート
SQLINNER JOIN内部結合。結合条件に一致するデータのみを両方のテーブルから抽出する。一致しないデータは消える。共通部分
SQLLEFT (OUTER) JOIN左外部結合。左側のテーブルの全データを残し、右側のテーブルは条件に合うものだけ結合する。合わない部分はNULLになる。マスタ結合
SQLUNION2つのSELECT結果を縦に結合する(和集合)。重複行は排除される(UNION ALLなら排除されない)。縦結合
SQLサブクエリSQL文の中に埋め込まれた別のSQL文(副問合せ)。複雑な条件指定や一時的な集計に使う。ネスト

2. ビッグデータ・インフラ・クラウド

カテゴリ用語詳細解説関連・対義語
データ構造化データ表形式(行と列)で整理できるデータ。RDBMSで管理可能。CSVやExcelなど。定型データ
データ非構造化データ規則的な構造を持たないデータ。画像、音声、動画、自然言語のテキスト、SNSの投稿など。ビッグデータの大部分を占める。NoSQL
データビッグデータの3VVolume(量)、Velocity(速度・頻度)、Variety(多様性)の3要素。これらにVeracity(正確性)やValue(価値)を加えることもある。定義
データ形式CSVComma Separated Values。データをカンマで区切ったテキスト形式。シンプルで汎用性が高いが、型情報は持たない。TSV
データ形式JSONJavaScript Object Notation。キーと値のペアでデータを記述する軽量な形式。Web APIやNoSQLで標準的に使われる。階層構造
データ形式XMLタグを使ってデータの意味や構造を記述するマークアップ言語。柔軟だが冗長になりやすい。HTML
NoSQLキーバリュー型 (KVS)キーと値の単純な組み合わせでデータを保存する。高速な読み書きが可能(例:Redis, DynamoDB)。キャッシュ
NoSQLドキュメント型JSONやXML形式のドキュメントをそのまま保存する。データ構造の変更に柔軟(例:MongoDB)。柔軟性
NoSQLカラム指向型列(カラム)単位でデータをまとめて保存する。特定の列だけを集計する分析処理が高速(例:Cassandra)。分析向き
NoSQLグラフ型データ(ノード)と関係(エッジ)で構造を表現する。SNSの繋がりや経路探索に強い(例:Neo4j)。ネットワーク
技術Hadoop大規模分散処理のオープンソースフレームワーク。分散ファイルシステムHDFSと処理基盤MapReduceからなる。分散処理
技術Sparkメモリ上で高速に分散処理を行うフレームワーク。Hadoopより高速で、機械学習ライブラリなども統合されている。インメモリ
基盤ETLExtract(抽出)、Transform(変換)、Load(書き出し)。データ統合のプロセス。データパイプライン
基盤データウェアハウス (DWH)目的別にデータを整理・統合し、時系列で蓄積した分析用データベース。更新よりも検索・集計に最適化されている。OLAP
基盤データレイク生データを加工せずにそのままの形式で大量に保管するリポジトリ。必要になった時に加工して使う(Schema on Read)。
基盤データマートDWHから特定の部門や用途(例:マーケティング用)に必要なデータだけを切り出した小規模なDB。部門利用
クラウドオンプレミス自社でサーバーやソフトウェアを保有・運用する形態。カスタマイズ性は高いが初期コストと運用負荷が大きい。自社運用
クラウドクラウドコンピューティングインターネット経由でITリソースをサービスとして利用する形態。従量課金、迅速な調達が特徴。AWS / Azure
クラウドIaaSInfrastructure as a Service。サーバー、ネットワーク、ストレージなどのインフラ機能を提供する(例:EC2)。インフラ
クラウドPaaSPlatform as a Service。アプリ開発・実行に必要なOSやミドルウェアも含めて提供する(例:RDS, Google App Engine)。プラットフォーム
クラウドSaaSSoftware as a Service。ソフトウェアの機能をそのままサービスとして提供する(例:Gmail, Salesforce)。アプリ
仮想化仮想化1台の物理サーバー上で複数の仮想的なサーバー(VM)を稼働させる技術。リソースの有効活用が可能。ハイパーバイザ
仮想化コンテナ (Docker)OS上の隔離された空間でアプリを実行する技術。VMより軽量で起動が速く、環境の再現性が高い。コンテナ
開発LinuxサーバーOSとして広く使われているオープンソースOS。コマンドライン(CUI)での操作が基本。サーバーOS
開発APIApplication Programming Interface。ソフトウェア同士が連携するための窓口。Web API(REST)が一般的。連携
開発OSSOpen Source Software。ソースコードが公開され、自由に利用・改変・再配布できるソフトウェア。ライセンス

3. セキュリティ・情報システム

カテゴリ用語詳細解説関連・対義語
概念CIA (情報セキュリティの3要素)Confidentiality(機密性:許可された人だけ)、Integrity(完全性:改ざんされていない)、Availability(可用性:いつでも使える)の維持。セキュリティ要件
暗号化共通鍵暗号方式暗号化と復号に「同じ鍵」を使う方式。処理は速いが、鍵を安全に相手に渡す「鍵配送問題」がある(AESなど)。対称暗号
暗号化公開鍵暗号方式誰でも使える「公開鍵」で暗号化し、自分だけが持つ「秘密鍵」で復号する方式。鍵配送問題を解決(RSAなど)。非対称暗号
暗号化ハイブリッド暗号方式共通鍵と公開鍵を組み合わせた方式。本文は高速な共通鍵で、その共通鍵を公開鍵で暗号化して送る(SSL/TLSで使用)。良いとこ取り
暗号化ハッシュ関数任意のデータから固定長の文字列(ハッシュ値)を生成する関数。不可逆(元に戻せない)で、改ざん検知やパスワード保存に使う。MD5 / SHA-256
認証電子署名公開鍵暗号を応用し、送信者が本人であること(なりすまし防止)と改ざんされていないことを証明する技術。デジタル署名
認証PKI (公開鍵基盤)信頼できる第三者機関(認証局:CA)がパブリックキーの正当性を証明する仕組み。証明書
認証SSL / TLSインターネット上でデータを暗号化して送受信するプロトコル。WebサイトのHTTPS通信で使われる。通信の安全
認証多要素認証 (MFA)「知識(パスワード)」「所有(スマホ)」「生体(指紋)」の3要素のうち2つ以上を組み合わせて認証すること。セキュリティ強化
認証生体認証指紋、顔、虹彩、静脈など、身体的特徴を用いて認証する方式。紛失の恐れがないが、変更もできない。バイオメトリクス
攻撃マルウェア悪意のあるソフトウェアの総称。ウイルス(寄生型)、ワーム(自己増殖型)、トロイの木馬(偽装型)などがある。悪性ソフト
攻撃ランサムウェア感染したPCのデータを勝手に暗号化し、「元に戻したければ身代金を払え」と要求するマルウェア。身代金
攻撃標的型攻撃 (APT)特定の組織や個人を狙い撃ちにし、執拗に行われるサイバー攻撃。メールの添付ファイルなどが入口になることが多い。ソーシャルエンジニアリング
攻撃DoS / DDoS攻撃サーバーに大量のアクセスを送りつけ、負荷をかけてサービスを停止させる攻撃。DDoSは多数の機器から一斉に行う。サービス妨害
攻撃SQLインジェクションWebフォームなどに不正なSQL文を入力し、データベースを不正に操作(情報漏洩や消去)する攻撃。アプリ脆弱性
攻撃クロスサイトスクリプティング (XSS)Webページに悪意あるスクリプトを埋め込み、閲覧したユーザーのブラウザ上で実行させる攻撃。Cookie奪取などに使われる。スクリプト注入
攻撃フィッシング金融機関などを装った偽メールや偽サイトに誘導し、パスワードやカード情報を盗み出す詐欺手法。詐欺
攻撃ソーシャルエンジニアリング人間の心理的な隙や行動のミスにつけ込んで情報を盗む手法。パスワードを盗み見たり、電話で聞き出したりする(非技術的攻撃)。アナログ攻撃
防御ファイアウォールネットワークの出入り口に設置し、許可された通信以外を遮断する壁。パケットフィルタリングなどを行う。防火壁
防御WAFWeb Application Firewall。Webアプリへの通信(HTTP/HTTPS)の中身を検査し、SQLインジェクションなどを防ぐ。アプリ防御
防御DMZ (非武装地帯)外部ネット(インターネット)と内部ネット(社内LAN)の中間に設けられる緩衝地帯。公開サーバー(Web等)を置く。セグメント分離
防御VPNインターネット上に仮想的な専用線を構築し、暗号化通信を行う技術。リモートワークで社内LANに接続する際に必須。仮想専用線
防御IDS / IPS不正侵入検知システム(IDS)と不正侵入防止システム(IPS)。ネットワーク上の怪しい通信を監視・遮断する。侵入対策

4. ビジネス力:データを価値に変える翻訳能力

データサイエンティストが「ただの計算屋」で終わらないためには、ビジネス力が必要である。これは、曖昧なビジネス課題を数理的な問題(イシュー)に翻訳し、分析結果を意思決定可能な形に翻訳し返す能力である。DS検定リテラシーレベルでは、論理的思考、基本的なビジネスフレームワーク、そしてデータを取り巻く法律と倫理が中核テーマとなる 3

4.1 論理的思考と問題解決フレームワーク

データ分析は「問い」の設定から始まる。「売上が落ちている」という現象に対して、いきなりデータを集め始めるのではなく、まず「なぜ落ちているのか」を構造的に分解する必要がある。

  • ロジックツリーとMECE:問題を漏れなくダブりなく(MECE)分解し、原因を深掘りするロジックツリーを作成するスキルは基本中の基本である。
  • 仮説思考:全てのデータを調べる前に、「恐らくこれが原因ではないか」という仮説を立て、それを検証するために必要なデータだけを分析するアプローチは、スピードと効率を劇的に向上させる。

4.2 データビジュアライゼーション:情報を「見せる」技術

分析結果は、伝える相手(ステークホルダー)に理解されなければ意味がない。適切なグラフの選択(比較、推移、内訳、分布、相関)や、人間の認知特性(ゲシュタルト心理学など)を考慮したデザイン原則を知ることは、分析者の必須スキルである。例えば、時系列変化を見るなら折れ線グラフ、量の比較なら棒グラフ、割合なら円グラフや帯グラフといった基本原則を逸脱すると、誤解を招くリスクがある 4

4.3 データ・AI倫理と法的コンプライアンス

データ活用における最大のリスクは、技術的な失敗ではなく、法的・倫理的な違反である。

  • 個人情報保護法(APPI):日本では、個人情報の定義、取得時の利用目的の通知、第三者提供の制限(オプトイン原則)、安全管理措置などが厳格に定められている。特に「要配慮個人情報(病歴、犯罪歴など)」の取り扱いは厳重な注意が必要である。
  • 匿名加工情報と仮名加工情報:ビッグデータ活用を促進するために設けられた枠組み。個人を特定できないように加工することで、本人の同意なしに利活用(匿名加工情報は第三者提供も可)できる制度である。
  • GDPR(EU一般データ保護規則):EU域内のデータ保護法だが、日本企業にも適用される場合がある(域外適用)。制裁金が巨額であり、忘れられる権利やデータポータビリティといった新しい権利概念が含まれている。
  • AI倫理:法的には問題なくても、AIによる差別(バイアス)やプライバシー侵害が社会的な批判を浴びるケースが増えている。「人間中心のAI社会原則」などのガイドラインを理解し、ELSI(倫理的・法的・社会的課題)に対応する姿勢が求められる 1

【表3】ビジネス力・重要用語集(詳細版)

1. ビジネス思考・フレームワーク

カテゴリ用語詳細解説用途
思考法論理的思考ロジカルシンキング。物事を体系的に整理し、筋道を立てて考えること。データ分析の前提となる。基礎能力
思考法MECEMutually Exclusive and Collectively Exhaustive。「漏れなく、ダブりなく」の状態。分類や要因分析の基本ルール。構造化
思考法ロジックツリー問題を主要な要素に分解し、樹形図のように展開して原因や解決策を深掘りするツール。WhyツリーやHowツリーがある。原因究明
思考法仮説思考限られた情報から最も確からしい「仮の答え(仮説)」を先に設定し、それを検証する形で作業を進める思考法。スピードアップ
思考法演繹法一般的なルール(大前提)に個別の事実を当てはめて結論を導く推論法(三段論法)。推論
思考法帰納法複数の個別の事実から共通点を見つけ出し、一般的なルールを導く推論法。統計分析は帰納的アプローチに近い。推論
戦略FWSWOT分析自社の内部環境(Strength:強み, Weakness:弱み)と外部環境(Opportunity:機会, Threat:脅威)を分析する手法。現状分析
戦略FW3C分析Customer(市場・顧客)、Competitor(競合)、Company(自社)の3つの視点でビジネス環境を分析する手法。環境分析
戦略FWPEST分析Politics(政治)、Economy(経済)、Society(社会)、Technology(技術)のマクロ環境要因を分析する手法。マクロ分析
戦略FW4P分析Product(製品)、Price(価格)、Place(流通)、Promotion(販促)の4要素でマーケティング戦略を立案する手法。マーケティング
戦略FW5フォース分析業界の収益性に影響を与える5つの脅威(新規参入、代替品、買い手、売り手、競合)を分析する手法。業界分析
戦略FWバリューチェーン事業活動を主活動(製造、販売等)と支援活動(人事、技術開発等)に分け、どこで価値(付加価値)が生まれているかを分析する。価値連鎖
管理PDCAサイクルPlan(計画)、Do(実行)、Check(評価)、Act(改善)のサイクルを回し、業務を継続的に改善する手法。業務改善
管理OODAループObserve(観察)、Orient(状況判断)、Decide(意思決定)、Act(行動)のループ。変化の速い状況での意思決定に適する。意思決定
指標KPIKey Performance Indicator(重要業績評価指標)。目標達成に向けたプロセスの進捗を計測する中間指標。目標管理
指標KGIKey Goal Indicator(重要目標達成指標)。ビジネスの最終的なゴール(売上高、利益率など)を表す指標。最終目標
指標ROIReturn On Investment(投資対効果)。投資額に対してどれだけの利益が得られたかの割合。(利益÷投資)×100。投資判断
法則パレートの法則「全体の数値の8割は、2割の要素が生み出している」という経験則(80:20の法則)。売上の8割は2割の顧客が作る、など。重点分析
法則ロングテールインターネット販売において、売れ筋以外のニッチな商品の総売上が無視できない規模になる現象。パレートの法則の逆。ECの特徴
行動AIDMA消費者の購買行動プロセス。Attention(注意)→Interest(関心)→Desire(欲求)→Memory(記憶)→Action(行動)。伝統モデル
行動AISASネット時代の購買行動。Attention→Interest→Search(検索)→Action→Share(共有)。検索と共有が加わった。Webモデル
プロジェクトPoCProof of Concept(概念実証)。本格導入の前に、新しい技術やアイデアが実現可能か、効果があるかを小規模に検証すること。実証実験
プロジェクトアジャイル開発機能単位で「計画→設計→実装→テスト」を短いサイクル(イテレーション)で繰り返し、柔軟に開発する手法。柔軟性重視
プロジェクトウォーターフォール要件定義、設計、開発、テストといった工程を順番に終わらせていく手法。大規模システムで用いられるが、後戻りが難しい。計画重視

2. データ活用・法務・倫理

カテゴリ用語詳細解説関連・対義語
個人情報個人情報保護法 (APPI)個人の権利利益を保護するため、個人情報の適正な取り扱いルールを定めた日本の法律。全ての事業者が対象。改正法
個人情報個人識別符号それ単体で特定の個人を識別できる情報。指紋データ、パスポート番号、基礎年金番号、マイナンバーなど。識別性
個人情報要配慮個人情報不当な差別や偏見を生じる可能性がある情報。人種、信条、社会的身分、病歴、犯罪歴など。取得には原則として本人の同意が必要。センシティブ情報
個人情報匿名加工情報特定の個人を識別できず、かつ復元できないように加工した情報。一定のルール下で、本人の同意なく第三者提供や目的外利用が可能。データ流通
個人情報仮名加工情報他の情報と照合しない限り特定の個人を識別できないように加工した情報。社内利用に限り規制が緩和される(分析促進のため)。内部利用
個人情報オプトイン「同意します」という意思表示があって初めて情報を取得・利用できる方式。個人情報の第三者提供は原則オプトイン。原則同意
個人情報オプトアウト「拒否します」という意思表示がない限り同意したとみなす方式。第三者提供においては届出が必要など条件が厳しい。原則自由
国際法GDPREU一般データ保護規則。EU域内の個人データ保護に関する非常に厳格な規則。違反時の制裁金が巨額(全世界売上の4%等)。欧州規制
国際法十分性認定EUが「この国はEUと同等のデータ保護レベルがある」と認めること。日本は認定されており、スムーズなデータ移転が可能。データ移転
権利忘れられる権利ネット上の自分に関する情報(検索結果など)の削除を求める権利。GDPRで明記された。削除権
権利データポータビリティ権サービス事業者が持つ自分の個人データを、扱いやすい形式で受け取り、他社サービスに移転できる権利。移行の自由
知財著作権法30条の4AI学習(情報解析)のための著作物利用は、原則として著作権者の許諾なく行えることを定めた条文。日本のAI開発の強み。機械学習パラダイス
知財不正競争防止法営業秘密(有用で非公知な情報)の不正取得や、限定提供データの不正利用を取り締まる法律。営業秘密
倫理ELSIEthical, Legal and Social Issues(倫理的・法的・社会的課題)。新技術を社会実装する際に考慮すべき総合的な課題。総合課題
倫理AI社会原則日本政府が策定した「人間中心のAI社会原則」。尊厳の尊重、多様性、持続可能性などの基本理念と指針。ガイドライン
倫理アルゴリズムバイアス学習データの偏りなどが原因で、AIの判断が特定の人種、性別、属性に対して不公平・差別的になる現象。公平性
倫理説明可能性 (XAI)AIがなぜその結論を出したのか、人間が理解できるように説明できること。ブラックボックス問題への対処。透明性
倫理アカウンタビリティ説明責任。AIの開発者や利用者は、AIの動作や結果について適切に説明し、責任を負うべきという考え方。責任
社会フィルターバブル検索エンジンやSNSのパーソナライズ機能により、自分の見たい情報しか目に入らなくなり、知的な孤立に陥る現象。視野狭窄
社会エコチェンバーSNSなどで同じ意見の人々だけで交流し、特定の思想や信念が増幅・過激化していく「反響室」現象。世論分断
社会デジタルデバイドITを利用できる人とできない人の間に生じる情報格差、およびそれに伴う経済的・社会的格差。情報格差
社会オープンデータ誰でも自由に利用・加工・再配布できるように公開されたデータ。政府や自治体が公開する統計データなど。公共財
組織データガバナンスデータが正しく管理・活用されるよう、組織としてルールや体制(品質、セキュリティ、倫理等)を統制すること。統制
組織データカタログ組織内にどのようなデータがどこにあるかを管理する目録・辞書。データの民主化(誰でもデータを探せる状態)に必須。データ検索

5. 総括と学習へのインサイト

5.1 知識の「点」を「線」で結ぶ

DS検定リテラシーレベルの範囲は広大である。本報告書で取り上げた用語だけでも200語を超えるが、これらを単なる暗記対象として捉えてはならない。

例えば、「標準偏差(データサイエンス)」が大きいと予測が難しくなるため、ビジネス上の「リスク(ビジネス)」と判断され、それを低減するために大量のデータを「クラウド(データエンジニアリング)」で集めてモデルを再学習させる、といった具合に、3つの領域は実務において密接に連動している。用語同士のつながり(Context)を意識することが、真のリテラシー獲得への近道である。

5.2 合格の先にあるもの

DS検定リテラシーレベルの取得は、データサイエンティストとしてのゴールではなく、スタートラインに立ったことの証明である。この資格を通じて得られる共通言語(ボキャブラリー)は、エンジニア、アナリスト、ビジネス担当者が互いに意思疎通を図るための基盤となる。DX推進の現場において、この「翻訳能力」こそが最も希少で価値のあるスキルと言えるだろう。

タイトルとURLをコピーしました