JDLA

JDLA E資格 頻出キーワード解説

1. 序論:E資格の現代的意義と試験構造の変遷

1.1 AIエンジニアに求められる資質とE資格の役割

デジタルトランスフォーメーション(DX)が加速する現代産業社会において、人工知能(AI)、とりわけディープラーニング(深層学習)技術の実装能力は、企業の競争力を左右する核心的な資源となっている。一般社団法人日本ディープラーニング協会(JDLA)が主催する「E資格(JDLA Deep Learning for ENGINEER)」は、この技術領域における理論的理解と実装能力を証明する国内最高峰のエンジニア向け資格である。本試験は、単なるツールの操作方法を問うものではなく、背後にある数理モデルの深い理解、アルゴリズムの挙動原理、そしてそれらをPyTorchやTensorFlowといったフレームワークを用いて適切に実装する能力を総合的に評価する点に特徴がある。

1.2 シラバスの変遷と最新の傾向

E資格の試験範囲(シラバス)は、AI技術の極めて速い進歩に追従するため、頻繁に改定が行われている。2024年および2025年に向けた改定においては、大規模言語モデル(LLM)や生成AI(Generative AI)の台頭を受け、これらの基礎となる技術(Transformer、Attention機構、拡散モデルなど)への比重が高まっている 1。一方で、特定の応用事例に関する詳細な知識よりも、汎用的な「深層学習の基礎・応用」への回帰が見られ、数理的な基礎体力がより一層重視される傾向にある 2

本報告書は、最新のシラバスおよび試験傾向を網羅的に調査し、合格に必要な知識体系を詳細に解説するものである。特に、試験対策において極めて有用な「頻出用語」を200語以上抽出し、9つのカテゴリーに分解して体系化した。各用語については、定義だけでなく、試験での問われ方や関連概念との繋がりを詳述し、学習者が概念地図を構築できるよう設計している。


2. 応用数学:ディープラーニングを記述する共通言語

応用数学は、機械学習モデルの挙動を記述するための「言語」であり、E資格においては最も基礎的かつ重要なセクションである。ここでは線形代数、確率・統計、情報理論の3分野について詳述する。

2.1 線形代数:多次元データの操作

ディープラーニングにおいて、データはスカラー、ベクトル、行列、そしてテンソルとして表現される。ニューラルネットワークの計算は、本質的にはこれらの線形変換と非線形変換の積み重ねであるため、線形代数の理解は必須である。

行列分解と特異値分解(SVD)

特異値分解(SVD)は、任意の行列を回転と拡大縮小の積に分解する手法であり、データの次元削減やノイズ除去、さらには推奨システムにおける行列補完などに応用される。E資格では、固有値分解との関係性や、主成分分析(PCA)への応用文脈で問われることが多い。また、行列式やトレース、ランクといった基本概念も、モデルのパラメータ数計算や正則化項の理解において頻出である 3。

表1:線形代数 頻出用語集

ID用語解説関連トピック
M-001スカラ (Scalar)大きさのみを持つ量。0階のテンソル。損失関数の値
M-002ベクトル (Vector)向きと大きさを持つ量。1階のテンソル。特徴量、勾配
M-003行列 (Matrix)数値を矩形状に並べたもの。2階のテンソル。線形変換を表す。重み、画像データ
M-004テンソル (Tensor)スカラ、ベクトル、行列を一般化した多次元配列の概念。多次元データ構造
M-005行列積行と列の内積を要素とする演算。結合法則は成り立つが交換法則は成り立たない。全結合層の計算
M-006アダマール積行列の同じ位置の要素同士を掛け合わせる演算(要素ごとの積)。LSTMのゲート計算
M-007転置行列行と列を入れ替えた行列。$A^T$と表記。逆伝播時の計算
M-008逆行列かけると単位行列になる行列。正方行列でのみ定義される。正規方程式
M-009行列式 (Determinant)行列の特徴を表すスカラ値。線形変換による体積拡大率を表す。逆行列の存在判定
M-010固有値・固有ベクトル行列による変換で向きが変わらないベクトルとその拡大率。PCA, 振動解析
M-011特異値分解 (SVD)任意の行列を $U \Sigma V^T$ に分解する手法。次元削減、擬似逆行列
M-012ムーア・ペンローズの擬似逆行列正方行列でない行列に対する逆行列の一般化。最小二乗法
M-013ノルム ($L_1, L_2$)ベクトルの「長さ」を測る尺度。$L_1$は成分の和、$L_2$はユークリッド距離。正則化 (Lasso, Ridge)
M-014内積2つのベクトルの類似度や射影を表す演算。類似度計算、畳み込み
M-015コサイン類似度内積をノルムの積で割ったもの。ベクトルのなす角の余弦。文書分類、埋め込み
M-016線形独立・線形従属ベクトルが他のベクトルの線形結合で表せるかどうかの性質。基底、ランク
M-017ランク (Rank)行列の線形独立な行(または列)ベクトルの最大数。情報量の指標
M-018直交行列転置行列が逆行列となる行列。各列ベクトルが正規直交基底をなす。回転変換
M-019対角行列対角成分以外がすべて0の行列。スケーリング
M-020スパース行列 (疎行列)成分の多くが0である行列。自然言語処理、推薦

2.2 確率・統計:不確実性のモデリング

現実世界のデータは常にノイズを含んでおり、その不確実性を扱うために確率論が必要となる。E資格では、基本的な確率分布の定義式、期待値・分散の性質、そしてベイズの定理を用いた推論プロセスが頻出である 3

ベイズの定理と事後確率

$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$ という式は、観測データ $A$ を得た後に、その原因である仮説 $B$ の確率(事後確率)を更新するプロセスを表す。これは機械学習における「学習」そのものを数理的に表現したものであり、MAP推定(最大事後確率推定)の基礎となる 3。

表2:確率・統計 頻出用語集

ID用語解説関連トピック
M-021確率変数試行の結果に応じて値が決まる変数。離散型と連続型がある。データ生成モデル
M-022確率密度関数 (PDF)連続型確率変数が特定の値をとる「密度」を表す関数。ガウス分布
M-023累積分布関数 (CDF)確率変数が $x$ 以下になる確率を表す関数。統計検定
M-024期待値 (Expected Value)確率変数の平均的な値。$E[X]$。損失関数の期待値
M-025分散 (Variance)データの散らばり具合。$E[(X-\mu)^2]$。初期化、正則化
M-026標準偏差分散の平方根。データの単位と一致する散らばりの指標。データの標準化
M-027共分散2変数の相関の強さと方向。正なら正の相関、負なら負の相関 3主成分分析
M-028相関係数共分散を標準化した値。-1から+1の範囲をとる。特徴量選択
M-029ベルヌーイ分布結果が2値(成功/失敗)の試行の分布 3二値分類
M-030二項分布ベルヌーイ試行を $n$ 回行った際の成功回数の分布 3アンサンブル精度
M-031ポアソン分布稀な事象が単位時間あたりに発生する回数の分布。異常検知
M-032ガウス分布 (正規分布)自然界で最も一般的な釣鐘型の連続分布 3ノイズ、VAE
M-033ベイズの定理事前確率と尤度から事後確率を求める定理 3ベイズ推定
M-034事前確率 / 事後確率データ観測前の確率と、観測後の更新された確率。知識の更新
M-035尤度 (Likelihood)あるパラメータの下でデータが観測される確率。最尤推定
M-036最尤推定法尤度関数を最大化するパラメータを求める手法。損失関数の導出
M-037MAP推定事後確率を最大化するパラメータを求める手法。正則化と等価。リッジ回帰
M-038独立性 (Independence)$P(A,B) = P(A)P(B)$ が成り立つ状態。ナイーブベイズ
M-039条件付き確率ある事象が起きた条件下で、別の事象が起きる確率。言語モデル
M-040大数の法則試行回数を増やすと、標本平均は真の平均に収束する法則。モンテカルロ法

2.3 情報理論:情報量の定量化

情報理論は、確率分布の「不確実性」や分布間の「距離」を測る尺度を提供する。これは損失関数(Loss Function)の設計に直結している。例えば、分類問題で用いられる「交差エントロピー誤差」は、真の分布とモデルの予測分布の間のKLダイバージェンスを最小化することと等価である 3

表3:情報理論 頻出用語集

ID用語解説関連トピック
M-041自己情報量事象 $x$ が起きた時の驚きの度合い。$-\log P(x)$。情報量の定義
M-042シャノンエントロピー平均情報量。確率分布の乱雑さ、不確実性の尺度。決定木の分割基準
M-043交差エントロピーある分布 $P$ を別の分布 $Q$ で近似した時の情報量 4分類問題の損失関数
M-044KLダイバージェンス2つの確率分布間の類似度(距離)を測る尺度 3VAE、蒸留
M-045JSダイバージェンスKLダイバージェンスを対称化した指標 3GANの学習
M-046相互情報量2つの確率変数の相互依存性の尺度。$X$を知ることで$Y$の情報がどれだけ得られるか 3特徴量選択

3. 機械学習の基礎:アルゴリズムと評価指標

深層学習は機械学習の一部であり、その基礎概念(教師あり/なし学習、過学習、評価指標など)を共有している。E資格では、深層学習以前の古典的なアルゴリズム(SVM、決定木など)についても、その特性や数理的な背景が問われる。

3.1 古典的アルゴリズムと前処理

決定木とアンサンブル学習

決定木は解釈性が高いが過学習しやすい。これを解決するために、バギング(Random Forest)やブースティング(GBDT, XGBoost)といったアンサンブル手法が開発された。特に勾配ブースティングは、テーブルデータにおいて現在でも深層学習に匹敵する、あるいは凌駕する性能を示すことがあり、実務的な重要性が高い 5。

データ前処理の重要性

「Garbage In, Garbage Out(ゴミを入れればゴミが出る)」の原則通り、データの前処理はモデル性能を決定づける。正規化・標準化によるスケーリング、欠損値の補完(平均値、中央値、または予測モデルによる埋め合わせ)、そしてカテゴリ変数のOne-hotエンコーディングなどは、E資格の実装問題においても頻出の手順である。

表4:機械学習アルゴリズム・前処理 頻出用語集

ID用語解説関連トピック
ML-001線形回帰入力と重みの線形結合で出力を予測する回帰モデル。最小二乗法
ML-002ロジスティック回帰シグモイド関数を用いて確率を出力する線形分類モデル。2値分類
ML-003サポートベクターマシン (SVM)クラス間マージンを最大化する境界を見つける手法。カーネル法
ML-004カーネル法高次元空間へ写像することで、線形分離不可能なデータを分離する手法。RBFカーネル
ML-005決定木条件分岐を繰り返して分類・回帰を行う木構造モデル。情報利得
ML-006ランダムフォレスト複数の決定木を独立に学習させ、多数決をとるバギング手法。並列学習可能
ML-007勾配ブースティング (GBDT)誤差を予測するモデルを逐次的に追加して精度を高める手法。XGBoost, LightGBM
ML-008k-means法データをk個のクラスタに分ける教師なし学習。重心更新を繰り返す。クラスタリング
ML-009k近傍法 (k-NN)未知データの近傍k個のデータの多数決で分類する怠惰学習。距離計算
ML-010主成分分析 (PCA)分散最大方向へ軸を回転させ、次元を削減する手法。特徴抽出、可視化
ML-011正規化 (Normalization)データを0〜1の範囲などにスケーリングする処理。画像データの前処理
ML-012標準化 (Standardization)平均0、分散1になるようにデータを変換する処理。ガウス分布の仮定
ML-013One-hotエンコーディングカテゴリ変数を、1つだけ1で他は0のベクトルに変換する処理。カテゴリカルデータ
ML-014欠損値処理欠損データを平均値代入や削除などで処理すること。データクレンジング
ML-015次元に呪い次元が増えると空間が疎になり、学習に必要なデータが爆発的に増える現象。次元削減の必要性
ML-016白色化 (Whitening)無相関化に加え、分散を1にする処理。前処理

3.2 モデルの評価と検証

学習済みモデルの性能を正しく評価することは、エンジニアの必須スキルである。

混同行列と派生指標

単に「正解率(Accuracy)」を見るだけでは、不均衡データ(例:99%が正常、1%が異常のデータ)においてモデルの無能さを見落とす危険がある。適合率(Precision)、再現率(Recall)、そしてそれらの調和平均であるF値(F1-score)を適切に使い分ける必要がある 5。また、閾値を変動させた際の性能変化を可視化するROC曲線と、その曲線下面積であるAUCも頻出である。

過学習と検証手法

過学習(Overfitting)を防ぐため、データを訓練・検証・テストの3つに分割するホールドアウト法や、k分割交差検証(Cross Validation)を用いる。これらの設計思想と、バイアス・バリアンス分解による誤差の要因分析は、モデル改善の指針となる。

表5:モデル評価・検証 頻出用語集

ID用語解説関連トピック
ML-017過学習 (Overfitting)訓練データに適合しすぎて、未知データへの性能が下がる現象 5正則化が必要
ML-018過少適合 (Underfitting)モデルの表現力不足で、訓練データすら学習できない状態 5モデルの大規模化
ML-019汎化性能未知のデータに対する予測能力。学習の最終目標。テストデータ評価
ML-020ホールドアウト法データを学習用とテスト用に分割する最も単純な検証法。データ分割
ML-021k分割交差検証データをk個に分割し、検証をローテーションする手法。信頼性の高い評価
ML-022混同行列 (Confusion Matrix)TP, FP, FN, TNを表形式に整理したもの。誤りの質の分析
ML-023正解率 (Accuracy)全データのうち、正しく予測できた割合。$(TP+TN)/Total$。基本指標
ML-024適合率 (Precision)正と予測したもののうち、実際に正だった割合。$TP/(TP+FP)$。誤検知の抑制
ML-025再現率 (Recall)実際に正であるもののうち、正と見抜けた割合。$TP/(TP+FN)$。見逃しの抑制
ML-026F値 (F1-score)適合率と再現率の調和平均。トレードオフを考慮した指標。不均衡データ
ML-027ROC曲線閾値を変化させた時の真陽性率(TPR)と偽陽性率(FPR)のプロット。性能比較
ML-028AUC (Area Under Curve)ROC曲線の下側の面積。0.5〜1の値をとる。ランク付け性能
ML-029バイアス・バリアンス分解誤差を「モデルの偏り」と「データの変動への敏感さ」に分解する理論。複雑さの調整
ML-030IoU (Intersection over Union)物体検出などで、予測領域と正解領域の重なり具合を測る指標。セグメンテーション

4. 深層学習の基礎:ニューラルネットワークのメカニズム

ここからがE資格の中核となる深層学習(Deep Learning)領域である。多層パーセプトロン(MLP)から始まり、学習を成立させるための最適化アルゴリズム、勾配消失問題への対処、そして正則化技術について詳述する。

4.1 順伝播・逆伝播と学習サイクル

ニューラルネットワークの学習は、入力信号を出力まで通す「順伝播(Forward Propagation)」と、出力の誤差を入力側へ戻して勾配を計算する「誤差逆伝播法(Backpropagation)」のサイクルで行われる。

誤差逆伝播法の本質

誤差逆伝播法は、微分の連鎖律(Chain Rule)の応用である。計算グラフとして表現することで、複雑な合成関数の偏微分を効率的に計算できる。E資格では、全結合層や活性化関数(ReLU, Sigmoid)の逆伝播時の数式変形や、Pythonでの実装コード(backwardメソッドの中身)が問われることがある 4。

活性化関数の進化

初期のニューラルネットではシグモイド関数が使われていたが、層が深くなると微分値が最大でも0.25にしかならないため、入力層付近で勾配が消失する問題が発生した。これを解決したのがReLU(Rectified Linear Unit)であり、正の領域では勾配が常に1となるため、深層学習の実用化に大きく貢献した。現在はさらに、Leaky ReLU、Swish、Mishなどの改良版が提案されている。

表6:ニューラルネットワーク基礎 頻出用語集

ID用語解説関連トピック
DL-001パーセプトロン複数の入力に重みを掛けて足し合わせ、閾値判定を行う単純なモデル。NNの最小単位
DL-002多層パーセプトロン (MLP)入力層、隠れ層、出力層を持つフィードフォワード型NN。非線形分離可能
DL-003順伝播 (Forward)入力から出力を計算するプロセス。推論時にも使用。計算グラフ
DL-004誤差逆伝播法 (Backprop)誤差関数の勾配を連鎖律を用いて効率的に計算するアルゴリズム 4学習のエンジン
DL-005勾配消失問題下流から上流へ行くにつれ勾配が0に近づき、学習が停滞する問題 4ReLU, LSTM
DL-006勾配爆発問題勾配が極端に大きくなり、重みが発散(NaN)する問題。勾配クリッピング
DL-007活性化関数ニューロンの出力に非線形性を与える関数。これがないと単なる線形変換になる。表現力の源泉
DL-008シグモイド関数入力を $(0, 1)$ に滑らかに圧縮する関数。二値分類の出力層で利用。勾配消失の原因
DL-009tanh (ハイパボリックタンジェント)入力を $(-1, 1)$ に変換する関数。原点対称で学習収束が早い傾向。RNNの内部状態
DL-010ReLU$x>0$ で $x$、$x\le 0$ で 0 を出力する関数。計算が高速で勾配消失しにくい。現代の標準
DL-011Leaky ReLU負の入力に対して小さな傾き(0.01など)を持たせたReLU。Dying ReLU対策
DL-012ソフトマックス関数多クラス分類の出力層で、合計が1になる確率分布に変換する関数。交差エントロピー
DL-013損失関数 (Loss Function)モデルの予測と正解のズレを定量化する関数。これを最小化する 4目的関数
DL-014平均二乗誤差 (MSE)回帰問題で使われる、誤差の二乗の平均 4ガウス分布仮定
DL-015交差エントロピー誤差分類問題で使われる、確率分布間の乖離を測る関数 4最尤推定と等価
DL-016信用割当問題誤差の原因がどの層のどのニューロンにあるかを特定する難しさ 4強化学習でも課題

4.2 最適化と正則化技術

最適化アルゴリズム(Optimizer)

勾配降下法(SGD)は単純だが、局所解(Local Minima)や鞍点(Saddle Point)に捕まりやすい。これを改善するために、慣性項を加えたMomentumや、パラメータごとに学習率を調整するAdaGrad, RMSProp, そしてそれらを統合したAdam(Adaptive Moment Estimation)が開発された。現在ではAdamがデファクトスタンダードとなっている。

汎化性能を高める正則化

モデルが訓練データに過剰適合するのを防ぐため、様々な正則化手法が用いられる。

  • 重み減衰 (Weight Decay): 損失関数に重みのL2ノルムを加えることで、重みが大きくなりすぎるのを防ぐ。
  • ドロップアウト (Dropout): 学習時にランダムにニューロンを無効化し、擬似的なアンサンブル学習効果を得る。
  • バッチ正規化 (Batch Normalization): 各層の入力をミニバッチごとに正規化することで、学習を劇的に安定・高速化させた技術。これにより初期値依存性が低減した。

表7:最適化・正則化・初期化 頻出用語集

ID用語解説関連トピック
DL-017勾配降下法 (GD)損失関数の勾配の逆方向にパラメータを更新する基本手法。全データ使用
DL-018確率的勾配降下法 (SGD)ミニバッチごとに勾配を計算し更新する。局所解を脱出しやすい。計算効率化
DL-019モメンタム (Momentum)過去の勾配の移動平均を慣性項として加え、振動を抑制する。収束の加速
DL-020AdaGrad過去の勾配の二乗和に応じて学習率を減衰させる。稀な特徴の学習
DL-021RMSPropAdaGradの学習率低下を防ぐため、指数移動平均を用いる。RNNに適性
DL-022AdamモメンタムとRMSPropの利点を組み合わせた手法。現在の主流
DL-023重みの初期化学習開始時のパラメータ設定。不適切だと学習が進まない。Xavier, He
DL-024Xavierの初期化前層のノード数に応じて分散を決める。シグモイド・tanh向け。Glorot初期化
DL-025Heの初期化Xavierの2倍の分散を持たせる。ReLU向け。Kaiming初期化
DL-026ドロップアウト学習時にランダムにノードを削除する。テスト時は全ノードを使用。過学習防止
DL-027バッチ正規化ミニバッチ単位で平均・分散を正規化する。内部共変量シフトを抑制。学習の加速
DL-028レイヤー正規化データサンプル単位(層内)で正規化する。バッチサイズに依存しない。RNN, Transformer
DL-029インスタンス正規化画像のチャンネルごとに正規化する。スタイル変換
DL-030グループ正規化チャンネルをグループ化して正規化する。物体検出
DL-031早期終了 (Early Stopping)検証誤差が下がらなくなった時点で学習を打ち切る。過学習防止
DL-032データ拡張 (Augmentation)画像の反転、回転、クロップなどで擬似的にデータを増やす。汎化性能向上
DL-033L1/L2正則化損失関数に重みのノルム項(ペナルティ)を加える。スパース化/平滑化
DL-034蒸留 (Distillation)巨大なモデル(教師)の出力を軽量モデル(生徒)に学習させる。軽量化

5. 深層学習の応用:画像・系列・生成

E資格では、基礎理論を特定のデータタイプ(画像、テキスト)に応用したアーキテクチャの知識が問われる。CNN、RNN、そしてTransformerの理解は必須である。

5.1 CNNと画像処理

畳み込みニューラルネットワーク(CNN)は、画像認識におけるデファクトスタンダードである。

局所受容野と重み共有

全結合層が画像全体のピクセル間の関係を一度に学習しようとするのに対し、CNNは小さなフィルタ(カーネル)をスライドさせて局所的な特徴(エッジなど)を検出する。このフィルタのパラメータは画像全体で共有されるため、パラメータ数を大幅に削減しつつ、位置不変性(画像内のどこにあってもネコはネコと認識できる性質)を獲得している。

代表的なアーキテクチャ

  • ResNet (Residual Networks): スキップ結合(ショートカット)を導入し、入力を出力に直接加算することで、勾配の抜け道を作り、100層を超える超多層ネットワークの学習を可能にした 4
  • EfficientNet: モデルの深さ、幅、解像度を複合係数でバランスよくスケーリングし、最高の効率と精度を実現したモデル。

表8:CNN・画像処理 頻出用語集

ID用語解説関連トピック
AR-001畳み込み層 (Conv)フィルタを用いて画像の特徴マップを生成する層。特徴抽出
AR-002プーリング層特徴マップを縮小(ダウンサンプリング)する層 4位置不変性
AR-003ストライドフィルタをスライドさせる幅。大きくすると出力サイズが小さくなる。サイズ調整
AR-004パディング画像の周囲に0などを埋めてサイズを維持する処理。端の情報の活用
AR-005グローバルアベレージプーリング (GAP)特徴マップごとの平均値をとり、1つの値にする。全結合層の代用 4パラメータ削減
AR-006スキップ結合入力を数層先に加算する結合。残差ブロックを構成する 4勾配消失対策
AR-007AlexNet2012年にILSVRCで圧勝し、ディープラーニングブームの火付け役となったモデル。ReLU, Dropout導入
AR-008VGG3x3の小さなフィルタを重ねて深くしたシンプルな構造。転移学習のベース
AR-009GoogLeNet (Inception)異なるサイズのフィルタを並列適用するInceptionモジュールを採用。1x1畳み込み
AR-010ResNet残差学習(Residual Learning)により超多層化を実現したモデル 4現代の標準
AR-011MobileNetDepthwise Separable Convを用い、計算量を劇的に減らした軽量モデル。スマホ、エッジ
AR-012物体検出 (Object Detection)画像内の物体の位置(矩形)とクラスを特定するタスク。自動運転
AR-013YOLO (You Only Look Once)画像全体を一度に処理し、高速に検出を行う1ステージモデル。リアルタイム性
AR-014SSD異なる解像度の特徴マップを用いて、大小様々な物体を検出する。バランス型
AR-015セマンティックセグメンテーション画素単位でクラス分類を行うタスク。個体の区別はしない。医療画像
AR-016インスタンスセグメンテーション物体検出とセグメンテーションを組み合わせ、個体も区別する。Mask R-CNN
AR-017U-Netエンコーダとデコーダをスキップ結合で結んだU字型モデル。少ないデータで学習
AR-018転移学習学習済みモデルの重みを初期値として利用し、別のタスクを学習する 4開発効率化
AR-019ファインチューニング転移学習の一種で、事前学習モデルの一部または全部を微調整する 4高精度化

5.2 RNNと自然言語処理(NLP)

時系列データの扱い

RNNは隠れ状態をループさせることで「記憶」を持つが、長い系列では勾配消失が起き、文頭の情報を文末まで保持できない問題があった。これを解決したのがLSTM(Long Short-Term Memory)とGRU(Gated Recurrent Unit)である。これらは「ゲート機構」により、情報を忘れる・保持する・更新するという制御を学習可能にした。

AttentionとTransformerの革命

Attention(注意機構)は、入力系列の全ての単語に対して「どこに注目すべきか」という重みを動的に計算する仕組みである。これにより、RNNのような逐次処理が不要となり、並列計算が可能になった。このAttentionのみで構成された「Transformer」の登場(2017年)は、NLPのパラダイムを一変させた。BERTやGPTといった現代の大規模言語モデルはすべてこのTransformerをベースにしている。

表9:RNN・NLP・Transformer 頻出用語集

ID用語解説関連トピック
NLP-001RNN (再帰型ニューラルネット)隠れ状態を次ステップに渡すことで時系列を扱うモデル。音声、テキスト
NLP-002BPTT (Backprop Through Time)時間方向に展開したネットワークに対する誤差逆伝播法。RNNの学習
NLP-003LSTM入力・出力・忘却ゲートを持ち、長期依存性を学習できるRNN。勾配消失対策
NLP-004GRULSTMを簡略化(更新・リセットゲート)し、計算コストを下げたモデル。軽量RNN
NLP-005Word2Vec単語を密なベクトル空間に埋め込む技術(Skip-gram, CBOW)。単語の意味計算
NLP-006Seq2Seq (Encoder-Decoder)入力系列をベクトルに圧縮し、別の系列を出力するモデル。機械翻訳、対話
NLP-007Attention (注意機構)入力の重要な部分に重みを置き、情報を集約する仕組み。翻訳精度向上
NLP-008TransformerRNNを使わず、Attentionのみで構成されたアーキテクチャ。並列計算、LLM
NLP-009Self-Attention入力文内部の単語間の依存関係を計算するAttention。文脈理解
NLP-010Multi-Head Attention複数のAttentionヘッドで異なる部分空間の特徴を捉える。表現力の向上
NLP-011Positional Encoding単語の位置情報をベクトルとして加算する(RNNがないため必要)。順序情報の付与
NLP-012BERTTransformerのEncoderを用いた双方向事前学習モデル。文意理解、穴埋め
NLP-013GPTTransformerのDecoderを用いた単方向生成モデル。文章生成
NLP-014BLEUスコア機械翻訳の評価指標。n-gramの一致度を見る。自動評価
NLP-015Vision Transformer (ViT)画像をパッチに分割し、Transformerに入力する手法。画像認識の新潮流

5.3 生成AIと最新トレンド

2024年以降のシラバスでは、生成AI技術が最重要トピックとなっている 2。

拡散モデル(Diffusion Models)

画像にノイズを徐々に加えて完全なノイズにし、その逆プロセス(ノイズ除去)をニューラルネットで学習することで、ノイズから鮮明な画像を生成する技術。Stable DiffusionやDALL-E 3の基盤技術であり、GANに代わって画像生成の主流となった。

説明可能なAI (XAI)

AIの社会実装に伴い、ブラックボックス性を解消する必要性が高まっている。Grad-CAM(判断根拠のヒートマップ化)やSHAP(特徴量の寄与度算出)といった技術が、信頼性確保のために試験範囲に含まれている 1。

表10:生成AI・先端技術 頻出用語集

ID用語解説関連トピック
GEN-001オートエンコーダ (AE)入力を圧縮(Encode)し復元(Decode)することで特徴を学習する。次元圧縮、異常検知
GEN-002VAE (変分オートエンコーダ)潜在変数を確率分布として扱い、連続的な生成を可能にする。生成モデル
GEN-003GAN (敵対的生成ネットワーク)生成器と識別器を競わせて学習するモデル 1高解像度画像生成
GEN-004拡散モデル (Diffusion Model)ノイズ除去プロセスを学習し、高品質かつ多様な生成を行う。Stable Diffusion
GEN-005基盤モデル (Foundation Model)大規模データで事前学習され、多タスクに適応可能なモデル。LLM, マルチモーダル
GEN-006ファインチューニング (LLM)特定のタスクに合わせて事前学習済みモデルを微調整すること。専門化
GEN-007LoRA低ランク行列を用いて、少数のパラメータで効率的に微調整する。軽量化
GEN-008プロンプトエンジニアリング適切な指示を与えることでLLMの性能を引き出す技術。In-context Learning
GEN-009XAI (説明可能なAI)モデルの予測根拠を人間が理解できる形で提示する技術。信頼性
GEN-010Grad-CAMCNNの勾配情報を用いて、注目領域を可視化する手法 1画像診断の根拠
GEN-011SHAPゲーム理論に基づき、各特徴量の予測への寄与度を算出する 1公平な評価
GEN-012敵対的サンプル微小なノイズを加えてAIを誤認識させる攻撃データ。セキュリティ

6. 強化学習:試行錯誤による最適化

強化学習は、エージェントが環境と相互作用し、報酬を最大化する行動を学ぶ枠組みである。教師あり学習と異なり、正解データ(教師)が存在せず、結果(報酬)が遅れて与えられる点が難しい。

DQNの革新性

Q学習という古典的な手法に、深層学習(CNN)を組み込んだのがDQN(Deep Q-Network)である。Experience Replay(経験再生)によるデータの相関除去や、Target Networkによる学習の安定化といった工夫により、Atariのゲームで人間を超えるスコアを叩き出し、深層強化学習ブームの火付け役となった。

表11:強化学習 頻出用語集

ID用語解説関連トピック
RL-001エージェント / 環境行動する主体と、その舞台となるシステム。強化学習の基本構成
RL-002状態 (State) / 行動 (Action)環境の状況$s$と、エージェントの操作$a$。入力と出力
RL-003報酬 (Reward)行動の結果として環境から与えられる評価値。最大化の目標
RL-004割引率 (Discount Factor)将来の報酬を現在の価値に割り引く係数 $\gamma$。長期視点
RL-005方策 (Policy) $\pi$ある状態でどの行動をとるか決めるルールや確率分布。学習対象
RL-006価値関数状態や行動の「良さ(将来の期待収益)」を表す関数。V関数, Q関数
RL-007ベルマン方程式現在の価値と次状態の価値の関係を表す再帰的な式。動的計画法
RL-008活用と探索 (Exploit/Explore)既知の最善手を選ぶか、未知の可能性を探るかのトレードオフ。$\epsilon$-greedy法
RL-009Q学習最適な行動をとったと仮定してQ値を更新するOff-Policy手法。テーブル形式
RL-010DQN (Deep Q-Network)Q関数をニューラルネットで近似した手法。深層強化学習
RL-011Experience Replay過去の経験を保存し、ランダムに取り出して学習する技術。サンプルの独立性
RL-012方策勾配法方策を直接パラメータ化し、勾配法で更新する手法。連続値行動
RL-013A3C複数のエージェントを並列に動かし、非同期に勾配を更新する。高速化

7. 開発・運用環境:AIの社会実装

モデルを作って終わりではなく、それをシステムとして稼働させるための知識も問われる。Dockerによる環境構築、GPUを用いた分散学習、そしてエッジデバイスへの軽量化実装(量子化・蒸留)が含まれる。

表12:開発・運用環境 頻出用語集

ID用語解説関連トピック
DEV-001Docker / コンテナアプリケーションを実行環境ごとパッケージ化する技術 5再現性確保
DEV-002データ並列化モデルをコピーし、データを分割して並列処理する手法 6学習高速化
DEV-003モデル並列化モデル自体を分割し、異なるGPUに配置する手法 6巨大モデル学習
DEV-004量子化 (Quantization)パラメータのビット数(32bit→8bit等)を減らし軽量化する。推論高速化
DEV-005プルーニング (枝刈り)重要度の低い結合(重み)を削除してスパース化する。モデル圧縮
DEV-006エッジAI端末側(スマホ、IoT機器)で推論を行う形態。低遅延、プライバシー
DEV-007MLOps機械学習モデルの開発・運用サイクルを管理・自動化する手法。CI/CD
DEV-008連合学習 (Federated Learning)データを集めず、各端末の更新量のみを集約して学習する 2プライバシー保護

8. 結論:合格に向けた学習戦略

JDLA E資格の試験範囲は広範かつ専門的であるが、根底にあるのは「数理的な基礎」と「実装のロジック」である。本調査で整理した約200の用語は、単なる暗記対象ではなく、互いに関連し合う知識のネットワークのノードである。

受験者には以下の戦略を推奨する:

  1. 数式の「意味」を掴む: 誤差逆伝播やAttentionの数式を、具体的なデータの流れとしてイメージできるようにする。
  2. 新傾向への対応: Transformer、生成AI、XAIなどの新トピックは、仕組みを重点的に理解する。
  3. 実装との往復: 理論(用語)がPyTorch等のコードでどう書かれるかを確認し、実践的な理解を深める。

この体系化された知識マップが、E資格合格、ひいては実力あるAIエンジニアへの道標となることを願う。

タイトルとURLをコピーしました