iPAS AI應用規劃師經典題庫

#1

★★★★★

在訓練深度學習模型時，用於根據損失函數的梯度來更新模型權重的演算法被稱為什麼？

A

激活函數 (Activation Function)

B

損失函數 (Loss Function)

C

優化器 (Optimizer)

D

評估指標 (Evaluation Metric)

答案解析

優化器是深度學習訓練過程中的核心組件，它實現了根據計算出的梯度來調整模型參數（權重和偏置）的具體策略，目標是最小化損失函數。常見的優化器包括隨機梯度下降法 (Stochastic Gradient Descent, SGD)、Adam、RMSprop、Adagrad 等。激活函數引入非線性，損失函數衡量預測誤差，評估指標用於評估模型性能，但它們本身不負責更新權重。

#2

★★★★

對於二元分類問題，最常用的損失函數是？

A

均方誤差 (Mean Squared Error, MSE)

B

二元交叉熵 (Binary Cross-Entropy)

C

分類交叉熵 (Categorical Cross-Entropy)

D

平均絕對誤差 (Mean Absolute Error, MAE)

答案解析

交叉熵損失函數衡量的是模型預測的機率分佈與真實標籤的機率分佈之間的差異。對於只有兩個類別（例如 0 或 1）的二元分類問題，通常使用二元交叉熵損失函數。分類交叉熵則用於處理三個或更多類別的多類別分類問題。均方誤差 (MSE) 和平均絕對誤差 (MAE) 主要用於迴歸問題，衡量預測值與真實連續值之間的差距。

#3

★★★★★

在評估分類模型性能時，混淆矩陣 (Confusion Matrix) 中的「真陽性」(True Positive, TP) 代表什麼？

A

模型將負類別樣本錯誤預測為正類別的數量

B

模型將正類別樣本正確預測為正類別的數量

C

模型將正類別樣本錯誤預測為負類別的數量

D

模型將負類別樣本正確預測為負類別的數量

答案解析

混淆矩陣是評估分類模型性能的基礎工具，它總結了模型預測結果與真實標籤之間的對應關係。在二元分類中：真陽性 (TP)：實際為正，預測也為正。假陽性 (False Positive, FP)：實際為負，預測為正（第一型錯誤 Type I Error）。假陰性 (False Negative, FN)：實際為正，預測為負（第二型錯誤 Type II Error）。真陰性 (True Negative, TN)：實際為負，預測也為負。因此，TP 代表模型正確識別出正類別樣本的數量。

#4

★★★★

評估迴歸模型預測性能時，下列哪個指標衡量的是預測值與真實值之間差值的平方的平均值？

A

均方誤差 (Mean Squared Error, MSE)

B

平均絕對誤差 (Mean Absolute Error, MAE)

C

決定係數 (Coefficient of Determination, R²)

D

準確率 (Accuracy)

答案解析

均方誤差 (MSE) 是迴歸問題中最常用的評估指標和損失函數之一。它計算每個樣本的預測值與真實值之差的平方，然後求所有樣本的平均值。MSE 對較大的誤差給予更高的權重。MAE 計算的是差值的絕對值的平均值，對異常值相對不敏感。R² 衡量模型解釋的變異量佔總變異量的比例。準確率是用於分類問題的指標。

#5

★★★★

在 K-摺交叉驗證 (K-Fold Cross-Validation) 中，如果 K 值設定得非常大，接近於樣本總數 N，這種情況被稱為什麼？

A

簡單驗證 (Simple Hold-out Validation)

B

留一法交叉驗證 (Leave-One-Out Cross-Validation, LOOCV)

C

自助法 (Bootstrap)

D

分層抽樣 (Stratified Sampling)

答案解析

當 K-摺交叉驗證中的 K 等於樣本總數 N 時，每次迭代只留下一個樣本作為驗證集，其餘 N-1 個樣本用於訓練。這個過程重複 N 次，每個樣本都被用作驗證集一次。這種特殊的 K-摺交叉驗證稱為留一法交叉驗證 (LOOCV)。LOOCV 的優點是評估結果的偏差很小（因為每次都用了幾乎所有數據訓練），但計算成本非常高，尤其是當 N 很大時。簡單驗證是單次劃分。Bootstrap 是有放回抽樣。分層抽樣是數據劃分時保持類別比例的策略。

#6

★★★★★

當一個模型在訓練集上表現非常好，但在未見過的測試集上表現很差時，這種現象被稱為什麼？

A

欠擬合 (Underfitting)

B

過擬合 (Overfitting)

C

高偏差 (High Bias)

D

模型收斂 (Model Convergence)

答案解析

過擬合是指模型學習到了訓練數據中過多的細節和噪聲，以至於失去了對數據普遍規律的把握能力。這導致模型在訓練集上誤差很小，但在新的、未見過的數據（如測試集）上誤差很大，泛化能力差。欠擬合則是指模型過於簡單，連訓練數據的模式都未能很好地學習。高偏差通常與欠擬合相關。模型收斂是指訓練過程中損失函數趨於穩定的狀態。

#7

★★★★

在評估二元分類器性能時，召回率 (Recall) 或稱敏感度 (Sensitivity) 的計算公式是？

A

TP / (TP + FP)

B

TP / (TP + FN)

C

TN / (TN + FP)

D

2 * (Precision * Recall) / (Precision + Recall)

答案解析

召回率衡量的是所有實際為正類別的樣本中，被模型正確預測為正類別的比例。其計算公式為 TP / (TP + FN)，其中 TP 是真陽性數量，FN 是假陰性（實際為正但被預測為負）數量。(TP + FN) 代表所有實際為正的樣本總數。召回率關注的是「模型找回了多少真正的正樣本」。選項 A 是精確率 (Precision)。選項 C 是特異度 (Specificity)。選項 D 是 F1 分數 (F1-Score)。

#8

★★★★

學習率 (Learning Rate) 是優化器中的一個重要超參數，如果學習率設定得過大，最可能導致什麼問題？

A

模型訓練速度過慢，難以收斂

B

損失函數在最小值附近震盪甚至發散，無法收斂

C

模型容易陷入局部最小值

D

模型參數完全不更新

答案解析

學習率決定了模型參數沿著梯度反方向更新的步長。如果學習率設定得過大，每次更新的步長太大，可能會導致參數在損失函數的谷底來回震盪，無法穩定地到達最小值，甚至可能越過最小值導致損失函數值不降反升，最終發散。相反，如果學習率過小，訓練速度會很慢，且可能更容易陷入不良的局部最小值或鞍點。因此，選擇合適的學習率對於模型訓練至關重要。

#9

★★★★

在模型訓練過程中，繪製學習曲線 (Learning Curve) - 即訓練集和驗證集上的損失或評估指標隨訓練輪數 (epochs) 的變化曲線 - 主要目的是？

A

直接選取最終的模型權重

B

診斷模型是否存在欠擬合、過擬合或判斷訓練是否充分

C

計算模型的推論時間

D

確定輸入特徵的重要性

答案解析

學習曲線是診斷模型訓練狀態的重要工具：1) 如果訓練損失和驗證損失都很高且相近，可能表示模型欠擬合。2) 如果訓練損失持續下降但驗證損失在某個點後開始上升，表示模型開始過擬合。3) 如果訓練損失和驗證損失都還在下降且差距不大，表示模型可能還可以繼續訓練。4) 如果兩者都收斂到較低值且差距不大，表示訓練比較理想。通過觀察學習曲線的形狀，可以幫助判斷模型是否存在問題、是否需要調整模型複雜度、增加數據、使用正則化或調整訓練過程（如早停）。

#10

★★★★

F1 分數 (F1-Score) 是哪個或哪些指標的調和平均數 (Harmonic Mean)？

A

準確率 (Accuracy) 和召回率 (Recall)

B

精確率 (Precision) 和召回率 (Recall)

C

真陽性率 (True Positive Rate) 和假陽性率 (False Positive Rate)

D

敏感度 (Sensitivity) 和特異度 (Specificity)

答案解析

F1 分數是評估二元分類模型常用的綜合指標，特別是在類別不平衡或者同時關注精確率和召回率時。它是精確率 (Precision) 和召回率 (Recall) 的調和平均數，計算公式為 F1 = 2 * (Precision * Recall) / (Precision + Recall)。調和平均數的特性使得 F1 分數傾向於給予較低的指標更大的影響力，只有當精確率和召回率都較高時，F1 分數才會高。選項 C 的兩個指標用於繪製 ROC 曲線。選項 D 中，敏感度就是召回率。

#11

★★★

在進行模型訓練前，通常需要將數據集劃分為哪幾個部分？

A

僅訓練集

B

訓練集和測試集

C

訓練集、驗證集 (或稱開發集) 和測試集

D

訓練集和部署集

答案解析

標準的機器學習流程通常將數據劃分為三個互斥的集合：1) 訓練集 (Training Set)：用於訓練模型參數。2) 驗證集 (Validation Set / Development Set)：用於在訓練過程中監控模型性能、調整超參數（如學習率、正則化強度、模型結構）以及進行模型選擇。3) 測試集 (Test Set)：在模型最終確定後，用於評估模型的最終泛化能力，測試集不應參與任何訓練或超參數調整過程，以保證評估的客觀性。只劃分訓練集和測試集容易導致在測試集上過度調優超參數，使得測試集評估結果過於樂觀。

#12

★★★★

下列哪項措施最能有效緩解模型的欠擬合 (Underfitting) 問題？

A

增加正則化強度 (Regularization Strength)

B

增加模型的複雜度（例如，使用更深或更寬的網路、增加特徵）

C

減少訓練數據量

D

使用早停法 (Early Stopping)

答案解析

欠擬合通常意味著模型過於簡單，無法捕捉數據中的模式。因此，最直接的解決方法是增加模型的容量或複雜度，使其有能力學習更複雜的關係。這可以通過：增加神經網路的層數或神經元數量、使用更複雜的模型架構、添加更多有用的特徵、減少正則化強度等方式實現。增加正則化強度、減少數據量和早停法通常是用來對抗過擬合的策略。

#13

★★★

Adam 優化器結合了哪兩種常用優化演算法的思想？

A

SGD 和 L-BFGS

B

Momentum 和 RMSprop

C

Adagrad 和 Adadelta

D

牛頓法 (Newton's method) 和共軛梯度法 (Conjugate Gradient)

答案解析

Adam (Adaptive Moment Estimation) 優化器是一種廣泛應用於深度學習的自適應學習率優化演算法。它結合了兩種方法的優點：1) Momentum：引入動量項來加速梯度下降，並抑制震盪。Momentum 會累積過去梯度的指數衰減移動平均。2) RMSprop：為每個參數維護一個自適應的學習率，基於近期梯度平方的指數衰減移動平均來調整學習率的大小（梯度大的維度學習率減小，梯度小的維度學習率增大）。Adam 同時計算梯度的一階動量 (Momentum) 和二階動量（類似 RMSprop 的梯度平方）的指數衰減移動平均，並利用它們來調整每個參數的學習率。

#14

★★★

決定係數 R² (R-squared) 的值越接近 1，通常表示迴歸模型？

A

預測誤差越大

B

對數據變異性的解釋能力越強，擬合效果越好

C

模型越簡單

D

模型越不可能過擬合

答案解析

決定係數 R² 衡量的是迴歸模型所解釋的因變數（目標變數）變異量佔總變異量的比例。其值域通常在 0 到 1 之間（也可能為負，表示模型比簡單預測平均值還差）。R² 越接近 1，表示模型能夠解釋數據中越多的變異性，模型的擬合效果越好。R² 為 0 表示模型不比直接預測平均值更好。需要注意的是，R² 會隨自變數數量的增加而增加（即使增加的變數無用），因此在比較不同模型時可能需要使用調整後的 R² (Adjusted R²)。高 R² 並不直接意味著模型沒有過擬合。

#15

★★★★

在比較不同模型的性能時，僅僅比較它們在測試集上的單一評估指標（如準確率）可能存在不足，為什麼？

A

因為測試集通常太小，結果不可靠

B

因為不同指標關注模型的不同方面（如召回率 vs 精確率），且單一指標可能無法反映業務需求或數據特性（如類別不平衡）

C

因為模型越複雜，準確率總是越高

D

因為評估指標計算過於耗時

答案解析

依賴單一評估指標進行模型比較可能具有誤導性：1) 不同指標側重不同：例如，在垃圾郵件檢測中，精確率（預測為垃圾郵件的準確性）可能比召回率（找出所有垃圾郵件的能力）更重要；而在疾病篩查中，召回率（找出所有患者）通常至關重要。2) 數據特性影響：在類別極不平衡的數據集上，即使模型將所有樣本都預測為多數類，準確率也可能很高，但這顯然不是一個好模型。3) 業務需求：最終的模型選擇應結合具體的業務目標和對不同類型錯誤的容忍度。因此，通常需要綜合考慮多個評估指標（如準確率、精確率、召回率、F1 分數、AUC 等），並結合業務場景來做出決策。

#16

★★★★★

ROC 曲線 (Receiver Operating Characteristic Curve) 繪製的是哪兩個指標之間的關係？

A

精確率 (Precision) vs 召回率 (Recall)

B

真陽性率 (True Positive Rate, TPR) vs 假陽性率 (False Positive Rate, FPR)

C

準確率 (Accuracy) vs 訓練輪數 (Epochs)

D

損失函數值 (Loss) vs 學習率 (Learning Rate)

答案解析

ROC 曲線是評估二元分類器性能的常用圖形工具。它通過改變分類閾值，繪製出一系列對應的真陽性率 (TPR，也即召回率 Recall 或敏感度 Sensitivity) 和假陽性率 (FPR)。TPR = TP / (TP + FN)，表示正樣本被正確識別的比例。FPR = FP / (TN + FP)，表示負樣本被錯誤識別為正樣本的比例。ROC 曲線下的面積 (Area Under the Curve, AUC) 是常用的匯總指標，AUC 值越接近 1，表示分類器的性能越好，區分正負樣本的能力越強。選項 A 繪製的是 Precision-Recall 曲線。

#17

★★★

在訓練過程中，損失函數的主要作用是？

A

量化模型預測結果與真實目標之間的差異，為優化器提供指導信號

B

直接評估模型在未見過數據上的泛化能力

C

對輸入數據進行預處理和特徵提取

D

增加模型的複雜度以防止欠擬合

答案解析

損失函數（也稱成本函數 Cost Function 或目標函數 Objective Function）定義了模型預測值與真實值之間的「距離」或「誤差」。模型訓練的目標就是通過調整參數來最小化這個損失函數的值。損失函數計算出的值及其梯度被優化器用來決定如何更新模型參數。評估模型泛化能力通常使用驗證集或測試集上的評估指標 (Metrics)。

#18

★★★★

高方差 (High Variance) 通常與模型的哪種問題相關？

A

欠擬合 (Underfitting)

B

過擬合 (Overfitting)

C

數據量不足

D

特徵維度過低

答案解析

方差衡量的是模型對於訓練數據中隨機性的敏感程度。高方差意味著模型在不同的訓練數據子集上訓練時，其預測結果會有較大的波動。這通常發生在模型過於複雜，以至於學習到了訓練數據中的噪聲和偶然模式時，即過擬合。這樣的模型在訓練集上可能表現很好，但在測試集上表現較差。相對地，高偏差 (High Bias) 通常與欠擬合相關，表示模型未能捕捉到數據的基本模式。

#19

★★★

當模型訓練過程中的損失值變為 NaN (Not a Number) 時，一個可能的原因是？

A

學習率設置得過小

B

學習率設置得過大導致梯度爆炸 (Gradient Explosion) 或數值不穩定

C

模型已經完美收斂

D

數據量太少

答案解析

損失值變為 NaN 通常表示訓練過程中出現了數值計算問題。一個常見原因是梯度爆炸，即梯度值變得非常大，導致參數更新過度，進而產生無效的數值（如除以零、對負數取對數等）。梯度爆炸往往是由於學習率設置過大、不恰當的參數初始化或網路設計問題引起的。輸入數據中包含 NaN 值或無限大值也可能導致此問題。學習率過小通常導致訓練緩慢，而非 NaN。

#20

★★★

在劃分數據集時，使用分層抽樣 (Stratified Sampling) 的主要目的是？

A

確保訓練集、驗證集和測試集完全隨機

B

確保劃分後的各個數據子集（訓練、驗證、測試）中，目標變數的類別比例與原始數據集大致相同

C

僅選擇數據集中最重要的特徵

D

減少數據集的總體大小

答案解析

尤其是在處理分類問題，特別是類別不平衡的數據集時，簡單的隨機劃分可能導致某些子集（尤其是較小的驗證集或測試集）中某些類別的樣本過少甚至缺失。分層抽樣是一種改進的抽樣策略，它在劃分數據時會考慮目標變數的類別分佈，確保每個劃分出的子集都保持與原始數據集相似的類別比例。這有助於獲得更可靠的模型評估結果。

#21

★★★

批次大小 (Batch Size) 是訓練深度學習模型時的一個超參數，它指的是？

A

在每次參數更新時使用的訓練樣本數量

B

模型中參數的總數量

C

模型訓練的總輪數 (epochs)

D

驗證集的大小

答案解析

在基於梯度下降的優化算法中（如 SGD, Adam），通常不會一次性使用所有訓練數據來計算梯度並更新參數（成本太高）。而是將訓練數據分成若干個批次 (mini-batches)，每次迭代使用一個批次的數據來計算梯度並更新參數。批次大小就是每個批次包含的樣本數量。批次大小會影響梯度估計的準確性、訓練的穩定性、收斂速度以及記憶體消耗。

#22

★★★

在多類別分類問題中，宏平均 (Macro Average) F1 分數是如何計算的？

A

將所有類別的 TP, FP, FN 加總後計算整體的 F1 分數

B

分別計算每個類別的 F1 分數，然後取算術平均值

C

根據每個類別的樣本數量加權計算 F1 分數的平均值

D

只計算樣本數最多的那個類別的 F1 分數

答案解析

在多類別分類中，評估指標有多種平均方式：宏平均 (Macro Average)：獨立計算每個類別的指標（如 Precision, Recall, F1），然後取所有類別指標的算術平均值。它平等對待每個類別，不受類別樣本數量影響。微平均 (Micro Average)：將所有類別的 TP, FP, TN, FN 彙總起來，然後計算整體的指標。它受樣本數量多的類別影響較大。加權平均 (Weighted Average)：類似宏平均，但在計算平均值時根據每個類別的樣本數量（支持度）進行加權。因此，宏平均 F1 是先算每個類的 F1，再求平均。選項 A 描述的是微平均的思路。選項 C 描述的是加權平均。

#23

★★

均方根誤差 (Root Mean Squared Error, RMSE) 與均方誤差 (MSE) 的關係是？

A

RMSE 是 MSE 的平方

B

RMSE 是 MSE 的平方根

C

RMSE 是 MSE 的倒數

D

兩者沒有直接關係

答案解析

RMSE 是迴歸問題中另一個常用的評估指標。它直接定義為均方誤差 (MSE) 的平方根。即 RMSE = sqrt(MSE)。RMSE 的優點是其單位與目標變數的單位相同，使得誤差的大小更具直觀可解釋性。與 MSE 類似，RMSE 也對較大的誤差比較敏感。

#24

★★★

下列哪種方法不屬於模型正則化 (Regularization) 技術，即不直接用於防止過擬合？

A

L1 正則化 (LASSO)

B

Dropout

C

學習率衰減 (Learning Rate Decay)

D

數據增強 (Data Augmentation)

答案解析

正則化是旨在降低模型泛化誤差而非訓練誤差的技術，通常通過限制模型複雜度來防止過擬合。L1/L2 正則化通過在損失函數中添加權重範數懲罰項來限制權重大小。Dropout 通過隨機失活神經元來訓練多個子網路。數據增強通過擴充訓練數據來提高模型魯棒性。早停法也是一種隱式的正則化。學習率衰減是一種調整學習過程的策略，它在訓練過程中逐步降低學習率，有助於模型在後期更穩定地收斂到最小值，但其主要目的不是直接限制模型複雜度或防止過擬合，儘管合適的學習策略有助於找到更好的泛化解。

#25

★★★

當需要從多個候選模型中選擇最佳模型時，最可靠的依據通常是比較它們在哪個數據集上的性能？

A

訓練集 (Training Set)

B

獨立的驗證集 (Validation Set) 或通過交叉驗證得到的平均性能

C

測試集 (Test Set)

D

模型開發者提供的基準性能

答案解析

訓練集上的性能容易受到過擬合的影響，不能代表模型的泛化能力。測試集應該留作最終評估，如果在模型選擇階段就使用測試集來比較和挑選模型，會導致信息洩漏，使得最終在測試集上的評估結果過於樂觀。驗證集（或交叉驗證）的目的正是在模型開發和選擇過程中，提供一個獨立於訓練數據的基準來比較不同模型或超參數設置的泛化性能。因此，模型選擇應該基於在驗證集上的表現。

#26

★★

模型訓練時，如果發現驗證集損失遠高於訓練集損失，這通常是哪個問題的跡象？

A

欠擬合 (Underfitting)

B

過擬合 (Overfitting)

C

數據洩漏 (Data Leakage)

D

梯度消失 (Vanishing Gradient)

答案解析

訓練集損失低表示模型很好地擬合了訓練數據，而驗證集損失高則表示模型在未見過的數據上表現不佳。這兩者之間存在較大差距是過擬合的典型表現：模型學習到了訓練數據特有的噪聲或模式，導致泛化能力下降。欠擬合通常表現為訓練集和驗證集損失都很高。數據洩漏是指訓練數據中包含了測試數據的信息。梯度消失是訓練過程中的問題。

#27

★★

隨機梯度下降法 (SGD) 與批次梯度下降法 (Batch Gradient Descent) 的主要區別在於？

A

SGD 使用了動量

B

每次參數更新時使用的樣本數量不同

C

SGD 不需要計算梯度

D

只有 SGD 能用於深度學習

答案解析

批次梯度下降法在每次參數更新時，使用整個訓練集的數據來計算梯度。這使得梯度估計準確，但計算成本高，尤其在數據量大時。隨機梯度下降法 (SGD) 則在每次更新時只使用一個隨機選擇的樣本來計算梯度。這使得計算速度快，且噪聲有助於跳出局部最小值，但梯度估計不穩定。小批次梯度下降法 (Mini-batch Gradient Descent) 是兩者的折衷，每次更新使用一小批樣本（batch size 通常為幾十到幾百）。目前深度學習中常用的「SGD」通常指小批次梯度下降法。

#28

★★★

對於多標籤分類問題（一個樣本可以同時屬於多個類別），常用的損失函數是？

A

分類交叉熵 (Categorical Cross-Entropy)

B

多個獨立的二元交叉熵損失之和或平均 (Sum/Mean of Binary Cross-Entropies)

C

均方誤差 (Mean Squared Error, MSE)

D

餘弦相似度損失 (Cosine Similarity Loss)

答案解析

多標籤分類與多類別分類不同。多類別分類中，一個樣本只屬於一個類別（例如，數字識別 0-9）。多標籤分類中，一個樣本可以有多個標籤（例如，一部電影可以同時是「喜劇」、「愛情」、「動作」）。對於多標籤分類，通常將其視為多個獨立的二元分類問題，即對每個可能的標籤，預測樣本是否屬於該標籤。因此，常用的損失函數是計算每個標籤的二元交叉熵損失，然後將它們加總或取平均。模型的最後一層通常使用 Sigmoid 激活函數（而非 Softmax）。分類交叉熵適用於多類別分類。

#29

★★★

精確率 (Precision) 在什麼場景下是特別重要的評估指標？

A

當假陽性 (False Positive, FP) 的代價非常高時（例如，將正常郵件誤判為垃圾郵件）

B

當假陰性 (False Negative, FN) 的代價非常高時（例如，未能檢測出患有嚴重疾病的病人）

C

當數據集非常平衡時

D

當需要模型找出所有可能的正樣本時

答案解析

精確率衡量的是所有被模型預測為正類別的樣本中，實際也為正類別的比例 (Precision = TP / (TP + FP))。它關注的是「模型預測為正的結果有多準確」。當假陽性（把負的誤判為正的）的後果很嚴重時，我們希望模型的預測盡可能準確，即精確率要高。例如，在垃圾郵件過濾中，我們不希望將重要的正常郵件錯判為垃圾郵件（高代價 FP），因此高精確率很重要。相反，當假陰性（把正的誤判為負的）代價很高時（如疾病篩查），召回率通常更受關注。

#30

★★

為什麼在模型訓練和評估中需要將數據集劃分為訓練集、驗證集和測試集，而不是只劃分為訓練集和測試集？

A

為了增加總數據量

B

為了避免在調整超參數或選擇模型時過度擬合測試集，從而獲得對最終模型泛化能力更客觀的評估

C

為了讓模型訓練更快

D

因為法規要求必須有三個數據集

答案解析

如果在模型開發過程中（包括超參數調整、特徵選擇、模型結構比較等）反覆使用測試集來評估和指導決策，那麼模型實際上是在間接地「學習」測試集的特性。這會導致在該測試集上的性能評估結果過於樂觀，不能真實反映模型在全新未見數據上的表現。引入驗證集的目的就是提供一個在開發階段用於調優和選擇模型的「代理測試集」，而將真正的測試集完全保留到最後，僅用於對最終選定的模型進行一次性的、客觀的泛化能力評估。

#31

★★★

數據增強 (Data Augmentation) 主要用於解決或緩解哪個問題？

A

欠擬合 (Underfitting)

B

過擬合 (Overfitting) 以及訓練數據不足的問題

C

梯度消失 (Vanishing Gradient)

D

計算資源不足

答案解析

數據增強通過對現有的訓練樣本應用各種合理的變換（例如，對圖像進行旋轉、縮放、裁剪、顏色變換；對文本進行同義詞替換、隨機插入/刪除等）來人工地生成更多樣化的訓練數據。這相當於擴大了訓練集的規模和多樣性，有助於模型學習到更魯棒、對變換更不敏感的特徵，從而提高模型的泛化能力，有效緩解因數據量不足導致的過擬合問題。

#32

★★★

在迴歸問題中，如果目標變數的數值範圍非常廣，或者存在極端值，使用哪個評估指標可能比 MSE 更合適，因為它對異常值不那麼敏感？

A

均方根誤差 (RMSE)

B

平均絕對誤差 (Mean Absolute Error, MAE)

C

決定係數 (R²)

D

平均偏差 (Mean Bias Error, MBE)

答案解析

MSE 和 RMSE 計算的是誤差的平方，這會放大較大誤差（異常值）的影響。MAE 計算的是誤差的絕對值，對所有誤差給予相同的權重，因此對異常值相對不敏感。如果在應用中，我們不希望少數異常值對模型評估產生過大的影響，或者希望誤差的單位與目標變數相同且易於解釋，MAE 可能是更合適的選擇。

#33

★★★

模型除錯時，檢查訓練數據的質量和預處理步驟是否正確，屬於哪個方面的檢查？

A

數據層面 (Data Level)

B

模型架構層面 (Model Architecture Level)

C

訓練過程層面 (Training Process Level)

D

評估指標層面 (Evaluation Metric Level)

答案解析

模型表現不佳的原因可能來自多個方面。數據層面的問題是常見的根源，包括：數據標註錯誤、數據採集偏差、數據清洗不徹底（如存在異常值、缺失值處理不當）、特徵工程問題、預處理（如正規化、標準化）錯誤或遺漏等。"Garbage in, garbage out" 原則強調了數據質量對模型性能的決定性影響。因此，仔細檢查數據是模型除錯的關鍵第一步。

#34

★★

A/B 測試 (A/B Testing) 在模型評估和選擇中的主要應用場景是？

A

在模型訓練前進行數據探索

B

在真實的線上環境中比較不同模型（或版本）對實際業務指標的影響

C

僅用於計算模型的離線評估指標

D

用於自動調整模型的超參數

答案解析

離線評估（使用驗證集/測試集計算指標）雖然重要，但有時無法完全反映模型在實際應用中的真實效果。A/B 測試是一種線上實驗方法，它將用戶隨機分成兩組（或多組），一組使用現有模型（對照組 A），另一組使用新模型（實驗組 B），然後在真實環境中運行一段時間，比較兩組用戶在關心的實際業務指標（如點擊率、轉換率、用戶停留時間等）上的表現差異。這可以更直接、更可靠地評估新模型是否真的帶來了業務價值。

#35

★★★

早停法 (Early Stopping) 的基本原理是？

A

在訓練一開始就停止

B

在訓練過程中監控驗證集上的性能，當性能不再提升（或開始下降）時停止訓練

C

只訓練模型的一部分參數

D

使用非常小的學習率

答案解析

早停法是一種簡單而有效的防止過擬合的策略。它在模型訓練的每個輪數（或一定間隔）結束後，在獨立的驗證集上評估模型性能（通常是驗證損失或某個關鍵評估指標）。如果發現驗證集上的性能在連續若干次評估中不再改善，甚至開始變差，就停止訓練過程，並選取在驗證集上性能最佳的那個時間點的模型作為最終模型。這樣可以防止模型在訓練集上繼續擬合噪聲而導致泛化能力下降。

#36

★★★

AUC (Area Under the ROC Curve) 指標的值域通常是多少？

A

0 到 0.5

B

0.5 到 1

C

-1 到 1

D

0 到無限大

答案解析

AUC 是 ROC 曲線下的面積。ROC 曲線的橫軸是假陽性率 (FPR)，縱軸是真陽性率 (TPR)，兩者的取值範圍都是 0 到 1。一個隨機猜測的分類器對應的 ROC 曲線是一條從 (0,0) 到 (1,1) 的對角線，其 AUC 為 0.5。一個完美的分類器對應的 ROC 曲線會經過左上角的 (0,1) 點，其 AUC 為 1。實際的分類器 AUC 通常介於 0.5 和 1 之間。AUC 值越接近 1，表示分類器的整體性能越好，區分正負樣本的能力越強。如果 AUC 小於 0.5，通常表示模型的預測結果比隨機猜測還差，可能需要檢查模型或標籤定義。

#37

★★

進行交叉驗證時，為什麼通常建議在劃分數據前先對數據進行洗牌 (Shuffle)？

A

為了消除數據原始順序可能帶來的偏差，確保劃分出的各摺數據分佈更均勻

B

為了增加數據的總量

C

為了加快計算速度

D

為了減少特徵的數量

答案解析

如果原始數據是按照某種特定順序排列的（例如，按時間順序、按類別標籤），直接按順序劃分數據進行交叉驗證可能會導致某些摺包含的數據特性與其他摺差異很大，從而使得評估結果產生偏差。例如，如果數據按類別排序，可能導致某些摺只包含特定類別的樣本。在劃分前對數據進行隨機洗牌，可以打破原始順序的影響，使得劃分出的每個摺包含的數據在統計特性上更可能接近於整體數據分佈，從而得到更穩定和可靠的交叉驗證結果。但對於時間序列數據，通常不能隨意洗牌，需要採用特殊的交叉驗證方式（如滾動預測）。

#38

★★★

偏差 (Bias) 主要反映了模型的哪個方面的能力？

A

模型對數據基本模式的學習和擬合能力

B

模型對訓練數據噪聲的敏感度

C

模型訓練的速度

D

模型參數的數量

答案解析

偏差衡量的是模型預測值的期望（平均預測）與真實值之間的差距。高偏差意味著模型的預測系統性地偏離了真實值，通常是因為模型過於簡單，未能捕捉到數據中潛在的複雜關係或基本模式。換句話說，偏差反映了模型本身的學習能力或對數據的擬合能力。高偏差通常導致欠擬合。方差則反映了模型對訓練數據擾動的敏感度。

#39

★★

在什麼情況下，可能會選擇使用自定義的損失函數而不是標準損失函數？

A

當標準損失函數計算太慢時

B

當標準損失函數不能很好地反映特定業務目標或數據特性時（例如，對不同類型的錯誤有不同的懲罰）

C

當訓練數據量非常小時

D

當不想使用優化器時

答案解析

雖然標準損失函數（如交叉熵、MSE）在許多常見任務中效果良好，但它們可能無法完全捕捉特定業務場景的需求。例如，在某些應用中，假陽性和假陰性的代價可能完全不同，我們可能希望設計一個損失函數來更重地懲罰代價更高的錯誤。或者，數據可能具有某些特殊結構或約束，需要通過損失函數來體現。在這些情況下，設計一個能更精確反映業務目標或數據特性的自定義損失函數，可能引導模型學習到更符合需求的解決方案。

#40

★★★

對模型進行誤差分析 (Error Analysis) 的主要目的是？

A

計算模型的整體準確率

B

深入了解模型在哪些類型的樣本上容易出錯，找出模型改進的方向

C

加快模型的訓練速度

D

證明模型沒有任何錯誤

答案解析

僅僅知道模型的整體性能指標（如 80% 準確率）是不夠的。誤差分析需要我們深入檢查模型預測錯誤的那些樣本，分析它們的共同特徵或歸屬於哪些特定情況（例如，圖像模糊、文本包含俚語、數據屬於某個少數類別等）。通過理解模型錯誤的模式，可以更有針對性地提出改進策略，例如：收集更多特定類型的數據、改進數據預處理、調整模型架構、或者針對性地進行特徵工程等。

#41

★★

在分類問題中，準確率 (Accuracy) 指標在什麼情況下可能會產生誤導？

A

當數據集非常大時

B

當數據集存在嚴重的類別不平衡時

C

當模型訓練速度很快時

D

當模型使用了複雜的架構時

答案解析

準確率計算的是模型正確預測的樣本數佔總樣本數的比例 (Accuracy = (TP + TN) / (TP + TN + FP + FN))。當數據集類別嚴重不平衡時，例如 99% 的樣本屬於負類，1% 屬於正類，一個簡單地將所有樣本都預測為多數類別的「模型」也能達到 99% 的準確率，但它對於識別少數類別樣本完全無效。在這種情況下，準確率就失去了評估模型真實性能的意義，需要結合精確率、召回率、F1 分數、AUC 等其他指標來綜合評估。

#42

★★

模型訓練過程中的「輪數」(Epoch) 指的是？

A

模型中的層數

B

每次參數更新使用的樣本數

C

整個訓練數據集被模型完整地「看」過一遍的次數

D

模型訓練的總時間

答案解析

一個輪數 (Epoch) 表示模型已經使用訓練數據集中的所有樣本進行了一次完整的訓練迭代。例如，如果訓練集有 1000 個樣本，批次大小為 100，那麼模型需要進行 10 次參數更新（1000 / 100 = 10 個批次）才能完成一個輪數的訓練。訓練的總輪數是模型訓練過程中的一個重要超參數。

#43

★★★

與 K-摺交叉驗證相比，簡單的留出法 (Hold-out Method，即單次劃分訓練集和驗證集) 的主要缺點是？

A

計算成本非常高

B

評估結果對數據的隨機劃分方式非常敏感，不夠穩定和可靠

C

無法用於迴歸問題

D

需要非常大的數據集才能使用

答案解析

簡單留出法只進行一次數據劃分，計算簡單快捷。但其主要缺點是，模型的性能評估結果很大程度上取決於這次隨機劃分的好壞。如果碰巧劃分出的驗證集比較「容易」或比較「困難」，或者其數據分佈與整體數據差異較大，那麼得到的評估結果就可能產生較大偏差，不能穩定地反映模型的真實泛化能力。交叉驗證通過多次劃分和評估求平均，可以有效地減少這種隨機性帶來的影響，得到更可靠的評估。

#44

★★★

超參數調整 (Hyperparameter Tuning) 的目標是？

A

學習模型的權重和偏置

B

找到一組能夠使模型在驗證集（或通過交叉驗證）上性能最佳的超參數組合

C

對輸入數據進行標準化

D

解釋模型的預測結果

答案解析

超參數（如學習率、正則化強度、網路層數、批次大小等）的選擇對模型最終性能有顯著影響，但它們不能像模型參數那樣通過訓練數據直接學習得到。超參數調整的目標是系統性地（例如，網格搜索、隨機搜索）或智能化地（例如，貝葉斯優化）探索不同的超參數組合，並根據模型在獨立驗證集上的性能表現，找出能夠最大化（或最小化）目標評估指標的那組超參數設置。

#45

★★

在迴歸任務中，如果預測值和真實值的單位很重要，應該優先使用哪個指標？

A

MAE 或 RMSE

B

R²

C

準確率 (Accuracy)

D

交叉熵 (Cross-Entropy)

答案解析

平均絕對誤差 (MAE) 和均方根誤差 (RMSE) 的計算結果都保留了與原始目標變數相同的單位。例如，如果預測房價（單位：萬元），MAE 和 RMSE 的結果也是萬元，這使得誤差的大小更易於直觀理解和解釋。而均方誤差 (MSE) 的單位是原始單位的平方（平方萬元），決定係數 R² 是一個無單位的比例值（0到1之間）。準確率和交叉熵是用於分類問題的。

#46

★★

模型容量 (Model Capacity) 指的是什麼？

A

模型能夠擬合的函數空間的大小或複雜度

B

模型推論的速度

C

模型訓練所需的記憶體大小

D

模型的可解釋性程度

答案解析

模型容量指的是一個模型類（由其架構和參數數量決定）能夠學習或表示的函數的範圍和複雜程度。容量越大的模型（例如，更深或更寬的神經網路）能夠擬合更複雜的數據模式，但同時也更容易發生過擬合。容量過小的模型則可能無法捕捉數據的基本規律，導致欠擬合。模型選擇的目標是找到一個容量與數據複雜度和可用數據量相匹配的模型。

#47

★★

如果在模型訓練初期，損失值下降非常緩慢甚至幾乎不變，可能的原因不包括？

A

學習率設置得過小

B

陷入了梯度很小的區域（如鞍點或局部最小值）

C

梯度消失問題

D

學習率設置得過大

答案解析

損失值下降緩慢或停滯通常意味著模型參數更新不足或方向錯誤。可能的原因包括：學習率過小，導致每次更新步長太小；模型陷入梯度接近於零的區域（如鞍點或局部最小值），使得優化器難以繼續前進；在深層網路中出現梯度消失，導致淺層參數無法有效更新。而學習率設置過大通常會導致損失值震盪或發散，而不是下降緩慢。

#48

★★

為什麼僅僅使用準確率 (Accuracy) 作為多類別分類的唯一評估指標可能不夠全面？

A

它無法區分不同類別之間的混淆情況，且在類別不平衡時可能產生誤導

B

準確率計算過於複雜

C

準確率只能用於二元分類

D

準確率總是越高越好，無需其他指標

答案解析

雖然準確率是一個直觀的指標，但它將所有類別的預測視為同等重要。在多類別分類中，它無法告訴我們模型具體在哪些類別上表現好，哪些類別上表現差，以及不同類別之間是如何混淆的（例如，模型是否經常將「貓」誤判為「狗」）。此外，與二元分類一樣，當多類別數據存在類別不平衡時，準確率也可能被多數類的表現主導，無法真實反映模型對少數類的識別能力。因此，通常需要結合混淆矩陣、各類別的精確率、召回率、F1 分數以及宏/微平均指標來進行更全面的評估。

#49

★

自助法 (Bootstrap) 抽樣的主要特點是？

A

無放回抽樣 (Sampling without replacement)

B

有放回抽樣 (Sampling with replacement)

C

系統抽樣 (Systematic sampling)

D

分層抽樣 (Stratified sampling)

答案解析

自助法是一種重抽樣技術，其核心是從原始大小為 N 的數據集中進行 N 次有放回的隨機抽樣，形成一個新的、大小也為 N 的自助樣本集 (bootstrap sample)。由於是有放回抽樣，自助樣本集中會包含重複的樣本，同時原始數據集中約有 1/e (~36.8%) 的樣本不會出現在該自助樣本集中（稱為袋外樣本 Out-of-Bag, OOB）。這種抽樣方式常用於估計統計量的變異性（如標準誤、信賴區間）以及構建集成模型（如 Bagging、隨機森林）。

#50

★

當比較兩個模型 A 和 B 在同一測試集上的性能差異時，進行統計顯著性檢定（例如 t-檢定或配對 t-檢定）的目的是？

A

確定哪個模型的訓練時間更短

B

判斷觀察到的性能差異是否僅僅是由於隨機性造成的，還是真實存在的顯著差異

C

計算模型的 AUC 值

D

選擇最合適的損失函數

答案解析

僅僅觀察到模型 B 的評估指標略高於模型 A，並不能斷定 B 就一定更好。這種差異可能僅僅是由於測試集的隨機性或評估過程中的噪聲造成的。統計顯著性檢定提供了一種量化判斷這種差異是否「真實」的方法。通過計算 p 值，我們可以評估觀察到的差異（或更極端的差異）在假設兩個模型性能相同的虛無假設 (null hypothesis) 下發生的概率。如果 p 值小於預設的顯著性水平（如 0.05），我們就有理由拒絕虛無假設，認為兩個模型之間的性能差異是統計顯著的，而非偶然。

iPAS AI應用規劃師 經典題庫