iPAS AI應用規劃師經典題庫

#1

★★★★★

在深度學習中，一個基本的神經元（Neuron）模型通常包含哪些主要組成部分？

A

僅包含輸入和輸出

B

輸入、權重（Weights）、偏置（Bias）和激活函數（Activation Function）

C

卷積層和池化層

D

損失函數和優化器

答案解析

一個基本的人工神經元接收一組輸入，每個輸入乘以對應的權重，然後加上一個偏置項。這個加權和（加上偏置）的結果接著通過一個非線性的激活函數，產生神經元的輸出。卷積層和池化層是CNN的組件。損失函數和優化器是訓練神經網路時使用的組件，而不是單個神經元本身的結構。

#2

★★★★★

下列哪一個激活函數（Activation Function）可以有效緩解梯度消失問題（Vanishing Gradient Problem）？

A

Sigmoid 函數

B

雙曲正切函數（Tanh）

C

修正線性單元（Rectified Linear Unit, ReLU）

D

Softmax 函數

答案解析

Sigmoid 和 Tanh 函數在輸入值很大或很小時，其導數接近於0，這在反向傳播（Backpropagation）中容易導致梯度消失。ReLU 函數在輸入大於0時，導數恆為1，這有助於維持梯度的大小，從而緩解梯度消失問題。Softmax 主要用於多分類問題的輸出層，將輸出轉換為概率分佈。

#3

★★★★★

在訓練深度學習模型時，下列哪種優化算法（Optimizer）結合了 Momentum 和 RMSProp 的優點？

A

隨機梯度下降（Stochastic Gradient Descent, SGD）

B

動量（Momentum）

C

AdaGrad

D

Adam (Adaptive Moment Estimation)

答案解析

Adam 優化算法結合了 Momentum（使用梯度的一階動量估計）和 RMSProp（使用梯度的二階動量估計，即未中心化的方差）的優點。它為每個參數計算自適應的學習率，通常在實踐中表現良好，收斂速度較快。SGD 是基本的優化算法，Momentum 在 SGD 基礎上加入了動量項，AdaGrad 則根據參數的歷史梯度調整學習率。

#4

★★★★★

卷積神經網路（Convolutional Neural Network, CNN）中的卷積層（Convolutional Layer）主要作用是什麼？

A

提取輸入數據（如圖像）的局部特徵

B

降低特徵圖的維度，減少計算量

C

將多維特徵展平成一維向量

D

防止模型過擬合

答案解析

卷積層通過使用可學習的卷積核（濾波器 Filter/Kernel）在輸入數據上滑動，計算局部區域的點積，從而提取出如邊緣、角點、紋理等局部特徵。選項B描述的是池化層 (Pooling Layer) 的作用。選項C描述的是展平層 (Flatten Layer) 的作用。選項D描述的是正則化技術（如 Dropout）的作用，雖然 CNN 的權重共享和池化有助於減少參數，間接緩解過擬合，但卷積層的主要作用是特徵提取。

#5

★★★★★

循環神經網路（Recurrent Neural Network, RNN）特別適合處理哪種類型的數據？

A

圖像數據

B

序列數據（Sequential Data），如時間序列或自然語言文本

C

表格數據

D

無標籤數據

答案解析

RNN 的核心特性是其內部具有循環連接，允許信息在時間步之間傳遞和持久化。這使得 RNN 能夠捕捉序列中的時間依賴關係，特別適合處理具有順序性的數據，例如自然語言文本（詞語的順序很重要）、語音信號、時間序列數據（如股票價格）等。圖像數據通常使用 CNN 處理，表格數據常用傳統機器學習模型或全連接神經網路，無標籤數據則涉及非監督學習方法。

#6

★★★★★

在深度學習中，Dropout 技術的主要目的是什麼？

A

加快模型的訓練速度

B

降低模型過擬合（Overfitting）的風險

C

提高模型在訓練集上的準確率

D

自動選擇最佳的激活函數

答案解析

Dropout 是一種常用的正則化技術。在訓練過程中，它會以一定的概率隨機將神經元的輸出設置為零（即暫時“丟棄”該神經元）。這樣做可以強制網路學習更魯棒的特徵，減少神經元之間的共同適應（co-adaptation），從而降低模型對訓練數據的過度擬合，提高其泛化能力。雖然 Dropout 可能會稍微增加訓練時間，但其主要目的是防止過擬合，而不是加速訓練或提高訓練集準確率。

#7

★★★★

PyTorch 和 TensorFlow 是目前最流行的兩個深度學習框架，它們的一個主要區別在於計算圖（Computation Graph）的類型。PyTorch 主要使用什麼類型的計算圖？

A

動態計算圖（Dynamic Computation Graph）

B

靜態計算圖（Static Computation Graph）

C

混合計算圖（Hybrid Computation Graph）

D

無計算圖（No Computation Graph）

答案解析

PyTorch 使用動態計算圖（也稱為 Define-by-Run），計算圖是在代碼運行時動態構建的。這使得調試更加直觀，並且更容易處理輸入大小可變的序列（如在 NLP 中）。相比之下，TensorFlow 早期版本（1.x）主要使用靜態計算圖（Define-and-Run），需要先定義好整個計算圖再運行。TensorFlow 2.x 引入了 Eager Execution 模式，使其行為更接近動態圖，但其底層的 tf.function 仍然可以利用靜態圖的優化。

#8

★★★★

在評估分類模型的性能時，如果數據集存在嚴重的類別不平衡（Class Imbalance），下列哪個指標比準確率（Accuracy）更能反映模型的真實性能？

A

模型訓練時間

B

模型參數數量

C

F1 分數（F1-Score）或 AUC (Area Under the ROC Curve)

D

平均絕對誤差（Mean Absolute Error, MAE）

答案解析

在類別不平衡的情況下，準確率可能會具有誤導性。例如，如果99%的樣本屬於負類，模型只需將所有樣本預測為負類即可達到99%的準確率，但它完全沒有識別出正類。F1 分數是精確率 (Precision) 和召回率 (Recall) 的調和平均數，能同時考慮模型對正類的識別能力和準確性。AUC 衡量的是模型將正負樣本區分開的能力。這兩個指標在不平衡數據集上通常比準確率更可靠。MAE 是用於評估回歸模型的指標。

#9

★★★★

深度學習模型訓練過程中的「反向傳播」（Backpropagation）算法的主要目的是什麼？

A

進行模型的前向計算，得到預測結果

B

計算損失函數相對於模型參數（權重和偏置）的梯度

C

初始化模型的權重和偏置

D

選擇最優的超參數

答案解析

反向傳播算法是訓練神經網路的核心。在模型完成前向傳播並計算出損失後，反向傳播利用微積分中的鏈式法則 (Chain Rule)，從輸出層開始，逐層向後計算損失函數對每一層參數（權重和偏置）的偏導數（梯度）。這些梯度隨後被優化算法（如梯度下降）用來更新參數，以最小化損失函數。

#10

★★★★

在多分類問題中，神經網路的輸出層通常使用哪種激活函數將輸出轉換為概率分佈？

A

ReLU

B

Sigmoid

C

Softmax

D

Tanh

答案解析

Softmax 函數能夠將一個包含任意實數的向量轉換為一個概率分佈向量，其中每個元素的值介於0和1之間，且所有元素的總和為1。這使得它非常適合用作多分類問題 (Multi-class Classification) 的輸出層激活函數，輸出的每個元素可以解釋為樣本屬於對應類別的概率。Sigmoid 通常用於二元分類 (Binary Classification) 的輸出層。ReLU 和 Tanh 主要用於隱藏層。

#11

★★★★

在梯度下降算法中，學習率（Learning Rate）過大可能會導致什麼問題？

A

模型可能在最小值附近震盪甚至發散，無法收斂

B

模型收斂速度過慢

C

模型容易陷入局部最小值（Local Minima）

D

模型計算梯度所需時間變長

答案解析

學習率控制著模型參數更新的步長。如果學習率設置得過大，每次更新的步長太大，可能導致參數越過損失函數的最小值點，並在其周圍來回震盪，甚至可能導致損失越來越大而發散。學習率過小則會導致收斂速度過慢。陷入局部最小值與學習率大小有一定關係，但不是學習率過大的唯一或最直接後果。計算梯度時間主要與模型複雜度和數據量有關。

#12

★★★★

CNN 中的池化層（Pooling Layer），例如最大池化（Max Pooling），其主要目的是什麼？

A

增加特徵圖的維度

B

提取更複雜的特徵

C

降低特徵圖的空間維度（寬和高），減少計算量並增加模型的平移不變性

D

將梯度傳播回卷積層

答案解析

池化層（通常放在卷積層之後）對輸入特徵圖的局部區域進行下採樣 (Downsampling)。例如，最大池化會選取每個局部區域中的最大值作為輸出。這能有效降低特徵圖的寬度和高度，從而減少後續層的參數數量和計算量。同時，由於它保留了局部區域中最顯著的特徵，並對特徵的位置變化不那麼敏感，因此有助於提高模型的平移不變性 (Translation Invariance)。

#13

★★★★

標準 RNN 面臨的一個主要問題是難以捕捉序列中的長期依賴關係，這個問題通常被稱為什麼？

A

過擬合問題 (Overfitting Problem)

B

模型欠擬合問題 (Underfitting Problem)

C

梯度消失/爆炸問題（Vanishing/Exploding Gradient Problem）

D

特徵稀疏問題 (Feature Sparsity Problem)

答案解析

在標準 RNN 中，當通過時間進行反向傳播 (Backpropagation Through Time, BPTT) 時，梯度會被重複乘以權重矩陣。如果權重矩陣的範數 (norm) 小於1，梯度會指數級衰減，導致模型無法學習到序列早期信息對後期輸出的影響 (梯度消失)。反之，如果範數大於1，梯度會指數級增長，導致訓練不穩定 (梯度爆炸)。這使得標準 RNN 難以有效捕捉長期依賴關係。LSTM 和 GRU 等變體通過引入門控機制來緩解這個問題。

#14

★★★★

L1 正則化（L1 Regularization）和 L2 正則化（L2 Regularization）都是常用的防止過擬合的方法，它們的主要區別在於？

A

L1 增加訓練速度，L2 降低訓練速度

B

L1 傾向於產生稀疏權重（使部分權重變為零），而 L2 傾向於使權重值變小但不一定為零

C

L1 只用於 CNN，L2 只用於 RNN

D

L1 使用權重的平方和作為懲罰項，L2 使用權重的絕對值和作為懲罰項

答案解析

L1 正則化在損失函數中加入權重絕對值之和的懲罰項（λΣ|w|），L2 正則化加入權重平方和之和的懲罰項（λΣw²）。由於 L1 的懲罰項在原點處不可導，其梯度下降更新傾向於將一些不重要的特徵對應的權重直接推向零，從而產生稀疏解，有助於特徵選擇。L2 的懲罰項則傾向於使所有權重都接近於零但不會強制為零（權重衰減 Weight Decay）。選項 D 的描述正好相反。

#15

★★★

在 TensorFlow 或 PyTorch 中，張量（Tensor）是什麼？

A

僅指一維數組（向量）

B

僅指二維數組（矩陣）

C

多維數組，是這些框架中數據的基本表示形式

D

用於繪製圖形的工具

答案解析

張量是深度學習框架（如 TensorFlow、PyTorch）中表示數據的基本數據結構。它可以看作是標量（0維張量）、向量（1維張量）、矩陣（2維張量）向更高維度的推廣。例如，一個彩色圖像可以表示為一個 3 維張量（高度 x 寬度 x 通道數），一批彩色圖像可以表示為一個 4 維張量（批次大小 x 高度 x 寬度 x 通道數）。模型的所有輸入、輸出和參數通常都表示為張量。

#16

★★★

在深度學習模型訓練中，驗證集（Validation Set）的主要用途是什麼？

A

用於最終評估模型的性能

B

用於調整模型的超參數 (Hyperparameters) 和進行模型選擇

C

僅用於計算訓練過程中的損失

D

增加訓練數據的多樣性

答案解析

通常會將數據集劃分為訓練集、驗證集和測試集。訓練集用於訓練模型的參數（權重和偏置）。驗證集用於在訓練過程中監控模型的性能，並據此調整超參數（如學習率、正則化強度、網路結構等），以及選擇最佳的模型架構。測試集則是在模型訓練和選擇完成後，用於對最終模型的泛化能力進行無偏評估。

#17

★★★★

在 CNN 中，「權重共享」（Weight Sharing）是指什麼？

A

同一個卷積核（濾波器）在輸入特徵圖的不同位置上使用相同的權重

B

不同層的卷積核使用相同的權重

C

將權重分享給其他模型使用

D

所有神經元的權重都相同

答案解析

權重共享是 CNN 的一個核心特性。在一個卷積層中，同一個卷積核（包含一組固定的權重）會滑過整個輸入特徵圖，與不同的局部區域進行卷積運算。這意味著，用於檢測某種特定模式（如水平邊緣）的權重在圖像的所有位置都是共享的。這大大減少了模型的參數數量，提高了模型的效率，並使其具有平移不變性。

#18

★★★★

長短期記憶網路（Long Short-Term Memory, LSTM）通過引入哪些門控機制（Gates）來解決 RNN 的梯度消失問題？

A

卷積門和池化門

B

輸入門 (Input Gate)、遺忘門 (Forget Gate) 和輸出門 (Output Gate)

C

注意力門和殘差門

D

更新門和重置門

答案解析

LSTM 是一種特殊的 RNN 變體，其核心是引入了三個門控單元來控制信息的流動：遺忘門決定從細胞狀態 (Cell State) 中丟棄哪些信息；輸入門決定將哪些新信息存儲到細胞狀態中；輸出門決定基於細胞狀態輸出什麼值。這些門控機制使得 LSTM 能夠有選擇地記憶或遺忘信息，從而有效地捕捉長期依賴關係並緩解梯度消失問題。選項 D 描述的是 GRU (Gated Recurrent Unit) 中的門。

#19

★★★★

在訓練分類模型時，交叉熵損失（Cross-Entropy Loss）衡量的是什麼？

A

模型預測值與真實值之間的絕對差值

B

模型預測的概率分佈與真實標籤的概率分佈之間的差異

C

模型參數的大小

D

模型計算圖的複雜度

答案解析

交叉熵損失是分類任務中最常用的損失函數之一。它源於信息論，用於衡量兩個概率分佈之間的差異。在分類問題中，它衡量的是模型輸出的預測概率分佈（通常經過 Softmax 或 Sigmoid 函數）與真實標籤所代表的目標概率分佈（通常是 one-hot 編碼）之間的距離。最小化交叉熵損失等價於最大化模型預測正確類別的似然概率。選項 A 描述的是 MAE 損失，常用於回歸。

#20

★★★

數據增強（Data Augmentation）是一種常用的防止過擬合的技術，以下哪項不屬於常見的圖像數據增強方法？

A

隨機旋轉、翻轉圖像

B

隨機裁剪、縮放圖像

C

改變圖像的亮度、對比度

D

使用 L2 正則化懲罰模型權重

答案解析

數據增強是通過對現有訓練數據進行各種變換（如幾何變換、顏色變換等）來人工擴充訓練集的方法。對於圖像數據，常見的增強方法包括隨機旋轉、翻轉、裁剪、縮放、改變亮度/對比度/飽和度、添加噪聲等。這樣可以在不實際增加數據採集成本的情況下，增加訓練數據的多樣性，提高模型的泛化能力，從而防止過擬合。L2 正則化是一種直接修改損失函數來懲罰模型複雜度的技術，不屬於數據增強。

#21

★★★

在神經網路中，隱藏層（Hidden Layer）的作用是什麼？

A

直接接收原始輸入數據

B

學習數據中的非線性特徵表示

C

產生最終的預測結果

D

計算模型的損失

答案解析

隱藏層位於輸入層和輸出層之間。它們接收來自前一層（輸入層或另一個隱藏層）的輸出，通過權重、偏置和非線性激活函數進行變換，學習數據中更複雜、更抽象的特徵表示。這些學習到的特徵隨後被傳遞給下一層或輸出層。深度學習模型通常包含多個隱藏層，使其能夠學習數據的層次化特徵表示。輸入層接收原始數據，輸出層產生最終預測，損失是在輸出層之後計算的。

#22

★★★★

小批量梯度下降（Mini-batch Gradient Descent）相比於批量梯度下降（Batch Gradient Descent）的主要優點是什麼？

A

保證能找到全局最優解

B

計算效率更高，且參數更新更頻繁，有助於跳出局部最優

C

完全不需要調整學習率

D

梯度計算更穩定，沒有噪聲

答案解析

批量梯度下降在每次更新時使用整個訓練集的數據計算梯度，計算成本高，尤其是在大數據集上，且容易陷入尖銳的局部最小值。隨機梯度下降 (SGD) 每次只用一個樣本，更新速度快但梯度噪聲大。小批量梯度下降是兩者的折衷，每次使用一小批 (mini-batch) 樣本計算梯度並更新參數。這既利用了矩陣運算的並行性提高了計算效率，又因為每次更新使用的數據不同而引入了噪聲，有助於模型跳出局部最優點，同時相比 SGD 更穩定。

#23

★★★

門控循環單元（Gated Recurrent Unit, GRU）與 LSTM 相比，其主要特點是？

A

使用了更多的門控單元

B

結構更簡單，參數更少，計算效率可能更高

C

完全解決了梯度爆炸問題

D

只能處理非常短的序列

答案解析

GRU 是 LSTM 的一種變體，旨在簡化其結構。GRU 將 LSTM 的遺忘門和輸入門合併為一個單一的更新門 (Update Gate)，並且還引入了一個重置門 (Reset Gate)。它沒有像 LSTM 那樣單獨的細胞狀態。由於門的數量減少，GRU 的參數通常比 LSTM 少，計算上可能更高效，尤其是在數據量較少時。在許多任務上，GRU 和 LSTM 的性能表現相似，但 GRU 的結構更為簡潔。

#24

★★★★

超參數調優（Hyperparameter Tuning）在深度學習中指的是調整哪些參數？

A

模型的權重 (Weights) 和偏置 (Biases)

B

學習率、批次大小、網路層數、正則化強度等在訓練前設定的參數

C

輸入數據的特徵

D

損失函數的值

答案解析

深度學習模型有兩類參數：一類是模型參數（如權重和偏置），它們是通過訓練過程從數據中學習得到的；另一類是超參數，它們是在訓練開始之前設定的，用於控制學習過程本身的參數。常見的超參數包括學習率、優化器的選擇、批次大小 (Batch Size)、網路的結構（如層數、每層的神經元數量）、激活函數的選擇、正則化方法及其強度（如 Dropout 概率、L1/L2 係數）等。超參數調優是通過實驗（如網格搜索、隨機搜索、貝葉斯優化）找到最佳超參數組合的過程。

#25

★★★

在 CNN 中，1x1 卷積核（1x1 Convolution）的一個重要作用是什麼？

A

只能提取圖像的邊緣特徵

B

改變特徵圖的通道數（深度），實現跨通道信息整合和降維/升維

C

只能用於圖像的放大操作

D

等同於全局平均池化 (Global Average Pooling)

答案解析

1x1 卷積核雖然在空間維度上不進行聚合（感受野只有1x1），但它可以在通道維度上進行線性組合。通過使用 N 個 1x1 卷積核作用於一個 C 通道的輸入特徵圖，可以得到一個 N 通道的輸出特徵圖。這允許模型：1) 調整通道數，例如在 Inception 模塊中用於降維以減少計算量；2) 增加模型的非線性（如果後面跟著激活函數）；3) 實現跨通道的信息交互與整合。

#26

★★★★

早停法（Early Stopping）作為一種防止過擬合的策略，其基本思想是什麼？

A

在訓練早期就停止，不論模型性能如何

B

監控驗證集上的性能，當驗證集性能不再提升或開始下降時停止訓練

C

當訓練集損失降到零時停止訓練

D

每次迭代都重新初始化模型權重

答案解析

早停法是一種簡單而有效的正則化方法。在訓練過程中，除了計算訓練集損失外，還會定期在驗證集上評估模型性能（例如驗證集損失或準確率）。當模型在驗證集上的性能達到最佳點後，如果繼續訓練，模型可能會開始過度擬合訓練數據，導致驗證集性能下降。早停法就是在觀察到驗證集性能不再改善或開始變差時，停止訓練過程，並通常選用驗證集性能最佳時的模型作為最終模型。

#27

★★★

Keras 是一個高階的深度學習 API，它可以運行在多個後端（Backend）之上，以下哪個是 Keras 常用的後端？

A

TensorFlow, Theano (早期), CNTK (早期)

B

僅 PyTorch

C

僅 Caffe

D

僅 Scikit-learn

答案解析

Keras 的設計目標是實現快速實驗，提供了一致且簡單的 API。它本身不直接執行底層運算，而是依賴於一個後端引擎。歷史上，Keras 支持 TensorFlow、Theano 和 Microsoft Cognitive Toolkit (CNTK) 作為後端。目前，TensorFlow 是 Keras 最主要和最緊密集成的後端（Keras 已成為 TensorFlow 的官方高階 API，即 tf.keras）。雖然有獨立的 Keras 庫，但其開發已主要合併到 TensorFlow 中。PyTorch 是另一個獨立的流行框架。Caffe 是較早期的框架。Scikit-learn 是傳統機器學習庫。

#28

★★★

均方誤差（Mean Squared Error, MSE）損失函數通常用於解決哪類型的機器學習問題？

A

二元分類問題

B

多分類問題

C

回歸問題 (Regression)

D

聚類問題 (Clustering)

答案解析

均方誤差 (MSE) 計算的是模型預測值與真實目標值之間差值的平方的平均值。由於它衡量的是預測值與連續的真實值之間的距離，因此非常適合用於評估和優化目標是預測連續數值的回歸問題，例如預測房價、股票價格或溫度。分類問題的目標是預測離散的類別標籤，通常使用交叉熵損失。聚類是非監督學習問題。

#29

★★★

在深度學習優化算法中，"鞍點"（Saddle Point）指的是什麼？

A

損失函數的全局最小值點

B

損失函數的局部最小值點

C

梯度為零，但在某些方向上是局部最小，在其他方向上是局部最大的點

D

梯度不為零的點

答案解析

鞍點是多變量函數中的一種臨界點（梯度為零的點）。與局部最小值（在所有方向上都是最小值）不同，鞍點在某些維度方向上是局部最小值，而在另一些維度方向上是局部最大值，形狀類似馬鞍。在高維空間（如深度學習的參數空間）中，鞍點比局部最小值更常見。梯度下降算法在鞍點附近可能會因為梯度接近零而導致收斂速度極慢。像 Adam 這樣的自適應優化算法通常能更好地處理鞍點。

#30

★★★★

深度學習與傳統機器學習的主要區別之一在於特徵工程（Feature Engineering）的方式。以下描述何者正確？

A

傳統機器學習完全不需要特徵工程

B

深度學習能夠自動從原始數據中學習層次化的特徵表示，減少了對手動特徵工程的依賴

C

深度學習需要比傳統機器學習更複雜的手動特徵工程

D

兩者在特徵工程方面的處理方式完全相同

答案解析

傳統機器學習（如 SVM、邏輯回歸、決策樹）通常嚴重依賴於手動設計和提取的特徵。特徵工程的好壞直接影響模型性能。而深度學習的一個強大之處在於其能夠直接從原始數據（如像素、詞嵌入）中，通過多層非線性變換，自動學習到從低階到高階的層次化特徵表示 (Representation Learning)。這大大減少了對領域知識和手動特徵工程的需求，尤其是在處理圖像、語音、文本等複雜數據時。

#31

★★★★

在 CNN 中，增加卷積層的深度（即使用更多的卷積核/濾波器）通常是為了什麼？

A

學習更多種類和更複雜的特徵模式

B

減少模型的參數數量

C

降低特徵圖的空間分辨率

D

只為了增加模型的計算時間

答案解析

每個卷積核學習檢測一種特定的局部模式。增加卷積核的數量（即增加卷積層的輸出通道數或深度）允許該層學習和提取更多種類的特徵。隨著網路層數加深，這些特徵組合起來可以形成更複雜、更抽象的表示，從而提高模型的表達能力。增加卷積核會增加參數數量。降低空間分辨率是池化層的作用。

#32

★★★★

雙向循環神經網路（Bidirectional RNN, BiRNN）與標準 RNN 的主要不同之處在於？

A

BiRNN 使用了更複雜的激活函數

B

BiRNN 同時處理來自過去（正向）和未來（反向）的序列信息

C

BiRNN 完全消除了梯度消失問題

D

BiRNN 只能用於非常短的序列

答案解析

標準 RNN 在處理序列時，每個時間步的輸出只依賴於過去的信息。然而，在許多任務（尤其是自然語言處理）中，當前元素的含義可能也依賴於後續的元素。BiRNN 通過使用兩個獨立的 RNN 層來解決這個問題：一個按正常順序（從前到後）處理序列，另一個按相反順序（從後到前）處理序列。在每個時間步，將兩個方向的隱藏狀態拼接起來作為該時間步的輸出表示，從而使得模型能夠同時利用過去和未來的上下文信息。

#33

★★★

批次正規化（Batch Normalization, BN）層通常插入在神經網路的哪兩層之間？

A

通常在線性變換（如全連接層或卷積層）之後，激活函數之前

B

僅在輸入層之前

C

僅在輸出層之後

D

在激活函數之後

答案解析

批次正規化旨在緩解內部協變量偏移 (Internal Covariate Shift) 問題，加速訓練並提高模型穩定性。它對每個小批次的數據，在應用激活函數之前，對線性變換的輸出進行正規化（使其均值為0，方差為1），然後再進行縮放和平移（使用可學習的 gamma 和 beta 參數）。因此，BN 層最常見的位置是在卷積層或全連接層的線性輸出之後，但在應用非線性激活函數（如 ReLU）之前。也有研究將其放在激活函數之後，但前者更為普遍。

#34

★★★

在深度學習中，遷移學習（Transfer Learning）的基本思想是什麼？

A

從頭開始訓練一個全新的模型

B

將在一個任務（源任務）上預訓練好的模型的知識（如權重）應用到另一個相關的任務（目標任務）上

C

只使用非常小的模型進行訓練

D

將不同模型的預測結果進行平均

答案解析

遷移學習是一種強大的技術，尤其是在目標任務數據量不足時。其核心思想是利用在大型數據集（如 ImageNet）上預訓練好的模型所學到的通用知識（例如圖像的低階和中階特徵）。然後，將這個預訓練模型的部分或全部權重作為目標任務模型的初始權重，並在目標任務的數據上進行微調 (Fine-tuning) 或僅訓練最後幾層。這通常能顯著加快訓練速度並提高模型在目標任務上的性能。

#35

★★★

TensorFlow 中的 Eager Execution 模式允許用戶做什麼？

A

像普通 Python 代碼一樣立即執行 TensorFlow 操作，方便調試

B

只能定義靜態計算圖

C

強制所有計算在 CPU 上執行

D

自動將模型部署到移動設備

答案解析

Eager Execution 是 TensorFlow 2.x 默認開啟的模式。在這種模式下，TensorFlow 的操作會立即被評估並返回具體的值，而不是像 TensorFlow 1.x 的圖模式那樣先構建一個計算圖稍後再執行。這使得 TensorFlow 的使用體驗更像 NumPy 或標準的 Python 編程，極大地簡化了模型的開發和調試過程，因為可以更容易地檢查中間結果和使用標準的 Python 調試工具。

#36

★★★

深度學習模型中的「參數」 (Parameters) 通常指的是什麼？

A

模型在訓練過程中學習到的權重和偏置

B

學習率和批次大小等超參數

C

輸入數據的維度

D

模型的名稱

答案解析

模型的參數是指模型內部用於進行計算和預測的可調整變量，它們的值是通過在訓練數據上最小化損失函數來學習得到的。在神經網路中，最主要的參數就是連接不同層神經元的權重 (Weights) 和每個神經元的偏置 (Biases)。超參數（如學習率）是在訓練前設定的，用於控制學習過程，而不是學習得到的。

#37

★★★★

ReLU 激活函數相比 Sigmoid 或 Tanh 的一個潛在缺點是什麼？

A

計算成本非常高

B

可能導致「死亡 ReLU」問題 (Dying ReLU Problem)

C

輸出不是以零為中心

D

只能用於輸出層

答案解析

ReLU 函數在輸入小於等於零時，其輸出和梯度都為零。如果在訓練過程中，一個 ReLU 神經元的輸入持續為負，那麼它的梯度將始終為零，導致其對應的權重無法再被更新。這個神經元就相當於“死亡”了，不再對任何輸入產生響應。這被稱為「死亡 ReLU」問題。為了緩解這個問題，出現了一些 ReLU 的變體，如 Leaky ReLU、Parametric ReLU (PReLU) 和 Exponential Linear Unit (ELU)。選項 C 也是 ReLU 的一個特性 (輸出非零中心)，但不一定是缺點，且Tanh是以零為中心的。

#38

★★★

在 CNN 中，感受野（Receptive Field）指的是什麼？

A

輸出特徵圖上的一個單元對應到原始輸入圖像上的區域大小

B

卷積核的大小

C

池化操作的窗口大小

D

模型可以處理的最大圖像尺寸

答案解析

感受野是指 CNN 中某一層輸出特徵圖上的一個像素（或單元）所能“看到”或受其影響的原始輸入圖像區域的大小。隨著網路層數的加深，尤其是在經過卷積和池化操作後，後層特徵圖上單元的感受野會逐漸增大，使其能夠捕捉到更大範圍的上下文信息和更抽象的特徵。理解感受野對於設計有效的 CNN 架構很重要。

#39

★★★

下列哪種方法不屬於正則化 (Regularization) 技術？

A

Dropout

B

L1/L2 權重懲罰

C

數據增強 (Data Augmentation)

D

梯度裁剪 (Gradient Clipping)

答案解析

正則化技術的目的是降低模型的複雜度或增加訓練數據的多樣性，以防止模型過度擬合訓練數據，提高其泛化能力。Dropout、L1/L2 正則化、數據增強、早停法、批次正規化（有時也被認為有正則化效果）都屬於常用的正則化技術。梯度裁剪是一種用於處理梯度爆炸問題的技術，它在反向傳播過程中限制梯度的最大範數或值，以防止參數更新過大導致訓練不穩定，其主要目的不是防止過擬合。

#40

★★★★

混淆矩陣（Confusion Matrix）是評估分類模型性能的常用工具，它可以直接提供以下哪些信息？

A

模型的訓練時間

B

真正例 (TP)、假正例 (FP)、真反例 (TN)、假反例 (FN) 的數量

C

最佳學習率

D

模型每一層的權重值

答案解析

混淆矩陣是一個 N x N 的矩陣（N 為類別數量），用於可視化分類模型的預測結果。矩陣的行通常代表真實類別，列代表預測類別（或反之）。矩陣中的每個單元 (i, j) 表示真實類別為 i 但被預測為類別 j 的樣本數量。對於二元分類，混淆矩陣包含四個值：TP (真實為正，預測為正)、FP (真實為負，預測為正)、TN (真實為負，預測為負)、FN (真實為正，預測為負)。基於這些值可以計算出準確率、精確率、召回率、F1 分數等多種評估指標。

#41

★★★★

學習率衰減（Learning Rate Decay/Scheduling）策略的目的是什麼？

A

在訓練初期使用較大學習率加速收斂，在訓練後期減小學習率以穩定收斂到最小值附近

B

始終保持一個非常大的學習率

C

始終保持一個非常小的學習率

D

隨機改變學習率

答案解析

在訓練初期，參數離最優解較遠，使用較大的學習率可以使模型更快地接近最優區域。但隨著訓練的進行，如果學習率一直很大，模型可能會在最優解附近震盪而無法精確收斂。因此，常用的策略是在訓練過程中逐漸減小學習率（例如按步長衰減、指數衰減、餘弦退火等）。這樣可以在初期快速下降，在後期穩定收斂，有助於找到更好的最終解。

#42

★★★

在自然語言處理中，詞嵌入（Word Embedding）如 Word2Vec 或 GloVe 的主要作用是什麼？

A

將詞語轉換為獨熱編碼 (One-hot Encoding)

B

將詞語映射到低維、稠密的向量空間，使得語義相似的詞語在向量空間中距離相近

C

計算每個詞語在文檔中出現的頻率

D

將句子翻譯成其他語言

答案解析

獨熱編碼會導致維度災難且無法表示詞語間的語義關係。詞嵌入技術（如 Word2Vec, GloVe, FastText）將每個詞語表示為一個低維度（例如幾百維）的實數向量（稠密向量）。這些向量是通過在大型語料庫上訓練得到的，能夠捕捉詞語之間的語義和句法關係。例如，“國王”和“皇后”的向量會比較接近，“走路”和“跑”的向量也會比較接近。詞嵌入是現代深度學習 NLP 模型的基礎輸入表示。

#43

★★★★

殘差網路（Residual Network, ResNet）引入的主要創新是什麼，以解決深度神經網路訓練困難的問題？

A

使用了新的激活函數

B

引入了殘差連接 (Residual Connections) 或跳躍連接 (Skip Connections)

C

使用了更大的卷積核

D

完全移除了池化層

答案解析

隨著網路深度增加，傳統的深度網路會遇到梯度消失/爆炸以及網路退化 (Degradation，即深層網路性能反而不如淺層網路) 的問題。ResNet 通過引入殘差塊 (Residual Block) 來解決這個問題。在殘差塊中，輸入通過一個或多個卷積層得到變換後的輸出 F(x)，同時，原始輸入 x 通過一個“捷徑”(跳躍連接) 直接添加到 F(x) 上，最終輸出為 F(x) + x（如果維度不匹配會進行投影）。這種結構使得網路更容易學習恆等映射 (Identity Mapping)，即 F(x) 趨近於零，從而允許網路構建得非常深而不會出現退化問題，並且有助於梯度傳播。

#44

★★

PyTorch 中的 `torch.autograd` 模組主要負責什麼功能？

A

加載和預處理數據

B

自動計算張量 (Tensor) 操作的梯度（自動微分）

C

定義神經網路的層結構

D

保存和加載模型

答案解析

`torch.autograd` 是 PyTorch 中實現自動微分的核心引擎。當你在設置了 `requires_grad=True` 的張量上執行操作時，PyTorch 會自動構建一個記錄這些操作的動態計算圖。當你對最終結果（通常是損失函數）調用 `.backward()` 方法時，`autograd` 會根據這個計算圖自動計算所有 `requires_grad=True` 的張量相對於結果的梯度，並將梯度累加到對應張量的 `.grad` 屬性中。這是實現反向傳播算法的關鍵。

#45

★★★

Leaky ReLU 是 ReLU 的一種變體，它與標準 ReLU 的主要區別在於？

A

Leaky ReLU 在輸入大於零時輸出為零

B

Leaky ReLU 在輸入小於零時，輸出不是零而是一個小的正斜率乘以輸入值

C

Leaky ReLU 的計算量遠大於 ReLU

D

Leaky ReLU 只能用於 RNN

答案解析

標準 ReLU 在輸入小於等於零時輸出為零，這可能導致「死亡 ReLU」問題。Leaky ReLU 為了緩解這個問題，在輸入 x < 0 時，輸出不再是零，而是 αx，其中 α 是一個很小的正常數（例如 0.01）。這樣即使輸入為負，神經元仍然會有一個小的非零梯度，允許權重繼續更新，避免了神經元完全“死亡”。Parametric ReLU (PReLU) 則將 α 作為一個可學習的參數。

#46

★★★

在機器學習和深度學習中，偏差（Bias）和方差（Variance）是描述模型誤差的兩個重要概念。"高方差"通常意味著什麼？

A

模型過於簡單，無法捕捉數據的複雜模式 (欠擬合)

B

模型對訓練數據的微小變化非常敏感，容易過度擬合訓練數據，泛化能力差

C

模型在訓練集和測試集上表現都很好

D

模型的預測結果始終偏離真實值

答案解析

偏差衡量的是模型預測的平均值與真實值之間的差距，高偏差通常表示模型欠擬合。方差衡量的是模型對於不同訓練數據集的預測結果的變異程度。高方差意味著模型對訓練數據的噪聲或隨機性非常敏感，如果使用不同的訓練數據子集訓練模型，預測結果會有很大差異。這通常表明模型過於複雜，過度擬合了訓練數據，導致其在未見過的數據 (測試集) 上表現不佳，即泛化能力差。理想的模型應該是低偏差且低方差。

#47

★★

深度學習模型通常需要大量的標註數據進行訓練，這屬於哪種主要的機器學習範式？

A

監督式學習 (Supervised Learning)

B

非監督式學習 (Unsupervised Learning)

C

強化學習 (Reinforcement Learning)

D

半監督式學習 (Semi-supervised Learning)

答案解析

監督式學習是指利用帶有標籤 (Labels) 或目標值 (Target Values) 的訓練數據來學習一個從輸入到輸出的映射函數。深度學習在圖像分類、物體檢測、語音識別、機器翻譯等許多領域的成功應用，都依賴於大量的標註數據進行監督式訓練。非監督學習處理無標籤數據（如聚類、降維）。強化學習通過與環境互動學習策略以最大化獎勵。半監督學習則介於監督和非監督之間，利用少量標註數據和大量未標註數據。

#48

★★★

Adam 優化算法中的 beta1 和 beta2 參數分別控制什麼？

A

學習率和權重衰減係數

B

梯度一階矩估計（動量）和二階矩估計（平方梯度）的指數衰減率

C

批次大小和訓練輪數

D

L1 和 L2 正則化強度

答案解析

Adam (Adaptive Moment Estimation) 維護了兩個移動平均變量：一個是梯度的一階矩估計（m，類似於 Momentum），另一個是梯度的二階矩估計（v，類似於 RMSProp 中的平方梯度）。beta1 是用於計算一階矩估計的指數衰減率，beta2 是用於計算二階矩估計的指數衰減率。這兩個參數的推薦默認值通常分別是 0.9 和 0.999。它們控制了歷史梯度信息對當前更新的影響程度。

#49

★★

權重衰減 (Weight Decay) 通常是通過哪種正則化方法實現的？

A

L1 正則化

B

L2 正則化

C

Dropout

D

早停法

答案解析

權重衰減是在每次參數更新時，將權重值向零的方向縮小一點。這種效果等價於在損失函數中加入 L2 正則化項（權重平方和的懲罰）。L2 正則化會懲罰較大的權重值，傾向於使權重分佈更平滑，從而降低模型複雜度，防止過擬合。因此，權重衰減通常被認為是 L2 正則化的一種實現方式。

#50

★★★

相較於傳統的 RNN，Transformer 模型在處理序列數據時的主要優勢是什麼？

A

模型參數數量極少

B

更好地捕捉長距離依賴關係，並且更容易並行化計算

C

只能處理圖像數據

D

訓練速度比 RNN 慢很多

答案解析

Transformer 模型完全摒棄了 RNN 的循環結構，主要依賴自注意力機制 (Self-Attention)。自注意力機制允許模型在計算序列中每個位置的表示時，直接關注到序列中所有其他位置的信息，從而能夠更有效地捕捉長距離依賴關係，克服了 RNN 難以處理長序列的問題。此外，由於 Transformer 的計算不依賴於前一時間步的結果，其計算（尤其是在自注意力層）更容易進行並行化，訓練效率通常高於 RNN。雖然 Transformer 參數可能很多，但其並行性和捕捉長依賴的能力是主要優勢。

iPAS AI應用規劃師 經典題庫