iPAS AI應用規劃師 經典題庫

L23302 模型選擇與架構設計
出題方向
1
模型選擇基礎與原則
2
常見模型類型與適用場景
3
迴歸與分類模型選擇
4
序列與非結構化資料模型
5
深度學習架構設計
6
模型評估與超參數調整
7
集成學習與遷移學習
8
模型複雜度與實務考量
#1
★★★★★
在選擇機器學習模型時,下列哪一項考量最不直接相關於模型的「可解釋性」(Interpretability)?
A
模型是否為線性模型決策樹
B
是否需要向非技術背景的利害關係人解釋預測原因
C
模型在測試集上的預測準確率 (Accuracy)
D
特定應用場景(如金融風控、醫療診斷)對模型透明度的要求
答案解析
模型的可解釋性指的是人類能夠理解模型做出特定預測或決策原因的程度。線性模型決策樹通常具有較高的可解釋性(A)。是否需要向他人解釋(B)以及特定場景的法規或信任需求(D)是考量可解釋性重要性的主要原因。模型的預測準確率(C)是衡量模型性能的指標,雖然高性能模型有時較複雜、可解釋性較差(存在trade-off),但準確率本身並不直接定義或衡量可解釋性
#2
★★★★
對於具有大量特徵高維度)且特徵之間可能存在複雜非線性關係分類問題,下列哪種模型通常被認為是強大且有效的選擇?
A
邏輯迴歸 (Logistic Regression)
B
梯度提升決策樹 (Gradient Boosting Decision Trees, GBDT),例如 XGBoostLightGBM
C
K-近鄰演算法 (K-Nearest Neighbors, KNN)
D
單純貝氏分類器 (Naive Bayes Classifier)
答案解析
邏輯迴歸線性模型,難以捕捉複雜非線性關係(A)。KNN高維度下容易受維度詛咒影響,且計算成本高(C)。Naive Bayes假設特徵間獨立,不適用於特徵間關係複雜的情況(D)。GBDT及其變體(如XGBoost, LightGBM)是基於樹的集成模型,能夠有效地處理高維數據、捕捉非線性關係特徵交互作用,在許多結構化數據的分類和迴歸任務中表現優異(B)。
#3
★★★★★
卷積神經網路 (Convolutional Neural Network, CNN) 架構中,主要負責提取輸入數據(如圖像)空間層次特徵的組件是什麼?
A
卷積層 (Convolutional Layer)
B
池化層 (Pooling Layer)
C
全連接層 (Fully Connected Layer)
D
激勵函數 (Activation Function)
答案解析
卷積層(A)通過滑動的卷積核濾波器)對輸入數據進行卷積運算,學習局部模式(如邊緣、紋理),從而提取空間上的層次化特徵池化層(B)主要用於降低特徵圖的維度,減少計算量並增加模型的平移不變性全連接層(C)通常位於CNN的末端,將前面提取到的特徵進行整合,用於最終的分類或迴歸。激勵函數(D)引入非線性,使網路能學習更複雜的模式,但其本身不是特徵提取的核心組件。
#4
★★★★
處理自然語言處理 (Natural Language Processing, NLP) 中的序列數據,例如文本分類或機器翻譯時,循環神經網路 (Recurrent Neural Network, RNN) 架構的核心優勢在於?
A
能夠進行高效的平行計算
B
具有記憶機制,能夠處理序列中的時間依賴關係
C
對輸入數據的空間局部性不敏感
D
模型結構簡單,不易發生梯度消失問題
答案解析
RNN的核心設計是其隱藏狀態 (hidden state) 可以在時間步之間傳遞,使得模型能夠「記住」先前序列中的資訊,並利用這些資訊來處理當前的輸入,從而有效捕捉序列數據中的時間(或順序依賴關係(B)。RNN的序列計算特性使其難以高效平行化(A)。RNN主要關注時間依賴,而非空間局部性(C)。傳統的簡單RNN容易遇到梯度消失梯度爆炸問題,LSTMGRU等變體是為了解決這個問題而設計的(D)。
#5
★★★★
模型選擇過程中,奧卡姆剃刀 (Occam's Razor) 原則建議我們應該傾向於選擇哪種模型?
A
具有最多參數的模型
B
訓練時間最長的模型
C
能夠解釋數據且結構相對最簡單的模型
D
最新發表的、最先進的模型架構
答案解析
奧卡姆剃刀原則主張「如無必要,勿增實體」(Entities should not be multiplied without necessity)。在模型選擇中,這意味著當有多個模型都能夠以相似的性能水平解釋數據時,我們應該選擇其中結構最簡單、假設最少的那個模型(C)。更簡單的模型通常具有更好的泛化能力(不易過擬合),更容易解釋,且計算成本較低。參數最多(A)、訓練最長(B)或最新(D)並不保證是最佳選擇,過於複雜的模型反而可能導致過擬合
#6
★★★
若要預測一個連續數值(例如房價、氣溫),應該選擇哪種類型的機器學習模型?
A
迴歸模型 (Regression Model)
B
分類模型 (Classification Model)
C
聚類模型 (Clustering Model)
D
降維模型 (Dimensionality Reduction Model)
答案解析
迴歸模型的目標是預測一個連續的數值輸出(A)。分類模型的目標是預測一個離散的類別標籤(B)。聚類模型是在沒有標籤的情況下將數據分組(C)。降維模型是減少數據的特徵數量(D)。因此,預測房價或氣溫這類連續值,屬於迴歸問題
#7
★★★★
在圖像辨識任務中,使用在大型數據集(如 ImageNet)上預訓練CNN 模型,並針對特定下游任務進行微調 (Fine-tuning),這種方法屬於下列哪種學習策略?
A
強化學習 (Reinforcement Learning)
B
非監督式學習 (Unsupervised Learning)
C
遷移學習 (Transfer Learning)
D
主動學習 (Active Learning)
答案解析
遷移學習(C)是指將在一個任務(來源任務,如 ImageNet 分類)上學到的知識(模型權重)應用到另一個相關但不同的任務(目標任務,如特定種類的圖像辨識)上。利用預訓練模型並進行微調遷移學習的典型應用,特別是在數據量有限的目標任務上,可以顯著提高模型性能並加速訓練。
#8
★★★★★
在訓練深度學習模型時,若訓練集上的損失持續下降,但驗證集 (Validation Set) 上的損失開始上升,這通常表示模型出現了什麼問題?
A
欠擬合 (Underfitting)
B
過擬合 (Overfitting)
C
梯度消失 (Vanishing Gradients)
D
模型收斂 (Convergence)
答案解析
過擬合(B)指的是模型過度學習了訓練數據中的噪聲和細節,導致在訓練集上表現很好,但在未見過的數據(如驗證集測試集)上表現變差。訓練損失下降而驗證損失上升是過擬合的典型跡象欠擬合(A)是模型過於簡單,無法捕捉數據的基本模式,通常訓練和驗證損失都很高。梯度消失(C)會導致訓練困難,損失可能停滯不前。模型收斂(D)是指損失不再顯著下降,但並不一定意味著過擬合
#9
★★★★
Transformer 模型架構的核心機制,使其能夠有效捕捉輸入序列中長距離依賴關係的是?
A
卷積操作 (Convolution Operation)
B
循環連接 (Recurrent Connection)
C
自注意力機制 (Self-Attention Mechanism)
D
最大池化 (Max Pooling)
答案解析
自注意力機制(C)允許模型在處理序列中的某個元素時,直接計算該元素與序列中所有其他元素的相關性(注意力權重),並根據這些權重來聚合資訊。這使得模型可以直接捕捉任意兩個位置之間的依賴關係,無論它們相距多遠,克服了RNN處理長距離依賴的困難。卷積(A)和池化(D)主要用於CNN處理空間信息。循環連接(B)是RNN的核心,但處理長距離依賴時效率不如自注意力。
#10
★★★★
隨機森林 (Random Forest) 是一種集成學習模型,它主要通過結合多個什麼基學習器 (Base Learner) 來提高預測性能和穩定性?
A
線性迴歸模型 (Linear Regression)
B
支持向量機 (Support Vector Machine, SVM)
C
決策樹 (Decision Tree)
D
神經網路 (Neural Network)
答案解析
隨機森林(Random Forest)屬於集成學習中的 Bagging (Bootstrap Aggregating) 方法。它通過隨機抽樣數據和特徵來構建多個(通常是數百或數千個)決策樹(C)作為基學習器。最終的預測結果由所有決策樹的預測(分類問題中是投票,迴歸問題中是平均)綜合得出。這種方法可以有效降低單個決策樹容易過擬合的問題,提高模型的泛化能力穩定性
#11
★★★
模型選擇時,如果數據量非常小,下列哪種模型相對不容易產生嚴重的過擬合問題?
A
帶有正則化 (Regularization) 的線性模型
B
深度神經網路 (Deep Neural Network)
C
未剪枝的決策樹 (Unpruned Decision Tree)
D
梯度提升機 (Gradient Boosting Machine)
答案解析
數據量小時,複雜模型(如深度神經網路(B)、未剪枝決策樹(C)、梯度提升機(D))由於參數眾多或結構靈活,很容易過度擬合訓練數據中的噪聲。線性模型本身結構簡單,再加上正則化(如 L1L2 正則化)可以進一步限制模型複雜度(懲罰過大的係數),因此在小數據集上相對不易過擬合(A)。
#12
★★★
支持向量機 (Support Vector Machine, SVM) 在處理分類問題時,其核心思想是尋找一個能夠最大化什麼的超平面 (Hyperplane)?
A
分類錯誤的樣本數量
B
不同類別之間邊界 (Margin) 的寬度
C
所有樣本點到超平面的距離總和
D
模型的參數數量
答案解析
SVM的核心思想是找到一個最優的分類超平面,這個超平面能夠將不同類別的數據點分開,並且使得距離該超平面最近的樣本點(即支持向量, Support Vectors)到超平面的距離(即邊界, Margin最大化(B)。最大化邊界有助於提高模型的泛化能力魯棒性
#13
★★★★
在模型訓練中,超參數 (Hyperparameter) 指的是什麼?
A
模型在訓練過程中從數據學習到的參數(如權重、偏差)
B
在模型訓練開始之前設定的參數,用於控制學習過程(如學習率正則化強度)
C
用於評估模型性能的指標(如準確率F1分數)
D
輸入數據的特徵
答案解析
超參數(B)是在學習過程開始之前設置的參數,它們不是通過訓練數據直接學習得到的。超參數定義了模型的架構(如神經網路的層數、決策樹的最大深度)或控制訓練過程的行為(如學習率批量大小正則化項的係數)。模型內部從數據學習的參數(如線性迴歸的係數、神經網路權重偏差)稱為模型參數(A)。評估指標(C)用於衡量模型好壞。輸入特徵(D)是模型的輸入。
#14
★★★
在設計深度神經網路時,增加網路的深度(層數)通常是為了讓模型能夠學習到什麼?
A
更快的訓練速度
B
更抽象更複雜的數據表示 (Hierarchical Feature Representation)
C
更低的計算複雜度
D
更好的模型可解釋性
答案解析
深度學習的核心思想之一是通過堆疊多個層來學習數據的層次化表示。較淺的層通常學習到較為基礎和局部的特徵(如圖像的邊緣、紋理),而較深的層則基於淺層的特徵組合出更抽象、更複雜、更全局的特徵(如物體的部件、完整的物體)(B)。增加深度可以提高模型的表達能力,使其能夠處理更複雜的任務。但過深的網路也可能帶來訓練困難(如梯度消失/爆炸)和計算成本增加(A, C),且通常會降低模型的可解釋性(D)。
#15
★★★
在實際部署機器學習模型時,除了模型的預測性能外,還需要重點考慮模型的哪項特性?
A
訓練數據的大小
B
使用的程式語言
C
推論延遲 (Inference Latency) 和計算資源消耗
D
模型訓練所花費的時間
答案解析
模型部署到實際應用環境中時,除了預測準確性,模型的推論效率至關重要。推論延遲指的是模型接收輸入並產生預測所需的時間,對於需要即時反應的應用(如自動駕駛、即時推薦)非常關鍵。計算資源消耗(如CPUGPU、記憶體使用量)則影響部署成本和可擴展性(C)。訓練數據大小(A)和訓練時間(D)是訓練階段的考量。使用的程式語言(B)也影響部署,但延遲資源消耗是更核心的運行時特性。
#16
★★★★
長短期記憶網路 (Long Short-Term Memory, LSTM) 是 RNN 的一種變體,它引入了「門控機制」(Gating Mechanism) 主要目的是為了解決什麼問題?
A
模型參數過多的問題
B
傳統 RNN 中的梯度消失梯度爆炸問題
C
無法處理變長序列的問題
D
無法進行平行計算的問題
答案解析
傳統的簡單 RNN 在處理長序列時,由於反向傳播過程中梯度的連乘效應,容易出現梯度消失(梯度趨近於零,導致模型無法學習長期依賴)或梯度爆炸(梯度過大,導致訓練不穩定)的問題。LSTM 通過引入輸入門遺忘門輸出門這三種門控機制,來有選擇地控制資訊的流入、遺留和流出細胞狀態 (cell state),從而有效地緩解了梯度消失/爆炸問題,使其能夠更好地捕捉長距離依賴關係(B)。
#17
★★★
對於一個多類別分類問題(例如將圖片分為貓、狗、鳥三類),在模型的最後一層通常會使用哪種激勵函數,並配合何種損失函數
A
Softmax 激勵函數 + 交叉熵損失 (Cross-Entropy Loss)
B
Sigmoid 激勵函數 + 均方誤差損失 (Mean Squared Error, MSE)
C
ReLU 激勵函數 + Hinge Loss
D
Tanh 激勵函數 + 對數似然損失 (Log-Likelihood Loss)
答案解析
Softmax 函數可以將模型輸出的原始分數(logits)轉換為一個機率分佈,使得所有類別的輸出機率總和為 1,適合表示多類別分類中樣本屬於各個類別的機率。交叉熵損失函數則用於衡量模型預測的機率分佈與真實標籤(通常是 one-hot 編碼)之間的差異。因此,Softmax + Cross-Entropy 是處理多類別分類問題的標準組合(A)。Sigmoid 通常用於二元分類多標籤分類MSE 用於迴歸ReLU/Tanh隱藏層常用的激勵函數。
#18
★★★★
網格搜索 (Grid Search) 和隨機搜索 (Random Search) 是常用的超參數調整方法。相較於網格搜索隨機搜索的主要優點是什麼?
A
保證能找到全局最優的超參數組合
B
在相同的計算預算下,通常能更有效地探索重要超參數
C
實現起來更簡單,不需要定義搜索空間
D
不需要使用驗證集來評估超參數組合
答案解析
網格搜索會嘗試所有預先定義的超參數值的組合,計算成本隨超參數數量指數級增長隨機搜索則是在定義的範圍內隨機抽樣超參數組合。研究表明,對於許多模型,只有少數幾個超參數對性能影響較大。隨機搜索在固定的試驗次數下,不會在不重要的超參數上浪費計算資源,更有可能嘗試到那些重要超參數的較好值,因此通常效率更高(B)。兩者都不保證找到全局最優(A),都需要定義搜索空間(C)和使用驗證集評估(D)。
#19
★★★
集成學習中的 Boosting 方法(如 AdaBoost, Gradient Boosting)與 Bagging 方法(如 Random Forest)的主要區別在於?
A
Boosting 中的基學習器依序訓練的,後續模型會更關注先前模型預測錯誤的樣本
B
Bagging 中的基學習器依序訓練的,後續模型會更關注先前模型預測錯誤的樣本
C
Boosting 方法只能使用決策樹作為基學習器
D
Bagging 方法比 Boosting 方法更不容易過擬合
答案解析
Bagging 方法(如隨機森林)中的基學習器獨立平行訓練的。而 Boosting 方法中的基學習器依序串行)訓練的,每一個新的基學習器都會根據先前所有學習器的表現進行調整,重點關注那些被錯誤分類或預測誤差較大的樣本,試圖修正之前的錯誤(A)。這使得 Boosting 模型通常能達到較高的精度,但也更容易過擬合(D的說法是正確的,但非主要區別,且選項A描述了核心機制差異)。Boosting 不限於決策樹(C),但常用決策樹。B描述的是 Boosting 而非 Bagging
#20
★★★★
深度學習中,殘差連接 (Residual Connection) 被引入 ResNet 架構,其主要目的是解決什麼問題?
A
模型參數數量過多
B
隨著網路深度增加,訓練變得困難梯度消失網路退化問題)
C
模型無法處理彩色圖像
D
池化層導致的資訊損失
答案解析
神經網路變得非常深時,會出現兩個主要問題:一是梯度消失/爆炸,使得模型難以訓練;二是網路退化 (degradation),即更深的網路在訓練集測試集上的表現反而不如較淺的網路。ResNet 引入的殘差連接(或稱捷徑連接, shortcut connection)允許梯度直接流過某些層,緩解了梯度消失問題,並且使得網路更容易學習恆等映射 (identity mapping),從而解決了網路退化問題,使得訓練非常深的網路成為可能(B)。
#21
★★★★
沒有免費午餐定理」(No Free Lunch Theorem) 在機器學習模型選擇中的意涵是什麼?
A
所有模型在所有問題上的平均性能都一樣好
B
不存在一個在所有可能的數據和任務上都表現最佳的單一模型
C
簡單的模型總是比複雜的模型更好
D
模型訓練總是需要大量的計算資源
答案解析
沒有免費午餐定理指出,考慮到所有可能的問題(數據分佈),沒有任何一個學習演算法能夠在所有問題上都優於其他演算法。換句話說,不存在一個普遍適用的、在所有情況下都是最好的模型或演算法(B)。這強調了模型選擇需要根據具體問題的特性(如數據類型、數據量、任務目標、領域知識)來進行,而不是盲目追求某個「萬能」模型。選項A是定理的一個推論,但B更直接地描述了其對模型選擇的啟示。
#22
★★★
在一個二元分類問題中,如果特別關注減少「偽陰性」(False Negative, FN) 的數量(例如,在疾病篩檢中,避免漏診病人),應該優先考慮最大化哪個評估指標?
A
準確率 (Accuracy)
B
精確率 (Precision)
C
召回率 (Recall) 或稱 敏感度 (Sensitivity)
D
特異度 (Specificity)
答案解析
召回率 (Recall) 的定義是 TP / (TP + FN),其中 TP 是真陽性,FN 是偽陰性。它衡量的是所有實際為陽性的樣本中,被模型正確預測為陽性的比例。最大化召回率意味著盡可能地找出所有陽性樣本,即最小化偽陰性 (FN)(C)。精確率 (Precision) = TP / (TP + FP),關注預測為陽性的樣本中有多少是真的陽性,減少偽陽性(B)。準確率(A)在類別不平衡時可能具有誤導性。特異度(D) = TN / (TN + FP),關注實際為陰性的樣本被正確預測的比例。
#23
★★★★
當模型選擇和訓練完成後,為了評估模型在未來未見數據上的泛化能力,最可靠的方法是使用哪個數據集進行最終評估?
A
訓練集 (Training Set)
B
驗證集 (Validation Set)
C
測試集 (Test Set)
D
交叉驗證 (Cross-Validation) 使用的數據摺疊 (folds)
答案解析
標準的機器學習流程是:使用訓練集(A)訓練模型參數;使用驗證集(B)進行模型選擇超參數調整;最後,使用一個完全獨立的、在整個模型開發過程中從未用於訓練或調優測試集(C)來評估最終選定模型的泛化性能測試集模擬了模型部署後會遇到的真實未見數據,其上的性能是衡量模型泛化能力的最可靠指標。交叉驗證(D)通常在訓練/驗證階段用於更穩健地評估和選擇模型,但最終泛化評估仍需獨立測試集
#24
★★★
自然語言處理中,詞嵌入 (Word Embedding) 如 Word2VecGloVe,其主要目的是將單詞轉換成什麼?
A
唯一的整數索引
B
能夠捕捉語意關係低維度稠密的實數向量
C
高維度的、稀疏的 one-hot 編碼向量
D
詞性標籤 (Part-of-Speech Tag)
答案解析
傳統的 one-hot 編碼(C)維度高、稀疏且無法表示詞語間的語意關係。詞嵌入技術旨在將詞語映射到一個低維度的連續向量空間中,使得語意上相似的詞語在該空間中的向量距離也相近(B)。這種稠密向量表示能夠捕捉詞語的語法和語意信息,作為下游 NLP 模型的有效輸入。整數索引(A)和詞性標籤(D)是其他文本處理步驟,不是詞嵌入本身。
#25
★★★★
Dropout 是一種在深度學習中常用的正則化技術,其主要工作原理是在訓練過程中做什麼?
A
增加網路的層數
B
隨機地將一部分神經元輸出設置為零
C
對模型的權重添加懲罰項
D
減少訓練數據的數量
答案解析
Dropout 在每次訓練迭代中,會以一定的機率 p 隨機地「丟棄」(即將其輸出置為零)隱藏層中的一部分神經元(B)。這樣做可以防止神經元之間產生過於複雜的共適應關係 (co-adaptation),強迫網路學習更魯棒的特徵。可以將 Dropout 視為一種訓練多個共享權重的「稀疏」網路的集成方法,有助於提高模型的泛化能力,減少過擬合L1/L2 正則化是通過添加權重懲罰項(C)來實現的。
#26
★★★
哪種類型的模型特別適合處理具有網格結構的數據,例如圖像?
A
卷積神經網路 (Convolutional Neural Network, CNN)
B
循環神經網路 (Recurrent Neural Network, RNN)
C
線性迴歸 (Linear Regression)
D
K-均值聚類 (K-Means Clustering)
答案解析
CNN(A)的核心是卷積層,其設計利用了圖像等網格數據空間局部性 (spatial locality) 和權重共享 (weight sharing) 特性,能夠有效地提取圖像中的局部特徵並組合為更高級的表示。RNN(B)主要用於處理序列數據。線性迴歸(C)是預測連續值的簡單模型。K-Means(D)是用於非監督式聚類的演算法。
#27
★★★
學習率 (Learning Rate) 是梯度下降優化算法中的一個重要超參數,如果學習率設置得過大,最可能導致什麼問題?
A
模型收斂速度過慢
B
損失函數在最小值附近震盪甚至發散,無法收斂
C
模型陷入局部最小值 (Local Minimum)
D
模型訓練所需的記憶體增加
答案解析
學習率控制了模型參數沿梯度反方向更新的步長。如果學習率過大,每次更新的步長太大,可能導致參數在損失函數的最小值點附近來回震盪,甚至越過最小值點而導致損失函數值增大,使得訓練過程不穩定或發散,無法收斂(B)。學習率過小則會導致收斂速度過慢(A)。陷入局部最小值(C)與學習率大小有關,但不是過大時最直接和常見的問題。學習率不直接影響記憶體(D)。
#28
★★★
目標任務的數據量較少時,遷移學習通常會採用哪種策略來利用預訓練模型
A
完全重新訓練預訓練模型的所有層
B
凍結預訓練模型的大部分底層(特徵提取層),只訓練頂部的少數幾層(分類層)
C
只使用預訓練模型的最後一層
D
丟棄預訓練模型,從頭開始訓練一個新模型
答案解析
預訓練模型底層通常學習到的是比較通用的特徵(如圖像的邊緣、紋理;文本的詞法、句法結構)。當目標任務數據量較少時,直接微調整個模型(A)容易過擬合。更常見的策略是凍結 (freeze) 這些學習通用特徵的底層,保持其權重不變,只重新訓練或替換模型頂部的任務特定層(如分類器)(B)。這樣可以利用預訓練模型學到的強大特徵提取能力,同時避免在少量數據上過度調整導致過擬合
#29
★★★
批次正規化 (Batch Normalization) 在深度學習訓練過程中的主要作用之一是?
A
直接減少模型的參數數量
B
穩定並加速訓練過程,允許使用較高的學習率
C
將模型輸出轉換為機率分佈
D
增加模型的可解釋性
答案解析
批次正規化通過對每個小批次 (mini-batch) 的數據在進入下一層之前進行正規化(使其均值為0,標準差為1),並進行縮放和平移。這有助於緩解內部協變量偏移 (Internal Covariate Shift) 問題,使得每一層的輸入分佈更加穩定,從而穩定並加速訓練過程,允許使用更高的學習率,並且具有一定的正則化效果(B)。它不直接減少參數(A),不轉換輸出為機率(C),也不直接增加可解釋性(D)。
#30
★★★★
模型選擇時,考量模型的「偏差-方差權衡」(Bias-Variance Tradeoff) 是指什麼?
A
模型預測值與真實值的平均差異
B
簡單模型通常具有高偏差低方差,複雜模型通常具有低偏差高方差,需要在兩者間取得平衡
C
模型訓練時間與預測準確率之間的權衡
D
模型可解釋性與性能之間的權衡
答案解析
模型的泛化誤差可以分解為偏差 (Bias)、方差 (Variance) 和不可避免誤差 (Irreducible Error)。偏差衡量模型預測與真實值之間的系統性差異(模型本身的擬合能力,高偏差=欠擬合)。方差衡量模型預測對於不同訓練數據集的敏感度(模型穩定性,高方差=過擬合)。通常,增加模型複雜度會降低偏差但增加方差,反之亦然。偏差-方差權衡(B)指的就是需要在降低偏差和降低方差之間找到一個平衡點,以最小化總的泛化誤差。A描述的是偏差。C和D是模型選擇中其他的權衡考量。
#31
★★★★
當處理具有明顯線性邊界二元分類問題時,下列哪種模型通常既簡單又有效
A
邏輯迴歸 (Logistic Regression)
B
深度神經網路 (Deep Neural Network)
C
K-近鄰演算法 (K-Nearest Neighbors, KNN)
D
決策樹 (Decision Tree)
答案解析
邏輯迴歸(A)本質上是尋找一個線性的決策邊界來區分兩個類別。如果數據本身可以用線性邊界很好地分開,邏輯迴歸通常是一個計算高效、易於解釋且性能良好的選擇。深度神經網路(B)雖然強大但對於簡單線性問題可能過於複雜。KNN(C)和決策樹(D)可以處理非線性邊界,但在純粹的線性問題上可能不如邏輯迴歸直接和穩定。
#32
★★★★
生成對抗網路 (Generative Adversarial Network, GAN) 的架構主要包含哪兩個互相競爭神經網路
A
編碼器 (Encoder) 和 解碼器 (Decoder)
B
卷積層 (Convolutional Layer) 和 池化層 (Pooling Layer)
C
生成器 (Generator) 和 判別器 (Discriminator)
D
策略網路 (Policy Network) 和 價值網路 (Value Network)
答案解析
GAN 由兩個核心部分組成:生成器(G)和判別器(D)(C)。生成器的目標是學習真實數據的分佈,並生成看起來像真實數據的假樣本判別器的目標是區分輸入的樣本是來自真實數據集還是由生成器生成的假樣本。兩者通過對抗訓練互相競爭:生成器試圖欺騙判別器判別器試圖不被欺騙,最終目標是讓生成器產生非常逼真的樣本。編碼器/解碼器(A)是自編碼器等模型的組件。卷積/池化層(B)是CNN的組件。策略/價值網路(D)是強化學習中的組件。
#33
★★★
在選擇模型架構時,如果計算資源(如 GPU 記憶體)非常有限,應該避免選擇哪種傾向的模型?
A
參數共享的模型 (e.g., CNN)
B
參數數量巨大且需要大批次訓練的模型 (e.g., 大型 Transformer)
C
結構簡單的線性模型
D
經過模型壓縮 (Model Compression) 的模型
答案解析
計算資源有限時,需要選擇計算和記憶體效率高的模型。參數數量巨大(如大型語言模型 Transformer)且需要較大批次 (batch size) 才能穩定訓練的模型,會消耗大量的 GPU 記憶體和計算資源,應盡量避免(B)。參數共享(如CNN)可以減少參數數量(A)。簡單線性模型(C)計算成本低。模型壓縮(D)是專門用來減小模型大小和計算量的技術。
#34
★★★
哪種模型屬於非監督式學習,常用於探索性數據分析中的數據分群
A
支持向量機 (SVM)
B
隨機森林 (Random Forest)
C
K-均值演算法 (K-Means Algorithm)
D
邏輯迴歸 (Logistic Regression)
答案解析
K-Means(C)是一種非監督式學習演算法,它的目標是將數據點劃分到 K 個不同的群組(簇)中,使得每個點都屬於與其最近的均值(簇中心)對應的簇。它不需要預先標記的數據,常用於數據分群和模式發現。SVM(A)、隨機森林(B)和邏輯迴歸(D)都是監督式學習模型,用於分類或迴歸任務,需要帶有標籤的訓練數據。
#35
★★★★
集成學習 (Ensemble Learning) 的核心思想是?
A
找到一個單一的、最優化的模型架構
B
結合多個(通常是弱的或不同的)學習器的預測來獲得比單個學習器更好的性能
C
將複雜模型分解為多個簡單的子模型
D
使用預訓練模型來加速新任務的學習
答案解析
集成學習的基本原理是「三個臭皮匠,勝過一個諸葛亮」。它不依賴於找到單一的最佳模型(A),而是通過某種策略(如 Bagging, Boosting, Stacking)將多個學習器(可以是同種類型但參數或數據不同,或不同類型的模型)的預測結果結合起來,以期獲得比任何單個成員學習器更穩定、更準確的總體預測(B)。D描述的是遷移學習
#36
★★★
K-摺交叉驗證 (K-Fold Cross-Validation) 中,數據集被分成 K 個子集(摺)。模型總共會被訓練和評估多少次?
A
1 次
B
K 次
C
K-1 次
D
K * (K-1) 次
答案解析
K-摺交叉驗證中,數據被分成 K 份。每次迭代時,選擇其中 1 份作為驗證集,其餘 K-1 份作為訓練集。這個過程重複 K 次,每次使用不同的摺作為驗證集。因此,模型總共會被訓練 K 次,並在 K 個不同的驗證集上進行評估(B)。最終的性能指標通常是這 K 次評估結果的平均值。
#37
★★★★
哪種神經網路架構特別擅長處理具有序列依賴性的數據,並常用於機器翻譯語音辨識
A
多層感知器 (Multi-Layer Perceptron, MLP)
B
卷積神經網路 (Convolutional Neural Network, CNN)
C
基於循環單元(如 LSTM/GRU)或 Transformer 的模型
D
自編碼器 (Autoencoder)
答案解析
MLP(A)主要處理向量輸入,不直接考慮序列性。CNN(B)主要處理網格數據(如圖像)。自編碼器(D)主要用於降維或特徵學習。處理具有順序依賴關係序列數據(如文本、語音)是 RNN(包括其變體 LSTMGRU)以及近年來非常成功的 Transformer 模型的核心能力(C)。它們的架構設計(循環連接自注意力機制)使其能夠捕捉序列中的上下文信息。
#38
★★
決策樹模型在進行節點分裂時,常用的標準(準則)不包含下列哪一項?
A
基尼不純度 (Gini Impurity)
B
資訊增益 (Information Gain) 或 (Entropy)
C
均方誤差 (Mean Squared Error, MSE) - 分類樹
D
均方誤差 (Mean Squared Error, MSE) - 迴歸樹
答案解析
分類樹常用的分裂準則包括基尼不純度(A)和基於資訊增益(B),目標是使得分裂後的子節點純度盡可能高(即屬於同一類別的樣本盡可能多)。迴歸樹(D)常用於預測連續值,其分裂準則是最小化分裂後子節點的均方誤差(MSE)或平均絕對誤差(MAE)。分類樹的目標是提高類別純度,而不是最小化MSE(C)。
#39
★★★
模型選擇時,考量模型的「魯棒性」(Robustness) 通常是指模型對什麼具有較低的敏感度?
A
超參數的選擇
B
輸入數據中的噪聲異常值微小擾動
C
訓練數據的大小
D
模型的可解釋性
答案解析
模型的魯棒性指的是模型在面對輸入數據的變化或干擾時,其性能(如預測準確性)保持穩定的能力。這包括對數據中的噪聲異常值 (outliers) 或對抗性攻擊等微小擾動的抵抗能力(B)。一個魯棒的模型不會因為輸入的微小變化而導致預測結果發生劇烈改變。
#40
★★
哪種模型選擇策略涉及嘗試所有可能的特徵子集來尋找最佳模型?
A
向前選擇 (Forward Selection)
B
向後剔除 (Backward Elimination)
C
最佳子集選擇 (Best Subset Selection)
D
Lasso 正則化
答案解析
最佳子集選擇(C)是一種特徵選擇方法,它會評估包含所有可能特徵組合的模型(例如,如果有p個特徵,則有2^p個可能的子集),並根據某個標準(如 AIC, BIC, 調整 R^2, 交叉驗證誤差)選出最佳的模型。這種方法計算成本非常高。向前選擇(A)從空模型開始,逐步添加最有用的特徵。向後剔除(B)從包含所有特徵的模型開始,逐步移除最不重要的特徵。Lasso(D)是一種通過 L1 正則化進行自動特徵選擇的方法。
#41
★★★
處理時間序列預測問題時,除了 RNNTransformer,哪種傳統統計模型也常被使用?
A
ARIMA (自迴歸整合移動平均模型, Autoregressive Integrated Moving Average)
B
主成分分析 (Principal Component Analysis, PCA)
C
線性判別分析 (Linear Discriminant Analysis, LDA)
D
DBSCAN (基於密度的含噪聲應用空間聚類)
答案解析
ARIMA(A)及其變種(如 SARIMA)是經典的時間序列分析和預測模型,它基於時間序列自身的歷史值(自迴歸 AR 部分)和歷史預測誤差(移動平均 MA 部分)來進行預測,並可以通過差分 (Integrated I 部分) 處理非穩態序列。PCA(B)和LDA(C)是降維技術。DBSCAN(D)是聚類演算法。
#42
★★★
在設計 CNN 架構時,增加卷積核濾波器)的數量通常會導致什麼結果?
A
能夠學習到更多種類的特徵,但也會增加計算量和參數數量
B
降低特徵圖的空間解析度
C
減少模型的過擬合風險
D
提高模型的平移不變性
答案解析
每個卷積核負責學習一種特定的局部模式或特徵。增加卷積核的數量意味著該卷積層能夠學習和提取更多種類、更豐富的特徵,這有助於提高模型的表達能力。然而,更多的卷積核也意味著更多的參數需要學習,以及更大的輸出特徵圖深度,從而增加了模型的計算量記憶體需求(A)。降低空間解析度(B)和提高平移不變性(D)是池化層的主要作用。增加模型複雜度(更多參數)通常會增加過擬合風險(C),需要配合正則化
#43
★★★★
提前停止 (Early Stopping) 是一種防止模型過擬合的常用策略,其基本做法是在訓練過程中監控哪個指標,並在該指標不再改善時停止訓練?
A
訓練集上的損失或準確率
B
驗證集 (Validation Set) 上的損失準確率
C
測試集 (Test Set) 上的損失或準確率
D
模型的參數數量
答案解析
提前停止通過在每個訓練週期 (epoch) 結束後評估模型在獨立驗證集上的性能(通常是損失函數值或某個關鍵評估指標,如準確率)(B)。當驗證集上的性能不再改善(例如,損失開始上升或準確率下降)或在一定數量的週期內沒有改善時,就停止訓練過程,並通常選用驗證性能最好時的模型。這樣可以防止模型在訓練集上繼續訓練而導致過擬合測試集(C)應用於最終評估,不應用於訓練過程中的決策。
#44
★★★
Stacking (堆疊泛化) 是一種集成學習方法,它的第二層模型(元學習器, meta-learner)的輸入是什麼?
A
原始的輸入特徵
B
第一層多個基學習器 (base learners) 的預測輸出
C
基學習器的訓練誤差
D
通過交叉驗證選擇的最佳超參數
答案解析
Stacking 通常包含至少兩層模型。第一層由多個不同的基學習器組成,它們使用原始數據進行訓練。然後,將這些基學習器預測結果(通常是通過交叉驗證的方式產生,以避免數據洩漏)作為新的特徵,輸入到第二層的模型(元學習器)中(B)。元學習器的任務是學習如何最好地結合第一層模型的預測,以產生最終的輸出。
#45
★★★
當數據集存在嚴重的類別不平衡(例如,欺詐檢測中,欺詐樣本遠少於正常樣本)時,使用準確率 (Accuracy) 作為主要評估指標可能會有什麼問題?
A
計算過於複雜
B
可能會產生誤導性的高分,即使模型對少數類別的預測很差
C
無法用於多類別分類問題
D
數值不穩定,容易受異常值影響
答案解析
準確率衡量的是所有樣本中被正確分類的比例。在類別極度不平衡的情況下,一個簡單地將所有樣本都預測為多數類別的模型也能獲得很高的準確率(例如,如果99%是正常樣本,預測所有樣本為正常的模型準確率為99%)。然而,這樣的模型對於識別少數類別(如欺詐樣本)完全沒有作用。因此,準確率在這種情況下是具有誤導性的(B),應考慮使用如 Precision, Recall, F1-score, AUC 等對類別不平衡更敏感的指標。
#46
★★★
在模型開發生命週期中,「模型監控」(Model Monitoring) 階段的主要目的是什麼?
A
選擇最佳的模型架構
B
調整模型的超參數
C
追蹤已部署模型在實際數據上的性能,檢測性能衰退數據漂移
D
對訓練數據進行標註
答案解析
模型部署到生產環境後,其性能可能會因為各種原因隨時間推移而下降。模型監控(C)是指持續追蹤模型在實際運行中的關鍵性能指標(如準確率、延遲)以及輸入數據的分佈。目的是及早發現模型性能衰退 (performance degradation) 或概念漂移/數據漂移 (concept/data drift) 等問題,以便及時採取措施,如重新訓練模型、調整閾值或更換模型。A和B是模型開發階段的任務。D是數據準備階段的任務。
#47
★★
哪種模型通常計算成本最低訓練速度最快,且易於解釋,適合作為基準模型 (Baseline Model)?
A
線性模型(如線性迴歸邏輯迴歸
B
深度學習模型
C
集成模型(如 XGBoost
D
支持向量機(帶核函數
答案解析
線性模型(A)結構簡單,參數較少,訓練通常只需要較少的計算資源和時間,並且模型的預測機制(基於特徵的加權和)相對容易理解和解釋。因此,它們常被用作基準模型,用於評估更複雜模型帶來的性能提升是否值得額外的複雜度和計算成本。深度學習(B)、集成模型(C)和帶核函數SVM(D)通常計算成本更高,訓練更慢,且可解釋性較差。
#48
★★★
使用 L1 正則化(例如 Lasso Regression)與 L2 正則化(例如 Ridge Regression)相比,L1 正則化的一個獨特效果是?
A
只能用於分類問題
B
傾向於產生稀疏的權重,即將某些特徵的係數壓縮為零,從而實現特徵選擇
C
對所有特徵的係數進行同等程度的縮減
D
計算成本遠低於 L2 正則化
答案解析
L1L2 正則化都是通過向損失函數添加懲罰項來限制模型複雜度,防止過擬合L2 正則化添加的是權重平方和的懲罰,傾向於使權重變小但不為零。L1 正則化添加的是權重絕對值之和的懲罰,由於其懲罰項在零點處不可導的特性,它在優化過程中傾向於將某些不重要特徵的係數直接壓縮到零,從而產生稀疏解,達到自動進行特徵選擇的效果(B)。兩者都可用於迴歸分類(通過影響如邏輯迴歸的係數)。
#49
★★
下列哪項不是集成學習方法的例子?
A
隨機森林 (Random Forest)
B
梯度提升機 (Gradient Boosting Machine, GBM)
C
主成分分析 (Principal Component Analysis, PCA)
D
AdaBoost (Adaptive Boosting)
答案解析
隨機森林(A)、GBM(B)和AdaBoost(D)都是典型的集成學習方法,它們通過結合多個基學習器(通常是決策樹)來提高性能。主成分分析(PCA)(C)是一種非監督式降維技術,用於找到數據中的主要變化方向(主成分)以減少特徵數量,它不是一種集成學習方法。
#50
★★★
在選擇最終部署的模型時,如果有多個模型在測試集上的性能指標(如準確率)非常接近,除了考慮計算成本和延遲外,還應該優先考慮哪個因素?
A
訓練時間最長的模型
B
參數數量最多的模型
C
結構更簡單可解釋性更好更穩健的模型
D
使用了最新發表技術的模型
答案解析
當多個模型的預測性能相近時,根據奧卡姆剃刀原則,應優先選擇更簡單的模型(C)。簡單的模型通常更容易理解、解釋、維護和部署,並且可能具有更好的魯棒性(對輸入變化的敏感度較低)。除非有特殊需求,否則在性能相當的情況下,不應僅僅因為模型更複雜(B)、訓練更久(A)或技術更新(D)就選擇它。可解釋性穩健性是重要的實際考量因素。
找不到符合條件的題目。