在調整模型超參數時,網格搜索 (Grid Search) 的主要缺點是?
網格搜索會嘗試所有預先定義的超參數值的組合。例如,如果有 3 個超參數,每個有 5 個候選值,則需要評估 5 * 5 * 5 = 125 種組合。隨著超參數數量和每個參數候選值的增加,需要評估的組合數量會呈指數級增長,導致計算成本非常高昂,尤其對於訓練耗時的模型。雖然網格搜索能系統性地探索定義範圍內的所有組合,但其效率低下是主要缺點。隨機搜索 (Random Search) 或貝葉斯優化 (Bayesian Optimization) 等方法通常在計算效率上更優。
L1 正則化 (LASSO) 與 L2 正則化 (Ridge) 在效果上的主要區別是?
A
L1 使權重趨近於零但不等於零,L2 使部分權重變為零
B
L1 傾向於產生稀疏權重(部分權重為零),具有特徵選擇效果;L2 使權重整體變小但通常不為零
C
L1 僅適用於線性模型,L2 僅適用於神經網路
L1 正則化在損失函數中添加權重絕對值之和的懲罰項 (|w|),其解的特性是傾向於將不重要的特徵對應的權重縮減至恰好為零,因此具有內建的特徵選擇 (Feature Selection) 效果,產生稀疏模型。L2 正則化添加權重平方和的懲罰項 (w²),它傾向于使所有權重都接近於零但很少恰好等於零,使得權重分佈更平滑。兩者都可以防止過擬合,但 L1 的稀疏性使其在需要特徵選擇或處理高維數據時特別有用。兩者均可應用於多種模型。
相較於基本的隨機梯度下降法 (SGD),Adam 優化器的主要優勢在於?
B
能夠為每個參數自動調整學習率,通常收斂更快且對初始學習率選擇不那麼敏感
Adam 等自適應學習率優化器(如 Adagrad, RMSprop)的核心優勢在於它們會根據歷史梯度信息為模型中的每個參數維護一個獨立的學習率。這使得它們能夠在不同參數上應用不同的更新步長,通常能更快地收斂,並且對於初始學習率的選擇相對不那麼敏感,簡化了超參數調整的過程。雖然 Adam 計算成本略高於基本 SGD(需要額外存儲和計算動量和二階矩估計),但在許多深度學習任務中,其收斂速度和穩定性的提升往往更為顯著。它仍可能陷入局部最優,且需要計算梯度。
在訓練深度學習模型時,採用學習率衰減 (Learning Rate Decay) 或學習率排程 (Learning Rate Scheduling) 的主要目的是?
A
在訓練初期使用較小的學習率,後期使用較大的學習率
B
在訓練初期使用較大的學習率以快速接近最優解,在後期使用較小的學習率以穩定收斂並避免震盪
在訓練初期,參數離最優解較遠,使用較大的學習率可以讓模型更快地向損失函數的谷底移動。然而,隨著訓練的進行,參數逐漸接近最優解,如果仍然使用較大的學習率,可能會導致參數在最優解附近來回震盪,難以精確收斂。因此,常用的策略是在訓練過程中逐步降低學習率(學習率衰減),例如按輪數指數衰減、固定步長衰減,或者當驗證損失不再下降時降低學習率 (ReduceLROnPlateau)。這樣可以在保證初期快速收斂的同時,提高後期穩定收斂到更優解的可能性。
模型剪枝 (Model Pruning) 作為一種模型壓縮技術,其主要目標是?
B
移除模型中冗餘或不重要的權重、連接或結構單元,以減小模型大小和計算量
大型深度學習模型通常包含大量參數,其中許多可能是冗餘或對最終預測貢獻很小的。模型剪枝旨在識別並移除這些不重要的部分(例如,絕對值接近於零的權重、對模型性能影響小的神經元或濾波器通道),從而創建一個更小、更稀疏的模型。剪枝後的模型通常參數數量更少、儲存空間更小、推論速度更快,有利於部署到資源受限的環境(如行動裝置)。剪枝通常需要在移除權重後進行微調 (fine-tuning) 以恢復性能。選項 C 描述的是模型量化 (Quantization)。選項 D 描述的是知識蒸餾 (Knowledge Distillation)。
特徵選擇 (Feature Selection) 的主要目的是?
B
從原始特徵集中選出一個相關性高、冗餘性低的子集,以簡化模型、提高泛化能力、減少計算成本
當數據集包含大量特徵時,其中一些特徵可能與目標變數無關,或者彼此之間高度相關(冗餘)。這些無用或冗餘的特徵可能會增加模型的複雜度、降低泛化能力(維度災難)、增加訓練時間和儲存成本。特徵選擇旨在從原始特徵集中識別並選出一個對預測目標最有效、最相關的特徵子集,移除不相關和冗餘的特徵。常用的方法包括過濾法 (Filter methods)、包裹法 (Wrapper methods) 和嵌入法 (Embedded methods, 如 L1 正則化)。選項 C 描述的是特徵提取 (Feature Extraction, 如 PCA)。選項 D 是特徵縮放 (Feature Scaling)。
在處理類別不平衡數據時,過採樣 (Oversampling) 技術指的是?
B
增加少數類別樣本的數量(例如,通過複製或合成新樣本)
類別不平衡會導致模型偏向多數類。處理該問題的方法主要有數據層面和演算法層面。數據層面的方法旨在調整訓練數據中各類別的比例。過採樣是其中一種策略,它通過增加少數類樣本的數量來平衡數據集。簡單的方法是直接複製少數類樣本,更高級的方法如 SMOTE (Synthetic Minority Over-sampling Technique) 則通過在少數類樣本之間插值來合成新的、相似的少數類樣本。相對應的,欠採樣 (Undersampling) 是減少多數類樣本的數量。演算法層面的方法包括調整類別權重、使用對不平衡敏感的損失函數或評估指標、集成方法等。
Bagging (Bootstrap Aggregating) 是一種常用的模型集成方法,其核心思想是?
A
順序地訓練多個模型,每個模型重點關注前一個模型預測錯誤的樣本
B
通過自助法抽樣 (Bootstrap) 產生多個不同的訓練子集,在每個子集上獨立訓練一個基模型,最後將所有基模型的預測結果進行組合(如投票或平均)
C
使用一個複雜模型(教師模型)的輸出來指導一個簡單模型(學生模型)的訓練
D
將多個不同類型的模型預測結果作為新的特徵,再訓練一個元模型 (meta-model)
Bagging 旨在通過組合多個獨立訓練的模型的預測來降低模型的方差,提高穩定性和準確性。其主要步驟是:1) 使用自助法(有放回抽樣)從原始訓練集中產生多個(通常幾十到幾百個)大小相同的訓練子集。2) 在每個訓練子集上獨立地訓練一個相同的基學習器(例如,決策樹)。3) 對於新的預測請求,將所有基學習器的預測結果進行匯總:分類問題通常採用多數投票 (majority voting),迴歸問題通常採用平均 (averaging)。隨機森林 (Random Forest) 就是 Bagging 的一個成功應用,它在 Bagging 的基礎上,還在每次節點分裂時隨機選擇一部分特徵進行考慮,進一步增加了基模型之間的多樣性。選項 A 描述的是 Boosting 方法(如 AdaBoost, Gradient Boosting)。選項 C 是知識蒸餾。選項 D 是堆疊 (Stacking)。
相較於網格搜索,隨機搜索 (Random Search) 調整超參數的主要優勢是?
B
在相同的計算預算下,通常能更有效地探索更廣泛的超參數空間,尤其當某些超參數影響較大而另一些影響較小時
網格搜索對所有參數組合進行評估,當某些超參數對模型性能影響不大時,會在這些維度上浪費大量計算資源。隨機搜索則是在預定義的範圍內隨機選擇超參數組合進行評估。研究表明,對於許多高維超參數空間,隨機搜索在相同的評估次數下,往往能比網格搜索找到更好或相當的解,因為它更有可能在重要的超參數維度上探索到更多樣的值。隨機搜索不能保證找到全局最優解,仍需設定搜索範圍,且每次結果可能不同(除非固定隨機種子)。
Dropout 正則化通常只在模型的哪個階段使用?
B
驗證階段 (Validation phase)
C
測試/推論階段 (Testing/Inference phase)
Dropout 是一種只在模型訓練階段應用的正則化技術。在訓練時,按設定的機率隨機將部分神經元的輸出設置為零。而在模型進行預測(驗證、測試或實際推論)時,需要關閉 Dropout,並使用所有神經元。為了補償訓練時部分神經元被失活的情況,通常會在推論時將每個神經元的輸出乘以 Dropout 保留機率 (1 - dropout rate),或者在訓練時就對保留下來的神經元輸出進行放大(稱為 Inverted Dropout),這樣推論時就不需要額外縮放。目的是確保推論時神經元輸出的期望值與訓練時一致。
學習率預熱 (Learning Rate Warmup) 策略通常用在訓練的哪個階段?其目的是什麼?
A
訓練初期,從小學習率逐漸增加到預設學習率,以穩定訓練
在訓練非常深或大型的模型(尤其是 Transformer)時,如果在訓練一開始就使用較大的學習率,可能會因為參數尚未穩定而導致訓練過程不穩定甚至發散。學習率預熱策略在訓練最開始的幾個輪數或迭代中使用一個非常小的學習率,然後逐漸線性或非線性地增加到預設的初始學習率。這樣可以讓模型參數在訓練初期更平穩地調整,避免因初始隨機權重和大學習率組合導致的數值不穩定問題,有助於後續訓練的穩定性和效果。
模型量化 (Quantization) 將模型中的浮點數權重和/或激活值轉換為低精度表示(如 8 位元整數),其主要優點不包括?
B
加快模型推論速度(尤其是在支持整數運算的硬體上)
模型量化是一種重要的模型壓縮和加速技術。通過使用更少的位元來表示數值(例如,從 32 位元浮點數到 8 位元整數),可以顯著:1) 減小模型檔案的大小,便於儲存和傳輸。2) 加快計算速度,因為整數運算通常比浮點運算更快,尤其是在特定的硬體加速器上。3) 降低記憶體帶寬需求和功耗。然而,量化是一個有損壓縮過程,它可能會犧牲一定的模型精度。雖然目標是盡量減小精度損失,甚至有時可能因正則化效果略微提升,但量化的主要目的不是提高準確率,而是優化模型的效率。
主成分分析 (Principal Component Analysis, PCA) 主要用於實現什麼目標?
C
特徵提取 (Feature Extraction) 與降維 (Dimensionality Reduction)
PCA 是一種常用的非監督式線性變換技術,用於數據降維和特徵提取。它通過尋找數據中方差最大的方向(主成分),將原始高維特徵投影到一個新的、維度較低的正交坐標系上。這樣可以在盡可能保留原始數據變異性的前提下,減少特徵的數量,達到降維的目的。降維有助於數據視覺化、去除噪聲、減輕維度災難、降低後續模型的計算複雜度。PCA 本身不是一個預測模型(如分類或迴歸)。
在分類問題中,調整模型輸出機率的分類閾值 (threshold) 主要會影響哪兩個評估指標之間的權衡?
B
精確率 (Precision) 和 召回率 (Recall)
C
偏差 (Bias) 和 方差 (Variance)
許多分類模型(如邏輯迴歸、神經網路)輸出的是樣本屬於正類別的機率。我們需要設定一個閾值(例如 0.5),當機率大於閾值時預測為正類,否則預測為負類。調整這個閾值會直接影響模型的預測結果:提高閾值會使得模型更「嚴格」地預測正類,這通常會提高精確率(預測為正的更可能是真的正),但降低召回率(可能漏掉一些真正的正樣本)。降低閾值則相反,會提高召回率但降低精確率。ROC 曲線和 Precision-Recall 曲線就是通過改變閾值繪製出來的,它們直觀地展示了這種權衡關係。
梯度提升決策樹 (Gradient Boosting Decision Tree, GBDT) 是哪種集成學習方法的代表?
Boosting 是一類集成學習方法,其核心思想是串行地構建一系列基學習器(通常是弱學習器,如淺層決策樹),每個後續的學習器都試圖糾正前面學習器的錯誤。GBDT 是 Boosting 家族中的一種強大演算法。它在每一輪迭代中,擬合當前模型損失函數的負梯度(即殘差),然後將新訓練的樹添加到現有模型中。通過逐步減少殘差,GBDT 能夠構建出非常精確的模型。與 Bagging(如隨機森林)並行訓練基學習器不同,Boosting 是順序依賴的。Stacking 則是訓練多個不同類型的基模型,並用它們的預測作為輸入來訓練一個元模型。Voting 是簡單地對多個模型預測進行投票。
貝葉斯優化 (Bayesian Optimization) 在超參數調整中的優勢是?
A
相比網格搜索和隨機搜索,通常能用更少的評估次數找到較好的超參數組合,尤其適用於評估成本高的函數
貝葉斯優化是一種基於機率模型的序列優化方法,特別適用於優化那些評估成本非常高昂的「黑盒子函數」(例如,訓練一次深度學習模型)。它通過建立一個關於目標函數(例如,驗證集上的模型性能)的代理模型(通常是高斯過程 Gaussian Process),並利用一個採集函數 (Acquisition Function) 來智能地決定下一個要評估哪個超參數組合,以平衡探索 (Exploration,嘗試不確定性高的區域) 和利用 (Exploitation,嘗試預期性能好的區域)。相比於盲目搜索的網格搜索和隨機搜索,貝葉斯優化能更有效地利用歷史評估信息,通常用更少的評估次數(即更少的模型訓練次數)就能找到接近最優的超參數組合。
早停法 (Early Stopping) 屬於哪種類型的正則化技術?
A
顯式正則化 (Explicit Regularization)
B
隱式正則化 (Implicit Regularization)
C
數據增強 (Data Augmentation)
正則化方法可以分為顯式和隱式。顯式正則化通常指直接修改目標函數(如 L1/L2 正則化)或網路結構(如 Dropout)來限制模型複雜度。隱式正則化則是指某些訓練過程或演算法本身具有的、能夠引導模型學習到更簡單或更具泛化能力解的特性。早停法通過在驗證集性能不再提升時停止訓練,間接地限制了模型的訓練程度,避免其在訓練集上過度擬合,因此被認為是一種隱式正則化技術。
SGD with Momentum 優化器中的「動量」(Momentum) 參數的作用是?
B
加速梯度下降過程,尤其是在梯度方向一致的維度上,並有助於克服局部最小值或鞍點
基本的 SGD 僅根據當前批次的梯度來更新參數,容易在曲面較平坦或存在峽谷的區域震盪或停滯。Momentum 方法引入了一個類似物理學中動量的概念,它累積了過去梯度的一個指數衰減移動平均值(稱為動量項)。在更新參數時,不僅考慮當前梯度,還會加上這個動量項。這使得更新方向更加穩定,能夠加速在梯度方向一致的維度上的移動,並有助於「衝過」梯度較小的區域(如局部最小值或鞍點)。
知識蒸餾 (Knowledge Distillation) 的基本思想是?
B
訓練一個較小的「學生」模型來模仿一個較大的、預訓練好的「教師」模型的行為
知識蒸餾是一種模型壓縮和遷移學習技術。它假設一個大型、複雜的「教師模型」(通常性能較好)學到的知識不僅體現在其最終的硬預測 (hard prediction) 上,也蘊含在其輸出的軟目標 (soft targets,例如 Softmax 層輸出的類別機率分佈)中。知識蒸餾通過訓練一個參數更少、結構更簡單的「學生模型」,使其不僅學習擬合真實的標籤 (hard labels),同時也學習模仿教師模型輸出的軟目標。這樣,學生模型可以從教師模型那裡「蒸餾」出更豐富的知識,通常能以較小的模型尺寸達到接近甚至超過直接在硬標籤上訓練的性能。
將類別特徵 (Categorical Feature) 轉換為數值表示時,獨熱編碼 (One-Hot Encoding) 的主要缺點是?
B
當類別數量很大時,會導致特徵維度急劇增加,產生高維稀疏向量
獨熱編碼將每個類別值轉換為一個二元向量,向量的長度等於類別的總數量,其中對應類別的位置為 1,其餘位置為 0。這種方法避免了為類別引入人為的順序關係。然而,如果一個類別特徵具有非常多的唯一值(高基數 High Cardinality),例如用戶 ID 或郵遞區號,獨熱編碼會產生一個非常高維且極其稀疏的特徵向量,這會顯著增加模型的計算和存儲需求,並可能影響某些模型的性能(維度災難)。在這種情況下,可能需要考慮其他編碼方法,如標籤編碼 (Label Encoding) 配合樹模型、目標編碼 (Target Encoding) 或嵌入 (Embedding)。
SMOTE (Synthetic Minority Over-sampling Technique) 是如何生成新的少數類樣本的?
B
通過在現有少數類樣本與其近鄰之間進行線性插值來合成新樣本
SMOTE 是一種比簡單隨機複製更高級的過採樣方法。它的基本思想是:對於每個少數類樣本,找到其 K 個最近的少數類鄰居;然後,隨機選擇其中一個鄰居,在該樣本與選定鄰居之間的連線上隨機選擇一個點,生成一個新的合成樣本。通過這種方式,SMOTE 可以在特徵空間中創造出與現有少數類樣本相似但又不完全相同的新樣本,有助於擴大少數類的決策區域,改善類別不平衡問題,同時避免簡單複製可能導致的過擬合。
模型堆疊 (Stacking) 與簡單投票/平均的主要區別在於?
B
Stacking 使用一個額外的「元模型」來學習如何最佳地組合基模型的預測,而不是簡單地投票或平均
D
Stacking 主要用於降低模型偏差,投票/平均主要用於降低方差
簡單的投票(用於分類)或平均(用於迴歸)是對多個基模型的預測結果進行直接組合。而 Stacking (有時也叫 Stacked Generalization) 是一種更複雜的集成方法,它分兩層進行:第一層訓練多個不同的基模型(通常是異構的,即不同類型的模型);第二層則將第一層基模型的預測輸出(通常是通過交叉驗證產生的預測)作為新的特徵,訓練一個「元模型」(Meta-model,例如邏輯回歸、神經網路等)來學習如何根據這些基模型的預測來做出最終的預測。Stacking 試圖學習到比簡單組合更優的組合權重或模式,有可能達到更好的性能,但實現和訓練通常更複雜。
調整超參數時,哪個超參數通常對深度學習模型的性能影響最大,需要優先調整?
雖然許多超參數都會影響模型性能,但學習率通常被認為是最關鍵、影響最大的超參數之一。學習率的選擇直接決定了模型訓練的收斂速度、穩定性以及最終能達到的性能水平。過大或過小的學習率都可能導致訓練失敗或次優結果。因此,在進行超參數調整時,通常會優先投入資源來尋找一個合適的學習率範圍,然後再調整其他參數如批次大小、正則化強度、網路結構等。
餘弦退火學習率排程 (Cosine Annealing Schedule) 的特點是?
B
學習率按照餘弦函數的形狀從初始值平滑下降到最小值
餘弦退火是一種流行的學習率排程策略。它讓學習率在一個預設的周期內(例如,總訓練輪數或其中的一部分)按照餘弦函數曲線從初始值 (η_max) 平滑地下降到一個最小值(通常是 0 或一個很小的值 η_min)。相較於簡單的線性下降或階梯下降,餘弦退火的平滑下降被認為有助於模型更穩定地收斂到更好的局部最優點。有時還會結合週期性重啟 (snapshot ensembles) 使用,即在學習率降到最低後,突然重置回較大的初始值,開始新的退火周期。
對於樹模型(如決策樹、隨機森林、GBDT),下列哪種特徵預處理步驟通常不是必需的,甚至可能有害?
A
處理缺失值 (Missing Value Imputation)
B
特徵標準化或正規化 (Feature Scaling)
D
特徵選擇 (Feature Selection)
樹模型是基於對特徵值進行一系列的閾值比較來進行節點分裂的。它們對特徵的絕對數值大小不敏感,只關心其相對順序和閾值。因此,對數值特徵進行標準化(使其均值為 0,標準差為 1)或正規化(使其範圍在 0 到 1 之間)通常對樹模型的性能沒有幫助,甚至可能因為損失了一些數值信息而略微有害。然而,處理缺失值和類別特徵對於樹模型仍然是必要的(儘管某些實現可能內建了處理方法)。特徵選擇雖然不是必需,但移除不相關特徵通常有助於簡化模型和提高效率。
模型優化與調整的最終目標是提升模型的哪種能力?
B
在未見過的新數據上的泛化能力 (Generalization Ability)
模型調整和優化的所有努力,包括超參數調整、正則化、架構改進等,最終都是為了提高模型在實際應用中處理未曾見過的新數據時的表現,即模型的泛化能力。雖然我們希望模型能很好地擬合訓練數據,但過度擬合訓練數據反而會損害泛化能力。可解釋性和訓練速度是重要的考量因素,但最終衡量模型好壞的標準是其在真實世界數據上的預測準確性和穩定性。
調整損失函數中的類別權重 (Class Weighting) 是處理類別不平衡的一種方法,其原理是?
C
在計算總損失時,給予少數類樣本的預測錯誤更高的懲罰權重
類別加權是一種在演算法層面處理不平衡數據的方法。它通過修改損失函數,使得模型在計算總損失時,對不同類別的樣本賦予不同的權重。通常的做法是給予樣本數量較少的少數類別更高的權重,而給予樣本數量較多的多數類別較低的權重(例如,權重與類別頻率成反比)。這樣,模型會更加關注對少數類樣本的預測錯誤,避免其被多數類主導,從而提高模型對少數類的識別能力。
隨機森林 (Random Forest) 模型相比於單棵決策樹的主要優勢是?
單棵決策樹容易過擬合。隨機森林通過 Bagging 和特徵隨機化構建了多棵不相關或弱相關的決策樹,並將它們的預測結果進行集成。這種集成效應顯著降低了模型的方差,使得隨機森林通常比單棵決策樹具有更好的泛化性能和對數據噪聲的魯棒性,更不容易過擬合。然而,隨機森林的模型解釋性不如單棵決策樹直觀,且訓練(需要構建多棵樹)和預測(需要匯總多棵樹結果)的時間成本通常更高。
手動調整超參數的主要缺點是?
B
非常耗時、依賴經驗,且難以系統性地探索所有可能的組合
手動調整超參數,即根據經驗或直覺反覆嘗試不同的值並觀察模型性能,是一種常見的做法,尤其是在初步探索階段。然而,它的主要缺點是效率低下、非常耗時,並且高度依賴調參者的經驗和直覺。對於具有多個相互影響的超參數的複雜模型,手動調整很難系統性地覆蓋所有可能的優良組合,容易錯過最佳設置。自動化的超參數調整方法(如網格搜索、隨機搜索、貝葉斯優化)旨在克服這些缺點,提供更系統、更有效的搜索策略。
批次正規化 (Batch Normalization) 在推論 (Inference) 階段是如何操作的?
B
使用在整個訓練數據集上估計的全局均值和方差(或訓練過程中計算的移動平均值)進行正規化
批次正規化在訓練時計算的是當前小批次的均值和方差。但在推論階段,我們通常一次只處理一個樣本,或者批次大小可能變化,並且希望模型的輸出是確定的,不應依賴於同一批次中的其他樣本。因此,在推論時,不再計算批次統計量,而是使用在訓練過程中累積的全局均值和方差的估計值(通常是通過指數移動平均計算得到的運行均值和運行方差)來對輸入進行正規化。可學習的縮放 (gamma) 和平移 (beta) 參數仍然使用訓練得到的數值。
哪種學習率排程策略會根據驗證集性能的變化來動態調整學習率?
A
指數衰減 (Exponential Decay)
C
學習率平穩期降低 (ReduceLROnPlateau)
指數衰減、固定步長衰減和餘弦退火等策略通常是根據訓練的輪數或迭代次數來預先設定好的方式降低學習率。而 ReduceLROnPlateau 策略則是一種自適應的學習率調整方法。它會監控一個指定的性能指標(通常是驗證集損失),如果在一定的「耐心」(patience) 輪數內該指標沒有改善,就會自動將當前學習率乘以一個衰減因子(例如,降低到原來的 0.1 倍)。這種方法可以根據模型實際的學習進展來動態調整學習率。
模型壓縮技術的主要應用場景是?
B
將模型部署到資源受限的邊緣設備(如手機、嵌入式系統)
深度學習模型,尤其是最先進的模型,通常規模龐大,需要大量的計算資源和儲存空間。這使得它們很難直接部署到計算能力、記憶體、帶寬和功耗都受限制的邊緣設備上(例如,智慧手機、物聯網設備、自動駕駛汽車中的感測器)。模型壓縮技術(如剪枝、量化、知識蒸餾、低秩分解等)旨在減小模型的尺寸、降低計算複雜度、加快推論速度,使其能夠在這些資源受限的環境中高效運行。
包裹法 (Wrapper methods) 進行特徵選擇的基本思路是?
A
根據特徵本身的統計特性(如方差、相關性)進行評分和選擇,與模型無關
B
將特徵子集的選擇視為一個搜索問題,使用特定模型的性能作為評估標準來指導搜索過程
C
在模型訓練過程中自動完成特徵選擇(如 L1 正則化)
包裹法特徵選擇將最終要使用的學習模型「包裹」在特徵選擇過程中。它把選擇最佳特徵子集看作一個搜索問題(例如,前向搜索、後向搜索、遞迴特徵消除 Recursive Feature Elimination, RFE),並使用特定機器學習模型在某個特徵子集上的性能(例如,交叉驗證的準確率)作為評價該子集好壞的標準。相比於只考慮特徵本身統計特性的過濾法,包裹法通常能找到更適合特定模型的特徵子集,但計算成本也更高,因為需要反覆訓練和評估模型。選項 A 是過濾法。選項 C 是嵌入法。選項 D 是特徵提取。
欠採樣 (Undersampling) 方法在處理類別不平衡時可能帶來的主要風險是?
B
可能丟失多數類樣本中包含的有用信息,導致模型性能下降
欠採樣通過隨機或有策略地移除一部分多數類樣本,來平衡數據集中各類別的比例。這樣做可以顯著減少訓練數據量,加快訓練速度。然而,其主要風險在於丟棄多數類樣本的過程可能會移除掉一些對模型學習有用的信息,特別是當多數類內部也存在不同模式或邊界樣本時。如果丟失了關鍵信息,可能導致模型泛化能力下降。因此,選擇哪些多數類樣本進行移除需要謹慎,或者可以考慮結合集成方法(如 EasyEnsemble, BalanceCascade)來減輕信息損失的風險。
模型集成能夠提高整體性能的理論基礎之一是,基模型之間應該具有什麼特性?
A
高度相關 (Highly Correlated)
B
準確且多樣 (Accurate and Diverse)
C
結構完全相同 (Identical Structure)
模型集成之所以有效,是因為它結合了多個模型的「智慧」。為了讓集成效果最大化,構成集成的基模型最好滿足兩個條件:1) 準確性 (Accuracy):每個基模型本身需要具有一定的預測能力,至少比隨機猜測好。2) 多樣性 (Diversity):基模型之間應該存在差異,它們在預測時會犯不同的錯誤。如果所有基模型都完全一樣,或者犯完全相同的錯誤,那麼集成它們就沒有任何意義。通過結合多個既準確又有差異的模型,它們的錯誤可以相互抵消,從而使得集成模型的整體性能通常優於任何單個基模型。產生多樣性的方法包括使用不同的訓練數據子集(Bagging)、不同的特徵子集(隨機森林)、不同的模型類型(Stacking)或不同的初始化/超參數。
為了加速超參數搜索過程,有時會採用什麼策略?
C
結合 A 和 B,例如使用 Successive Halving 或 HyperBand 等多保真度優化方法
評估一組超參數的成本(即完整訓練一次模型的成本)通常很高。為了加速搜索,可以使用多保真度優化 (Multi-fidelity Optimization) 策略。這些策略的基本思想是:用較低的成本(例如,在數據子集上訓練或只訓練少量輪數)來快速淘汰掉明顯較差的超參數組合,然後將更多的計算資源分配給更有潛力的組合進行更充分的評估。Successive Halving 演算法就是一個例子:它將所有候選組合用少量資源進行評估,淘汰掉表現最差的一半,然後對剩下的一半增加資源,重複此過程。HyperBand 則是在 Successive Halving 的基礎上進一步優化了資源分配策略。這些方法通常能比傳統搜索方法更快地找到好的超參數組合。
梯度裁剪 (Gradient Clipping) 技術主要用於解決哪個問題?
A
梯度消失 (Vanishing Gradients)
B
梯度爆炸 (Exploding Gradients)
梯度爆炸是指在訓練深層網路(尤其是 RNN)時,梯度值變得異常巨大,導致參數更新過猛,使得訓練過程極不穩定甚至失敗(例如出現 NaN)。梯度裁剪是一種簡單有效的應對方法。它設定一個閾值,如果在反向傳播過程中計算出的梯度向量的範數 (Norm) 超過了這個閾值,就將梯度向量按比例縮小,使其範數等於該閾值。這樣可以限制梯度的最大值,防止因梯度過大導致的數值不穩定問題。梯度裁剪對梯度消失問題無效。
交互特徵 (Interaction Features) 指的是什麼?如何創建它們?
B
表示兩個或多個原始特徵之間組合效應的特徵;通過特徵相乘、相除或構建決策樹等方式創建
有時,目標變數不僅與單個特徵相關,還與多個特徵的組合效應相關。例如,廣告點擊率可能不僅取決於廣告內容和用戶年齡,還取決於這兩者的特定組合。交互特徵就是用來捕捉這種組合效應的新特徵。創建交互特徵的常見方法包括:將兩個或多個數值特徵相乘;將類別特徵組合(例如,"性別=男" 且 "城市=台北");或者使用能夠自動學習特徵交互的模型(如因子分解機 Factorization Machines, GBDT, 深度學習模型中的特徵交叉層)。添加有效的交互特徵可以顯著提升模型的預測能力,特別是對於線性模型。
Focal Loss 主要是為了解決什麼問題而設計的?
B
密集物體檢測中正負樣本極度不平衡以及難易樣本不平衡的問題
Focal Loss 最初是在 RetinaNet 物體檢測模型中提出的,旨在解決單階段檢測器 (one-stage detector) 中前景(物體)和背景(非物體)樣本數量極度不平衡的問題。標準的交叉熵損失會被大量容易分類的背景樣本 (easy negatives) 主導,使得模型對困難前景樣本的學習不足。Focal Loss 修改了標準交叉熵損失,引入了一個調節因子,可以降低容易樣本對總損失的貢獻權重,使得模型在訓練時更加關注那些難以分類的樣本 (hard examples,通常是少數類的前景樣本)。這有助於提高模型在密集物體檢測等前景背景極不平衡任務上的性能。
彈性網路正則化 (Elastic Net Regularization) 結合了哪兩種正則化方法?
A
Dropout 和 Batch Normalization
B
L1 正則化 (LASSO) 和 L2 正則化 (Ridge)
彈性網路正則化試圖結合 L1 和 L2 正則化的優點,同時克服它們各自的缺點。它在損失函數中同時加入了 L1 懲罰項(權重絕對值之和)和 L2 懲罰項(權重平方和),並通過一個混合比例參數 α 來控制兩者的相對重要性。當 α=1 時,相當於 L1 正則化;當 α=0 時,相當於 L2 正則化。彈性網路既能像 L1 那樣產生稀疏解進行特徵選擇,又能像 L2 那樣處理共線性較高的特徵(L1 在這種情況下可能隨機選擇一個特徵而忽略其他相關特徵),通常在某些場景下比單獨使用 L1 或 L2 效果更好。
對於需要調整的超參數,哪些通常建議在對數尺度 (Logarithmic Scale) 上進行搜索?
B
學習率 (Learning Rate) 和正則化強度 (Regularization Strength)
D
優化器的選擇 (Optimizer Choice)
對於像學習率和正則化強度這類超參數,它們的影響通常不是線性的。例如,學習率從 0.1 變到 0.01 的影響,可能遠大於從 0.1 變到 0.11 的影響。在這種情況下,如果在線性尺度上均勻取樣(例如 0.1, 0.2, ..., 1.0),大部分計算資源會浪費在影響較小的區間。而在對數尺度上取樣(例如 10⁻⁴, 10⁻³, 10⁻², 10⁻¹, 1),可以更有效地探索不同數量級的值,更有可能找到最佳範圍。因此,對於學習率、正則化係數等乘性影響的超參數,建議在對數尺度上進行搜索。層數、神經元數量、批次大小等通常在線性尺度上搜索。
XGBoost 和 LightGBM 是對傳統 GBDT 的改進,它們主要在哪些方面進行了優化?
XGBoost 和 LightGBM 是目前非常流行且高效的梯度提升樹實現。它們在傳統 GBDT 的基礎上進行了多方面的優化:XGBoost 引入了二階泰勒展開來近似損失函數,加入了正則化項 (L1 和 L2) 來控制模型複雜度,支持並行計算,並對缺失值處理進行了優化。LightGBM 則採用了基於梯度的單邊採樣 (Gradient-based One-Side Sampling, GOSS) 和互斥特徵捆綁 (Exclusive Feature Bundling, EFB) 技術來加速訓練和減少記憶體消耗,並採用帶深度限制的 Leaf-wise 增長策略(相比 XGBoost 的 Level-wise)通常能更快達到更高精度。總體來說,它們在效率和性能上通常優於傳統 GBDT。
週期性學習率 (Cyclical Learning Rates, CLR) 策略的主要思想是?
A
讓學習率在一個預設的最小值和最大值之間週期性地變化
週期性學習率策略提出,與其單調地降低學習率,不如讓學習率在一個合理的範圍內(由最小值 base_lr 和最大值 max_lr 定義)週期性地來回變化(例如,使用三角波或帶衰減的三角波)。其背後的直覺是,週期性地提高學習率有助於模型跳出可能陷入的鞍點或尖銳的局部最小值,探索更廣闊的參數空間,而週期性地降低學習率則有助於模型在潛在的最優點附近穩定下來。實驗表明 CLR 有時能更快地達到更高的性能,並且對初始學習率的選擇不那麼敏感。
低秩分解 (Low-Rank Factorization) 主要應用於壓縮神經網路中的哪個部分?
B
權重矩陣 (Weight Matrix),尤其是全連接層或卷積層的權重
深度學習模型中的權重矩陣(尤其是在全連接層或某些卷積層)往往是冗餘的,即它們的真實「秩」(Rank) 可能遠低於其原始維度。低秩分解技術利用這一點,將一個大的權重矩陣 W 分解為兩個或多個較小的矩陣的乘積(例如 W ≈ UVᵀ),其中 U 和 V 的維度遠小於 W。這樣可以用更少的參數來近似原始的權重矩陣,從而達到壓縮模型、減少計算量的目的。這種方法在推薦系統和自然語言處理中也有廣泛應用。
對數值特徵進行離散化或分箱 (Discretization/Binning) 的一個可能好處是?
A
可以引入非線性,使線性模型也能處理某些非線性關係,並提高模型對異常值的魯棒性
將連續的數值特徵劃分到不同的區間(箱子 Bins)中,並用區間標識(例如 0, 1, 2... 或區間名稱)來替代原始數值,這個過程稱為離散化或分箱。這樣做的好處可能包括:1) 引入非線性:即使是線性模型,在離散化後的特徵上也能學習到分段線性的非線性關係。2) 提高魯棒性:對異常值不那麼敏感,因為異常值會被歸入邊緣的箱子。3) 處理缺失值:可以將缺失值視為一個單獨的箱子。4) 簡化模型:對於某些模型(如決策樹),離散特徵可能更容易處理。然而,離散化也會損失一部分數值信息,如何劃分箱子(等寬、等頻、或基於業務理解)是關鍵。解釋性不一定提高,特徵維度也不會減少(除非後續進行編碼)。
在集成學習中,使用不同的基模型(例如,同時使用 SVM、隨機森林和神經網路)屬於哪種策略?
C
Stacking 或 簡單投票/平均 (如果直接組合)
Bagging 和 Boosting 通常使用同質的基學習器(例如,都是決策樹)。而當我們結合多個不同類型的模型(異構模型)時,如果只是簡單地對它們的預測進行投票或平均,則屬於簡單的集成組合。如果使用這些不同模型的預測作為輸入來訓練一個元模型,則屬於 Stacking。這樣做的主要目的是利用不同模型可能從數據中學習到的不同方面的信息,以期獲得比任何單一模型類型都更好的性能。
下列哪項不是 L1 或 L2 正則化的主要目的?
L1 和 L2 正則化通過向損失函數添加對模型權重大小的懲罰項,來限制模型複雜度,從而防止模型過度擬合訓練數據,提高其在未見數據上的泛化能力。雖然合適的正則化有助於找到更好的解,但它們本身並不直接以加速訓練收斂為主要目的(有時甚至可能略微減慢收斂)。加速收斂通常是通過選擇合適的優化器和學習率策略來實現的。
哪種優化器在更新參數時只考慮梯度符號而不考慮其大小?
一些研究提出只使用梯度的符號(正或負)來進行參數更新的優化器,例如 SignSGD。其更新規則大致為 `parameter = parameter - learning_rate * sign(gradient)`。這種方法的動機之一是簡化計算和通信(在分佈式訓練中),因為只需要傳輸梯度的符號位。雖然這種方法在某些特定場景下可能有效,但它不是主流的優化器選擇。標準的 SGD、Adam、RMSprop 等都會考慮梯度的大小。
在模型集成中,「多樣性」可以通過哪些方式引入?
B
使用不同的特徵子集 (如 Random Forest)
C
使用不同的模型架構或演算法 (如 Stacking)
為了讓集成模型中的基模型具有多樣性(即它們會犯不同的錯誤),可以採用多種策略:1) 數據層面:讓每個基模型在不同的數據子集上訓練(例如 Bagging 使用自助抽樣)。2) 特徵層面:讓每個基模型(或其內部決策,如樹節點分裂)只考慮一部分特徵(例如隨機森林)。3) 模型層面:使用完全不同類型的基模型(例如,在 Stacking 中結合 SVM、神經網路、樹模型等)。4) 參數層面:使用相同的模型架構,但使用不同的隨機初始化或超參數設置。這些方法都可以產生預測行為有差異的基模型,有助於提高集成後的整體性能。
模型調整優化的過程通常是?
模型調整與優化很少是一蹴可幾的。它通常是一個需要反覆進行的迭代過程:根據初步的訓練和評估結果,分析模型的表現(例如,查看學習曲線、進行誤差分析),然後針對性地調整超參數、嘗試不同的正則化策略、改進特徵工程、甚至修改模型架構,再重新訓練和評估,觀察效果。這個循環可能需要重複多次,直到模型的性能達到滿意的水平或者改進空間變得非常有限。雖然有自動化工具(如 AutoML、自動超參數調整)可以輔助這個過程,但通常仍然需要數據科學家或工程師的專業判斷和干預。