以下哪種機器學習任務是利用帶有標籤 (Label) 的數據來訓練模型,以預測新數據的標籤?
A
監督式學習(Supervised Learning)
B
非監督式學習(Unsupervised Learning)
C
強化學習(Reinforcement Learning)
D
半監督式學習(Semi-supervised Learning)
監督式學習是最常見的機器學習類型。其核心特徵是使用標註好的訓練數據,即每個訓練樣本都包含輸入特徵 (Features) 和對應的正確輸出標籤 (Labels) 或目標值 (Target Value)。模型的目標是學習從輸入到輸出的映射關係,以便能夠對新的、未標註的輸入數據進行預測。常見的監督式學習任務包括分類 (Classification) 和回歸 (Regression)。
線性回歸(Linear Regression)模型的主要目標是?
B
找到一條直線(或超平面)來最佳地擬合數據點,以預測連續數值
線性回歸是一種基本的監督式學習演算法,用於預測連續型數值(例如房價、溫度、銷售額)。它假設輸入特徵(自變數)與輸出目標(應變數)之間存在線性關係,並試圖找到一條最佳的直線(對於單一特徵)或超平面(對於多個特徵)來擬合訓練數據,使得預測值與實際值之間的誤差(通常是均方誤差)最小化。選項A描述的是分類任務。選項C是非監督式學習中的分群任務。選項D是非監督式學習中的降維任務。
邏輯回歸(Logistic Regression)雖然名稱中有「回歸」,但它主要用於解決哪種類型的機器學習問題?
A
分類問題(Classification),特別是二元分類
D
降維問題(Dimensionality Reduction)
邏輯回歸是一種廣泛應用於分類問題的監督式學習演算法。儘管其名稱包含「回歸」,但它並非直接預測連續值。它透過一個 Sigmoid 函數(或稱為 Logistic 函數)將線性模型的輸出映射到 [0, 1] 的區間,這個值可以解釋為樣本屬於某個類別(通常是正類)的機率。然後根據這個機率值和一個閾值(通常是 0.5)來進行分類決策。因此,邏輯回歸主要用於處理分類任務,尤其是二元分類,也可以擴展到多元分類。
K-近鄰(K-Nearest Neighbors, KNN)演算法如何為一個新的數據點進行分類?
B
找到訓練數據中與新數據點距離最近的 K 個鄰居,並根據這些鄰居的主要類別來決定新數據點的類別
KNN 是一種簡單直觀的非參數、懶惰學習演算法。對於一個新的未標註數據點,KNN 的預測過程如下:1. 計算新數據點與訓練集中所有數據點之間的距離(常用歐氏距離、曼哈頓距離等)。2. 找出距離最小的 K 個訓練樣本(即 K 個最近鄰居)。3. 對於分類問題,統計這 K 個鄰居中最常出現的類別,並將該類別賦予新數據點。對於回歸問題,則計算這 K 個鄰居的目標值的平均數或中位數作為預測值。參數 K 的選擇對模型效能有重要影響。
支持向量機(Support Vector Machine, SVM)的核心思想是尋找一個什麼樣的超平面(Hyperplane)來分隔不同類別的數據?
B
能夠最大化不同類別之間邊界(Margin)的超平面
SVM 是一種強大的監督式學習演算法,常用於分類和回歸。在分類問題中,SVM 的目標是找到一個能夠將不同類別數據點分隔開的最佳決策邊界(在高維空間中稱為超平面)。所謂「最佳」,是指這個超平面能夠使得距離它最近的來自不同類別的數據點(稱為支持向量 Support Vectors)到該超平面的距離(即邊界 Margin)最大化。最大化這個邊界有助於提高模型的泛化能力和魯棒性,使其對新數據的分類更可靠。
在處理非線性可分數據時,SVM 通常使用什麼技術將數據映射到更高維的空間,以便在該空間中找到線性分隔超平面?
C
梯度下降法(Gradient Descent)
當原始數據線性不可分時,SVM 可以透過核技巧來處理。核技巧允許 SVM 在一個更高維的特徵空間中(隱式地)操作,而無需實際計算數據點在該高維空間中的座標。它透過定義核函數(如線性核、多項式核、高斯核 RBF 等)來計算原始空間中數據點在高維空間中的內積。這使得 SVM 能夠在高維空間中找到非線性的決策邊界,從而有效地處理原始空間中線性不可分的問題。
決策樹(Decision Tree)在進行節點分裂時,常用的不純度(Impurity)衡量指標有哪些?
B
吉尼不純度(Gini Impurity)和資訊熵(Entropy)
C
精確率(Precision)和召回率(Recall)
決策樹構建的核心過程是遞迴地選擇最佳特徵和分裂點來劃分數據,目標是使得分裂後的子節點數據盡可能「純淨」(即屬於同一類別)。衡量節點純度的常用指標(即不純度指標,值越小越純)包括:
* 吉尼不純度 (Gini Impurity):衡量從節點中隨機選取兩個樣本,其類別標籤不一致的機率。
* 資訊熵 (Entropy):衡量節點數據集混亂程度或不確定性的指標,基於資訊理論。
決策樹演算法(如 CART, ID3, C4.5)會計算使用不同特徵進行分裂後,子節點不純度的加權平均值,並選擇能夠最大程度降低不純度(即最大化資訊增益或基尼增益)的特徵和分裂點。選項 A 是回歸指標。選項 C 和 D 是分類模型的評估指標,不用於決策樹的節點分裂。
為了防止決策樹過擬合,可以採取的「剪枝」(Pruning)策略不包括?
B
設定節點分裂所需的最小樣本數(Min Samples Split)
C
設定葉節點所需的最小樣本數(Min Samples Leaf)
剪枝是控制決策樹複雜度、防止其過擬合的重要手段。常用的預剪枝(Pre-pruning,在生長過程中限制)策略包括:限制樹的最大深度(A)、要求節點至少包含多少樣本才能分裂(B)、要求分裂後的葉節點至少包含多少樣本(C)、限制最大葉節點數量等。後剪枝(Post-pruning)則是在樹完全生長後,再根據驗證集效能移除一些分支。增加特徵數量(D)通常會增加模型的複雜度,更容易導致過擬合,而不是防止過擬合的方法。
隨機森林(Random Forest)演算法中的「隨機」體現在哪些方面?
B
隨機選擇訓練樣本(自助採樣)和隨機選擇分裂特徵
隨機森林的隨機性主要來自兩個來源,目的是增加基學習器(決策樹)之間的多樣性:
1. 樣本隨機性:每棵樹的訓練數據是從原始訓練集中透過自助採樣(Bootstrap Sampling,即有放回抽樣)得到的。這意味著每棵樹的訓練集不同,且有些樣本可能被多次選中,有些可能一次都未被選中。
2. 特徵隨機性:在構建每棵樹的過程中,當需要分裂節點時,不是從所有特徵中選擇最佳分裂特徵,而是先隨機選取一個特徵子集(例如,選取總特徵數的平方根個數),然後再從這個子集中選擇最佳分裂特徵。
這兩種隨機性確保了森林中的樹各不相同,降低了它們之間預測結果的相關性,從而提高了集成模型的穩定性和泛化能力。
Boosting 類型的集成學習演算法(如 AdaBoost, GBDT)是如何構建基學習器的?
B
依次、串行地訓練基學習器,後面的學習器重點關注前面學習器預測錯誤的樣本
Boosting 是一種串行的集成學習方法。它從一個簡單的基學習器開始,然後依次添加新的基學習器。每一個新的學習器都是在前一個學習器的基礎上進行訓練的,其目標是修正前面學習器的錯誤。具體來說,Boosting 演算法通常會增加被前面學習器預測錯誤的樣本的權重,使得後續的學習器更加關注這些「困難」的樣本。最終的模型是所有基學習器的加權組合。這種逐步修正錯誤的方式使得 Boosting 模型通常能達到很高的精度,但對雜訊較敏感且訓練過程不易平行化。選項A描述的是 Bagging(如隨機森林)的方法。
XGBoost 和 LightGBM 相對於傳統的 GBDT,進行了哪些主要的改進?
B
引入了正規化項以防止過擬合,並在速度和效率上進行了優化(如並行處理、直方圖算法等)
XGBoost 和 LightGBM 都是對傳統 GBDT 的高效改進實現,在數據科學競賽和實際應用中非常流行。它們的主要改進包括:
* 正規化:在目標函數中加入了對樹複雜度的正規化項(如葉子節點數量、葉子節點權重的 L2 範數),有助於防止過擬合。
* 效率優化:採用了更高效的節點分裂查找算法(如 XGBoost 的預排序和加權分位數草圖,LightGBM 的基於梯度的單邊採樣 GOSS 和互斥特徵捆綁 EFB,以及基於直方圖的算法),並支援並行處理,大大提高了訓練速度和內存效率。
* 處理缺失值:內建了處理缺失值的機制。
* 其他:如 XGBoost 支援自定義損失函數,LightGBM 採用帶深度限制的 Leaf-wise 生長策略等。
K-Means 分群演算法的目標是將數據點劃分到 K 個群組中,使得哪個指標最小化?
B
每個數據點到其所屬群組中心(Centroid)的距離平方和(組內平方和)
K-Means 是一種常用的非監督式分群演算法。其目標是將 N 個數據點劃分為 K 個預先指定的群組,使得每個數據點都屬於距離其最近的群組中心(Centroid,通常是該群組內所有點的均值)。優化的目標是最小化所有數據點到其各自群組中心的距離平方和,這個指標也稱為組內平方和(Within-Cluster Sum of Squares, WCSS)或慣量(Inertia)。K-Means 演算法透過迭代地更新數據點的歸屬和群組中心的位置來逼近這個目標。
K-Means 分群演算法的一個主要缺點是?
B
對初始群組中心的選擇敏感,且難以處理非球狀或大小不一的群組
K-Means 有幾個主要的缺點:
1. 對初始中心敏感:不同的初始中心選擇可能導致不同的最終分群結果,容易陷入局部最優。通常需要多次隨機初始化並選擇最佳結果。
2. 需要預先指定 K 值:必須事先確定要分的群組數量 K,而 K 的選擇往往不直觀。
3. 對非球狀群組效果差:K-Means 假設群組是凸形的、球狀的,且大小相似,對於條狀、環狀或密度不均的群組效果不佳。
4. 對離群值敏感:離群值會對群組中心的計算產生較大影響。
選項 B 概括了其中兩個重要缺點。K-Means 可以處理高維數據(但可能受維度災難影響),屬於非監督式學習(C錯),計算相對高效(D錯)。
主成分分析(Principal Component Analysis, PCA)找到的主成分(Principal Components)具有什麼特性?
PCA 透過對數據的共變異數矩陣進行特徵分解(或對數據矩陣進行奇異值分解 SVD),找到一組新的正交基向量,這些向量對應數據變異最大的方向。這些新的基向量就是主成分。由於它們是共變異數矩陣的特徵向量,它們在數學上是彼此正交的,即線性不相關。第一個主成分對應數據變異最大的方向,第二個主成分對應與第一個正交的方向中變異次大的方向,依此類推。它們的變異數(對應特徵值)通常是不同的,且按大小排序。
階層式分群(Hierarchical Clustering)與 K-Means 的主要不同之處在於?
A
K-Means 可以處理非數值數據,階層式分群不行
B
階層式分群不需要預先指定群組數量 K,並能產生一個樹狀結構(Dendrogram)
C
K-Means 對離群值不敏感,階層式分群敏感
階層式分群是另一種非監督式分群方法。與 K-Means 不同,它不需要預先指定要分成多少個群組。它會建立一個巢狀的群組結構,可以透過樹狀圖 (Dendrogram) 來視覺化。凝聚式 (Agglomerative) 階層分群從每個點自成一群開始,逐步合併最接近的群組;分裂式 (Divisive) 則從所有點為一群開始,逐步分裂。使用者可以根據樹狀圖在不同高度進行切割,來得到不同數量的群組。這是它相對於需要預設 K 值的 K-Means 的一個主要優點。缺點是計算複雜度通常較高(尤其是凝聚式),且一旦合併或分裂完成,就無法撤銷。
預測一個地區明天的最高氣溫,屬於哪種監督式學習任務?
D
降維(Dimensionality Reduction)
監督式學習主要分為分類和回歸。分類任務的目標是預測離散的類別標籤(例如:是/否、貓/狗/鳥)。回歸任務的目標是預測連續的數值(例如:溫度、房價、銷售量)。因為最高氣溫是一個連續的數值,所以預測最高氣溫屬於回歸問題。
在使用 KNN 演算法時,K 值的選擇會如何影響模型?
B
較小的 K 值使模型更複雜、易受雜訊影響(易過擬合);較大的 K 值使模型更平滑、穩定(可能欠擬合)
K 是 KNN 中的一個重要超參數。
* 較小的 K 值(例如 K=1):模型只考慮最近的鄰居,決策邊界會非常曲折,對訓練數據中的雜訊點非常敏感,模型複雜度高,容易過擬合(低偏差,高變異)。
* 較大的 K 值:模型考慮更多鄰居的意見,決策邊界會更平滑,對雜訊的魯棒性更好,但可能會忽略數據中的局部細節,導致模型過於簡化,產生欠擬合(高偏差,低變異)。
K 的選擇需要在偏差和變異之間做權衡,通常透過交叉驗證來選擇最佳的 K 值。
SVM 中的「支持向量」(Support Vectors)指的是什麼?
B
距離分隔超平面最近的那些數據點,它們決定了最大邊界的位置
支持向量是 SVM 模型中的關鍵概念。它們是指在訓練數據中,那些位於最大間隔邊界上或邊界內側(對於軟間隔情況)的數據點。這些點是「支撐」起分隔超平面和決定最大邊界位置的關鍵樣本。SVM 的決策邊界僅由這些支持向量決定,其他遠離邊界的點對模型的影響較小。這也是 SVM 相對高效且泛化能力好的原因之一。
決策樹模型的一個優點是?
決策樹的主要優點之一是其模型結構(一系列的 if-then 規則)非常直觀,容易被人類理解和解釋,因此常被稱為「白箱模型」。我們可以輕易地追蹤從根節點到葉節點的決策路徑,了解模型做出特定預測的原因。此外,決策樹對數據預處理的要求較低(如不需要特徵縮放),可以處理數值和類別特徵。缺點是容易過擬合(D錯),對數據變動敏感,且難以捕捉線性關係(A錯)。處理缺失值的能力則依具體實現而定(C部分錯)。
Bagging(Bootstrap Aggregating)這種集成學習技術的主要目的是?
B
降低模型的變異(Variance),提高模型的穩定性
Bagging 是一種旨在提高不穩定模型(如決策樹)效能的集成方法。它透過自助採樣(Bootstrap Sampling)從原始訓練集中生成多個不同的訓練子集,然後在每個子集上獨立地訓練一個基學習器。最後,將所有基學習器的預測結果進行聚合(分類用投票,回歸用平均)。由於每個基學習器是在不同的數據子集上訓練的,它們的預測結果會有所不同。透過聚合這些多樣化的預測,可以有效地降低集成模型整體的變異,使其更加穩定,不易受訓練數據微小變化的影響,從而提高泛化能力。Bagging 對於降低高變異模型的過擬合特別有效。
AdaBoost (Adaptive Boosting) 演算法在迭代過程中如何調整樣本權重?
B
增加被前一個弱學習器分類錯誤的樣本的權重,降低分類正確的樣本的權重
AdaBoost 是 Boosting 家族的經典演算法。它依次訓練一系列弱學習器(通常是簡單的決策樹,稱為決策樁 Decision Stump)。在每一輪迭代中,AdaBoost 會根據上一輪弱學習器的表現來調整訓練樣本的權重:被錯誤分類的樣本的權重會被提高,而被正確分類的樣本的權重會被降低。這樣,下一輪的弱學習器在訓練時就會更加關注那些之前被分錯的「困難」樣本。同時,每個弱學習器在最終組合時也會根據其分類準確率被賦予一個權重,表現好的學習器權重更高。
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 分群演算法的主要優勢是?
B
能夠發現任意形狀的群組,並且能識別出離群點(雜訊)
DBSCAN 是一種基於密度的分群演算法。它根據樣本點周圍的密度來定義群組:如果一個點的鄰域內(由半徑 Eps 定義)包含至少 MinPts 個點,則該點為核心點;從核心點密度可達的點都屬於同一個群組。DBSCAN 不需要預先指定群組數量 K,能夠自動確定群組個數。由於它是基於密度連通性,它可以發現任意形狀(非球狀)的群組,這點優於 K-Means。此外,那些不屬於任何群組的點會被標記為離群點或雜訊。缺點是對參數 Eps 和 MinPts 的選擇較敏感,且對於密度變化很大的數據集效果可能不佳。
t-SNE (t-Distributed Stochastic Neighbor Embedding) 主要用於什麼目的?
B
高維數據的視覺化,將數據降維到 2 維或 3 維以便觀察
t-SNE 是一種非線性的降維技術,特別擅長於將高維數據映射到低維空間(通常是 2 維或 3 維)進行視覺化。它的目標是保留高維空間中數據點之間的局部結構(相似的點在低維空間中也盡量靠近),使得在高維空間中形成的群組在低維空間中也能清晰地展現出來。t-SNE 主要用於數據探索和視覺化,不適合用於一般的降維任務(例如作為其他模型的預處理步驟),因為它不保留全局結構,且計算成本較高,結果對參數選擇敏感。
在線性回歸中,用來衡量模型擬合優度的決定係數(R-squared)的取值範圍通常是?
R-squared(決定係數)衡量的是模型解釋的變異量佔總變異量的比例。其計算公式為 1 - (SS_res / SS_tot),其中 SS_res 是殘差平方和(模型未解釋的變異),SS_tot 是總平方和(總變異量)。在理想情況下,模型完美擬合數據,SS_res 為 0,R-squared 為 1。如果模型效果等同於用平均值預測,SS_res 等於 SS_tot,R-squared 為 0。通常 R-squared 的值介於 0 和 1 之間,越接近 1 表示模型擬合越好。然而,如果模型表現極差,其預測甚至不如直接使用平均值,SS_res 可能大於 SS_tot,導致 R-squared 為負數。
KNN 演算法在哪種情況下可能表現不佳?
KNN 依賴於計算數據點之間的距離來找到鄰居。在高維空間中,所有數據點之間的距離趨於變得相近,使得「最近鄰居」的概念變得模糊,距離度量的有效性下降,這就是所謂的「維度災難」(Curse of Dimensionality)。因此,當數據特徵維度非常高時,KNN 的效能通常會顯著下降,且計算成本也會急劇增加。降維技術(如PCA)或特徵選擇常常在應用 KNN 之前被使用。
在高斯核(Radial Basis Function, RBF)SVM 中,參數 gamma 控制什麼?
B
單個訓練樣本的影響範圍,gamma 越大,影響範圍越小,決策邊界越曲折
高斯核 RBF 是 SVM 中最常用的核函數之一,其形式為 exp(-gamma * ||x - x'||²)。參數 gamma (γ) 定義了單個訓練樣本影響力的遠近。
* 較小的 gamma:意味著影響範圍較大,決策邊界較平滑,模型傾向於欠擬合。
* 較大的 gamma:意味著影響範圍較小(只有靠近的點才有影響),決策邊界會非常曲折,緊密地圍繞著數據點,模型更容易過擬合。
gamma 和另一個重要參數 C(懲罰參數,控制對誤分類的容忍度,選項A)都需要透過交叉驗證等方法進行仔細調整。
ID3 決策樹演算法使用哪個指標來選擇最佳分裂特徵?
ID3 (Iterative Dichotomiser 3) 是早期的決策樹構建演算法之一。它在選擇分裂屬性時,使用資訊增益 (Information Gain) 作為標準。資訊增益衡量的是根據某個特徵進行分裂後,數據集不確定性(通常用資訊熵 Entropy 度量)減少的程度。ID3 會選擇使得資訊增益最大的特徵作為當前節點的分裂屬性。其缺點是傾向於選擇取值較多的特徵。後續的 C4.5 演算法改用增益率 (Gain Ratio,選項D)來克服這個問題。CART 演算法則通常使用吉尼不純度 (Gini Impurity,選項A)。MSE(C)用於回歸樹。
隨機森林中的 OOB(Out-of-Bag)錯誤率是指?
B
利用每棵樹未使用(未被抽樣到)的樣本來評估該樹的效能,並匯總得到對整體模型泛化誤差的估計
由於隨機森林中每棵樹的訓練數據是透過自助採樣 (Bootstrap Sampling) 得到的,平均約有 1/3 的原始訓練樣本不會出現在某棵特定樹的訓練集中,這些未被使用的樣本稱為該樹的袋外 (Out-of-Bag, OOB) 樣本。我們可以利用這些 OOB 樣本來對該樹進行預測,並計算其錯誤率。然後,對所有樹的 OOB 預測結果進行匯總(例如,對每個樣本,用未包含它的那些樹的預測進行投票或平均),可以得到對整個隨機森林模型泛化誤差的一個內部、無偏的估計,稱為 OOB 錯誤率。這使得隨機森林可以在沒有獨立驗證集的情況下進行模型評估和參數調整。
GBDT(Gradient Boosting Decision Tree)中的「梯度」指的是什麼?
B
損失函數關於當前模型預測值的負梯度(用於指導下一棵樹的擬合方向)
GBDT 的核心思想是每一棵新樹去擬合前面所有樹組合模型的殘差。更準確地說,是擬合損失函數關於當前模型預測值的負梯度。將負梯度作為下一棵樹要擬合的目標(偽殘差 Pseudo-residuals),可以看作是在函數空間中沿著梯度下降最快的方向來優化損失函數。這種使用梯度資訊來指導後續學習器訓練的方式是梯度提升名稱的由來。
評估 K-Means 分群結果好壞時,常用的「輪廓係數」(Silhouette Coefficient)的值越接近多少表示分群效果越好?
輪廓係數是一種衡量分群效果的內部評估指標,它同時考慮了群組的內聚性 (Cohesion,點與同群組其他點的接近程度) 和分離度 (Separation,點與其他群組點的疏遠程度)。對於每個樣本點 i,計算其輪廓係數 s(i) = (b(i) - a(i)) / max(a(i), b(i)),其中 a(i) 是點 i 到同群組其他點的平均距離(內聚性),b(i) 是點 i 到最近的其他群組所有點的平均距離(分離度)。輪廓係數的取值範圍是 [-1, 1]。
* 值接近 1 表示該點很好地被分到了合適的群組(內聚性好,分離度高)。
* 值接近 0 表示該點可能位於兩個群組的邊界上。
* 值接近 -1 表示該點可能被分到了錯誤的群組。
計算所有點的平均輪廓係數可以作為整體分群效果的衡量,值越接近 1 越好。
PCA 在進行降維前,通常需要對數據進行什麼預處理?
B
中心化(Mean Centering)或標準化(Standardization)
PCA 是透過尋找數據變異最大的方向來確定主成分的。如果不同特徵的尺度(數值範圍或單位)差異很大,那麼尺度較大的特徵會在計算共變異數時佔主導地位,使得 PCA 的結果主要由這些大尺度特徵決定,而忽略了尺度較小的特徵可能包含的重要資訊。因此,在應用 PCA 之前,通常需要對數據進行中心化(減去均值)或標準化(減去均值後除以標準差),以消除不同特徵尺度的影響,確保所有特徵在計算中具有可比性。
判斷一封電子郵件是否為垃圾郵件,屬於哪種監督式學習任務?
A
二元分類(Binary Classification)
B
多元分類(Multiclass Classification)
分類任務的目標是將輸入數據分配到預定義的離散類別中。當只有兩個可能的類別時(例如:是垃圾郵件/不是垃圾郵件、流失/未流失、通過/未通過),就稱為二元分類。如果有多個互斥的類別(例如:貓/狗/鳥、新聞分類),則稱為多元分類。回歸預測連續值,分群則是在沒有標籤的情況下發現數據的群組結構。
KNN 演算法中的「K」代表什麼?
在 K-近鄰 (K-Nearest Neighbors) 演算法中,超參數 K 指定了在為新數據點進行預測時,需要查找其周圍多少個最近的訓練樣本(鄰居)。找到這 K 個鄰居後,根據它們的標籤進行投票(分類)或平均(回歸)來決定新數據點的預測結果。K 的選擇是一個重要的調參環節。
SVM 中的懲罰參數 C 控制什麼?
B
對誤分類樣本的容忍程度,C 越大,容忍度越低,越傾向於硬間隔
在軟間隔 SVM (Soft-margin SVM) 中,允許一些數據點越過邊界甚至被錯誤分類,以換取更大的邊界和更好的泛化能力。參數 C 是一個正規化參數,用於控制這種容忍度。
* 較大的 C 值:表示對誤分類的懲罰很大,模型會盡力將所有樣本正確分類,使得間隔變小,容易過擬合,接近硬間隔 (Hard-margin) SVM。
* 較小的 C 值:表示對誤分類的容忍度較高,允許更多的點越過邊界或被誤分類,以獲得更大的間隔,模型更平滑,可能欠擬合。
C 的選擇需要在最大化間隔和最小化誤分類之間取得平衡,通常透過交叉驗證來確定。
決策樹可以用於解決哪種類型的問題?
決策樹是一種通用的機器學習模型,既可以用於分類任務,也可以用於回歸任務。
* 分類樹 (Classification Tree):葉節點代表類別標籤,預測結果是樣本最終落入的葉節點所代表的類別(通常是該葉節點中佔多數的類別)。分裂標準通常使用吉尼不純度或資訊增益。
* 回歸樹 (Regression Tree):葉節點代表一個連續的數值,預測結果是樣本最終落入的葉節點所代表的數值(通常是該葉節點中所有樣本目標值的平均數)。分裂標準通常使用均方誤差 (MSE) 或平均絕對誤差 (MAE) 的減少量。
隨機森林如何進行最終的預測?
B
對於分類問題,進行多數投票;對於回歸問題,取所有樹預測值的平均數
隨機森林是由多棵獨立訓練的決策樹組成的集成模型。在進行預測時,它會將輸入樣本分別輸入到森林中的每一棵樹,得到每棵樹的預測結果。然後,根據任務類型進行聚合:
* 分類任務:採用「多數投票」(Majority Voting) 原則,即選擇被最多樹預測的那個類別作為最終的分類結果。
* 回歸任務:計算所有樹預測值的平均數 (Averaging),將該平均數作為最終的回歸預測值。
這種聚合方式可以有效降低單棵樹預測的不穩定性。
以下哪個演算法不屬於 Boosting 家族?
Boosting 是一種串行的集成學習方法,其代表演算法包括 AdaBoost、GBDT、XGBoost、LightGBM 等。它們的核心思想是依次訓練弱學習器,後面的學習器重點修正前面學習器的錯誤。隨機森林 (Random Forest) 則屬於 Bagging 類型的集成學習方法,它平行地、獨立地訓練多個基學習器(決策樹),然後透過投票或平均來組合結果。因此,隨機森林不屬於 Boosting 家族。
在 K-Means 中,如何確定最佳的群組數量 K?
B
通常沒有唯一正確答案,可使用手肘法(Elbow Method)或輪廓係數(Silhouette Coefficient)等方法輔助判斷
選擇最佳的 K 值是 K-Means 中的一個挑戰,因為它是一個需要使用者指定的超參數。常用的輔助方法包括:
* 手肘法 (Elbow Method):繪製不同 K 值對應的組內平方和 (WCSS) 曲線。當 K 值增加時,WCSS 會下降。尋找曲線下降速率趨於平緩的「手肘」點,該點對應的 K 值可能是一個較好的選擇。
* 輪廓係數 (Silhouette Coefficient):計算不同 K 值下的平均輪廓係數,選擇使得平均輪廓係數最大的 K 值。
* 差距統計量 (Gap Statistic):將實際數據的分群結果與隨機數據的分群結果進行比較。
通常需要結合這些方法的結果以及對業務的理解來選擇一個合適的 K 值。
PCA屬於哪種類型的學習演算法?
PCA 是一種降維技術,其目標是找到數據內部的主要變異方向(主成分),以用較少的維度來表示數據。這個過程只依賴於輸入數據本身的結構(共變異數),不需要任何標籤或目標變數。因此,PCA 屬於非監督式學習的範疇。
在監督式學習中,回歸(Regression)問題的輸出是什麼?
回歸是監督式學習的一種,其目標是預測一個或多個連續的輸出變數。例如,根據房屋的特徵(面積、位置、房齡)預測其價格,或者根據天氣數據預測溫度。輸出是數值型的,可以取某一範圍內的任何值。選項A描述的是分類問題。選項C是分群問題的輸出。選項D是降維問題的輸出。
使用多項式核函數(Polynomial Kernel)的 SVM 可以用來解決什麼問題?
多項式核函數 K(x, x') = (gamma * x·x' + r)^d 是一種常用的 SVM 核函數。它透過核技巧,隱式地將數據映射到一個由原始特徵的多項式組合構成的高維空間。這使得 SVM 能夠在該高維空間中找到線性分隔超平面,對應到原始空間中則是一條非線性的決策邊界。因此,使用多項式核(以及 RBF 核等其他非線性核)的 SVM 可以有效地處理非線性可分的問題。
決策樹的葉節點(Leaf Node)代表什麼?
決策樹由節點和有向邊組成。內部節點 (Internal Node) 代表一個特徵和一個分裂閾值,用於測試樣本的屬性。邊代表測試的結果。葉節點 (Leaf Node 或 Terminal Node) 是樹的終端節點,它不再進行分裂,代表了最終的預測輸出。對於分類樹,葉節點通常表示一個類別標籤;對於回歸樹,葉節點通常表示一個預測數值。
隨機森林屬於哪種集成學習策略?
隨機森林 (Random Forest) 是 Bagging (Bootstrap Aggregating) 策略的一個擴展和改進。Bagging 的核心思想是透過對訓練數據進行自助採樣來生成多個訓練子集,在每個子集上獨立訓練基學習器,最後聚合預測結果。隨機森林在 Bagging 的基礎上,進一步引入了特徵隨機性(在節點分裂時隨機選擇特徵子集),以增加基學習器(決策樹)之間的多樣性,從而進一步提高模型的穩定性和泛化能力。
階層式分群中的連結(Linkage)方法(如 Ward、Average、Complete)是用來定義什麼?
在凝聚式階層分群中,需要不斷地合併最接近的兩個群組。如何定義「兩個群組之間的距離」就是由連結方法決定的。常見的連結方法包括:
* Single Linkage:定義為兩個群組中最近的兩個點之間的距離。
* Complete Linkage:定義為兩個群組中最遠的兩個點之間的距離。
* Average Linkage:定義為兩個群組中所有點對之間距離的平均值。
* Ward's Linkage:旨在最小化合併後群組內變異數的增加量。
不同的連結方法會導致不同的分群結果和樹狀圖結構。
哪種降維方法旨在保留數據的局部結構,常用於高維數據的視覺化?
t-SNE 是一種特別為高維數據視覺化設計的降維技術。與主要關注保留全局變異性的 PCA 不同,t-SNE 更側重於保留數據點之間的局部相似性關係。它將高維空間中點對的相似度(基於高斯分佈)轉換為低維空間中點對的相似度(基於 t 分佈),並最小化這兩種分佈之間的 KL 散度。這使得在高維空間中靠近的點在低維空間中也傾向於聚集在一起,有助於在 2D 或 3D 圖上觀察數據的群組結構。LDA 是有監督的降維方法。ICA 旨在分離獨立信號源。
簡單線性回歸涉及多少個自變數(特徵)?
簡單線性回歸 (Simple Linear Regression) 是指模型中只包含一個自變數 (Independent Variable 或 Feature) 來預測應變數 (Dependent Variable 或 Target)。其模型形式為 y = β₀ + β₁x + ε。當模型包含兩個或多個自變數時,稱為多元線性回歸 (Multiple Linear Regression)。
KNN 演算法是參數模型還是非參數模型?
B
非參數模型(Non-parametric Model)
C
半參數模型(Semi-parametric Model)
參數模型是指模型具有固定數量的參數,其結構不隨數據量的增加而改變(例如線性回歸、邏輯回歸)。非參數模型則沒有固定的參數數量,模型的複雜度可以隨數據量的增加而增長。KNN 屬於非參數模型,因為它不學習固定的參數來表示數據分佈,而是直接依賴於儲存的訓練數據本身來進行預測。其模型的「複雜度」(需要儲存和比較的樣本)會隨著訓練數據量的增加而增加。
哪種 SVM 核函數對應於原始特徵空間中的線性決策邊界?
B
多項式核(Polynomial Kernel)
線性核函數 K(x, x') = x · x' 實際上並沒有將數據映射到更高維的空間,它計算的就是原始特徵空間中的內積。因此,使用線性核的 SVM 等效於在原始特徵空間中尋找線性分隔超平面,即線性 SVM。其他核函數(多項式、RBF、Sigmoid)則會對應非線性的決策邊界。
非監督式學習的主要目標是什麼?
非監督式學習處理的是沒有預先定義標籤或目標值的數據。其目標是探索數據本身的內在結構,發現其中的模式、群組或關係。常見的非監督式學習任務包括分群 (Clustering,將相似的數據點歸為一組)、降維 (Dimensionality Reduction,用更少的特徵表示數據) 和關聯規則挖掘 (Association Rule Mining,發現項目之間的關聯)。選項A和C是監督式學習。選項D是強化學習。
評估回歸模型時,平均絕對誤差(Mean Absolute Error, MAE)比均方誤差(MSE)在哪方面更有優勢?
B
對離群值(Outliers)的敏感度較低,解釋更直觀(單位與目標變數相同)
MAE 計算的是預測值與真實值之差的絕對值的平均值 (MAE = (1/n) * Σ|yᵢ - ŷᵢ|)。與 MSE (計算差的平方的平均值) 相比:
1. 對離群值不敏感:MSE 因為計算平方,會放大較大誤差的影響,因此對離群值更敏感。MAE 計算絕對值,對所有誤差的權重相同,因此受離群值的影響較小,更穩健。
2. 解釋性:MAE 的單位與目標變數的單位相同,更容易直觀理解平均預測誤差的大小。MSE 的單位是目標變數單位的平方。
MSE 的優點在於其數學性質(處處可導),在梯度優化中更方便。