iPAS AI應用規劃師 經典題庫

L23101 機率統計在機器學習中的應用
出題方向
1
基本機率概念與定理
2
常用機率分佈
3
統計推斷:估計與假設檢定
4
貝氏定理與貝氏推斷
5
最大概似估計 (MLE)
6
資訊理論基礎
7
統計學在模型評估與選擇中的應用
8
機率統計於特定ML模型之應用
#1
★★★★★
條件機率 P(A|B) 的定義是什麼?
A
事件 A 發生的機率
B
事件 B 發生的機率
C
事件 B 已經發生的條件下,事件 A 發生的機率
D
事件 A 和事件 B 同時發生的機率
答案解析
條件機率 P(A|B)機率論中的基本概念,讀作「在B發生的條件下A的機率」。它衡量的是當我們已知事件 B 已經發生時,事件 A 發生的可能性。其數學定義為 P(A|B) = P(A∩B) / P(B),其中 P(A∩B) 是 A 和 B 同時發生的機率聯合機率),P(B) 是 B 發生的機率邊際機率),且 P(B) > 0。條件機率機器學習中廣泛應用,例如在貝氏分類器機率圖模型等。
#2
★★★★
機器學習中,常用來描述連續型隨機變數(例如,身高、體重、溫度)的機率分佈是?
A
柏努力分佈Bernoulli Distribution
B
二項式分佈Binomial Distribution
C
常態分佈Normal Distribution)或稱高斯分佈Gaussian Distribution
D
泊松分佈Poisson Distribution
答案解析
常態分佈高斯分佈)是描述連續型隨機變數最常用和最重要的機率分佈之一。它的機率密度函數呈現鐘形曲線,由平均值(μ)和標準差(σ)兩個參數決定。許多自然現象和測量誤差都近似服從常態分佈(依據中央極限定理)。在機器學習中,常態分佈常用於假設數據分佈(如高斯混合模型 GMM)、模型噪聲(如線性回歸中的誤差項)或作為參數的先驗分佈(如貝氏線性回歸)。柏努力分佈描述單次試驗成功或失敗,二項式分佈描述n次獨立柏努力試驗的成功次數,泊松分佈描述單位時間或空間內事件發生的次數,這些通常用於離散型變數
#3
★★★★
假設檢定Hypothesis Testing)中,P值(P-value)代表什麼意義?
A
虛無假設Null Hypothesis, H0)為真的機率
B
虛無假設為真的前提下,觀察到當前樣本結果或更極端結果的機率
C
對立假設Alternative Hypothesis, H1)為真的機率
D
第一型錯誤Type I Error)的機率上限,即顯著水準Significance Level, α)。
答案解析
P值是假設檢定中的一個關鍵指標。它的確切定義是:如果虛無假設 H0 為真,那麼觀測到(或計算出)至少與當前樣本統計量一樣極端或更極端的結果的機率P值衡量的是樣本結果與虛無假設之間的不一致程度。如果P值非常小(通常小於預設的顯著水準α,如0.05),則意味著在H0為真的情況下,觀測到如此極端的樣本結果是非常不可能的,因此我們有強烈的證據拒絕H0,支持對立假設 H1。注意,P值不是H0為真的機率(選項A),也不是H1為真的機率(選項C)。顯著水準α是我們事先設定的、願意容忍犯第一型錯誤(錯誤地拒絕真實的H0)的機率上限(選項D),P值是用來與α比較以做出決策的。
#4
★★★★★
貝氏定理Bayes' Theorem)描述了在獲得新的證據(觀察數據)後,如何更新對一個假設的信任程度(機率)。其數學表達式 P(H|E) = [P(E|H) * P(H)] / P(E) 中,P(H) 代表什麼?
A
後驗機率Posterior Probability):觀察到證據E後,假設H為真的機率
B
概似度Likelihood):假設H為真時,觀察到證據E機率
C
先驗機率Prior Probability):在觀察到任何證據之前,假設H為真的初始機率(主觀信任度)。
D
證據的邊際機率Marginal Probability of Evidence):觀察到證據E的總機率
答案解析
貝氏定理P(H|E) = [P(E|H) * P(H)] / P(E)。其中各項的意義如下:
  • P(H|E)後驗機率Posterior),是我們最終關心的,即看到證據 E 之後,假設 H 成立的機率
  • P(E|H)概似度Likelihood),表示如果假設 H 成立,我們觀察到證據 E 的可能性有多大。
  • P(H)先驗機率Prior),表示在看到任何證據 E 之前,我們對假設 H 成立的初始信念或機率
  • P(E):證據的邊際機率Evidence or Marginal Likelihood),是觀察到證據 E 的總機率,作為歸一化常數。
貝氏定理提供了一個框架,說明如何結合先驗知識P(H))和新的數據證據(通過概似度 P(E|H)體現)來更新我們的信念,得到後驗機率P(H|E))。這在貝氏統計和許多機器學習模型(如樸素貝氏分類器貝氏網路)中是核心思想。
#5
★★★★★
最大概似估計Maximum Likelihood Estimation, MLE)是一種常用的參數估計方法。其基本思想是?
A
選擇使先驗機率最大化的參數值。
B
選擇使觀測到的數據樣本出現的機率概似度最大化的參數值。
C
選擇使後驗機率最大化的參數值(這是最大後驗估計 MAP)。
D
選擇使模型預測誤差最小化的參數值(這更接近損失函數最小化)。
答案解析
MLE 的核心思想是:我們已經觀測到了一組數據樣本 D,我們想要找到一組模型參數 θ,使得在該參數 θ 下,觀測到這組數據 D機率(即概似函數 L(θ|D) = P(D|θ))達到最大。換句話說,MLE 尋找的參數 θ 是最能「解釋」或「擬合」我們所觀測到的數據的參數。許多機器學習模型參數估計都基於MLE原理,例如線性回歸(假設誤差為高斯分佈時)、邏輯回歸等。最大後驗估計MAP)則是在MLE的基礎上,額外考慮了參數的先驗分佈,尋找使後驗機率 P(θ|D) ∝ P(D|θ)P(θ) 最大化的參數。
#6
★★★★
資訊理論中,Entropy)衡量的是一個隨機變數的什麼特性?
A
平均值Mean
B
不確定性Uncertainty)或資訊量Amount of Information
C
變異數Variance
D
與另一個變數相關性Correlation
答案解析
(通常用 H(X) 表示)是資訊理論中的核心概念,用於量化一個隨機變數 X不確定性程度越高,表示該變數的取值越不確定,或者說,要確定該變數的具體取值所需要的平均資訊量越大。對於一個離散隨機變數 X,其定義為 H(X) = -Σ [P(x) * log(P(x))],其中 P(x)X 取值為 x機率log 通常以2為底(單位是位元 bits)。當所有取值的機率都相等時(即最不確定的情況),達到最大值。當某個取值的機率為1(即完全確定的情況)時,為0。的概念在機器學習中有多種應用,如決策樹中的信息增益交叉熵損失函數等。
#7
★★★★★
在評估二元分類模型的性能時,混淆矩陣Confusion Matrix)包含了四個基本指標:真正True Positive, TP)、假正False Positive, FP)、真負True Negative, TN)、假負False Negative, FN)。召回率Recall)或稱敏感度Sensitivity)的計算公式是?
A
(TP + TN) / (TP + FP + TN + FN) (準確率 Accuracy
B
TP / (TP + FP) (精確率 Precision
C
TP / (TP + FN) (召回率 Recall / Sensitivity
D
TN / (TN + FP) (特異度 Specificity
答案解析
混淆矩陣是評估分類模型性能的基礎。各指標定義如下:
  • TP:實際為正,預測也為正。
  • FP:實際為負,預測為正(第一型錯誤)。
  • TN:實際為負,預測也為負。
  • FN:實際為正,預測為負(第二型錯誤)。
常用的評估指標:
  • 準確率 (Accuracy) = (TP+TN) / Total:整體預測正確的比例。
  • 精確率 (Precision) = TP / (TP+FP):預測為正的樣本中,實際也為正的比例(預測得準不準?)。
  • 召回率 (Recall) / 敏感度 (Sensitivity) = TP / (TP+FN)實際為正的樣本中,被模型成功預測為正的比例(找得全不全?)。
  • 特異度 (Specificity) = TN / (TN+FP):實際為負的樣本中,被模型成功預測為負的比例。
  • F1 分數 (F1 Score) = 2 * (Precision * Recall) / (Precision + Recall):精確率召回率調和平均數
召回率衡量模型找出所有正樣本的能力,在某些場景(如疾病篩檢)中非常重要。
#8
★★★★
樸素貝氏分類器Naive Bayes Classifier)的核心假設是什麼?
A
所有特徵之間是線性相關的。
B
給定類別標籤的條件下,所有特徵之間是條件獨立的Conditional Independence)。
C
所有特徵都服從常態分佈
D
類別標籤的先驗機率必須相等。
答案解析
樸素貝氏分類器是一種基於貝氏定理的簡單且高效的分類演算法。它之所以被稱為「樸素」(Naive),是因為它做出了一個很強的假設:在給定樣本的類別標籤 C 的條件下,樣本的各個特徵 F1, F2, ..., Fn 之間是相互條件獨立的。也就是說,P(F1, F2, ..., Fn | C) = P(F1|C) * P(F2|C) * ... * P(Fn|C)。這個假設大大簡化了計算聯合機率的複雜度,使得模型易於訓練和應用,尤其在文本分類等高維度特徵空間中表現良好。儘管這個獨立性假設在現實中往往不成立,但樸素貝氏分類器在實務中仍然常常取得不錯的效果。
#9
★★★
統計推斷中,信賴區間Confidence Interval)提供的是什麼資訊?
A
總體參數Population Parameter)的確切值。
B
一個估計的區間,我們有一定信心(例如95%)認為總體參數會落入該區間內。
C
樣本統計量Sample Statistic)的可能範圍。
D
拒絕虛無假設機率
答案解析
我們通常無法知道總體參數(例如,所有用戶的平均年齡)的真實值,只能通過抽樣得到樣本數據,並計算樣本統計量(如樣本平均年齡)來估計總體參數點估計Point Estimate)只給出一個單一的估計值,而信賴區間則提供了一個區間估計。一個 95% 的信賴區間意味著,如果我們重複進行抽樣和構建信賴區間的過程很多次,大約有 95% 的區間會包含真實的總體參數。它反映了樣本估計的不確定性程度,區間越寬表示不確定性越大。
#10
★★★
KL 散度Kullback-Leibler Divergence),也稱為相對熵Relative Entropy),主要用來衡量什麼?
A
兩個隨機變數之間的線性相關程度。
B
兩個機率分佈之間的差異或距離(但它不是真正的距離度量,因為不對稱)。
C
單一機率分佈不確定性
D
一個變數包含關於另一個變數資訊量互信息 Mutual Information)。
答案解析
KL 散度 D_KL(P || Q) 用於衡量一個機率分佈 P 與另一個參考機率分佈 Q 之間的差異程度。它量化了如果我們用分佈 Q 來近似分佈 P 時,會損失多少資訊。KL 散度總是≥0,當且僅當 P 和 Q 完全相同時等於0。然而,KL 散度不是對稱的,即 D_KL(P || Q) ≠ D_KL(Q || P),因此它不是一個嚴格意義上的距離度量。在機器學習中,KL 散度常用於:(1) 變分推斷Variational Inference)中衡量近似後驗分佈與真實後驗分佈的差異。(2) 評估生成模型(如VAE, GAN)生成的分佈與真實數據分佈的相似度。(3) 比較不同模型的輸出分佈等。單一分佈的不確定性衡量,兩個變數資訊量互信息衡量。
#11
★★★
如果事件 A 和事件 B 是相互獨立Independent)的,那麼它們同時發生的機率 P(A∩B) 等於?
A
P(A) + P(B)
B
P(A) * P(B)
C
P(A|B)
D
P(B|A)
答案解析
事件獨立性意味著一個事件的發生不影響另一個事件發生的機率。如果 A 和 B 相互獨立,則 P(A|B) = P(A)P(B|A) = P(B)。根據條件機率的定義 P(A|B) = P(A∩B) / P(B),將 P(A|B) = P(A) 代入,可得 P(A) = P(A∩B) / P(B),因此 P(A∩B) = P(A) * P(B)。這是獨立事件聯合機率的計算公式,在許多機率模型和假設中(如樸素貝氏)非常重要。
#12
★★★
哪種機率分佈常用來模擬在固定次數獨立試驗中,某事件發生的次數,且每次試驗只有兩種可能結果(成功或失敗)且成功機率固定
A
常態分佈Normal Distribution
B
二項式分佈Binomial Distribution
C
指數分佈Exponential Distribution
D
均勻分佈Uniform Distribution
答案解析
二項式分佈 B(n, p) 描述了進行 n獨立的、成功機率為 p柏努力試驗Bernoulli trial)中,成功事件發生的總次數 k機率。其機率質量函數P(X=k) = C(n, k) * p^k * (1-p)^(n-k),其中 C(n, k) 是組合數。例如,拋擲一枚不公正硬幣10次(n=10),每次正面朝上的機率為0.6(p=0.6),那麼恰好出現7次正面(k=7)的機率就可以用二項式分佈計算。二項式分佈A/B測試結果分析、品質控制等領域有應用。
#13
★★★★
在進行假設檢定時,如果我們錯誤地拒絕了一個實際上為真的虛無假設H0),我們稱之為犯了什麼類型的錯誤?
A
第一型錯誤Type I Error)或偽陽性False Positive
B
第二型錯誤Type II Error)或偽陰性False Negative
C
標準誤差Standard Error
D
抽樣誤差Sampling Error
答案解析
假設檢定中可能發生兩種錯誤:
  • 第一型錯誤 (Type I Error, α)虛無假設 H0 本身是真的,但我們的檢定結果卻拒絕H0(判斷為假)。發生這種錯誤的機率通常用 α 表示,即顯著水準。也稱為偽陽性False Positive)。
  • 第二型錯誤 (Type II Error, β):虛無假設 H0 本身是假的(即對立假設 H1 為真),但我們的檢定結果卻未能拒絕 H0(判斷為真)。發生這種錯誤的機率β 表示。也稱為偽陰性False Negative)。檢定力Power)定義為 1-β,即正確拒絕錯誤的H0機率
假設檢定中,我們通常會控制犯第一型錯誤機率 α(例如設定為0.05),並希望盡可能降低犯第二型錯誤機率 β(即提高檢定力)。
#14
★★★
貝氏推斷Bayesian Inference)與頻率學派推斷Frequentist Inference)的主要區別在於貝氏推斷如何看待模型參數?
A
貝氏推斷認為參數是未知的常數,頻率學派認為參數是隨機變數
B
貝氏推斷將模型參數視為具有機率分佈先驗分佈後驗分佈)的隨機變數,而頻率學派通常將參數視為未知的固定常數
C
貝氏推斷不使用機率頻率學派使用機率
D
兩者沒有本質區別。
答案解析
這是貝氏學派頻率學派觀點的一個核心差異。頻率學派認為,總體參數是一個固定但未知的值,而數據是隨機抽樣的結果,機率描述的是在多次重複實驗中事件發生的頻率。因此,頻率學派推斷(如信賴區間P值)是關於數據的,而不是關於參數本身的機率。相比之下,貝氏學派認為參數也是不確定的,可以用機率分佈來描述我們對其的信念。我們有一個關於參數的先驗分佈(代表初始信念),然後根據觀測到的數據,利用貝氏定理更新這個信念,得到參數的後驗分佈後驗分佈包含了數據給出的關於參數的所有信息。
#15
★★★★
假設我們觀察到一系列獨立同分佈Independent and Identically Distributed, i.i.d.)的數據點 D = {x1, x2, ..., xn},並且我們假設這些數據來自某個由參數 θ 控制的機率分佈 P(x|θ)。那麼,數據集 D概似函數 L(θ|D) 通常如何表示?
A
Σ P(xi|θ)機率之和)
B
Π P(xi|θ) (各數據點機率乘積
C
max( P(xi|θ) ) (最大機率
D
P(θ|D)後驗機率
答案解析
概似函數 L(θ|D) 定義為在給定參數 θ 的條件下,觀測到數據集 D機率,即 L(θ|D) = P(D|θ)。由於假設數據點是獨立同分佈 (i.i.d.) 的,觀測到整個數據集 D聯合機率等於觀測到每個數據點 xi機率乘積。因此,L(θ|D) = P(x1, x2, ..., xn | θ) = P(x1|θ) * P(x2|θ) * ... * P(xn|θ) = Π P(xi|θ)最大概似估計MLE)的目標就是找到使這個乘積(即概似函數)最大化的參數 θ。為了計算方便,通常會對概似函數取對數,變成求解對數概似函數 log L(θ|D) = Σ log P(xi|θ) 的最大化問題。
#16
★★★★
交叉熵Cross-Entropy損失函數機器學習分類任務中被廣泛使用,例如訓練神經網路。它衡量的是什麼?
A
模型預測的平均絕對誤差Mean Absolute Error, MAE)。
B
模型預測的機率分佈與真實標籤的機率分佈(通常是 one-hot 編碼)之間的差異
C
模型參數的總和。
D
數據集中類別的不平衡程度。
答案解析
交叉熵源於資訊理論,可以看作是衡量兩個機率分佈之間差異的一種方式(與KL散度密切相關)。在分類任務中,真實標籤可以表示為一個機率分佈(例如,對於第 i 類,其機率為1,其他類為0,即 one-hot 編碼,記為 p(y))。模型的輸出(通常是 Softmax 層的輸出)也表示一個預測的機率分佈(記為 q(y))。交叉熵損失函數 H(p, q) = - Σ [p(y) * log(q(y))] 計算了這兩個分佈之間的「距離」。當模型的預測分佈 q(y) 與真實分佈 p(y) 越接近時,交叉熵損失越小。最小化交叉熵損失等價於最大化模型預測正確類別的對數概似度,因此它成為分類問題中常用的目標函數
#17
★★★★
機器學習中,為了評估模型在未見過數據上的泛化能力,並避免過擬合Overfitting),常用的統計學方法是?
A
僅使用全部數據進行訓練,並在訓練集上評估性能。
B
交叉驗證Cross-Validation),例如 K 折交叉驗證(K-Fold Cross-Validation)。
C
主成分分析Principal Component Analysis, PCA)。
D
聚類分析Clustering)。
答案解析
如果只在訓練數據上評估模型性能,可能會得到過於樂觀的結果,因為模型可能只是「記住」了訓練數據過擬合),而無法很好地泛化到新的、未見過的數據。交叉驗證是一種更可靠的評估模型泛化能力的方法。K 折交叉驗證將原始數據集隨機劃分成 K 個大小相近的子集(折)。然後進行 K 次訓練和驗證:每次選擇其中一個子集作為驗證集,其餘 K-1 個子集作為訓練集。模型在訓練集上訓練後,在驗證集上評估性能。最後將 K 次的性能指標(如準確率F1分數)平均,得到對模型泛化能力更穩健的估計。這有助於模型選擇和超參數調整,並檢測過擬合
#18
★★★
線性回歸模型Linear Regression)通常假設誤差項Error Term)服從什麼機率分佈
A
均勻分佈Uniform Distribution
B
常態分佈Normal Distribution),且具有零均值和固定變異數
C
泊松分佈Poisson Distribution
D
伽瑪分佈Gamma Distribution
答案解析
標準的線性回歸模型(特別是普通最小平方法 OLS)有幾個關鍵假設,其中之一是關於誤差項 ε (即實際值 y 與模型預測值 ŷ 之間的差異) 的假設。通常假設誤差項獨立同分佈的,並且服從均值為零變異數為 σ^2常態分佈,即 ε ~ N(0, σ^2)。這個假設對於進行統計推斷(如計算係數的信賴區間、進行假設檢定)是重要的。當這個假設成立時,最小平方法估計等價於最大概似估計。即使誤差項不完全服從常態分佈,只要樣本量足夠大,根據中央極限定理,係數的估計值通常仍會近似常態分佈
#19
★★
隨機變數期望值Expected ValueE[X] 代表了該變數的什麼特性?
A
最可能出現的值(眾數 Mode)。
B
加權平均值,反映了隨機變數取值的中心趨勢或長期平均水平。
C
數值的分散程度(變異數 Variance)。
D
排序後位於中間的值(中位數 Median)。
答案解析
期望值,也稱為均值Mean),是隨機變數所有可能取值按照其發生機率進行加權的平均值。對於離散隨機變數 XE[X] = Σ [x * P(X=x)];對於連續隨機變數 XE[X] = ∫ [x * f(x)] dx,其中 f(x)機率密度函數期望值描述了隨機變數取值的平均水平或中心位置,是衡量其中心趨勢最重要的指標之一。
#20
★★
指數分佈Exponential Distribution)通常用來模擬什麼類型事件發生的時間間隔
A
固定時間內事件發生的總次數。
B
獨立隨機事件連續兩次發生之間時間間隔(假設事件發生率恆定)。
C
一組測量值的誤差大小。
D
在n次試驗中成功的次數。
答案解析
指數分佈是一種連續機率分佈,它描述了在泊松過程中,獨立事件首次發生所需的時間,或者連續兩次事件發生之間的時間間隔。假設事件以恆定的平均速率 λ 發生,那麼事件之間的時間間隔 T 就服從指數分佈,其機率密度函數f(t; λ) = λ * exp(-λt)t ≥ 0指數分佈具有「無記憶性」(Memorylessness)的特性。它常用於可靠性工程(模擬設備壽命)、排隊理論(模擬顧客到達間隔時間或服務時間)等領域。泊松分佈描述固定時間內事件發生次數(選項A),常態分佈描述測量誤差(選項C),二項式分佈描述成功次數(選項D)。
#21
★★
統計學中的自助法Bootstrap)是一種什麼樣的技術?
A
一種數據加密方法。
B
一種重抽樣Resampling)技術,通過從原始樣本中有放回地重複抽樣來模擬多個樣本,用於估計統計量抽樣分佈或構建信賴區間
C
一種特徵選擇方法。
D
一種數據視覺化工具。
答案解析
自助法是一種非參數統計推斷方法。當我們只有一個樣本,但想了解某個統計量(如樣本中位數相關係數)的抽樣分佈(即如果我們能從總體中抽取很多個樣本,這個統計量會如何變化)時,自助法提供了一種模擬方法。它從原始樣本(大小為n)中有放回地with replacement)抽取n個數據點,形成一個「自助樣本」(Bootstrap Sample)。重複這個過程很多次(例如 B 次),得到 B 個自助樣本。然後在每個自助樣本上計算我們關心的統計量,得到 B 個統計量的值。這些值的經驗分佈就可以用來近似原始統計量抽樣分佈,從而可以估計其標準誤差、構建信賴區間或進行假設檢定Bootstrap 在難以用解析方法推導抽樣分佈時特別有用。
#22
★★★
邏輯回歸Logistic Regression)模型中,通常使用哪個函數將線性組合的輸入轉換為介於 0 和 1 之間的機率值?
A
ReLU (Rectified Linear Unit) 函數
B
Sigmoid 函數(或稱 Logistic 函數)
C
Tanh (Hyperbolic Tangent) 函數
D
線性函數 (Linear function)
答案解析
邏輯回歸是一種用於二元分類問題的廣義線性模型。它首先計算輸入特徵的線性組合 z = w^T * x + b,然後將這個結果 z 通過一個稱為 Sigmoid(或 Logistic)函數的非線性轉換,得到一個介於 0 和 1 之間的輸出值,這個輸出值可以解釋為樣本屬於正類別的機率Sigmoid 函數的表達式為 σ(z) = 1 / (1 + exp(-z))。它的輸出值平滑地從 0 過渡到 1,形狀像一個 "S" 型曲線。通過最小化交叉熵損失函數(其推導基於最大概似估計),可以學習到模型的參數 wb
#23
★★★
ROC 曲線Receiver Operating Characteristic Curve)是評估二元分類模型性能的常用工具,其繪製的是哪兩個指標之間的關係?
A
精確率Precision) vs 召回率Recall
B
真陽性率True Positive Rate, TPR,即召回率) vs 假陽性率False Positive Rate, FPR
C
準確率Accuracy) vs 模型複雜度
D
損失函數值(Loss) vs 訓練迭代次數
答案解析
ROC 曲線展示了當分類模型的決策閾值Threshold)變化時,真陽性率TPR,也等於召回率 Sensitivity)和假陽性率FPR,等於 1 - 特異度 Specificity)之間的權衡關係。橫軸通常是 FPR = FP / (FP + TN),縱軸是 TPR = TP / (TP + FN)。通過改變閾值(例如,模型輸出機率大於多少才判斷為正類),可以得到一系列 (FPR, TPR) 點,連接這些點就形成了 ROC 曲線曲線越靠近左上角(即 TPR 高,FPR 低),表示模型性能越好。曲線下的面積Area Under the Curve, AUC)是一個常用的匯總指標,AUC 值越接近 1 表示模型區分正負樣本的能力越強(AUC=0.5 表示隨機猜測)。Precision-Recall 曲線是另一個評估工具,特別適用於類別不平衡的數據集。
#24
★★★★
決策樹Decision Tree算法中,選擇哪個特徵來進行節點分裂時,常用的基於資訊理論的標準是?
A
最小化基尼不純度Gini Impurity)或最大化信息增益Information Gain)/增益率(Gain Ratio)。
B
最大化基尼不純度Gini Impurity)或最小化信息增益Information Gain)。
C
選擇數值範圍最大的特徵
D
隨機選擇一個特徵
答案解析
決策樹的構建過程是一個遞迴地選擇最佳特徵分裂數據集,以使得分裂後的子集盡可能「純淨」(即包含的樣本盡量屬於同一類別)。常用的分裂標準包括:
  • 信息增益 (Information Gain, 用於 ID3 算法):計算分裂前的分裂後各子集的加權平均之差。選擇信息增益最大的特徵進行分裂,意味著這次分裂能最大程度地減少數據的不確定性
  • 信息增益率 (Gain Ratio, 用於 C4.5 算法):信息增益除以特徵本身的(固有值),用於校正信息增益偏向於選擇取值多的特徵的問題。
  • 基尼不純度 (Gini Impurity, 用於 CART 算法):衡量從數據集中隨機抽取兩個樣本,其類別標籤不一致的機率基尼不純度越小,表示數據集越純淨。分裂時選擇使得分裂後子集基尼不純度加權平均最小化特徵
因此,目標是最大化信息增益(或增益率)或者最小化基尼不純度
#25
機率的取值範圍是多少?
A
介於 -1 和 1 之間。
B
介於 0 和 1 之間(包含 0 和 1)。
C
可以是任何實數。
D
只能是 0 或 1。
答案解析
根據機率公理Axioms of Probability),任何事件 A 的機率 P(A) 必須滿足 0 ≤ P(A) ≤ 1機率為 0 表示該事件不可能發生,機率為 1 表示該事件必然發生。機率值介於 0 和 1 之間表示事件發生的可能性大小。機率不可能是負數,也不可能大於 1。
#26
★★★★
最大後驗估計Maximum A Posteriori, MAP)與最大概似估計MLE)的主要區別在於 MAP 引入了什麼?
A
數據的邊際機率
B
模型參數的先驗分佈Prior Distribution)。
C
模型的複雜度懲罰項(與正規化相關,但MAP是從貝氏角度引入)。
D
交叉驗證的結果。
答案解析
MLE 尋找使概似函數 P(D|θ) 最大化的參數 θ。而 MAP 則尋找使後驗機率 P(θ|D) 最大化的參數 θ。根據貝氏定理P(θ|D) ∝ P(D|θ) * P(θ),其中 P(D|θ)概似函數P(θ) 是參數 θ先驗分佈,代表了我們在看到數據之前對 θ 的信念。因此,MAP 估計相當於在 MLE 的基礎上,額外考慮了先驗知識 P(θ)。當先驗分佈 P(θ) 是一個均勻分佈(即對所有參數值一視同仁)時,MAP 估計等價於 MLE 估計。引入先驗分佈可以看作是一種正規化Regularization)手段,有助於防止過擬合,特別是在數據量較少時。例如,使用高斯先驗對應 L2 正規化,使用拉普拉斯先驗對應 L1 正規化
#27
★★★
當我們假設數據來自常態分佈 N(μ, σ^2) 時,使用最大概似估計MLE)來估計參數 μσ^2,通常會得到什麼結果?
A
μ 的估計值是樣本中位數σ^2 的估計值是樣本四分位距
B
μ 的估計值是樣本均值Sample Mean),σ^2 的估計值是樣本變異數Sample Variance,除以n的版本)。
C
μ 的估計值是樣本眾數σ^2 的估計值也是樣本眾數
D
無法通過MLE估計這兩個參數。
答案解析
對於來自常態分佈 N(μ, σ^2)i.i.d. 樣本 {x1, ..., xn},其對數概似函數log L(μ, σ^2 | D) = -n/2 * log(2πσ^2) - Σ[(xi - μ)^2] / (2σ^2)。通過對 μσ^2 分別求偏導並令其為零,可以解得使對數概似函數最大化的參數估計值。結果是:μMLE 估計值恰好是樣本均值x̄ = Σxi / n),而 σ^2MLE 估計值是樣本變異數Σ(xi - x̄)^2 / n)。需要注意的是,σ^2MLE 估計是有偏的(biased),而無偏的樣本變異數估計通常是除以 n-1。
#28
★★
赤池資訊量準則Akaike Information Criterion, AIC)和貝氏資訊量準則Bayesian Information Criterion, BIC)常用於模型選擇。它們在評估模型擬合優度的同時,都加入了對什麼的懲罰項
A
訓練數據的大小。
B
模型的複雜度(通常用模型參數的數量來衡量)。
C
模型訓練所需的時間。
D
模型的可解釋性
答案解析
AICBIC 都是基於資訊理論模型選擇標準,用於在一組候選模型中選擇最佳模型。它們都試圖在模型的擬合優度(通常用最大化對數概似值來衡量)和模型的複雜度之間取得平衡。公式通常表示為:
  • AIC = -2 * log(L) + 2 * k
  • BIC = -2 * log(L) + k * log(n)
其中 L 是模型的最大概似值k 是模型中自由參數的數量,n 是樣本大小。第一項 -2*log(L) 衡量模型的擬合程度(越小越好),第二項是懲罰項,對模型複雜度(參數數量 k)進行懲罰。AICBIC 都傾向於選擇擬合數據好且相對簡單的模型。BIC 對模型複雜度的懲罰通常比 AIC 更重(因為 log(n) 通常大於 2),因此傾向於選擇更簡單的模型。模型選擇時通常選擇 AICBIC 值最小的模型。
#29
★★★
高斯混合模型Gaussian Mixture Model, GMM)是一種常用的聚類算法,它假設數據是由幾個什麼分佈混合而成的?
A
均勻分佈Uniform Distribution
B
高斯分佈Gaussian Distribution)或稱常態分佈
C
柏努力分佈Bernoulli Distribution
D
指數分佈Exponential Distribution
答案解析
GMM 是一種基於機率模型聚類方法。它假設觀測到的數據點是由 K 個不同的高斯(常態)分佈成分(Components)以一定的權重(混合係數)混合生成的。每個高斯成分代表一個潛在的簇(Cluster),並由其自身的均值向量共變異數矩陣參數化。GMM 的目標是通過最大化數據的對數概似度,來估計每個成分的參數(均值共變異數)以及每個數據點屬於各個成分的機率(責任 responsibility)。常用的估計方法是期望最大化Expectation-Maximization, EM算法GMM 相比 K-means 的優點是它可以處理非球形的簇,並且提供數據點屬於每個簇的軟分配(機率)。
#30
★★★
隨機變數變異數VarianceVar(X) 衡量的是該變數的什麼特性?
A
中心趨勢期望值)。
B
取值相對於其期望值離散程度或波動幅度
C
取正值的機率
D
與另一個變數的協變關係(共變異數 Covariance)。
答案解析
變異數是衡量隨機變數取值分散程度的常用指標。它定義為隨機變數與其期望值之差的平方的期望值,即 Var(X) = E[(X - E[X])^2]變異數越大,表示數據點越分散,偏離平均值的程度越大;變異數越小,表示數據點越集中在平均值附近。標準差Standard Deviation)是變異數的平方根,它與原始數據具有相同的單位,更易於解釋。變異數統計學機器學習中用於描述數據波動性、評估估計量精度、以及在某些算法(如PCA)中。
#31
如果一個隨機實驗只有兩種可能的結果(例如,成功/失敗,正面/反面),且只進行一次試驗,描述這個實驗結果的機率分佈是?
A
柏努力分佈Bernoulli Distribution
B
二項式分佈Binomial Distribution
C
幾何分佈Geometric Distribution
D
常態分佈Normal Distribution
答案解析
柏努力分佈是描述單次隨機試驗結果的最簡單的離散機率分佈。該試驗只有兩種可能的互斥結果,通常稱為「成功」(值為1)和「失敗」(值為0)。如果成功的機率為 p,則失敗的機率為 1-p。其機率質量函數P(X=x) = p^x * (1-p)^(1-x),其中 x 只能取 0 或 1。二項式分佈是 n 次獨立柏努力試驗中成功次數的分佈。幾何分佈是得到第一次成功所需的試驗次數的分佈。
#32
★★★
統計學中,中央極限定理Central Limit Theorem, CLT)說明了什麼重要的結論?
A
任何隨機變數都服從常態分佈
B
只要樣本量足夠大,從任意總體(具有有限變異數)中抽取的獨立隨機樣本的平均值分佈近似於常態分佈
C
樣本均值總等於總體均值
D
樣本變異數總等於總體變異數
答案解析
中央極限定理機率論統計學中最核心的定理之一。它指出,無論原始總體分佈是什麼(只要其均值變異數存在且有限),當我們從該總體中抽取大量(通常認為n≥30即可認為足夠大)獨立同分佈的隨機樣本時,這些樣本的平均值Sample Mean)的抽樣分佈將會趨近於常態分佈。這個常態分佈均值等於原始總體均值,其變異數等於原始總體變異數除以樣本量 n。CLT 使得我們可以利用常態分佈的性質來對樣本均值進行統計推斷(如構建信賴區間、進行假設檢定),即使我們不知道原始總體分佈形式。
#33
★★
貝氏定理 P(H|E) = [P(E|H) * P(H)] / P(E) 中,如果我們有多個互斥且窮盡的假設 H1, H2, ..., Hk,那麼分母 P(E)(證據的邊際機率)可以如何計算?
A
max( P(E|Hi) * P(Hi) )
B
Σ [P(E|Hi) * P(Hi)] (根據全機率定理
C
Π [P(E|Hi) * P(Hi)]
D
1 / P(H|E)
答案解析
分母 P(E)貝氏定理中作為歸一化常數,確保所有假設的後驗機率之和為 1。它可以通過全機率定理Law of Total Probability)計算得到。如果假設 H1, H2, ..., Hk 構成了一個互斥(任意兩個假設不能同時為真)且窮盡(所有可能情況都被包含在內)的事件劃分,那麼事件 E 發生的總機率 P(E) 等於在每個假設 Hi 為真的條件下 E 發生的機率 P(E|Hi) 乘以該假設 Hi 本身發生的先驗機率 P(Hi),然後對所有假設求和。即 P(E) = Σ [P(E|Hi) * P(Hi)],其中 i 從 1 到 k。
#34
★★
互信息Mutual Information, MII(X; Y) 衡量的是兩個隨機變數 XY 之間的什麼關係?
A
線性相關性Linear Correlation)。
B
統計依賴性,即知道一個變數的值能夠減少對另一個變數不確定性的程度。
C
條件機率 P(X|Y)
D
兩個變數之和 H(X) + H(Y)
答案解析
互信息 I(X; Y)資訊理論中用來量化兩個隨機變數之間相互依賴程度的指標。它表示通過觀測變數 Y,我們能夠獲得多少關於變數 X 的信息(反之亦然,因為互信息是對稱的)。其計算公式可以表示為 I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y),其中 H(X)XH(X|Y) 是給定 YX條件熵H(X, Y)XY聯合熵互信息總是≥0,當且僅當 XY 相互獨立時等於0。互信息機器學習中常用於特徵選擇(選擇與目標變數互信息最大的特徵)、評估聚類結果等。它能捕捉變數間的非線性依賴關係,比線性相關係數更通用。
#35
★★★
模型評估中,偏誤Bias)和變異Variance)是衡量模型性能的兩個重要方面。一個具有高偏誤低變異的模型通常表現為?
A
訓練集測試集上都表現良好(低錯誤率)。
B
訓練集上表現好,但在測試集上表現差(過擬合 Overfitting)。
C
訓練集測試集上都表現差欠擬合 Underfitting)。
D
訓練集上表現差,但在測試集上表現好(不常見)。
答案解析
偏誤-變異權衡Bias-Variance Tradeoff)是監督學習中的一個核心概念:
  • 偏誤 (Bias):衡量模型預測值與真實值之間的系統性差異,即模型本身的假設與真實數據規律的偏離程度。高偏誤通常意味著模型過於簡單,未能捕捉數據中的複雜模式(欠擬合)。
  • 變異 (Variance):衡量模型預測結果對於訓練數據微小變化的敏感程度。高變異通常意味著模型過於複雜,對訓練數據中的噪聲或隨機性過度擬合,導致在不同訓練集上得到的模型差異很大,泛化能力差(過擬合)。
因此:
  • 高偏誤、低變異:模型簡單,對數據變化不敏感,但在訓練集測試集上都表現不佳欠擬合)。
  • 偏誤、高變異:模型複雜,能很好地擬合訓練數據,但對數據變化敏感,在測試集上表現差(過擬合)。
  • 偏誤、低變異:理想情況,模型既能捕捉數據模式,又具有良好的泛化能力
目標是在偏誤變異之間找到一個平衡點,以最小化總體的預期泛化誤差
#36
★★
期望最大化Expectation-Maximization, EM算法常用於估計含有隱藏變數Latent Variables)的機率模型的參數。它主要包含哪兩個交替執行的步驟?
A
梯度下降Gradient Descent)和隨機梯度下降Stochastic Gradient Descent)。
B
期望步驟Expectation Step, E-step)和最大化步驟Maximization Step, M-step)。
C
特徵提取Feature Extraction)和特徵選擇Feature Selection)。
D
數據清洗Data Cleaning)和數據轉換Data Transformation)。
答案解析
EM 算法是一種迭代優化算法,特別適用於當模型包含無法直接觀測到的隱藏變數時,估計模型參數的最大概似解最大後驗解。它通過交替執行以下兩個步驟來逐步逼近最優解:
  1. 期望步驟 (E-step):在給定當前參數估計值和觀測數據的條件下,計算隱藏變數期望值(或者更一般地說,計算完整數據對數概似函數關於隱藏變數條件分佈的期望)。
  2. 最大化步驟 (M-step):利用 E-step 中計算出的期望值(或期望的對數概似函數),來最大化這個期望函數,從而得到新的參數估計值。
重複執行 E-stepM-step,直到參數收斂或達到最大迭代次數。EM 算法常用於高斯混合模型GMM)、隱馬可夫模型HMM)等模型的參數估計。
#37
★★
全機率定理Law of Total Probability)主要用於計算一個事件的什麼機率
A
條件機率 P(A|B)
B
邊際機率 P(A)
C
聯合機率 P(A∩B)
D
互斥事件的機率
答案解析
全機率定理提供了一種計算一個事件 A 的總機率(即邊際機率 P(A))的方法,通過考慮導致事件 A 發生的所有互斥且窮盡的途徑(由事件劃分 B1, B2, ..., Bk 定義)。定理表明 P(A) = Σ P(A|Bi) * P(Bi),其中 P(A|Bi) 是在事件 Bi 發生的條件下事件 A 發生的機率P(Bi) 是事件 Bi 本身發生的機率。它將一個複雜事件的邊際機率分解為基於不同條件下的條件機率的加權和,是推導貝氏定理分母 P(E) 的基礎。
#38
★★★
泊松分佈Poisson Distribution)通常用來模擬在一個固定的時間間隔或空間區域內,某種隨機事件發生的什麼?
A
事件發生的時間點。
B
事件發生的次數(計數)。
C
事件發生的成功機率
D
事件之間的間隔時間。
答案解析
泊松分佈是一種離散機率分佈,用於描述在一個固定的時間、空間、長度或面積等區間內,某種獨立事件平均發生 λ 次時,實際發生 k 次的機率。其機率質量函數P(X=k) = (λ^k * exp(-λ)) / k!,其中 k = 0, 1, 2, ...泊松分佈適用於描述稀有事件發生的次數,例如一小時內到達某服務台的顧客數量、一頁書中的錯字數量、一個區域內的放射性衰變次數等,前提是事件的發生是獨立的且發生率在區間內是恆定的。指數分佈則描述事件之間的間隔時間。
#39
★★
對數概似函數Log-Likelihood Function)相比於原始概似函數,在進行最大化求解時的主要優點是?
A
其值域範圍更大。
B
乘積運算轉換為求和運算,簡化了求導計算;且不會改變最大值點的位置。
C
可以處理負的機率值。
D
使得概似函數變為線性函數。
答案解析
原始概似函數 L(θ|D) 是各個獨立樣本點機率乘積L = Π P(xi|θ)。直接對這個乘積形式求導通常比較複雜。由於對數函數 log(x) 是單調遞增函數,最大化 L 等價於最大化 log(L)。取對數後,原來的乘積變成了求和log L = Σ log P(xi|θ)求和形式的函數通常更容易進行微分運算(例如求梯度),從而更容易找到最大值點。此外,由於原始機率值通常很小,多個小數相乘可能導致數值下溢(underflow),而取對數後變為求和可以避免這個問題。因此,在實際應用中,幾乎總是優化對數概似函數而非原始概似函數
#40
分類問題中,準確率Accuracy)作為評估指標在哪種情況下可能具有誤導性?
A
數據集非常大的時候。
B
數據集存在嚴重的類別不平衡Class Imbalance)時。
C
模型訓練時間很長的時候。
D
模型使用了非線性轉換的時候。
答案解析
準確率計算的是模型預測正確的樣本占總樣本的比例。當數據集中各個類別的樣本數量差異很大時(類別不平衡),準確率可能會產生誤導。例如,在一個數據集中,99% 的樣本屬於負類,只有 1% 屬於正類。一個簡單地將所有樣本都預測為負類的「模型」,其準確率可以達到 99%,看起來很高,但它完全沒有識別出任何正類樣本,對於關心正類識別的任務(如欺詐檢測、罕見病診斷)來說是沒有價值的。在這種情況下,精確率Precision)、召回率Recall)、F1 分數或 ROC AUC 等指標更能反映模型在少數類別上的性能。
#41
★★★★
支持向量機Support Vector Machine, SVM)的目標是找到一個能夠最大化兩類樣本之間間隔Margin)的超平面。這個「最大間隔」的概念與哪個統計學思想有關?
A
貝氏定理
B
結構風險最小化Structural Risk Minimization),旨在平衡經驗風險(訓練誤差)和模型的複雜度(泛化能力)。
C
最大概似估計
D
假設檢定
答案解析
SVM 的核心思想是找到一個決策邊界(超平面),使得距離該邊界最近的兩類樣本點(稱為支持向量 Support Vectors)之間的距離(即間隔 Margin最大化。從統計學習理論的角度看,最大化間隔等價於最小化模型的 VC 維(Vapnik–Chervonenkis dimension),這是一種衡量模型複雜度或容量的指標。結構風險最小化原則指出,好的模型應該在最小化經驗風險(模型在訓練數據上的誤差)的同時,也最小化置信風險(Confidence Risk,與模型複雜度相關,反映泛化能力)。SVM 通過最大化間隔,隱式地控制了模型的複雜度,旨在獲得更好的泛化性能,即使在經驗風險(訓練誤差)為零的情況下,也要選擇最「簡單」(間隔最大)的那個解。
#42
一個公正的六面骰子,擲一次出現點數 3 的機率是多少?
A
1/6
B
1/3
C
1/2
D
1
答案解析
一個公正的六面骰子有 6 個可能的結果(點數 1 到 6),每個結果出現的機率是相等的。樣本空間的大小是 6。事件“出現點數 3”只包含一個結果。因此,該事件的機率是 1/6。
#43
★★★
假設檢定中的顯著水準Significance Level, α)通常設定為 0.05,這代表什麼意思?
A
有 95% 的信心確定對立假設為真。
B
我們願意接受最多有 5% 的機率第一型錯誤(即錯誤地拒絕一個真實的虛無假設)。
C
P 值必須等於 0.05 才能拒絕虛無假設
D
有 5% 的機率第二型錯誤
答案解析
顯著水準 α 是研究者在進行假設檢定前預先設定的一個閾值,代表了願意承擔犯第一型錯誤(棄真錯誤)的最大風險。設定 α = 0.05 意味著,如果虛無假設 H0 實際上是真的,我們仍然允許有 5% 的可能性會根據樣本數據做出拒絕 H0 的錯誤決定。在做出決策時,我們會計算出 P 值,如果 P 值小於或等於 α (P ≤ α),則拒絕 H0;如果 P 值大於 α (P > α),則不拒絕 H0
#44
最大概似估計MLE)是為了找到使哪個函數最大化的參數?
A
損失函數Loss Function
B
概似函數Likelihood Function
C
先驗機率Prior Probability
D
後驗機率Posterior Probability
答案解析
根據定義,最大概似估計Maximum Likelihood Estimation, MLE)尋找的是能夠最大化觀測數據出現機率(即概似函數 L(θ|D) = P(D|θ))的模型參數 θ最小化損失函數是另一種常見的模型優化方法,但與MLE不完全等價(雖然在某些情況下,如最小化平方誤差對應高斯噪聲下的MLE,最小化交叉熵對應分類問題的MLE)。最大化先驗機率參數估計無關。最大化後驗機率最大後驗估計MAP)的目標。
#45
資訊理論中用來度量資訊量的基本單位通常是什麼?
A
赫茲(Hertz
B
位元Bit
C
焦耳(Joule
D
牛頓(Newton
答案解析
資訊理論中,資訊量(例如互信息)通常使用位元Bit)作為基本單位。這源於資訊量通常定義為基於以 2 為底的對數(log base 2)。一個位元代表了一個可以取兩種等可能狀態(如0或1,是或否)的系統所包含的資訊量。赫茲是頻率單位,焦耳是能量單位,牛頓是力的單位。
#46
★★★
正規化Regularization)技術(如 L1L2 正規化)在機器學習模型訓練中常用來防止過擬合。從統計學角度看,加入正規化項相當於在參數估計中引入了什麼?
A
更多的訓練數據。
B
對模型參數的先驗信念或約束(相當於貝氏推斷中的先驗分佈)。
C
更高的模型複雜度。
D
交叉驗證過程。
答案解析
正規化通過在原始的損失函數(如最小平方誤差交叉熵)上添加一個關於模型參數大小的懲罰項,來限制模型的複雜度,防止模型過度擬合訓練數據。從貝氏的角度來看,這等價於為模型參數引入了一個先驗分佈,並進行最大後驗估計MAP)。例如:
  • L2 正規化權重衰減 Weight Decay):懲罰項是參數平方和 λ||w||²。這相當於假設參數 w 服從均值為 0 的高斯先驗分佈
  • L1 正規化LASSO):懲罰項是參數絕對值之和 λ||w||₁。這相當於假設參數 w 服從均值為 0 的拉普拉斯先驗分佈L1 正規化傾向於產生稀疏解(使一些參數變為0),有助於特徵選擇
因此,正規化可以被視為將關於參數的先驗知識(例如,偏好更小或更稀疏的參數)納入模型學習過程的一種方式。
#47
★★★
隱馬可夫模型Hidden Markov Model, HMM)是一種用於處理序列數據機率模型。它包含一組觀察不到的隱藏狀態和一組可觀測的輸出。模型基於哪兩個核心的機率假設
A
觀察值之間相互獨立;隱藏狀態之間相互獨立。
B
齊次馬可夫性假設(當前隱藏狀態只依賴於前一個隱藏狀態);觀察獨立性假設(當前觀察值只依賴於當前的隱藏狀態)。
C
所有隱藏狀態都服從高斯分佈;所有觀察值都服從高斯分佈
D
隱藏狀態數量必須等於觀察值數量;狀態轉移機率必須為 0.5。
答案解析
HMM 的兩個基本假設是:
  1. 齊次馬可夫性假設 (Homogeneous Markov Assumption):在時間 t 的隱藏狀態 St 只取決於時間 t-1 的隱藏狀態 S(t-1),而與更早之前的狀態無關。即 P(St | S(t-1), S(t-2), ..., S1) = P(St | S(t-1))。這描述了狀態之間的轉移關係。
  2. 觀察獨立性假設 (Observation Independence Assumption):在時間 t 的觀察值 Ot 只取決於時間 t 的隱藏狀態 St,而與其他時間的狀態或觀察值無關。即 P(Ot | St, S(t-1), ..., S1, O(t-1), ..., O1) = P(Ot | St)。這描述了狀態如何生成觀察值。
基於這兩個假設,HMM 可以有效地對序列數據進行建模,常用於語音識別自然語言處理(如詞性標註)、生物信息學等領域。模型的參數包括初始狀態機率、狀態轉移機率矩陣和觀察(發射)機率矩陣,通常使用 EM 算法Baum-Welch 算法)進行學習。
#48
★★
大數法則Law of Large Numbers, LLN)告訴我們,當獨立同分佈隨機試驗次數趨於無窮時,樣本平均值會趨近於?
A
0
B
隨機變數期望值總體均值
C
隨機變數變異數
D
樣本中位數
答案解析
大數法則機率論中的另一個基石性定理。它有弱大數法則Weak Law of Large Numbers, WLLN)和強大數法則Strong Law of Large Numbers, SLLN)兩種形式,但核心思想都是一樣的:隨著試驗次數 n 的增加,從獨立同分佈隨機變數 X1, ..., Xn 得到的樣本平均值 X̄n = (X1 + ... + Xn) / n越來越接近隨機變數的真實期望值 E[X](即總體均值 μ)。WLLN 描述的是樣本均值機率收斂於期望值SLLN 描述的是樣本均值幾乎必然收斂於期望值大數法則為使用樣本均值來估計總體均值提供了理論基礎,也是頻率學派機率解釋的基礎之一(事件的機率是其在大量重複試驗中發生的相對頻率的極限)。
#49
★★★
貝氏網路Bayesian Network)中,節點代表隨機變數,有向邊代表變數之間的什麼關係?
A
線性相關關係
B
條件依賴關係Conditional Dependencies
C
時間先後順序
D
物理因果關係(不一定)
答案解析
貝氏網路是一種機率圖模型Probabilistic Graphical Model),它使用有向無環圖Directed Acyclic Graph, DAG)來表示一組隨機變數及其之間的條件依賴關係。圖中的每個節點代表一個隨機變數,從節點 A 指向節點 B 的有向邊表示變數 B 直接依賴於變數 A(A 是 B 的一個「父節點」)。貝氏網路的結構隱含了一系列條件獨立性假設:每個變數在給定其父節點的條件下,與其所有非後代節點(non-descendants)是條件獨立的。結合每個節點對應的條件機率表Conditional Probability Table, CPT),貝氏網路可以緊湊地表示變數集合的聯合機率分佈,並用於進行機率推斷(如計算邊際機率條件機率)。雖然有向邊常表示影響關係,但不一定嚴格代表物理上的因果關係
#50
★★
當比較兩個機器學習模型的性能時,僅僅比較它們在單一測試集上的準確率可能不夠可靠,因為測試集的劃分可能存在隨機性。統計假設檢定(如配對 t 檢定 Paired t-test)可以用來做什麼?
A
確定哪個模型的訓練時間更短。
B
判斷兩個模型性能之間的差異是否具有統計顯著性Statistical Significance),而不僅僅是隨機波動造成的。
C
選擇模型使用的最佳特徵
D
計算每個模型的參數數量。
答案解析
當我們比較模型 A 和模型 B 在某個(或多個)測試集上的性能指標(如準確率)時,即使看到一個指標略高於另一個,這種差異也可能僅僅是由於數據劃分的隨機性或測量誤差造成的。統計假設檢定提供了一種更嚴謹的方法來判斷觀察到的性能差異是否「真實」存在,還是很可能僅僅是偶然現象。例如,可以使用配對 t 檢定(如果在同一個 K 折交叉驗證的不同折上比較兩個模型)或 McNemar 檢定(比較兩個模型在同一個測試集上的錯誤分類是否顯著不同)來檢驗「兩個模型性能沒有差異」的虛無假設。如果檢定結果的 P 值小於顯著水準 α,我們就可以拒絕虛無假設,認為兩個模型的性能差異具有統計顯著性