統計推論(Statistical Inference)的主要目的是什麼?
B
利用樣本數據的資訊,對未知的母體參數或特性做出估計或判斷
統計推論是利用從母體中抽取的樣本數據,來對母體本身的特性(例如母體平均數、母體比例、母體變異數或不同母體之間的差異)進行推斷的過程。主要包含兩大類方法:(1) 參數估計(Parameter
Estimation):使用樣本統計量來估計未知的母體參數,包括點估計(Point Estimation)和區間估計(Interval
Estimation,如信賴區間)。(2) 假設檢定(Hypothesis
Testing):根據樣本證據,對關於母體特性的某個假設做出接受或拒絕的判斷。選項 A 是敘述性統計的目的。選項 C 和 D 是數據分析過程中的其他環節。
在假設檢定中,虛無假設(Null Hypothesis, H0)通常代表什麼?
B
一個關於母體參數的陳述,通常表示「沒有效果」、「沒有差異」或維持現狀的假設,是我們試圖收集證據來反駁(拒絕)的假設
D
對立假設(Alternative Hypothesis, H1 或 Ha)的同義詞
假設檢定的邏輯是先建立一個基準假設,稱為虛無假設(H0),這個假設通常代表我們想要挑戰或反駁的觀點(例如,新藥無效、兩組平均數相等、變數間無關聯)。然後我們收集樣本數據,看樣本證據是否足夠強烈以至於我們可以拒絕 H0。與 H0 相對的是對立假設(H1 或 Ha),它代表了研究者真正感興趣或希望找到證據支持的陳述(例如,新藥有效、兩組平均數不相等)。檢定的目標是判斷是否有足夠的證據來拒絕
H0,從而間接支持 H1。選項
A 描述的是對立假設。
在假設檢定中,顯著水準(Significance Level,
α)代表什麼意義?
A
當 H0 為偽時,錯誤地未能拒絕 H0 的機率(型 II 錯誤)
B
當 H0 為真時,研究者願意容忍的、錯誤地拒絕 H0 的最大機率(型 I
錯誤)
C
檢定統計量(Test Statistic)的數值
顯著水準 α 是在進行假設檢定之前由研究者預先設定的一個閾值,通常設定為 0.05(5%)或
0.01(1%)。它代表了研究者願意承擔的型
I 錯誤(Type I Error)的最大風險。型 I
錯誤是指虛無假設
H0 實際上是真的,但我們根據樣本證據錯誤地拒絕了它。設定 α = 0.05 意味著,即使 H0
是真的,我們也有 5% 的機率會做出錯誤的拒絕判斷。α 值越小,表示我們對拒絕 H0
的證據要求越嚴格,犯型 I 錯誤的機率就越低,但同時犯型 II
錯誤(未能拒絕錯誤的 H0)的機率 β 可能會增加。選項 A
描述的是型 II 錯誤的機率
β。
在假設檢定中,P 值(P-value)的正確解釋是?
B
假設虛無假設 H0
為真,觀測到當前樣本結果或更極端結果的機率
P 值是在假設檢定中根據樣本數據計算出來的一個機率值。它的確切意義是:如果虛無假設 H0 是真實的,那麼我們觀測到像當前樣本這樣(或比當前樣本更極端、更不利於
H0)的結果的機率是多少。P 值衡量的是樣本結果與 H0 之間的不一致程度。P 值越小,表示觀測到的樣本結果在 H0
為真的情況下越不可能發生,因此我們越有理由懷疑 H0 的真實性。判斷規則是:如果
P 值 ≤ α(預設的顯著水準),則拒絕 H0;如果
P 值 > α,則無法拒絕
H0。P 值不是 H0 或 H1 為真的機率(A, C 錯誤),也不是實際犯型 I
錯誤的機率(D 錯誤,那是 α)。
在假設檢定中,型 II 錯誤(Type II
Error)是指什麼?其機率通常用哪個符號表示?
B
H0 為偽時,錯誤地未能拒絕 H0;機率為 β
C
H0 為真時,正確地未能拒絕 H0;機率為 1-α
D
H0 為偽時,正確地拒絕 H0;機率為 1-β
假設檢定中可能犯兩種錯誤:
- 型 I 錯誤:拒絕了實際上為真的 H0(偽陽性 False Positive)。其機率上限由顯著水準
α 控制。
- 型 II 錯誤:未能拒絕實際上為偽的 H0(偽陰性 False Negative)。其機率用 β 表示。
選項 B 正確定義了
型 II 錯誤及其機率符號。選項 A 是
型 I 錯誤。選項 C 是正確接受
H0
的情況(
置信水平)。選項 D 是正確拒絕
H0 的情況,這個
機率 (1-
β) 稱為
統計檢定力(
Statistical Power),代表檢定能夠正確偵測到
H0 為偽的能力。
想要比較兩個獨立樣本的平均數是否存在顯著差異,當兩個母體的變異數未知但假設相等,且樣本數較小(例如,n1 < 30, n2 < 30)時,通常應使用哪種檢定方法?
A
獨立樣本 Z 檢定(Independent Samples Z-test)
B
獨立樣本 t 檢定(Independent Samples t-test),使用合併變異數(Pooled
Variance)
C
成對樣本 t 檢定(Paired Samples t-test)
D
變異數分析(Analysis of Variance, ANOVA)
比較兩
獨立樣本平均數的差異時:
- 如果母體變異數已知,或者樣本數很大(通常 n1, n2 ≥ 30,可用樣本變異數近似母體變異數,且根據 CLT 樣本平均數差值分佈近似常態),則使用 Z 檢定(A)。
- 如果母體變異數未知,且樣本數較小,則需要使用 t 檢定。
- 若假設兩母體變異數相等,則使用合併樣本變異數來估計共同的母體變異數,進行合併 t 檢定(Pooled t-test)(B)。
- 若不能假設兩母體變異數相等,則使用
Welch's t-test(自由度計算較複雜)。
- 如果兩樣本是成對的或相依的(例如,同一個人前後測量),則應使用成對樣本 t 檢定(C),檢定的是成對差異的平均數是否為零。
- 如果要比較三個或以上樣本的平均數,則使用 ANOVA(D)。
本題條件符合使用
合併 t 檢定的情況。
一個母體平均數 μ 的 95% 信賴區間(Confidence
Interval)為 [10, 20],這個結果的正確解釋是?
A
母體平均數 μ 有 95% 的機率落在區間 [10, 20] 內
B
如果我們重複進行抽樣並計算信賴區間,大約有 95% 的這些區間會包含未知的母體平均數 μ
C
樣本平均數有 95% 的機率落在區間 [10, 20] 內
信賴區間的解釋是基於長期重複抽樣的概念(頻率學派觀點)。母體參數 μ 是一個固定的未知常數,它要嘛在這個算出來的區間 [10, 20] 內,要嘛不在,沒有機率可言(A 錯誤)。95% 的信賴度指的是構建這個區間的方法的可靠性:如果我們用同樣的方法,從同一個母體中反覆抽取無限多次樣本,並為每個樣本構建一個 95%
信賴區間,那麼在所有這些構建出來的區間中,大約有 95% 的區間會成功地包含(覆蓋)那個未知的、固定的母體平均數 μ(B 正確)。信賴區間是關於母體參數的,不是關於樣本統計量的(C
錯誤)。區間的中點 (10+20)/2 = 15 是樣本平均數(點估計值),但母體平均數不一定等於它(D
錯誤)。
在 A/B 測試中,我們通常設定虛無假設 H0 為「方案 A 和方案 B 的效果沒有差異」。如果檢定結果的 P 值小於顯著水準 α(例如 0.05),我們應該做出什麼結論?
B
有足夠的統計證據拒絕虛無假設,認為方案 A 和方案 B
的效果存在顯著差異
A/B 測試本質上是一種假設檢定,用於比較兩個版本(A 和 B)的效果是否有統計上的顯著差異。虛無假設 H0 通常設定為兩者效果相同(例如,轉換率相等)。對立假設 H1
則是兩者效果不同(或特定方向的差異,如 B 優於 A)。如果計算出的 P 值小於預設的顯著水準 α,表示觀察到的差異在
H0 為真的情況下發生的機率很低。因此,我們拒絕 H0,做出結論:觀察到的差異是統計顯著的,即方案 A 和方案 B
的效果確實存在差異。但檢定結果本身通常不直接說明哪個方案「必定」更好(D),需要結合觀察到的效應大小(Effect
Size)和業務目標來判斷。選項 C 可能是 P 值不顯著時的考慮。
檢定統計量(Test Statistic)在假設檢定中的作用是?
B
一個根據樣本數據計算出的數值,用於衡量樣本結果與虛無假設之間的偏離程度,並用來決定是否拒絕虛無假設
檢定統計量是一個基於樣本數據計算出的數值,它量化了樣本證據與虛無假設 H0
之間的不一致性。不同的假設檢定有不同的檢定統計量計算公式(例如 Z
統計量、t 統計量、F
統計量、卡方統計量)。這個計算出的檢定統計量值會被用來與一個已知的理論抽樣分佈(假設 H0
為真時的分佈)進行比較,以確定觀察到的樣本結果是否足夠極端,從而做出拒絕或不拒絕 H0 的決定。通常是將檢定統計量與臨界值(Critical Value,由 α
決定)比較,或者用檢定統計量來計算 P
值。選項 C 是顯著水準 α。
統計檢定力(Statistical Power)是指?
C
當虛無假設 H0 為偽時,能夠正確地拒絕 H0 的機率 (1-β)
統計檢定力(Power)衡量的是一個假設檢定能夠正確地偵測到真實效果(即當 H0 實際上是錯誤的時候,能夠成功拒絕它的能力)的機率。檢定力等於 1 減去犯型 II
錯誤的機率 β,即 Power =
1 - β。檢定力越高越好,表示檢定越敏感,越不容易錯過真實存在的差異或效果。檢定力受到多個因素影響,包括顯著水準
α、樣本大小
n、效應大小(Effect
Size)以及數據的變異程度。
變異數分析(Analysis of Variance, ANOVA)主要用於檢定什麼?
ANOVA
是一種統計檢定方法,用於比較三個或更多組(由一個或多個類別型自變數定義)之間一個連續型應變數的平均數是否存在顯著差異。其基本思想是比較組間變異(Between-group
Variance)和組內變異(Within-group Variance)。如果組間變異相對於組內變異足夠大(透過計算
F 統計量來判斷),則拒絕所有組平均數都相等的虛無假設
H0。ANOVA 有多種類型,如單因子 ANOVA(One-way
ANOVA,只有一個分組變數)、雙因子 ANOVA(Two-way ANOVA)等。選項 A 可用 Z
檢定或卡方檢定。選項 C 可用相關係數檢定。選項 D 可用單一樣本 t
檢定或 Z 檢定。
增加信賴區間(Confidence Interval)的信賴水準(Confidence
Level),例如從 95% 增加到 99%,在樣本量和其他條件不變的情況下,信賴區間的寬度會如何變化?
信賴區間的寬度由兩個主要因素決定:信賴水準和樣本標準誤。信賴水準越高(例如從 95% 提高到 99%),表示我們希望區間包含母體參數的信心程度越高。為了達到更高的信心,我們需要一個涵蓋範圍更廣的區間,也就是說,區間的寬度需要變寬。這是因為更高的信賴水準對應著更大的臨界值(例如,99%
對應的 Z 值或 t 值比 95% 的更大),而信賴區間的寬度通常是 2 * 臨界值 * 標準誤。反之,如果降低信賴水準,區間會變窄,但包含母體參數的信心也隨之降低。
進行單尾檢定(One-tailed Test)時,對立假設 H1
的形式通常是?
B
母體參數大於或小於某個特定值(μ > μ0 或 μ < μ0)
假設檢定根據
對立假設 H1 的形式分為
單尾檢定和
雙尾檢定:
- 雙尾檢定(Two-tailed Test):對立假設只關心參數是否不等於某個值,不關心方向。例如 H1: μ ≠ μ0。拒絕域分佈在檢定統計量抽樣分佈的兩個尾部。
- 單尾檢定(One-tailed Test):對立假設關心參數是否朝特定方向偏離某個值。
- 右尾檢定(Right-tailed Test):H1: μ > μ0。拒絕域在抽樣分佈的右側尾部。
- 左尾檢定(Left-tailed Test):H1: μ < μ0。拒絕域在抽樣分佈的左側尾部。
選項 B 正確描述了
單尾檢定的
H1 形式。選項 A 是
雙尾檢定的
H1。選項 C
和 D 通常是
虛無假設 H0 的形式。
如果一個假設檢定的 P 值為 0.03,且研究者設定的顯著水準
α 為 0.05,應該做出什麼決策?
假設檢定的決策規則是將計算出的
P 值與預先設定的
顯著水準
α 進行比較:
- 如果 P 值 ≤ α,則表示觀察到的樣本結果(或更極端的結果)在 H0 為真的情況下是小機率事件(發生的可能性小於等於我們能容忍的型 I 錯誤上限 α)。因此,我們有足夠的證據拒絕 H0。
- 如果 P 值 > α,則表示觀察到的樣本結果在 H0 為真的情況下是相對可能發生的,我們沒有足夠的證據拒絕 H0。因此,我們未能拒絕 H0(或稱不拒絕
H0,但一般不說「接受」H0,因為未能拒絕不代表證明 H0 為真)。
本題中,
P 值 (0.03)
小於 α (0.05),因此應拒絕
H0。
在其他條件不變的情況下,增加樣本大小(Sample Size, n)通常會對統計檢定力(Power)產生什麼影響?
統計檢定力(1-
β)是指正確拒絕錯誤
H0 的能力。
樣本大小是影響
檢定力的關鍵因素之一。當
樣本大小
n
增加時:
- 樣本統計量的抽樣分佈會變得更集中(標準誤減小)。
- 這使得在 H0 和 H1 下的抽樣分佈重疊區域變小。
- 因此,在相同的顯著水準 α 下,檢定更容易區分出 H0 和 H1 之間的差異,從而降低了犯型 II 錯誤的機率 β。
由於 Power = 1 -
β,
β 降低意味著
檢定力提高。更大的樣本量提供了更多資訊,使得檢定更有能力偵測到真實存在的效應。
卡方獨立性檢定(Chi-squared Test of Independence)主要用於檢定什麼?
B
兩個類別型變數之間是否存在統計上的關聯性(是否相互獨立)
卡方檢定有多種應用,其中
獨立性檢定是用於分析
兩個類別型變數的關係。它基於觀察到的兩個變數交叉分類的
列聯表(
Contingency
Table)。
虛無假設 H0 是這兩個
類別變數相互獨立(沒有關聯)。檢定透過比較
列聯表中的
觀測頻數(
Observed
Frequencies)與在
獨立假設下計算出的
期望頻數(
Expected
Frequencies)之間的差異來計算
卡方統計量。如果差異足夠大(卡方值大於
臨界值或
P 值小於
α),則拒絕
H0,認為兩個變數之間存在統計上的關聯性。例如,用來檢定吸菸習慣與是否罹患某種疾病之間是否有關聯。
信賴區間的寬度受到樣本標準誤(Standard
Error)的影響。樣本標準誤的大小又主要受到哪兩個因素的影響?
樣本平均數的
標準誤 (
Standard Error of the
Mean,
SEM 或
SE) 計算公式為 SE = σ / √n,其中 σ 是
母體標準差,n 是
樣本大小。如果
母體標準差未知,則通常用
樣本標準差 s 來估計,即 SE ≈ s / √n。由此可見,
標準誤的大小主要取決於:
- 數據本身的變異程度(σ 或
s):數據越分散(標準差越大),標準誤越大。
- 樣本大小(n):樣本大小越大,標準誤越小(因為分母 √n 變大)。
由於
信賴區間的寬度與
標準誤成正比,因此,數據變異程度越大或樣本量越小,
信賴區間就越寬(估計越不精確);反之則越窄。
在進行 A/B 測試比較兩個網頁版本的轉換率時,若要檢定兩個版本的轉換率是否存在顯著差異,應該使用哪種假設檢定方法?
B
雙樣本比例 Z 檢定(Two-proportion Z-test)或卡方檢定
比較兩個獨立群體(版本 A 的使用者
vs. 版本 B 的使用者)的比例(轉換率 pA vs. pB)是否存在差異,屬於雙樣本比例的假設檢定問題。當樣本量足夠大時(通常滿足 np ≥ 10 且 n(1-p) ≥
10),可以使用雙樣本比例
Z 檢定。另外,這個問題也可以轉換為一個 2x2 的列聯表(行:版本 A/B,列:轉換/未轉換),然後使用卡方獨立性檢定來檢定版本與轉換結果之間是否存在關聯,這在數學上與雙樣本比例 Z 檢定是等價的。成對 t
檢定(A)用於相依樣本。單一樣本 t 檢定(C)用於檢定單個樣本平均數。ANOVA(D)用於比較三個或以上組的平均數。
假設檢定的拒絕域(Rejection
Region)是指?
B
一組檢定統計量的數值,如果計算出的檢定統計量落在這個區域內,則拒絕虛無假設 H0
在使用臨界值法(Critical Value Approach)進行假設檢定時,我們會根據顯著水準
α 和檢定統計量的抽樣分佈,確定一個或多個臨界值。這些臨界值將抽樣分佈劃分為兩個區域:拒絕域和接受域(或稱非拒絕域)。拒絕域包含了那些被認為是極端的、在 H0 為真時不太可能發生的檢定統計量值。如果根據樣本數據計算出的檢定統計量值落入了拒絕域,則我們拒絕 H0。接受域則包含了那些與
H0 相符或差異不夠顯著的檢定統計量值,若檢定統計量落入此區域,則未能拒絕 H0。拒絕域的位置(單尾或雙尾)和大小由 H1 和 α 決定。
假設檢定中,顯著水準 α 和統計檢定力
(1-β) 之間通常存在什麼樣的關係(在其他條件不變下)?
B
α 越小(要求越嚴格),檢定力越低(越難偵測到真實差異)
顯著水準 α(犯型 I 錯誤的機率)和
β(犯型 II
錯誤的機率)之間存在一種權衡關係。當我們降低 α(例如,採用更嚴格的顯著水準)時,拒絕 H0
的門檻變高,這使得我們更不容易拒絕 H0。這樣做雖然降低了錯誤拒絕真實 H0 的風險,但也同時增加了錯誤接受(未能拒絕)虛假 H0 的風險,即 β 會隨之增加。由於檢定力
Power = 1 - β,β 增加就意味著檢定力降低。因此,在其他條件(如樣本量、效應大小)不變的情況下,減小 α 會導致檢定力下降。反之,增大 α
會提高檢定力,但也會增加犯型 I
錯誤的風險。
成對樣本 t 檢定(Paired Samples t-test)適用於分析哪種情況下的數據?
B
比較同一組對象在兩種不同條件下(如處理前 vs.
處理後)測量值的平均差異
成對樣本 t 檢定用於比較相依樣本(Dependent Samples)或配對樣本(Matched Samples)的平均數差異。這通常發生在以下情況:(1) 重複測量:對同一組受試者在不同時間點或不同處理條件下進行測量(例如,病人服藥前的血壓
vs. 服藥後的血壓)。(2) 配對設計:將受試者按某些特徵配成對(例如,年齡、性別相近的兩個人),然後隨機分配到不同處理組。成對 t 檢定的核心是計算每對觀測值之間的差值,然後對這些差值進行單一樣本 t 檢定,檢定差值的平均數是否顯著不為零。選項 A 適用獨立樣本 t
檢定。選項 C 適用 ANOVA。選項 D 適用單一樣本比例 Z 檢定。
下列關於信賴區間(Confidence Interval)的敘述,何者錯誤?
B
信賴區間的寬度反映了估計的精確度(越窄越精確)
C
在其他條件相同下,樣本量越大,信賴區間通常越窄
D
一個 95% 信賴區間表示,我們有 95%
的信心確定母體參數就在這個算出來的特定區間內
信賴區間提供了對母體參數的一個區間估計(A
正確)。區間的寬度確實反映了估計的精確度,區間越窄表示估計越精確(B 正確)。增加樣本量 n
會減小標準誤(SE = σ/√n 或 s/√n),從而使信賴區間變窄(C 正確)。選項 D 的解釋是常見的誤解。如問題 #7 的解析所述,95% 信賴度是指構建區間的方法的長期成功率,而不是指某個特定算出來的區間包含母體參數的機率。對於任何一個已經計算出來的特定區間,未知的母體參數要嘛在其中,要嘛不在其中,沒有 95% 的機率問題。
在機器學習模型評估中,使用假設檢定來比較兩個模型(例如模型 A 和模型 B)在某個性能指標(如準確率)上是否存在顯著差異,其目的是?
B
判斷觀察到的性能差異是否僅僅是由於隨機抽樣波動造成的,還是代表了真實的性能優劣
當我們在同一個測試集(或透過交叉驗證)上評估兩個不同模型的性能時,通常會得到不同的性能指標數值。問題在於,觀察到的差異(例如模型 A
準確率 85%,模型 B 準確率 83%)是否足夠大,以至於我們可以確信模型 A 真的優於模型
B,或者這種差異可能僅僅是測試數據抽樣的隨機性導致的。使用配對的假設檢定方法(如 McNemar 檢定、配對 t
檢定或 Wilcoxon
符號秩檢定,取決於指標和數據特性)可以幫助我們判斷這個觀察到的差異是否具有統計顯著性。如果檢定結果顯著(P 值
<
α),我們就有信心認為兩個模型的性能確實存在差異;否則,我們不能排除觀察到的差異只是隨機波動的可能性。
假設檢定的基本邏輯類似於?
B
反證法(Proof by Contradiction)
C
歸納推理(Inductive Reasoning)
D
演繹推理(Deductive Reasoning)
假設檢定的邏輯與反證法非常相似。在反證法中,我們想證明一個命題 P 為真,我們會先假設 P 的反面(非
P)為真,然後從這個假設出發進行推導,如果推導出一個矛盾的結果,就說明最初的假設(非 P)是錯誤的,從而證明 P 必須為真。在假設檢定中,我們想找到支持對立假設
H1 的證據,於是我們先假設虛無假設 H0(通常是 H1
的反面或無效狀態)為真,然後看在 H0 為真的前提下,觀察到的樣本結果是不是一個非常不可能發生(小機率)的事件。如果是,我們就拒絕 H0,間接支持 H1。這種「假設前提,看是否導出與觀測矛盾」的思路,與反證法的邏輯一致。
在報告假設檢定結果時,除了報告是否拒絕 H0 以及 P
值大小外,還應該報告什麼資訊以提供更完整的圖像?
B
效應大小(Effect Size)和信賴區間(Confidence
Interval)
僅僅報告
P 值是否小於
α(即
統計顯著性)可能不足夠。一個統計上顯著的結果不一定意味著實際效果很大或具有實際意義。
- 效應大小(Effect Size):量化了觀察到的差異或關聯的強度或幅度(例如,兩組平均數的差異大小、相關係數的大小)。它可以告訴我們效果在實際中有多大。
- 信賴區間(Confidence Interval):提供了母體參數(例如,平均數差異、比例差異)的可能範圍的區間估計,反映了估計的精確度。
同時報告
統計顯著性(
P
值)、
效應大小和
信賴區間,可以提供更全面、更有意義的資訊,幫助讀者判斷結果的統計意義和實際重要性。
下列哪項措施不能直接提高假設檢定的統計檢定力(Power)?
B
提高顯著水準(α),例如從 0.01 提高到 0.05
C
選擇更精確的測量工具以減小數據的變異數(σ^2)
提高
統計檢定力的方法主要有:
- 增加樣本大小
(n):最直接有效的方法,可以減小標準誤,使檢定更容易偵測到差異。
- 提高顯著水準 (α):放寬拒絕 H0 的標準,更容易拒絕 H0(包括錯誤的 H0),從而提高檢定力,但代價是增加犯型 I
錯誤的風險。
- 增大效應大小 (Effect
Size):如果真實的效應本身就很大,檢定自然更容易偵測到。這通常不是研究者能直接控制的,但可以透過改進實驗設計或處理方式來達成。
- 減小數據變異數
(σ^2):透過使用更精確的測量方法、控制實驗條件或選擇更同質的樣本,可以減小數據的隨機波動,使信號(真實效應)更容易被偵測到。
選擇更複雜的模型(D)本身與提高特定
假設檢定的
檢定力沒有直接關係,甚至可能因為模型選擇不當而降低效率。
使用 t 檢定(t-test)相較於 Z
檢定(Z-test)的主要適用時機是?
Z 檢定要求母體標準差 σ 已知,或者在樣本數 n 足夠大時(通常 n≥30),可以用樣本標準差 s 近似 σ,並且樣本平均數的抽樣分佈近似常態。然而,在實際應用中,母體標準差通常是未知的,尤其是在樣本數較小(n<30)的情況下,使用
樣本標準差 s 估計 σ 會帶來額外的不確定性。t 分佈考慮了這種由估計
σ 帶來的不確定性(其形狀比常態分佈更扁平,尾部更厚,且隨自由度變化)。因此,當母體標準差未知且樣本數較小時,應使用 t 檢定來進行關於平均數的假設檢定或建立信賴區間。當樣本數很大時,t
分佈會趨近於標準常態分佈,此時 Z 檢定和 t
檢定的結果會非常接近。
| 特性 |
Z 檢定 (Z-test) |
t 檢定 (t-test) |
| 母體標準差 (σ) |
已知 |
未知 |
| 樣本大小 (n) |
通常較大 (n ≥ 30) |
通常較小 (n < 30),但大樣本也適用 |
| 抽樣分佈 |
標準常態分佈 |
t 分佈 (依自由度而變) |
| 核心前提 |
母體變異數已知,或大樣本下由中央極限定理保證常態性 |
母體為常態分佈(對小樣本較重要),使用樣本標準差估計母體標準差 |
某研究計算出某藥物降低血壓效果的 95% 信賴區間為
[-5 mmHg, -1 mmHg]。這個結果表示?
B
我們有 95% 的信心認為該藥物降低血壓的平均效果介於 1 mmHg 到 5 mmHg 之間
D
該藥物降低血壓的平均效果恰好是 -3 mmHg
這個信賴區間 [-5, -1]
估計的是藥物效果(例如,服藥後血壓變化量)的母體平均值。區間的兩個端點都是負值,表示我們有 95%
的信心(基於重複抽樣的解釋)認為該藥物導致血壓降低(因為變化量是負的)。降低的幅度估計在 1 mmHg 到 5 mmHg
之間。由於整個區間都在零以下(不包含 0),這也暗示了在
α=0.05 的水準下,藥物的降壓效果是統計顯著的。選項 A 錯誤。選項 C 錯誤,負值表示降低,且區間不包含 0 表示效果顯著。選項 D
錯誤,信賴區間提供的是範圍估計,而非精確的點估計值。
統計推論的基礎是?
統計推論是從樣本的不確定性中推斷母體資訊的過程。這個過程的理論基礎是機率論,它提供了描述隨機現象和不確定性的數學框架。抽樣理論則研究如何從母體中抽取代表性樣本,以及樣本統計量的性質(如抽樣分佈)。利用機率論和抽樣理論,我們才能夠量化從樣本推論到母體時的不確定性(例如,計算 P
值和信賴區間)。
臨界值(Critical Value)在假設檢定中是如何決定的?
B
根據預設的顯著水準 α 和檢定統計量在 H0
為真時的抽樣分佈決定
臨界值是劃分
拒絕域和
接受域的邊界點。它的確定基於兩個因素:
- 顯著水準 α:決定了拒絕域在抽樣分佈尾部所佔的總面積(α 或 α/2)。
- 檢定統計量在 H0
為真時的抽樣分佈:例如,Z 檢定使用標準常態分佈,t
檢定使用 t 分佈(其形狀還依賴於自由度)。
根據
α 和對應的
抽樣分佈,我們可以查表或使用函數找到
臨界值,使得落在
拒絕域的
機率恰好等於
α。例如,對於
雙尾 Z
檢定,
α=0.05,
臨界值是 ±1.96。
對立假設
H1 的形式(單尾或雙尾)會影響
拒絕域的位置,從而影響
臨界值的選擇,但不是唯一決定因素。
P
值是根據
檢定統計量計算出來的,而不是用來決定
臨界值的。
對於同一個檢定,如果計算出的 P 值為
0.12,這表示?
B
沒有足夠的證據在常用的顯著水準(如 0.05 或 0.10)下拒絕 H0
P 值衡量的是樣本結果與 H0
的一致性。P 值越大,表示觀察到的結果在 H0 為真的前提下越可能發生,反對 H0 的證據就越弱。P 值為
0.12,大於常用的顯著水準 α=0.05 和
α=0.10。因此,我們沒有足夠的統計證據來拒絕虛無假設 H0。這不代表 H0 一定是真的(C 錯誤),只是說基於目前的樣本數據,我們無法推翻它。是否需要改變檢定類型(D)與 P 值本身大小無關。
型 I 錯誤和型 II 錯誤是假設檢定中可能發生的兩種錯誤,它們之間存在什麼關係?
B
在樣本量固定時,降低犯一種錯誤的機率通常會增加犯另一種錯誤的機率(存在權衡關係)
型 I 錯誤(拒絕真實的 H0,機率
α)和型 II 錯誤(未能拒絕虛假的 H0,機率
β)是在假設檢定決策中此消彼長的兩種風險。當我們試圖降低 α(例如,採用更嚴格的顯著水準)時,拒絕 H0
的門檻變高,這使得我們更不容易拒絕 H0,即使 H0 是假的,從而增加了犯型 II 錯誤的機率 β。反之,如果我們提高 α(放寬拒絕標準),則更容易拒絕 H0,降低了 β,但增加了犯型 I
錯誤的風險。因此,在固定的樣本量下,α 和 β
之間存在權衡關係。同時降低兩者機率的唯一方法通常是增加樣本量。
單一樣本 t 檢定(One-sample t-test)的虛無假設
H0 通常是什麼形式?
B
單個母體的平均數等於某個特定的假設值 (μ = μ0)
D
母體變異數等於某個特定值 (σ^2 = σ0^2)
單樣本 t 檢定用於檢定單個樣本所來自的母體,其平均數
μ 是否等於一個預先指定的數值 μ0。因此,其虛無假設 H0 通常寫作
μ = μ0。對立假設 H1 則根據研究目的可能是 μ ≠ μ0(雙尾)、μ > μ0(右尾)或
μ < μ0(左尾)。例如,檢定某批零件的平均長度是否等於設計標準值。
信賴區間提供的是對哪個值的估計範圍?
信賴區間是統計推論中參數估計的一種方法。它利用樣本數據計算出一個區間(包含下限和上限),並伴隨一個信賴水準(如 95%),用來估計未知的母體參數可能落入的範圍。例如,樣本平均數的信賴區間是用來估計母體平均數 μ
的範圍;樣本比例的信賴區間是用來估計母體比例 p
的範圍。它不是對樣本統計量本身(A)或單個觀測值(C)的估計,也與 P 值(D)的概念不同。
在 A/B 測試結果分析中,如果結論是「差異不顯著」,這意味著?
B
基於當前數據,沒有足夠的證據認為兩個方案的效果存在差異,觀察到的差異可能只是隨機波動
當假設檢定(如 A/B 測試的比較)結果不顯著時(通常是 P
值 > α),我們未能拒絕虛無假設(H0:
效果無差異)。這並不代表我們證明了 H0 為真(即兩方案效果完全相同)(A
錯誤),而僅僅表示根據目前的樣本證據,我們無法得出兩者效果存在差異的結論。觀察到的微小差異很可能歸因於抽樣的隨機性。這可能意味著兩者效果確實相似,或者實驗的檢定力不足(例如樣本量太小)以偵測到可能存在的真實差異。後續可能需要收集更多數據或重新評估實驗設計。
對立假設(Alternative Hypothesis, H1 或 Ha)與虛無假設(H0)的關係通常是?
B
H1 和 H0 是互斥(Mutually Exclusive)且窮盡(Exhaustive)的(涵蓋了所有可能性)
虛無假設 H0 和對立假設 H1 是針對同一個母體參數或特性提出的兩個相互對立的陳述。它們必須是互斥的,意味著它們不可能同時為真。它們通常也應該是窮盡的,意味著兩者合起來涵蓋了參數所有可能的情況。例如,如果 H0 是 μ = μ0,那麼雙尾檢定的 H1 就是 μ
≠ μ0,這兩者互斥且涵蓋了所有可能。如果 H0 是 μ ≤ μ0,那麼右尾檢定的 H1 就是 μ
> μ0,兩者也是互斥且窮盡的。假設檢定的目標就是根據樣本證據在這兩個互斥的假設之間做出選擇(拒絕 H0 或未能拒絕 H0)。
如果一個檢定的統計檢定力(Power)很低,例如只有 0.3,這意味著什麼風險較高?
B
犯型 II 錯誤的風險較高(即錯過偵測到真實效果的風險)
檢定力 Power = 1 -
β,其中 β
是犯型 II 錯誤的機率。如果檢定力很低(例如
0.3),則意味著 β = 1 - 0.3 = 0.7。這表示,即使 H0 實際上是錯誤的(即真實存在效果或差異),該檢定有高達 70% 的機率會錯誤地未能拒絕 H0,也就是犯型 II
錯誤的風險很高。換句話說,檢定很可能無法偵測到真實存在的效果,導致研究者得出「無顯著差異」的錯誤結論。低檢定力通常是由於樣本量不足、效應大小過小或數據變異過大造成的。
進行 ANOVA 檢定後,如果 F 檢定結果顯著(拒絕 H0),這表示什麼?下一步通常需要做什麼?
A
表示所有組的平均數都彼此不同;不需要進一步分析
B
表示至少有兩組的平均數存在顯著差異;需要進行事後比較(Post-hoc
Comparisons)來找出哪些組之間存在差異
ANOVA 的虛無假設 H0 是所有比較組的母體平均數都相等(μ1 = μ2 = ... = μk)。如果 F 檢定結果顯著(即 P 值
< α),我們拒絕 H0,結論是至少有一對組別的平均數存在顯著差異。然而,ANOVA 本身並不能告訴我們具體是哪些組之間存在差異。因此,在 ANOVA 拒絕 H0 之後,通常需要進行事後比較檢定(如 Tukey's HSD, Bonferroni, Scheffé 等方法),來進一步探究是哪些特定的組別平均數之間存在顯著差異。選項 A 和 C 錯誤理解了 ANOVA 的結論。選項 D 錯誤,F 顯著通常表示組間變異相對較大。
假設檢定與信賴區間之間存在密切聯繫。如果一個母體平均數 μ 的 95% 信賴區間不包含假設值
μ0,那麼對應的雙尾假設檢定 H0: μ = μ0 vs. H1: μ ≠ μ0 在 α=0.05 的顯著水準下,其結果會是?
對於
母體平均數的檢定,
信賴區間和
假設檢定提供了等價的結論(當使用相同的
α 水準時)。一個 (1-
α) 的
信賴區間包含了所有在
α 顯著水準下
無法被拒絕的
虛無假設值 μ0。因此:
- 如果 μ0 落在 (1-α) 信賴區間之內,則對應的雙尾檢定
H0: μ = μ0 在 α 水準下無法拒絕 H0。
- 如果 μ0 落在 (1-α) 信賴區間之外,則對應的雙尾檢定
H0: μ = μ0 在 α 水準下拒絕 H0。
本題中,95%
信賴區間(對應
α=0.05)不包含 μ0,因此應拒絕
H0。
A/B 測試時,若要偵測一個較小的效果差異(例如轉換率提升
0.1%),相較於偵測一個較大的效果差異(例如轉換率提升 5%),通常需要?
統計檢定力受到效應大小(Effect
Size)的影響。效應大小是指我們希望偵測到的真實差異或效果的幅度。當效應大小很小時(如轉換率僅提升
0.1%),這個微小的差異很容易被隨機波動所掩蓋。為了有足夠的檢定力(例如 80% 或
90%)來可靠地偵測到這個小差異,我們需要收集更大的樣本量,以減小抽樣誤差,使微小的信號能夠凸顯出來。反之,如果預期效果差異很大,則較小的樣本量可能就足以達到所需的檢定力。
進行假設檢定的第一步通常是?
假設檢定的標準流程通常如下:
- 陳述假設:明確定義要檢定的虛無假設 H0 和對立假設
H1。
- 設定標準:選擇顯著水準
α。
- 選擇檢定方法並檢查假設:根據數據類型和研究問題選擇合適的檢定統計量(如 Z, t, F, Chi-squared),並確認其使用條件是否滿足。
- 計算檢定統計量:根據樣本數據計算出檢定統計量的值。
- 計算 P 值或確定拒絕域:根據檢定統計量的值和其抽樣分佈計算 P
值,或找到臨界值確定拒絕域。
- 做出決策:比較 P
值與 α(或比較檢定統計量與臨界值),決定拒絕或未能拒絕 H0。
- 解釋結果:根據決策,結合研究背景解釋結果的實際意義。
因此,第一步是明確要檢定的假設。
顯著水準 α=0.05 意味著什麼?
B
即使 H0 是真的,我們也允許有最高 5% 的機率會錯誤地拒絕它
顯著水準 α
是研究者預先設定的、可接受的犯型 I 錯誤(拒絕真實 H0)的最大機率。α=0.05 表示,研究者將拒絕 H0 的證據標準設定在「如果 H0 為真,觀察到如此極端或更極端的樣本結果的機率不大於
5%」。換句話說,我們願意承擔最多 5% 的風險,去錯誤地否定一個實際上成立的虛無假設。
P 值非常小(例如 P <
0.001)表示?
B
觀察到的樣本結果與虛無假設 H0 非常不一致,提供了強烈的證據反對 H0
P 值衡量的是在
H0 為真的前提下,觀測到當前樣本結果或更極端結果的機率。一個非常小的 P 值意味著,如果 H0 是真的,那麼我們實際觀測到的樣本結果是非常罕見、非常不可能發生的。這就強烈暗示 H0 可能是不正確的,從而提供了強有力的證據來拒絕 H0,支持 H1。P
值越小,反對 H0 的證據越強。
許多統計檢定(如 t 檢定、ANOVA)都假設樣本數據來自常態分佈母體。如果數據嚴重偏離常態分佈,可以考慮使用哪類檢定方法?
B
非參數檢定(Nonparametric Tests),如 Wilcoxon 檢定、Mann-Whitney U 檢定
C
線性迴歸(Linear Regression)
參數檢定(如 t 檢定、ANOVA)通常對數據的分佈(如常態性)和變異數(如等變異數性)有所假設。當這些假設被嚴重違反時(例如數據是次序尺度、分佈嚴重偏斜或有異常值),參數檢定的結果可能不再可靠。在這種情況下,可以考慮使用非參數檢定(也稱無母數檢定)。非參數檢定對數據分佈的假設較少或沒有假設,通常基於數據的排序(Ranks)而非原始數值進行計算。例如,Wilcoxon 符號秩檢定可用於替代成對
t 檢定,Mann-Whitney U 檢定(或 Wilcoxon 等級和檢定)可用於替代獨立樣本 t 檢定,Kruskal-Wallis 檢定可用於替代單因子 ANOVA。
一個區間估計(信賴區間)與一個點估計(例如樣本平均數)的主要區別在於?
B
點估計只提供單一數值作為母體參數的估計,而區間估計提供了一個包含參數可能值的範圍,並說明了估計的信心水準
點估計使用單一的樣本統計量(如樣本平均數
x̄)來估計未知的母體參數(如母體平均數
μ)。它的優點是簡單明瞭,但缺點是沒有提供估計的精確度或不確定性資訊(我們不知道這個點估計離真實參數有多近)。區間估計(信賴區間)則提供了一個數值範圍 [下限, 上限],並伴隨一個信賴水準(如
95%)。這個區間不僅給出了參數可能的範圍,其寬度也反映了估計的不確定性或精確度。因此,區間估計通常能提供比點估計更豐富的資訊。
在 A/B 測試中,如果過早停止實驗(例如,剛看到 P
值略小於 0.05 就停止),可能會導致什麼問題?
B
增加犯型 I 錯誤的機率(即錯誤地認為有顯著差異,而實際上沒有)
在 A/B 測試(或任何假設檢定)進行過程中,P
值會隨機波動。如果在收集數據的過程中反覆查看 P 值,並在
P 值首次達到顯著水準時就停止實驗(這種做法稱為 P-hacking 或 Optional
Stopping),會嚴重扭曲型 I 錯誤率。即使 H0 為真(兩方案無差異),由於隨機波動,P
值也有可能在實驗早期偶然達到顯著。如果我們只在這種情況下停止並宣稱結果顯著,那麼我們做出錯誤判斷(犯型 I 錯誤)的實際機率將遠高於預設的 α 水準。正確的做法應該是在實驗開始前就根據檢定力分析(Power
Analysis)確定所需的樣本量,並收集足夠的數據後再進行最終分析和決策,而不是中途根據 P 值決定是否停止。
陳述假設時,哪個假設總是包含等號(=, ≤, ≥)?
按照慣例和假設檢定的邏輯,虛無假設
H0 通常是包含「等於」關係的陳述(例如,μ = μ0, μ ≤ μ0, μ ≥
μ0)。這是因為我們需要一個明確的假設值(等號情況)來構建檢定統計量的抽樣分佈。對立假設 H1
則是與 H0 互斥的陳述,通常不包含等號(例如,μ ≠ μ0, μ > μ0, μ <
μ0),代表我們希望找到證據支持的差異或效果方向。
如果一個雙尾 t 檢定的檢定統計量 t 值為 2.5,對應的自由度下臨界值
t_crit 為 2.1,那麼應該做出什麼決策?
在使用臨界值法進行雙尾檢定時,如果計算出的檢定統計量的絕對值大於或等於臨界值,則檢定統計量落入拒絕域,應拒絕 H0。本題中,檢定統計量 t = 2.5,其絕對值 |2.5| = 2.5。臨界值 t_crit = 2.1。因為 |t| (2.5) > t_crit
(2.1),所以檢定統計量落入了拒絕域,我們應該拒絕虛無假設 H0。雖然說「接受 H1」(C)是拒絕 H0
後的常見說法,但統計上更嚴謹的決策是針對 H0 的拒絕與否。
犯型 I 錯誤也被稱為什麼?
型 I
錯誤是指錯誤地拒絕了真實的虛無假設
H0。在許多情況下,H0
代表「沒有效果」或「陰性」,而拒絕 H0
意味著結論為「有效果」或「陽性」。因此,錯誤地拒絕真實的 H0
就相當於將一個真實的陰性情況誤判為陽性,即「偽陽性」。相對地,型 II 錯誤(未能拒絕虛假的 H0)相當於將一個真實的陽性情況誤判為陰性,即「偽陰性」。
下列哪個因素會使信賴區間變窄(估計更精確)?
信賴區間的寬度大致由
(
臨界值 *
標準誤) 決定。
- 降低信賴水準會使臨界值變小,從而使區間變窄(A 正確)。
- 增加樣本量 n 會使標準誤(σ/√n 或 s/√n)變小,從而使區間變窄(B 正確)。
- 減小數據本身的變異數
σ(或樣本標準差 s)會使標準誤變小,從而使區間變窄(C 正確)。
因此,選項 A、B、C 都是使
信賴區間變窄的方法。