演算法偏見 (Algorithmic Bias) 最常見的來源是?
雖然演算法設計本身或人為互動也可能引入偏見,但最主要和最普遍的偏見來源是訓練數據。如果用於訓練模型的數據反映了現實世界中存在的歷史性偏見、刻板印象,或者數據採集方式導致某些群體代表性不足(選擇偏見 Selection Bias),或者數據標註本身就帶有偏見(標註偏見 Label Bias),那麼模型在學習過程中很可能會學習並放大這些偏見,導致其在預測或決策時對不同群體產生不公平的結果。硬體限制、語法錯誤和公式複雜度通常與偏見無直接關係。
公平性指標中的「人口統計均等」(Demographic Parity) 要求模型對不同受保護群體(例如,不同性別、種族)的哪個指標應該相等?
A
真陽性率 (True Positive Rate, TPR)
B
假陽性率 (False Positive Rate, FPR)
C
正類預測率 (Positive Prediction Rate),即被預測為正類的比例
人口統計均等(也稱為統計均等 Statistical Parity 或群體公平 Group Fairness 的一種)是最直觀的公平性定義之一。它要求模型的預測結果不應與受保護的敏感屬性(如種族、性別)相關。具體來說,模型將個體預測為正類的比例(即正類預測率)在不同的受保護群體之間應該是相等的。例如,在貸款審批中,男性和女性獲得貸款批准的比例應該相同。然而,這個標準可能與實際情況(例如不同群體的真實違約率不同)相悖,且可能與其他公平性指標衝突。選項 A 和 B 分別與均等機會 (Equal Opportunity) 和均等化賠率 (Equalized Odds) 相關。
在人臉辨識系統中,演算法偏見最常體現在哪個方面?
許多研究已經揭示,商用人臉辨識系統在不同人群上的表現存在顯著差異。由於訓練數據中可能缺乏多樣性(例如,以淺膚色男性為主),導致演算法對於深膚色人群、女性或其他少數族裔的辨識錯誤率遠高於淺膚色男性。這種差異化的性能不僅是技術問題,更可能導致現實生活中的歧視和不公,例如在安防監控、身份驗證等場景中對特定人群造成誤判或不便。辨識速度、資源消耗和對遮擋的處理能力是技術性能問題,但不直接反映偏見。
如果在訓練貸款審批模型時,使用的歷史數據顯示某個少數族裔群體的核准率較低(即使他們的實際還款能力與其他群體相似),這主要體現了哪種類型的偏見?
A
測量偏見 (Measurement Bias)
B
歷史偏見 (Historical Bias) 或稱 社會偏見 (Societal Bias)
C
聚合偏見 (Aggregation Bias)
歷史偏見指的是訓練數據反映了過去社會中存在的不公平或歧視性做法。即使數據本身記錄準確,但如果歷史上某個群體因為系統性因素(而非個體能力)而處於不利地位(例如,獲得貸款的機會較少),那麼基於這些歷史數據訓練的模型很可能會學習並延續這種不公平。測量偏見指數據測量方式本身存在差異。聚合偏見指將不同群體數據混合處理忽略了群體差異。評估偏見指模型評估方式不公平。
在模型訓練開始之前,對訓練數據進行修改以減少其中偏見的技術,屬於哪一類偏見緩解策略?
D
模型評估 (Model Evaluation)
偏見緩解技術通常可以分為三類:1) 預處理:在模型訓練之前對數據進行操作,例如通過重採樣 (re-sampling)、重加權 (re-weighting) 或修改特徵表示來消除或減弱數據中的偏見。2) 在處理:在模型訓練過程中修改學習演算法或損失函數,加入公平性約束,使得模型在學習時同時考慮準確性和公平性。3) 後處理:在模型訓練完成後,對模型的預測輸出進行調整,以滿足公平性要求(例如,調整不同群體的分類閾值)。
公平性指標中的「均等化賠率」(Equalized Odds) 要求模型對於不同受保護群體,需要同時滿足哪兩個條件相等?
A
精確率 (Precision) 和 召回率 (Recall)
B
真陽性率 (True Positive Rate, TPR) 和 假陽性率 (False Positive Rate, FPR)
C
正類預測率 (Positive Prediction Rate) 和 負類預測率 (Negative Prediction Rate)
D
準確率 (Accuracy) 和 F1 分數 (F1-Score)
均等化賠率是一個比人口統計均等更強的公平性標準。它要求模型對於不同受保護群體,不僅在正類樣本中的表現要一致(真陽性率 TPR 相等,也稱為均等機會 Equal Opportunity),而且在負類樣本中的表現也要一致(假陽性率 FPR 相等)。換句話說,無論個體的真實情況是正類還是負類,模型對其做出特定預測(例如,預測為正類)的可能性不應因為其所屬的受保護群體而有所不同。這個標準試圖平衡對正負兩類樣本的公平性。
為了偵測模型是否存在偏見,常見的做法是比較模型在不同子群體(按敏感屬性劃分)上的哪些數據?
B
關鍵的性能評估指標(如準確率、誤差率、TPR、FPR 等)
偵測偏見的核心是檢查模型對不同群體的表現是否存在系統性差異。這通常通過以下步驟完成:1) 確定需要關注的敏感屬性(如性別、種族、年齡等)和對應的子群體。2) 使用測試數據,分別計算模型在每個子群體上的性能評估指標(例如,準確率、精確率、召回率、假陽性率、假陰性率等)。3) 比較這些指標在不同子群體之間的差異。如果觀察到顯著且不合理的差異,則表明模型可能存在偏見。
公平性感知機器學習 (Fairness-aware Machine Learning) 中的「在處理」(In-processing) 方法指的是?
在處理 (In-processing) 或稱演算法修改 (Algorithm Modification) 方法試圖在模型學習過程中直接融入公平性考量。這通常通過以下方式實現:1) 在模型的優化目標(損失函數)中加入一個懲罰項,該懲罰項衡量模型預測結果的不公平程度(例如,不同群體之間某個公平性指標的差異)。2) 將公平性要求表達成約束條件,在滿足這些約束的前提下優化模型的準確性(或最小化損失函數)。這種方法的優點是可以在模型學習的根本層面上解決偏見問題,但可能需要修改現有的學習演算法,實現起來相對複雜。
在追求演算法公平性時,常常需要面對公平性與模型準確性之間的權衡,這意味著?
B
為了滿足某些嚴格的公平性標準,可能需要犧牲一部分模型的整體預測準確率
理想情況下,我們希望模型既準確又公平。然而,在現實中,由於數據本身的偏見、不同公平性定義之間的衝突、以及公平性約束對模型學習能力的限制,追求更高的公平性(尤其是某些嚴格的群體公平標準)有時會導致模型整體準確率或其他性能指標的下降。例如,為了讓不同群體的正類預測率相同(人口統計均等),可能需要降低對某些群體的預測準確率或對其他群體放寬標準,這可能影響整體的預測精度。因此,在實際應用中,需要在理解不同公平性定義的內涵和影響的基礎上,根據具體場景和價值觀,在公平性和準確性(以及其他目標如效率、可解釋性)之間做出合理的權衡和取捨。
負責任 AI (Responsible AI) 的核心原則通常不包括下列哪一項?
B
透明度與可解釋性 (Transparency and Explainability)
C
追求最大化商業利潤 (Maximizing Business Profit)
D
可靠性與安全性 (Reliability and Safety) 以及問責性 (Accountability)
負責任 AI 是一個綜合性的框架,旨在確保 AI 系統的開發和部署符合倫理規範、社會價值和法律法規。其核心原則通常包括:公平性(避免不合理的偏見和歧視)、透明度與可解釋性(理解 AI 如何做出決策)、可靠性與安全性(確保系統穩定、安全、不易被攻擊)、隱私保護(尊重和保護用戶數據隱私)、問責性(明確 AI 系統開發者、部署者和使用者的責任)。雖然 AI 系統可能用於商業目的,但「追求最大化商業利潤」本身並非負責任 AI 的核心倫理原則,甚至有時可能與其他原則(如公平性、隱私)產生衝突。負責任 AI 強調在追求技術和商業目標的同時,必須關注其對個人和社會的潛在影響。
使用來自線上論壇的數據訓練語言模型,如果數據中充滿了針對特定群體的攻擊性言論,模型可能會學到並產生類似的有害內容,這屬於哪種類型的偏見?
A
社會偏見/刻板印象 (Societal Bias/Stereotypes)
C
幸存者偏見 (Survivorship Bias)
這種情況反映了訓練數據中存在的社會偏見和刻板印象。模型從充滿偏見和攻擊性言論的數據中學習語言模式,很可能也會學會生成類似的、帶有歧視性或攻擊性的內容。這不是數據採集選擇(選擇偏見)、僅關注成功案例(幸存者偏見)或測量方式(測量偏見)的問題,而是數據本身就蘊含了不良的社會價值觀。
「反事實公平性」(Counterfactual Fairness) 的核心思想是?
B
對於同一個個體,如果其敏感屬性(如種族)發生改變,而其他所有條件不變,模型的預測結果不應改變
反事實公平性是一種基於因果推斷的個體公平性 (Individual Fairness) 概念。它關注的是:假設我們可以改變一個個體的敏感屬性(例如,將一個女性申請者的性別改為男性),同時保持其所有其他相關資質(如學歷、經驗)不變,那麼模型的預測結果(例如,是否錄用)是否會因此改變?如果模型的預測結果不受這種反事實改變的影響,則認為模型滿足反事實公平性。它試圖從因果關係的角度來判斷模型的決策是否真正基於個體能力而非敏感屬性。
演算法偏見可能導致的「回饋迴路」(Feedback Loop) 或稱「自我實現預言」(Self-fulfilling Prophecy) 指的是什麼現象?
B
有偏見的模型預測結果影響了現實世界的決策,這些決策又產生了新的、帶有同樣偏見的數據,進一步強化了模型的偏見
回饋迴路是演算法偏見可能帶來的嚴重長期後果。例如,一個用於預測犯罪熱點的警務演算法,如果因為歷史數據偏見而過度關注某些社區,導致警方在這些社區投入更多警力,自然會逮捕更多人。這些新的逮捕數據又被用來訓練下一代模型,進一步強化了模型對這些社區的關注,形成惡性循環。同樣,如果招聘演算法傾向於推薦男性,導致更多男性被僱用,那麼基於這些新數據訓練的模型可能會更加強化這種偏見。這種機制會使得最初的偏見被不斷放大和固化。
公平性審計 (Fairness Audit) 的主要目的是?
B
系統性地評估和檢查 AI 系統是否存在不期望的偏見及其潛在影響
公平性審計是一個評估過程,旨在檢查 AI 系統(包括數據、模型和應用流程)是否對不同群體產生了不公平的對待或差異化影響。審計過程通常包括:定義公平性目標和指標、識別潛在的偏見來源、收集相關數據、使用統計方法和工具量化模型在不同子群體上的表現差異、分析偏見的根本原因,並提出緩解建議。其目的是在模型部署前或部署後發現並理解潛在的公平性風險。
重加權 (Reweighing) 作為一種預處理的偏見緩解技術,其操作方式是?
C
為訓練集中的每個樣本分配不同的權重,使得模型在訓練時對來自不同群體或類別的樣本給予不同的重視程度
重加權是一種預處理技術,它不改變數據集本身,而是為每個訓練樣本分配一個權重。這些權重通常被設計為能夠抵消數據中存在的偏見。例如,為了實現人口統計均等,可以為那些「處於不利地位的群體且獲得不利結果」以及「處於有利地位的群體且獲得有利結果」的樣本賦予較低的權重,反之亦然。這樣,模型在訓練時(最小化加權損失)會被迫更加關注那些原本可能被忽略的樣本組合,從而學習到一個更公平的決策邊界。這與在損失函數中直接調整類別權重(演算法層面)有所不同,但目標相似。
多個不同的公平性定義(如人口統計均等、均等機會、均等化賠率)之間可能存在什麼關係?
B
它們之間可能存在衝突,同時滿足所有公平性定義通常是不可能的(除非在非常特殊的情況下)
研究已經證明,除了在一些非常理想化或退化的情況下(例如模型完美預測,或者各群體的基礎比率相同),多個常見的公平性定義(特別是人口統計均等、均等機會、均等化賠率)是相互不兼容的。也就是說,一個模型通常無法同時滿足所有這些公平性標準。例如,如果不同群體的真實正類比例(基礎比率)不同,那麼同時滿足人口統計均等(要求正類預測率相同)和均等機會(要求真陽性率相同)通常是不可能的。這凸顯了選擇哪種公平性定義本身就是一個重要的、需要結合具體場景和價值判斷的決策。
AI 模型的可解釋性 (Explainability) 為何對於處理演算法偏見很重要?
B
有助於理解模型做出決策的依據,從而更容易發現和診斷潛在的不公平模式或偏見來源
如果一個 AI 模型像個「黑盒子」,我們很難知道它是否以及為何會對不同群體做出不同的預測。模型的可解釋性技術(例如,查看特徵重要性、使用 LIME 或 SHAP 等工具生成局部解釋)可以幫助我們打開這個黑盒子,理解模型在做決策時依賴了哪些特徵,以及這些特徵是如何影響最終結果的。這種透明度使得我們能夠檢查模型是否依賴了敏感屬性(即使是間接依賴),或者是否學習到了某些不合理的、帶有偏見的模式,從而為診斷和修正偏見提供了重要的線索。雖然可解釋性本身不能消除偏見,但它是發現和解決偏見問題的重要前提。
歐盟的《通用資料保護規則》(General Data Protection Regulation, GDPR) 中與演算法公平性相關的條款,主要賦予了數據主體哪些權利?
C
反對完全基於自動化處理(包括剖析)做出對其產生法律效力或類似重大影響決策的權利,以及要求人工介入和解釋的權利
GDPR 第 22 條規定,數據主體有權反對完全基於自動化處理(包括用戶剖析 Profiling)所做出的、對其產生法律效果(如拒絕貸款)或類似重大影響(如招聘決策)的決定。除非該決定是簽訂或履行合約所必需、或基於數據主體的明確同意、或有歐盟或成員國法律授權。即使在允許自動化決策的情況下,也應保障數據主體的權利,至少包括獲得人工介入、表達意見和對決定提出質疑的權利。此外,GDPR 第 13、14、15 條也賦予數據主體獲取有關自動化決策邏輯及其預期後果的有意義信息的權利(涉及一定的可解釋性要求)。這些條款旨在保護個人免受不透明或不公平的自動化決策的侵害。
演算法本身可能引入偏見的一個例子是?
B
某些優化演算法在尋找最佳解時,可能因為其設計而傾向於某些類型的解,即使數據本身沒有偏見
雖然數據偏見是主要來源,但演算法的設計和優化過程本身也可能引入偏見,這稱為演算法偏見 (Algorithmic Bias) 的狹義定義。例如,一個演算法的目標是最大化整體準確率,在類別不平衡的情況下,它自然會傾向於犧牲少數類的性能來提高多數類的準確率,即使數據本身沒有反映這種偏好。又如,某些正則化方法或優化過程可能隱含地偏好某些類型的解(例如,更平滑或更稀疏的解),這在特定情況下也可能導致對不同群體的不公平影響。選項 A 是模型選擇不當導致的欠擬合問題。
後處理 (Post-processing) 的偏見緩解方法通常如何操作?
C
在不改變已訓練模型本身的情況下,調整模型的預測輸出(例如,為不同群體設定不同的分類閾值)以滿足公平性標準
後處理方法作用於已經訓練好的模型。它不改變模型本身,而是對模型的輸出結果(例如,預測機率或預測標籤)進行調整,以使得最終的決策符合預設的公平性指標。一個常見的後處理技術是針對不同的受保護群體,尋找不同的分類閾值,使得在這些閾值下,能夠滿足某種公平性標準(例如,均等機會或均等化賠率)。後處理方法的優點是不需要重新訓練模型,實現相對簡單,但缺點是可能以犧牲模型準確率為代價,並且沒有從根本上解決模型內部的偏見問題。
「相似的個體應該受到相似的對待」是哪種公平性概念的核心思想?
B
個體公平 (Individual Fairness)
C
程序公平 (Procedural Fairness)
D
反事實公平性 (Counterfactual Fairness)
個體公平性關注的是模型對待相似個體的方式。其基本原則是,如果兩個個體在與任務相關的屬性上是相似的,那麼模型對他們的預測結果也應該是相似的。這需要定義一個衡量個體之間相似性的度量標準(通常基於與任務相關的非敏感屬性),以及一個衡量預測結果相似性的度量標準。與關注群體統計數據的群體公平不同,個體公平更側重於保障個體層面的公平對待。反事實公平性是個體公平性的一種具體實現方式。程序公平關注決策過程本身的公平性。
在自然語言處理中,詞嵌入 (Word Embeddings) 可能會學習到數據中存在的性別或種族刻板印象,例如將「工程師」與男性關聯,將「護士」與女性關聯。這會導致什麼問題?
A
下游應用(如招聘系統、機器翻譯)可能產生帶有偏見的結果
D
無法處理未登錄詞 (Out-of-Vocabulary words)
詞嵌入是將詞語映射到低維向量空間的技術,廣泛應用於自然語言處理。然而,如果訓練詞嵌入的文本語料庫本身就包含了社會偏見和刻板印象,那麼學習到的詞向量也可能蘊含這些偏見(例如,某些職業詞語在向量空間中更接近男性代詞,而另一些則更接近女性代詞)。當這些帶有偏見的詞嵌入被用於下游任務(如建立履歷篩選模型、進行機器翻譯、生成文本等)時,就可能導致這些應用產生不公平或帶有歧視性的結果,延續甚至放大了原始數據中的偏見。
下列哪項不是用於偵測或衡量模型公平性的常用工具或指標?
C
使用公平性評估工具庫(如 IBM AI Fairness 360, Google Fairlearn)
D
模型的整體均方誤差 (Mean Squared Error, MSE)
偵測和衡量公平性需要使用特定的、關注群體差異的指標和工具。比較不同群體之間的性能指標差異(如 TPR 差異衡量均等機會,正類預測率差異衡量人口統計均等)是核心方法。許多開源工具庫(如 AIF360, Fairlearn)提供了計算這些公平性指標以及實現偏見緩解演算法的功能。而 MSE 是用於評估迴歸模型整體性能的指標,它本身不直接反映模型在不同群體間的公平性表現。
對抗性除偏 (Adversarial Debiasing) 是一種「在處理」的偏見緩解技術,其基本原理類似於哪種模型架構?
B
生成對抗網路 (Generative Adversarial Network, GAN)
對抗性除偏技術受到 GAN 的啟發。它通常包含兩個主要的網路:一個是主要的預測器 (predictor),負責預測目標任務(例如,預測貸款是否批准);另一個是對抗者 (adversary),負責根據預測器的輸出(或中間表示)來預測個體的敏感屬性(例如,種族)。訓練的目標是讓預測器在盡可能準確地預測目標任務的同時,也要「欺騙」對抗者,使其無法準確地預測敏感屬性。通過這種對抗訓練,迫使預測器學習到與敏感屬性無關的表示,從而達到去除偏見、實現公平性的目的。
當我們說公平性與準確率存在「權衡」(Trade-off) 時,通常是在哪個層面上討論?
B
群體統計層面 (Group Statistical Level)
C
演算法複雜度層面 (Algorithmic Complexity Level)
D
數據儲存層面 (Data Storage Level)
公平性與準確率的權衡通常是在討論群體公平性 (Group Fairness) 指標時出現的。例如,為了強制滿足人口統計均等(不同群體具有相同的正類預測率),可能需要降低對某些群體的預測準確率。這是因為群體公平性關注的是不同群體在統計結果上的平等,而這可能與基於個體特徵的最優預測(最大化整體準確率)相衝突,尤其是在不同群體的基礎比率不同的情況下。個體公平性(如反事實公平性)通常被認為與準確率的衝突較小,因為它關注的是對相似個體的相似對待。
負責任 AI 中提到的「問責性」(Accountability) 主要強調什麼?
B
應該有明確的機制來確定誰對 AI 系統的行為和結果負責,並能夠對其進行審查和追究
問責性是指為 AI 系統的決策和影響建立責任歸屬機制。這包括明確界定系統設計者、開發者、部署者、使用者等各方在系統生命週期中的責任;建立有效的治理框架、審計追踪機制和申訴渠道;確保在系統產生負面影響或錯誤時,能夠追溯原因、確定責任方,並採取補救措施。問責性是建立公眾信任、確保 AI 系統以符合倫理和法律的方式運行的關鍵要素。
目前全球範圍內,對於 AI 偏見與公平性問題,立法和監管的現狀是?
B
處於快速發展和探索階段,不同國家和地區有不同的法規草案、指南或原則,但尚未形成廣泛共識的硬性法規
AI 倫理、偏見和公平性問題是近年來各國政府、國際組織和行業高度關注的議題。許多國家和地區(如歐盟、美國、加拿大、新加坡等)已經發布了 AI 相關的倫理指南、原則或政策白皮書,並正在積極探索制定更具體的法規。例如,歐盟的《人工智慧法案》(AI Act) 草案就對高風險 AI 系統提出了數據質量、透明度、人類監督等要求,並涉及反歧視的考量。然而,由於問題的複雜性、技術發展的快速性以及不同文化背景下的價值差異,目前尚未形成全球統一的、具有強制力的法律框架,相關立法仍在不斷演進中。
選擇偏見 (Selection Bias) 指的是什麼?
B
用於訓練模型的數據樣本不是從目標總體中隨機選取的,導致樣本不能代表總體
選擇偏見發生在數據採集或抽樣階段。如果收集數據的方式使得某些子群體或某些類型的樣本比其他樣本更有可能被選入訓練集,那麼這個訓練集就不能準確地代表模型未來要應用的真實世界總體。例如,如果線上調查主要由年輕、高學歷的人群完成,那麼基於這些數據訓練的模型可能對其他年齡或學歷群體表現不佳。選擇偏見會導致模型學習到有偏的數據分佈,產生不公平或不準確的預測。
「公平性限制優化」(Fairness Constrained Optimization) 屬於哪一類偏見緩解策略?
公平性限制優化是一種典型的「在處理」方法。它將特定的公平性要求(例如,要求不同群體之間的某個公平性指標差異小於某個閾值)明確地表述為數學約束條件,然後在模型訓練的優化過程中,尋找滿足這些公平性約束條件的同時,最大化模型準確率(或最小化損失函數)的解。這種方法直接將公平性目標納入了模型的學習過程。
演算法偏見除了導致不公平的結果外,還可能對企業或機構造成哪些負面影響?
演算法偏見的影響不僅限於對個體的不公平。對於使用這些演算法的企業或機構而言,偏見問題可能引發嚴重的負面後果:1) 聲譽風險:一旦被曝光存在歧視性演算法,會嚴重損害企業形象和公眾信任。2) 法律風險:隨著相關法規的逐漸建立,帶有偏見的演算法可能面臨法律挑戰和監管機構的處罰。3) 商業損失:例如,有偏見的推薦系統可能錯失某些用戶群體;有偏見的招聘系統可能錯失優秀人才。因此,從風險管理和長遠發展的角度,解決演算法偏見問題至關重要。
測量偏見 (Measurement Bias) 指的是?
B
用於衡量某個特徵或目標變數的方式在不同群體之間存在系統性差異或誤差
測量偏見發生在數據收集和記錄的環節。當我們選擇用來代表某個概念(例如,「信用風險」、「工作績效」)的具體特徵或標籤時,如果這個測量方式本身對不同群體就不公平或存在系統性誤差,就會引入測量偏見。例如,如果使用逮捕記錄作為犯罪風險的代理指標,由於不同社區警務執法力度的差異,逮捕記錄本身可能就帶有偏見,不能準確反映真實的犯罪風險差異。又如,在醫學圖像分析中,如果圖像採集設備對不同膚色人種的成像質量不同,也可能導致測量偏見。
均等機會 (Equal Opportunity) 公平性標準要求模型在不同受保護群體之間哪個指標相等?
A
真陽性率 (True Positive Rate, TPR)
B
假陽性率 (False Positive Rate, FPR)
C
正類預測率 (Positive Prediction Rate)
均等機會是均等化賠率的一個放鬆版本。它只要求對於那些真正屬於正類別的個體(例如,真正有能力勝任工作的人、真正會按時還款的人),模型將他們正確預測為正類的可能性(即真陽性率 TPR,或稱召回率 Recall)在不同的受保護群體之間應該是相等的。它不對模型在負類樣本上的表現(例如 FPR)做要求。這個標準關注的是確保所有符合條件的個體都有平等的機會獲得有利的結果。
因果推斷 (Causal Inference) 方法在公平性分析中的作用是?
B
幫助區分相關性與因果性,理解敏感屬性對預測結果的直接和間接影響路徑,從而更深入地分析偏見的機制
僅僅觀察到敏感屬性與預測結果之間存在相關性,並不能完全說明是否存在歧視或偏見,因為這種相關性可能是由其他混淆變數 (Confounding Variables) 引起的。因果推斷提供了一套理論和工具(如結構因果模型 Structural Causal Models, SCMs、潛在結果框架 Potential Outcomes Framework),試圖從數據中推斷變數之間的因果關係。在公平性領域,因果推斷可以幫助我們:1) 理清敏感屬性、其他特徵和預測結果之間的因果路徑,判斷是否存在直接或間接的歧視。2) 定義和評估更基於因果關係的公平性標準(如反事實公平性)。3) 設計更有效的偏見緩解策略。
在負責任 AI 的實踐中,「以人為本」(Human-Centered) 的設計原則強調什麼?
B
在設計和開發 AI 系統時,應始終將人類的福祉、價值觀、權利和需求放在首位
以人為本是負責任 AI 和 AI 倫理中的一個核心理念。它要求 AI 技術的發展和應用應以服務人類、增進人類福祉為最終目的。在設計、開發、部署和評估 AI 系統的整個生命週期中,都需要充分考慮其對個人、社會和環境的潛在影響,尊重人類的尊嚴、權利和自主性,確保技術能夠賦能於人,而不是取代或損害人類。這涉及到讓利益相關者(包括受影響的用戶和社群)參與到設計過程中,並將公平、透明、安全等倫理原則融入技術實現。
AI 模型卡 (Model Cards) 的主要目的是?
B
提供關於 AI 模型的能力、局限性、預期用途、訓練數據、評估結果(包括公平性評估)的標準化摘要報告,以提高透明度
模型卡是由 Google 等機構提出的一種旨在提高 AI 模型透明度和問責性的實踐。它相當於模型的「說明書」或「營養標示」,以簡潔、標準化的格式提供關於模型的關鍵信息,例如:模型的開發者、版本、預期用途和限制;訓練數據的描述(來源、人口統計分佈等);模型的架構和訓練細節;在不同數據子集和不同評估指標(包括公平性和偏見相關指標)上的性能表現;以及倫理考量和潛在風險等。模型卡有助於模型的部署者、使用者和其他利益相關者更好地理解模型的特性和適用範圍,做出更明智的決策。
聚合偏見 (Aggregation Bias) 可能發生在什麼情況下?
B
當一個模型適用於所有群體,但實際上數據中不同子群體的行為模式或基礎比率存在顯著差異時,忽略這種差異而建立單一模型
聚合偏見源於一個「一刀切」(one-size-fits-all) 的假設,即認為一個模型或一個分析結論可以同等地適用於數據中的所有不同子群體。然而,如果這些子群體在與任務相關的方面(例如,不同地區的用戶偏好、不同疾病亞型的症狀)存在顯著差異,那麼將它們的數據混合在一起訓練單一模型,可能會導致該模型對所有群體都表現不佳,或者對某些群體的擬合效果遠不如其他群體。忽略這種潛在的群體差異性而進行聚合分析或建模,就可能產生聚合偏見。
哪種偏見緩解策略可能最容易實現,但通常治標不治本?
後處理方法直接操作已訓練模型的輸出,例如調整分類閾值。相比於需要修改數據(預處理)或重寫訓練演算法(在處理),後處理通常更容易實現,因為它不需要訪問或修改原始數據或模型內部。然而,後處理只是在輸出層面強制滿足公平性指標,並沒有改變模型本身學習到的帶偏見的表示或決策邏輯,因此常被認為是「治標不治本」的方法。它可能以犧牲模型性能為代價,並且可能無法解決更深層次的偏見問題。
在某些情況下,提高模型的公平性甚至可能同時提高模型的整體準確率,這通常發生在什麼情況下?
B
當原始模型因為偏見而忽略了某些子群體的重要信息,而公平性干預有助於模型學習到更全面的數據模式時
雖然通常認為公平性和準確率之間存在權衡,但在某些特定情況下,兩者可以協同提升。例如,如果原始模型因為訓練數據的偏見而主要學習了多數群體的模式,忽略了少數群體中存在的獨特但有用的信息。那麼,旨在提高對少數群體公平性的干預措施(例如,通過過採樣、重加權或公平性約束讓模型更關注少數群體)可能會迫使模型學習到更全面、更具代表性的數據模式,從而不僅提高了公平性,也可能因為學習到了更豐富的信息而提升了模型的整體泛化能力和準確率。
對抗性測試 (Adversarial Testing) 在公平性評估中的應用主要是?
A
通過生成特定的、可能觸發模型偏見行為的輸入樣本來測試模型的魯棒性和公平性
對抗性測試不僅用於評估模型的安全性(例如,對抗樣本攻擊),也可以應用於公平性評估。其思路是主動地尋找或生成那些最有可能暴露模型偏見的「邊緣案例」或「壓力測試」樣本。例如,生成一系列僅在敏感屬性上有所不同但其他方面相似的樣本對(類似反事實樣本),觀察模型的預測是否發生不合理變化。或者,尋找那些模型對其預測置信度很高但實際上預測錯誤的樣本,分析其中是否存在群體性差異。這種測試方法有助於發現標準評估指標可能忽略的潛在公平性問題。
從倫理角度看,即使模型滿足了某個數學上的公平性定義,它是否就一定是「公平」的?
B
不一定,因為公平性是一個複雜的社會和倫理概念,單一的數學定義可能無法完全捕捉其內涵,且需要考慮具體應用場景和潛在影響
公平性不僅僅是一個技術或數學問題,更是一個深刻的社會和倫理問題。不同的數學公平性定義(如人口統計均等、均等機會等)本身就蘊含了不同的價值取向,並且它們之間可能相互衝突。在特定應用場景下,哪種公平性定義更合適、更能體現社會期望的「公平」,需要結合具體的背景、潛在的社會影響以及倫理原則進行判斷。僅僅在數學上滿足某個指標,並不等同於在倫理或社會意義上達到了真正的公平。因此,評估 AI 公平性需要跨學科的視角,綜合考慮技術、社會和倫理因素。
開發和部署 AI 系統時,進行影響評估 (Impact Assessment),例如「演算法影響評估」(Algorithmic Impact Assessment, AIA),其主要目的是?
B
在系統部署前,預先識別、評估和記錄該系統可能對個人權利、社會公平等方面產生的潛在風險和影響
影響評估是一種風險管理工具,旨在幫助開發者和部署者在 AI 系統投入使用前,系統性地思考和評估其可能帶來的各種影響,特別是潛在的負面影響和倫理風險。例如,AIA 可能會評估系統是否存在歧視風險、對隱私的影響、決策透明度問題、安全性漏洞、以及對社會結構或就業可能產生的影響等。通過早期識別這些風險,可以採取相應的預防或緩解措施,或者在風險過高時決定不部署該系統。這有助於促進更負責任、更符合倫理的 AI 應用。
確認偏誤 (Confirmation Bias) 如何可能影響 AI 系統中的偏見?
B
開發者或標註者傾向於尋找、解釋或標註那些符合他們現有信念或假設的數據,從而將自身偏見引入數據或模型評估中
確認偏誤是人類認知中的一種傾向,即人們更容易關注、接受和記住那些支持自己既有觀點的信息,而忽略或輕視那些與自己觀點相悖的信息。在 AI 開發中,如果數據標註者或模型開發者受到確認偏誤的影響,他們可能會在數據收集、標註或模型評估階段無意識地引入自己的偏見。例如,標註者可能更容易將符合刻板印象的行為標註為特定類別,或者開發者在評估模型時更關注那些符合預期的結果而忽略異常或反例。
下列哪個公平性指標最容易滿足,但通常被認為是較弱的公平性標準?
A
人口統計均等 (Demographic Parity)
B
均等機會 (Equal Opportunity)
D
反事實公平性 (Counterfactual Fairness)
人口統計均等只要求不同群體的正類預測率相同,它不考慮個體的真實情況或模型預測的準確性。例如,一個在招聘中隨機錄用各群體相同比例申請者的模型可以滿足人口統計均等,但顯然不是一個好的或公平的招聘方式。相比之下,均等機會和均等化賠率則要求模型在特定真實情況下的預測率 (TPR 或 TPR 和 FPR) 在不同群體間相等,是更強的公平性標準,也更難滿足。反事實公平性則在個體層面進行考量。因此,人口統計均等通常被視為相對較弱的公平性定義。
「公平性 Gerrmandering」指的是什麼現象?
B
通過精心選擇子群體劃分方式或公平性指標,使得一個本質上可能不公平的模型在表面上看起來滿足了某些公平性標準
這個術語借用了政治學中的「傑利蠑螈」(Gerrymandering)。在 AI 公平性領域,它指的是一種潛在的操縱行為:開發者可能通過巧妙地定義或劃分比較的子群體(例如,將某些難以處理的少數群體排除在外,或者合併某些群體),或者選擇性地報告那些模型表現較好的公平性指標,來使得一個實際上可能存在偏見的模型在公平性評估報告中顯得「達標」或「公平」。這提醒我們在評估模型公平性時,需要批判性地審視所使用的群體定義、指標選擇以及評估方法的全面性。
演算法偏見是否只存在於涉及社會敏感屬性(如種族、性別)的應用中?
B
否,偏見可能存在於任何 AI 應用中,即使不直接涉及敏感屬性,例如數據採集偏差可能導致模型對某些類型的輸入(如罕見場景)表現不佳
雖然涉及社會敏感屬性的偏見(如種族、性別歧視)受到了最多的關注,但偏見的概念更為廣泛。任何由於數據、演算法或互動過程中的系統性錯誤或不平衡,導致模型對某些輸入或情況產生不期望的、差異化的表現,都可以視為一種偏見。例如,用於自動駕駛的視覺系統,如果訓練數據中白天場景遠多於夜間或惡劣天氣場景,模型可能在後者情況下表現不佳,這也是一種由數據不平衡導致的偏見,即使它不直接涉及社會群體。因此,評估和緩解偏見是所有 AI 應用開發中都應考慮的問題。
AI 倫理原則中的「無害性」(Non-maleficence) 原則,在演算法偏見的脈絡下意味著什麼?
A
開發者應盡力避免 AI 系統因偏見而對個人或群體造成傷害或不公平對待
無害性原則(源自醫學倫理的 "primum non nocere",首先不造成傷害)是 AI 倫理的基本要求之一。在演算法偏見和公平性的背景下,它要求 AI 系統的設計者和部署者必須積極預見、評估並採取措施,以防止或最小化由於系統偏見可能對個人(例如,被錯誤拒絕貸款、受到不公平的評分)或群體(例如,加劇社會歧視、資源分配不公)造成的實際傷害。這意味著不能僅僅追求技術性能,還必須將避免造成傷害作為核心的倫理責任。
下列哪個組織或機構發布了關於可信賴 AI (Trustworthy AI) 的倫理指南,其中包含了對公平性的要求?
C
歐盟執委會 (European Commission) 的 AI 高階專家組 (AI HLEG)
歐盟的 AI 高階專家組 (AI HLEG) 在 2019 年發布了《可信賴人工智慧倫理指南》(Ethics Guidelines for Trustworthy AI)。該指南提出了實現可信賴 AI 的七個關鍵要求:1) 人類的能動性和監督;2) 技術的穩健性和安全性;3) 隱私和數據治理;4) 透明度;5) 多樣性、非歧視和公平性;6) 社會和環境福祉;7) 問責性。其中明確將「公平性」作為核心要求之一,強調應避免不公平的偏見。該指南對全球範圍內的 AI 倫理和治理討論產生了重要影響。
使用 Disparate Impact Analysis (差異化影響分析) 來評估公平性時,通常關注的是哪個比例?
B
受保護群體獲得有利結果的比例與參照群體(通常是多數或有利群體)獲得有利結果的比例之比
差異化影響分析源自美國的反歧視法律實踐,用於評估某個政策或做法(例如,招聘標準、演算法決策)是否對受保護群體產生了不成比例的負面影響,即使該政策本身沒有歧視意圖。在演算法公平性評估中,它通常通過比較受保護群體(例如,少數族裔)獲得有利結果(例如,被錄用、獲得貸款)的比例與參照群體(例如,多數族裔)獲得有利結果的比例。一個常用的標準是「五分之四法則」(Four-Fifths Rule),即如果受保護群體的成功率低於參照群體成功率的 80%,則可能存在差異化影響,需要進一步審查其合理性。這實質上是在評估人口統計均等的一個變種。
為什麼說「演算法本身是中立的,偏見來自數據」這種說法可能過於簡化?
B
因為演算法的設計選擇(如目標函數、正則化)以及部署方式本身也可能引入或放大偏見,而不僅僅是數據的問題
雖然數據偏見是演算法偏見的主要來源,但將所有責任都歸咎於數據可能忽略了其他重要的因素。演算法的設計者在選擇模型類型、定義目標函數、選擇優化策略和正則化方法時,都做出了可能影響公平性的決定。例如,選擇最大化整體準確率作為目標函數,在不平衡數據下本身就可能導致對少數類的不公平。此外,模型的部署環境、用戶與模型的互動方式、以及模型決策產生的回饋迴路等,都可能在數據之外引入或加劇偏見。因此,理解和解決演算法偏見需要從數據、模型、應用等多個層面進行考量。
處理 AI 偏見與公平性問題,最根本的目標是?
B
努力使 AI 系統的開發和應用更加符合社會公平正義的價值觀,減少不合理的歧視和傷害,促進人類福祉
由於偏見來源的複雜性和公平性定義的多樣性與衝突性,開發出一個在所有意義上都絕對公平、沒有任何偏見的 AI 系統可能是一個不切實際的目標。同樣,試圖找到一個適用於所有情況的通用公平性指標也是困難的。完全禁止 AI 在高風險領域使用則可能因噎廢食,放棄了 AI 帶來的潛在益處。因此,更務實和根本的目標是,承認偏見的風險,在 AI 的整個生命週期中,積極地、負責任地採取措施來識別、評估、緩解不合理的偏見和歧視,努力使 AI 技術的發展和應用朝著更加符合公平、正義、透明、問責等社會價值觀的方向前進,最終目的是服務於人類的共同利益和福祉。