在數據清洗階段,處理數值型數據中的離群值(Outliers)時,下列哪種做法最為穩健(Robust)?
C
使用中位數 (Median) 替換離群值或進行封頂/設限 (Capping/Winsorization)
D
使用標準差 (Standard Deviation) 來判斷並替換
離群值會嚴重影響基於平均數和標準差的統計量。中位數對極端值不敏感,是更穩健的集中趨勢度量。因此,使用中位數替換離群值是一種常見且相對穩健的方法。封頂/設限 (Capping/Winsorization) 是將超出某個百分位數(例如 1% 和 99%)的值替換為該百分位數的值,也能有效降低離群值的影響。直接刪除(A)可能損失有用資訊。使用平均數替換(B)會受離群值影響。基於標準差的方法(D,如 3σ 法則)本身也對離群值敏感。
標準化(Standardization)和最小最大縮放(Min-Max Scaling)是兩種常用的特徵縮放方法,它們的主要區別在於?
A
標準化適用於類別特徵,最小最大縮放適用於數值特徵
B
標準化保留原始數據的分佈形狀,最小最大縮放會改變分佈形狀
C
標準化將數據轉換為均值為0、標準差為1的分佈,不受離群值影響較小;最小最大縮放將數據縮放到[0, 1](或指定範圍),對離群值敏感
兩者都是線性變換,主要區別在於變換方式和對離群值的敏感度:
* 標準化 (Z-score):(X - μ) / σ。結果數據的均值為 0,標準差為 1。它不將數據限制在特定範圍,對離群值的影響相對較小(但仍會受影響,因為μ和σ受影響)。適用於數據近似高斯分佈或演算法對零中心數據敏感的情況。
* 最小最大縮放 (Normalization):(X - X_min) / (X_max - X_min)。結果數據被縮放到 [0, 1](或其他指定範圍)。它保留了原始數據點之間的相對關係,但最大值和最小值完全由離群值決定,因此對離群值非常敏感。
兩者通常都不會改變分佈的基本形狀(如偏態),也不直接處理類別特徵,且都是可逆變換,不損失資訊。
從日期時間戳(Timestamp)特徵中提取出「星期幾」、「是否為週末」、「小時」等資訊,這屬於特徵工程中的哪個過程?
A
特徵選擇 (Feature Selection)
B
特徵創建/構建 (Feature Creation/Construction)
C
特徵提取 (Feature Extraction)
特徵創建或構建是指利用現有的一個或多個原始特徵,透過組合、轉換或分解等方式,生成新的、可能更有預測能力的特徵。從日期時間戳中提取出具有周期性或特定含義的組件(如星期、月份、小時、是否假日等)是典型的特徵創建過程,因為這些新特徵往往比原始的時間戳更能直接反映潛在的模式(例如,週末的銷售額可能不同於工作日)。特徵選擇是從現有特徵中挑選子集。特徵提取是將高維特徵轉換為低維表示(如PCA)。特徵縮放是改變特徵的數值範圍。
遞迴特徵消除(Recursive Feature Elimination, RFE)屬於哪種類型的特徵選擇方法?
RFE 是一種典型的封裝法 (Wrapper Method)。封裝法的特點是利用一個特定的機器學習模型來評估不同特徵子集的效能。RFE 的工作流程是:首先使用所有特徵訓練一個模型,然後根據模型給出的特徵重要性(或係數)對特徵進行排序,移除最不重要的特徵。接著,使用剩餘的特徵重新訓練模型,再次移除最不重要的特徵。這個過程遞迴地進行,直到達到預定的特徵數量或模型效能不再提升。因為它需要反覆訓練模型來評估特徵,所以屬於封裝法。
主成分分析(Principal Component Analysis, PCA)在降維時,選擇主成分的依據是?
B
能夠解釋原始數據變異量 (Variance) 最大
PCA 的目標是找到一組新的正交基 (主成分),使得數據在這些基上的投影(即轉換後的新特徵)的變異數最大化。第一個主成分對應數據變異最大的方向,第二個主成分對應與第一個正交的方向中變異次大的方向,依此類推。選擇主成分的依據是其對應的特徵值大小,特徵值越大,表示該主成分解釋的原始數據變異量越多。通常我們會選擇累積解釋變異量達到一定比例(如 95% 或 99%)的前 K 個主成分來進行降維。PCA 是無監督的,不考慮目標變數(A 錯)。主成分之間是正交的,相關性為零(D 錯)。
在自然語言處理 (Natural Language Processing, NLP) 中,TF-IDF (Term Frequency-Inverse Document Frequency) 是一種常用的技術,其主要作用是?
B
評估一個詞語對於一份文件集或一個語料庫中的一份文件的重要程度,常用於文本特徵提取
TF-IDF 是一種統計方法,用於量化一個詞語 (Term) 在文件集 (Corpus) 中對於某份文件 (Document) 的重要性。它由兩部分組成:
* 詞頻 (Term Frequency, TF):一個詞語在單份文件中出現的頻率。TF 越高,表示該詞語在該文件中越常見。
* 逆向文件頻率 (Inverse Document Frequency, IDF):衡量一個詞語普遍性的指標,計算方式通常是 log(文件總數 / 包含該詞語的文件數 + 1)。如果一個詞語在很多文件中都出現,其 IDF 值會較低;反之,如果只在少數文件中出現,IDF 值會較高。
TF-IDF 值是 TF 和 IDF 的乘積。一個詞語的 TF-IDF 值越高,表示它在該文件中既常見(高 TF),又在整個文件集中相對稀有(高 IDF),因此更能代表該文件的內容特性。TF-IDF 常被用來將文本轉換為數值向量,作為機器學習模型的輸入特徵。
在進行特徵工程時,需要警惕「數據洩漏」(Data Leakage)問題,它指的是什麼?
B
在模型訓練過程中,意外地使用了未來才能獲取或與目標變數直接相關的資訊,導致模型效能評估過於樂觀
數據洩漏是指在建立預測模型時,使用了在實際預測情境中無法獲得的資訊來訓練模型或進行特徵工程。這會導致模型在訓練集或驗證集上表現異常好,但在實際部署到新數據時效能急劇下降。常見的數據洩漏來源包括:
* 目標洩漏 (Target Leakage):特徵包含了與目標變數直接相關的資訊,而這些資訊在預測時是未知的(例如,預測客戶是否流失,卻使用了一個表示「已流失客戶標記」的特徵)。
* 時間洩漏 (Temporal Leakage):在時間序列問題中,使用了未來的數據來預測過去或現在(例如,隨機劃分時間序列數據)。
* 預處理洩漏:在劃分訓練集和測試集之前,就對整個數據集進行了某些預處理(如標準化、缺失值填補),導致測試集的資訊「洩漏」到了訓練過程中。
避免數據洩漏對於建立可靠的預測模型至關重要。
當數據集中存在類別不平衡問題時,下列哪項評估指標可能給出誤導性的結果?
準確率衡量的是模型預測正確的樣本佔總樣本的比例。在類別極度不平衡的情況下(例如 99% 的樣本屬於負類,1% 屬於正類),一個簡單地將所有樣本都預測為負類的「無腦」模型也能達到 99% 的準確率。然而,這個模型對於識別正類(通常是我們更關心的少數類)的能力為零(召回率為0)。因此,在類別不平衡時,單純依賴準確率會給出非常誤導性的評估結果。精確率, 召回率, F1-score, AUC 等指標更能反映模型在處理不平衡數據時的真實效能。
對類別型特徵進行獨熱編碼(One-Hot Encoding)可能導致的主要問題是?
B
當原始特徵的類別數量非常多時,會導致特徵維度急劇增加(維度災難)
獨熱編碼為原始類別特徵中的每個唯一類別創建一個新的二元特徵。如果一個類別特徵包含 M 個不同的類別,獨熱編碼後會產生 M 個新的特徵欄位(或者 M-1 個,如果使用 drop='first' 避免完全共線性)。當 M 非常大時(例如,郵遞區號、使用者 ID),獨熱編碼會導致特徵空間的維度急劇膨脹,增加模型的計算複雜度和記憶體需求,並可能引發維度災難問題,影響模型效能。在這種情況下,可能需要考慮其他編碼方式,如雜湊編碼、目標編碼或使用嵌入(Embedding)層。
假設有兩個特徵:身高(公分)和體重(公斤),創建一個新的特徵「身體質量指數」(Body Mass Index, BMI = 體重 / (身高/100)²),這屬於特徵工程中的哪種操作?
特徵創建是指從現有特徵中衍生出新的、可能更有意義的特徵。BMI 是一個基於身高和體重兩個原始特徵計算得出的衍生指標,它結合了這兩個特徵的資訊,並且在健康評估等領域具有明確的物理或生理意義(領域知識)。這種透過組合或計算現有特徵來生成新特徵的操作是典型的特徵創建。其他例子包括創建多項式特徵(如 x², y², xy)、比例特徵(x/y)等。
L1 正規化(Lasso Regression)在特徵選擇方面的作用是?
B
可以將不重要特徵的係數壓縮至恰好為零,從而實現自動特徵選擇
L1 正規化在損失函數中添加了模型係數絕對值之和的懲罰項(λ * Σ|βᵢ|)。這種懲罰方式的一個重要特性是,它傾向於產生稀疏解 (Sparse Solution),即在優化過程中,許多不重要或冗餘特徵的係數會被精確地壓縮到零。因此,L1 正規化不僅可以防止過擬合,還可以作為一種嵌入式 (Embedded) 的特徵選擇方法,自動篩選掉影響力較小的特徵。相比之下,L2 正規化 (Ridge Regression) 添加的是係數平方和的懲罰項,它會使係數趨近於零但通常不會恰好等於零。
與 PCA 相比,線性判別分析(Linear Discriminant Analysis, LDA)作為一種降維技術,其主要區別在於?
B
PCA 是無監督的,只考慮數據變異性;LDA 是有監督的,旨在找到最能區分類別的投影方向
C
PCA 只能降到 2 維,LDA 可以降到任意維度
PCA 和 LDA 都是常用的線性降維技術,但目標不同。PCA 是無監督的,它尋找最大化數據變異數的投影方向,不考慮數據的類別標籤。LDA 則是有監督的(常用於分類前的降維),它尋找能夠最大化類間距離(不同類別中心點的距離)同時最小化類內距離(同類別樣本的分散程度)的投影方向。換句話說,LDA 旨在找到最有利於區分不同類別的特徵子空間。因此,LDA 通常在分類任務中效果更好,但它需要數據具有類別標籤,並且降維後的維度最多為 C-1(C 為類別數量)。兩者通常都對數據縮放敏感。
在處理圖像數據進行機器學習時,常用的一種特徵工程/提取方法是?
B
使用預訓練的卷積神經網路 (Convolutional Neural Network, CNN) 提取深層特徵
直接使用原始像素作為特徵通常效果不佳,因為缺乏對空間結構和抽象模式的表達。卷積神經網路 (CNN) 被證明在學習圖像的層次化特徵方面非常有效。利用在大型圖像數據集(如 ImageNet)上預訓練好的 CNN 模型(如 ResNet, VGG, EfficientNet),將其作為特徵提取器是一種非常常見且有效的遷移學習方法。通常的做法是移除預訓練模型的最後分類層,將前面某個卷積層或全連接層的輸出作為圖像的固定維度特徵向量,然後將這些向量用於訓練下游任務的模型(如 SVM、邏輯回歸或其他小型網路)。TF-IDF 用於文本。獨熱編碼像素值不可行。平均像素值丟失了太多資訊。
在特徵工程中,「目標編碼」(Target Encoding) 的主要風險是?
目標編碼是一種將類別特徵轉換為數值特徵的方法,它使用該類別對應的目標變數的平均值(或其他統計量)來進行編碼。例如,對於「城市」特徵,可以用該城市居民的平均收入來編碼。這種方法可以有效地捕捉類別與目標之間的關係,並且不會增加特徵維度。然而,它有一個主要風險:如果直接使用包含當前樣本的目標值來計算編碼,會導致嚴重的目標洩漏,模型在訓練時「看到」了答案。即使排除了當前樣本,對於出現頻率很低的類別,其目標編碼值也會非常不穩定,容易導致模型過擬合這些低頻類別。因此,使用目標編碼時需要採用一些正則化技巧(如添加平滑、使用交叉驗證摺內的目標均值)來降低過擬合風險。
描述性統計(Descriptive Statistics)在數據理解階段的作用是?
B
總結和描述數據集的主要特徵,如集中趨勢、離散程度和分佈形狀
描述性統計是用來整理、總結和呈現數據基本特徵的方法。它不涉及從樣本推斷總體(那是推論性統計 Inference Statistics 的範疇),也不預測未來或建立因果關係。常見的描述性統計量包括:
* 集中趨勢:平均數 (Mean)、中位數 (Median)、眾數 (Mode)。
* 離散程度:全距 (Range)、變異數 (Variance)、標準差 (Standard Deviation)、四分位距 (IQR)。
* 分佈形狀:偏態 (Skewness)、峰度 (Kurtosis)。
這些統計量有助於快速了解數據的概況。
使用 IQR (Interquartile Range) 方法檢測離群值時,通常將哪些範圍之外的點視為離群值?
C
[Q1 - 1.5*IQR, Q3 + 1.5*IQR]
基於四分位距 (IQR = Q3 - Q1) 的離群值檢測是一種常用的穩健方法。它定義了一個正常範圍:[Q1 - 1.5*IQR, Q3 + 1.5*IQR]。落在這個範圍之外的數據點通常被認為是潛在的離群值 (Mild Outliers)。有時也會使用更嚴格的範圍 [Q1 - 3*IQR, Q3 + 3*IQR] 來檢測極端離群值 (Extreme Outliers)。這種方法常用於繪製箱形圖 (Box Plot)。
下列哪種模型對特徵縮放最為敏感?
KNN 演算法依賴於計算樣本點之間的距離來確定鄰居。如果不同特徵的尺度差異很大(例如,一個特徵範圍是 0-1,另一個是 0-10000),那麼尺度較大的特徵會在距離計算中佔據主導地位,使得尺度較小的特徵幾乎不起作用。因此,在使用 KNN (以及其他基於距離的模型如 SVM、K-Means) 之前,進行特徵縮放(如標準化或最小最大縮放)通常是必要的預處理步驟。基於樹的模型對單調變換不敏感。樸素貝葉斯計算的是條件機率,對尺度也不敏感。
將一個類別特徵(如「城市」)與另一個數值特徵(如「平均交易金額」)進行交互,創建類似「某城市平均交易金額」的新特徵,屬於?
A
特徵創建/交互 (Feature Interaction)
D
數據增強 (Data Augmentation)
特徵交互是指將兩個或多個現有特徵結合起來創建新特徵,以捕捉它們之間的組合效應。例如,將類別特徵「城市」與數值特徵「平均交易金額」結合,計算每個城市的平均交易金額,可以得到一個新的數值特徵,這個新特徵可能比單獨的城市或交易金額更能反映某些模式(如不同城市消費水平的差異)。這種操作屬於特徵創建或特徵交互的範疇。數據增強通常指在不改變標籤的情況下,對現有數據(尤其是圖像、文本)進行變換以擴充數據集。
嵌入法 (Embedded Methods) 進行特徵選擇的特點是?
B
將特徵選擇過程內置於模型訓練過程中,例如 Lasso 回歸或樹模型的特徵重要性
嵌入法將特徵選擇作為模型訓練過程的一部分。模型在訓練時會自動學習哪些特徵是重要的,並可能對不重要的特徵賦予較小的權重甚至零權重。典型的嵌入法包括:
* L1 正規化 (Lasso):如前所述,可以將不重要特徵的係數壓縮為零。
* 基於樹的模型的特徵重要性:像隨機森林、GBDT 等模型在訓練後可以計算每個特徵對於模型預測的貢獻度(例如,基於特徵在所有樹中分裂節點時帶來的平均不純度降低量),可以用這個重要性分數來進行特徵選擇。
嵌入法結合了過濾法和封裝法的優點,既考慮了特徵與模型的關係,計算效率又通常比封裝法高。
自編碼器(Autoencoder)是一種神經網路架構,常用於什麼非監督式學習任務?
自編碼器由一個編碼器 (Encoder) 和一個解碼器 (Decoder) 組成。編碼器將輸入數據壓縮到一個低維的潛在表示 (Latent Representation 或 Code),解碼器則嘗試從這個潛在表示中重構出原始輸入。模型的訓練目標是最小化重構誤差。透過這個過程,中間的潛在表示可以被視為原始數據的一種緊湊的、包含了主要資訊的特徵表示。因此,自編碼器常用於非監督式的特徵提取和降維。此外,如果模型只在正常數據上訓練,那麼當輸入異常數據時,其重構誤差通常會比較大,因此也可以用於異常檢測。
在處理文本數據時,移除「停用詞」(Stop Words)如 "the", "a", "is" 的主要目的是?
B
減少特徵維度,去除對區分文檔內容幫助不大的高頻詞
停用詞是指在文本中頻繁出現但通常不攜帶太多實際語意資訊的詞語,例如冠詞、介詞、代詞、連詞等。在進行文本分析(如文本分類、主題建模)時,這些詞語可能會干擾模型對重要內容詞的識別。移除停用詞是一種常見的文本預處理步驟,可以有效降低特徵空間的維度(因為這些詞不再被視為特徵),並讓模型更專注於那些更能區分不同文檔主題或情感的實詞 (Content Words)。選項C、D也是文本預處理步驟,但目的不同。
為什麼說特徵工程是一個迭代的過程?
B
因為需要根據模型的反饋和對數據更深入的理解,不斷嘗試、評估和改進特徵
特徵工程很少是一次就能完成的任務。它通常是一個需要反覆試驗和調整的迭代過程。數據科學家會先根據初步分析和領域知識創建一組初始特徵,然後使用這些特徵訓練模型並評估其效能。根據模型的表現(例如,哪些特徵重要、誤差分析顯示哪些情況下預測不佳),可以獲得對數據和問題的新見解,進而返回去修改或創建新的特徵,再次訓練和評估模型。這個「特徵工程 -> 模型訓練 -> 效能評估 -> 分析反饋」的循環可能會重複多次,直到達到滿意的模型效能。
數據字典 (Data Dictionary) 在數據準備階段的主要作用是?
B
提供數據集中每個欄位(特徵)的定義、數據類型、取值範圍、含義等元數據信息
數據字典是關於數據的描述性信息集合,即元數據 (Metadata)。它詳細說明了數據集中每個變數(欄位或特徵)的名稱、數據類型(如整數、浮點數、字串、日期)、允許的取值範圍或類別、單位、以及其具體含義和來源等。數據字典對於理解數據、進行有效的數據清洗、特徵工程和模型建立至關重要,有助於確保數據被正確地解釋和使用。
插補(Imputation)是指處理數據中哪類問題的方法?
C
數據不一致 (Inconsistent Data)
D
重複記錄 (Duplicate Records)
插補是處理數據缺失值的常用技術。它的目的是使用估計值來替換數據集中的缺失項。常見的插補方法包括:
* 簡單插補:使用均值、中位數或眾數填補。
* 迴歸插補:使用其他變數建立迴歸模型來預測缺失值。
* K-近鄰插補:使用與缺失樣本相似的 K 個樣本的值來估計缺失值。
* 多重插補 (Multiple Imputation):產生多個可能的插補值,以考慮插補的不確定性。
選擇哪種插補方法取決於數據特性、缺失模式和分析目標。
將類別特徵(如「顏色」:紅、藍、綠)轉換為數值(如 紅=0, 藍=1, 綠=2)的編碼方式稱為?
A
獨熱編碼 (One-Hot Encoding)
D
頻率編碼 (Frequency Encoding)
標籤編碼 (Label Encoding) 是最簡單的類別特徵編碼方式之一。它為每個唯一的類別分配一個唯一的整數。例如,將「紅」、「藍」、「綠」分別映射為 0, 1, 2。這種方法簡單且不增加維度,但如前所述,對於沒有內在順序的名目變數,它會引入虛假的序數關係,可能影響某些模型的效能。
多項式特徵 (Polynomial Features) 的創建主要是為了解決什麼問題?
線性模型(如線性回歸、邏輯回歸)假設特徵與目標之間存在線性關係。如果實際關係是非線性的,直接使用線性模型效果會很差。多項式特徵是透過創建原始特徵的冪次項(如 x², x³)以及不同特徵之間的交互項(如 x*y)來擴展特徵空間。例如,對於原始特徵 x,創建 x² 作為新特徵,那麼線性模型 y = β₀ + β₁x + β₂x² 就能夠擬合拋物線型的關係。透過引入這些非線性項,原本的線性模型就能夠學習和捕捉更複雜的非線性模式。但需要注意,創建過多的多項式特徵容易導致過擬合。
過濾法 (Filter Methods) 進行特徵選擇的主要優點是?
B
計算速度快,獨立於後續模型,不易過擬合特徵選擇過程
過濾法在模型訓練之前獨立進行,僅根據特徵本身的統計特性(如方差、與目標的相關性、互信息等)來評估和選擇特徵。由於不需要訓練模型,其計算成本通常很低,速度快。因為它與後續的學習模型無關,所以選擇的結果泛化性較好,不易因特定模型的偏好而過擬合特徵選擇過程。缺點是它忽略了特徵之間的組合效應,以及特徵與特定模型之間的交互影響,選出的特徵子集不一定是對某個特定模型最優的。
PCA 找到的主成分是否具有直觀的物理解釋?
B
通常不具有直接的物理解釋,因為它們是原始特徵的線性組合
PCA 找到的主成分是原始特徵的線性組合,這些組合是為了最大化解釋數據變異量而數學推導出來的。雖然它們捕捉了數據的主要變化模式,但這些線性組合通常缺乏像原始特徵那樣直接、直觀的物理或業務含義。例如,第一個主成分可能是 0.7*身高 + 0.3*體重 - 0.5*年齡,很難給這個組合一個明確的現實解釋。因此,PCA 雖然是有效的降維工具,但在模型可解釋性方面相對較弱。
在處理時間序列數據時,創建「滯後特徵」 (Lagged Features) 是指?
時間序列數據的特點是當前值可能受到過去值的影響。為了讓監督學習模型(如線性回歸、樹模型)能夠捕捉這種時間依賴性,常用的特徵工程方法是創建滯後特徵。例如,如果要預測時間點 t 的值 y(t),可以將時間點 t-1 的值 y(t-1)、時間點 t-2 的值 y(t-2) 等作為 t 時刻的輸入特徵。這些過去的觀測值就稱為滯後特徵。滯後階數 (lag order) 的選擇很重要。選項C(移動平均)和D(季節性分解)也是時間序列分析的常用技術,但不等同於滯後特徵本身。
為什麼在進行任何數據轉換或特徵工程之前,通常建議先劃分訓練集和測試集?
B
防止測試集的信息洩漏到訓練過程中,確保模型評估的客觀性
D
這樣可以對訓練集和測試集使用不同的特徵工程方法
許多數據預處理和特徵工程步驟(如計算均值/標準差進行標準化、計算最大/最小值進行縮放、計算 TF-IDF 權重、PCA 降維、缺失值插補等)都需要依賴數據的統計特性。如果在劃分數據集之前就對整個數據集進行這些操作,那麼從測試集中獲得的資訊(例如測試集的均值、最大值等)就會影響到訓練數據的轉換方式,這就構成了數據洩漏。模型在訓練時間接利用了測試集的資訊,導致在該測試集上的效能評估偏高,無法真實反映其對全新數據的泛化能力。正確的做法是先劃分訓練集和測試集,然後僅在訓練集上學習轉換所需的參數(如均值、標準差、PCA 變換矩陣等),再將這些學習到的參數應用於訓練集和測試集(以及未來的新數據)。
數據的「粒度」(Granularity)指的是?
數據粒度描述了數據記錄所表示的詳細程度。細粒度 (Fine-grained) 數據表示更詳細的層次(例如,每筆交易記錄、每小時的溫度讀數)。粗粒度 (Coarse-grained) 數據則表示更匯總的層次(例如,每日總銷售額、每月平均溫度)。理解數據的粒度對於正確地進行數據分析和模型建立非常重要,例如,不同粒度的數據可能需要不同的聚合或特徵工程方法。
下列哪項不屬於數據清洗 (Data Cleaning) 的範疇?
數據清洗是數據準備過程中的一個重要環節,旨在識別和修正數據中的錯誤、不一致和不完整之處,以提高數據品質。常見的數據清洗任務包括處理缺失值(A)、識別和處理離群值(B)、糾正數據格式錯誤和不一致性(C)、處理重複記錄等。選擇最終的預測模型(D)則是在數據準備完成後,進行模型訓練和評估的階段。
下列哪種編碼方式最適合只有兩個類別的二元類別特徵(例如「是/否」、「男/女」)?
A
標籤編碼 (Label Encoding) 將其轉換為 0 和 1
B
獨熱編碼 (One-Hot Encoding)
C
頻率編碼 (Frequency Encoding)
D
雜湊編碼 (Hashing Encoding)
對於只有兩個類別的二元特徵,直接使用標籤編碼將其映射為 0 和 1 是最常用且最高效的方式。在這種情況下,標籤編碼不會引入虛假的序數關係,因為只有兩個值。獨熱編碼雖然也可以用(會產生兩個或一個新的二元欄位),但相對冗餘。其他編碼方式對於二元特徵來說通常不是必要的。
特徵工程的目的是讓數據?
機器學習模型通常無法直接處理原始、未經處理的數據。特徵工程的核心目標是將原始數據轉換為一種更適合模型學習的形式,提取或創建出能夠有效反映潛在模式、與預測目標更相關的特徵。好的特徵工程可以顯著提升模型的效能,使得模型更容易學習和做出準確的預測。
以下哪項不是特徵選擇 (Feature Selection) 的好處?
特徵選擇移除不重要、冗餘或不相關的特徵,確實可以帶來多方面的好處:模型變得更簡單、更容易理解(A);需要處理的數據量減少,訓練和預測更快(B);移除了可能引入雜訊或導致共線性的特徵,有助於降低過擬合(C)。然而,特徵選擇並不保證一定能提高模型的預測準確率。如果移除了一些雖然看似不重要但實際上對模型預測有微弱貢獻的特徵,或者選擇方法本身不佳,可能會導致模型效能下降。其主要目標通常是在保持甚至提升效能的同時,降低模型的複雜度。
降維的主要目的是?
降維是指在盡可能多地保留數據集中的重要資訊(如變異性或類別區分性)的前提下,減少數據特徵(變數)的數量。這有助於降低計算複雜度、儲存需求,緩解維度災難,有時也能去除雜訊並提升模型效能。雖然降維後的特徵可能更難解釋(C 錯),但其主要目的不是增加解釋性。
詞嵌入(Word Embedding)如 Word2Vec, GloVe 主要用於將什麼轉換為低維稠密的向量表示?
詞嵌入是自然語言處理中重要的特徵表示技術。傳統的表示方法(如獨熱編碼、TF-IDF)通常維度很高且稀疏,無法捕捉詞語之間的語意關係。詞嵌入技術(如 Word2Vec, GloVe, FastText)旨在將每個詞語映射到一個低維(例如 100 或 300 維)的實數向量(稠密向量),使得語意上相似的詞語在向量空間中也彼此靠近。這些預訓練好的或與模型一同訓練的詞嵌入向量可以作為下游 NLP 任務(如文本分類、情感分析、機器翻譯)的輸入特徵。
為什麼在進行特徵工程時需要考慮業務背景和領域知識?
B
有助於識別真正影響目標變數的因素,創建更有意義和預測能力的特徵
雖然可以僅僅基於數據的統計特性進行特徵工程,但結合對業務問題和相關領域的理解往往能產生更好的效果。領域知識可以幫助我們:
* 判斷哪些原始特徵可能更重要或更相關。
* 理解特徵之間的潛在關係,從而創建有意義的交互特徵或衍生特徵(如 BMI 指數)。
* 識別數據中可能存在的偏差或特殊情況。
* 解釋模型的結果並將其與業務目標聯繫起來。
缺乏領域知識的特徵工程可能創建出統計上相關但實際上無意義或難以解釋的特徵。
數據收集的主要來源不包括?
B
企業內部資料庫 (Internal Databases)
D
模型預測結果 (Model Predictions)
數據收集是獲取用於分析和建模的原始數據的過程。常見來源包括:現成的公開數據集(如政府開放資料、學術研究數據集)、企業自身運營產生的內部數據(如銷售記錄、客戶資料)、透過 API 獲取第三方數據、使用網路爬蟲從網站抓取數據、透過問卷調查或實驗收集數據等。模型預測結果是模型基於輸入數據產生的輸出,不是原始數據的來源。
下列哪個是數據不一致的例子?
C
同一個客戶的地址在不同記錄中寫法不同(例如 "中正路一段" vs. "中正路1段")
數據不一致是指數據表示方式或格式上的矛盾或差異。選項 C 中,同一個地址有多種不同的寫法,這就是典型的不一致問題,需要進行標準化處理。選項 A(年齡為負數)更像是數據錯誤或無效值。選項 B 是缺失值。選項 D 是離群值。
將連續數值特徵(如年齡)轉換為離散的區間(如 "青年", "中年", "老年")的操作稱為?
A
分箱 (Binning) 或離散化 (Discretization)
C
獨熱編碼 (One-Hot Encoding)
D
對數轉換 (Log Transformation)
分箱或離散化是將連續數值特徵劃分成若干個離散區間(或稱為箱子 Bins),並將原始數值替換為其所屬區間的標識(可以是區間本身或序號)的過程。這有助於處理非線性關係、降低雜訊影響,並且使得某些模型(如決策樹、樸素貝葉斯)更容易處理。劃分區間的方式可以等寬 (Equal Width) 或等頻 (Equal Frequency)。
創建表示兩個類別特徵是否同時出現的交互特徵(例如,「是否同時是 VIP 且居住在台北市」),通常使用什麼操作?
B
邏輯與 (AND) 或乘法(對於獨熱編碼後的特徵)
為了捕捉兩個或多個類別特徵同時出現時的特定效應,可以創建它們的交互特徵。如果原始特徵是二元的(0/1),例如獨熱編碼後的特徵,那麼表示它們同時出現的交互特徵可以透過將它們相乘得到(因為 1*1=1, 其他情況為0)。更一般地,可以使用邏輯與 (AND) 操作來判斷多個條件是否同時滿足,從而創建一個新的二元交互特徵。
特徵選擇和特徵提取的主要區別是?
B
特徵選擇是從原始特徵中挑選子集;特徵提取是將原始特徵轉換或組合成新的、通常維度更低的特徵
C
特徵選擇只適用於數值特徵,特徵提取只適用於類別特徵
兩者都是處理高維數據的常用方法,但方式不同:
* 特徵選擇 (Feature Selection):從原始的特徵集合中,選擇出一部分最相關或最重要的特徵,而捨棄其餘特徵。選擇後的特徵仍然是原始特徵。
* 特徵提取 (Feature Extraction):透過某種變換(如線性變換 PCA,或非線性變換 Autoencoder),將原始的高維特徵空間映射到一個新的、通常維度較低的特徵空間。新的特徵是原始特徵的某種組合或變換結果,不再是原始特徵本身。
兩者都旨在減少維度、去除冗餘、提高效能,但實現路徑不同。
下列哪個不是降維技術?
D
獨熱編碼 (One-Hot Encoding)
PCA、LDA、t-SNE 都是常用的降維技術,用於將高維數據轉換為低維表示。獨熱編碼 (One-Hot Encoding) 則是將類別特徵轉換為多個二元特徵的方法,它通常會增加而不是減少數據的維度(除非原始類別只有一個)。
在圖像特徵工程中,顏色直方圖 (Color Histogram) 主要捕捉圖像的什麼資訊?
顏色直方圖是一種簡單但常用的圖像特徵。它統計圖像中每種顏色(或每個顏色區間)的像素數量,從而描述了圖像整體的顏色組成和分佈。顏色直方圖不包含圖像的空間佈局資訊(即哪個顏色出現在哪個位置),只關心顏色的總體統計。它對圖像的旋轉、平移和縮放不敏感。常用於圖像檢索等任務。
進行特徵工程時,創建過多的特徵(尤其是交互特徵或多項式特徵)可能導致什麼問題?
B
模型過擬合 (Overfitting) 和計算成本增加
雖然特徵工程旨在提升模型效能,但盲目地創建大量特徵,特別是高階的交互項或多項式項,會急劇增加模型的複雜度。這使得模型有能力去擬合訓練數據中非常細微的模式甚至雜訊,從而導致嚴重的過擬合問題,降低其泛化能力。同時,特徵數量的增加也會顯著提高模型的訓練時間和記憶體需求。因此,特徵創建需要謹慎,並結合特徵選擇或正規化來控制模型複雜度。
數值型數據和類別型數據的主要區別是?
B
數值型數據代表可測量的數量,具有數學運算的意義;類別型數據代表不同的組別或類別,通常沒有數學順序或大小關係
D
數值型數據只能用於回歸,類別型數據只能用於分類
理解數據類型是數據準備的基礎。數值型數據 (Numerical Data) 表示量化的數值,可以是連續的(如身高、溫度)或離散的(如購買次數、年齡)。它們具有大小順序和進行數學運算(加減乘除、計算平均值等)的意義。類別型數據 (Categorical Data) 表示定性的屬性,將樣本劃分到不同的組別或類別中(如性別、顏色、城市)。它們通常沒有內在的大小順序(名目變數 Nominal)或只有順序關係但不能進行算術運算(序數變數 Ordinal)。不同的數據類型需要不同的處理和建模方法。
下列哪項是特徵工程 (Feature Engineering) 的同義詞或密切相關的概念?
B
模型評估 (Model Evaluation)
C
特徵構建 (Feature Construction) / 特徵表示學習 (Feature Representation Learning)
D
模型部署 (Model Deployment)
特徵工程涵蓋了從原始數據創建、選擇、轉換和提取特徵的過程。特徵構建 (Feature Construction) 或特徵創建 (Feature Creation) 是特徵工程的一個重要組成部分,指從現有特徵衍生新特徵。特徵表示學習 (Feature Representation Learning),特別是深度學習中的自動特徵學習,也可以視為一種廣義的、自動化的特徵工程方式,其目標是學習數據的有效表示。模型訓練、評估和部署則是機器學習流程中後續的不同階段。
使用 PCA 進行降維時,需要預先指定什麼?
B
降維後的目標維度(主成分數量)或希望保留的變異量比例
PCA 本身會計算出與原始特徵數量相同的主成分。但在應用 PCA 進行降維時,我們需要決定要保留多少個主成分。這可以透過兩種方式指定:一是直接指定要保留的主成分數量 K;二是指定一個希望保留的原始數據變異量的比例(例如 95%),PCA 會自動選擇能夠達到該比例所需的最少主成分數量。PCA 是無監督的,不需要類別標籤(A 錯)。它不是迭代優化算法,不需要學習率(D 錯)或隨機數種子(C 錯)。
"Garbage In, Garbage Out" (GIGO) 原則在數據準備和特徵工程中強調了什麼的重要性?
B
輸入數據的品質直接決定了輸出結果(模型效能)的品質
GIGO 原則說明了數據品質對於任何數據分析或機器學習專案的基礎性作用。如果輸入到模型的數據(包括原始數據和經過工程處理的特徵)品質低劣(包含錯誤、缺失、偏差、不相關資訊等「垃圾」),那麼即使使用再先進的模型,其輸出的結果(預測、洞察)也必然是不可靠的(也是「垃圾」)。因此,在數據準備和特徵工程階段投入足夠的精力來確保數據的品質、相關性和適用性至關重要,這往往比模型選擇本身更能影響最終結果。