iPAS AI應用規劃師 經典題庫

L22402 大數據在鑑別式AI中的應用
出題方向
1
基礎概念與大數據特性
2
大數據前處理與特徵工程
3
適用於大數據的鑑別式模型
4
分散式訓練與計算框架
5
模型評估與挑戰
6
鑑別式AI在大數據應用案例
7
資料品質與可解釋性
8
工具平台與未來趨勢
#1
★★★★★
人工智慧領域中,鑑別式模型Discriminative Model)的主要目標是什麼?
A
學習輸入資料的機率分佈 P(X)
B
學習給定輸入資料 X 時,輸出 Y條件機率 P(Y|X)直接學習決策邊界
C
根據學習到的分佈生成新的資料樣本
D
找出資料中的潛在結構或分群
答案解析
鑑別式模型專注於學習不同類別之間的區別或預測特定輸出。它們通常直接模擬 P(Y|X),即在給定輸入 X 的情況下,預測輸出 Y 的機率,或者直接學習一個函數將輸入映射到輸出(如分類邊界)。選項A和C描述的是生成式模型Generative Model)的目標。選項D描述的是非監督式學習(如分群)的目標。常見的鑑別式模型包括邏輯迴歸支持向量機(SVM)、決策樹、以及用於分類任務的神經網路
#2
★★★★
大數據的「多樣性」(Variety)特性對鑑別式AI模型訓練帶來的主要挑戰是什麼?
A
需要極大的儲存空間
B
需要更快的處理速度以應對即時性要求
C
需要整合與處理來自不同來源、不同格式結構化半結構化非結構化)的資料
D
難以確保所有資料的真實性與準確性
答案解析
大數據Variety 特性指的是數據來源和格式的多樣化,例如結構化資料庫表格、半結構化JSON/XML 檔案、以及非結構化的文字、圖像、聲音、影片等。鑑別式模型通常需要數值化的特徵輸入,因此處理和整合這些異構資料,將其轉換為模型可用的統一格式,是 Variety 帶來的核心挑戰。選項A主要關聯 Volume(容量),選項B關聯 Velocity(速度),選項D關聯 Veracity真實性)。
#3
★★★★
在處理用於鑑別式模型訓練的大數據時,特徵縮放Feature Scaling)的主要目的是什麼?
A
減少特徵的數量以降低計算複雜度
B
確保不同範圍的特徵對模型的影響程度不會因其數值大小而產生偏差
C
類別型特徵轉換為數值型特徵
D
增加資料的維度以提升模型效能
答案解析
許多鑑別式模型(如基於距離的SVM邏輯迴歸梯度下降優化的神經網路等)對輸入特徵尺度Scale)很敏感。如果不同特徵的數值範圍差異很大(例如,年齡範圍是幾十,收入範圍是幾十萬),數值範圍較大的特徵可能會不成比例地主導模型的學習過程。特徵縮放(如標準化 Standardization歸一化 Normalization)將所有特徵縮放到相似的範圍,避免這種偏差,有助於模型更快、更穩定地收斂。選項A是特徵選擇降維的目的。選項C是類別編碼的目的。選項D與目的相反。
#4
★★★★★
下列哪種鑑別式模型特別適合處理具有非線性關係資料量龐大分類問題?
A
線性迴歸 (Linear Regression)
B
K-近鄰演算法 (K-Nearest Neighbors, KNN)
C
深度神經網路 (Deep Neural Network, DNN)
D
主成分分析 (Principal Component Analysis, PCA)
答案解析
深度神經網路DNN)通過其多層非線性轉換,能夠學習非常複雜的非線性模式,非常適合處理複雜的分類迴歸問題。同時,DNN 可以利用大數據進行訓練,透過大量資料學習到更精確的模式。線性迴歸用於迴歸問題且假設線性關係。KNN 雖然能處理非線性,但在大數據下預測成本高(需計算與所有訓練點的距離)。PCA非監督式降維方法,不是鑑別式分類模型
#5
★★★★
分散式機器學習框架(如 Apache Spark MLlib)中,使用大數據訓練鑑別式模型時,資料平行化Data Parallelism)通常如何實現?
A
將模型複製多份,每份處理不同的特徵子集
B
大型資料集分割成多個子集,分配到不同計算節點上,每個節點使用相同的模型處理其分配到的資料子集
C
將模型的不同層分配到不同的計算節點上處理
D
只在單一主節點上處理所有資料,但使用多核心加速
答案解析
資料平行化是處理大數據的關鍵策略。它將龐大的資料集切分成小塊partitions or splits),分發到叢集中的多個工作節點worker nodes)。每個工作節點上運行著一份模型的副本(或模型的一部分狀態),並獨立地處理分配給它的資料子集(例如計算局部梯度)。然後,各節點的計算結果會被匯總(如梯度聚合)以更新全域模型參數。選項A更接近某些特徵平行化的概念。選項C描述的是模型平行化Model Parallelism),通常用於模型本身非常大,無法放入單一節點記憶體的情況。選項D不是分散式處理
#6
★★★★
當使用大數據訓練鑑別式分類模型時,若資料集中存在嚴重的類別不平衡Class Imbalance)問題,直接使用準確率Accuracy)作為評估指標可能會有什麼問題?
A
模型可能僅僅預測多數類別就能獲得很高的準確率無法真實反映對少數類別的辨識能力
B
準確率計算過於複雜,不適用於大數據
C
準確率無法處理多類別分類問題
D
準確率指標本身對資料規模非常敏感
答案解析
類別不平衡指不同類別的樣本數量差異懸殊。例如,在詐欺偵測中,正常交易(多數類)遠多於詐欺交易(少數類)。如果模型總是預測為正常交易,即使它完全無法辨識出任何詐欺交易,其準確率也可能非常高(例如99%),因為它正確分類了大部分的正常交易。這顯然無法反映模型在關鍵的少數類別上的表現。在這種情況下,應使用如精確率Precision)、召回率Recall)、F1分數(F1-Score)、AUCArea Under the ROC Curve)等對類別不平衡更魯棒的指標。
#7
★★★★★
在電子商務平台中,利用大量使用者歷史行為數據(點擊、瀏覽、購買)來預測使用者可能點擊或購買某商品的機率,這屬於哪種結合大數據鑑別式AI應用?
A
自然語言處理 (Natural Language Processing, NLP)
B
電腦視覺 (Computer Vision)
C
推薦系統 (Recommender System) 中的點擊率預估 (Click-Through Rate, CTR Prediction) 或轉換率預估
D
異常檢測 (Anomaly Detection)
答案解析
推薦系統是利用大數據分析使用者行為和偏好的典型應用。點擊率CTR)預估或轉換率CVR)預估是推薦系統中的核心任務之一,其目標是建立一個鑑別式模型(如邏輯迴歸因子分解機深度學習模型)來預測使用者對特定推薦項目(商品、廣告等)產生互動(點擊、購買)的可能性。這是一個典型的利用大量歷史數據進行監督式學習分類迴歸問題。NLP主要處理文字,電腦視覺處理圖像/影片,異常檢測關注找出罕見模式。
#8
★★★★
面對大數據集中的高維度特徵High-Dimensional Features),在訓練鑑別式模型前,進行降維Dimensionality Reduction)的主要好處不包含下列哪項?
A
減少模型的訓練時間與計算資源需求
B
緩解「維度災難」(Curse of Dimensionality)問題,可能有助於提升模型泛化能力
C
去除冗餘或不相關的特徵
D
保證能找到原始資料中所有潛在的非線性關係
答案解析
降維技術(如主成分分析 PCA線性判別分析 LDAt-SNE等)旨在將高維度數據轉換為低維度表示,同時盡可能保留重要資訊。其好處包括:減少計算量、緩解維度災難(高維空間數據稀疏,模型難以學習)、去除雜訊和冗餘特徵、有助於資料視覺化。然而,降維過程本身可能會損失部分資訊,特別是非線性降維方法雖然能捕捉非線性結構,但不能保證找到 *所有* 潛在的非線性關係,且線性降維方法(如PCA)主要捕捉線性關係。因此,D選項的「保證」過於絕對,不是降維的主要好處或能力。
#9
★★★
大數據的「真實性」(Veracity)問題,即數據中可能包含雜訊、錯誤、不一致或缺失值,對鑑別式AI模型的訓練可能產生什麼負面影響?
A
模型訓練速度會顯著加快
B
模型可能學習到錯誤的模式,導致預測準確性下降泛化能力變差
C
模型一定會變得更加複雜
D
只需要增加資料量就可以完全克服此問題
答案解析
數據品質機器學習成功的基石。「Garbage in, garbage out。」如果訓練數據的真實性存疑,包含大量錯誤或雜訊鑑別式模型在學習過程中可能會被這些不可靠的數據誤導,學習到虛假的關聯或模式,導致其在未見過的新數據上的表現(泛化能力)不佳,預測結果不準確。雖然大數據本身可能包含冗餘資訊,有一定程度的抗噪能力,但嚴重的 Veracity 問題仍會顯著影響模型效能。增加資料量可能有幫助,但不能完全替代數據清理和質量控制。
#10
★★★★
Apache Spark 是一個常用於大數據處理與分析的框架,其 MLLib 函式庫提供了多種機器學習演算法。相較於傳統的 Hadoop MapReduceSpark 主要的優勢是什麼,使其更適合迭代式機器學習演算法(如許多鑑別式模型的訓練過程)?
A
僅支援 Python 語言
B
基於記憶體的運算(In-Memory Computing),大幅減少了迭代過程中的磁碟讀寫開銷
C
完全不需要進行資料前處理
D
只能處理結構化資料
答案解析
許多機器學習演算法(尤其是優化過程,如梯度下降)需要多次迭代處理數據。傳統的 Hadoop MapReduce 在每次迭代之間需要將中間結果寫入磁碟(HDFS)再讀出,造成大量的 I/O 開銷。Spark 引入了彈性分散式資料集Resilient Distributed Dataset, RDD)和後來的 DataFrame/Dataset API,允許將數據和中間結果緩存在記憶體中,極大地加速了需要多次數據掃描和迭代計算的任務,使其非常適合機器學習應用。Spark 支援多種語言(Scala, Java, Python, R),需要資料前處理,也能處理多種格式的資料。
#11
★★★★
下列哪個鑑別式模型在處理大數據時,可以透過核技巧Kernel Trick)有效處理高維空間非線性分類問題,但在資料量極大時訓練可能較慢?
A
邏輯迴歸 (Logistic Regression)
B
支持向量機 (Support Vector Machine, SVM)
C
樸素貝氏分類器 (Naive Bayes Classifier)
D
線性判別分析 (Linear Discriminant Analysis, LDA)
答案解析
支持向量機SVM)通過最大化類別間的邊界(Margin)來進行分類。核技巧允許 SVM 在不顯式計算高維座標的情況下,學習高維空間中的非線性決策邊界,非常強大。然而,標準的 SVM 訓練複雜度與樣本數的平方或立方相關,當資料量(樣本數)非常大時,訓練會變得非常耗時和消耗資源,需要使用近似算法或特定為大數據設計的變種(如 Pegasos)。邏輯迴歸線性模型(或需手動加非線性特徵)。Naive BayesLDA 通常計算效率較高,但模型假設較強。
#12
★★★
分散式環境下使用大數據訓練鑑別式模型時,「梯度下降」(Gradient Descent)的哪種變體最常被用於處理分佈在不同節點上的資料?
A
批次梯度下降 (Batch Gradient Descent, BGD)
B
小批次隨機梯度下降 (Mini-batch Stochastic Gradient Descent, Mini-batch SGD)
C
牛頓法 (Newton's Method)
D
共軛梯度法 (Conjugate Gradient)
答案解析
批次梯度下降BGD)需要計算整個資料集的梯度,在大數據下不可行。隨機梯度下降SGD)每次只用一個樣本,變異性大,不易平行化。小批次隨機梯度下降Mini-batch SGD)是介於兩者之間的折衷,每次使用一小批資料計算梯度。這既利用了 SGD 的隨機性優點(跳出局部最優),又能利用現代硬體的平行計算能力(如 GPU 加速處理一個批次),並且非常適合分散式環境:每個節點可以計算分配給它的一或多個 Mini-batch 的梯度,然後進行同步或非同步更新。牛頓法和共軛梯度法是其他優化方法,計算成本通常更高。
#13
★★★
大數據背景下評估鑑別式模型時,交叉驗證Cross-Validation)的主要挑戰是什麼?
A
無法提供模型效能的無偏估計
B
重複訓練模型多次計算成本非常高昂
C
只能用於二元分類問題
D
無法處理時間序列資料
答案解析
交叉驗證(如 K-摺交叉驗證)是一種常用的模型評估方法,它將數據分成 K 份,輪流使用 K-1 份訓練,1 份驗證,重複 K 次。這能提供更穩健的模型效能估計。然而,在大數據集上,這意味著需要將複雜的模型重複訓練 K 次,每次訓練都可能非常耗時,導致總體的計算成本極高。因此,在大數據場景下,有時會採用簡化的驗證策略,如單次的訓練/驗證/測試集劃分,或使用特定的分散式交叉驗證方法。交叉驗證本身能提供較無偏的估計,可用於多類別問題,也有適用於時間序列的版本。
#14
★★★★
利用海量的社群媒體文字資料,訓練模型來判斷每條訊息的情感傾向(正面、負面、中性),這主要是應用了大數據在哪個鑑別式AI任務上?
A
情感分析 (Sentiment Analysis) 或意見探勘 (Opinion Mining)
B
機器翻譯 (Machine Translation)
C
命名實體辨識 (Named Entity Recognition, NER)
D
主題模型 (Topic Modeling)
答案解析
情感分析自然語言處理NLP)中的一個典型任務,旨在自動辨識和提取文本資料中表達的情感、觀點或評價。這通常被建模為一個分類問題(鑑別式任務),即將文字分為預定義的情感類別。利用大數據(如海量社群媒體貼文、產品評論)可以訓練出更準確、更能捕捉細微情感差異的模型。機器翻譯是語言轉換,NER是辨識特定實體(人名、地名等),主題模型非監督式地發現文本集中的主題。
#15
★★★★
在金融領域使用大數據訓練鑑別式模型進行信用評分詐欺偵測時,模型的可解釋性Interpretability)為何重要?
A
可以讓模型訓練速度更快
B
可以顯著降低模型的儲存需求
C
有助於滿足法規要求(如解釋拒絕信貸的原因)、建立信任、以及發現潛在的偏見
D
可解釋性越強,模型的預測準確率一定越高
答案解析
在金融等高風險、受監管的領域,僅有高準確率的模型是不夠的。監管機構可能要求解釋模型做出特定決策(如拒絕貸款)的原因。理解模型決策邏輯有助於使用者(如信貸員、客戶)信任模型結果。同時,可解釋性分析有助於檢查模型是否基於不公平或歧視性的因素做出判斷(例如,是否存在對特定人群的偏見)。雖然複雜的黑盒子模型(如深度學習)可能準確率更高,但其可解釋性差,限制了它們在這些場景的直接應用或需要額外搭配可解釋性技術XAI)。可解釋性準確率之間往往存在一定的權衡。
#16
★★★
TensorFlowPyTorch 是當前流行的深度學習框架,它們如何支持使用大數據訓練鑑別式模型
A
內建了完整的資料庫管理系統
B
只能在單一機器上運行
C
提供資料載入與處理工具、支援 GPU 加速、並具備分散式訓練能力
D
主要用於非監督式學習,不適用於鑑別式模型
答案解析
TensorFlowPyTorch 雖然本身不是大數據儲存或管理系統,但它們提供了高效的資料載入和預處理管道(如 tf.data, PyTorch DataLoader),能夠處理大型資料集。它們的核心優勢在於能充分利用 GPU 進行大規模平行計算,極大加速深度學習模型的訓練。此外,兩者都提供了進行分散式訓練API和工具(如 tf.distribute.Strategy, PyTorch DistributedDataParallel),允許將模型訓練擴展到多個機器或多個 GPU 上,從而能夠處理超出單機能力的大數據和/或大模型。它們廣泛用於訓練各種鑑別式模型(如分類器)。
#17
★★
大數據的「即時性」(Velocity)對鑑別式AI應用(例如,即時詐欺偵測)的主要需求是什麼?
A
模型需要能夠離線批量處理歷史數據
B
模型需要能夠快速對新進的串流資料進行推論Inference)並做出決策
C
模型必須使用非監督式學習方法
D
需要將所有資料儲存在單一大型伺服器中
答案解析
Velocity 指的是數據生成和流動的速度很快。在需要即時反應的應用場景(如線上交易的詐欺偵測、即時推薦、監控系統異常檢測等),鑑別式模型不僅要在歷史數據上訓練好,還必須能夠在新的數據點(如一筆交易)到達時,以非常低的延遲進行預測推論),以便及時採取行動(如阻止交易、更新推薦)。這對模型的推論效率和部署架構(如使用串流處理框架 Kafka, Flink, Spark Streaming)提出了很高要求。離線批量處理適用於模型訓練或非即時分析。
#18
★★★
在處理用於鑑別式模型訓練的大數據時,如果遇到類別型特徵Categorical Features)具有非常多可能的類別(High Cardinality),例如使用者ID或商品ID,直接使用獨熱編碼One-Hot Encoding)可能會有什麼問題?
A
會損失所有類別資訊
B
會導致特徵維度急遽增加,產生非常稀疏的資料,增加計算和儲存負擔
C
無法處理超過10個類別的特徵
D
會將類別間引入錯誤的順序關係
答案解析
獨熱編碼One-Hot Encoding)將每個類別轉換為一個二元向量,向量長度等於總類別數,只有對應類別的位置為1,其餘為0。如果一個類別特徵有成千上萬甚至百萬個可能的取值(如使用者ID),獨熱編碼會產生一個維度極高且極其稀疏(大部分元素為0)的特徵向量。這不僅會大幅增加模型的輸入維度,帶來儲存和計算上的挑戰(尤其在大數據背景下),也可能因資料稀疏性影響某些模型的學習效果。在這種情況下,常會考慮使用其他編碼方法,如特徵雜湊Feature Hashing)或嵌入Embeddings)。
#19
★★★★
集成學習Ensemble Learning)中的隨機森林Random Forest)如何適應大數據鑑別式分類任務?
A
它是一個單一的深度神經網路
B
可以透過平行化訓練多棵決策樹,並且對特徵和樣本進行抽樣來處理高維度大數據
C
只能處理線性可分的資料
D
需要將所有資料載入單一機器的記憶體中才能訓練
答案解析
隨機森林是構建多棵決策樹並將它們的預測結果進行整合(如投票)的集成方法。其優勢在於:1) 每棵樹的訓練相對獨立,非常適合平行化處理,可以分佈到不同機器或核心上訓練,加速處理大數據。2) 它在構建每棵樹時,會對訓練樣本進行隨機抽樣Bootstrap aggregating, or Bagging),並在每個節點分裂時只考慮隨機抽樣的一部分特徵,這使得它對高維度資料和資料中的雜訊具有較好的穩健性,並且能夠有效利用大數據隨機森林能處理非線性問題,且分散式實現不要求所有資料都在單機記憶體。
#20
★★★
參數伺服器Parameter Server)架構中,使用大數據進行分散式訓練鑑別式模型時,伺服器節點Server Nodes)的主要職責是什麼?
A
執行資料的前處理與特徵工程
B
負責實際的模型計算與梯度生成
C
儲存和管理模型的全域參數,並處理來自工作節點的參數更新請求
D
負責最終的模型評估與部署
答案解析
參數伺服器是一種常見的分散式機器學習架構。它將計算節點分為兩類:工作節點Worker Nodes)和伺服器節點Server Nodes)。工作節點負責讀取分配到的資料、進行模型計算(如前向傳播、反向傳播、梯度計算),然後將計算出的梯度或參數更新發送到伺服器節點伺服器節點則負責維護模型的最新的全域參數,接收來自多個工作節點的更新,進行聚合(如求平均),並將更新後的參數廣播回工作節點供下一輪計算使用。
#21
★★★★
當使用大數據訓練鑑別式模型時,觀察到訓練集上的效能(例如,準確率)持續提高,但驗證集上的效能達到某個點後開始下降,這種現象稱為什麼?
A
欠擬合 (Underfitting)
B
過度擬合 (Overfitting)
C
資料漂移 (Data Drift)
D
模型收斂 (Convergence)
答案解析
過度擬合Overfitting)是指模型在訓練數據上表現過好,學習到了訓練數據中的雜訊或特定模式,但這些模式無法推廣到未見過的新數據(如驗證集測試集)。其典型表現就是訓練效能持續提升,而驗證效能停滯甚至下降欠擬合Underfitting)是指模型過於簡單,未能充分學習到訓練數據中的模式,導致訓練和驗證效能都較差。資料漂移指數據分佈隨時間發生變化。模型收斂指訓練過程達到穩定狀態。在大數據下,雖然數據量大有助於緩解過度擬合,但如果模型過於複雜或訓練時間過長,仍然可能發生過度擬合
#22
★★★
醫療領域利用大量的病患電子病歷Electronic Health Records, EHR)數據,訓練鑑別式模型預測病患未來罹患某種疾病(如糖尿病)的風險,這體現了大數據鑑別式AI的哪個應用方向?
A
藥物發現 (Drug Discovery)
B
疾病風險預測與早期診斷輔助
C
醫療影像自動分割 (Image Segmentation)
D
個人化健身計畫推薦
答案解析
利用結構化(如檢驗數值、用藥記錄)和非結構化(如醫生筆記)的電子病歷大數據,訓練模型(如邏輯迴歸隨機森林RNN/LSTM處理時序資訊)來辨識可能導致未來疾病的風險因子組合,並預測個體病患的發病風險,是鑑別式AI在醫療領域的重要應用。這有助於醫生進行早期干預和預防。藥物發現通常涉及更複雜的分子模擬或生成模型影像分割電腦視覺任務。健身計畫推薦雖也可能用到大數據,但與醫療診斷不同。
#23
★★★
當使用大數據訓練鑑別式模型時,如果不同來源的資料在合併時存在格式或語意上的不一致(例如,日期格式不同,或「性別」欄位有「男/女」、「M/F」、「1/0」等多種表示),這主要涉及到大數據的哪個品質維度問題?
A
完整性 (Completeness)
B
及時性 (Timeliness)
C
一致性 (Consistency)
D
獨特性 (Uniqueness)
答案解析
數據一致性指的是數據在不同記錄、不同表格或不同系統之間是否遵循相同的標準和定義。當合併來自異構來源的大數據時,常常會遇到表示同一概念卻使用不同格式或代碼的情況,這就是一致性問題。在將這些數據餵給鑑別式模型之前,必須進行清理轉換,將它們統一成標準格式,否則模型可能無法正確理解和利用這些資訊。完整性指數據是否存在缺失及時性指數據是否足夠新。獨特性指是否存在重複記錄
#24
★★
H2O.ai 是一個開源的機器學習AI平台,它針對大數據環境下的鑑別式模型訓練提供了哪些特性?
A
只能運行在單一筆記型電腦上
B
提供可擴展的分散式記憶體內運算,並實作了多種常用的機器學習演算法(如GBM, AutoML
C
主要專注於自然語言生成任務
D
不支援任何形式的資料視覺化
答案解析
H2O.ai 平台的核心設計就是為了在分散式環境(如 HadoopKubernetes 叢集)中高效處理大數據。它採用記憶體內In-Memory)運算架構,類似於 Spark,以加速計算。H2O 內建了多種高效能的機器學習演算法實作,特別是其梯度提升機Gradient Boosting Machine, GBM)、深度學習以及自動化機器學習AutoML)功能,非常適合用於建立高效能的鑑別式模型。它支援多種介面(Python, R, Web UI),並非僅限單機,也非專注於生成任務。
#25
★★★★
相較於生成式模型Generative Model),鑑別式模型大數據應用中的一個主要優勢通常是什麼?
A
能夠生成逼真的新數據樣本
B
更容易處理資料缺失的情況
C
分類迴歸預測任務上,通常能達到更高的準確率
D
更容易理解資料的潛在分佈
答案解析
鑑別式模型直接專注於學習輸入到輸出的映射關係或類別間的決策邊界,其目標就是最大化預測的準確性。相比之下,生成式模型需要學習數據的完整聯合分佈 P(X,Y),這通常是一個更困難的任務。因此,在給定足夠數據(尤其大數據)的情況下,鑑別式模型往往能在特定的預測任務(如分類迴歸)上取得比生成式模型更好的效能。生成數據是生成式模型的長處。處理缺失值和理解分佈則各有方法,不一定是鑑別式模型的絕對優勢。
#26
★★★★
大數據背景下進行特徵工程Feature Engineering)時,自動特徵生成Automated Feature Generation)技術(例如使用深度學習模型自動學習表示)相較於手動特徵工程的主要潛在好處是什麼?
A
總是能產生可解釋性最高的特徵
B
可能發現人類專家難以想到的複雜高階交互特徵減少對領域知識的依賴
C
計算成本總是遠低於手動特徵工程
D
生成的特徵數量一定比原始特徵
答案解析
手動特徵工程需要依賴領域專家的知識和經驗來設計有效的特徵,這在高維度、複雜的大數據上可能非常耗時且不全面。深度學習等模型能夠從原始數據中自動學習分層次的特徵表示Representation Learning),可能捕捉到人難以發現的高階非線性交互關係,從而提升模型效能,並減少對手動設計特徵的依賴。然而,自動學習到的特徵通常可解釋性較差(選項A錯誤)。自動學習過程計算成本可能很高(選項C錯誤)。生成的特徵維度可能增加(如在中間層)或減少(如在瓶頸層),不一定變少(選項D錯誤)。
#27
★★★
梯度提升決策樹Gradient Boosting Decision Tree, GBDT)是一種強大的鑑別式模型,它在大數據應用上相較於單一決策樹的主要優勢是什麼?
A
模型結構非常簡單,易於解釋
B
透過逐步增加新的樹來修正先前樹的錯誤,通常能達到更高的預測精度
C
訓練速度遠快於單一決策樹
D
對資料中的離群值Outliers)完全不敏感
答案解析
GBDT 屬於集成學習中的提升Boosting)方法。它循序地建立一系列決策樹,每一棵新的樹都試圖去擬合(學習)前面所有樹累積下來的殘差Residuals)或梯度。透過這種逐步修正錯誤的方式,GBDT 通常能夠建構出比單一決策樹或其他集成方法(如隨機森林更精確的模型。然而,GBDT 的訓練過程是循序的,不易完全平行化(不像隨機森林),訓練速度可能較慢(選項C錯誤)。模型結構較複雜,解釋性不如單一決策樹(選項A錯誤)。它對離群值相對敏感(選項D錯誤)。針對大數據,有如 XGBoost, LightGBM, CatBoost 等高效的 GBDT 實作。
#28
★★
分散式環境中使用 MapReduce 典範來實現鑑別式模型(例如,計算邏輯迴歸的梯度)時,"Reduce" 階段通常負責什麼任務?
A
將原始資料分發到不同的 Mapper 節點
B
在每個節點上獨立計算局部結果(例如,局部梯度)
C
匯總Aggregate)來自不同 Mapper 節點的局部結果,以產生全域結果(例如,總梯度)
D
載入模型參數並進行預測
答案解析
MapReduce 是一個用於處理大數據分散式編程模型。在 Map 階段,輸入資料被分割,每個 Mapper 節點處理一部分資料並產生中間的鍵值對Key-Value Pairs)。例如,計算分配給該 Mapper 的資料子集的局部梯度。在 Reduce 階段,具有相同鍵的中間結果會被送到同一個 Reducer 節點。Reducer 負責將這些來自不同 Mapper 的局部結果進行匯總、合併或處理,以產生最終的輸出。例如,將所有 Mapper 計算出的局部梯度相加,得到整個資料集的總梯度。選項A是資料分發過程。選項B是 Map 階段的任務。選項D是推論階段的任務。
#29
★★★
大數據應用中,除了模型本身的效能指標(如準確率AUC),評估一個鑑別式 AI 系統時還需要考慮哪個重要的非功能性指標
A
使用的程式語言種類
B
可擴展性Scalability)與處理延遲Latency
C
模型參數的數量
D
原始資料的來源國家
答案解析
大數據場景下,除了模型的預測準確度外,系統的實際運行效能至關重要。可擴展性Scalability)指系統處理不斷增長的數據量和用戶量的能力,是否能通過增加資源(如更多機器)來維持或提升效能。處理延遲Latency)指系統從接收輸入到產生輸出的時間,對於需要即時反應的應用(如即時推薦、詐欺偵測)尤其關鍵。這些非功能性指標直接影響系統的可用性和使用者體驗。程式語言、參數數量、資料來源國雖然也是相關因素,但不如擴展性延遲性來得核心和普遍。
#30
★★★★
電信業者利用大量的用戶通話記錄、上網行為、方案訂閱等數據,訓練鑑別式模型來預測哪些用戶可能會流失Churn),以便提前採取挽留措施,這是大數據鑑別式AI的哪類應用?
A
網路流量優化
B
客戶流失預測 (Customer Churn Prediction)
C
基地台位置規劃
D
語音辨識服務
答案解析
客戶流失預測是一個重要的商業智慧應用,旨在辨識出那些具有高可能性終止服務或轉向競爭對手的客戶。這通常被建模為一個二元分類問題(流失 vs. 不流失),利用歷史客戶數據(包括人口統計學資訊、使用行為、互動記錄等大數據)來訓練鑑別式模型(如邏輯迴歸決策樹SVM神經網路等)。預測結果可以幫助企業針對高風險客戶制定精準的挽留策略,從而降低客戶流失率
#31
★★
大數據環境下,為確保鑑別式模型訓練的公平性Fairness),避免對特定群體(如基於性別、種族)產生歧視性預測,需要關注哪個環節?
A
只關注模型的計算效率
B
僅增加模型的複雜度
C
資料收集與前處理模型訓練演算法、以及模型評估指標的選擇
D
完全忽略受保護的屬性(如性別、種族)
答案解析
確保 AI 公平性是一個貫穿機器學習生命週期的問題。首先,需要檢查原始數據收集是否存在偏見,以及在前處理中是否加劇了偏見。其次,某些模型演算法可能更容易學習到或放大偏見,需要謹慎選擇或進行調整。最後,評估模型時,除了整體效能,還需要使用特定的公平性指標來衡量模型在不同群體上的表現是否存在差異。簡單地忽略敏感屬性可能不夠,因為其他特徵可能與敏感屬性高度相關,導致間接歧視。因此,需要綜合考慮數據、演算法和評估等多個環節。
#32
★★★
雲端平台(如 AWS SageMaker, Google AI Platform, Azure Machine Learning)為使用大數據訓練鑑別式模型提供了便利,其主要優勢不包含下列哪項?
A
提供可彈性擴展的計算與儲存資源
B
整合了資料準備模型訓練部署監控等工具鏈
C
保證使用者無需具備任何機器學習知識即可獲得最佳模型
D
按需付費模式,可能降低初期硬體投入成本
答案解析
雲端機器學習平台極大地簡化了大數據 AI 應用的開發與部署。它們提供按需分配的強大計算能力(CPU/GPU)和儲存空間,內建了數據標註、特徵工程、模型訓練框架(支援 TensorFlow, PyTorch 等)、自動化機器學習AutoML)、模型版本控制、一鍵部署、效能監控等一系列工具。這使得團隊可以更快速地實驗和迭代。然而,雖然 AutoML 等功能降低了門檻,但要獲得真正好的、符合業務需求的模型,使用者仍然需要具備相當的機器學習知識來選擇合適的工具、設計實驗、解讀結果和進行調優。平台無法保證無需知識就能獲得最佳模型。
#33
★★
大數據的「價值」(Value)特性,強調從大量數據中提取有用的洞見鑑別式AI如何幫助實現這一點?
A
透過生成全新的、不存在的數據
B
透過建立預測模型,發現數據中隱藏的模式關聯,用於支持決策或自動化任務
C
透過將所有數據壓縮到最小的儲存空間
D
透過確保所有數據來源都絕對可靠
答案解析
大數據本身若不能轉化為有價值的資訊或行動,就只是成本。鑑別式 AI 的核心能力是從數據中學習模式並進行預測分類迴歸)。例如,透過分析客戶購買數據預測流失風險,分析感測器數據預測設備故障,分析市場數據預測銷售趨勢。這些預測性洞見可以直接支持商業決策(如制定挽留策略、安排預防性維護、調整庫存),或者驅動自動化流程(如自動過濾垃圾郵件、自動批准信用申請),從而從大數據中提取並實現其潛在的價值
#34
★★★
在處理用於鑑別式模型訓練的大量文本數據時,詞袋模型Bag-of-Words, BoW)表示法的主要缺點是什麼?
A
無法表示詞語出現的頻率
B
忽略了詞語的順序和上下文關係
C
只能處理非常短的文本
D
產生的特徵維度通常非常低
答案解析
詞袋模型將文本表示為一個向量,其中每個維度對應詞彙表中的一個詞,向量的值通常是該詞在文本中出現的次數(或 TF-IDF 值)。這種表示方法雖然簡單有效,但它完全丟失了原始文本中詞語的排列順序和語法結構資訊。例如,「狗咬人」和「人咬狗」在詞袋模型下可能具有完全相同的表示,但它們的語意顯然不同。對於需要理解上下文或語序的鑑別式任務,詞袋模型的這個缺點可能會限制模型效能。TF-IDF 等變體可以表示詞頻(選項A錯誤)。它可以處理長文本(選項C錯誤)。其維度等於詞彙表大小,通常很高(選項D錯誤)。
#35
★★★
哪種鑑別式模型基於貝氏定理Bayes' Theorem),並假設特徵之間條件獨立?這種假設在大數據高維特徵下可能不成立,但模型計算簡單快速。
A
決策樹 (Decision Tree)
B
支持向量機 (SVM)
C
樸素貝氏分類器 (Naive Bayes Classifier)
D
K-近鄰演算法 (KNN)
答案解析
樸素貝氏分類器是一類基於貝氏定理的簡單機率分類器。其「樸素」(Naive)之處在於它假設所有輸入特徵之間在給定類別的條件下是相互獨立的。這個假設在現實世界的數據中往往不成立,尤其是在具有複雜關聯的大數據特徵中。然而,儘管這個假設很強,Naive Bayes 模型在許多實際應用(尤其文本分類)中表現出奇地好,並且其優點是計算效率高,易於實現,對小數據集和高維數據(如文本詞袋特徵)處理效果不錯。
#36
★★★★
使用 GPU圖形處理單元Graphics Processing Unit加速大數據鑑別式模型(尤其是深度學習模型)訓練的主要原因是?
A
GPU 擁有比 CPU 更大的快取記憶體 (Cache)
B
GPU 擁有大量平行處理核心,非常適合執行大規模的矩陣和向量運算
C
GPU 的單核心時脈速度遠超 CPU
D
GPU 更節省能源
答案解析
深度學習模型的訓練涉及大量的矩陣乘法向量加法線性代數運算。CPU中央處理單元)通常擁有少量但功能強大的核心,擅長處理複雜的循序任務。而 GPU 則擁有數百甚至數千個相對簡單的處理核心,設計初衷是為了並行處理圖形渲染中的像素計算,這使其天然地非常適合執行大規模、高度平行化的數值計算,如深度學習中的矩陣運算。透過將這些運算分配到眾多 GPU 核心上並行執行,可以比僅使用 CPU 實現數量級的加速。GPU 單核速度通常不如 CPU,快取結構也不同,能耗通常較高。
特性 CPU (中央處理單元) GPU (圖形處理單元) NPU (神經網路處理單元)
核心架構 少量、功能強大的核心 大量、相對簡單的核心 專為AI運算設計的特定電路
擅長任務 通用計算、複雜邏輯、循序任務 大規模平行計算、圖形渲染 神經網路推論與訓練、矩陣運算
運算模式 低延遲、高時脈速度 高吞吐量、並行處理 高能效、專用指令集
應用範例 作業系統、一般軟體 遊戲、科學計算、AI訓練 手機AI功能、智慧相機、AI加速器
#37
★★
在評估鑑別式二元分類模型時,ROC 曲線Receiver Operating Characteristic Curve)的橫軸和縱軸分別代表什麼?
A
橫軸:精確率 (Precision),縱軸:召回率 (Recall)
B
橫軸:偽陽性率 (False Positive Rate, FPR),縱軸:真陽性率 (True Positive Rate, TPR/Recall)
C
橫軸:準確率 (Accuracy),縱軸:F1 分數 (F1-Score)
D
橫軸:真陰性率 (True Negative Rate, TNR),縱軸:偽陰性率 (False Negative Rate, FNR)
答案解析
ROC 曲線是用於視覺化二元分類模型在不同分類閾值下效能的圖形。它繪製的是模型的真陽性率TPR,也稱為召回率敏感度,即正確預測為正例的比例)與偽陽性率FPR,即錯誤預測為正例的比例,FPR = 1 - 真陰性率/特異度)之間的關係。曲線越靠近左上角(即 TPR 高而 FPR 低),表示模型效能越好。AUCArea Under the ROC Curve)即 ROC 曲線下的面積,是衡量模型整體區分能力的常用指標。選項 A 描述的是 Precision-Recall 曲線
#38
★★★
自動駕駛領域,利用來自多個感測器(攝影機、光達 LiDAR、雷達)的大量數據,訓練鑑別式模型辨識道路上的其他車輛、行人、交通號誌等,這屬於哪個AI應用領域?
A
物件偵測 (Object Detection) 與場景理解 (Scene Understanding)
B
語音合成 (Speech Synthesis)
C
股票價格預測 (Stock Price Prediction)
D
客戶關係管理 (Customer Relationship Management, CRM)
答案解析
自動駕駛系統需要精確地感知周圍環境。物件偵測電腦視覺中的一個核心任務,旨在識別影像或感測器數據中感興趣的物件(如汽車、行人)並確定它們的位置(通常用邊界框表示)。場景理解則更進一步,試圖理解物件之間的關係以及整體環境的佈局。這些通常被建模為鑑別式任務(例如,使用卷積神經網路 CNNTransformer 架構的模型),需要利用大量標註過的感測器數據進行訓練。
#39
★★★
為何在某些鑑別式AI應用中(如利用大數據進行犯罪預測),需要特別警惕演算法偏見Algorithmic Bias)?
A
因為演算法偏見會導致模型計算速度變慢
B
因為模型可能放大或複製歷史數據中存在的社會偏見,導致不公平的結果或加劇歧視
C
因為偏見只會影響模型的訓練過程,不會影響預測結果
D
因為演算法偏見只存在於非監督式學習
答案解析
演算法偏見是指 AI 系統由於數據、設計或使用方式中的問題而產生系統性的、不公平的結果。如果用於訓練模型的歷史數據本身就反映了社會上存在的偏見(例如,某些族群在歷史執法記錄中被過度執法),那麼鑑別式模型很可能會學習到這些偏見,並在預測中複製甚至放大它們,導致對特定群體產生不公平的對待(如更高的犯罪風險評估)。這不僅是技術問題,更是嚴重的倫理和社會問題。偏見會影響預測結果,且存在於監督式鑑別式)和非監督式學習中。
#40
★★
聯邦學習」(Federated Learning)作為一種新興的處理大數據隱私保護的技術,其核心思想是什麼?
A
將所有分散的資料集中到一個中央伺服器進行模型訓練
B
讓模型訓練發生在數據所在的本地裝置上,只將模型更新(而非原始數據)傳回中央伺服器進行聚合
C
僅使用公開可用的數據集進行訓練
D
對所有原始數據進行加密後再傳輸到雲端
答案解析
聯邦學習旨在解決數據分散且具有隱私敏感性的場景下的機器學習問題(例如,訓練手機輸入法模型而不收集用戶輸入內容)。其核心方法是:1) 中央伺服器將模型分發到各個本地裝置(如手機)。2) 每個裝置使用自己的本地數據訓練模型,產生模型更新(如梯度)。3) 各裝置只將模型更新(通常經過加密或差分隱私處理)發送回中央伺服器。4) 中央伺服器聚合來自多個裝置的模型更新,產生一個改進後的全域模型,再分發下去。這個過程中,原始數據始終保留在本地,不離開裝置,從而保護了數據隱私。
#41
★★★
鑑別式模型中,"決策邊界" (Decision Boundary) 指的是什麼?
A
模型訓練所需的總時間
B
特徵空間中,用於分隔不同預測類別的超平面或曲面
C
模型能夠處理的最大特徵數量
D
資料集中每個類別的樣本數量
答案解析
鑑別式分類模型的目標是學習如何區分不同的類別。在輸入特徵構成的空間中,模型學習到一個「邊界」,將這個空間劃分成不同的區域,每個區域對應一個預測類別。這個邊界就稱為決策邊界。例如,線性分類器決策邊界是直線或超平面,而非線性分類器(如SVM核函數神經網路)的決策邊界可以是複雜的曲線或曲面。模型根據輸入樣本落在決策邊界的哪一側來進行分類預測。
#42
★★
對於包含大量非結構化圖像數據大數據集,在將其輸入鑑別式模型(如用於圖像分類CNN)之前,常見的預處理步驟通常不包含哪項?
A
調整圖像大小 (Resizing) 到統一尺寸
B
圖像歸一化 (Normalization),例如將像素值縮放到[0, 1]或進行標準化
C
數據增強 (Data Augmentation),如隨機旋轉、翻轉、裁剪等
D
將圖像轉換為文字描述 (Image Captioning)
答案解析
在訓練圖像鑑別式模型(特別是CNN)時,常見的預處理包括:1) 將不同大小的輸入圖像調整為模型要求的固定尺寸。2) 對像素值進行歸一化標準化,有助於模型訓練穩定。3) 應用數據增強技術來人工擴充訓練數據集,提高模型的泛化能力和穩健性。而圖像轉換為文字描述Image Captioning)本身是一個複雜的 AI 任務(通常涉及CNN+RNN/Transformer),是模型的輸出目標之一,而不是輸入前的預處理步驟
#43
★★
下列哪個鑑別式模型的核心思想是尋找一個最優超平面,使得不同類別的樣本點到該超平面的距離Margin最大化
A
邏輯迴歸 (Logistic Regression)
B
支持向量機 (Support Vector Machine, SVM)
C
決策樹 (Decision Tree)
D
樸素貝氏 (Naive Bayes)
答案解析
支持向量機SVM)的基本原理就是最大化間隔Margin Maximization)。它尋找一個能夠將不同類別數據點分開的決策邊界(超平面),並且使得距離這個邊界最近的數據點(稱為支持向量Support Vectors)到邊界的距離盡可能大。這個最大化的間隔有助於提高模型的泛化能力邏輯迴歸是基於 Sigmoid 函數預測機率。決策樹是基於一系列規則進行分裂。Naive Bayes 是基於貝氏定理和獨立性假設。
#44
★★★
當使用大數據訓練非常深的鑑別式神經網路時,可能會遇到梯度消失Vanishing Gradients)或梯度爆炸Exploding Gradients)的問題。下列哪項技術主要用於緩解這些問題?
A
獨熱編碼 (One-Hot Encoding)
B
主成分分析 (PCA)
C
使用 ReLU 及其變體作為活化函數殘差連接Residual Connections)、批次正規化Batch Normalization
D
詞袋模型 (Bag-of-Words)
答案解析
梯度消失/爆炸是在訓練深度神經網路時,梯度在反向傳播過程中變得過小或過大,導致網路難以訓練(權重更新緩慢或不穩定)的問題。解決方法包括:1) 使用如 ReLURectified Linear Unit)這樣在正區間梯度為1的活化函數,替代容易飽和的 SigmoidTanh。2) 引入殘差連接(如 ResNet),允許梯度直接跳層傳播。3) 使用批次正規化,穩定每層輸入的分佈。4) 梯度裁剪Gradient Clipping)限制梯度大小。選項 A、B、D 都是數據表示或降維技術,與緩解梯度問題無直接關係。
#45
★★★★
在需要處理極度不平衡大數據分類任務中(例如,罕見疾病檢測),哪個評估指標對於評估模型找出所有正例(例如,所有患病者)的能力最為關鍵?
A
準確率 (Accuracy)
B
精確率 (Precision)
C
召回率 (Recall / True Positive Rate)
D
特異度 (Specificity / True Negative Rate)
答案解析
召回率Recall)衡量的是所有實際為正例的樣本中,被模型正確預測為正例的比例(Recall = TP / (TP + FN),其中 TP 是真陽性,FN 是偽陰性)。在像罕見疾病檢測這樣的應用中,漏掉一個真正的病例(偽陰性)的代價可能非常高。因此,最大化召回率(即盡可能找出所有真正的正例)通常是首要目標,即使這可能犧牲一些精確率Precision,即預測為正例的樣本中有多少是真正例,Precision = TP / (TP + FP))。準確率在不平衡數據下有誤導性。特異度衡量找出所有負例的能力。
#46
★★
銀行利用大量交易流水數據訓練鑑別式模型,來識別可能為洗錢可疑交易模式,這屬於大數據鑑別式AI的哪個應用領域?
A
客戶情感分析
B
反洗錢Anti-Money Laundering, AML)與金融犯罪偵測
C
信用額度自動審批
D
投資組合優化
答案解析
反洗錢AML)是金融機構重要的合規要求。由於交易量巨大,人工審查效率低下。利用機器學習(特別是鑑別式模型,如分類器異常檢測模型)分析海量交易數據,識別與已知洗錢模式相似或偏離常規的交易行為,可以有效提升可疑交易偵測的效率和準確性,幫助機構滿足監管要求並打擊金融犯罪。
#47
★★
當使用來自網路爬蟲或使用者生成內容的大數據訓練鑑別式模型時,常見的資料品質問題「重複數據」(Duplicate Data)可能導致什麼後果?
A
模型訓練速度必定加快
B
可能使模型對重複出現的樣本產生過度擬合,並可能扭曲模型評估結果
C
提高模型的可解釋性
D
增加模型處理不同類型資料的能力
答案解析
數據集中存在大量重複記錄會帶來幾個問題。首先,它會不成比例地增加某些樣本在訓練中的權重,可能導致模型過度擬合這些重複樣本的特性,降低泛化能力。其次,如果在劃分訓練集測試集時沒有妥善處理,可能導致同一樣本同時出現在兩者中,使得模型評估結果(如測試集準確率過於樂觀,無法真實反映模型在新數據上的表現。因此,在數據前處理階段進行去重是一個重要的步驟。
#48
★★★
MLOpsMachine Learning Operations)的概念對於管理大數據驅動的鑑別式AI應用生命週期至關重要,它主要關注的是?
A
僅專注於選擇最先進的模型架構
B
整合機器學習開發ML Dev)與維運Ops),實現模型訓練、部署、監控、再訓練的自動化與標準化流程
C
只負責採購最強大的硬體設備
D
完全取代資料科學家的角色
答案解析
MLOps 借鑒了軟體工程中 DevOps 的思想,旨在將機器學習模型開發、測試、部署、監控和管理流程化、自動化和標準化。在大數據和動態環境下,模型需要持續監控效能、處理數據漂移、進行再訓練和重新部署。MLOps 強調開發團隊和維運團隊的協作,利用工具和實踐來管理整個機器學習生命週期,確保模型的可靠性可擴展性可維護性,而非僅僅關注模型開發本身。
#49
相較於傳統的資料分析方法,使用鑑別式 AI 處理大數據的主要動機通常是為了?
A
產生完全不需要人工介入的報告
B
從複雜、高維度、大規模的數據中自動學習模式並進行預測或分類
C
減少數據儲存的需求
D
保證找到數據中的因果關係
答案解析
傳統的資料分析方法(如統計分析商業智慧 BI)可能難以應對大數據的規模(Volume)、多樣性Variety)和速度(Velocity),並且可能需要大量手動規則定義或特徵工程鑑別式 AI 模型,特別是深度學習等方法,能夠自動從原始大數據中學習複雜的模式和高階特徵,進行準確的預測和分類,處理非結構化數據,並能透過分散式計算進行擴展。其主要動機是利用 AI 的學習能力來應對大數據的挑戰並發掘其價值。AI 主要發現關聯性,不保證找到因果關係
#50
★★
鑑別式模型大數據上訓練完成並部署後,為何需要持續監控其在實際應用中的效能?
A
因為模型參數會自動隨機變化
B
因為真實世界的數據分佈可能隨時間改變資料漂移),導致模型效能下降
C
為了不斷增加模型的複雜度
D
只是為了滿足 MLOps 的流程要求
答案解析
模型在訓練時所用的數據是過去某個時間點的快照。然而,真實世界的環境是動態變化的,使用者行為、市場趨勢、外部事件等都可能導致輸入數據的統計特性隨時間發生變化,這種現象稱為「資料漂移」(Data Drift)或「概念漂移」(Concept Drift)。當實際應用的數據分佈與訓練數據分佈不再一致時,原本表現良好的模型效能可能會逐漸下降。因此,需要持續監控模型在生產環境中的關鍵效能指標(如準確率AUC延遲等)以及數據分佈的變化,以便及時發現問題並觸發模型的再訓練或更新