iPAS AI應用規劃師 考試重點
L22402 大數據在鑑別式AI中的應用
篩選主題:
全部主題
主題一
主題二
主題三
主題四
主題五
主題六
主題七
主題八
重要性:
全部重要性
★★★★★
★★★★
★★★
★★
★
搜尋:
搜尋
主題分類
1
鑑別式 AI 與大數據基礎
2
大數據在分類任務中的應用
3
大數據在迴歸任務中的應用
4
數據品質與挑戰
5
特徵工程與選擇 (大數據考量)
6
模型訓練與可擴展性
7
常用鑑別式模型與大數據
8
案例與限制
#1
★★★★★
鑑別式AI
(
Discriminative AI
) - 核心目標
核心概念
鑑別式AI
模型旨在學習
輸入特徵 X
和
輸出標籤 Y
之間的
條件機率 P(Y|X)
,或者直接學習
輸入到輸出之間的映射關係
或
決策邊界
。它的目標是
區分
不同的類別或
預測
一個數值,而不是學習數據的生成過程。(參考 L11401)
#2
★★★★★
大數據
(
Big Data
) 對
鑑別式AI
的影響
核心關係
大數據
(特別是其
大量性
Volume
)為
鑑別式AI
提供了
豐富的訓練樣本
,使得模型能夠:
學習更
複雜的模式和決策邊界
。
提高模型的
泛化能力
,減少
過擬合
。
支持更
複雜的模型架構
(如
深度學習
)。
發現數據中
細微但重要的區別特徵
。
大數據是許多現代高性能鑑別式模型成功的關鍵。(參考 L22401, L22402)
#3
★★★★
大數據
的特性 (
Vs
) (參考樣題 Q4)
核心特性
通常用多個 "V" 來描述
大數據
的特性,這些特性對
鑑別式AI
的應用產生影響:
大量性
(
Volume
): 數據規模巨大,
需要可擴展的儲存和計算能力
。
多樣性
(
Variety
): 數據來源和格式多樣(結構化、半結構化、非結構化 - 如文本、圖像、聲音),
需要多樣化的處理技術和模型
。
高速性
(
Velocity
): 數據產生和流動速度快,
可能需要即時或近即時的處理與分析能力
。
真實性
(
Veracity
): 數據品質參差不齊,存在噪聲、不一致、缺失等問題,
影響模型可靠性
。
(其他 V 如價值
Value
、易變性
Variability
等)
樣題 Q4 考查了這些特性。
#4
★★★★
鑑別式AI
任務:
分類
與
迴歸
主要任務
鑑別式AI
主要解決兩類
監督式學習
任務:
分類
(
Classification
): 預測樣本屬於哪個
預定義的離散類別
(如垃圾郵件偵測、圖像分類)。
迴歸
(
Regression
): 預測一個
連續的數值
(如股價預測、溫度預測)。
大數據在這兩類任務中都扮演著重要角色。
#5
★★★★
大數據在
圖像分類
中的應用 (
CNN
)
應用場景 (參考樣題 Q4, Q12)
圖像分類
是典型的鑑別式任務。
大規模標註圖像數據集
(如
ImageNet
)的出現,極大地推動了
深度學習
模型,特別是
卷積神經網路
(
CNN
),在圖像分類任務上的發展。大數據使得
CNN
能夠學習到更複雜和精確的圖像特徵表示。樣題 Q4, Q12 涉及 CNN。
#6
★★★★
大數據在
文本分類
中的應用 (
NLP
)
應用場景 (參考樣題 Q7)
利用
海量的文本數據
(新聞、評論、社交媒體帖子等)可以訓練更精確的
文本分類
模型,用於
情感分析
、
主題分類
、
意圖識別
、
垃圾郵件檢測
等。從早期的
詞袋模型
+
傳統分類器
(如
SVM
,
樸素貝氏
)到現在的
深度學習模型
(
RNN
,
Transformer
),大數據都是基礎。樣題 Q7 提及自然語言處理 (
NLP
)。
#7
★★★
大數據在
詐欺檢測
/
異常偵測
中的應用
應用場景
金融、電信、電商等領域產生
大量的交易或行為數據
。
鑑別式AI
模型(如
邏輯迴歸
、
SVM
、
集成樹模型
、
神經網路
)可以利用這些大數據學習正常模式與異常模式之間的區別,用於
即時檢測潛在的詐欺行為或系統異常
。通常涉及
類別不平衡
問題。
#8
★★★
大數據在
客戶流失預測
/
信用評分
中的應用
應用場景
企業擁有大量的
客戶歷史數據
(購買記錄、行為日誌、基本資料等)。
鑑別式AI
模型可以利用這些數據
預測客戶是否可能流失
,或
評估客戶的信用風險
。這通常是
二元分類
問題,大數據有助於發現影響流失或信用的複雜因素。
#9
★★★★
大數據在
預測性維護
中的應用
應用場景 (參考樣題 Q7 選項)
透過分析來自
大量感測器
(物聯網
IoT
)的
時間序列大數據
,
鑑別式AI
模型(通常是
迴歸
模型,如時間序列模型、
RNN
,或用於預測剩餘壽命;也可能是
分類
模型,用於預測是否即將故障)可以
預測設備何時可能發生故障
,從而安排預防性維護,減少停機時間和成本。
#10
★★★★
大數據在
銷售/需求預測
中的應用 (參考樣題 Q8)
應用場景
結合
歷史銷售數據、促銷活動、季節性因素、經濟指標、甚至社群媒體趨勢
等
多樣化大數據
,
鑑別式AI
的
迴歸
模型(如
線性迴歸
、
時間序列模型
、
集成樹模型
、
RNN
)可以
更準確地預測未來的銷售量或市場需求
,幫助企業優化庫存、生產和行銷策略。樣題 Q8 提到線性迴歸適合銷售額預測。
#11
★★★
大數據在
個人化推薦
中的應用 (間接相關)
應用場景
雖然推薦系統核心常涉及
協同過濾
等技術,但
鑑別式AI
也扮演重要角色。例如,利用
大量的用戶行為數據和物品特徵數據
,可以訓練模型
預測用戶對某物品的評分(迴歸)
或
點擊/購買機率(分類)
,從而進行排序和推薦。
#12
★★★★★
大數據的
數據品質
挑戰 (
Veracity
) (參考樣題 Q6, Q15)
核心挑戰
大數據
往往伴隨著
數據品質問題
:
噪聲
(
Noise
): 數據中的隨機錯誤或不準確性。
缺失值
(
Missing Values
): 部分數據欄位缺失。
不一致性
(
Inconsistency
): 數據格式或語義不統一。
偏見
(
Bias
): 數據未能代表真實世界或存在系統性偏差。
離群值
(
Outliers
): 與大多數數據顯著不同的異常值。
這些問題會
嚴重影響鑑別式模型的性能和可靠性
。樣題 Q6 提到標準差大意味著品質不穩;樣題 Q15 強調數據標註品質直接影響模型。
#13
★★★★
數據預處理
(
Data Preprocessing
) 的必要性
關鍵步驟
由於大數據的品質問題,
數據預處理
成為應用
鑑別式AI
前
不可或缺
的步驟。它包括:
數據清洗
(
Data Cleaning
): 處理缺失值、噪聲、不一致。
數據轉換
(
Data Transformation
): 如標準化、歸一化、類別編碼。
數據整合
(
Data Integration
): 合併來自不同來源的數據。
數據歸約
(
Data Reduction
): 如降維、樣本選擇。
目標是提高數據品質,使其適合模型訓練。
#14
★★★★
類別不平衡
(
Class Imbalance
) 問題
常見挑戰
在大數據分類任務中(如詐欺檢測、罕見病診斷),
一個類別的樣本數量遠多於另一個類別
。這會導致模型
傾向於預測多數類
,而在少數類(通常是更重要的類)上表現很差。
準確率
指標會失效。需要使用特殊技術處理,如:
重抽樣
(
Resampling
): 對少數類過採樣或對多數類欠採樣。
代價敏感學習
(
Cost-sensitive Learning
): 為不同類別的錯誤分配不同成本。
選擇合適的
評估指標
(如 F1, AUC, PR Curve)。
(樣題 Q15 可能涉及此問題)
#15
★★★
處理
大數據多樣性
(
Variety
) 的挑戰
數據整合挑戰
大數據
來源多樣,格式不一(結構化數據庫、半結構化 JSON/XML、非結構化文本/圖像/音頻)。
整合這些不同類型的數據
,並將其轉換為
鑑別式模型可接受的格式
(通常是數值特徵向量),是一個巨大的挑戰,需要多樣化的數據處理和特徵工程技術。
#16
★★★★
特徵工程
(
Feature Engineering
) 在大數據中的重要性
關鍵作用
雖然
深度學習
可以自動學習特徵,但在許多大數據應用中,尤其是
結構化或半結構化數據
,
良好的特徵工程仍然至關重要
。從海量原始數據中
提取、創建和選擇有意義的特徵
,可以:
顯著提升模型的性能。
降低模型複雜度。
提高模型的可解釋性。
處理數據的多樣性和品質問題。
#17
★★★★★
特徵選擇
(
Feature Selection
) 的必要性
降維需求
大數據
通常伴隨著
高維度
(大量特徵)。過多的特徵可能包含
冗餘或不相關
的信息,增加計算成本,並可能導致
維度災難
和
模型過擬合
。
特徵選擇
旨在
選出一個最佳的特徵子集
,以提高模型性能和效率。
#18
★★★
特徵選擇
方法 (過濾法, 包裹法, 嵌入法)
主要方法
過濾法
(
Filter
): 獨立於模型,根據特徵本身的統計特性(如相關性、變異數)進行評分和篩選。速度快。
包裹法
(
Wrapper
): 使用特定模型來評估不同特徵子集的性能。效果通常較好但計算成本高。
嵌入法
(
Embedded
): 在模型訓練過程中自動進行特徵選擇(如 Lasso 迴歸、帶有特徵重要性的樹模型)。
#19
★★★★
降維
(
Dimensionality Reduction
) 技術 (
PCA
)
特徵提取
降維
旨在將高維數據轉換為低維表示,同時保留大部分重要資訊。
主成分分析
(
PCA
) 是最常用的線性降維方法,它找到數據中變異最大的方向(主成分)來投影數據。降維有助於
應對維度災難、數據視覺化、去噪和加速訓練
。
#20
★★★
非結構化數據的特徵提取 (文本/圖像)
特定技術
處理非結構化大數據需要特定的特徵提取方法:
文本:
詞袋模型
(
BoW
),
TF-IDF
,
詞嵌入
(
Word Embeddings
) 如
Word2Vec
,
GloVe
,以及
Transformer
模型的上下文嵌入。
圖像:傳統方法(
SIFT
,
SURF
,
HOG
),或使用
預訓練的 CNN 模型
提取的深度特徵。
這些技術將非結構化數據轉換為鑑別式模型可以處理的數值特徵。
#21
★★★★
大數據對模型訓練時間的影響
效能考量
數據量越大,模型訓練所需的時間通常越長
。這對演算法的選擇(如選擇可並行化或增量學習的算法)和基礎設施(如需要
分散式計算
框架)提出了要求。
#22
★★★★★
可擴展性 (
Scalability
) 的重要性
核心需求
處理大數據時,所選用的
數據處理工具、特徵工程方法和機器學習演算法
必須具有良好的
可擴展性
,即能夠
有效地處理不斷增長的數據量和計算需求
,通常需要利用
並行或分散式計算
。
#23
★★★★
分散式計算框架 (
Spark
,
Hadoop MapReduce
)
大數據工具 (參考 L222, L223)
像
Apache Spark
和
Hadoop MapReduce
這樣的框架提供了
在計算機集群上進行大規模數據處理和機器學習
的能力。
Spark
因其
記憶體計算
特性和豐富的
MLlib
函式庫,在現代大數據機器學習中尤為常用。(參考樣題 Q11 MapReduce)
#24
★★★
增量學習 (
Incremental Learning
) / 線上學習 (
Online Learning
)
訓練策略
對於
高速流動
(
Velocity
) 的大數據,模型需要能夠
持續地用新到達的數據進行更新
,而不是每次都重新訓練。
增量學習
演算法(如某些
SGD
變體)支持這種模式。
#25
★★★
模型評估在大數據下的挑戰
評估考量
使用
交叉驗證
等方法評估模型時,大數據會導致
極高的計算成本
。可能需要採取
抽樣
、
簡化驗證策略
或利用
分散式計算
來進行模型評估和超參數調整。
#26
★★★★
線性模型 (
Linear Models
) 與大數據
適用性
線性模型
(線性/邏輯迴歸)通常
訓練速度快,易於擴展
到大規模數據集(特別是使用
SGD
及其變體)。對於
高維稀疏數據
(如文本特徵)也常表現良好。但可能無法捕捉複雜的非線性關係。
#27
★★★★
樹模型 (
Tree Models
) 與大數據
適用性
集成樹模型
(隨機森林, GBDT)在
表格大數據
上通常表現
非常出色
。像
XGBoost
,
LightGBM
提供了
高效的分散式訓練
實現。但單棵樹或深度過大的樹容易過擬合。
#28
★★★
SVM
與大數據
適用性
標準
SVM
的訓練複雜度通常隨樣本數
平方或立方增長
,對於非常大的數據集
計算成本很高
。雖然有一些近似或分散式算法,但通常不如線性模型或樹模型易於擴展。
#29
★★★★★
深度學習 (
DL
) 與大數據
適用性
深度學習
模型具有
強大的表示學習能力
,能夠從
大規模、高維度、非結構化
的大數據中學習複雜模式。但其
數據飢渴
(
Data-hungry
) 的特性意味著通常
需要大數據才能發揮最佳性能
。訓練需要大量計算資源 (
GPU
)。
#30
★★★
案例:電商推薦系統
應用案例
利用
海量的用戶瀏覽、點擊、購買歷史數據
以及
商品信息
,鑑別式模型(如邏輯迴歸預測點擊率、深度學習模型捕捉複雜交互)可以為用戶推薦可能感興趣的商品。
#31
★★★
案例:社交媒體情感分析
應用案例
分析
大量的社交媒體帖子或評論數據
,使用
鑑別式文本分類模型
(如基於
RNN
或
Transformer
)來判斷用戶表達的
情感傾向
(正面、負面、中性),用於市場監測、品牌聲譽管理等。
#32
★★★★
大數據應用鑑別式 AI 的限制與挑戰
綜合挑戰
數據品質與偏見
:大數據可能包含更多噪聲和偏見,影響模型公平性。
計算與儲存成本
:處理和訓練大數據需要昂貴的基礎設施。
模型複雜性與可解釋性
:為處理大數據而選擇的複雜模型可能難以解釋。
隱私與安全
:大規模數據帶來更大的隱私洩露和安全風險。
演算法選擇與調優
:在大數據上進行模型選擇和超參數調優成本高昂。
#33
★★
監督式學習的標籤需求
數據前提
鑑別式AI
通常屬於
監督式學習
,其訓練
需要大量的帶有正確標籤的數據
。在大數據背景下,獲取這些標籤可能成本高昂(人工標註)。
#34
★★
大數據下的多類別分類
挑戰
當
類別數量非常多
時(例如,細粒度的商品分類),需要模型具有
更強的區分能力
,並且評估指標(如 Top-k Accuracy)的選擇也需考量。大數據有助於模型學習區分大量類別。
#35
★★
大數據對迴歸模型穩定性的影響
影響
更大的數據量
通常可以提供
更穩定、更可靠
的迴歸係數估計,減少由於抽樣隨機性帶來的波動。
#36
★★★
數據標註 (
Data Labeling
) 的挑戰 (參考樣題 Q15)
品質關鍵
對於監督式的鑑別式 AI,獲取
大量且準確的標註數據
是關鍵。
標註成本、標註一致性、標註者偏見
都是大數據標註面臨的挑戰。樣題 Q15 強調標註品質影響模型性能。
#37
★★
分佈式特徵工程
大數據技術
當數據量非常大時,特徵工程步驟(如轉換、創建)也需要
在分散式框架(如 Spark)上執行
,以保證效率。
#38
★★
模型並行化策略 (數據/模型)
分散式訓練
數據並行
:將數據分發到多個計算節點,每個節點計算本地數據的梯度,然後匯總梯度更新模型。
模型並行
:將模型本身的不同部分分佈到不同節點上計算。
用於加速大數據或大模型的訓練。
#39
★★
核方法 (
Kernel Methods
) 與大數據
計算考量
如
SVM
中使用的核技巧,雖然能處理非線性問題,但其計算成本(如核矩陣的計算和儲存)通常隨樣本數
平方增長
,對大數據構成挑戰。需要使用近似核或特定優化方法。
#40
★★
“Garbage In, Garbage Out” (
GIGO
)
原則
強調了
輸入數據品質
的重要性。如果輸入的數據是錯誤的、有偏見的或低品質的,那麼即使使用最先進的鑑別式 AI 模型,輸出的結果也可能是不可靠或有害的。在大數據背景下尤其需要注意。
#41
★
鑑別式 vs 生成式 (
Generative
) 模型
模型對比
鑑別式模型學習 P(Y|X) 或邊界;生成式模型學習
聯合機率 P(X,Y)
或數據分佈 P(X),可以生成新的數據樣本。(參考 L114)
#42
★
大數據下的實例選擇/採樣
數據處理
當數據量過於龐大無法全部使用時,需要採用
有效的採樣策略
(如分層採樣、重要性採樣)來選取具有代表性的子集進行模型訓練或分析。
#43
★
數據溯源 (
Data Provenance
/
Lineage
)
數據管理
追蹤數據的
來源、處理歷史和轉換過程
。對於確保大數據的
品質、可信度和合規性
非常重要。
#44
★
特徵哈希 (
Feature Hashing
)
高維特徵處理
一種將
高維類別特徵
(如文本中的詞彙)映射到
固定維度
特徵向量的技術,可以處理大規模稀疏特徵,
無需維護詞彙表
,但可能產生哈希碰撞。
#45
★
模型可解釋性 (
XAI
) 工具與大數據
挑戰
雖然需要解釋複雜模型,但應用
XAI
技術(如 LIME, SHAP)到基於大數據訓練的模型上,其
計算成本和解釋的穩定性
也可能成為挑戰。
#46
★
參數伺服器 (
Parameter Server
) 架構
分散式訓練
一種用於
大規模分散式機器學習
的架構。將模型參數存儲在
參數伺服器
上,多個
工作節點
(Worker)從伺服器拉取參數,計算本地數據的梯度,再將梯度推送回伺服器進行更新。
#47
★
隱私保護機器學習 (
Privacy-Preserving ML
)
考量
在大數據上訓練模型時,如何
保護訓練數據中個體的隱私
是一個重要問題。相關技術包括
聯邦學習
、
差分隱私
、
同態加密
等。(參考 L22404, L23401)
#48
★
貝氏定理 (
Bayes' Theorem
) 與鑑別式模型
理論聯繫
雖然鑑別式模型直接學習 P(Y|X),但可以從貝氏定理 P(Y|X) = P(X|Y)P(Y) / P(X) 理解其與
生成式模型
(學習 P(X|Y) 和 P(Y))的關係。
#49
★
數據採樣偏差 (
Sampling Bias
)
數據品質
如果收集數據的
抽樣過程本身存在偏差
,導致樣本不能代表目標總體,那麼即使數據量很大,訓練出的模型也可能是有偏的。
#50
★
自動特徵工程 (
Automated Feature Engineering
)
AutoML
AutoML
的一部分,試圖
自動化
特徵創建、選擇和轉換的過程,以減少人工工作量,尤其是在處理高維大數據時。
#51
★
超參數調整 (
Hyperparameter Tuning
) 在大數據下的策略
效率考量
由於在大數據上訓練單個模型的成本很高,超參數調整需要更高效的策略,如
隨機搜索
、
貝氏優化
,或使用
基於資源的提前終止
策略(如 HyperBand)。
#52
★
因果推論 (
Causal Inference
) vs. 預測
目標區分
大多數鑑別式模型主要關注
預測
(基於相關性),而不一定是
因果關係
。從大數據中推斷因果關係需要不同的方法論(如實驗設計、因果圖模型)。
#53
★
模型壓縮 (
Model Compression
)
部署考量
對於在大數據上訓練的大型鑑別式模型(如深度網路),在部署到資源受限環境前,可能需要進行
模型壓縮
(剪枝、量化等)以減小模型大小和推論時間。
#54
★
損失函數 (
Loss Function
) 的選擇
基礎
鑑別式模型的訓練目標是最小化
損失函數
,不同的任務(分類/迴歸)需要選擇不同的損失函數(如交叉熵/MSE)。
#55
★
數據生命週期管理 (
Data Lifecycle Management
)
數據治理
在大數據環境下,需要對數據從
創建、儲存、使用到銷毀
的整個生命週期進行管理,確保合規性和效率。
#56
★
獨熱編碼 (
One-Hot Encoding
) 的維度問題
特徵工程
對於
基數非常高
(類別非常多)的類別特徵,使用獨熱編碼會產生
極高維度的稀疏特徵
,可能需要其他編碼方式或降維技術。
#57
★
模型漂移 (
Model Drift
) 監控
維護
部署後的模型需要
持續監控
其性能和輸入數據分佈,以及時
檢測模型漂移
,並觸發重新訓練或更新。
#58
★
集成學習的優點
模型比較
集成方法通常能提供比單個模型
更好、更穩定
的性能,是處理複雜表格大數據的
常用且有效
的選擇。
#59
★
批次推論 vs. 即時推論
部署模式
批次推論
:對
累積的一批數據
進行預測。
即時推論
:對
單個或少量實時到達的數據
進行快速預測。
大數據應用可能涉及這兩種模式,對模型的推論速度和部署架構有不同要求。
#60
★
數據湖 (
Data Lake
) vs. 資料倉儲 (
Data Warehouse
)
大數據儲存
資料倉儲
:主要儲存
結構化
、經過處理的數據,用於商業智慧分析。
數據湖
:可以儲存
各種原始格式
(結構化、非結構化)的大規模數據,更靈活,常作為機器學習數據來源。
沒有找到符合條件的重點。
↑