iPAS AI應用規劃師 考試重點

L22402 大數據在鑑別式AI中的應用
主題分類
1
鑑別式 AI 與大數據基礎
2
大數據在分類任務中的應用
3
大數據在迴歸任務中的應用
4
數據品質與挑戰
5
特徵工程與選擇 (大數據考量)
6
模型訓練與可擴展性
7
常用鑑別式模型與大數據
8
案例與限制
#1
★★★★★
鑑別式AI (Discriminative AI) - 核心目標
核心概念
鑑別式AI 模型旨在學習輸入特徵 X輸出標籤 Y 之間的條件機率 P(Y|X),或者直接學習輸入到輸出之間的映射關係決策邊界。它的目標是區分不同的類別或預測一個數值,而不是學習數據的生成過程。(參考 L11401)
#2
★★★★★
大數據 (Big Data) 對鑑別式AI的影響
核心關係
大數據(特別是其大量性 Volume)為鑑別式AI提供了豐富的訓練樣本,使得模型能夠:
  • 學習更複雜的模式和決策邊界
  • 提高模型的泛化能力,減少過擬合
  • 支持更複雜的模型架構(如深度學習)。
  • 發現數據中細微但重要的區別特徵
大數據是許多現代高性能鑑別式模型成功的關鍵。(參考 L22401, L22402)
#3
★★★★
大數據的特性 (Vs) (參考樣題 Q4)
核心特性
通常用多個 "V" 來描述大數據的特性,這些特性對鑑別式AI的應用產生影響:
  • 大量性 (Volume): 數據規模巨大,需要可擴展的儲存和計算能力
  • 多樣性 (Variety): 數據來源和格式多樣(結構化、半結構化、非結構化 - 如文本、圖像、聲音),需要多樣化的處理技術和模型
  • 高速性 (Velocity): 數據產生和流動速度快,可能需要即時或近即時的處理與分析能力
  • 真實性 (Veracity): 數據品質參差不齊,存在噪聲、不一致、缺失等問題,影響模型可靠性
  • (其他 V 如價值 Value、易變性 Variability 等)
樣題 Q4 考查了這些特性。
#4
★★★★
鑑別式AI 任務:分類迴歸
主要任務
鑑別式AI 主要解決兩類監督式學習任務:
  • 分類 (Classification): 預測樣本屬於哪個預定義的離散類別(如垃圾郵件偵測、圖像分類)。
  • 迴歸 (Regression): 預測一個連續的數值(如股價預測、溫度預測)。
大數據在這兩類任務中都扮演著重要角色。
#5
★★★★
大數據在圖像分類中的應用 (CNN)
應用場景 (參考樣題 Q4, Q12)
圖像分類是典型的鑑別式任務。大規模標註圖像數據集(如 ImageNet)的出現,極大地推動了深度學習模型,特別是卷積神經網路 (CNN),在圖像分類任務上的發展。大數據使得 CNN 能夠學習到更複雜和精確的圖像特徵表示。樣題 Q4, Q12 涉及 CNN。
#6
★★★★
大數據在文本分類中的應用 (NLP)
應用場景 (參考樣題 Q7)
利用海量的文本數據(新聞、評論、社交媒體帖子等)可以訓練更精確的文本分類模型,用於情感分析主題分類意圖識別垃圾郵件檢測等。從早期的詞袋模型+傳統分類器(如 SVM, 樸素貝氏)到現在的深度學習模型RNN, Transformer),大數據都是基礎。樣題 Q7 提及自然語言處理 (NLP)。
#7
★★★
大數據在詐欺檢測/異常偵測中的應用
應用場景
金融、電信、電商等領域產生大量的交易或行為數據鑑別式AI模型(如邏輯迴歸SVM集成樹模型神經網路)可以利用這些大數據學習正常模式與異常模式之間的區別,用於即時檢測潛在的詐欺行為或系統異常。通常涉及類別不平衡問題。
#8
★★★
大數據在客戶流失預測/信用評分中的應用
應用場景
企業擁有大量的客戶歷史數據(購買記錄、行為日誌、基本資料等)。鑑別式AI模型可以利用這些數據預測客戶是否可能流失,或評估客戶的信用風險。這通常是二元分類問題,大數據有助於發現影響流失或信用的複雜因素。
#9
★★★★
大數據在預測性維護中的應用
應用場景 (參考樣題 Q7 選項)
透過分析來自大量感測器(物聯網 IoT)的時間序列大數據鑑別式AI模型(通常是迴歸模型,如時間序列模型、RNN,或用於預測剩餘壽命;也可能是分類模型,用於預測是否即將故障)可以預測設備何時可能發生故障,從而安排預防性維護,減少停機時間和成本。
#10
★★★★
大數據在銷售/需求預測中的應用 (參考樣題 Q8)
應用場景
結合歷史銷售數據、促銷活動、季節性因素、經濟指標、甚至社群媒體趨勢多樣化大數據鑑別式AI迴歸模型(如線性迴歸時間序列模型集成樹模型RNN)可以更準確地預測未來的銷售量或市場需求,幫助企業優化庫存、生產和行銷策略。樣題 Q8 提到線性迴歸適合銷售額預測。
#11
★★★
大數據在個人化推薦中的應用 (間接相關)
應用場景
雖然推薦系統核心常涉及協同過濾等技術,但鑑別式AI也扮演重要角色。例如,利用大量的用戶行為數據和物品特徵數據,可以訓練模型預測用戶對某物品的評分(迴歸)點擊/購買機率(分類),從而進行排序和推薦。
#12
★★★★★
大數據的數據品質挑戰 (Veracity) (參考樣題 Q6, Q15)
核心挑戰
大數據往往伴隨著數據品質問題
  • 噪聲 (Noise): 數據中的隨機錯誤或不準確性。
  • 缺失值 (Missing Values): 部分數據欄位缺失。
  • 不一致性 (Inconsistency): 數據格式或語義不統一。
  • 偏見 (Bias): 數據未能代表真實世界或存在系統性偏差。
  • 離群值 (Outliers): 與大多數數據顯著不同的異常值。
這些問題會嚴重影響鑑別式模型的性能和可靠性。樣題 Q6 提到標準差大意味著品質不穩;樣題 Q15 強調數據標註品質直接影響模型。
#13
★★★★
數據預處理 (Data Preprocessing) 的必要性
關鍵步驟
由於大數據的品質問題,數據預處理成為應用鑑別式AI不可或缺的步驟。它包括:
  • 數據清洗 (Data Cleaning): 處理缺失值、噪聲、不一致。
  • 數據轉換 (Data Transformation): 如標準化、歸一化、類別編碼。
  • 數據整合 (Data Integration): 合併來自不同來源的數據。
  • 數據歸約 (Data Reduction): 如降維、樣本選擇。
目標是提高數據品質,使其適合模型訓練。
#14
★★★★
類別不平衡 (Class Imbalance) 問題
常見挑戰
在大數據分類任務中(如詐欺檢測、罕見病診斷),一個類別的樣本數量遠多於另一個類別。這會導致模型傾向於預測多數類,而在少數類(通常是更重要的類)上表現很差。準確率指標會失效。需要使用特殊技術處理,如:
  • 重抽樣 (Resampling): 對少數類過採樣或對多數類欠採樣。
  • 代價敏感學習 (Cost-sensitive Learning): 為不同類別的錯誤分配不同成本。
  • 選擇合適的評估指標(如 F1, AUC, PR Curve)。
(樣題 Q15 可能涉及此問題)
#15
★★★
處理大數據多樣性 (Variety) 的挑戰
數據整合挑戰
大數據來源多樣,格式不一(結構化數據庫、半結構化 JSON/XML、非結構化文本/圖像/音頻)。整合這些不同類型的數據,並將其轉換為鑑別式模型可接受的格式(通常是數值特徵向量),是一個巨大的挑戰,需要多樣化的數據處理和特徵工程技術。
#16
★★★★
特徵工程 (Feature Engineering) 在大數據中的重要性
關鍵作用
雖然深度學習可以自動學習特徵,但在許多大數據應用中,尤其是結構化或半結構化數據良好的特徵工程仍然至關重要。從海量原始數據中提取、創建和選擇有意義的特徵,可以:
  • 顯著提升模型的性能。
  • 降低模型複雜度。
  • 提高模型的可解釋性。
  • 處理數據的多樣性和品質問題。
#17
★★★★★
特徵選擇 (Feature Selection) 的必要性
降維需求
大數據通常伴隨著高維度(大量特徵)。過多的特徵可能包含冗餘或不相關的信息,增加計算成本,並可能導致維度災難模型過擬合特徵選擇旨在選出一個最佳的特徵子集,以提高模型性能和效率。
#18
★★★
特徵選擇方法 (過濾法, 包裹法, 嵌入法)
主要方法
  • 過濾法 (Filter): 獨立於模型,根據特徵本身的統計特性(如相關性、變異數)進行評分和篩選。速度快。
  • 包裹法 (Wrapper): 使用特定模型來評估不同特徵子集的性能。效果通常較好但計算成本高。
  • 嵌入法 (Embedded): 在模型訓練過程中自動進行特徵選擇(如 Lasso 迴歸、帶有特徵重要性的樹模型)。
#19
★★★★
降維 (Dimensionality Reduction) 技術 (PCA)
特徵提取
降維旨在將高維數據轉換為低維表示,同時保留大部分重要資訊。主成分分析 (PCA) 是最常用的線性降維方法,它找到數據中變異最大的方向(主成分)來投影數據。降維有助於應對維度災難、數據視覺化、去噪和加速訓練
#20
★★★
非結構化數據的特徵提取 (文本/圖像)
特定技術
處理非結構化大數據需要特定的特徵提取方法:
  • 文本:詞袋模型 (BoW), TF-IDF, 詞嵌入 (Word Embeddings) 如 Word2Vec, GloVe,以及 Transformer 模型的上下文嵌入。
  • 圖像:傳統方法(SIFT, SURF, HOG),或使用預訓練的 CNN 模型提取的深度特徵。
這些技術將非結構化數據轉換為鑑別式模型可以處理的數值特徵。
#21
★★★★
大數據對模型訓練時間的影響
效能考量
數據量越大,模型訓練所需的時間通常越長。這對演算法的選擇(如選擇可並行化或增量學習的算法)和基礎設施(如需要分散式計算框架)提出了要求。
#22
★★★★★
可擴展性 (Scalability) 的重要性
核心需求
處理大數據時,所選用的數據處理工具、特徵工程方法和機器學習演算法必須具有良好的可擴展性,即能夠有效地處理不斷增長的數據量和計算需求,通常需要利用並行或分散式計算
#23
★★★★
分散式計算框架 (Spark, Hadoop MapReduce)
大數據工具 (參考 L222, L223)
Apache SparkHadoop MapReduce 這樣的框架提供了在計算機集群上進行大規模數據處理和機器學習的能力。Spark 因其記憶體計算特性和豐富的 MLlib 函式庫,在現代大數據機器學習中尤為常用。(參考樣題 Q11 MapReduce)
#24
★★★
增量學習 (Incremental Learning) / 線上學習 (Online Learning)
訓練策略
對於高速流動 (Velocity) 的大數據,模型需要能夠持續地用新到達的數據進行更新,而不是每次都重新訓練。增量學習演算法(如某些SGD變體)支持這種模式。
#25
★★★
模型評估在大數據下的挑戰
評估考量
使用交叉驗證等方法評估模型時,大數據會導致極高的計算成本。可能需要採取抽樣簡化驗證策略或利用分散式計算來進行模型評估和超參數調整。
#26
★★★★
線性模型 (Linear Models) 與大數據
適用性
線性模型(線性/邏輯迴歸)通常訓練速度快,易於擴展到大規模數據集(特別是使用 SGD 及其變體)。對於高維稀疏數據(如文本特徵)也常表現良好。但可能無法捕捉複雜的非線性關係。
#27
★★★★
樹模型 (Tree Models) 與大數據
適用性
集成樹模型(隨機森林, GBDT)在表格大數據上通常表現非常出色。像 XGBoost, LightGBM 提供了高效的分散式訓練實現。但單棵樹或深度過大的樹容易過擬合。
#28
★★★
SVM 與大數據
適用性
標準 SVM 的訓練複雜度通常隨樣本數平方或立方增長,對於非常大的數據集計算成本很高。雖然有一些近似或分散式算法,但通常不如線性模型或樹模型易於擴展。
#29
★★★★★
深度學習 (DL) 與大數據
適用性
深度學習模型具有強大的表示學習能力,能夠從大規模、高維度、非結構化的大數據中學習複雜模式。但其數據飢渴 (Data-hungry) 的特性意味著通常需要大數據才能發揮最佳性能。訓練需要大量計算資源 (GPU)。
#30
★★★
案例:電商推薦系統
應用案例
利用海量的用戶瀏覽、點擊、購買歷史數據以及商品信息,鑑別式模型(如邏輯迴歸預測點擊率、深度學習模型捕捉複雜交互)可以為用戶推薦可能感興趣的商品。
#31
★★★
案例:社交媒體情感分析
應用案例
分析大量的社交媒體帖子或評論數據,使用鑑別式文本分類模型(如基於 RNNTransformer)來判斷用戶表達的情感傾向(正面、負面、中性),用於市場監測、品牌聲譽管理等。
#32
★★★★
大數據應用鑑別式 AI 的限制與挑戰
綜合挑戰
  • 數據品質與偏見:大數據可能包含更多噪聲和偏見,影響模型公平性。
  • 計算與儲存成本:處理和訓練大數據需要昂貴的基礎設施。
  • 模型複雜性與可解釋性:為處理大數據而選擇的複雜模型可能難以解釋。
  • 隱私與安全:大規模數據帶來更大的隱私洩露和安全風險。
  • 演算法選擇與調優:在大數據上進行模型選擇和超參數調優成本高昂。
#33
★★
監督式學習的標籤需求
數據前提
鑑別式AI通常屬於監督式學習,其訓練需要大量的帶有正確標籤的數據。在大數據背景下,獲取這些標籤可能成本高昂(人工標註)。
#34
★★
大數據下的多類別分類
挑戰
類別數量非常多時(例如,細粒度的商品分類),需要模型具有更強的區分能力,並且評估指標(如 Top-k Accuracy)的選擇也需考量。大數據有助於模型學習區分大量類別。
#35
★★
大數據對迴歸模型穩定性的影響
影響
更大的數據量通常可以提供更穩定、更可靠的迴歸係數估計,減少由於抽樣隨機性帶來的波動。
#36
★★★
數據標註 (Data Labeling) 的挑戰 (參考樣題 Q15)
品質關鍵
對於監督式的鑑別式 AI,獲取大量且準確的標註數據是關鍵。標註成本、標註一致性、標註者偏見都是大數據標註面臨的挑戰。樣題 Q15 強調標註品質影響模型性能。
#37
★★
分佈式特徵工程
大數據技術
當數據量非常大時,特徵工程步驟(如轉換、創建)也需要在分散式框架(如 Spark)上執行,以保證效率。
#38
★★
模型並行化策略 (數據/模型)
分散式訓練
  • 數據並行:將數據分發到多個計算節點,每個節點計算本地數據的梯度,然後匯總梯度更新模型。
  • 模型並行:將模型本身的不同部分分佈到不同節點上計算。
用於加速大數據或大模型的訓練。
#39
★★
核方法 (Kernel Methods) 與大數據
計算考量
SVM 中使用的核技巧,雖然能處理非線性問題,但其計算成本(如核矩陣的計算和儲存)通常隨樣本數平方增長,對大數據構成挑戰。需要使用近似核或特定優化方法。
#40
★★
“Garbage In, Garbage Out” (GIGO)
原則
強調了輸入數據品質的重要性。如果輸入的數據是錯誤的、有偏見的或低品質的,那麼即使使用最先進的鑑別式 AI 模型,輸出的結果也可能是不可靠或有害的。在大數據背景下尤其需要注意。
#41
鑑別式 vs 生成式 (Generative) 模型
模型對比
鑑別式模型學習 P(Y|X) 或邊界;生成式模型學習聯合機率 P(X,Y) 或數據分佈 P(X),可以生成新的數據樣本。(參考 L114)
#42
大數據下的實例選擇/採樣
數據處理
當數據量過於龐大無法全部使用時,需要採用有效的採樣策略(如分層採樣、重要性採樣)來選取具有代表性的子集進行模型訓練或分析。
#43
數據溯源 (Data Provenance / Lineage)
數據管理
追蹤數據的來源、處理歷史和轉換過程。對於確保大數據的品質、可信度和合規性非常重要。


#44
特徵哈希 (Feature Hashing)
高維特徵處理
一種將高維類別特徵(如文本中的詞彙)映射到固定維度特徵向量的技術,可以處理大規模稀疏特徵,無需維護詞彙表,但可能產生哈希碰撞。
#45
模型可解釋性 (XAI) 工具與大數據
挑戰
雖然需要解釋複雜模型,但應用 XAI 技術(如 LIME, SHAP)到基於大數據訓練的模型上,其計算成本和解釋的穩定性也可能成為挑戰。
#46
參數伺服器 (Parameter Server) 架構
分散式訓練
一種用於大規模分散式機器學習的架構。將模型參數存儲在參數伺服器上,多個工作節點(Worker)從伺服器拉取參數,計算本地數據的梯度,再將梯度推送回伺服器進行更新。
#47
隱私保護機器學習 (Privacy-Preserving ML)
考量
在大數據上訓練模型時,如何保護訓練數據中個體的隱私是一個重要問題。相關技術包括聯邦學習差分隱私同態加密等。(參考 L22404, L23401)
#48
貝氏定理 (Bayes' Theorem) 與鑑別式模型
理論聯繫
雖然鑑別式模型直接學習 P(Y|X),但可以從貝氏定理 P(Y|X) = P(X|Y)P(Y) / P(X) 理解其與生成式模型(學習 P(X|Y) 和 P(Y))的關係。
#49
數據採樣偏差 (Sampling Bias)
數據品質
如果收集數據的抽樣過程本身存在偏差,導致樣本不能代表目標總體,那麼即使數據量很大,訓練出的模型也可能是有偏的。
#50
自動特徵工程 (Automated Feature Engineering)
AutoML
AutoML 的一部分,試圖自動化特徵創建、選擇和轉換的過程,以減少人工工作量,尤其是在處理高維大數據時。
#51
超參數調整 (Hyperparameter Tuning) 在大數據下的策略
效率考量
由於在大數據上訓練單個模型的成本很高,超參數調整需要更高效的策略,如隨機搜索貝氏優化,或使用基於資源的提前終止策略(如 HyperBand)。
#52
因果推論 (Causal Inference) vs. 預測
目標區分
大多數鑑別式模型主要關注預測(基於相關性),而不一定是因果關係。從大數據中推斷因果關係需要不同的方法論(如實驗設計、因果圖模型)。
#53
模型壓縮 (Model Compression)
部署考量
對於在大數據上訓練的大型鑑別式模型(如深度網路),在部署到資源受限環境前,可能需要進行模型壓縮(剪枝、量化等)以減小模型大小和推論時間。
#54
損失函數 (Loss Function) 的選擇
基礎
鑑別式模型的訓練目標是最小化損失函數,不同的任務(分類/迴歸)需要選擇不同的損失函數(如交叉熵/MSE)。
#55
數據生命週期管理 (Data Lifecycle Management)
數據治理
在大數據環境下,需要對數據從創建、儲存、使用到銷毀的整個生命週期進行管理,確保合規性和效率。
#56
獨熱編碼 (One-Hot Encoding) 的維度問題
特徵工程
對於基數非常高(類別非常多)的類別特徵,使用獨熱編碼會產生極高維度的稀疏特徵,可能需要其他編碼方式或降維技術。
#57
模型漂移 (Model Drift) 監控
維護
部署後的模型需要持續監控其性能和輸入數據分佈,以及時檢測模型漂移,並觸發重新訓練或更新。
#58
集成學習的優點
模型比較
集成方法通常能提供比單個模型更好、更穩定的性能,是處理複雜表格大數據的常用且有效的選擇。
#59
批次推論 vs. 即時推論
部署模式
  • 批次推論:對累積的一批數據進行預測。
  • 即時推論:對單個或少量實時到達的數據進行快速預測。
大數據應用可能涉及這兩種模式,對模型的推論速度和部署架構有不同要求。
#60
數據湖 (Data Lake) vs. 資料倉儲 (Data Warehouse)
大數據儲存
  • 資料倉儲:主要儲存結構化、經過處理的數據,用於商業智慧分析。
  • 數據湖:可以儲存各種原始格式(結構化、非結構化)的大規模數據,更靈活,常作為機器學習數據來源。
沒有找到符合條件的重點。