在機器學習中,一個包含 m 個樣本、每個樣本有 n 個特徵的數據集,通常會被表示成什麼樣的矩陣?
A
一個 m x n 的矩陣,其中每一列代表一個樣本,每一行代表一個特徵。
B
一個 n x m 的矩陣,其中每一列代表一個特徵,每一行代表一個樣本。
在機器學習的慣例中,數據集通常表示為一個矩陣 X,其維度為 m x n。這裡 m 代表樣本(Samples)的數量(或稱觀測值、實例),n 代表特徵(Features)的數量(或稱屬性、維度)。矩陣的每一列(Row)對應一個樣本數據點,而每一行(Column)對應一個特徵。例如,Xij 代表第 i 個樣本的第 j 個特徵值。這種表示法方便進行向量化運算和矩陣運算,是許多機器學習算法的基礎。選項 B 的 n x m 矩陣表示法則將特徵作為列,樣本作為行,雖然也可以使用,但 m x n 更為常見。
給定兩個向量 v = [1, 2, 3] 和 w = [4, 5, 6],它們的點積(Dot Product)v · w 是多少?
兩個相同維度向量的點積(也稱為內積 Inner Product 或純量積 Scalar Product)計算方式是將對應位置的元素相乘,然後將所有乘積加總。對於 v = [v1, v2, ..., vn] 和 w = [w1, w2, ..., wn],其點積為 v · w = v1*w1 + v2*w2 + ... + vn*wn。
在此例中,v = [1, 2, 3] 和 w = [4, 5, 6]。
v · w = (1 * 4) + (2 * 5) + (3 * 6) = 4 + 10 + 18 = 32。
點積的結果是一個純量(Scalar),而不是向量或矩陣。點積在機器學習中用於計算向量間的相似度(如餘弦相似度)、投影、以及神經網路中的加權求和等。選項 A 是逐元素乘積(Hadamard product)。
奇異值分解(Singular Value Decomposition, SVD)是將任意一個 m x n 的矩陣 A 分解為哪三個矩陣的乘積?
B
UΣVT 分解,其中 U 是 m x m 正交矩陣,Σ 是 m x n 對角矩陣(奇異值),V 是 n x n 正交矩陣。
奇異值分解(
SVD)是
線性代數中非常重要且應用廣泛的
矩陣分解方法,適用於
任何 m x n 的實數或複數
矩陣 A。它將
A 分解為
A = UΣVT 的形式,其中:
- U:是一個 m x m 的正交矩陣(Orthogonal Matrix),其列向量構成 A 的列空間(Column Space)的一組標準正交基。U 的列稱為左奇異向量。
- Σ:是一個 m x n 的對角矩陣(Diagonal Matrix),其對角線上的元素 σi ≥ 0 稱為矩陣 A 的奇異值(Singular Values),通常按降序排列。非對角線元素均為 0。
- VT:是一個 n x n 的正交矩陣 V 的轉置。V 的列向量構成 A 的列空間(Row Space)的一組標準正交基。V 的列稱為右奇異向量。
SVD 在
機器學習中有廣泛應用,包括
降維(如
PCA 的一種實現方式)、
推薦系統(
矩陣填充)、
自然語言處理(如
LSA)、圖像壓縮等。
LDU 和
QR 分解主要用於解
線性方程組,
特徵分解僅適用於可對角化的
方陣。
一個向量空間(Vector Space)的維度(Dimension)指的是什麼?
B
構成該空間的任何一組基底(Basis)中所包含向量的數量。
向量空間的維度是描述該空間「大小」或「自由度」的基本概念。一個向量空間的基底是指一組線性獨立(Linearly Independent)的向量,它們可以通過線性組合生成(Span)該空間中的所有向量。對於一個給定的向量空間,其所有可能的基底都包含相同數量的向量,這個數量就被定義為該向量空間的維度。例如,我們熟悉的二維歐幾里得空間 R2 的一個標準基底是 {[1, 0], [0, 1]},包含兩個向量,因此其維度是 2。三維空間 R3 的維度是 3。機器學習中特徵空間的維度就是指特徵的數量。
對於一個 n x n 的方陣 A,如果存在一個非零向量 v 和一個純量 λ,使得 Av = λv 成立,那麼 λ 和 v 分別被稱為什麼?
A
λ 是奇異值(Singular Value),v 是左奇異向量(Left Singular Vector)。
B
λ 是特徵值(Eigenvalue),v 是對應於 λ 的特徵向量(Eigenvector)。
C
λ 是行列式(Determinant),v 是單位向量(Unit Vector)。
D
λ 是範數(Norm),v 是基底向量(Basis Vector)。
特徵值和特徵向量描述了線性變換(由矩陣 A 代表)對某些特定向量的作用方式。如果一個非零向量 v 經過矩陣 A 的變換後,其方向保持不變(或變為反方向),只是長度被縮放了 λ 倍(Av = λv),那麼這個純量 λ 就被稱為矩陣 A 的一個特徵值,而向量 v 就被稱為對應於特徵值 λ 的一個特徵向量。特徵值和特徵向量在許多領域都有重要應用,包括主成分分析(PCA)、馬可夫鏈的穩態分析、微分方程求解、量子力學等。奇異值和奇異向量與 SVD 相關,適用於任意矩陣而非僅方陣。
主成分分析(Principal Component Analysis, PCA)是一種常用的降維技術,其主要目標是找到一組新的正交座標軸(主成分),使得數據在哪個方向上的變異數最大化?
B
按照數據投影後變異數(Variance)由大到小的順序排列。
PCA 的核心思想是通過線性變換將原始高維數據投影到一個新的低維子空間中,同時盡可能多地保留原始數據的變異信息。PCA 尋找數據變異最大的方向作為第一個主成分(PC1),然後在與 PC1 正交的子空間中尋找變異次大的方向作為第二個主成分(PC2),依此類推。這些主成分方向恰好對應於數據共變異數矩陣(Covariance Matrix)的特徵向量,而每個主成分解釋的變異量則對應於相應的特徵值。通過選擇前 k 個(k < n)變異最大的主成分來表示數據,就可以實現降維,同時保留了數據中大部分的結構信息。
在多元線性回歸(Multiple Linear Regression)中,模型可以表示為 y = Xβ + ε。如果我們使用普通最小平方法(Ordinary Least Squares, OLS)來估計參數 β,其解析解(Closed-form Solution)通常表示為?
多元線性回歸試圖找到一組參數 β,使得模型預測值 ŷ = Xβ 與實際觀測值 y 之間的殘差平方和(Sum of Squared Residuals, SSR = ||y - Xβ||²)最小化。通過對 SSR 關於 β 求導數並令其為零,可以推導出 OLS 估計量的解析解(也稱為正規方程 Normal Equation 的解)。這個解是 β̂ = (XTX)-1XTy。這裡假設矩陣 X 是 m x (n+1) 維(m個樣本,n個特徵加上截距項),y 是 m x 1 維的觀測值向量,β 是 (n+1) x 1 維的參數向量。這個公式要求 XTX 矩陣是可逆的(即特徵之間不能完全線性相關)。如果 XTX 不可逆或接近奇異,則可能需要使用嶺回歸(Ridge Regression)等加入正規化的方法。
在深度學習神經網路中,一個全連接層(Fully Connected Layer)的操作,可以看作是對輸入向量進行了什麼樣的線性代數運算?
B
一個仿射變換(Affine Transformation),即先進行矩陣乘法(線性變換),再加上一個偏置向量(平移)。
一個
全連接層(或稱
密集層 Dense Layer)接收一個輸入
向量 x,並輸出一個
向量 y。其計算過程通常是
y = Wx + b,其中:
- W 是一個權重矩陣(Weight Matrix),它定義了輸入和輸出之間的線性映射關係。如果輸入維度是 n,輸出維度是 k,則 W 是 k x n 的矩陣。
- x 是輸入列向量(n x 1)。
- b 是一個偏置向量(Bias Vector),維度是 k x 1。
- 矩陣乘法 Wx 實現了線性變換,而加上偏置向量 b 實現了平移。
線性變換加上平移在數學上稱為
仿射變換。這個
仿射變換的結果通常會再通過一個非線性的
激活函數(
Activation Function,如
ReLU,
Sigmoid,
Tanh)來引入
非線性,這是
神經網路能夠學習複雜模式的關鍵。因此,
全連接層的核心
線性代數運算是
仿射變換。
在推薦系統或資訊檢索中,常用來衡量兩個向量(例如,用戶向量或物品向量)之間方向相似度,而不考慮其長度(大小)的指標是?
A
歐幾里得距離(Euclidean Distance)
B
餘弦相似度(Cosine Similarity)
C
曼哈頓距離(Manhattan Distance)
餘弦相似度計算的是兩個非零向量之間夾角的餘弦值。其計算公式為:cos(θ) = (v · w) / (||v|| * ||w||),其中 v · w 是向量 v 和 w 的點積,||v|| 和 ||w|| 分別是它們的歐幾里得範數(長度)。餘弦相似度的取值範圍是 [-1, 1]。值為 1 表示兩個向量方向完全相同;值為 -1 表示方向完全相反;值為 0 表示兩個向量正交(垂直)。由於計算中除以了向量的長度,餘弦相似度只關注向量之間的方向關係,而忽略了它們的大小。這使得它特別適用於衡量文本向量(如 TF-IDF 或詞嵌入)或用戶/物品嵌入向量之間的語義或偏好相似度。歐幾里得距離和曼哈頓距離衡量的是點之間的空間距離,會受到向量大小的影響。點積本身也受向量大小影響。
一個矩陣的秩(Rank)指的是什麼?
B
矩陣的列向量(或行向量)所能張成的向量空間的最大維度,即線性獨立的列(或行)向量的最大數量。
矩陣的
秩是
線性代數中的一個基本概念,它有多種等價的定義:
- 列秩(Column Rank):矩陣列向量所張成的列空間(Column Space)的維度,等於線性獨立的列向量的最大數目。
- 行秩(Row Rank):矩陣行向量所張成的行空間(Row Space)的維度,等於線性獨立的行向量的最大數目。
- 一個重要的定理是:矩陣的列秩總是等於其行秩,因此統稱為矩陣的秩。
- 秩也等於矩陣經過高斯消元法化為行階梯形(Row Echelon Form)後非零行的數目。
- 對於方陣,秩小於其維度表示該矩陣是奇異的(Singular),行列式為0,不存在逆矩陣。
矩陣的
秩反映了
矩陣所代表的
線性變換的「退化」程度或信息的冗餘度,在判斷
線性方程組解的存在性、
PCA等應用中很重要。
如果一個向量集合中的任何一個向量都不能表示為集合中其他向量的線性組合,則稱這個向量集合具有什麼性質?
B
線性獨立(Linear Independence)
線性獨立是向量空間中的核心概念。一組向量 {v1, v2, ..., vk} 被稱為線性獨立,若且唯若方程 c1*v1 + c2*v2 + ... + ck*vk = 0 的唯一解是 c1 = c2 = ... = ck = 0。換句話說,沒有任何一個向量可以表示為其他向量的線性組合。如果存在不全為零的係數使得上述方程成立,則這組向量稱為線性相依。線性獨立性是構成向量空間基底的必要條件。正交性指向量間點積為0,標準正交性指向量既正交又長度為1。
對於一個對稱矩陣(Symmetric Matrix),其特徵向量(Eigenvectors)具有什麼重要的性質?
B
對應於不同特徵值的特徵向量必定相互正交(Orthogonal)。
實
對稱矩陣(即
A = AT)具有非常良好的性質:
- 所有特徵值都是實數。
- 對應於不同特徵值的特徵向量必定相互正交。
- 總是可以找到一組 n 個線性獨立的特徵向量,構成整個 Rn 空間的一組正交基(甚至可以標準化為標準正交基)。
- 對稱矩陣必定可以正交對角化,即存在一個正交矩陣 P 使得 PTAP = D,其中 D 是由特徵值構成的對角矩陣。
這些性質使得
對稱矩陣在許多應用中特別重要,例如
共變異數矩陣(用於
PCA)就是
對稱的。
在主成分分析(PCA)中,通常如何選擇要保留的主成分數量 k?
B
根據累積解釋變異比例(Cumulative Explained Variance Ratio)達到某個閾值(如 90% 或 95%)來決定 k。
PCA 降維的目標是在減少維度的同時,盡可能保留原始數據中的信息(用變異數來衡量)。每個主成分都對應一個特徵值,該特徵值代表了該主成分方向上解釋的數據變異量。通常將特徵值從大到小排序,然後計算前 k 個主成分所解釋的變異量佔總變異量的比例(累積解釋變異比例)。一種常見的選擇 k 的方法是設定一個閾值(例如 90%、95% 或 99%),然後選擇足以達到該閾值的最小主成分數量 k。這樣可以在保留大部分數據信息的同時實現顯著的降維。也可以通過觀察解釋變異比例隨 k 變化的「陡坡圖」(Scree Plot)來尋找一個「拐點」(Elbow Point)作為 k 的選擇。選擇k=2 或 3 主要用於數據視覺化。選擇 k=n 則沒有降維。
嶺回歸(Ridge Regression)在普通最小平方法(OLS)的目標函數中加入了一個 L2 正規化項(參數平方和的懲罰)。這樣做的主要目的是什麼?
B
處理特徵之間的多重共線性(Multicollinearity)問題,穩定係數估計,並減小模型變異,防止過擬合。
當輸入特徵之間存在高度相關性(多重共線性)時,OLS 估計中的 (XTX) 矩陣可能接近奇異或不可逆,導致回歸係數 β̂ 的估計值非常不穩定,對數據的微小變動非常敏感(即模型變異很大)。嶺回歸通過在最小化殘差平方和的目標函數上增加一個懲罰項 λ||β||²(其中 λ > 0 是正規化參數),來對係數的大小進行約束。這相當於在 (XTX) 的對角線上加上一個小的正數 λI,使得矩陣變得更容易求逆,從而穩定係數估計。嶺回歸會將係數向零收縮(Shrinkage),但通常不會使其精確等於零(這是 L1 正規化 LASSO 的特點,選項 C)。其主要作用是降低模型的變異,以犧牲少量偏誤為代價來提高模型的泛化能力,尤其是在存在多重共線性或特徵數量接近甚至超過樣本數量時。
在卷積神經網路(Convolutional Neural Network, CNN)中,卷積核(Kernel 或 Filter)與輸入圖像(或特徵圖)進行的「卷積」操作,本質上是一種什麼樣的線性代數運算?
B
卷積核與輸入局部區域的逐元素乘積後求和(類似於點積或互相關 Cross-correlation)。
卷積操作是 CNN 的核心。它涉及將一個小的卷積核(例如 3x3 矩陣)在輸入圖像(或上一層的特徵圖)上滑動。在每個位置,卷積核中的權重會與其覆蓋的輸入區域中的像素值(或特徵值)進行逐元素的乘法運算,然後將所有乘積加總,得到輸出特徵圖在該位置的一個值。這個「逐元素乘積後求和」的過程,在數學上非常類似於計算兩個矩陣(卷積核和輸入局部區域)對應元素的點積(如果將它們展平成向量)或者信號處理中的互相關運算。通過滑動卷積核並重複這個過程,就可以生成下一層的特徵圖,實現對局部模式(如邊緣、紋理)的檢測。
向量的 L2 範數(L2 Norm),也稱為歐幾里得範數(Euclidean Norm),通常用來衡量向量的什麼?
B
向量的大小或長度(Magnitude / Length)。
向量 v = [v1, v2, ..., vn] 的 L2 範數定義為 ||v||2 = sqrt(v1² + v2² + ... + vn²)。它對應於歐幾里得空間中從原點到向量所代表點的直線距離,也就是我們通常所說的向量的長度或大小。L2 範數在機器學習中廣泛應用,例如:(1) 計算歐幾里得距離用於 K-近鄰算法或聚類。(2) 在正規化中使用(如嶺回歸中的 L2 懲罰項)。(3) 向量歸一化(Normalization)等。
矩陣的轉置(Transpose)操作 AT 是如何定義的?
B
將矩陣的行和列互換,即 (AT)ij = Aji。
C
計算矩陣的逆矩陣(Inverse Matrix)。
矩陣 A 的轉置,記作 AT 或 A',是通過將 A 的行向量變換為其列向量(或者等價地,將列向量變換為行向量)得到的新矩陣。如果 A 是一個 m x n 的矩陣,那麼 AT 將是一個 n x m 的矩陣,其第 i 行第 j 列的元素等於原矩陣 A 的第 j 行第 i 列的元素。轉置操作具有一些性質,如 (A+B)T = AT + BT,(AB)T = BTAT,(AT)T = A。轉置在線性代數和機器學習的公式推導和計算中非常常用。
對於一個線性方程組 Ax = b,如果矩陣 A 的行列式 det(A) 不等於 0,這意味著該方程組?
對於一個 n x n 的方陣 A,其行列式 det(A) ≠ 0 是矩陣 A 可逆(Invertible)或非奇異(Non-singular)的充分必要條件。如果矩陣 A 可逆,那麼線性方程組 Ax = b 必定有唯一的解,這個解可以表示為 x = A-1b,其中 A-1 是 A 的逆矩陣。如果 det(A) = 0,則矩陣 A 是奇異的,不可逆,此時方程組 Ax = b 可能沒有解,也可能有無限多組解,具體取決于向量 b 是否在矩陣 A 的列空間中。
矩陣的跡(Trace),記作 tr(A),是如何計算的?
矩陣的跡是定義在 n x n 方陣上的一個運算。它等於矩陣主對角線(從左上到右下)上所有元素的總和。即對於方陣 A,tr(A) = Σ Aii (i 從 1 到 n)。跡具有線性性質 tr(A+B) = tr(A) + tr(B),tr(cA) = c*tr(A),以及重要的循環性質 tr(ABC) = tr(BCA) = tr(CAB)(只要矩陣乘積有定義)。一個值得注意的性質是,方陣的跡等於其所有特徵值(包括重複的)的總和。
PCA 降維前,通常需要對原始數據進行什麼樣的預處理?
B
中心化(將每個特徵減去其均值)和/或標準化(再除以標準差),以確保特徵具有零均值和可比較的尺度。
PCA 是通過尋找數據
變異最大的方向來進行
降維的。如果原始
特徵的
尺度(單位或數值範圍)差異很大,那麼具有較大數值範圍的
特徵將在計算
共變異數矩陣時佔據主導地位,使得
PCA 的結果主要由這些大
尺度特徵決定,而忽略了其他
特徵可能包含的重要結構信息。為了避免這種情況,通常在應用
PCA 之前需要對數據進行
預處理:
- 中心化 (Centering):將每個特徵減去其平均值,使得每個特徵的均值變為 0。這是計算共變異數矩陣的前提。
- 標準化 (Standardization) / 縮放 (Scaling)(可選但常用):在中心化之後,再將每個特徵除以其標準差,使得每個特徵的變異數變為 1。這樣可以確保所有特徵在 PCA 分析中具有同等的權重。
是否需要
標準化取決於具體應用和對
特徵尺度的考量,但
中心化幾乎總是必需的。
兩個矩陣 A (m x n) 和 B (p x q) 可以相乘 (得到矩陣 AB) 的條件是?
B
n = p (第一個矩陣的行數等於第二個矩陣的列數)
矩陣乘法 AB 只有在第一個矩陣 A 的行數(Number of Columns)等於第二個矩陣 B 的列數(Number of Rows)時才有定義。如果 A 是 m x n 矩陣,B 是 p x q 矩陣,則它們可以相乘的條件是 n = p。乘積矩陣 AB 將是一個 m x q 的矩陣。矩陣乘法不滿足交換律,即一般情況下 AB ≠ BA(即使兩者都有定義)。
一個向量空間的零向量(Zero Vector)具有什麼性質?
B
加上任何向量 v,結果仍為 v(加法單位元);乘以任何純量 c,結果仍為零向量。
零向量(通常表示為 0 或 0)是向量空間中的特殊元素,它在向量加法下充當單位元(Identity Element)。即對於空間中任意向量 v,都有 v + 0 = 0 + v = v。此外,用任何純量 c 乘以零向量,結果仍然是零向量:c * 0 = 0。零向量的長度(範數)為 0。包含零向量的任何向量集合都是線性相依的,因此零向量不能作為基底向量。
如果一個方陣 A 的特徵值(Eigenvalue)之一為 0,這意味著什麼?
B
矩陣 A 是奇異的(Singular),即不可逆,其行列式為 0。
特徵值 λ 是滿足方程 Av = λv(對於非零向量 v)的純量。如果 λ = 0,則方程變為 Av = 0v = 0。這意味著存在一個非零向量 v,使得 Av = 0。根據線性方程組理論,齊次方程 Ax = 0 存在非零解的充分必要條件是矩陣 A 是奇異的(不可逆)。矩陣 A 奇異的另一個等價條件是其行列式 det(A) = 0。因此,特徵值為 0 意味著該方陣是奇異的。
在簡單線性回歸 y = β0 + β1x + ε 中,參數 β1 的幾何意義是什麼?
B
回歸線的斜率,表示 x 每增加一個單位,y 的平均變化量。
在
簡單線性回歸模型 y = β0 + β1x + ε 中:
- β0 是截距(Intercept),表示當自變數 x 為 0 時,應變數 y 的期望值。在圖形上是回歸直線與 y 軸的交點。
- β1 是斜率(Slope),表示自變數 x 每變化一個單位時,應變數 y 的期望平均變化量。它衡量了 x 對 y 的線性影響程度和方向。
- ε 是誤差項(Error Term),代表了模型未能解釋的隨機變動。
因此,
β1 代表
回歸線的
斜率。
神經網路中的激活函數(Activation Function)的作用主要是?
B
引入非線性(Non-linearity),使得網路能夠學習和表示複雜的非線性關係。
如果一個多層神經網路只包含線性層(如全連接層的仿射變換),那麼無論網路有多少層,其整體效果仍然等價于一個單一的線性變換。這樣的網路只能學習線性關係,無法擬合現實世界中普遍存在的複雜非線性模式。激活函數(如 Sigmoid, Tanh, ReLU, Leaky ReLU 等)被應用於線性層的輸出之後,它們引入了非線性變換。正是這種非線性的引入,使得多層神經網路能夠學習和逼近任意複雜的函數,從而具備強大的表示能力。
在基於物品的協同過濾(Item-Based Collaborative Filtering)推薦系統中,通常需要計算物品之間的相似度。如果物品被表示為用戶評分向量,可以使用哪種線性代數方法來計算相似度?
B
計算物品向量之間的餘弦相似度或調整後的餘弦相似度(Adjusted Cosine Similarity)。
基於物品的協同過濾假設:如果用戶喜歡物品 A,那麼他們也可能喜歡與物品 A 相似的其他物品。為了找到相似物品,系統通常將每個物品表示為一個向量,向量的每個維度對應一個用戶對該物品的評分(或者某種轉換後的評分)。然後,計算不同物品向量之間的相似度。餘弦相似度是常用的方法,它衡量向量方向的一致性,可以捕捉評分模式的相似性。調整後的餘弦相似度則通過減去每個用戶的平均評分來考慮不同用戶評分尺度的差異。計算出物品間的相似度後,就可以根據用戶過去喜歡的物品,推薦與之相似的其他物品。
單位矩陣(Identity Matrix)I 是一個對角線上元素全為 1,其餘元素全為 0 的方陣。它在矩陣乘法中扮演什麼角色?
B
充當乘法單位元,即任何矩陣 A 乘以單位矩陣 I(維度匹配時)都等於 A 本身(AI = A, IA = A)。
單位矩陣在矩陣乘法中的作用類似于實數乘法中的數字 1。對於任何 m x n 的矩陣 A,如果 In 是 n x n 的單位矩陣,Im 是 m x m 的單位矩陣,則有 A * In = A 和 Im * A = A。它是矩陣乘法的單位元(Identity Element)。
一個矩陣的逆矩陣(Inverse Matrix)A-1 必須滿足什麼條件?
只有方陣才可能有逆矩陣。對於一個 n x n 的方陣 A,如果存在一個 n x n 的方陣 B,使得 AB = BA = In(其中 In 是 n x n 的單位矩陣),那麼矩陣 B 就被稱為 A 的逆矩陣,記作 A-1。一個方陣存在逆矩陣的充分必要條件是其行列式不為零(即矩陣非奇異)。逆矩陣在解線性方程組 Ax = b(解為 x = A-1b)等運算中非常重要。注意 A-1 = AT 僅對正交矩陣成立。
在通過 SVD (A = UΣVT) 進行降維時,通常如何構建降維後的矩陣 Ak?
B
保留 U 的前 k 行,Σ 的左上角 k x k 子矩陣 Σk,以及 VT 的前 k 列(即 V 的前 k 行),計算 Ak = UkΣkVkT。
SVD 提供了一種逼近原矩陣 A 的最佳低秩(Low-Rank)近似方法(在弗羅貝尼烏斯範數或譜範數意義下)。奇異值 Σ 的對角元素 σi 通常按降序排列,代表了對應的奇異向量方向上的「能量」或重要性。為了得到 A 的秩為 k 的最佳近似矩陣 Ak,我們保留 U 矩陣的前 k 行(記為 Uk,維度 m x k),Σ 矩陣左上角的 k x k 對角子矩陣(包含前 k 個最大的奇異值,記為 Σk),以及 VT 矩陣的前 k 列(等價於 V 的前 k 行,記為 VkT,維度 k x n)。然後計算 Ak = UkΣkVkT。這個 Ak 就是原矩陣 A 在保留了 k 個最重要「模式」下的近似表示,常用於降維、去噪和數據壓縮。
在訓練深度神經網路時,反向傳播(Backpropagation)算法的核心是利用哪個線性代數相關的數學概念來計算損失函數對各層權重的梯度?
B
微積分中的鏈式法則(Chain Rule),並結合向量和矩陣的導數運算。
反向傳播算法是一種高效計算複雜函數(如深度神經網路的損失函數)梯度的方法。神經網路可以看作是多個函數(線性變換和非線性激活)的複合。為了計算損失函數 L 對於網路中某一層權重 W 的梯度 ∂L/∂W,反向傳播利用了微積分的鏈式法則。它從最後一層開始,計算損失對該層輸出的梯度,然後逐層向前傳播這個梯度,利用每一層函數的局部導數(雅可比矩陣 Jacobian 或梯度),計算出損失對該層參數和輸入的梯度。這個過程涉及到大量的向量和矩陣的導數運算(例如,矩陣乘法的導數、激活函數的導數等),這些都屬於多元微積分與線性代數結合的範疇。鏈式法則是實現梯度逐層反向傳遞的核心數學原理。
向量的加法運算遵循什麼法則?
A
只遵循結合律 (Associative Law)。
B
遵循交換律 (Commutative Law) 和結合律 (Associative Law)。
C
只遵循交換律 (Commutative Law)。
向量加法是指將兩個相同
維度的
向量對應位置的元素相加。它滿足以下運算律:
- 交換律:u + v = v + u
- 結合律:(u + v) + w = u + (v + w)
此外,還存在
加法單位元(
零向量 0,使得
v + 0 = v)和
加法反元素(對於每個
向量 v,存在一個
-v,使得
v + (-v) = 0)。這些性質使得
向量集合在加法和
純量乘法下構成一個
向量空間。
如果一組向量可以張成(Span)整個向量空間 V,並且這組向量是線性獨立的,那麼這組向量被稱為什麼?
D
正交補餘(Orthogonal Complement)
向量空間的
基底(
Basis)是一組
向量,它同時滿足兩個條件:
- 線性獨立 (Linearly Independent):基底中的任何一個向量都不能表示為其他基底向量的線性組合。
- 張成空間 (Span the Space):空間中的任何一個向量都可以表示為基底向量的線性組合。
基底提供了一種描述
向量空間中所有
向量的最小座標系。一個
向量空間可以有多組不同的
基底,但所有
基底包含的
向量數量是相同的,這個數量就是空間的
維度。
特徵分解(Eigen Decomposition)A = PDP-1 只能應用於哪種類型的矩陣?
B
可對角化的方陣(Square Diagonalizable Matrix)。
C
正交矩陣(Orthogonal Matrix)。
特徵分解(或稱
譜分解 Spectral Decomposition)試圖將一個
方陣 A 分解為
A = PDP-1 的形式,其中:
- P 是一個由 A 的線性獨立的特徵向量作為列向量構成的可逆矩陣。
- D 是一個對角矩陣,其對角線元素是 A 對應於 P 中特徵向量的特徵值。
並非所有的
方陣都可以進行
特徵分解。一個
n x n 的
方陣 A 可對角化(
Diagonalizable)的充分必要條件是它具有
n 個
線性獨立的
特徵向量。如果
矩陣 A 是
對稱的,則它保證可以
正交對角化(即
P 可以選擇為
正交矩陣,
P-1 = PT)。
特徵分解在理解
線性變換、計算
矩陣冪、解微分
方程組等方面有應用。
主成分分析(PCA)與奇異值分解(SVD)之間有何關係?
B
PCA 可以通過對數據矩陣(中心化後)進行 SVD 來實現,主成分方向與右奇異向量 V 有關。
D
PCA 只能處理方陣,SVD 只能處理非方陣。
PCA 和
SVD 在數學上密切相關。傳統上,
PCA 是通過計算數據(
中心化後)的
共變異數矩陣,然後對
共變異數矩陣進行
特徵分解來找到
主成分(
特徵向量)和解釋的
變異量(
特徵值)。然而,另一種更常用且數值更穩定的實現
PCA 的方法是直接對
中心化後的數據
矩陣 X(
m x n)進行
SVD 分解:
X = UΣVT。在這種情況下:
- 主成分方向(Principal Directions)由 V 的列向量(右奇異向量)給出。
- 數據投影到主成分上的座標(Principal Component Scores)可以通過 X V = UΣ 計算得到(U 的列向量乘以對應的奇異值)。
- 每個主成分解釋的變異量與對應奇異值的平方 σi² 成正比。
因此,
SVD 提供了一種
無需顯式計算共變異數矩陣即可執行
PCA 的有效途徑。
SVD 適用於
任意矩陣,而傳統基於
特徵分解的
PCA 需要計算
方陣(
共變異數矩陣)。
在線性代數中,純量(Scalar)通常指的是?
在線性代數的上下文中,純量就是一個普通的數,它可以是一個實數(如 5, -3.14, sqrt(2))或複數。純量通常用來與向量或矩陣進行乘法運算(純量乘法),作用是對向量或矩陣進行縮放。例如,c * v 就是將向量 v 的每個元素都乘以純量 c。它區別於向量(表示大小和方向)和矩陣(表示線性變換或數據排列)。
Hadamard 積(Hadamard Product)或稱逐元素乘積(Element-wise Product),對於兩個相同維度的矩陣 A 和 B,其結果 C = A ∘ B 如何計算?
B
結果矩陣 C 的每個元素 Cij 等於 Aij * Bij。
Hadamard 積是一種不同於標準矩陣乘法的運算。它要求兩個矩陣 A 和 B 具有完全相同的維度(例如,都是 m x n)。結果矩陣 C 也具有相同的維度 m x n,並且其每個元素 Cij 是由 A 和 B 對應位置的元素相乘得到的:Cij = Aij * Bij。Hadamard 積在深度學習中經常出現,例如在應用門控機制(如 GRU, LSTM 中的門)或進行元素級別的操作時。
Rn 空間指的是?
B
所有包含 n 個實數元素的有序元組(或列向量)的集合,即 n 維實數向量空間。
Rn 是 n 維歐幾里得空間(Euclidean Space)的標準表示符號。它包含了所有形如 (x1, x2, ..., xn) 的有序元組,其中每個分量 xi 都是實數(Real Number)。這些元組通常可以表示為 n 維的列向量或行向量。Rn 在向量加法和純量乘法下構成一個向量空間,是線性代數和機器學習中最常處理的向量空間類型。例如,R2 是二維平面,R3 是三維空間。
方陣 A 的所有特徵值之和等於該矩陣的什麼?
對於一個
n x n 的
方陣 A,其
特徵值(
Eigenvalues)
λ1, λ2, ..., λn(包含重複的
特徵值)與
矩陣的
跡(
Trace)和
行列式(
Determinant)之間存在以下重要關係:
- 特徵值之和 = 矩陣的跡: Σ λi = tr(A) = Σ Aii
- 特徵值之積 = 矩陣的行列式: Π λi = det(A)
這些性質在理論分析和數值計算中都很有用。
降維(Dimensionality Reduction)技術的主要目的是什麼?
B
減少數據的特徵數量(維度),同時盡量保留重要信息,以克服維度災難、降低計算複雜度、方便視覺化或去除冗餘。
高維度數據常常帶來一些問題,統稱為「維度災難」(Curse of Dimensionality),例如數據稀疏、計算量指數級增長、模型容易過擬合等。降維技術旨在將高維數據轉換為低維表示,同時保留數據中的關鍵結構或信息。這樣做的好處包括:(1) 降低存儲和計算成本。(2) 提高某些機器學習算法的性能(通過去除噪聲或冗餘特徵)。(3) 使得數據更容易視覺化(例如降到2維或3維)。(4) 緩解維度災難問題。常見的降維技術有 PCA、LDA、t-SNE、UMAP 等。
歐幾里得距離(Euclidean Distance)計算的是兩個向量在空間中的什麼?
歐幾里得距離是最常用的距離度量方式,它計算的是 n 維空間中兩個點(由向量表示)之間的最短直線距離。對於兩個向量 v = [v1, ..., vn] 和 w = [w1, ..., wn],它們之間的歐幾里得距離 d(v, w) = ||v - w||2 = sqrt(Σ (vi - wi)²)。它滿足距離度量的所有性質(非負性、同一性、對稱性、三角不等式)。在機器學習中,常用於 K-近鄰(KNN)、K-means 聚類等算法中衡量樣本點之間的相似性(距離越小越相似)。
正交矩陣(Orthogonal Matrix)Q 具有什麼重要性質?
B
其轉置等於其逆矩陣(QT = Q-1),且 QTQ = QQT = I。它的列向量(和行向量)構成一組標準正交基。
正交矩陣是一個實數方陣 Q,其列向量(以及行向量)構成一組標準正交基(Orthonormal Basis),即這些向量兩兩正交(點積為0)且每個向量的長度(L2範數)都為1。正交矩陣最重要的性質是它的轉置等於它的逆矩陣:QT = Q-1。這也意味著 QTQ = I 和 QQT = I。正交變換(由正交矩陣代表)保持向量的長度和向量之間的角度(以及點積)不變,相當於空間中的旋轉(Rotation)或鏡像(Reflection)。正交矩陣在 QR 分解、SVD、PCA 等許多線性代數應用中扮演關鍵角色。其行列式的值必定為 +1 或 -1。
LU 分解是將一個方陣 A 分解為哪兩個矩陣的乘積?
B
一個下三角矩陣(Lower Triangular Matrix, L)和一個上三角矩陣(Upper Triangular Matrix, U)。
LU 分解(或稱
LU Factorization)試圖將一個
方陣 A(通常要求可逆)分解為
A = LU 的形式,其中:
- L 是一個下三角矩陣,其主對角線元素通常為 1(單位下三角矩陣)。
- U 是一個上三角矩陣。
LU 分解可以看作是
高斯消元法的
矩陣形式。一旦得到了
A 的
LU 分解,求解
線性方程組 Ax = b 就變得相對容易:首先解
Ly = b(
前向替換 Forward Substitution),然後解
Ux = y(
後向替換 Backward Substitution)。
LU 分解在數值計算中廣泛用於高效求解
線性方程組和計算
行列式。有時為了數值穩定性,會使用帶有部分主元選擇(
Partial Pivoting)的
LU 分解,形式為
PA = LU,其中
P 是一個置換
矩陣(
Permutation Matrix)。
一個矩陣的零空間(Null Space)或核(Kernel),記作 N(A),指的是滿足哪個條件的所有向量 x 的集合?
對於一個 m x n 的矩陣 A,其零空間 N(A) 是所有使得齊次線性方程組 Ax = 0 成立的 n 維向量 x 的集合。零空間是一個向量子空間,其維度稱為零度(Nullity)。根據秩-零度定理(Rank-Nullity Theorem),矩陣 A 的秩 rank(A) 加上其零度 nullity(A) 等於矩陣的列數 n:rank(A) + nullity(A) = n。零空間包含了所有被矩陣 A 映射到零向量的輸入向量,它在理解線性變換的性質和解線性方程組中很重要。
在機器學習中,經常需要計算損失函數對模型參數的梯度(Gradient)以進行優化(如梯度下降)。梯度本質上是一個什麼?
B
一個向量,其方向指向函數值增加最快的方向,其大小表示增加的速率。
C
一個矩陣,表示函數的二階導數(Hessian Matrix)。
對於一個多元純量函數 f(w),其中 w 是一個包含多個參數的向量 w = [w1, w2, ..., wn],其梯度 ∇f(w) 是一個由函數對每個參數的偏導數構成的向量:∇f(w) = [∂f/∂w1, ∂f/∂w2, ..., ∂f/∂wn]。梯度的方向指向函數值上升最快的方向,梯度的負方向(-∇f(w))則指向函數值下降最快的方向。梯度的大小(範數 ||∇f(w)||)表示函數在該點變化的速率。梯度下降算法正是利用了梯度的這個性質,通過沿著負梯度方向迭代更新參數來尋找函數的最小值點。
在神經網路中,批次歸一化(Batch Normalization)層的作用之一是對某一層的輸入進行歸一化處理,使其具有接近零均值和單位變異數。這有助於解決哪個訓練中的問題?
B
內部協變量偏移(Internal Covariate Shift),並有助於加速訓練收斂和穩定訓練過程。
在深度神經網路訓練過程中,由於各層參數的不斷更新,後面層的輸入分佈會持續發生變化,這種現象被稱為內部協變量偏移。這會使得模型訓練更加困難,可能需要更小的學習率和更仔細的參數初始化。批次歸一化通過對每個小批次(mini-batch)數據在進入激活函數之前進行歸一化(減去批次均值,除以批次標準差),並學習兩個可訓練參數(γ 和 β)進行縮放和平移,來穩定各層輸入的分佈。這有助於:(1) 減輕內部協變量偏移問題。(2) 允許使用更高的學習率。(3) 降低對參數初始化的敏感度。(4) 可能起到一定的正規化作用。從而加速訓練收斂並提高模型性能。計算均值和變異數是統計概念,而歸一化操作本身涉及向量運算。
潛在語義分析(Latent Semantic Analysis, LSA)是一種自然語言處理技術,常用於文本主題建模和降維。它通常應用哪種矩陣分解方法到詞語-文檔矩陣(Term-Document Matrix)上?
D
喬萊斯基分解(Cholesky Decomposition)
LSA(有時也稱 LSI, Latent Semantic Indexing)的基本思想是,通過分析大量文本中詞語的共現模式,來發現詞語和文檔之間潛在的語義關係(主題)。它首先構建一個大的詞語-文檔矩陣 A(行代表詞語,列代表文檔,元素通常是詞頻 TF 或 TF-IDF 值)。然後,對這個矩陣 A 應用奇異值分解(SVD):A = UΣVT。SVD 可以將原始的高維稀疏矩陣分解為三個包含潛在語義信息的矩陣。通過保留 Σ 中最大的 k 個奇異值及其對應的 U 和 V 中的向量(即進行低秩近似 Ak = UkΣkVkT),LSA 將原始的詞語和文檔投影到一個 k 維的「潛在語義空間」中。在這個低維空間中,語義相關的詞語或文檔即使在原文檔中沒有直接共現,也可能彼此靠近。這個 k 維空間可以用於資訊檢索、文本聚類、文檔相似度計算等任務。
若向量 u = [1, 0] 且向量 v = [0, 1],這兩個向量是否正交(Orthogonal)?
兩個非零向量被稱為正交(或垂直),如果它們之間的點積(內積)等於 0。計算 u 和 v 的點積:u · v = (1 * 0) + (0 * 1) = 0 + 0 = 0。由於點積為 0,所以向量 u 和 v 是相互正交的。它們恰好是 R2 空間的標準正交基。正交性與向量長度是否相等無關,也與線性獨立性有關(非零正交向量組必定線性獨立)。
馬可夫鏈(Markov Chain)的狀態轉移矩陣 P,其元素 Pij 代表什麼意義?
馬可夫鏈描述了一個系統在一系列離散狀態之間隨機轉移的過程,其關鍵特性是「無記憶性」(未來狀態只依賴於當前狀態,與過去狀態無關)。狀態轉移矩陣 P 是一個方陣,其中元素 Pij 表示系統在當前處於狀態 i 的條件下,下一步轉移到狀態 j 的機率。這個矩陣的每一行的元素之和必須等於 1(因為從狀態 i 必須轉移到某個狀態)。轉移矩陣的冪 Pk 的元素 (Pk)ij 表示從狀態 i 經過 k 步轉移到狀態 j 的機率。分析轉移矩陣的特徵值和特徵向量(特別是與特徵值 1 對應的左特徵向量)可以得到馬可夫鏈的穩態分佈(Stationary Distribution)。
線性判別分析(Linear Discriminant Analysis, LDA)也是一種降維技術,但與 PCA 不同,LDA 的目標是找到一個投影方向,使得什麼最大化?
A
類內變異(Within-class variance)。
B
類間變異(Between-class variance)與類內變異的比率。
PCA 是一種無監督的降維方法,它只關注數據本身的變異,不考慮類別標籤。而 LDA 是一種有監督的降維方法,它利用了類別標籤信息。LDA 的目標是找到一個低維子空間,使得原始數據投影到該子空間後,不同類別的樣本盡可能地分開,而同一類別的樣本盡可能地聚集。具體來說,它尋找的投影方向(或超平面)能夠最大化「類間散度矩陣」(Between-class Scatter Matrix)與「類內散度矩陣」(Within-class Scatter Matrix)之比(或其行列式之比)。這意味著投影後,不同類別的中心點距離盡可能遠,而每個類別內部的樣本點盡可能靠近其中心點。因此,LDA 產生的低維表示通常更利於後續的分類任務。LDA 的求解涉及到廣義特徵值問題。
在自然語言處理中,詞嵌入(Word Embeddings)如 Word2Vec 或 GloVe,將詞語表示為低維稠密向量。這些向量之間的線性代數運算(如加減法)可以捕捉到什麼樣的關係?例如 "king" - "man" + "woman" ≈ "queen"。
B
詞語之間的語義和類比關係(Semantic and Analogical Relationships)。
詞嵌入模型通過學習大量文本中詞語的上下文共現模式,將每個詞語映射到一個低維(通常幾十到幾百維)的實數向量空間中。一個重要的發現是,這些學習到的向量空間往往具有捕捉詞語語義關係的特性。相似語義的詞語在向量空間中距離較近(例如,通過餘弦相似度衡量)。更令人驚奇的是,向量之間的算術運算有時能對應到語義上的類比關係。著名的例子 "king" - "man" + "woman" ≈ "queen" 表明,從 "king" 向量減去代表「男性」概念的向量,再加上代表「女性」概念的向量,得到的結果向量在空間中非常接近 "queen" 向量。這種向量空間的結構使得詞嵌入成為許多 NLP 任務(如文本分類、情感分析、機器翻譯)的有效特徵表示。