ndarray)以及對這些陣列進行操作的各種函數(包括線性代數運算、傅立葉轉換、隨機數生成等)。是許多機器學習庫(如 Scikit-learn, TensorFlow, PyTorch)的底層依賴。
sparse 模塊)來高效地儲存和運算。
不同硬體架構在深度學習運算中的比較:
| 硬體類型 | 特點 | 適用場景 | 代表產品 |
|---|---|---|---|
| 中央處理器 (Central Processing Unit, CPU) | 通用處理器,單核心性能強,但並行度低 | 小規模運算、串行任務 | Intel Core, AMD Ryzen |
| 圖形處理器 (Graphics Processing Unit, GPU) | 大量並行處理核心,適合矩陣運算 | 深度學習訓練、圖形處理 | NVIDIA RTX, AMD Radeon |
| 神經網路處理器 (Neural Processing Unit, NPU) | 專為神經網路優化,能效比高 | 移動設備AI運算 | 華為昇騰、高通Hexagon |
| 張量處理器 (Tensor Processing Unit, TPU) | Google專為深度學習設計,矩陣運算極快 | 大規模AI訓練、推論 | Google TPU v4 |
在深度學習領域,GPU (Graphics Processing Unit) 因其大量並行處理核心,特別適合執行大規模的矩陣和向量運算,能夠極大地加速模型訓練和推論。像 CUDA Basic Linear Algebra Subprograms (cuBLAS) (NVIDIA 的 BLAS 實現) 提供了底層支持。