序為提供授課教師及考生掌握評鑑方向，準備有所依循



序

為提供授課教師及考生掌握評鑑方向，準備有所依循，本計畫委

託委員會題庫組及規劃組領域專家，依據各科目評鑑內容進行重點說

明與考題解析。

本手冊為學習指引，旨在提供學習方向與準備參考，並非正式教

材或題庫，亦不保證考試通過之責，建議考生依循考試簡章所公告之

評鑑主題內容，進行充分準備以應試。

如有相關問題，請逕自聯繫

[email protected]。

經濟部產業人才能力鑑定推動小組

敬啟



.............................................. 1-1

................................................................. 2-1

.................................................. 3-1

3.1 機率/統計之機器學習基礎應用 ................................. 3-2

3.2 線性代數之機器學習基礎應用 .................................. 3-9

3.3 數值優化技術與方法 ............................................... 3-18

.............................................. 4-1

4.1 機器學習原理與技術 ................................................. 4-2

4.2 常見機器學習演算法 ............................................... 4-12

4.3 深度學習原理與框架 ............................................... 4-54

...................................... 5-1

5.1 數據準備與特徵工程 ................................................. 5-2

5.2 模型選擇與架構設計 ............................................... 5-11

5.3 模型訓練、評估與驗證 ........................................... 5-17

5.4 模型調整與優化 ....................................................... 5-30

......................................................... 6-1

6.1 數據隱私、安全與合規 ............................................. 6-2

6.2 演算法偏見與公平性 ............................................... 6-14

經濟部為有效提升產業人才素質，近年來持續致力於專業人才培訓發展。為

了更明確產業對各類專業人才的能力需求，特別針對亟需人才的多項重點產業，

邀集產官學專家，發展產業職能基準，提供各界依其內涵辦理培訓課程及規劃能

力鑑定機制。

為完成特定職業（或職類）工作任務，所需具備的能力組合（知識、技能、

態度）。

AI 應用規劃師

了解

AI 工具的特性及具備使用經驗，以協助企業規劃與推動 AI 技

術或工具導入，根據企業部門業務需求，評估並選擇適合的

AI 工

具或解決方案，應用於內部流程或產品生命週期。整合跨部門團隊，
共同制定與執行

AI 導入計畫，進行開發、部署及後續優化。

（建議具體以下至少

1 項）

1. 大專以上畢業或同等學力。
2. 具 1 年以上從事演算法設計、人工智慧、機器學習、深度學習、

商業智慧等技術應用的工作經驗。

3. 具 3 年以上程式開發或專案管理經驗，並曾參與大型專案及具協

助專案管理經驗。

4. 擔任主管職務 1 年以上。
5. 了解 no code/ low code、chatGTP、生成式工具。
6. 此項職能基準範圍為跨產業適用。

完整的「

AI 應用規劃師」職能基準，

可自右方

QRcode 下載：



第一章考試科目與評鑑內容

1-1

L21
人工智慧技術應用
與規劃

L211

AI 相關技術應用

L21101 自然語言處理技術與應用

L21102 電腦視覺技術與應用

L21103 生成式 AI 技術與應用

L21104 多模態人工智慧應用

L212

AI 導入評估規劃

L21201 AI 導入評估

L21202 AI 導入規劃

L21203 AI 風險管理

L213

AI 技術應用與系統部署

L21301 數據準備與模型選擇

L21302 AI 技術系統集成與部署

L22
大數據處理分析與
應用

L221
機率統計基礎

L22101 敘述性統計與資料摘要技術

L22102 機率分佈與資料分佈模型

L22103 假設檢定與統計推論

L222
大數據處理技術

L22201 數據收集與清理

L22202 數據儲存與管理

L22203 數據處理技術與工具

L223
大數據分析方法與工具

L22301 統計學在大數據中的應用

L22302 常見的大數據分析方法

L22303 數據可視化工具

L224
大數據在人工智慧之
應用

L22401 大數據與機器學習

L22402 大數據在鑑別式 AI 中的應用

L22403 大數據在生成式 AI 中的應用

L22404 大數據隱私保護、安全與合規

L23
機器學習技術與
應用

L231
機器學習基礎數學

L23101 機率/統計之機器學習基礎應用

L23102 線性代數之機器學習基礎應用

L23103 數值優化技術與方法

L232
機器學習與深度學習

L23201 機器學習原理與技術

L23202 常見機器學習演算法

L23203 深度學習原理與框架



第一章考試科目與評鑑內容

1-2

L233
機器學習建模與參數
調校

L23301 數據準備與特徵工程

L23302 模型選擇與架構設計

L22303 模型訓練、評估與驗證

L22304 模型調整與優化

L234
機器學習治理

L23401 數據隱私、安全與合規

L23402 演算法偏見與公平性



第二章考科內容

2-1

本指引將說明中級「

AI 應用規劃師」科目三之考試內容，包含「機器學習技

術與應用」之評鑑主題「機器學習基礎數學」、「機器學習與深度學習」、「機器學

習建模與參數調校」與「機器學習治理」

，協助考生理解機器學習與深度學習理論

及基礎數學，熟悉常見模型與應用情境，具備建模與參數調校能力，掌握資料處

理、模型訓練與評估流程，並強化對模型治理、風險辨識與公平性等議題的理解，

以提升

AI 應用實務與規劃能力。此外，為強化式學習成效，每章節將提供多樣化

的練習評量，幫助考生自我測試與檢視學習成果。



第三章機器學習基礎數學

3-1

在發展一套穩健且可解釋的機器學習系統前，必須奠基於堅實的數學原理。

機器學習的本質，是透過資料觀察中潛藏的模式，建構能夠推論未知情況的模型。

而這一過程，無論是資料的表徵、模型的建立、參數的學習、結果的評估與調整，

都深深依賴於數學概念的支撐。

本章「機器學習基礎數學」將聚焦於機率統計、線性代數與數值優化三個領

域，這三者分別對應機器學習中資料不確定性建模、資料與模型的數值表示、以

及參數求解與訓練過程中的計算策略。透過對這些數學基礎的掌握，學習者將能

更深入理解模型行為，並具備更高的能力進行模型選擇、調校與分析。本章內容

安排如下：

 機率與統計之機器學習應用：

探討資料中的不確定性來源，並介紹如何利用機率分佈、條件機率、假設檢

定等統計方法支撐模型學習與推論。

 線性代數之機器學習應用：

說明向量、矩陣等數學結構如何支持資料表示與模型運算，並引導學習者掌

握特徵分解與線性轉換等進階技巧。

 數值優化技術與方法：

說明損失函數最小化問題的數學基礎與解法，涵蓋梯度下降、學習率調整、

正則化等訓練關鍵技術。



第三章機器學習基礎數學

3-2

3.1

在真實世界中，資料往往受限於觀察條件、取樣變異或內在隨機性，使得預

測結果不具唯一性與確定性。因此，機器學習模型的核心任務，並非僅在於尋找

絕對規則，而是要能處理資料中不可避免的「不確定性」

，並在此基礎上進行合理

的預測與決策。這正是機率與統計在機器學習中扮演關鍵角色的原因。

本節將介紹機率與統計在建構機器學習模型時的實務應用，說明如何運用隨

機變數、機率分佈來表示資料行為，進而透過條件機率、貝氏定理等概念進行推

論與模型更新。同時，也會探討統計推論（如假設檢定、

p 值計算）在模型評估與

特徵選擇等任務中的操作方法。

在建構機器學習模型時，其核心邏輯通常可表述為：

「在特定觀察條件下，某

結果發生的可能性有多大。」這意味著我們並非尋求唯一解，而是學習一種條件

機率分佈（

Conditional Probability Distribution）。

其形式可表示為：

P（Y｜X），其中 X 為輸入特徵（Feature）、Y 為目標變數

（

Label）。這樣的機率模型有兩種意涵：

 預測導向：模型輸出為某結果的機率（如分類機率）

，而非確定性分類結果。

 不確定性評估：機率反映了模型對預測的信心程度，有助於風險控制與決

策制定。

在以機率方式理解資料時，我們會根據資料型態的不同，區分為離散型與連

續型隨機變數，並透過不同的機率分佈來加以建模。這些機率分佈不僅可用來表

示資料的行為特性，也可作為機器學習模型假設的基礎架構，影響模型選擇與參

數學習方式。根據隨機變數的特性，機率分佈可以分為離散型和連續型兩大類：



第三章機器學習基礎數學

3-3

（

1）離散型機率分佈（Discrete Probability Distribution）

 離散型隨機變數：

 值是有限或可數的，例如擲骰子的結果（1、2、3、4、5、6）或某電商

平台每日訂單數（

0、1、2…）。這些變數的值通常為整數，且可能取值

集合是明確的。

 離散型機率分佈：

 透過機率質量函數（Probability Mass Function, PMF）描述隨機變數「每

一個特定取值的機率」。

 例如，擲骰子時，PMF 為 P（X=1）=1/6，P（X=2）=1/6，

 PMF 總和等於 1：

∑ 𝑃(𝑋 = 𝑥

𝑖

)

𝑥

𝑖

= 1

 常見分佈

 伯努利分佈（Bernoulli）：用於表示具有兩種可能結果的事件，例如成

功與失敗、點擊與否等，常見於二元分類任務。

 二項分佈（Binomial）：描述在 n 次獨立試驗中，某事件發生的次數，

常用於模擬多次伯努利事件的累計行為。

 泊松分佈（Poisson）：描述在固定時間或空間區間中，某事件發生的次

數。此分佈常應用於模擬稀有事件，例如單位時間內的客服來電數量、

網頁伺服器的請求次數等。泊松分佈假設事件發生彼此獨立，且平均發

生率為常數。

（

2）連續型機率分佈（Continuous Probability Distribution）

 連續型隨機變數：

 值是無限且連續的，通常用於描述測量型變數，如身高、體重、時間或

溫度。這些變數不僅包含整數，還可以是任意實數，例如某病患等待時

間可能為

5.3 分鐘或 5.31 分鐘。



第三章機器學習基礎數學

3-4

 連續型機率分佈：

 透過機率密度函數（Probability Density Function, PDF）描述隨機變數

「於某取值範圍內的機率」。

 對於連續型隨機變數 X，PDF 必須滿足以下條件：

𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥

𝑏

𝑎

其中，

f（x）是隨機變數 X 的機率密度函數（PDF），描述了隨機變

數在區間

[a, b]內的機率。

 常見的分佈

 常態分佈（

Normal）：對稱的鐘型分佈，是最常見的連續型分佈，廣

泛應用於誤差建模、參數估計、特徵分數標準化與生成模型。

 均勻分佈（

Uniform）

：表示在某個固定區間內，所有數值具有相同的

發生機率，常用於初始化參數或隨機抽樣。

 指數分佈（

Exponential）：指數分佈描述的是事件發生之間的間隔時

間，適用於隨機過程中等待時間的分佈，通常用來描述「等待時間」

或「生存時間」

。例如，機器故障時間、電話來電間隔等都可以用指

數分佈來建模。該分佈的特徵是無記憶性（

Memoryless），即未來的

事件發生與過去的時間無關。

 卡方分佈（

Chi-square）

：主要用於描述一組獨立標準常態分佈變數平

方和的分佈結果，廣泛應用於統計檢定領域，特別是在變異數分析、

卡方適合度檢定、列聯表獨立性檢定等情境中。

在模型設計過程中，選用的機率分佈代表對資料生成機制的先驗假

設。舉例來說，邏輯迴歸模型假設目標變數服從伯努利分佈，用以處理二

元分類問題；線性迴歸則假設誤差項符合常態分佈，藉此推導參數估計與

檢定的統計性質。至於生成模型（例如變分自編碼器，

Variational

Autoencoder），則更進一步將潛在變數與觀察變數的分佈型態納入模型架

構核心，使機率分佈不只是輔助工具，而是模型運作本身的一部分。



第三章機器學習基礎數學

3-5

（

1）條件機率

在機器學習中，除了觀察變數本身的分佈外，同時關注當已知某些條件（例

如輸入特徵）時，如何推估另一個變數（如目標標籤）的可能性。這種在給定條

件下估算機率的行為，即為條件機率（

Conditional Probability）的概念。條件機率

不僅是理解機器學習的邏輯核心，也構成了貝氏推論（

Bayesian Inference）的基礎

架構。

條件機率的數學定義為：

𝑃(𝐴|𝐵) =

𝑃(𝐴 ∩ 𝐵)

𝑃(𝐵)

表示在事件

B 發生的前提下，事件 A 發生的機率。這種推論形式在分類、推

薦、風險預測等領域皆有廣泛應用。以下舉例條件機率在機器學習中的應用場景：

 分類任務中的條件預測：模型的任務通常是學習條件機率

P（Y｜X），即

在觀察輸入特徵

X 的情況下，預測 Y 的可能性分佈。像是邏輯迴歸、貝

氏分類器等，皆以此為核心。

 生醫與金融風控領域的風險預測：當已知某些檢驗結果或行為模式，條件

機率可協助預估未來事件發生的可能性，例如罹病風險、違約機率等。

 生成模型中的變數關聯建構：在變分自編碼器或隱馬可夫模型（

Hidden

Markov Model, HMM）中，條件機率用於建構潛在變數與觀察變數間的依

存關係。

（

2）貝氏定理

機器學習模型的常見目標之一、是推估條件機率

P（Y｜X）

，也就是在已知某

些輸入條件

X 的情況下，預測 Y 的可能性。這種條件推論不僅存在於分類與推薦

系統，也廣泛應用於風險預測、醫療診斷與生成模型等場景。隨著模型運作過程

中不斷有新資料進入，若能根據這些資料即時調整對事件的預期，就能提升預測

品質與模型靈活度。



第三章機器學習基礎數學

3-6

貝氏定理（

Bayes' Theorem）正是處理這類條件推論問題的核心工具。建立在

條件機率之上，是一種利用已知條件更新事件發生機率的方法：

𝑃(𝐴|𝐵) =

𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)

𝑃(𝐵)

此公式表示：在事件

B 已發生的情況下，重新評估事件 A 發生機率的方式。

其四個構成元素如下：



P（A）：

 先驗機率（Prior Probability）— 在尚未觀察事件 B 之前，對事件 A 發

生的「初始信念」或「預設機率」。



P（B｜A）：

 條件機率，或稱似然（Likelihood）— 在事件 A 發生的前提下，事件 B

發生的可能性。



P（B）：

 邊際機率（Marginal Probability）— 事件 B 發生的總體機率，亦為所

有可能

A 條件下 B 發生機率的加權總和。（無論 A 是否發生，B 發生

的整體可能性。）



P（A｜B）：

 後驗機率（Posterior Probability）— 在觀察到事件 B 之後，根據新的

資訊更新後，對事件

A 發生機率的重新估計。

 這是貝式定理的核心輸出。

貝氏定理的關鍵意涵，在於可以將「原有知識」與「新資料觀察」整合起來，

產生即時的後驗機率調整。這種更新能力，使得機器學習模型在面對不確定性與

資料稀疏問題時，能保有推論的彈性與解釋力。

在機器學習與資料分析中，我們常遇到需要根據有限樣本，推論整體資料或

模型是否具備某種統計性質。例如，某個特徵是否與目標變數顯著相關、兩種模



第三章機器學習基礎數學

3-7

型的表現差異是否具有統計意義等。這些問題皆屬於統計推論（

Statistical

Inference）的範疇，而假設檢定（Hypothesis Testing）則是其中最常用的工具之一。

（

1）統計推論

統計推論的核心任務，是利用樣本資料對母體參數或模型行為進行估計與判

斷，並量化不確定性。透過統計方法，我們可以推斷模型訓練的結果是否穩定、

資料特徵之間是否存在顯著差異、以及模型選擇是否具有合理依據。

統計推論可概略分為兩大核心分支：參數估計（

Parameter Estimation）與假設

檢定（

Hypothesis Testing）

，兩者雖然目的不同，但均依賴機率模型作為推論依據，

並對樣本中的不確定性進行量化處理。

目的

推測母體參數的「值」或「區間」

驗證某個關於母體參數的「主張」是
否成立

重點問題

這個母體參數大約是多少？（例如：
平均收入是多少？）

我們是否有足夠證據拒絕一個假
設？（例如：新藥是否有效？）

輸出結果

提供點估計值（如平均數）與信賴區
間（如

95% CI）

提供

p 值、檢定統計量，並根據顯著

水準決定是否拒絕虛無假設

依據

基於樣本資料，計算出母體參數的
估計值

基於假設前提與樣本結果，進行推
論判斷

例子

根據樣本估計出平均體重為

68 公

斤，

95%信賴區間為[66, 70]

假設新運動課程能降低體重，檢定
結果

p = 0.03，小於設定的 α 值 0.05。

因此拒絕虛無零假設，認為有效

（

2）假設檢定

假設檢定是一種以機率模型為基礎的推論方法，用於檢視樣本資料是否提供

足夠證據來拒絕某一原先的假設。整體流程包含：

A. 設定虛無假設（或稱零假設）與對立假設

B. 選擇適當的檢定方法與檢定統計量

C. 決定顯著水準

D. 計算檢定統計量與 p 值

E. 比較顯著水準（α）並進行決策



第三章機器學習基礎數學

3-8

（

3）顯著水準（α）與 p 值

在進行假設檢定之前，研究者需預先設定一個可接受的錯誤機率上限，稱為

顯著水準（

α）。顯著水準代表在虛無假設為真的前提下，仍可能因樣本隨機波動

而錯誤地拒絕該假設的機率，也就是型一錯誤（

Type I Error）發生的機率。

而

p 值則是在觀察到樣本資料後所計算出的機率，用來衡量資料與虛無假設

的相符程度。

除了選擇適當的分佈型態，統計量（

Statistical Measures）是用以描述資料分

佈特性的重要指標，能夠協助分析者快速掌握變數的整體趨勢、變異程度與潛在

異常。這些統計量廣泛應用於機器學習各階段，從前期的資料探索與特徵工程，

到後期的模型訓練與效能評估，皆是不可或缺的輔助工具。

在資料前處理與探索階段，統計量有助於確認變數的分佈型態與異常狀況，

進而決定後續的標準化、轉換或篩選策略。常見應用如下：

 期望值（

Expected Value）：反映變數的平均趨勢，為許多模型的預測基準與參

數估計核心，例如線性迴歸中的截距項。

 變異數（

Variance）與標準差（Standard Deviation）：衡量資料的離散程度，能

判斷特徵是否需進行標準化處理，避免尺度不一致對模型訓練造成偏誤。

 偏態（

Skewness）

：判斷分佈是否對稱，若偏態過大，常需對變數進行對數轉換

或

Box-Cox 轉換，以改善模型收斂性與預測穩定性。

 峰度（

Kurtosis）：觀察資料是否具有尖峰或厚尾，亦可作為偵測異常值密度與

風險擴散的一項參考指標。

這些統計量常透過視覺化方式（如直方圖、箱型圖、

QQ-plot）輔助解釋，幫

助分析者理解資料行為模式，並確認是否需採取分群處理、變數轉換或資料清理

等動作。



第三章機器學習基礎數學

3-9

3.2

線性代數（

Linear Algebra）是機器學習模型運算與表示的數學基礎，其核心

概念貫穿於資料結構表示、模型參數計算、梯度更新與特徵轉換等環節。在現代

機器學習與深度學習系統中，絕大多數演算法都以矩陣與向量為運算單位，並透

過線性變換、特徵分解與最小平方估計等工具來實現模型訓練與預測。

本節從向量與矩陣表示、線性變換與特徵空間開始，到矩陣分解與維度簡化

與最小平方估計與線性迴歸，介紹基礎概念背後的幾何意義與演算法對應，並建

立其與實際建模流程的連結。

在機器學習中，幾乎所有資料與模型參數都可以向量（

Vector）與矩陣（Matrix）

的形式來表示與運算。向量與矩陣不僅是資料的儲存結構，更是模型計算與訓練

流程中的基本單位，包含特徵表達、線性組合、梯度運算等均仰賴這些基礎工具。

（

1）向量在機器學習中的角色

向量是具有方向與大小的數學物件，通常用於描述單一樣本的特徵組合。例如：

一筆

5 維的樣本輸入可以表示為向量 x = [𝑥

, 𝑥

]

⊺

模型的參數向量

𝜃 = [𝜃

, 𝜃

, … , 𝜃

𝑑

] 可用於計算預測值 𝒴̂ = 𝜃

⊺

常見向量運算包括：

 點積（

Dot Product）：

 評估兩個向量在同一方向上的對應程度，為線性模型預測核心運算。

 其物理意義是「投影」和「相似度」。



第三章機器學習基礎數學

3-10



L2 範數（Norm）：

 或稱歐幾里得範數。

 用於計算向量的「長度」或「大小」，亦為正規化與正則化（如 L2 損

失）的基礎。

 向量加減與線性組合：

 可用於計算誤差向量、梯度向量等。

（

2）矩陣在機器學習中的應用

矩陣是多個向量的集合，常用於表示多筆樣本資料、特徵轉換或神經網路中

的權重。舉例如：

 特徵矩陣

𝑋 ∈ ℝ

𝑛×𝑑

：

n 筆樣本、每筆含 d 個特徵，每一行為一筆樣本向量。

 權重矩陣

𝑊 ∈ ℝ

𝑑×𝑘

：

用於多類別分類中，將

d 維輸入特徵映射為 k 維輸出機率分數。

常見矩陣運算包含：

 矩陣乘法（

Matrix Multiplication）：模型運算的核心，用於批次預測、權重

更新、轉換特徵空間。

 轉置（

Transpose）：將矩陣的列與行互換，用於維度對齊與內積計算。

 矩陣求逆（

Inverse）與偽逆（Pseudo-Inverse）：用於封閉解的求解（如最

小平方解），或在無法反矩陣的情況下近似解決。

在模型建構中的具體應用示例：

 線性迴歸中，預測值可由

𝑦̂ = 𝑋𝜃 表示，並以矩陣形式進行損失函數與導

數運算。

 神經網路的前向傳播中，層與層之間的計算本質為矩陣與向量的乘法：

(l)

= W

(l)

(l-1)

+ b

(l)

。



第三章機器學習基礎數學

3-11

 主成分分析（

Principal Components Analysis, PCA）需對特徵矩陣進行協方

差計算與矩陣分解，以尋找最具代表性的投影方向。

線性變換（

Linear Transformation）是線性代數中的核心概念，其本質是在不

破壞空間線性結構的前提下，對資料進行伸縮、旋轉或投影等操作。機器學習模

型中大量的資料處理與特徵映射，其實都可視為一種線性變換，尤其在神經網路、

特徵工程與降維方法中扮演關鍵角色。

（

1）向量經過矩陣運算的幾何意涵

當一個向量

x ∈ ℝ

𝑑

被一個矩陣

𝐴 ∈ ℝ

𝑘×𝑑

左乘時，所得到的新向量 𝐴x ∈ ℝ

𝑘

可

視為對原始向量的一次線性變換。這個變換可能發生在同一維度空間中，也可能

將向量投射至另一個維度的空間中，其幾何意義包含：

 縮放（

Scaling）：

 調整向量在各個方向上的長度，改變其尺度但不改變方向。

 旋轉（

Rotation）：

 改變向量的方向而不改變其長度，常見於正交變換或特徵對齊。

 剪切（

Shearing）：

 使向量方向在空間中產生傾斜變化，常出現在非對角矩陣的變換中。

 投影（

Projection）：

 將高維向量投射到某個子空間（如主成分空間或分類超平面），保留對

任務最有意義的資訊。

這些操作可以理解為對原始特徵空間的「重構」或「重新編碼」

，其目的在於

讓資料在轉換後的空間中更利於模型處理。例如，透過適當的線性變換，可以強

化資料的分群結構、降低維度冗餘，或提高對特定方向的敏感度。



第三章機器學習基礎數學

3-12

（

2）線性變換與特徵空間重構

特徵空間（

Feature Space）是指資料中各個特徵所張成的數學空間，其中每一

個軸代表一個特徵維度，每一筆資料可視為空間中的一個點。這個空間的幾何結

構不僅描述了資料的分佈狀態，也影響了模型如何進行分類、迴歸或聚類等任務。

透過線性變換，我們可以達到：

 特徵重組：

 將原始特徵做線性組合，產生新的表示（如主成分分析）。

 維度轉換：

 將資料從原始高維空間轉換至低維或嵌入空間（如投影到主成分空間

或隱藏層）。

 方向加權：

 強化模型對於某些方向（變數組合）的敏感性。

舉例，在主成分分析（

PCA）中，我們即是透過找出一組能最大化資料變異

量的正交向量基底，將原始資料透過矩陣乘法映射到這組基底所定義的空間中，

達到降維與特徵重組的目的。

（

3）線性變換在機器學習模型中的出現形式

 線性迴歸與邏輯迴歸：

 𝑦 = w

⊺

x + 𝑏 本質為一維線性投影，將多維特徵向量投射到一條直線上

以進行預測。

 神經網路中的前向傳播：

 每一層的運算如 z

(l)

= W

(l)

(l-1)

+ b

(l)

可視為將上一層輸出透過線性變

換映射至下一層特徵空間，再經過非線性激活。

 嵌入層（

Embedding Layer）：

 將離散類別轉為連續空間的向量表示，其核心操作也是一組特定矩陣的線性

查詢與轉換。



第三章機器學習基礎數學

3-13

 特徵投影與空間壓縮：

 如 LDA（線性判別分析, Linear Discriminant Analysis）

、

Autoencoder 等，

皆仰賴線性變換將高維資料重構為低維潛在向量空間。

在高維資料分析中，資料的維度（特徵數量）往往遠高於模型所需，有時甚

至導致過擬合、計算效率低下或資訊冗餘。矩陣分解（

Matrix Factorization）是一

種有效的數值工具，可將原始矩陣拆解為多個較小且具有結構意義的子矩陣，進

而實現資料降維、壓縮與轉換的目的。

（

1）矩陣分解的核心概念

矩陣分解是指將一個高維矩陣

𝑋 ∈ ℝ

𝑚×𝑛

拆解為數個較小矩陣的乘積，這些

子矩陣在運算上更具可解性，或在幾何上具有特定意涵。分解後的矩陣可視為資

料的潛在結構（如主成分、潛在特徵）之表現，有助於後續的建模與解釋。

（

2）常見的矩陣分解方法與應用

 特徵值分解（

Eigenvalue Decomposition）

 原理：

 適用於對稱方陣，將矩陣分解為一組特徵向量與特徵值的組合形式。

 將矩陣

𝐴 ∈ ℝ

𝑛×𝑛

分解為特徵向量與特徵值的組合形式：

𝐴 = 𝑄⋀𝑄

⊺

其中：

○ 𝑄 是正交矩陣，由 𝐴 的特徵向量（Eigenvectors）構成。

○ Λ 是對角矩陣，對角元素為特徵值（Eigenvalues）。

○ 𝑄

表示矩陣 𝑄 的轉置。簡單來說，就是將 𝑄 的行變成列，列

變成行。



第三章機器學習基礎數學

3-14

 幾何意義：

 特徵值分解找出一組能穩定表示資料在空間中「拉伸方向」的基底，

並量化每個方向的重要性。

 應用場景：

 主成分分析（

PCA）：將資料投影到最大變異方向上，達到降維與資

訊保留的平衡。

 線性判別分析（

LDA）：用於找出最佳分類投影方向，以最大化類別

間差異與最小化類別內變異。

 奇異值分解（

Singular Value Decomposition, SVD）

 原理：

 奇異值分解是一種可應用於任意實數矩陣（不需為方陣）的分解方

法，將矩陣

𝑋 ∈ ℝ

𝑚×𝑛

拆解為三個部分：

𝑋 = 𝑈Σ𝑉

⊺

，其中：

○ 𝑈 ∈ ℝ

𝑚×𝑚

：左奇異向量矩陣（對應樣本方向）

○ Σ ∈ ℝ

𝑚×𝑛

：奇異值對角矩陣（對角線為非負實數，表示各主方向

的重要性）

○ 𝑉 ∈ ℝ

𝑛×𝑛

：右奇異向量矩陣（對應特徵方向）

 幾何意義：



SVD 將原始矩陣轉換為不同空間基底的縮放與旋轉操作，具有極佳

的數值穩定性與資訊解構能力。

 應用場景：

 資料降維：保留前

k 個奇異值與對應向量，近似原始資料（用於 PCA

計算）。

 推薦系統：分解使用者

- 項目矩陣，找出潛在偏好向量。

 潛在語意分析（

Latent Semantic Analysis, LSA）：抽取語料中詞與文

件間的潛在語意結構。

 影像壓縮：只保留主成分影像資訊，降低儲存與運算成本。



第三章機器學習基礎數學

3-15

 非負矩陣分解（

Non-negative Matrix Factorization, NMF）

 原理：

 將非負矩陣

𝑋 ∈ ℝ

𝑚×𝑛

，𝑋 ≥ 0

 分解為兩個非負矩陣乘積的技術：𝑋 ≈ 𝑊𝐻

 其中：

○ 𝑊 ∈ ℝ

𝑚×𝑘

，

𝑊 ≥ 0：表示基底矩陣（可視為潛在特徵）

○ 𝐻 ∈ ℝ

𝑘×𝑛

，

𝐻 ≥ 0：表示各基底的組合係數

 幾何意義：



NMF 將資料視為幾個「可加疊的部件」，提供具備語意解釋力的解

構方式，並能自然引入稀疏性。

 應用場景：

 主題建模（

Topic Modeling）：將文件–詞矩陣分解為主題與詞彙分佈

 生物訊號分析：如腦波分解、基因表現訊號擷取

 影像分析：將影像資料拆解為基本視覺元素

 社群分析：萃取潛在社群結構或互動關聯性

（

3）維度簡化與學習效率的關聯

在機器學習中，資料常包含數十甚至數百個特徵，但實際上並非每個特徵都

對模型預測有貢獻。若將所有特徵無差別地納入建模，不僅會造成運算成本上升，

也容易導致模型過擬合，進而影響預測穩定性與泛化能力。

透過矩陣分解等技術進行「維度簡化」

，可有效將資料壓縮為一組更有代表性

的特徵組合。這些組合捕捉了資料的主要變異方向，同時排除了雜訊與重複資訊，

有助於：

 提升訓練效率：

 減少模型參數量與計算資源需求，加快訓練時間，特別適用於大型資料

集或深度學習模型。



第三章機器學習基礎數學

3-16

 穩定模型表現：

 去除雜訊與共線性問題，有助於降低過擬合風險，提升預測準確度。

 強化資料解釋性：

 轉換後的特徵常具有明確的幾何或語意意義，更容易與業務需求連結，

輔助模型診斷與結果溝通。

 利於視覺化與後續分析：

 在維度降低後，可將資料投影至二維或三維空間中，方便進行資料探

索、群集判斷與異常偵測等任務。

線性迴歸（

Linear Regression）是機器學習中最基礎且最具代表性的監督式學

習模型之一，其核心目的在於找出一條「最佳擬合線」

，用以描述輸入變數與目標

變數之間的線性關係。這條擬合線的建立，即是透過一種稱為「最小平方估計」

的方法所完成。

（

1）最小平方估計的核心概念

最小平方估計（

Ordinary Least Squares, OLS）是一種以「誤差最小化」為目

標的參數估計方法。在進行模型訓練時，會比較模型所預測的值與實際觀測值之

間的差異，並試圖找出一組參數，使這些差異的平方總和達到最小。這樣的方式

不僅能提供穩定且具代表性的模型，也具備清楚的幾何與統計意義。

（

2）幾何觀點下的線性迴歸

從幾何角度來看，線性迴歸的本質是一種投影：我們將輸入資料在特徵空間

中投影到一個最接近實際結果的平面上。這個平面，就是模型所學習到的線性關

係。透過這樣的視角，我們可以理解為何線性迴歸如此直觀，同時又能提供具體

的數學保證。



第三章機器學習基礎數學

3-17

這種幾何結構也說明了為何資料的排列與變異會影響模型的準確性

—資料若

分佈過於分散或存在離群點，擬合出的平面可能會受到扭曲。

（

3）應用情境與特點

線性迴歸雖然簡單，但其應用場景廣泛，常見情境如：

 銷售預測：根據廣告支出或市場活動，預測未來營收。

 醫療風險評估：用年齡、血壓等指標預測患病機率或醫療成本。

 房價估值：將房屋大小、樓層、地點等作為輸入，預測合理價格。

 行為建模：描述某一變數如何受多個條件共同影響。



第三章機器學習基礎數學

3-18

3.3

在機器學習的建模過程中，「訓練模型」本質上就是一個數值優化問題

（

Numerical Optimization Problem）。不論是調整線性模型的權重參數、深度神經

網路的數千萬個連接係數，或是在強化式學習中尋找最適策略，其核心邏輯皆是：

找出一組能讓目標函數（例如損失函數）達到最小或最大值的參數組合。

因此，數值優化技術不僅是模型求解的手段，更深刻地影響模型的學習效率、

穩定性與泛化能力。選擇合適的優化方法、理解其收斂行為與限制，是機器學習

實務中不可或缺的一環。

在機器學習中，模型訓練可視為一個「最佳化問題」

：我們希望找出一組模型

參數，使得模型在訓練資料上的表現最符合預期。這通常是透過最小化某個損失

函數（

Loss Function）來實現的，也就是找到讓誤差最小的參數組合。

為了理解這個過程，首先需掌握最佳化問題的基本構成要素：

（

1）目標函數

目標函數（

Objective Function）是機器學習中訓練流程的核心，用來衡量模型

輸出與實際答案之間的偏差程度，也稱為「損失函數」或「成本函數」

。透過最小

化（或最大化）這個函數，我們能讓模型持續修正參數，朝向預測更準確的方向

前進。

目標函數的形式會根據任務類型而有所不同：



第三章機器學習基礎數學

3-19

 迴歸任務：

 如使用「均方誤差」（Mean Squared Error, MSE）作為目標函數，藉由

懲罰預測值與實際值的平方差，讓模型學會輸出更接近真實的連續數

值。

 分類任務：

 如採用「交叉熵損失」

（

Cross-Entropy Loss）

，透過衡量預測機率分佈與

實際標籤分佈之間的差距，引導模型提升判斷不同類別的信心與準確

率。

 排序與排名任務：

 可使用對比損失（Contrastive Loss）或排序損失（Ranking Loss），以學

習資料之間相對次序的準確性。

選擇適當的目標函數，明確設定模型方向、評估「什麼是好的預測或產出表

現」，對模型訓練方向與效果具決定性影響。

（

2）決策變數

決策變數（

Decision Variables）是模型中可調整的數值參數，亦即學習過程中

需要被「優化」的對象。在不同模型中，這些變數的形式可能不同：

 線性模型：包括權重係數（如迴歸係數）與偏差項。

 神經網路：包含每一層神經元之間的權重與偏差數值，可能達數萬至數千

萬個參數。

 機率模型：如貝氏模型中的條件機率表、生成模型中的潛在變數。

這些變數的取值將決定模型對輸入資料的反應方式，優化過程的本質，就是

持續調整這些參數，讓整體預測更符合學習目標。



第三章機器學習基礎數學

3-20

（

3）可行域

可行域（

Feasible Region）也稱為參數空間，可行域定義了決策變數的合法範

圍，也就是「哪些解是允許的」

。在某些最佳化問題中，我們可能會對變數施加特

定條件，這些限制即構成了參數的可行域。常見情境包括：

 非負條件：

 如非負矩陣分解（NMF）中，所有參數須為正數。

 上限／下限限制：

 防止模型權重過大或過小，穩定訓練行為。

 總和約束：

 某些模型中參數總和需為 1，例如機率分佈。

 稀疏性限制：

 透過限制多數參數為 0（如 L1 正則化），促進模型簡化與可解釋性。

明確定義可行域，有助於排除無效或不可解的解答範圍，使訓練更穩定，也

利於後續的規則化控制。

（

4）函數性質：凸性與可導性

一個最佳化問題的難易度，往往取決於其目標函數的數學性質，其中凸性

（

Convexity）與可導性（Differentiability）是兩個最關鍵的指標：

 凸性：

 如果一個目標函數是凸函數，那麼從任一初始點開始，只要持續往下降

的方向走，最終一定能找到全域最佳解。

 這讓凸問題具有可預期、穩定的求解特性。像線性迴歸、邏輯迴歸等皆

屬於凸問題。

 可導性：

 若函數能夠進行微分，便可透過計算「梯度」來獲得下降方向。這是大

多數優化器（如梯度下降法）能正常運作的前提。



第三章機器學習基礎數學

3-21

 若函數在某些區段不可導，則可能造成訓練不穩或收斂困難。

 非凸問題：

 如神經網路中的損失函數，常存在多個局部最小值與鞍點。

 這使得優化過程充滿不確定性，但若使用適當初始化、動量機制與調整

策略，依然能取得效果良好的解。

（

5）機器學習脈絡中的應用

在實務中，機器學習的訓練流程幾乎都可形式化為最佳化問題，根據模型結

構與資料性質的不同，可大致區分為：

 線性模型訓練：

 問題結構簡單、可解析求解，訓練速度快且具有理論保證。

 深度學習模型：

 屬於大規模非凸問題，需依賴數值演算法進行逼近式學習，常見工具包

括

SGD、Adam、RMSprop 等。

 生成模型與策略學習：

 如生成對抗網路（GAN）、強化式學習等，最佳化目標可能涉及對抗損

失、期望值最大化等複雜結構，需搭配啟發式搜尋或抽樣估計等技術。

在機器學習中，模型訓練的核心任務是「學習一組參數，使預測結果最符合

實際資料」。這個過程仰賴損失函數（

Loss Function）的設計與計算。損失函數是

連結資料、模型與學習目標之間的橋梁，提供一個可度量的依據，讓演算法知道

「預測得好不好」，並根據這個評價反覆修正參數。

（

1）損失函數的設計意義

損失函數不僅是誤差的量化工具，更深層地體現了學習目標的策略偏好與風

險容忍度。其設計決定了模型在學習過程中：



第三章機器學習基礎數學

3-22

 如何看待不同型態的錯誤，例如假陽性與假陰性的權重差異。

 哪些誤差應被放大懲罰，哪些則可容忍。

 參數調整的方向與幅度，進而影響整體的收斂行為與學習效率。

選擇合適的損失函數，不僅關係模型性能，更決定模型是否能有效理解任務

本質。

（

2）常見任務與損失函數的對應關係

根據任務性質，損失函數設計可大致歸類如下：

 迴歸任務（預測連續數值）

 均方誤差（MSE）：放大較大誤差的懲罰，適合誤差分佈穩定的情況。

 平均絕對誤差（MAE）

：對極端值較不敏感，適用於含有異常值的資料。

 Huber 損失：結合 MSE 與 MAE 優點，在穩定性與抗雜訊之間取得平

衡。

 分類任務（預測類別標籤）

 交叉熵損失：衡量預測機率與實際標籤的距離，為多數分類模型的標準

選擇。

 對比損失：學習樣本對之間的相似度關係，常用於人臉辨識、語意匹配

等。

 Focal Loss：強化對難分類樣本的學習，特別適合處理資料不平衡問題。

 排序與重建任務

 排序損失：關注資料間的相對順序，常見於搜尋引擎與推薦系統。

 重建損失：計算輸入與輸出間的相似程度，廣泛應用於自編碼器與生成

模型。

（

3）損失函數對學習行為的影響

損失函數的選擇會直接影響模型的學習軌跡與結果品質，示例在迴歸任務中：



第三章機器學習基礎數學

3-23

 使用

MSE，模型會試圖壓低大誤差，有時會過度受到極端值影響。

 使用

MAE，模型對所有樣本誤差給予均等權重，較穩健但學習速度可能

較慢。

 不當選擇損失函數（例如分類問題使用迴歸損失）

，將導致模型訓練無效，

甚至完全無法收斂。

損失函數不只是效能評估的指標，更是學習過程的「導航器」

，引導模型在複

雜問題空間中朝正確方向學習。

在機器學習中，模型學習的過程就是一種優化問題：透過不斷調整參數，使

損失函數的值最小化。為了實現這個目標，我們需要一套能有效引導參數更新的

「優化演算法（

Optimization Algorithm）」

。這些演算法負責判斷每次應該往哪個方

向移動、該移動多遠，以逐步接近最佳解。

不同的優化演算法在更新方式、計算效率、收斂行為上各有特色，選擇合適

的演算法往往對訓練效率與結果表現有決定性影響。

（

1）基礎方法：梯度下降及其變形

此類方法聚焦於「基本梯度計算與參數更新流程」

，透過梯度資訊找到一個能

使損失函數下降的方向與步長，是機器學習中早期核心的優化技術。常見方法如

下：

 梯度下降法（

Gradient Descent, GD）

 概念：

 使用整個訓練資料集計算損失函數的梯度，沿梯度方向更新參數。

 特點：

 更新穩定、能準確反映全體資料的平均方向，但計算成本高、訓練速

度慢。

序 為提供授課教師及考生掌握評鑑方向，準備有所依循

序為提供授課教師及考生掌握評鑑方向，準備有所依循