
序
為提供授課教師及考生掌握評鑑方向,準備有所依循,本計畫委
託委員會題庫組及規劃組領域專家,依據各科目評鑑內容進行重點說
明與考題解析。
本手冊為學習指引,旨在提供學習方向與準備參考,並非正式教
材或題庫,亦不保證考試通過之責,建議考生依循考試簡章所公告之
評鑑主題內容,進行充分準備以應試。
如有相關問題,請逕自聯繫 iPAS@itri.org.tw。
經濟部產業人才能力鑑定推動小組
敬啟

目錄
.............................................. 1-1
................................................................. 2-1
......................................................... 3-1
3.1 敘述性統計與資料摘要技術 ...................................... 3-2
3.2 機率分佈與資料分佈模型 ........................................ 3-13
3.3 假設檢定與統計推論 ............................................... 3-23
..................................................... 4-1
4.1 數據收集與清理 ......................................................... 4-2
4.2 數據儲存與管理 ......................................................... 4-9
4.3 數據處理技術與工具 ............................................... 4-20
.......................................... 5-1
5.1 統計學在大數據中的應用 .......................................... 5-2
5.2 常見的大數據分析方法 ........................................... 5-10
5.3 數據可視化工具 ....................................................... 5-29
...................................... 6-1
6.1 大數據與機器學習 ..................................................... 6-2
6.2 大數據在鑑別式 AI 中的應用 .................................. 6-14
6.3 大數據在生成式 AI 中的應用 .................................. 6-25
6.4 大數據隱私保護、安全與合規 ................................ 6-30

經濟部為有效提升產業人才素質,近年來持續致力於專業人才培訓發展。為
了更明確產業對各類專業人才的能力需求,特別針對亟需人才的多項重點產業,
邀集產官學專家,發展產業職能基準,提供各界依其內涵辦理培訓課程及規劃能
力鑑定機制。
為完成特定職業(或職類)工作任務,所需具備的能力組合(知識、技能、
態度)。
AI
了解 AI 工具的特性及具備使用經驗,以協助企業規劃與推動 AI 技
術或工具導入,根據企業部門業務需求,評估並選擇適合的 AI 工
具或解決方案,應用於內部流程或產品生命週期。整合跨部門團隊,
共同制定與執行 AI 導入計畫,進行開發、部署及後續優化。
(建議具體以下至少 1項)
1. 大專以上畢業或同等學力。
2. 具1年以上從事演算法設計、人工智慧、機器學習、深度學習、
商業智慧等技術應用的工作經驗。
3. 具3年以上程式開發或專案管理經驗,並曾參與大型專案及具協
助專案管理經驗。
4. 擔任主管職務 1年以上。
5. 了解 no code/ low code、chatGTP、生成式工具。
6. 此項職能基準範圍為跨產業適用。
完整的「AI 應用規劃師」職能基準,
可自右方 QRcode 下載:

第二章 考科內容
2-1
本指引將說明中級「AI 應用規劃師」科目二之考試內容,包含「大數據處理
分析與應用」之評鑑主題「機率統計基礎」、「大數據處理技術」、「大數據分析方
法與工具」與「大數據在人工智慧之應用」,協助考生建立數據處理與分析的核心
能力,理解從資料取得、清洗、分析到應用於 AI 模型的完整流程,培養結合理論
與實務的數據知識概念與技術應用能力,強化 AI 應用規劃上的整體思維與實作
能力。此外,為強化學習成效,每章節將提供多樣化的練習評量,幫助考生自我
測試與檢視學習成果。

第三章 機率統計基礎
3-1
在進行資料分析或建構人工智慧模型之前,對機率與統計的基本觀念必不可
少。大數據雖因「資料量、新增/更新速度、內容/格式種類」多元而形成巨大潛力,
但若欠缺嚴謹的統計基礎,往往只能停留在表面觀察或簡單趨勢推測,無法進一
步深入理解資料結構、預估未來或進行嚴格的檢定推論。
本章「機率統計基礎」將介紹統計學基礎知識:從描述性統計、機率分佈到
假設檢定與推論技術。即使在大數據時代,這些傳統方法仍是所有高階資料科學
和機器學習模型的重要起點,協助資料使用者:
確立資料基準:
在大量或複雜的資料中,透過描述統計與分佈模型掌握整體特徵、偵測離群
值或偏態。
評估隨機性與不確定性:
理解機率分佈與參數估計的概念,使我們能更客觀地判斷樣本現象是否具代
表性,或判定資料與預期分佈的吻合程度。
進行嚴謹的推論與檢定:
透過假設檢定與信賴區間等技術,進一步對資料背後的真實機制做出科學假
說與合理推論,而非僅依賴直覺或片面統計量。

第三章 機率統計基礎
3-2
1.
在進行數據分析或機器學習專案前,首先要對資料進行初步的探索與摘要。
若能透過基礎統計量與圖表來快速理解資料的分佈型態、中心趨勢與離散程度,
便有助於後續的特徵選擇、異常偵測與模型設計。
敘述性統計(Descriptive Statistics)正是這樣數據探索方法,著重於「將資料
本身做最直接的總結與可視化」,提供一套用來彙整、整理並呈現現有資料的技術
其目的不在於做母體推論,而在於快速、清晰地了解樣本資料中有哪些重要特徵
或潛在模式。讓分析人員能在短時間內掌握大局、發現潛在問題或特徵。通常可
分為三大面向:
(1)集中趨勢(Central Tendency):
透過平均數(Mean)、眾數(Mode)、中位數(Median)等數值,刻畫資料「最
常見或核心的位置」,幫助分析者掌握「中心點」或「整體水準」。
(2)離散量度(Variability/Dispersion):
透過變異數(Variance)、標準差(Standard Deviation, SD)、全距(Range)、
四分位距(Interquartile Range, IQR)等指標,量化資料分散的程度,並辨識極端
值或偏離情況。例如,標準差大代表波動較大、資料更分散;反之則更集中。
(3)分佈形狀(Shape):
如偏度(Skewness)與峰度(Kurtosis),可觀察資料分佈是否對稱、尾部厚度
如何。搭配圖表(如直方圖、箱形圖)能夠快速檢測是否存在偏態或極端尾端。

第三章 機率統計基礎
3-3
透過這三個面向的綜合應用,我們便能從多角度總結原始資料,為後續分析
(如機率分佈檢定、假設檢定、機器學習等)奠定基礎。
2.
在進行「敘述性統計」時,最基礎且關鍵的工作便是明確掌握資料的「中心
位置」及「離散程度」。中心位置通常透過集中趨勢指標(平均數、眾數、中位數)
刻畫,而離散程度則以變異數、標準差、四分位距等指標衡量。協助分析人員快
速判斷整體數值分佈是否集中、是否存在極端值,以及可能的偏態現象。下文將
依序介紹這兩大部份,並以範例說明如何應用於真實情境。
(1)集中趨勢測量
A. 算術平均(Arithmetic Mean)
意義:
以「全部樣本數值的總和」除以「樣本筆數」,展現資料的「整體水準」。
當資料相對對稱且無極端值時,算術平均能有效代表多數樣本情況。
計算:
若樣本數量為 n,樣本值為 x1, x2, …,xn
算術平均 =𝑥1+𝑥2+⋯+𝑥𝑛
𝑛
優勢:
計算容易、概念直覺:最常用於報表或指標(如平均銷售額、平均月
薪)。
普及度高:與他人溝通時,算術平均為最易理解的中心值。
侷限:
對極端值敏感:少數離群點可能顯著拉高或降低平均數。
無法呈現分散度:需搭配標準差、IQR 等才能判斷資料是否高度波
動。

第三章 機率統計基礎
3-4
B. 幾何平均(Geometric Mean)
意義:
適用於成長率、報酬率、人口成長等「乘積效應」情況,可避免簡單的
算術平均失真的問題。
計算:
若樣本數量為 n,樣本值為 x1, x2, …,xn
幾何平均 =(∏𝑥𝑖
𝑛
𝑖=1 )1
𝑛
優勢:
能真實反映連續乘積(如股價成長)的「總體累積效應」。
針對百分比或比率型資料更具代表性。
侷限:
需確保資料皆為正值(> 0),不適用於含負數或零的情況。
計算量相對簡單,但解釋上可能不如算術平均直覺。
C. 調和平均(Harmonic Mean)
意義:
常用於速率類數據(如行駛速度、油耗),適合整合「效率性」度量,
避免算術平均失真。
計算:
若樣本數量為 n,樣本值為 x1, x2,…,xn
調和平均 =𝑛
∑1
𝑥𝑖
𝑛
𝑖=1
優勢:
對速率或效率類數據較合理。
在需要「逆值」加權的場合,調和平均比算術平均更準確。

第三章 機率統計基礎
3-7
侷限:
對極端值(離群值)極為敏感,會顯著影響計算結果。
僅顯示與平均數的距離,若資料分佈偏斜,需要搭配其他指標。
B. 全距(Range)、四分位距(IQR)、四分位數(Quartiles)
意義:
全距:是指資料中最大值與最小值之間的差距。簡單易懂,可以快速顯
示資料的總體範圍。然而,單純的全距可能受到單一極端值(離群值)
的影響。
四分位距(IQR, Interquartile Range):
IQR = Q3 - Q1
Q3 是第三四分位數(75%位置的數據值)。
Q1 是第一四分位數(25%位置的數據值)。
四分位數(Quartiles)
將資料集劃分為四個等份的三個切點,用來描述資料的分佈情況。
四分位數能幫助我們快速了解資料的變異程度,並且能夠有效地識
別異常值。
第一四分位數(Q1):
○ 也稱為下四分位數。
○ 資料中 25%的數據小於這個數值。
第二四分位數(Q2):
○ 也稱為中位數。
○ 將資料集分為兩半。50%的數據位於此數值之下,50%則位於此
數值之上。
第三四分位數(Q3):
○ 也稱為上四分位數。
○ 資料中 75%的數據小於這個數值,並且 25%的數據大於此數值。

第三章 機率統計基礎
3-8
優勢:
適合處理含有離群值的資料。
能夠準確反映資料的集中分佈範圍。
侷限:
雖然可以過濾極端值,但不提供資料分佈的具體細節。
C. 箱形圖(Box Plot)
意義:
又稱為盒鬚圖、盒狀圖,用來可視化資料集中趨勢與離散程度的工具,
尤其在資料探索階段(Exploratory Data Analysis, EDA)中非常有用。
組成:
中位數(Median):
箱形圖中的水平線,將資料分成兩個等份。這是資料的第二四分位
數(Q2),也就是中位數。它表示數據集的中間位置,50%的數據位
於其上方,50%位於其下方。
第一四分位數(Q1)和第三四分位數(Q3):
Q1(第一四分位數):盒子的下邊界,代表資料中最小的 25%的數
據。
Q3(第三四分位數):盒子的上邊界,代表資料中最上層的 25%的數
據。

第三章 機率統計基礎
3-9
四分位距(Interquartile Range, IQR):
IQR = Q3 - Q1
即盒子內部的範圍,它表示資料中間 50%的數據範圍,衡量資料的
變異性。
當IQR 較大時,表示資料的變異性大;而 IQR 較小時,則表示資料
的變異性較小。
鬚(Whiskers):
鬚用於表示資料的「正常分佈範圍」,用以區分出異常值的邊界值。
須注意,若在箱形圖中稱呼上鬚(Upper Whisker)為“最大值”,指的
是“不包括離群值”的最大值,因此不見得會是整個資料集的最大值;
同理,若在箱形圖中稱呼下鬚(Lower Whisker)為“最小值”,指的
是“不包括離群值”的最小值,不見得會是整個資料集的最小值。
一般計算上:
○ 上鬚(Upper Whisker):(Q3 + 1.5 × IQR)
○ 下鬚(Lower Whisker):(Q1 − 1.5 × IQR)
離群值(Outliers):
如果資料超過了鬚的範圍,則被視為離群值。通常用圓點或星形標
註,顯示資料中極端的值。
通常,任何超出 Q1 − 1.5 × IQR 或 Q3 + 1.5 × IQR 的數據會被視為
異常值。
應用:
資料分佈檢視:快速了解資料的分佈情況、集中程度以及變異性。
異常值檢測:通過標註的異常值,可以發現資料中的極端值,進而進行
處理。
比較不同資料集:透過多組箱形圖並列,能夠快速比較不同資料集之間
的分佈情況、異常值以及數據變異。

第三章 機率統計基礎
3-10
優勢:
直觀且能展示資料的主要特徵(如集中度、分佈範圍與異常值)。
無需進行繁瑣的計算,便於快速分析資料結構。
可以有效識別分佈不對稱、極端值與偏態。
侷限:
無法顯示資料的精確形狀或分佈,例如,若資料呈現多峰分佈,箱形圖
無法完全呈現出來。
對於非常大範圍的資料,無法提供細節分析,只能反映出資料的整體趨
勢。
「集中趨勢」與「離散量度」是敘述性統計中最核心的度量指標。前者讓我
們找到資料的「核心位置」,後者則協助判斷其「波動情形」。掌握這些指標不僅
能在資料前期檢查中提早找出極端值與偏態,同時也是後續(如假設檢定、迴歸
分析或機器學習模式設計)的基礎輔助,確保分析結果能更貼近真實狀況並避免
誤判。
3. Skewness Kurtosis
在前面討論集中趨勢與離散程度後,我們仍需要進一步探究「資料分佈形態」。
某些分佈可能偏向右側或左側,也可能出現尖峰或扁平的尾部分佈。這些特徵對分
析與應用(如機器學習特徵工程、風險管理、異常偵測)有實質影響。本節將介紹
偏度與峰度的定義、判斷方式,以及常見的形狀分類。
(1)偏度(Skewness)
偏度(Skewness)是用於衡量資料分佈對稱程度的統計指標,反映資料是否
均勻分佈於平均值兩側,或是否存在長尾現象。偏度的數值與分佈形狀密切相關,
提供資料分佈特性的重要線索。

第三章 機率統計基礎
3-11
正偏態(Positive-skewed):
也稱為右偏態(Right-skewed),偏度大於 0。
右側的尾部更長,分佈的主體集中在左側。
常見於收入、房價或故障時間等分佈,右側極端值(如高收入者)拉高
平均值。例如,某城市房價資料偏度為 2.5,顯示少數豪宅價格顯著影響
整體分佈。
負偏態(Negtive-skewed):
也稱為左偏態(Left-skewed),偏度小於 0。
左側的尾部更長,分佈的主體集中在右側。
常見於集中高值但少數低值的情況。例如,某設備壽命資料偏度為-1.8,
原因為設備部屬早期時出現故障、因此有少數資料拉低平均值。
偏度接近 0:
分佈趨近對稱,類似理想常態分佈。
例如某工廠產品重量資料偏度為 0.1,顯示分佈均衡。
(2)峰度(Kurtosis)
峰度(Kurtosis)也稱為尖度,在統計學中衡量實數隨機變數機率分佈的峰態。
峰度用於衡量資料分佈「尾部與峰頂的尖銳程度」,亦即某分佈是否「高峰重尾」
或「扁平輕尾」。根據不同的統計學家,峰度的定義有所不同。以下以常在統計學
理論中使用之:

第三章 機率統計基礎
3-12
「Pearson 定義、常態峰度標準 3」作為說明。
高峰(Leptokurtic)
Kurtosis > 3
當峰度大於 3時,稱為高峰分佈(Leptokurtic)。
這意味著該分佈比常態分佈更加集中於中心,並且有更多的極端值
(outliers),即數據中較大(或較小)的值出現機率比常態分佈高。
需要特別留意這類分佈在模型外推或異常檢測中的風險,因為極端值
的存在可能會影響模型的預測結果,尤其是在處理預測或迴歸問題時。
中峰(Mesokurtic)
Kurtosis ≈ 3
當峰度接近 3時,稱為中峰分佈(Mesokurtic)。這個分佈通常接近於
常態分佈,既不過於尖銳,也不過於扁平。它可以被視為標準的常態分
佈,適合作為比較其他類型分佈的參照。
扁平(Platykurtic)
Kurtosis < 3
當峰度小於 3時,稱為扁平分佈(Platykurtic)。這意味著資料的分佈較
為分散,並且比常態分佈更平坦,沒有太多極端值。

第三章 機率統計基礎
3-13
1.
在大數據分析中,我們不僅需要從「敘述性統計」層面掌握資料的集中趨勢
與離散度,也需對資料背後的機率特徵與分佈模型有更深入的理解。若能辨識資
料屬於何種理論分佈(例如常態分佈、二項分佈、Poisson 等),便能在後續推論
與假設檢定時做更精準的模型選擇,也利於機器學習演算法或特徵工程優化。本
節即聚焦在常見機率分佈,介紹離散型分佈、連續型分佈的基礎概念。
2.
機率分佈(Probability Distribution)是描述隨機變數的所有可能值及其相應機
率的數學函數。在統計學與機率論中,機率分佈是用來表示一個隨機實驗結果的
所有可能性及其發生的機率。可以應用於幫助我們理解和預測隨機現象,並用來
計算風險、優化資源配置等。
(1)機率分佈的兩個重要數值
機率分佈的兩個重要數值,期望值(Expected Value)與變異數(Variance),
是統計學中衡量隨機變數性質的關鍵指標。
期望值(Expected Value, E(X))
期望值是一個隨機變數的加權平均值,它描述的是該隨機變數在多次
試驗中可能出現的平均結果。期望值在統計學中有時被稱為「數學期
望」,代表了隨機變數的長期平均或中心位置。
對於離散型隨機變數 X,期望值的計算公式為:
𝐸(X)=∑𝑥𝑖𝑃(𝑥𝑖)
𝑛
𝑖=1

第三章 機率統計基礎
3-14
xi為隨機變數 X的所有可能取值,P(xi)為對應的機率。
對於連續型隨機變數 X,期望值的計算公式為:
𝐸(𝑋)=∫ 𝑥𝑓(𝑥)
∞
−∞ 𝑑𝑥
其中 f(x)是隨機變數 X的機率密度函數(PDF)。
變異數(Variance, Var(X))
變異數衡量的是隨機變數取值的分散程度,它反映了數據點偏離期望
值的平均程度。變異數越大,表示隨機變數的取值越分散;變異數越小,
表示隨機變數的取值較為集中。
對於離散型隨機變數 X,變異數的計算公式為:
Var(𝑋)=∑(𝑥𝑖−𝐸(𝑋))2𝑃(𝑥𝑖)
𝑛
𝑖=1
對於連續型隨機變數 X,變異數的計算公式為:
Var(𝑋)=∫ (𝑥−𝐸(𝑋))2𝑓(𝑥)
∞
−∞ 𝑑𝑥
隨機變數偏離其期望值的程度,數值越大,表示變數變動範圍越大。
標準差(Standard Deviation):變異數的平方根,便於直觀理解資料的
分佈,並且單位與原資料相同。
(2)機率分佈的兩種類型
根據隨機變數的特性,機率分佈可以分為離散型和連續型兩大類:
離散型機率分佈(Discrete Probability Distribution)
離散型隨機變數:
值是有限或可數的,例如擲骰子的結果(1、2、3、4、5、6)或某電
商平台每日訂單數(0、1、2…)。 這些變數的值通常為整數,且可能
取值集合是明確的。

第三章 機率統計基礎
3-15
離散型機率分佈:
透過機率質量函數(Probability Mass Function, PMF)描述隨機變數
「每一個特定取值的機率」。
例如,擲骰子時,PMF 為P(X=1)=1/6,P(X=2)=1/6,
PMF 總和等於 1:
∑𝑃(𝑋=𝑥𝑖)
𝑥𝑖=1
連續型機率分佈(Continuous Probability Distribution)
連續型隨機變數:
值是無限且連續的,通常用於描述測量型變數,如身高、體重、時間
或溫度。這些變數不僅包含整數,還可以是任意實數,例如某病患等
待時間可能為 5.3 分鐘或 5.31 分鐘。
連續型機率分佈:
透過機率密度函數(Probability Density Function,PDF)描述隨機變數
「於某取值範圍內的機率」。對於連續型隨機變數 X,PDF 必須滿足
以下條件:
𝑃(𝑎≤𝑋≤𝑏)=∫𝑓(𝑥)
𝑏
𝑎𝑑𝑥
○ 其中,
f(x)是隨機變數 X的機率密度函數(PDF),描述了隨機變數在
區間[a, b]內的機率。
(3)機率分佈的應用
機率分佈是統計學和機率論的核心工具之一,廣泛應用於各個領域,示例應
用如:
風險管理:在金融領域,投資者可以根據資產的機率分佈來計算風險和報
酬,進行資產配置和風險控制。

第三章 機率統計基礎
3-16
品質控制:製造業使用常態分佈來描述產品的測量數據,進行品質檢查和
控制。
預測分析:根據過去的數據,利用機率分佈來預測未來事件的可能性,這
在各行各業中都很常見,如銷售預測、需求預測等。
3.
(1)伯努利分佈(Bernoulli Distribution)
定義:
伯努利分佈是一種描述單次試驗中只有兩種結果(成功與失敗)的離散
型分佈。它是二項分佈的特例,當試驗次數 n=1 時,便可使用伯努利
分佈來描述。
數學公式:
P (X = 1) = p,P ( X = 0) = 1 - p
p是成功的機率,X只能取 0(失敗)或 1(成功)。
期望值與變異數:
E (X) = p
Var (X) = p (1 - p)
應用示例:
單個產品的品質檢測是否合格(1 = 合格,0 = 不合格)。
使用者是否點擊廣告(1 = 點擊,0 = 未點擊)。
侷限:
僅適用於單次試驗的情況,無法擴展到多次試驗。
(2)二項分佈(Binomial Distribution)
定義:
二項分佈描述的是在固定次數 n的獨立試驗中,每次試驗成功的機率
為p,並記錄成功的次數 X。

第三章 機率統計基礎
3-17
二項分佈適用於多次獨立試驗中成功次數的計算。
數學公式:
𝑃(𝑋 = 𝑘)= (𝑛
𝑘)𝑝𝑘(1 − 𝑝)𝑛−𝑘,𝑘 = 0,1,…,𝑛
n:表示試驗的總次數(固定的正整數)。
p:表示每次試驗成功的機率,範圍是 0 ≦ p ≦ 1。
k:表示期望成功的次數,且 k是介於 0到n之間的整數。
(𝑛
𝑘) 二項係數,表示從 n次試驗中選出 k次成功的方式數,
計算公式為:
(𝑛
𝑘) = 𝑛!
𝑘!(𝑛 − 𝑘)!
期望值與變異數:
E (X) = np
Var (X) = np ( 1 - p)
應用示例:
電商投放 n則廣告,觀察成功(如點擊或購買)的次數。
檢驗 n個產品中合格品的數量。
侷限:
試驗必須是獨立的,且成功機率 p固定,若任一條件不滿足,則不適
用。
(3)泊松分佈(Poisson Distribution)
定義:泊松分佈用來描述某一事件在固定時間或空間區間內「發生次數」
的機率分佈,平均發生率(速率)為𝛌。
數學公式:
𝑃(𝑋 = 𝑘)=𝜆𝑘𝑒−𝜆
𝑘! ,𝑘 = 0,1,…
𝛌:事件的平均發生率(每單位時間或空間的平均次數)

第三章 機率統計基礎
3-18
k:事件發生的次數
e:自然對數的底數,約為 2.71828
期望值與變異數:
E(X) =
Var(X) =
應用示例:
事件的次數,例如客戶服務中心的來電量、網站的訪問次數。
稀少事件的發生,如設備故障、車禍發生的次數。
侷限:
泊松分佈假設事件發生的平均發生速率𝛌是固定的,若發生率隨時間變
化則不適用。
4.
(1)常態分佈(Normal Distribution)
定義:
常態分佈是最常見的連續型機率分佈之一,其數據呈現對稱的鐘形曲
線。它由兩個參數決定:均值(μ)和標準差(σ),這兩個參數決定了
分佈的中心位置和擴展範圍。
常態分佈常用來描述許多自然現象中的變數行為。
根據中央極限定理(Central limit theorem),當樣本量足夠大時,無論
原始資料分佈為何,任一組獨立且同分佈的隨機變數,其總和或平均值
的分佈都會趨近於常態分佈。
數學公式:
常態分佈的機率密度函數(PDF)為:
𝑓(𝑥)=1
𝜎√2𝜋𝑒𝑥𝑝(−(𝑥−𝜇)2
2𝜎2)

第三章 機率統計基礎
3-19
期望值與變異數:
E(X) =
Var(X) =
2
應用示例:
身高、體重等自然科學數據通常服從常態分佈。
在金融領域,股票的價格波動、日收益等也可近似常態分佈。
用於假設檢定(如 t檢定、z檢定等)。
侷限:
若數據呈現偏態或長尾(Leptokurtic),則不適合假設常態分佈。
極端值較多的情況下常態分佈不再適用。
(2)指數分佈(Exponential Distribution)
定義:
指數分佈描述的是事件發生之間的間隔時間,適用於隨機過程中等待
時間的分佈,通常用來描述「等待時間」或「生存時間」。
例如,機器故障時間、電話來電間隔等都可以用指數分佈來建模。該分
佈的特徵是記憶性(Memoryless),即未來的事件發生與過去的時間無
關。
數學公式:
指數分佈的機率密度函數(PDF)為:
f (x)=e-x,x 0
其中:𝛌是發生率,定義為單位時間內事件發生的平均頻率。
期望值與變異數:
𝐸(𝑋)=1𝜆
Var(𝑋)=1
𝜆2

第三章 機率統計基礎
3-20
應用示例:
描述等待時間,如客服中心接到來電的時間間隔。
機器壽命、零件故障時間等。
排隊理論中的基礎模型。
侷限:
需要假設事件發生率是固定的;若隨時間變化,指數分佈將不再適用。
當發生事件的速率變化時,需選擇更複雜的分佈,如 Weibull 分佈。
(3)卡方分佈(Chi-square Distribution)
定義:
卡方分佈是常態分佈的平方和,通常用於檢驗假設、測量變異數,並且
與多種統計檢定(如適配度檢定、獨立性檢定、齊一性檢定)相關。
卡方分佈是一個偏態分佈,且隨著自由度 k的增加,卡方分佈會趨近
常態分佈。
關於自由度(Degrees of Freedom):
定義:
自由度(Degrees of Freedom, df)是統計學中的一個重要概念,指的
是在計算統計量時,「可以自由變動的資料點數量」。
在許多統計檢定和估計中,自由度的大小會影響檢定的結果、分佈
的形狀及其精確度。
示例:
例如,在計算樣本標準差時,使用了樣本平均值作為已知量,這樣就
減少了一個自由度。
卡方分佈中的應用:
自由度(k)是卡方分佈中的一個重要參數,影響卡方分佈的形狀與
尾部的長度。
當自由度較小時,卡方分佈會有更明顯的偏態。

第三章 機率統計基礎
3-21
當自由度增加時,分佈會逐漸趨近常態分佈。
數學公式:
卡方分佈的機率密度函數(PDF)為:
𝑓(𝑥)=𝑥𝑘
2−1𝑒−𝑥
2
2𝑘
2Γ(𝑘2)
,
𝑥≥0
其中:k是自由度;𝚪是伽瑪函數。
期望值與變異數:
E(X) = k
Var(X) = 2k
應用示例:
用於假設檢定,尤其是適配度檢定(Goodness of Fit)和列聯表獨立性
檢定。
測量樣本資料與理論分佈的差異,檢查變數間的獨立性。
侷限:
若自由度 k較小,檢定的準確度可能會受限。
5.
(1)定義
分佈擬合(Distribution Fitting):
分佈擬合的目的是找出一個合適的數學模型(分佈),來描述我們收
集到的資料。例如,當我們收集到一大堆的銷售數據,我們會想知道這些
數據的分佈形態是什麼樣的。它是像鐘形一樣對稱的(如常態分佈),還
是稀疏事件(如 Poisson 分佈)?我們需要從不同的分佈中選擇一個,來
準確描述我們的數據。
我們進行分佈擬合,基本上就是選擇一個適合的分佈來代表資料的樣
子,然後通過數學方法(比如最大似然估計),找出這個分佈的參數,讓它
最好地貼合我們的數據。

第三章 機率統計基礎
3-22
資料建模
資料建模則是將擬合後的分佈應用到現實問題中,來進行預測、風險
分析或其他決策。例如,假設我們已經確定了某些業務數據(像是網站點
擊量)符合常態分佈,那麼我們就可以利用這個分佈的特性來預測未來的
網站訪問量,或計算出異常情況發生的機率。
在這個過程中,資料建模不僅限於描述數據的分佈,它還會將這些數
學模型應用到實際的業務情境中,比如做出商業預測、風險預測,或者為
機器學習模型提供更準確的數據特徵。
(2)步驟
分佈擬合的成功取決於資料特性與假設的匹配,以下為關鍵條件與考量:
資料型態確認:
需先判斷資料屬於離散型還是連續型(如交易金額)。
離散型資料適用於計數變數,如某製造企業分析每日故障次數。
連續型資料則適用於測量變數,例如某醫療機構分析病患等待時間。
模型候選選擇:
根據資料特性選取分佈。
若資料呈現偏態或長尾(如收入資料偏度 2.5),可考慮對數常態分佈
或重尾分佈(如 t分佈)。
若事件稀少且獨立(如每小時客服投訴),則泊松分佈較合適。例如,
某金融機構分析交易頻率,發現事件稀疏,選用泊松分佈提升預測準確
性。
獨立性與固定率假設:
二項分佈與泊松分佈假設試驗獨立且機率或發生率固定。
例如,某零售企業分析顧客購買行為,若促銷活動改變成功率,二項分
佈可能失效,需改用動態模型。實務中,需檢查資料是否滿足假設,例
如使用自相關(Autocorrelation)分析確認獨立性。

第三章 機率統計基礎
3-23
1.
在資料驅動的決策時代中,統計推論(Statistical Inference)扮演著將觀察到
的樣本資訊轉化為對整體母體理解的橋樑角色。無論是在商業分析、醫療研究或
政策制定等領域,面對無法全面掌握的資料時,如何透過科學的方法「根據部分,
推論整體」,便成為資料分析工作的核心任務之一。
本節將聚焦於統計推論中的一項重要工具 - 假設檢定(Hypothesis Testing)。
假設檢定是一種形式化的分析程序,用以評估觀察到的樣本結果是否具有統計上
的顯著性,進而對某一特定主張做出判斷。例如,企業是否應更換廣告素材、藥
品是否顯著有效、用戶轉換率是否因介面改版而變動,這些皆可透過假設檢定提
供理性且有依據的結論。
2.
統計推論(Statistical Inference)是以樣本資料為基礎,對整體母體特徵進行
科學性推估的程序。在實務中,往往無法取得全體資料(例如全人口、所有產品、
所有事件),因此須藉由統計方法,從具代表性的樣本中獲得合理的估計與判斷。
統計推論不僅是資料分析的基石,也構成機器學習與大數據分析背後的邏輯支柱。
統計推論可概略分為兩大核心分支:參數估計(Parameter Estimation)與假設
檢定(Hypothesis Testing),兩者雖然目的不同,但均依賴機率模型作為推論依據,
並對樣本中的不確定性進行量化處理。