iPAS評鑑重點與考題解析手冊

pdf
6.12 MB
127 頁
雅萍
侵權投訴
加載中. ..
PDF
為提供授課教師及考生掌握評鑑方向,準備有所依循,本計畫委
託委員會題庫組及規劃組領域專家,依據各科目評鑑內容進行重點說
明與考題解析。
本手冊為學習指引,旨在提供學習方向與準備參考,並非正式教
材或題庫,亦不保證考試通過之責,建議考生依循考試簡章所公告之
評鑑主題內容,進行充分準備以應試。
如有相關問題,請逕自聯繫 iPAS@itri.org.tw
經濟部產業人才能力鑑定推動小組
敬啟
目錄
.............................................. 1-1
................................................................. 2-1
......................................................... 3-1
3.1 敘述性統計與資料摘要技術 ...................................... 3-2
3.2 機率分佈與資料分佈模型 ........................................ 3-13
3.3 假設檢定與統計推論 ............................................... 3-23
..................................................... 4-1
4.1 數據收集與清理 ......................................................... 4-2
4.2 數據儲存與管理 ......................................................... 4-9
4.3 數據處理技術與工具 ............................................... 4-20
.......................................... 5-1
5.1 統計學在大數據中的應用 .......................................... 5-2
5.2 常見的大數據分析方法 ........................................... 5-10
5.3 數據可視化工具 ....................................................... 5-29
...................................... 6-1
6.1 大數據與機器學 ..................................................... 6-2
6.2 大數據在鑑別式 AI 的應用 .................................. 6-14
6.3 大數據在生成式 AI 中的應用 .................................. 6-25
6.4 大數據隱私保護、安全與合 ................................ 6-30
經濟部為有效提升產業人才素質,近年來持續致力於專業人才培訓發展。為
了更明確產業對各類專業人才的能力需求,特別針對亟需人才的多項重點產業,
邀集產官學專家,發展產業職能基準,提供各界依其內涵辦理培訓課程及規劃能
力鑑定機制。
為完成特定職業(或職類)工作任務,所需具備的能力組合(知識、技能、
AI
AI 應用規劃師
了解 AI 工具的特性及具備使用經以協助企業規劃與推動 AI
術或工具導入,根據企業部門業務需求,評估並選擇適合的 AI
具或解決方案應用於內部流程或產品生命週期整合跨部門團隊
共同制定與執行 AI 導入計畫,進行開發、部署及後續優化
(建議具體以下至少 1項)
1. 大專以上畢業或同等學力。
2. 1
商業智慧等技術應用的工作經驗。
3. 3年以上程式開發或專案管理經驗並曾參與大型專案及具協
助專案管理經驗。
4. 擔任主管職務 1
5. 了解 no code/ low codechatGTP、生成式工具。
6. 此項職能基準範圍為跨產業適用。
5
完整的「AI 應用規劃師」職能基準,
可自右方 QRcode 下載:
第一章 考試科目與評鑑內容
1-1
L21
人工智慧技術應用
與規劃
L211
AI 相關技術應用
L21101 自然語言處理技術與應用
L21102 電腦視覺技術與應用
L21103 生成式 AI 技術與應用
L21104 多模態人工智慧應用
L212
AI 導入評估規劃
L21201 AI 導入評估
L21202 AI 導入規劃
L21203 AI 風險管理
L213
AI 技術應用與系統部署
L21301 數據準備與模型選擇
L21302 AI 技術系統集成與部署
L22
大數據處理分析與
應用
L221
機率統計基礎
L22101 敘述性統計與資料摘要技術
L22102 機率分佈與資料分佈模型
L22103 假設檢定與統計推論
L222
大數據處理技術
L22201 數據收集與清理
L22202 數據儲存與管理
L22203 數據處理技術與工具
L223
大數據分析方法與工具
L22301 統計學在大數據中的應用
L22302 常見的大數據分析方法
L22303 數據可視化工具
L224
大數據在人工智慧之
應用
L22401 大數據與機器學習
L22402 大數據在鑑別式 AI 中的應用
L22403 大數據在生成式 AI 中的應用
L22404 大數據隱私保護、安全與合規
L23
機器學習技術與
應用
L231
機器學習基礎數學
L23101 機率/統計之機器學習基礎應用
L23102 線性代數之機器學習基礎應用
L23103 數值優化技術與方法
L232
機器學習與深度學習
L23201 機器學習原理與技術
L23202 常見機器學習演算法
L23203 深度學習原理與框架
第一章 考試科目與評鑑內容
1-2
L233
機器學習建模與參數
調校
L23301 數據準備與特徵工程
L23302 模型選擇與架構設計
L22303 模型訓練、評估與驗證
L22304 模型調整與優化
L234
機器學習治理
L23401 數據隱私、安全與合規
L23402 演算法偏見與公平性
第二章 考科內容
2-1
本指引將說明中級AI 應用規劃師」科目二之考試內容,包含「大數據處理
分析與應用」之評鑑主題「機率統計基礎」「大數據處理技術」「大數據分析方
法與工具」「大數據在人工智慧之應用」協助考生建立數據處理與分析的核心
能力理解從資料取得清洗分析到應用於 AI 型的完整流程培養結合理論
與實務的數據知識概念與技術應用能力,強化 AI 用規劃上的整體思維與實作
能力。此外,為強化學習成效,每章節將提供多樣化的練習評量,幫助考生自我
測試與檢視學習成果。
第三章 機率統計基礎
3-1
在進行資料分析或建構人工智慧模型之前,對機率與統計的基本觀念必不可
/更新速度內容/格式種類」多元而形成巨大潛力
但若欠缺嚴謹的統計基礎,往往只能停留在表面觀察或簡單趨勢推測,無法進一
步深入理解資料結構、預估未來或進行嚴格的檢定推論。
本章「機率統計基礎」將介紹統計學基礎知識:從描述性統計、機率分佈到
假設檢定與推論技術。即使在大數據時代,這些傳統方法仍是所有高階資料科學
和機器學習模型的重要起點,協助資料使用者:
確立資料基準:
在大量或複雜的資料中,透過描述統計與分佈模型掌握整體特徵、偵測離群
值或偏態。
評估隨機性與不確定性:
理解機率分佈與參數估計的概念,使我們能更客觀地判斷樣本現象是否具代
表性,或判定資料與預期分佈的吻合程度。
進行嚴謹的推論與檢定:
透過假設檢定與信賴區間等技術,進一步對資料背後的真實機制做出科學假
說與合理推論,而非僅依賴直覺或片面統計量。
第三章 機率統計基礎
3-2
3.1
1.
在進行數據分析或機器學習專案前,首先要對資料進行初步的探索與摘要。
若能透過基礎統計量與圖表來快速理解資料的分佈型態、中心趨勢與離散程度,
便有助於後續的特徵選擇、異常偵測與模型設計。
敘述性統計Descriptive Statistics正是這樣數據探索方法著重於「將資料
本身做最直接的總結與可視化」提供一套用來彙整整理並呈現現有資料的技術
其目的不在於做母體推論,而在於快速、清晰地了解樣本資料中有哪些重要特徵
或潛在模式。讓分析人員能在短時間內掌握大局、發現潛在問題或特徵。通常可
分為三大面向:
1Central Tendency):
透過平均數MeanModeMedian等數值刻畫資料「最
常見或核心的位置」,幫助分析者掌握「中心點」或「整體水準」
2Variability/Dispersion):
透過變異數(Variance、標準差(Standard Deviation, SD、全距(Range)、
四分位距(Interquartile Range, IQR)等指標,量化資料分散的程度,並辨識極端
值或偏離情況。例如,標準差大代表波動較大、資料更分散;反之則更集中。
3Shape):
SkewnessKurtosis可觀察資料分佈是否對稱尾部厚度
如何。搭配圖表(如直方圖、箱形圖)能夠快速檢測是否存在偏態或極端尾端。
第三章 機率統計基礎
3-3
透過這三個面向的綜合應用,我們便能從多角度總結原始資料,為後續分析
(如機率分佈檢定、假設檢定、機器學習等)奠定基礎。
2.
在進行「敘述性統計」時,最基礎且關鍵的工作便是明確掌握資料的「中心
位置」「離散程度」中心位置通常透過集中趨勢指標(平均數眾數中位數)
刻畫,而離散程度則以變異數、標準差、四分位距等指標衡量。協助分析人員快
速判斷整體數值分佈是否集中、是否存在極端值,以及可能的偏態現象。下文將
依序介紹這兩大部份,並以範例說明如何應用於真實情境。
1)集中趨勢測量
A. 算術平均(Arithmetic Mean
意義:
以「全部樣本數值的總和」除以「樣本筆數」,展現資料的「整體水準」
當資料相對對稱且無極端值時,算術平均能有效代表多數樣本情況。
計算:
若樣本數量為 n樣本值為 x1, x2, …,xn
=𝑥1+𝑥2++𝑥𝑛
𝑛
優勢:
計算容易概念直覺最常用於報表或指標(如平均銷售額平均月
普及度高:與他人溝通時,算術平均為最易理解的中心值。
侷限:
對極端值敏感:少數離群點可能顯著拉高或降低平均數。
無法呈現分散度:需搭配標準差、IQR 等才能判斷資料是否高度波
動。
第三章 機率統計基礎
3-4
B. 幾何平均(Geometric Mean
意義:
適用於成長率報酬率人口成長等「乘積效應」情況可避免簡單的
算術平均失真的問題。
計算:
若樣本數量為 n樣本值為 x1, x2, …,xn
=(∏𝑥𝑖
𝑛
𝑖=1 )1
𝑛
優勢:
能真實反映連續乘積(如股價成長)的「總體累積效應」
針對百分比或比率型資料更具代表性。
侷限:
需確保資料皆為正值(> 0,不適用於含負數或零的情況。
計算量相對簡單,但解釋上可能不如算術平均直覺。
C. 調和平均(Harmonic Mean
意義:
常用於速率類數據(如行駛速度、油耗),適合整合「效率性」度量,
避免算術平均失真。
計算:
若樣本數量為 n樣本值為 x1, x2,…,xn
調和平均 =𝑛
1
𝑥𝑖
𝑛
𝑖=1
優勢:
對速率或效率類數據較合理。
在需要「逆值」加權的場合,調和平均比算術平均更準確。
第三章 機率統計基礎
3-5
侷限:
不能有零或負值。
一般在非速率環境使用時,意義不顯著。
D. 眾數(Mode
意義:
樣本中出現頻率最高的值對於類別型資料能快速指出「最常見」
類型或群組。
優勢:
適用於類別資料(如產品分類)
易於解釋,可作為市場最受歡迎或最常見指標。
侷限:
連續型資料需先分桶(Bin)才能判斷眾數。
若分佈分散或多峰值,定義眾數會更複雜。
E. 中位數(Median
意義:
取排序後中間位置值,對長尾或極端值不敏感,常用於收入或房價分
析。
計算:
n為奇數:
=𝑥(𝑛+1
2)
n為偶數:
=𝑥(𝑛
2)+𝑥(𝑛
2+1)
2
優勢:
有效對抗極端值。
第三章 機率統計基礎
3-6
侷限:
無法呈現離散度。
2)離散程度測量
在瞭解資料「集中趨勢」還需評估其「變動幅度」「穩定程度」離散
程度指標能協助偵測是否包含極端值、廣度大等問題。
A. 變異數(Variance)與標準差Standard Deviation
意義:
變異數與標準差都是用來衡量資料的分散程度。
變異數是資料偏離平均數的程度標準差則是變異數的平方根
位與原資料相同。
這兩個指標可以告訴我們資料的分佈情況若標準差較大表示資料變
化幅度大,較為分散;反之,標準差較小則資料較為集中。
計算:
若有 N筆資料,
xi 是資料點,μ是平均數
變異數公式
𝜎2=1
𝑁(𝑥𝑖𝜇)2
𝑁
𝑖=1
標準差公式
σ=1
𝑁(𝑥𝑖𝜇)2
𝑁
𝑖=1
優勢:
量化資料的穩定性,標準差小代表資料分散度低。
能為數據集的風險或不確定性提供清晰的衡量。
第三章 機率統計基礎
3-7
侷限:
對極端值(離群值)極為敏感,會顯著影響計算結果。
僅顯示與平均數的距離,若資料分佈偏斜,需要搭配其他指標。
B. 全距(Range、四分位距(IQR、四分位數(Quartiles
意義:
全距是指資料中最大值與最小值之間的差距簡單易懂可以快速顯
示資料的總體範圍。然而,單純的全距可能受到單一極端值(離群值)
的影響。
四分位距(IQR, Interquartile Range):
IQR = Q3 - Q1
Q3 是第三四分位數(75%位置的數據值)
Q1 是第一四分位數(25%位置的數據值)
四分位數(Quartiles
將資料集劃分為四個等份的三個切點,用來描述資料的分佈情況。
四分位數能幫助我們快速了解資料的變異程度,並且能夠有效地識
別異常值。
第一四分位數(Q1):
也稱為下四分位數。
資料中 25%的數據小於這個數值。
第二四分位數(Q2):
也稱為中位數。
將資料集分為兩半。50%的數據位於此數值之下,50%
數值之上。
第三四分位數(Q3):
也稱為上四分位數。
資料中 75%的數據小於這個數值,並且 25%的數據大於此數值。
第三章 機率統計基礎
3-8
優勢:
適合處理含有離群值的資料。
能夠準確反映資料的集中分佈範圍。
侷限:
雖然可以過濾極端值,但不提供資料分佈的具體細節。
C. 箱形圖(Box Plot
意義:
又稱為盒鬚圖盒狀圖用來可視化資料集中趨勢與離散程度的工具
尤其在資料探索階段(Exploratory Data Analysis, EDA)中非常有用。
組成:
中位數(Median):
箱形圖中的水平線,將資料分成兩個等份。這是資料的第二四分位
數(Q2也就是中位數它表示數據集的中間位置50%的數據位
於其上方,50%位於其下方。
第一四分位數(Q1)和第三四分位數(Q3):
Q1(第一四分位數):盒子的下邊界,代表資料中最小的 25%的數
據。
Q3(第三四分位數)盒子的上邊界代表資料中最上層的 25%的數
據。
第三章 機率統計基礎
3-9
四分位距(Interquartile Range, IQR):
IQR = Q3 - Q1
即盒子內部的範圍,它表示資料中間 50%的數據範圍,衡量資料的
變異性。
IQR 較大時表示資料的變異性大; IQR 較小,則表示資料
的變異性較小。
鬚(Whiskers):
鬚用於表示資料的「正常分佈範圍」,用以區分出異常值的邊界值。
須注意若在箱形圖中稱呼上鬚Upper Whisker最大值指的
不包括離群值的最大值因此不見得會是整個資料集的最大值
同理若在箱形圖中稱呼下鬚Lower Whisker最小值,指的
不包括離群值的最小值,不見得會是整個資料集的最小值。
一般計算上:
上鬚(Upper WhiskerQ3 + 1.5 × IQR
下鬚Lower WhiskerQ1 1.5 × IQR
離群值(Outliers):
如果資料超過了鬚的範圍,則被視為離群值。通常用圓點或星形標
註,顯示資料中極端的值。
通常任何超出 Q1 1.5 × IQR Q3 + 1.5 × IQR 的數據會被視為
異常值。
應用:
資料分佈檢視:快速了解資料的分佈情況、集中程度以及變異性。
異常值檢測通過標註的異常值可以發現資料中的極端值進而進行
處理。
比較不同資料集透過多組箱形圖並列能夠快速比較不同資料集之間
的分佈情況、異常值以及數據變異。
第三章 機率統計基礎
3-10
優勢:
直觀且能展示資料的主要特徵(如集中度、分佈範圍與異常值)
無需進行繁瑣的計算,便於快速分析資料結構。
可以有效識別分佈不對稱、極端值與偏態。
侷限:
無法顯示資料的精確形狀或分佈例如若資料呈現多峰分佈箱形圖
無法完全呈現出來。
對於非常大範圍的資料無法提供細節分析只能反映出資料的整體趨
勢。
「集中趨勢」與「離散量度」是敘述性統計中最核心的度量指標。前者讓我
們找到資料的「核心位置」,後者則協助判斷其「波動情形」。掌握這些指標不僅
能在資料前期檢查中提早找出極端值與偏態,同時也是後續(如假設檢定、迴歸
分析或機器學習模式設計)的基礎輔助,確保分析結果能更貼近真實狀況並避免
誤判。
3. Skewness Kurtosis
在前面討論集中趨勢與離散程度後我們仍需要進一步探究「資料分佈形態」
某些分佈可能偏向右側或左側也可能出現尖峰或扁平的尾部分佈這些特徵對分
程、風理、異響。本
偏度與峰度的定義、判斷方式,以及常見的形狀分類。
1偏度(Skewness
偏度(Skewness)是用於衡量資料分佈對稱程度的統計指標,反映資料是否
均勻分佈於平均值兩側或是否存在長尾現象偏度的數值與分佈形狀密切相關
提供資料分佈特性的重要線索。
第三章 機率統計基礎
3-11
正偏態(Positive-skewed):
也稱為右偏態(Right-skewed 0
右側的尾部更長,分佈的主體集中在左側。
見於收入、房價或故障時間等分佈,右側極端值(如高收入者)拉高
2.5顯示少數豪宅價格顯著影響
負偏態(Negtive-skewed):
也稱為左偏態(Left-skewed,偏度小於 0
左側的尾部更長,分佈的主體集中在右側。
常見於集中高值但少數低值的情況例如某設備壽命資料偏度為-1.8
原因為設備部屬早期時出現故障、因此有少數資料拉低平均值。
偏度接近 0
分佈趨近對稱,類似理想常態分佈。
例如某工廠產品重量資料偏度為 0.1,顯示分佈均衡。
2峰度(Kurtosis
Kurtosis也稱為尖度在統計學中衡量實數隨機變數機率分佈的峰態
峰度用於衡量資料分佈「尾部與峰頂的尖銳程度」,亦即某分佈是否「高峰重尾」
「扁平輕尾」根據不同的統計學家峰度的定義有所不同以下以常在統計學
理論中使用之:
第三章 機率統計基礎
3-12
Pearson 定義、常態峰度標準 3」作為說明。
高峰(Leptokurtic
Kurtosis > 3
當峰度大於 3時,稱為高峰分佈(Leptokurtic
這意味著該分佈比常態分佈更加集中於中心,並且有更多的極端值
outliers,即數據中較大(或較小)的值出現機率比常態分佈高。
需要特別留意這類分佈在模型外推或異常檢測中的風險,因為極端值
的存在可能會影響模型的預測結果尤其是在處理預測或迴歸
中峰(Mesokurtic
Kurtosis 3
當峰度接近 3時,稱為中峰分佈(Mesokurtic。這個分佈通常接近於
常態分佈既不過於尖銳也不過於扁平它可以被視為標準的常態分
佈,適合作為比較其他類型分佈的參照。
扁平(Platykurtic
Kurtosis < 3
當峰度小於 3稱為扁平分佈Platykurtic這意味著資料的分佈較
為分散,並且比常態分佈更平坦,沒有太多極端值。
第三章 機率統計基礎
3-13
3.2
1.
在大數據分析中,我們不僅需要從「敘述性統計」層面掌握資料的集中趨勢
與離散度,也需對資料背後的機率特徵與分佈模型有更深入的理解。若能辨識資
料屬於何種理論分佈(例如常態分佈、二項分佈、Poisson 等),便能在後續推論
與假設檢定時做更精準的模型選擇,也利於機器學習演算法或特徵工程優化。本
節即聚焦在常見機率分佈,介紹離散型分佈、連續型分佈的基礎概念。
2.
機率分佈Probability Distribution是描述隨機變數的所有可能值及其相應機
率的數學函數。在統計學與機率論中,機率分佈是用來表示一個隨機實驗結果的
所有可能性及其發生的機率。可以應用於幫助我們理解和預測隨機現象,並用來
計算風險、優化資源配置等。
1)機率分佈的兩個重要數值
機率分佈的兩個重要數值,期望值(Expected Value)與變異數(Variance),
是統計學中衡量隨機變數性質的關鍵指標。
期望值(Expected Value, EX))
期望值是一個隨機變數的加權平均值,它描述的是該隨機變數在多次
試驗中可能出現的平均結果。期望值在統計學中有時被稱為「數學期
望」,代表了隨機變數的長期平均或中心位置。
對於離散型隨機變數 X,期望值的計算公式為:
𝐸(X)=𝑥𝑖𝑃(𝑥𝑖)
𝑛
𝑖=1
第三章 機率統計基礎
3-14
xi為隨機變數 X所有可能取值,Pxi)為對應的機率。
對於連續型隨機變數 X,期望值的計算公式為:
𝐸(𝑋)= 𝑥𝑓(𝑥)
−∞ 𝑑𝑥
其中 fx)是隨機變數 X的機率密度函數(PDF)。
變異數(Variance, VarX))
變異數衡量的是隨機變數取值的分散程度,它反映了數據點偏離期望
值的平均程度變異數越大表示隨機變數的取值越分散變異數越小
表示隨機變數的取值較為集中。
對於離散型隨機變數 X,變異數的計算公式為:
Var(𝑋)=(𝑥𝑖𝐸(𝑋))2𝑃(𝑥𝑖)
𝑛
𝑖=1
對於連續型隨機變數 X,變異數的計算公式為:
Var(𝑋)= (𝑥𝐸(𝑋))2𝑓(𝑥)
−∞ 𝑑𝑥
隨機變數偏離其期望值的程度,數值越大,表示變數變動範圍越大。
標準差(Standard Deviation:變異數的平方根,便於直觀理解資料的
分佈,並且單位與原資料相同。
2)機率分佈的兩種類型
根據隨機變數的特性,機率分佈可以分為離散型和連續型兩大類:
離散型機率分佈(Discrete Probability Distribution
離散型隨機變數:
值是有限或可數的例如擲骰子的結果123456
商平台每日訂單數012…)。 這些變數的值通常為整數且可能
取值集合是明確的。
第三章 機率統計基礎
3-15
離散型機率分佈:
透過機率質量函數(Probability Mass Function, PMF)描述隨機變數
「每一個特定取值的機率」
例如,擲骰子時,PMF PX=1=1/6PX=2=1/6
PMF 總和等於 1
𝑃(𝑋=𝑥𝑖)
𝑥𝑖=1
連續型機率分佈(Continuous Probability Distribution
連續型隨機變數:
值是無限且連續的通常用於描述測量型變數如身高體重時間
或溫度這些變數不僅包含整數還可以是任意實數例如某病患等
待時間可能為 5.3 分鐘或 5.31 分鐘。
連續型機率分佈:
透過機率密度函數Probability Density Function,PDF描述隨機變數
「於某取值範圍內的機率」對於連續型隨機變數 XPDF 必須滿足
以下條件:
𝑃(𝑎𝑋𝑏)=𝑓(𝑥)
𝑏
𝑎𝑑𝑥
其中,
fx是隨機變數 X的機率密度函數PDF描述了隨機變數在
區間[a, b]內的機率。
3)機率分佈的應用
機率分佈是統計學和機率論的核心工具之一,廣泛應用於各個領域,示例應
用如:
風險管理在金融領域投資者可以根據資產的機率分佈來計算風險和報
酬,進行資產配置和風險控制。
第三章 機率統計基礎
3-16
品質控制製造業使用常態分佈來描述產品的測量數據進行品質檢查和
控制。
預測分析根據過去的數據利用機率分佈來預測未來事件的可能性
在各行各業中都很常見,如銷售預測、需求預測等。
3.
1)伯努利分佈(Bernoulli Distribution
定義:
伯努利分佈是一種描述單次試驗中只有兩種結果(成功與失敗)的離散
型分佈。它是二項分佈的特例,當試驗次數 n=1 時,便可使用伯努利
分佈來描述。
數學公式:
P (X = 1) = pP ( X = 0) = 1 - p
p是成功的機率,X只能取 0(失敗)或 1
期望值與變異數:
E (X) = p
Var (X) = p (1 - p)
應用示例:
單個產品的品質檢測是否合格(1 = 合格,0 = 不合格)
使用者是否點擊廣告(1 = 點擊,0 =
侷限:
僅適用於單次試驗的情況,無法擴展到多次試驗。
2Binomial Distribution
定義:
二項分佈描述的是在固定次數 n的獨立試驗中,每次試驗成功的機率
p,並記錄成功的次數 X
第三章 機率統計基礎
3-17
二項分佈適用於多次獨立試驗中成功次數的計算。
數學公式:
𝑃(𝑋 = 𝑘)= (𝑛
𝑘)𝑝𝑘(1 𝑝)𝑛−𝑘𝑘 = 0,1,,𝑛
n:表示試驗的總次數(固定的正整數)
p:表示每次試驗成功的機率,範圍是 0 p 1
k:表示期望成功的次數,且 k是介於 0n之間的整數。
(𝑛
𝑘) 二項係數,表示從 n次試驗中選出 k次成功的方式數,
計算公式為:
(𝑛
𝑘) = 𝑛!
𝑘!(𝑛 𝑘)!
期望值與變異數:
E (X) = np
Var (X) = np ( 1 - p)
應用示例:
電商投放 n則廣告,觀察成功(如點擊或購買)的次數。
檢驗 n個產品中合格品的數量。
侷限:
試驗必須是獨立的,且成功機率 p固定,若任一條件不滿足,則不適
用。
3Poisson Distribution
定義:泊松分佈用來描述某一事件在固定時間或空間區間內發生次數
的機率分佈平均發生率(速率𝛌
數學公式:
𝑃(𝑋 = 𝑘)=𝜆𝑘𝑒−𝜆
𝑘! 𝑘 = 0,1,
𝛌事件的平均發生率(每單位時間或空間的平均次數)
第三章 機率統計基礎
3-18
k:事件發生的次數
e:自然對數的底數,約為 2.71828
期望值與變異數:
E(X) =
Var(X) =
應用示例:
事件的次數,例如客戶服務中心的來電量、網站的訪問次數。
稀少事件的發生,如設備故障、車禍發生的次數。
侷限:
泊松分佈假設事件發生的平均發生速率𝛌是固定的若發生率隨時間變
化則不適用。
4.
1Normal Distribution
定義:
常態分佈是最常見的連續型機率分佈之一,其數據呈現對稱的鐘形曲
線。它由兩個參數決定均值μ標準差σ,這兩個參數決定了
分佈的中心位置和擴展範圍。
常態分佈常用來描述許多自然現象中的變數行為。
根據中極限定理(Central limit theorem,當樣本量足夠大時,無論
原始資料分佈為何任一組獨立且同分佈的隨機變數其總和或平均值
的分佈都會趨近於常態分佈。
數學公式:
常態分佈的機率密度函數(PDF)為:
𝑓(𝑥)=1
𝜎2𝜋𝑒𝑥𝑝(−(𝑥𝜇)2
2𝜎2)
第三章 機率統計基礎
3-19
期望值與變異數:
E(X) =
Var(X) =
2
應用示例:
身高、體重等自然科學數據通常服從常態分佈。
在金融領域,股票的價格波動、日收益等也可近似常態分佈。
用於假設檢定(如 t檢定、z
侷限:
若數據呈現偏態或長尾(Leptokurtic,則不適合假設常態分佈。
極端值較多的情況下常態分佈不再適用。
2Exponential Distribution
定義:
指數分佈描述的是事件發生之間的間隔時間,適用於隨機過程中等待
時間的分佈,通常用來描述「等待時間」或「生存時間」
例如機器故障時間電話來電間隔等都可以用指數分佈來建模該分
佈的特徵是記憶性Memoryless未來的事件發生與過去的時間無
關。
數學公式:
指數分佈的機率密度函數(PDF)為:
f (x)=e-xx 0
其中:𝛌是發生率,定義為單位時間內事件發生的平均頻率。
期望值與變異數:
𝐸(𝑋)=1𝜆
Var(𝑋)=1
𝜆2
第三章 機率統計基礎
3-20
應用示例:
描述等待時間,如客服中心接到來電的時間間隔。
機器壽命、零件故障時間等。
排隊理論中的基礎模型。
侷限:
需要假設事件發生率是固定的若隨時間變化指數分佈將不再適用
當發生事件的速率變化時,需選擇更複雜的分佈,如 Weibull 分佈。
3Chi-square Distribution
定義:
卡方分佈是常態分佈的平方和通常用於檢驗假設測量變異數並且
與多種統計檢定(如適配度檢定、獨立性檢定、齊一性檢定)相關。
卡方分佈是一個偏態分佈,且隨著自由度 k的增加,卡方分佈會趨近
常態分佈。
關於自由度(Degrees of Freedom):
定義:
度(Degrees of Freedom, df是統計學中的一個重要概念,指的
是在計算統計量時,「可以自由變動的資料點數量
在許多統計檢定和估計中,自由度的大小會影響檢定的結果
的形狀及其精確度。
示例:
例如在計算樣本標準差時使用了樣本平均值作為已知量這樣就
減少了一個自由度。
卡方分佈中的應用:
k是卡方分佈中的一個重要參數,影響卡方分佈的形狀與
尾部的長度。
當自由度較小時,卡方分佈會有更明顯的偏態。
第三章 機率統計基礎
3-21
當自由度增加時,分佈會逐漸趨近常態分佈。
數學公式:
卡方分佈的機率密度函數(PDF)為:
𝑓(𝑥)=𝑥𝑘
2−1𝑒𝑥
2
2𝑘
2Γ(𝑘2)
𝑥0
其中k是自由度;𝚪是伽瑪函數
期望值與變異數:
E(X) = k
Var(X) = 2k
應用示例:
用於假設檢定,尤其是適配度檢定(Goodness of Fit)和列聯表獨立性
檢定。
測量樣本資料與理論分佈的差異,檢查變數間的獨立性。
侷限:
若自由度 k較小,檢定的準確度可能會受限。
5.
1定義
分佈擬合(Distribution Fitting):
分佈擬合的目的是找出一個合適的數學模型(分佈),來描述我們收
集到的資料例如當我們收集到一大堆的銷售數據我們會想知道這些
數據的分佈形態是什麼樣的。它是像鐘形一樣對稱的(如常態分佈),還
是稀疏事件(如 Poisson 分佈)?我們需要從不同的分佈中選擇一個,來
準確描述我們的數據。
我們進行分佈擬合基本上就是選擇一個適合的分佈來代表資料的樣
然後通過數學方法(比如最大似然估計)找出這個分佈的參數讓它
最好地貼合我們的數據。
第三章 機率統計基礎
3-22
資料建模
資料建模則是將擬合後的分佈應用到現實問題中來進行預測風險
分析或其他決策例如假設我們已經確定了某些業務數據(像是網站點
擊量)符合常態分佈那麼我們就可以利用這個分佈的特性來預測未來的
網站訪問量,或計算出異常情況發生的機率。
在這個過程中資料建模不僅限於描述數據的分佈它還會將這些數
學模型應用到實際的業務情境中比如做出商業預測風險預測或者為
機器學習模型提供更準確的數據特徵。
2步驟
分佈擬合的成功取決於資料特性與假設的匹配,以下為關鍵條件與考量:
資料型態確認:
需先判斷資料屬於離散型還是連續型(如交易金額)
離散型資料適用於計數變數,如某製造企業分析每日故障次數。
連續型資料則適用於測量變數,例如某醫療機構分析病患等待時間。
模型候選選擇:
根據資料特性選取分佈。
若資料呈現偏態或長尾(如收入資料偏度 2.5
或重尾分佈(如 t
若事件稀少且獨立(如每小時客服投訴),則泊松分佈較合適。例如,
某金融機構分析交易頻率發現事件稀疏選用泊松分佈提升預測準確
性。
獨立性與固定率假設:
二項分佈與泊松分佈假設試驗獨立且機率或發生率固定。
例如某零售企業分析顧客購買行為若促銷活動改變成功率二項分
佈可能失效需改用動態模型實務中需檢查資料是否滿足假設
如使用自相關Autocorrelation分析確認獨立性。
第三章 機率統計基礎
3-23
3.3
1.
在資料驅動的決策時代中,統計推論(Statistical Inference)扮演著將觀察到
的樣本資訊轉化為對整體母體理解的橋樑角色。無論是在商業分析、醫療研究或
政策制定等領域面對無法全面掌握的資料時如何透過科學的方法「根據部分
推論整體」,便成為資料分析工作的核心任務之一。
本節將聚焦於統計推論中的一項重要工具 - 假設檢定Hypothesis Testing)。
假設檢定是一種形式化的分析程序,用以評估觀察到的樣本結果是否具有統計上
的顯著性,進而對某一特定主張做出判斷。例如,企業是否應更換廣告素材、藥
品是否顯著有效、用戶轉換率是否因介面改版而變動,這些皆可透過假設檢定提
供理性且有依據的結論。
2.
統計推論(Statistical Inference)是以樣本資料為基礎,對整體母體特徵進行
科學性推估的程序在實務中往往無法取得全體資料(例如全人口所有產品
所有事件),因此須藉由統計方法,從具代表性的樣本中獲得合理的估計與判斷
統計推論不僅是資料分析的基石也構成機器學習與大數據分析背後的邏輯支柱
統計推論可概略分為兩大核心分支參數估計Parameter Estimation
Hypothesis Testing兩者雖然目的不同但均依賴機率模型作為推論依據
並對樣本中的不確定性進行量化處理。
收藏 ⬇️ 下載