
第三題:
在預測(分類)某人是否會辦理信用卡(視為變數 C)的問題中,會辦理信用卡者視為
類別 1,不會辦理信用卡者視為類別 0。評估預測方法好壞會利用到混淆矩陣(confusion
matrix)。其中有四種情況,如下:
請分別回答下列問題:
(一)請依照問題情境,以是否辦理信用卡的方式說明 ROC(Receiver Operating
Characteristic)曲線圖中,X軸、Y軸及圖中四個端點的意義。【10 分】
(二)若分類時,我們考慮兩個變數 A(有兩個類別 1與0)、B(有三個類別 1、2與
3),其條件機率如下:
P(A=1|C=0)=1/4, P(A=0|C=0)=3/4, P(A=1|C=1)=1/7, P(A=0|C=1)=6/7
P(B=1|C=0)=2/7, P(B=2|C=0)=1/7, P(B=3|C=0)=4/7
P(B=1|C=1)=2/3, P(B=2|C=1)=1/3, P(B=3|C=1)=0
P(C=0)=0.3, P(C=1)=0.7
若某人其變數 A類別 0、變數 B為類別 2,請利用單純貝氏法(naïve Bases),
計算出相關機率,並分類其是否會辦理信用卡?【10 分】
(三)使用單純貝氏法需要哪些前提假設?若這些假設不成立,一般會用哪些解決方
式?【5分】
第四題:
某資料中有四個類別變數(Class, Sex, Age, Survived),各類別及其出現的個數如下:
今欲以關聯性分析方法分析其關聯,請回答下列各題:
(一)某關聯 A為 {Sex=Female, Age=Adult} => {Survived=Yes}。請以機率的角度說
明何謂關聯 A的支持度(Support)、信賴度(Confidence)及提升度(Lift)。【15 分】
(二)若此四個變數的四維列聯表如下,請算出關聯 A的支持度、信賴度及提升度。
【10 分】
, , Age = Adult, Survived = No
, , Age = Child, Survived = No
, , Age = Adult, Survived = Yes
, , Age = Child, Survived = Yes