標準化測驗的選擇與解釋
新北市秀山特殊教育資源中心
主任
黃俊榮
於
25期心評人員研習
內容大綱
評量基本概念
壹
鑑定基準、構念與評量方式
貳
標準化測驗的選擇與解釋
參
2
評量
做與學生有關的決定時,依
決策目的
而進行的資料收集過程。
—Salvia & Ysseldyke
3
不同決策目的,不同評量重點與方式
不同決策目的
篩選:全面性發現未覺察的問題
監控進步情形:學生是否適切的進步
調整教學計畫:教什麼?如何教?合理期待為何?
分配資源:學生是否需要資源與支持以達有效學習
方案執行成效:補救教學/學習扶助成果
績效責任:是否達到期望的成果
確認是否符合特殊教育資格(鑑定)
達到障礙基準
有特殊學習需求
4
測驗是評量(Assessment)方式之一
文件資料檢視與分析
晤談
觀察
工作/作業(task)樣本實作
測驗
標準化測驗:標準化程序+信效度檢驗+常模
自編測驗
測得對,測到重點
如何反映(解釋)學生的表現
5
執行心評工作時,測驗有其限制
心評時,需靠評量資料做決定和給教學建議
特教資格與障別
教育安置方式
相關支持服務
符應問題與需求的教學建議
單靠標準化測驗分數,無法完成這些決定
單憑身心障礙證明/醫療診斷證明,以不能
完成這些決定。
6
以鑑定為目的的評量
鑑定時,通常會遇到兩種個案
已經接觸過,教學過一段時間的個案
決定要提鑑定確認資格前,你已經知道什麼?有什麼
資料?
接著要做什麼?
沒有深入接觸的個案:
從前一教育階段轉銜
導師或家長要申請鑑定取得資格
你手上有什麼資料?
接著要做什麼?
7
想想,新北市為何強調學生輔導機制
不同收集資料取徑(approach)
全方位收集 vs.聚焦問題收集
先廣泛收集資料,再根據初步分析後的結果,
決定是否再收集其他資料。
你已經初判個案是哪種障礙,依據該障別的鑑
定基準收集資料。
哪一種取徑適合你?
接觸過哪些學生的經驗、對障礙特質的正確理
解程度。
不管走哪條路,小心「亡鈇意鄰」效應
8
鑑定基準與評量
決定特殊教育資格必須依據障礙的鑑定基準
鑑定辦法對
概念性定義成因與障礙表現描述
操作性標準(基準)構成要件、符合障礙的
標準
鑑定基準在說什麼?
指出應該評量的「構念」
指出要符合哪些條件,多嚴重才稱為「障礙」
9
鑑定基準與評量
難在:
這些構念是什麼意思?
智力、閱讀理解、視野、知覺動作、注意力、情緒、適應
行為、社會互動、溝通
…
這些構念要怎麼評量?怎麼收集資料?
問題、困難到障礙是一條連續線;心評需要做
決定,並說明這個決定是合理的。
多嚴重、多顯著困難、表現多差才稱為障礙
請記得,基準是人定的:
如智能障礙定義、自閉症定義的演變
10
從常見的例子開始
—智能障礙鑑定
智能障礙的鑑定基準
本法第三條第一款所稱智能障礙,指個人之智能發
展較同年齡者明顯遲緩,且在學習及生活適應能力
表現上有顯著困難者。
前項所定智能障礙,其鑑定基準依下列各款規定:
心智功能明顯低下
或
個別智力測驗
結果未達平均數負二個
標準差。
學生在生活自理、動作與行動能力、語言與溝通、社會人
際與情緒行為等任一向度及學科(領域)學習之表現較同
年齡者有顯著困難情形。
11
從常見的例子開始
—智能障礙鑑定
智能障礙
核心構念是什麼?
達障礙(明顯遲緩、顯著困難)的標準
評量方法、應收集的資料
注意事項
12
從常見的例子開始
—智能障礙鑑定
對於智能障礙的鑑定
什麼的孩子你會想走智能障礙鑑定這條路?
醫學診斷、身心障礙證明/手冊和學生實際表現
的一致性
如果沒有證明,鑑定標準說什麼?
心智功能明顯低下的證據
實施標準化智力測驗以及評估適應行為表現
選擇哪一種智力測驗?
這是智能障礙的鑑定,所以要「標準化個別智
力測驗」。
單一向度、團體的測驗不適合。
13
從常見的例子開始
—智能障礙鑑定
常用標準化個別智力測驗
魏氏兒童智力量表第四版(WISC-IV)
魏氏兒童智力量表第五版(WISC-V)
綜合心理能力測驗(CMAS)
魏氏幼兒智力量表修訂版(WPPSI-R)
魏氏幼兒智力量表第四版(WPPSI–IV)(本市
無)
需要受訓且領有證書才能使用
14
從常見的例子開始
—智能障礙鑑定
這些測驗不建議用在「智能障礙鑑定」
托尼非語文智力測驗(TONI-?)
瑞文氏矩陣推理測驗(彩色、標準)
修訂畢保德圖畫詞彙測驗(PPVT-R)
簡易個別智力量表
不建議使用的理由
測量的構念單一
常模的新近性
可以使用的時機
「估測」大致的智力表現
15
從常見的例子開始
—智能障礙鑑定
使用智力測驗的幾個常見問題
以為個別施測,就是個別智力測驗
用低一層次的測驗推翻高一層測驗的結果
篩選測驗、單一向度測驗 vs. 診斷測驗、多向度測驗
同一測驗在不同時期的測驗結果要如何解釋
相似但不同測驗表現如何解釋
該採全量表還是單一因素指數解釋智力?
分數剛好落在切截點上
遇到無法施測的學生怎麼辦?
釐清是障礙很嚴重?不配合?還是反應受限?
調整反應方式(但可能影響效度)
只好多元評量了
16
從常見的例子開始
—智能障礙鑑定
年齡較高、智力稍高的智能障礙者之鑑定
智力接近臨界值
有些因素指數(或加上信賴區間)高出切截標準
長期教育下,有一定的生活自理能力
具溝通互動能力
此時,適應行為的多元評量很重要!!
17
小結
以上簡報討論哪些議題
18
I
4
I
2
I
3
I
1
I
5
I
10
I
7
I
8
I
6
I
9
I
14
I
12
I
13
I
11
I
15
I
20
I
16
I
19
I
17
I
18
I
21
I
22
效度?
I
7
I
19
I
2
I
15
I
21
常模樣本
施測程序
計分標準
信度
分數解釋
??
??
??
??
測驗
分數
20
標準化測驗編製的歷程
許多誤差來源影響測驗分數能否
準確描述這個人的真實表現
I
7
I
19
I
2
I
15
I
21
I
1
測驗的選擇
鑑定時,常常需要施測標準化測驗,以得到
量化數據做為研判是否達顯著困難的參考,
但選擇測驗要留意:
選擇「對」(適合)的測驗:
測驗的內容是否合適:與要測量的構念相近
測驗是否適合受測的學生?如施測/反應方式的限制,以致無法
測得學生真實表現。
儘量選擇「好」的測驗:
能夠讓你量得準(信度):測驗分數的一致性或穩定性。
測得對(效度):測量欲測量的構念。
分數對得準(常模):常模適切。
21
除了選對使用標準化測驗時,還要:
正確施測
適當的解釋測驗分數:
正確的說明與標準化常模比較後個案的表現。
施測時觀察反應歷程、錯誤類型也很重要。
最後,除了測驗分數,還要參考其他評量資料
做綜合研判。
22
國內可用測驗的品質不一,
解釋時更要謹慎!
正確施測
一定要詳細閱讀測驗指導手冊後施測
標準化:正確的施測方式、實施程序、計時、
計分
如因個案因素需中止、分段實施、調整順序,
應記錄。
如要調整評量方式(如:自己讀改報讀、限時
改不限時完成等)以取得更多個案反應資料,
應在標準化程序後再實施。
23
正確施測:
以適應行為的評量為例
適應行為、情緒、行為等由他人檢核的量表
評定「實際上會不會做」,不是「能做卻不去做」
應由熟悉個案且長期接觸的人評定,如心評本人、
教師或家長。
心評不是計算分數的工具,對他人評定結果必須驗
證,包括和自己經由觀察、晤談、教學所認識的個
案驗證。
評定好不好、適不適當的參照的標準是實足年齡階
段一般學生的行為。
這些檢核表、量表能幫助我們瞭解這個構念;能指
出行為,但從行為徵候做診斷需訓練。
24
正確施測:
以適應行為的評量為例
25
仔 細 參 照 指 導 手 冊
說明給分
心理計量基本概念
—
效度
26
向度A
向度C
向度E
向度D
向度G
向度F
向度B
向度
N…
向度X
向度D
向度A
向度A
向度B
向度C
item
1
item
2
item
5
item
N…
item
3
item
4
item
1
item
2
item
5
item
N…
item
3
item
4
一定要先確認這個測驗
想要測量的構念
效度
—首先一定要知道這個測驗在測量什麼
中華「適應行為」量表:
居家生活:生活自理、家事技能;學校生活:溝通能力、實用知識、獨立自主、安
全衛生;社區生活:社區活動、消費技能、社會技能、休閒活動;工作:動作發展
狀況、工作活動、社會-工作行為
「學校適應」能力量表:
感官能力:視力、聽力;生理動作能力:身體狀況、自我照顧、基本行動、動作協
調;社會情緒能力:情緒、環境適應、團體生活;語言能力:語言理解、語言表
達;學習能力及成就:學習能力、學習態度與習慣、學科成就
「社會適應」表現檢核表:
自我照顧、動作、溝通、社會情緒、學科學習
文蘭「適應行為」量表:
溝通:接受性、表達性、讀寫;日常生活技巧:個人、家庭、社區;社會化:人際
關係、遊戲與休閒、應對進退技巧;動作技巧:粗大動作、精細動作
「適應行為」評量系統第二版(ABAS-II)
溝通、學習功能、自我引導(概念知能);休閒、社交(社會知能);社區應用、
學校生活、健康與安全、自我照顧(實用技巧)
27
向度不完全同
評量目的也不盡相同
心理計量基本概念
—
效度
28
測驗名稱
反應方式
構念(識字)
(黃秀霜,2001)
• 讀出該字 或
• 寫出注音
• 表現
• 識字正確性
•
• 書寫(國字、注音)?
• 認知層面
• 解碼
• 字詞辨識
• 注音(聲韻覺識)
• 詞彙提取
• 部件及組字規則?
(洪儷瑜等,2007)
• 看國字寫出注音
• 看國字造詞(書寫)
(李俊仁)
• 看字讀音
• 看字造詞(口頭)
(洪儷瑜等,2007)
• 看字讀音
• 看字造詞(口頭)
心理計量基本概念
—
效度
能針對設定的測量構念有效的評估
如,以切截分數(cutoff score)找出閱讀障礙,要呈現此分數
是有效的證據。
如,測驗宣稱能幫助課程規劃,則其測驗分數跟剖面圖能準
(item/task)
確找到教學起始點。
構念
—向度—項目(item/task)代表性
受試在項目的反應歷程可代表構念本身反應歷程?
構念的結構與比重
與其他變因(效標)的相關性
整個評量過程都涉及效度:
測驗編製、實施情況、學生表現歷程、評分所得結果、結果
詮釋、詮釋產生的後果、整個過程傳遞的價值
29
心理計量基本概念
—
信度種類
信度是指測驗所得到結果的一致性或穩定性,而
非測驗或量表本身。沒信度沒效度。
穩定性-
重測信度
– 影響因素:個體實質變化、再測練習效果、評量特質短時間內快速變化
(心情、情緒)
可重複性-
複本信度
– 估計的誤差:時間誤差、內容取樣誤差
內部一致性係數:折半法、庫李信度、α係數
– 不能估計速度測驗
– 估計的誤差:內容取樣、內容異質性
觀察者間一致性
由他人評分的量表
30
知道信度概念要做什麼?