1
國家華語測驗推動工作委員會
華語文能力測驗技術報告―2019(1)
聽力測驗、閱讀測驗信效度
2
目錄
內部一致性信度 .................................................................................. 13
測驗訊息量 .......................................................................................... 14
效標關聯效度 ...................................................................................... 20
附件 1 聽力測驗、閱讀測驗正式考試驗測驗訊息量及測量誤差 ................................. 24
附件 2 聽力測驗正式考試驗證性因素分析結果 ............................................................ 28
附件 3 閱讀測驗正式考試驗證性因素分析結果 ............................................................ 32
3
表目錄
表 7 聽力測驗與閱讀測驗各等級門檻測驗訊息量、測量誤差及信度.......................................... 15
表 9 聽力測驗、閱讀測驗整體模式適配度指標摘要表 ................................................................ 20
表 10 聽力測驗自評問卷各題與測驗總分之相關分析 .................................................................. 20
表 11 閱讀測驗自評問卷各題與測驗總分之相關分析 .................................................................. 21
圖目錄
4
壹、前言
「華語文能力測驗」為一套專為母語非華語者所研發的標準化語言能力測驗,
旨在測知華語學習者在實際日常生活中的語言使用能力,故不以任何特定教材為
命題依據。華語文能力測驗的測驗類別包括華語文聽力測驗、華語文閱讀測驗、
華語文口語測驗、華語文寫作測驗以及兒童華語文能力測驗,測驗內容主要針對
各種日常生活情境所設計,題材真實多元,提供語言學習者能夠衡量其語言能力
的國際評量工具。
華語文聽力測驗與閱讀測驗將語言能力分成四等八級,四等分別為準備級、
入門基礎級、進階高階級及流利精通級,每一等又再細分為兩級,分別為準備級
一級、準備級二級、入門級、基礎級、進階級、高階級、流利級、精通級,共八
級。應試者依據自己的學習背景或語言能力選擇合適的等級應考,只要參加一次
測驗,即可同時判斷兩等級程度。此測驗架構不僅能區分應試者是否通過測驗,
更能進一步區分出通過測驗的應試者群的能力高低。對於應試者及試務工作者來
說,更符合經濟效益。
本報告首先簡介華語文聽力測驗與華語文閱讀測驗之能力指標與測驗內容,
再針對本年度華語文測驗實施,聽力測驗、閱讀測驗各等級通過門檻與製卷、成
績公布之標準化流程進行概述。最後分別闡述正式考試之信度及效度分析結果。
5
貳、測驗介紹
一、測驗說明
華語文聽力測驗與華語文閱讀測驗正式考試等級分為四等八級,準備級測
驗(Band Novice)對應
美國外語教學協會指標(ACTFL Proficiency Guidelines)
Novice Low 與 Novice Mid;入門基礎級
(Band A)
、進階高階級
(Band B)
與流
利精通級
(Band C)
則分別對應
歐洲共同語文參考架構(CEFR)A1(Breakthrough)、
A2
(Waystage)
、B1(Threshold)
、B2(Vantage)
、C1(Effective Operational Proficiency)
與 C2(Mastery)
(Council of Europe,2001)
。華語文能力測驗等級為準備級(Band
Novice)
,包括準備級一級(N1)、準備級二級(N2);入門基礎級(Band A),
包括入門級(Level 1)、基礎級(Level 2);進階高階級(Band B),包括進階級
(Level 3)
、高階級(Level 4)
;以及流利精通級(Band C)
,包括流利級(Level
5)
、精通級(Level 6)。
以下將就聽力測驗與閱讀測驗之通過等級能力描述、測驗題型與題數、以
及通過門檻四方面進行介紹。
(一)能力描述
聽力測驗和閱讀測驗各等級通過者所需具備的基本聽力能力和閱讀能力如
下表所示。其中,準備級著重在「語言基本單位的識別能力」;入門基礎級著重
在「日常生活的一般簡易溝通能力」
;進階高階級著重在「語言段落的理解分析
能力」
;流利精通級則著重在「語言使用的廣度與精熟度」
。各等級所應具備的語
言能力說明如表 1:
6
表 1 聽讀測驗基本能力描述
通過等級
聽力測驗能力描述
閱讀測驗能力描述
準備級
一級
在發音清晰、語速緩慢、可重
聽,且有語境支持的情況下,能
辨別出日常生活中與個人切身
相關的高頻詞彙。
在可重複閱讀且有語境支持的
情況下,能辨別出日常生活中與
個人切身相關的高頻詞彙。
準備級
二級
在發音清晰、語速緩慢、可重
聽,且有語境支持的情況下,能
聽懂日常生活中所使用的高頻
詞彙或短語。
在可重複閱讀且有語境支持的
情況下,能理解日常生活中所使
用的高頻詞彙或短語。
入門級
在對方說話緩慢且清晰,並隨時
準備提供協助的前提下,能聽懂
基本短語或常用詞。
在有視覺協助及可重複閱讀的
情況下,能掌握簡單的短語並能
大致理解句子內容。
基礎級
當言語清楚且緩慢的情況下,對
於簡短的言談,能理解內容與掌
握重點。
能理解用日常生活詞彙或工作
常用詞彙寫成的簡短文章。
進階級
當談話內容為與工作、學習、娛
樂相關的熟悉話題,且講話人的
口齒清晰、語音標準時,能了解
內容大意和重要細節。
能讀懂個人感興趣的主題或與
專攻領域相關的文章;前提是文
章以淺白、平鋪直敘的方式寫作
而成。
高階級
對於具有一定篇幅且以標準語
表達的談話內容,包括專攻領域
的技術性討論,不論內容抽象與
否,都能聽懂要點大意。
在 閱 讀 時 具 有 相 當 大 的 自 主
性,能因應不同的文本及目的,
採用不同的閱讀策略和速度。具
備廣泛且可隨時提取的閱讀詞
彙,但對於不常見的慣用語,可
能有理解上的困難。
流利級
能聽懂各種抽象或複雜主題的
話語內容,即使話語結構或關聯
性可能不夠清楚、明確;但在不
熟悉說話人口音的情況下,可能
需要特別確認部分細節。
在有機會重新閱讀困難部分的
情況下,不論主題是否與個人專
攻領域相關,都能讀懂長篇複雜
文本的各項細節。
精通級
能聽懂語言不規範或帶有生僻
專業術語的演講、廣播和報告等
口頭連貫敘述的內容。
能理解幾乎所有書寫語言的形
式,包括抽象、結構複雜或者相
當口語化的文學或非文學作品
等。
7
(二)測驗題型
聽力測驗和閱讀測驗為接收型之語言測驗,兩項測驗均以各等級語言學習
者之能力表現及所預設之測知目標為參考依據,為各等級設計題型。
準備級語言使用者無論在聽力或閱讀的能力上都僅有辨識與抓取高頻詞
彙的能力,需倚賴大量視覺輔助或語言之外的協助,才能了解接收到的訊息。
因此,此階段測驗題型大部分採用圖像式測驗,或提供圖文相輔的視覺輔助,
透過圖片呈現任務。
入門基礎級語言使用者從「詞彙」進入到「句子」與「有組織的篇章材料」。
考量此階段的語言使用者無論在聽力或閱讀的能力上仍需倚賴視覺輔助或語言
之外的協助,才能了解接收到的訊息。因此,此階段測驗題型部分採用圖像式
測驗,或提供圖文相輔的視覺輔助,透過圖片呈現任務。
進階高階級的語言使用者已能掌握日常生活中常見的,或是工作、學習以
及娛樂等熟悉的話題,在此範疇下的,語言使用者應能掌握以標準語表達的聽
力材料、談話內容,或具有一定篇幅的閱讀文本,能理解這些訊息的大意和重
要細節。因此,此等級題型設計中,聽力測驗除較簡短的對話外,也加入較長
篇幅的對話及段落,閱讀測驗則以真實材料和短文為題幹的題型為主,選項皆
以文字呈現,取代圖片設計。
流利精通級的語言使用者具備高度穩定的語言能力,不管文本結構或關聯性
是否清楚明確,都能理解並掌握要點與重要細節。因此針對此階段的應試者,不
論是聽力的文本或閱讀的文本均篇幅較長、體裁更多元,內容取材範圍也更深入
至專業領域的範疇。
綜上所述,華語文聽力測驗準備級分為三個部分:第一部分、第二部分、第
三部分;入門基礎級分為四個部分:看圖回答、問答理解、對話理解與對話,前
三個部分為三選一的單選題,第四部分對話為四選一的單選題;進階高階級和流
利精通級則分為二個部分:對話與段落。
而華語文閱讀測驗準備級分為兩個部分:第一部分、第二部分;入門基礎級
8
分為五個部分:單句理解、看圖釋義、選詞填空、完成段落與閱讀理解;進階高
階級與流利精通級則分為二個部分:選詞填空與閱讀理解。各等級題型分布請見
表 2、表 3:
表 2 聽力測驗題型
測驗等級
題型
準備級
第一部分
第二部分
第三部分
入門基礎級
看圖回答
問答理解
對話理解
對話
進階高階級
對話
段落
流利精通級
對話
段落
表 3 閱讀測驗題型
測驗等級
題型
準備級
第一部分
第二部分
入門基礎級
單句理解
看圖釋義
選詞填空
完成段落
閱讀理解
進階高階級
選詞填空
閱讀理解
流利精通級
選詞填空
閱讀理解
9
(三)通過門檻
華語文聽力測驗與華語文閱讀測驗共透過六次標準設定(standard setting)
程序,以Yes/No Angoff法(Impara & Plake, 1997)設定出入門級、基礎級、進階
級、高階級、流利級與精通級六個等級之通過門檻(藍珮君等人,2013;國家華
語測驗推動工作委員會,2015)。所有參與標準設定之成員均由華語文教學及語
言學領域的專家學者組成,且每一次標準設定程序皆依循相同標準化流程執行。
華語文聽力測驗入門基礎級、進階高階級與流利精通級三等試卷的標準設定結果,
在程序性效度、內部效度二項效度證據均獲得支持,驗證華語文聽力測驗將華語
學習者依其報考等級與測驗表現區分為A1至C2六個等級的有效性。
準備級華語文聽力與閱讀測驗透過標準設定(standard setting)程序,於2017
年5月辦理兩場研究會議,各別邀請華語文、語言學領域專家及資深華語教師,
採用書籤法(Lewis, Miztel, & Green, 1996)制定出準備級一級與準備級二級之通
過門檻。
依據標準設定結果,應試者的測驗結果與等級通過判定依據以量尺分數
(scale score)呈現。量尺分數是將考生能力值透過制定的平均數與標準差進行
轉換而得到的測驗分數,此做法能更有效地確保測驗通過標準,不受各次組卷試
題間的些微難度變化影響。本測驗之量尺分數由測驗專家基於過去參與本會所舉
辦聽力測驗之受測者能力值分布情形,並考量制定量尺分數所需考量的要素
(Dorans, 2000)所訂定。四等測驗之量尺分數滿分皆為80分,而各等級通過分
數如表4 所示:
10
表 4 聽力測驗、閱讀測驗通過分數
測驗等級
通過等級
聽力測驗通過分數
閱讀測驗通過分數
準備級
準備級一級
38
39
準備級二級
59
61
入門基礎級
入門級
41
42
基礎級
60
60
進階高階級
進階級
46
48
高階級
61
64
流利精通級
流利級
50
52
精通級
61
69
11
二、等級對照
圖 1、圖 2 為華語文聽力測驗和閱讀測驗分級方式及與歐洲共同語文參考架
構(CEFR)、美國外語教學協會指標(ACTFL Proficiency Guidelines)之對應關
係
1
。
1
資料來源為本會於 2012 至 2017 年進行之標準設定系列研究成果。
圖 2 閱讀測驗等級對照圖
圖 1 聽力測驗等級對照圖
12
三、測驗標準化流程
華語文能力測驗標準化流程如圖 3 所示,
「測驗標準化」各步驟說明如表 5。
共包含:試題收集、修審、題庫輸入、組預試卷、試題分析、組合正式卷、成績
檢核與口寫評分、考後結果分析等八個步驟,加上對外舉辦的預試考試、正式考
試與考後成績公佈,完成整套「測驗標準化流程」。
1. 試題收集
2. 試題修審
3. 題庫輸入
6. 組合正式卷
4. 組預試卷
7. 成績檢核/口寫評分
5. 試題分析
預試考試
正式考試
成績公佈
8. 考後結果分析
圖 3 測驗標準化流程
表 5 測驗標準化流程說明
項目
說明
1. 試題收集
辦理命題研習;與命題教師進行試
題設計溝通
2. 試題修審
組修審稿、繪圖、三階段審查(會
內初審、專家審查、會內複審)聯
繫審查專家;依據審查意見修稿。
3. 題庫輸入
音檔、影片檔錄製與檢核;試題校
對。
4. 組預試卷
紙筆測驗:製作繁體版與繁簡版題
本;多國語題本。
電腦測驗:題目由題庫產出電子卷
包,放上考試系統進行繁、簡版題
目檢核。
5. 試題分析/
統計數值輸
入
成績檢核;試題統計分析;試題討
論(確定保留的題目將標記為入庫
題,並輸入統計分析數值,以利後
續組正式卷)。
6. 組合正式
卷
紙筆測驗:同「組預試卷」。
電腦測驗:測驗包含 CAT、CBT、
快篩,檢核同「組預試卷」。
7. 成績檢核
各測驗成績報表檢核:聽讀口寫、
兒童測驗與統計分析分別針對考
後各項成績報表進行檢核,確認成
績無誤,對外公告成績。
8. 考後結果
分析
考後各類報表彙整。
進行下列項目分析:正式考試測驗
成績分布及通過比例分析;測驗信
效度分析
13
參、測驗效能分析
華語文聽力測驗與閱讀測驗的組卷方式是依據試題反應理論(Item Response
Theory ; 以 下 簡 稱 IRT ) 而 來 的 , IRT 之 一 重 要 假 設 為 單 向 度 假 設
(uni-dimensionality);亦即測驗中所有題目皆測量相同潛在特質(或能力),當
考生並非靠所欲測知的單一特質(或能力)作答時,單向度 IRT 分析所獲得的試
題參數及考生能力估計值將是偏誤的。上述測驗藉由 Winsteps 3.68.2 版
2
進行單
向度 IRT 分析測驗相關資料,分析結果可區分為信度分析與效度分析。本年度以
五月國內正式考試資料進行分析。
一、 信度分析
以下從內部一致性及測驗訊息量(test information;TI(θ))兩個面向評估聽
力測驗以及閱讀測驗的信度。
(一)內部一致性信度
測驗的信度是指測驗結果的一致性和穩定性,亦即測驗題目是否一致測量到
相同的潛在特質。內部一致性信度是常見的測驗信度評估指標之一,它是指同一
份測驗中所有試題的相關程度有多高。如果所有試題皆測量到相同的目標特質,
那麼每道試題測量結果的相關性應該很高(陳柏熹,2011)
3
,因此,內部一致
性指標可以顯示內容取樣及內容異質性的誤差,以反映內容取樣對於測驗分數的
影響。各級測驗之內部一致性信度將以庫李 20 號公式(Kuder-Richardson)為指
標。
由表 6 顯示,聽力測驗三等級信度係數介於.82 至.83 之間,閱讀測驗信度係
數介於.82 至.90 之間,顯示 108 年度正式測驗之庫李信度大致良好。
2
Linacre, J.M. (2009). Winsteps® (Version 3.68.2) [Computer Software]. Beaverton, Oregon: Winsteps.com.
3
陳柏熹(2011)。心理與教育測驗:測驗編製理論與實務。臺北:精策教育。
14
表 6 聽力測驗與閱讀測驗各等級庫李信度係數
測驗類型
測驗等級
題數
信度係數
聽力
入門基礎級
45
.83
進階高階級
45
.82
流利精通級
46
.83
閱讀
入門基礎級
45
.90
進階高階級
45
.82
流利精通級
46
.88
(二)測驗訊息量
測驗訊息量表示測量精準度,訊息量越高,表示試題對於考生能力的測量精
準度越高。較詳細的理論及公式請見華測會出版之《華語文能力測驗技術報告
2013-1 聽力測驗信效度》
4
第四章第一節。
圖 4、圖 5 為入門基礎級聽力測驗測驗訊息量及測量誤差,其中,測量誤差
均轉換為量尺分數。因篇幅有限,其他測驗類型及等級之測驗訊息量與測量誤差
圖請見附件 1。由圖 4、圖 5 可知,入門基礎級聽力測驗正式考試在通過門檻皆
具有較高的測驗訊息量與較低的測量誤差,並在通過門檻均具有大致良好的信度
係數,顯示測驗信度良好。
聽力測驗與閱讀測驗各等級正式考試通過門檻的測驗訊息量、測量誤差及轉
換後的信度係數如表 7 所示,各等級各項測驗結果相仿,以入門基礎級測驗為例,
聽力測驗入門級與基礎級門檻的測驗訊息量分別為 7.57 與 6.06,測量誤差分別
為 3.63 與 4.06,信度係數分別為.86 與.83;閱讀測驗正式考試入門級與基礎級門
檻的測驗訊息量分別為 8.30 與 7.13,測量誤差分別為 3.47 與 3.74,信度係數分
別為.92 與.91。
4
國家華語測驗推動工作委員會(2015)。華語文能力測驗技術報告 2013-1 聽力測驗信效度。新北市:國家華語測驗推動
工作委員會。
15
圖 4 入門基礎級聽力測驗測驗訊息量
圖 5 入門基礎級聽力測驗測量誤差
表 7 聽力測驗與閱讀測驗各等級門檻測驗訊息量、測量誤差及信度
測驗類型
等級
測驗訊息量
測量誤差
轉換後信度係數
聽力
入門級/基礎級
7.57 / 6.06
3.63 / 4.06
.86 / .83
進階級/高階級
7.71 / 7.10
3.60 / 3.75
.85 / .84
流利級/精通級
9.40 / 7.17
3.26 / 3.73
.84 / .79
閱讀
入門級/基礎級
8.30 / 7.13
3.47 / 3.74
.92 / .91
進階級/高階級
8.58 / 7.14
3.41 / 3.74
.85 / .82
流利級/精通級
9.62 / 6.23
3.22 / 4.01
.89 / .83
16
二、效度分析
為評估試題所測量的能力是否與測驗發展所訂定的架構內容相吻合,且是否
測量到所欲測量的能力,聽力測驗與閱讀測驗的效度分析藉由試題分析、因素分
析,評估測驗的建構效度。聽力、閱讀測驗另透過考生自評能力與測驗表現之間
的關係來評估效標關聯效度。
(一)建構效度
由 IRT 試題分析與驗證性因素分析結果可知,華語文聽力測驗與華語文閱讀
測驗各項測驗各等級皆具有一定之建構效度。
1. IRT 試題分析
由於預試時考生答題動機可能不如正式考試,加上正式考試考生整體能力未
必與試題難度相當,考生整體能力有時高於試題難度,適配度容易有偏低的現象,
因此在正式考試採取較為寬鬆的標準,以 Winsteps 3.68.2 版進行單向度 IRT 分析,
採用 MNSQ 介於 0.6 到 1.4 以及 ZSTD 介於-3.0 到 3.0 的標準評估試題是否與單
向度 IRT 模式適配,亦即 MNSQ 以及 ZSTD 超出設定範圍者,表示題目不符合
單向度 IRT 模式。各項測驗各等級試題適配分布如表 8 所示,聽力測驗三個等級
正式考試試題適配率依序為 80%、87%、98%;閱讀測驗則為 91%、91%、98%;
各次考試的試題適配率皆達到 80%以上,表示大部分試題皆測量到相同構念的華
語文聽力或閱讀能力,具有建構效度。未來將持續追蹤不適配試題於正式卷的分
析結果,不適配次數頻繁的試題後續將修改後重新預試。
表 8 測驗試題適配分布
測驗類型
測驗等級
總題數/向度
適配題數 適配率
聽力
入門基礎級
45
36
80%
進階高階級
45
39
87%
流利精通級
46
45
98%
閱讀
入門基礎級
45
41
91%
進階高階級
45
41
91%
流利精通級
46
45
98%
17
2. 驗證性因素分析
此節使用 Mplus 7.0 版
5
進行驗證性因素分析,使用之估計方法與相關評估指
標請參考華測會出版之《華語文能力測驗技術報告 2013-1 聽力測驗信效度》第
四章第二節。聽力測驗與閱讀測驗各等級的因素結構乃參考 CEFR 聽力和閱讀活
動分項能力描述與測驗題型、內容設計可測得之聽力理解與閱讀理解能力而擬
定。
綜合基本適配度與整體適配度之分析結果,可得出以下結論,兩項測驗之各
等級具有一定的建構效度,各道試題分別可測得不同的分項能力,而各分項能力
間的相關係數達到中度至高度相關,反映測得一致之聽力和閱讀理解能力。由於
篇幅有限,在此僅呈現入門基礎級聽力測驗與閱讀測驗的結果,其餘等級的因素
結構圖及各等級各題因素負荷量等參數請見附件 2、附件 3。
入門基礎級聽力測驗正式考試驗證性因素分析結果如圖 6 所示,各試題的所
屬能力分別為:
1.「在有視覺輔助的前提下,能聽懂簡單的問題」
(LAI_01-14)
2.「在有視覺輔助的前提下,能聽懂日常生活中簡短的對話或宣布,並掌握
關鍵訊息」
(LAI_15-36)
3.「能理解日常生活對話中具體、清楚的訊息」
(LAI_37-45)。
在基本適配指標部分,三因素模式驗證性因素分析結果顯示,試題因素負荷
量介於.11 至.79 之間,平均值為.50,73%的試題因素負荷量達.40 以上;除 LAI_38
與 LAI_41 外,其餘各題因素負荷量統計考驗均達顯著水準(p<.05);潛在變項
間的相關係數分別為.95、.55 及.67。
圖 7 為入門基礎級閱讀測驗因素模式圖,各試題的所屬能力分別為:
1.「能讀懂非常基本、常用的詞彙和簡單的句子」( RAI_01-13, RAI_15,
RAI_16, RAI_18,RAI_26-30)
2.「能在常見的廣告、宣傳品、菜單、時刻表中找到自己所需的特定信息」
5
Muthén, L.K. and Muthén, B.O. (2012). Mplus® (Version 7.0) [Computer Software]. Los Angeles, CA: Muthén & Muthén.
18
(RAI_14, RAI_17, RAI_19,RAI_20, RAI_22, RAI_23)
3.「能讀懂大部分簡單文本(如記敘文、私人信件)中的要點」
(RAI_21,
RAI_24, RAI_25, RAI_31-RAI_45)
。
三因素模式驗證性因素分析結果顯示,試題因素負荷量介於.21 至.82 之間,
平均值為.59,89%的試題因素負荷量達.40 以上;各題因素負荷量統計考驗均達
顯著水準(p<.05);潛在變項間的相關係數分別為.91、.82 及.93。
圖 6 入門基礎級聽力測驗三因素模式
19
圖 7 入門基礎級閱讀測驗三因素模式
透過整體模式適配度分析,可評鑑整個模式與觀察資料的適合程度。首先,
經由卡方自由度比(
χ
2
/df)來評估模式適配度,其原因為卡方分配易受到自由度
與估計參數數量的影響,當自由度越大或所需估計的參數個數越多時,卡方值越
大,造成假設模式適配度不佳的可能性越大,此時卡方值越不能反映理論模式與
觀察資料的適配程度(邱正皓,2011)
6
。由於聽力、閱讀測驗在進行驗證性因
素分析時,自由度大多接近 1,000,且模式估計的參數個數均大於 100,故採取
卡方自由度比來檢視模式適配度結果。由表 9
可知,兩項測驗各等級的卡方自由
度比均小於 3,表示模式適配度良好。絕對適配度評估的分析結果,聽讀測驗平
均概似平方誤根係數(root mean square error of approximation,以下簡稱 RMSEA)
均小於.08,表示大多數模式皆符合絕對適配度指標。增值適配度評估部分,聽
讀測驗各等級測驗的比較適配指標(comparative-fit index,簡稱 CFI)和非規範
適配指標(non-normed fit index,簡稱 NNFI)均接近或大於.90,顯示模式均符
合增值適配度指標。
6
邱皓政(2011)。結構方程模式:LISREL / SIMPLIS 原理與應用。臺北:雙葉書廊。
20
表 9 聽力測驗、閱讀測驗整體模式適配度指標摘要表
測驗類型
檢驗模式
χ
2
/df
RMSEA
CFI
NNFI
聽力
入門基礎級三因素模式
1.22
0.017
.96
.96
進階高階級二因素模式
1.36
0.022
.93
.93
流利精通級二因素模式
1.06
0.020
.93
.93
閱讀
入門基礎級三因素模式
1.53
0.027
.96
.96
進階高階級三因素模式
1.62
0.029
.88
.88
流利精通級二因素模式
1.07
0.021
.96
.95
(二)效標關聯效度
為了瞭解考生對於自己華語能力表現評估與實際測驗表現之間的關聯性,在
聽力測驗與閱讀測驗進階高階級與流利精通級正式考試
7
結束後,請考生各填答
一份自評問卷,就問卷與測驗成績進行相關分析。分析結果顯示,各項測驗考生
自評表現與測驗結果之間大體上皆有正相關存在,顯示具有效標關聯效度。
聽力測驗在進階高階級方面,正式考試考生自評結果與測驗總分的積差相關
係數為.420(p<.01);流利精通級方面,正式考試考生自評結果與測驗總分的積
差相關係數為.906(p<.01),表示自評聽力能力越佳者,其聽力測驗分數越高,
具有效標關聯效度。此外,自評問卷各題回答結果與測驗總分的斯皮爾曼等級相
關分析結果如表 10 所示。進階高階級各題與測驗總分的相關係數介於.247 至.387
之間
(p<.01)
;流利精通級各題與測驗總分的相關係數介於.453 至.640 間(p<.05;
p<.01)
,表示在這些題目中回答可以做到頻率越高的考生,其測驗總分也越高。
詳細問卷內容請見附件 4。
表 10 聽力測驗自評問卷各題與測驗總分之相關分析
進階高階級
(N=162)
Q1
Q2
Q3
Q4
Q5
.387
**
.349
**
.345
**
.247
**
.325
**
流利精通級
(N=25)
Q1
Q2
Q3
Q4
.640
**
.453
*
.521
**
.454
*
**
p<.01
7
入門基礎級因需提供多國語問卷,系統尚無法支援,故先針對進階高階級、流利精通級考生進行調查。
21
閱讀測驗在進階高階級方面,正式考試考生自評結果與測驗總分的積差相關
係數為.450(p<.01);流利精通級方面,正式考試考生自評結果與測驗總分的積
差相關係數為.940(p<.01),表示自評閱讀能力越佳者,其閱讀測驗分數越高,
具有效標關聯效度。將自評問卷各題回答結果與測驗總分進行等級相關分析,結
果如表 11 所示。進階高階級各題與測驗總分的相關係數介於.352 至.421 之間
(p<.01);流利精通級各題與測驗總分的相關係數介於.340 至.667 之間。其中,
流利精通級第一題、第二題、第四題達.05 或.01 顯著水準,表示在這些題目中回
答可以做到頻率越高的考生,其測驗總分也越高。而第三題、第五題與第六題相
關係數未達顯著水準(p>.05)
,有待繼續追蹤考生問卷分析結果,若持續未達顯
著水準,則評估進行修改或刪除。詳細問卷內容請見附件 4。
表 11 閱讀測驗自評問卷各題與測驗總分之相關分析
進階高階級(N=162)
Q1
Q2
Q3
Q4
Q5
.352
**
.414
**
.421
**
.419
**
.387
**
流利精通級(N=25)
Q1
Q2
Q3
Q4
Q5
Q6
.508
**
.667
**
.340
.440
*
.372
.354
**
p<.01
22
肆、結論
本文主要針對華語文聽力測驗和閱讀測驗之能力描述、測驗題型、通過門檻
等方面進行概述,並說明測驗研發、施測和成績公布之標準化流程。同時檢視本
年度全國性正式考試信度與效度之測驗效能評估。
在測驗信度分析方面,藉由內部一致性指標來表示試題間之相關性,以確認
試題皆測量到相同潛在特質的程度為何,以及透過測驗訊息量來表徵測量精準度。
而在測驗效度分析部分,首先,以專家審查及評估各等級試題適切性來確保試題
品質、確認試題內容,因此,可作為「測驗內容效度」證據。接著,經由受測者
作答反應分別進行試題分析及驗證性因素分析,確認由受測者反應所建構出的測
驗架構是否與測驗發展之初所制訂的相同,以提供測驗之建構效度證據,最後,
輔以考生考後自評問卷與測驗結果的相關分析做為「效標關聯效度」證據。經由
信度及效度分析結果,顯示各等級聽讀測驗結果已相當可靠且皆具有建構效度,
發揮了測驗效能。
23
伍、文獻
陳柏熹(2011)。心理與教育測驗:測驗編製理論與實務。臺北:精策教育。
邱皓政(2011)。結構方程模式:LISREL / SIMPLIS 原理與應用。臺北:雙葉書廊。
國家華語測驗推動工作委員會(2014)。華語文能力測驗技術報告 2014 華語文聽
力測驗技術報告。新北市:國家華語測驗推動工作委員會。
國家華語測驗推動工作委員會(2014)。華語文能力測驗技術報告 2014 華語文閱
讀測驗技術報告。新北市:國家華語測驗推動工作委員會。
Council of Europe. (2001). Common European Framework of Reference for
Languages: learning, teaching, assessment (chap.1 & chap.4). Retrieved January
17, 2007, from http://www.coe.int/t/dg4/linguistic/Source/Framework_EN.pdf
Dorans, N. J. (2000). Scaling and scales. In Wainer, H (Eds.), Computerized Adaptive
Testing: A Primer (pp. 135-158). Hillsdale, NJ: Lawrence Erlbaum Associates.
Lewis, D. M., Mitzel, H.C., & Green, D. R. (1996). Standard setting: A bookmark
approach. Paper presented at the Council of Chief State School Officers National
Conference on Large Scale Assessment, Boulder, CO.
Linacre, J.M. (2009). Winsteps® (Version 3.68.2) [Computer Software]. Beaverton,
Oregon: Winsteps.com.
Impara,
J.
C.,
& Plake,
B.
S. (1997). Standard-setting:
An
alternative
approach. Journal of Educational Measurement, 34, 353–366.
Muthén, L.K. and Muthén, B.O. (2012). Mplus® (Version 7.0) [Computer Software].
Los Angeles, CA: Muthén & Muthén.
24
陸、附件
附件 1 聽力測驗、閱讀測驗正式考試驗測驗訊息量及測量誤差
圖 1-1 進階高階級聽力測驗測驗訊息量
圖 1-2 進階高階級聽力測驗測量誤差
25
圖 1-3 流利精通級聽力測驗測驗訊息量
圖 1-4 流利精通級聽力測驗測量誤差
圖 1-5 入門基礎級閱讀測驗測驗訊息量
26
圖 1-6 入門基礎級閱讀測驗測量誤差
圖 1-7 進階高階級閱讀測驗測驗訊息量
圖 1-8 進階高階級閱讀測驗測量誤差
27
圖 1-9 流利精通級閱讀測驗測驗訊息量
圖 1-10 流利精通級閱讀測驗測量誤差
28
附件 2 聽力測驗正式考試驗證性因素分析結果
表 2-1 入門基礎級測驗各題因素負荷量及殘差變異量摘要表
分項能力
試題編號
因素負荷量
標準誤
P 值
在有視覺輔助的前提下,能聽
懂簡單的問題
LAI_01
0.66
0.059
0.000
LAI_02
0.54
0.086
0.000
LAI_03
0.40
0.083
0.000
LAI_04
0.47
0.090
0.000
LAI_05
0.53
0.079
0.000
LAI_06
0.70
0.051
0.000
LAI_07
0.47
0.068
0.000
LAI_08
0.55
0.065
0.000
LAI_09
0.69
0.051
0.000
LAI_10
0.64
0.049
0.000
LAI_11
0.41
0.049
0.000
LAI_12
0.64
0.042
0.000
LAI_13
0.73
0.038
0.000
LAI_14
0.69
0.038
0.000
在有視覺輔助的前提下,能聽
懂日常生活中簡短的對話或宣
布,並掌握關鍵訊息
LAI_15
0.61
0.055
0.000
LAI_16
0.42
0.052
0.000
LAI_17
0.79
0.031
0.000
LAI_18
0.57
0.056
0.000
LAI_19
0.54
0.057
0.000
LAI_20
0.39
0.052
0.000
LAI_21
0.21
0.050
0.000
LAI_22
0.34
0.048
0.000
LAI_23
0.56
0.049
0.000
LAI_24
0.34
0.063
0.000
LAI_25
0.61
0.038
0.000
LAI_26
0.35
0.048
0.000
LAI_27
0.11
0.050
0.023
LAI_28
0.49
0.045
0.000
LAI_29
0.59
0.043
0.000
LAI_30
0.57
0.044
0.000
LAI_31
0.49
0.046
0.000
LAI_32
0.73
0.032
0.000
LAI_33
0.69
0.035
0.000
LAI_34
0.56
0.050
0.000
LAI_35
0.76
0.032
0.000
LAI_36
0.71
0.034
0.000
能理解日常生活對話中具體、
清楚的訊息
LAI_37
0.52
0.067
0.000
LAI_38
0.12
0.077
0.111
LAI_39
0.60
0.061
0.000
LAI_40
0.23
0.078
0.003
LAI_41
0.13
0.067
0.051
LAI_42
0.43
0.070
0.000
LAI_43
0.49
0.076
0.000
LAI_44
0.17
0.081
0.031
LAI_45
0.26
0.073
0.000
29
表 2-2 進階高階級測驗各題因素負荷量及殘差變異量摘要表
分項能力
試題編號
因素負荷量
標準誤
P 值
能理解對話內容及延伸討論的
大意;能掌握對話中重要的訊
息與細節;並能辨識出說話者
的態度、立場與觀點
LBI_01
0.60
0.064
0.000
LBI_02
0.70
0.054
0.000
LBI_03
0.58
0.056
0.000
LBI_04
0.59
0.066
0.000
LBI_05
0.70
0.050
0.000
LBI_06
0.41
0.058
0.000
LBI_07
0.60
0.052
0.000
LBI_08
0.73
0.044
0.000
LBI_09
0.61
0.048
0.000
LBI_10
0.35
0.055
0.000
LBI_11
0.30
0.057
0.000
LBI_12
0.40
0.068
0.000
LBI_13
0.37
0.050
0.000
LBI_14
0.08
0.052
0.125
LBI_15
0.37
0.046
0.000
LBI_16
0.21
0.051
0.000
LBI_17
0.54
0.043
0.000
LBI_18
0.49
0.044
0.000
LBI_19
0.69
0.039
0.000
LBI_20
0.45
0.047
0.000
LBI_21
0.31
0.053
0.000
LBI_22
0.25
0.049
0.000
LBI_23
0.42
0.049
0.000
在聆聽廣播、新聞報導或
宣布時,能理解談話內容的重
點 和 大 意 ; 對 結 構 清 楚 的 演
說,能掌握內容重點和大意
LBI_24
0.25
0.059
0.000
LBI_25
0.39
0.046
0.000
LBI_26
0.39
0.049
0.000
LBI_27
0.26
0.050
0.000
LBI_28
0.23
0.049
0.000
LBI_29
0.56
0.050
0.000
LBI_30
0.41
0.045
0.000
LBI_31
0.76
0.031
0.000
LBI_32
0.47
0.053
0.000
LBI_33
0.61
0.039
0.000
LBI_34
0.71
0.036
0.000
LBI_35
0.59
0.046
0.000
LBI_36
0.39
0.048
0.000
LBI_37
0.31
0.048
0.000
LBI_38
0.37
0.046
0.000
LBI_39
0.15
0.050
0.002
LBI_40
0.35
0.047
0.000
LBI_41
0.60
0.039
0.000
LBI_42
0.37
0.046
0.000
LBI_43
0.58
0.039
0.000
LBI_44
0.63
0.038
0.000
LBI_45
0.13
0.051
0.014
30
表 2-3 流利精通級測驗各題因素負荷量及殘差變異量摘要表
分項能力
試題編號
因素負荷量
標準誤
P 值
能理解並掌握對話中長且複雜
的內容與重要細節,包含說話
者的立場、觀點、看法,以及
隱含的態度
LCI_01
0.50
0.089
0.000
LCI_02
0.64
0.072
0.000
LCI_03
0.34
0.113
0.003
LCI_04
0.50
0.101
0.000
LCI_05
0.28
0.097
0.003
LCI_06
0.51
0.099
0.000
LCI_07
0.71
0.062
0.000
LCI_08
0.68
0.068
0.000
LCI_09
0.70
0.075
0.000
LCI_10
0.50
0.117
0.000
LCI_11
0.63
0.095
0.000
LCI_12
0.43
0.096
0.000
LCI_13
0.54
0.078
0.000
LCI_14
0.56
0.075
0.000
LCI_15
0.48
0.107
0.000
LCI_16
0.42
0.088
0.000
LCI_17
0.61
0.080
0.000
LCI_18
0.35
0.095
0.000
LCI_19
0.51
0.083
0.000
LCI_20
0.34
0.102
0.001
LCI_21
0.43
0.090
0.000
能理解語言形式複雜或帶有專
業術語的各種口頭連貫敘述的
內容
LCI_22
0.10
0.109
0.365
LCI_23
0.57
0.085
0.000
LCI_24
0.27
0.097
0.005
LCI_25
0.18
0.125
0.156
LCI_26
0.50
0.087
0.000
LCI_27
0.46
0.087
0.000
LCI_28
0.49
0.086
0.000
LCI_29
0.56
0.083
0.000
LCI_30
0.62
0.072
0.000
LCI_31
0.53
0.085
0.000
LCI_32
0.49
0.088
0.000
LCI_33
0.41
0.090
0.000
LCI_34
0.50
0.085
0.000
LCI_35
0.67
0.069
0.000
LCI_36
0.23
0.105
0.031
LCI_37
0.59
0.089
0.000
LCI_38
0.27
0.098
0.006
LCI_39
0.16
0.100
0.109
LCI_40
0.03
0.130
0.840
LCI_41
0.48
0.104
0.000
LCI_42
-0.14
0.106
0.181
LCI_43
0.16
0.099
0.098
LCI_44
0.68
0.069
0.000
LCI_45
-0.22
0.105
0.034
LCI_46
0.29
0.103
0.005