多元化教學評量方案：九年一貫課程下的多元評價體系設計與實施

多元化的教學評量

壹、為什麼要實施多元教學評量？

一、配合政策：

◎九年一貫新課程須實施評量多元化

◎教育部的學生成績考察辦法中規定：學生成績之考查，以獎勵及輔導為原則，就下列十五種評量方式選擇辦理：

1.紙筆測驗 2.口試 3.表演 4.實作

5.資料蒐集整理6.作業 7.報告 8.設計製作

9.鑑賞 10.晤談11.自我評量 12.同儕互評

13.校外學習 14.實踐 15.其他

二、傳統評量的問題：

◎窄化

　　評量被窄化成考試，考試被窄化成紙筆測驗，紙筆測驗被窄化成客觀式測驗。這就是評量的最大問題。如果說，評量必須突破一些什麼，那就是必須突破客觀式測驗、突破紙筆測驗、突破考試，還評量的本來面貌，其原因如下：

（一）客觀不一定合理

　　所謂客觀式紙筆測驗雖然在記分方式方面較客觀，但：

1. 難以測量組織訊息的能力；

2. 難以測量創造思考的能力

3. 難以測量高層思考能力（包括分析、綜合及評鑑能力）

4.偏重測量再認能力而偏廢遷移能力

一般人實際生活所面臨的各種問題，有多少有現成答案可供選擇？又有多少個問題需要我們自己主動想出可能的答案？

5.幾乎完全無法評量情意領域的狀態。

　　過去許多人忽略了我們為此種客觀公平所付出的代價，包括：

1.使學生偏重記憶孤立的訊息而不重視有條理地組織訊息

2.勸退學生的創造力

3.降低學生的思考層次，使注意力花在瑣碎知識的背誦

4.使學生在學校中所習得的解題歷程無法應用到日常生活中的解題歷程

5.窄化學生成敗的標準

6.選擇出來的學生未必是優秀的學生（效度問題）

7.領導學校窄化評量的方式與功能。

所以太過倚賴客觀式測驗，雖然公平，但並不合理。如果為了客觀、公平而可以完全犧牲合理性，那麼升學考試一律改為抽籤或擲骰子，只要請律師團或公正人士監督其客觀性及公平性即可。過去由於太害怕主觀，卻忽略主觀無所不在，因此，主觀無可避免，該避免的是偏見與獨斷。

　　非客觀式測驗或評量，詳列評判標準並取得多位獨立評分者之間的一致（評分者間信度），也能相當有效地避免偏見與獨斷，但為了省資源。辦了廉價教育，付出代價最高的是學生。

（二）考試不等於紙筆測驗

　　考試的方法很多，鮮少採用紙筆測驗以外的方法？最大的原因還是為了節省資源，以及避免主觀的涉入。

（三）評量不等於考試

　　評量的主要功能在診斷學習困難、提供回饋訊息以及改進教學歷程，而非只是評判學生的學業成就的高低，我們應該還評量一個本來的面目，讓學生有多元成功的機會。

二、扭曲

　　部份教育相關人員專業素養不足，導致誤用評量，扭曲其目的，例如：

（一）用評量來顯露自己的學識（考倒學生時就洋洋得意）。

（二）用評量來懲罰學生（學生不乖時就考試）。

三、過度簡化

　　如果一個學生學習動機非常強烈，但是考試結果很不理想，怎麼辦？應該加分嗎？這些問題的存在，是因為我們被迫對每一個學科「只能給一個分數」；如果我們能給二個分數，一個代表「動機分數」，另一個代表「成果分數」，則問題自然消失。

　　為什麼每一學科不能有二個或三個以上的分數？為什麼代表著不同意義的數字非要被加起來不可？如果一個學生的國語科成績評成如下的樣子：

　　1.聽力：96分（能用心傾聽，理解力極強）；
　　2.說話：75分（較害羞，不擅於口頭表達）；
　　3.閱讀：95分（喜歡閱讀，快速而且正確）；
　　4.寫作：85分（文詞平順，，但較缺乏創造）。」

　　能不能不要考試？

在有真假、對錯、是非、好讀、或成敗的世界裡，某種型式的評量永遠不可能消失，而且，評量的正面功能（如診斷、提供學習迴饋以及改進教學歷程等等）也不應該被取消，所以，我們可以不要考試，但無法不要某種型式的評量，評量可以改進；而答案可以多元。

貳、教學評量的發展趨勢？

一個好的評量工具：可以提供學習經驗，並維持高度的興趣，以激勵學生想要將這件是做好的心態。近年來由於認知心理學的勃興，與智力理論的新詮釋，教學評量已逐步淡化心理計量取向，呈現多樣化的風貌。綜合而言，目前教學評量的發展趨勢為：

1.多元與統合化(同時採用多種效標、多種技巧)

2.精緻與歷程化，以J型線取代常態曲線來說明能力的成長情形

3.個別與適性化(由學科知識本位轉移至學習者本位，尊重個別差異，由鑑定取向走向協助取向)

4.脈絡與意義化(重視知識脈絡與生活情境的聯結)

5.科技與智慧化(採用多媒體，運用影像音效、結合人工智慧，進行歷程的追蹤紀錄，並提供建議)

因應上述發展趨勢，當前教學評量的評量方式可概分為四大取向：

1.「知識結構取向」：較細步檢視學生學習的正確率及錯誤類型，作為教學策略選擇的依據。然而，由於以知識為主體，較欠缺精緻性。

2.「情境、行動取向」：如真實評量(authentic assessment)、實作評量(performance assessment)、檔案評量(portfolio assessment)等。此類評量著重真實情境，及問題解決的行動性，較能鑑知學習者的真實潛能及成就。然而不易達成評量的效率

3.「準確、效率取向」：如電腦測驗。此類評量結合資訊科技，評量歷程趣味多樣，且精密標準，時間人力都經濟。然而深受解題歷程的複雜性、電腦硬體設備的支援性及受試者電腦操作的熟練度的影響。

4.「互動、協助取向」：如動態評量(dynamic assessment)，此類評量基於「近側發展區」的理念，強調評量者與受試者高度的互動與協助性，以檢視受試者的高峰表現，並建立積極的自我概念。但目前各類動態評量模式在學科知識的邏輯架構，以及實施的準確及效率上仍然不足。

參、什麼是多元評量？

多元評量，又稱做「另類評量」，是美國九○年代教育界和教育測

量界的熱門課題。也是近年來國內教改的重點之一。

多元化評量（另類評量、變通性評量）強調公平、即時回饋、從不同的角度去看：

1.學生需要在學習活動中表現、製造、或產出某些行為表現。

2.學生必須能做出一些能代表有意義活動之作業。

3.學生能將所學作真實生活的應用。

4.評分以人的判斷為主，而不是使用機械部分。

5.教師在教學與評量的角色必須要革新。

◎如：「實作評量」、「案卷評量」和「動態評量」。

「實作評量」有時也被稱為真實性評量，簡言之，就是以觀察和專業判斷來評量學生學習成就的評量方式，其型式非常的多元化，例如建構反應題、書面報告、作文、演說、操作、實驗、資料蒐集、作品展示等，都是實作評量的例子，案卷評量也是實作評量的一種型式。實作評量具有下列幾點特徵：

1.要求學生執行或製作一些需要高層思考或問題解決技能的事物

2.評量的作業是具有意義性、挑戰性且與教學活動相結合

3.評量的作業能與真實生活產生關聯

4.歷程和作品通常是評量的重點

5.給分標準，要事先確定。

＊實作評量的設計

　　實作評量適用的學科範圍非常的廣，方法也非常多樣化，教師可以根據教學目標和評量的目的，編擬適用的評量計劃。下列是擬定實作評量計劃時需考慮到的幾個重要層面：

　(一)評量的目的是什麼？必先確定目的後，才可以開始進行評量。

　(二)要評量的行為表現是什麼？從下列三方面加以界定：

　　1.重要的學習內容和技能。

　　2.行為表現的性質：

觀察重點是著重於「歷程」或「作品」，或是此二者兼顧？

　　3.判斷的規準和標準：

明確列出行為表現的重要層面和評分標準，例如怎樣的表現

是優異的、普通的或是不佳的。教師要事先和學生就這一項

進行溝通。

　(三)設計作業─如何蒐集資料或學生表現的憑據？

　　1.選擇資料蒐集的型式：

要設計特定的作業來引發學生的表現行為，或者以觀察教室中自然發生的事件來做為評量的依據？如果能夠有系統和客觀地觀察和記錄學生的表現，教室觀察是一種經濟且有效的評量方法。

　　2.決定要資料蒐集的數量：

一次蒐集一個行為樣本、一次蒐集多個行為樣本、或者多次蒐集多個樣本？

　(四)設計評分計劃

　　1.計分的型式：採整體性計分或分析性計分？

　　2.評分者人選：由教師或專業人士來評分，或由學生自評或同儕互評？無論是誰，都應先接受過評分訓練。

　　3.記錄方式：檢核表、評定量表、軼事紀錄、作品集。

（五）設計或選擇實作評量時應考慮的要項：

　　　1.類推性：學生在這個作業的表現可以類推到其他相似項目

　　　2.真實性：作業項目和學生在真實生活中遇到的情境相似

　　　3.多元焦點：作業項目測量的是多元的而非單一的教學結果

　　　4.可授性：學生在這個作業項目的能力的提升是教學所致的

　　　5.公平性：這個作業項目對所有學生都公平

　　　6.可行性：在費用、空間、時間和設備的可行性

　　　7.可評性：評定結果的可信度和準確度

　　案卷評量簡單說，就是學生的作品集，學生每一個人都有一個屬於自己的資料夾，有目的地蒐集個人在某個（些）領域的作品，這作品集以說故事的方式傳達出學生的努力、進步和成就。案卷評量重視學生學習的歷程和對學習的自我反省，是一種相當能適應學生個別差異的評量方式。案卷夾中蒐集的項目包括：

1.經過師生共同討論與決定的學生的作品

2.作品挑選的指導說明書

3.作品判斷的要點

4.學生的自我評鑑。

動態評量的模式主要有六種模式：

1.Budoff(1974)學習潛能評量

2.Feuerstein(1979)學習潛能評量設計

3.Carlson和Wiedl(1978)上極限評量

4.Campione和Brown(1985)漸進提示評量

5.Embretson(1987)心理計量取向動態評量

6.Burns et al.(1987)連續評量

評量的方式都是採用「前測－訓練－後測」的程序實施，最主要的差異是在評量中的訓練階段，各模式分別有不同型態的提示系統，可達成區辨個別差異、提昇解題能力及預測未來表現等三項效益。有別於傳統評量，在理論模式中強化試題設計及提示系統的學科邏輯性、概念引導性、認知統整性及情境遷移性，以提昇並開發評量的多元效益。結構如下：

一、概念主題分析

1.知識迷思的探討

2.發展或調整介入點的分析

二、試題建構

(一)編製原則

1.依學習關聯性歸納導向排序

2.融合日常實用與抽象推理

(二)架構分階

1.學習階段

○概念試探

○引導歸納

2.遷移階段

○近遷移

○遠遷移

三、提示系統設計

(一)設計原則

1.配合認知能力

2.融入解題策略

3.提示內容由抽象而逐步具體

4.提示序階結構化並具有彈性

(二)提示分階

1.自評式題意支援

2.簡單回饋

3.關鍵提示

4.直接教學

四、實施及計分

(一)實施

1.依學習及遷移兩階段進行

2.依結構化提示系統，給予彈性協助

(二)計分

1.合計提示量，評估學習及遷移能力

2.依據選答路徑分析反應及學習組型

◎例：「浮力概念」多元評量的具體設計

(一)學習階段

學習階段依循三個介入點加以設計，含「密度概念的引介」﹑「浮沈原理的歸納」﹑「密度改變與浮沈狀況」等三個層次，分別從「質量」及「體積」兩方面進行引導。試題的編製以歸納性為主，每一項介入主題，均安排「概念試探題」及「引導題」兩類試題，終結時並提供統合歸納及迷你教學。見圖：

缺乏質量保留的觀念：

(1)物體熱脹冷時，重量會改變。

(2)物體受到外力揉擠時，重量會改變。

(3)物體形狀改變時，重量會改變。

缺乏體積保留的觀念：物體形狀改變時，體積會改變。

密度：

(1)缺乏純物質密度恆定的觀念

a 同一種純物質密度未必相同。

b 同一物質，數量增多了，密度會改變。

c 同一物質，形狀改變了，密度會改變。

(2)缺乏物體密度改變的觀念

不知可透過改變體積(如製成空心)或改變質量(如填充內容物)來調整密度。

浮沈原理

(1)以「重量」為判斷浮沈現象的主導因素凡是重的物體，不論其體積大小，均較易在液體中下沈。

(2)以「體積」為判斷浮沈的次要因素如果物體的重量相當，大的物體較易在液體中下沈

「學習階段」層次一：密度概念引介

(一)概念試探題

1.在水槽中，放進一塊切成長方體的黃瓜和一塊揉成正方體的膠泥為什麼黃瓜在水槽中會浮起來，而膠泥卻會沈下去呢？主要原因是這兩樣東西的(　　　)不一樣？請選出你認為正確的答案。

(1)形狀 (2)體積(大小) (3)重量(質量) (4)密度

(二)引導歸納題

2.下列各題中的兩物體，誰比較容易在水中下沈？

1cm³鐵質量：8g、1cm³白塑膠質量：0.9g、8cm³木塊質量：4g

8cm³鋁塊質量：22g、8cm³木塊質量：4g、1cm³黃塑膠塊質量：1.1g

1cm³白塑膠塊質量：64g

※所有試題配合電腦實景畫面進行；引導學生歸納「體積也是影響浮沈情況的重要因素」。

為強化並擴展學生生活實用及抽象思考能力，試題架構包含「日常生活實例」及「抽象推理解題」兩大類別。日常生活實例之遷移題，主要承繼學習題層次三的概念加以發展；而抽象推理解題則根據學習題層次一﹑二的原理加以設計。各類別均畫分「近遷移」及「遠遷移」二個次階。試題實例舉隅見圖：

「遷移階段」

(一)日常生活實例

1.近遷移(壞了的蛋)
雞蛋是一般人每天飲食常吃的食物，新鮮的蛋含有豐富的蛋白質，既美味又便宜。但是如果放的時間過久，一方面它的蛋白質會腐敗，產生很多的氣體，另一方面蛋裡的水分又會從蛋殼裡的小孔蒸發掉了。小朋友，想想看，如果把好的蛋和壞的蛋同時放進水裡，你認為哪兩個蛋可能是壞了的蛋？為什麼？　

2.遠遷移(河川結冰了)
在許多寒冷的地區，每到冬天寒風刺骨，草木乾枯了﹑花兒凋謝了，許多動物都躲起來冬眠了，甚至連河川都結冰了！小朋友，想想看，依照氣溫變化的情形和水的特性，你認為河川開始結冰時，會先從哪一個部分開始呢？為什麼？　

(二)抽象推理

1.近遷移
有一物體，質量是10g，體積是2cm³，如果把它放入某液體中(已知這液體的質量是20g，體積是20cm³)，請問這個物體，會沉還是會浮﹖請計算並選出正確的答案。

2.遠遷移
有一物體，質量是80g，形狀呈不規則形，如果把它放入水中，量杯內的水由20c.c處，升到30c.c處，如果把這個物體放入某液體中(已知此液體密度為13.6g/cm³)，會沉還是會浮﹖請計算並選出正確的答案。

另研究者在程式中可規畫「檢核」步驟，若受試者能答對檢核題，則認定其解答並非由猜測而得。

肆、如何進行全方位評量？

一、設定目標：

1.學生有預先被告知的權利：應將這學期如何評量告訴學生。

2有系統的評量是老師的義務：與學生訂定學習契約。

3強調有目標的評量：根據教學目標做配套的評量。

二、收集資料：

1.必須考慮評量資料來源的可靠性和代表性。

2.必須講求效率。

3.以最少的時間、最恰當的面相、蒐集最多學生學習的真象。

三、進行評量：

1.評量不是老師一個人的責任（評量基準表）

2.學生的學習環境和學習機會也應該被列入評估。

四、做出決定：

1.不要一試定終身。

2.評量的另一個決定是如何改善教學，如何拓展學生的學習。

3.訂定下一個教學目標。

伍、提供一些多元評量的策略：

一、傳統式的評量－量的評量。

紙筆式的評量－選擇題、是非題、簡答題、李克式量表（情意

方面的問答，如喜不喜歡、同不同意）

二、另類的評量－質的評量。

1.歷程檔案式評量（卷宗評量）

◎有目的地蒐集學生的學習成果。

◎強調學生不斷自我反省的學習過程。

◎強調多樣性的評量檔案夾。

◎以學生為主、老師為輔的評量法。

◎是學生的成長記錄。

◎內容包括：紙筆測驗結果、概念圖、訪談記錄、學習報告、口頭報告、同儕評量、有系統的觀察資料、學習單、作業。

2.實作評量法

◎實際情境的活動。

◎學生必須親手操作。

◎重視學生發現問題、解決問題的能力。

◎有目標、有主題、易取、易用、易懂的原則。

◎準備學生的作答本、教師操作手冊、教師評分手冊、參考資料本。

3.動態評量（概念圖式）

◎是學生學習空間能力的教學策略。

◎教材本身應具有清晰的結構，以組織成有連貫系統的知識。

◎藉由此種評量可以了解學生對教材學習的記憶和了解。

4.報告、討論

◎一種敘述性的評量工具。

◎適用於主觀成分較重的評量。

◎集合大家的意見後，可使本來主觀的判斷變成客觀的評量。

◎做法：腦力激盪評量的項目、評量的等級。

5.集點式評量

◎屬於團體評量。

◎可用貼紙、畫圈、優缺點等。

◎在課堂隨時進行。

◎適用於秩序管理、問答互動。

6.教師檢核簿

教師隨時記錄學生的學習態度、技能、創造、發表能力等。

陸、多元評量的優點和難題

多元評量能夠增進學生學習的動機、提高學生參與和投入的程度、幫助學生建構有意義的學習情境、發展問題解決能力、批判性思考和表達自我的能力。也可以做為一種教學策略，提高學生的學習興趣和學習結果。但多元評量雖然有很多的優點，實施起來也有不少困難，下面幾點是最常見的難題：

　(一)時間上的難題

　(二)評分上的難題

大多數教師認為前兩者是他們進行案卷評量感到最困擾的兩個題。

　(三)經費和設備上的難題

　(四)技術品質上的難題：

在信度方面，評分者間評分的一致性通常不高；在效度方面，由於實作評量的實施通常需較多的時間，因此作業項目通常很少，甚至只有一項，以極少數的行為樣本推論學生的學習結果，是爭議最多的地方。

柒、給一點建議

評量並沒有一定的方法，每位老師在不同的單元，就自己班級的情況，設計出適合班上及教學目標的全方位評量。再經由教師本身的行動研究，即不斷的省思檢討修正，一定可以訂定出一套理想的評量。要提醒的是：

1.評量的方式深深的影響著學生可以學到什麼。

2.千萬不要只用一種測驗來決定一個學生表現的好壞。

3.評量應該在教學的過程中進行，而不是在教完以後。

4.評量可以以找到學生的優點，強化學生的優點，而使學生的優點變多為目標。（真實性評量）

5.評量的目的是幫助與鼓勵學生學習，不是為了證明他們的無知。

6.評量是為了了解學生他們還不懂得有哪些。

7.評量不一定要和他人比較，應該幫助學生和自己的過去比較並成長。（歷程檔案評量法）

8.評量還應該強調學生之間良性互動的關係，發揮團隊合作的精神。（合作學習法）

　美國推展實作評量的經驗也非常強調團隊合作精神的重要性，例如，鼓勵教師、課程專家、心理學家和測驗專家共同合作來研發實作評量的作業；鼓勵教師之間、學校之間做經驗的分享與交流；強調學校與社區觀念溝通與合作的重要性，以及行政人員對教師支持的重要性。這些觀念都非常寶貴，值得我們借鏡。