1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu mức độ đáp ứng của học sinh các nước không thuộc khối OECD và học sinh Việt Nam với chương trình đánh giá Quốc tế PISA

108 489 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 108
Dung lượng 1,62 MB

Nội dung

Việc phát hiện những thiên kiến có thể có của câu hỏi thi PISA trên các nhóm học sinh quốc tế chia theo khu vực địa lý và điều kiện kinh tế - xã hội; trên nhóm học sinh Việt Nam sẽ làm t

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

VIỆN ĐẢM BẢO CHẤT LƯỢNG GIÁO DỤC

Lê Thị Hoàng Hà

NGHIÊN CỨU MỨC ĐỘ ĐÁP ỨNG CỦA HỌC SINH CÁC NƯỚC KHÔNG THUỘC KHỐI OECD VÀ HỌC SINH VIỆT NAM VỚI CHƯƠNG TRÌNH

ĐÁNH GIÁ QUỐC TẾ PISA

Chuyên ngành: Đo lường và đánh giá trong giáo dục

(Chuyên ngành đào tạo thí điểm) LUẬN VĂN THẠC SĨ

Người hướng dẫn khoa học: TS Phạm Xuân Thanh

Hà Nội – Năm 2012

Trang 2

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC CHỮ VIẾT TẮT 5

DANH MỤC CÁC BẢNG BIỂU 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7

MỞ ĐẦU 8

1 Lý do chọn đề tài 8

2 Mục đích nghiên cứu của đề tài 10

3 Giới hạn nghiên cứu của đề tài 11

4 Câu hỏi nghiên cứu 12

5 Khách thể và đối tượng nghiên cứu 13

6 Phương pháp tiếp cận nghiên cứu 13

7 Phạm vi nghiên cứu 14

8 CẤU TRÚC CỦA LUẬN VĂN 14

Chương I: TỔNG QUAN NGHIÊN CỨU 16

1.1 Các chương trình đánh giá quốc tế 16

1.1.1 TIMSS và PIRLS 16

1.1.2 Chương trình đánh giá học sinh quốc tế PISA 17

1.2 Tổng quan các nghiên cứu liên quan 23

Chương II: LÝ THUYẾT ĐÁNH GIÁ 30

Mở đầu 30

2.1 Khái niệm đánh giá trong giáo dục 31

2.2 Các dạng thức đánh giá 35

2.2.1 Đánh giá tổng kết và đánh giá quá trình 35

Trang 3

2.2.2 Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn

37

2.2.3 Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực 39

2.2.4 Hệ thống đánh giá và vai trò, vị trí của khảo sát/đánh giá năng lực trên diện rộng 41

2.3 Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi 43

2.3.1 Lý thuyết khảo thí cổ điển 44

2.3.2 Lý thuyết trả lời câu hỏi và Mô hình RASCH 46

2.4 Ứng dụng Lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí 50

2.5 Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi 53

2.5.1 Độ giá trị 53

2.5.2 Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến 54

Chương III KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN 59

3.1 Mô tả phương pháp và quy trình nghiên cứu 59

3.1.1 Mô tả các bộ số liệu 59

3.1.2 Quy trình nghiên cứu và các thủ tục xử lý số liệu 61

3.2 Kết quả nghiên cứu và bàn luận 64

3.2.1 Bộ dữ liệu PISA quốc tế 2006 64

3.2.2 Bộ dữ liệu thi thử PISA ở Việt Nam năm 2010 72

KẾT LUẬN 77

Tài liệu tham khảo 80

Phụ lục 1: Cơ cấu quốc gia/vùng lãnh thổ tham gia PISA 2006 84

Phụ lục 2: Cú pháp phân tích DIF, sử dụng phần mềm CONQUEST 87

Phụ lục 3: Kết quả phân tích DIF 92

Phụ lục 4: Cấu trúc đề thi thử PISA tháng 5/2010 ở Việt Nam và mã hóa 104

Trang 4

DANH MỤC CÁC CHỮ VIẾT TẮT

DIF Differential Item Functioning

(Câu hỏi thực hiện chức năng khác biệt)

HDI Human Developement Index

Chỉ số phát triển con người

ICC Item Characteristic Curve

Đường cong đặc tính câu hỏi

IRT Item Response Theory

Lý thuyết trả lời câu hỏi

MC Multiple-choice

(Câu hỏi) nhiều lựa chọn

OECD Organization of Economics Co-operation and

Development

Tổ chức Hợp tác kinh tế và phát triển

PIRLS Progress in International Reading Literary Studies

Chương trình đánh giá năng lực đọc hiểu quốc tế

PISA Program on International Student Assessment

Chương trình đánh giá học sinh quốc tế

TIMSS Trends in International Mathematics and Science Studies

Chương trình đánh giá năng lực toán và khoa học quốc tế

UNDP United Nation Development Programme

Chương trình phát triển liên hợp quốc

Trang 5

thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán học

Bảng 3.5 So sánh năng lực học sinh giữa hai nhóm HDI cao và HDI trung

bình, thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán học

Bảng 3.6 So sánh năng lực học sinh giữa hai nhóm trong khối OECD và

ngoài khối OECD, HDI trung bình, thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán học

Bảng 3.7 So sánh năng lực học sinh giữa hai nhóm: OECD và ngoài OECD,

HDI trung bình, thuộc châu Á thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán

học

Bảng 3.8 Kết quả phân tích DIF của 24 câu trắc nghiệm lĩnh vực đọc hiểu Bảng 3.9 Kết quả phân tích DIF của 28 câu trắc nghiệm lĩnh vực khoa học

Trang 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Ví dụ về thang năng lực PISA

Hình 2.1 Đường cong đặc tính câu hỏi (ICC)

Hình 2.2 Đồ thị biểu diễn đường cong năng lực theo mô hình Rasch

Hình 2.3 Mô hình một thông số (b: độ khó câu hỏi)

Hình 2.4 Mô hình hai thông số (a: độ phân biệt của câu hỏi)

Hình 2.5 Mô hình ba thông số (c: yếu tố gợi ý/đoán mò)

Hình 3.1 DIF ở câu hỏi 11, giữa hai nhóm HDI cao và HDI trung bình Hình 3.2 Câu hỏi 2 với khoảng khác biệt rất nhỏ giữa hai nhóm học sinh Hình 3.3 DIF ở câu hỏi 11, giữa hai nhóm OECD và ngoài OECD, có HDI

trung bình

Hình 3.4 DIF ở câu hỏi 10, giữa hai nhóm OECD và ngoài OECD, HDI

trung bình, thuộc châu Á

Trang 7

Trên đây là phát biểu của Ngài Angel Gurría, Tổng thư ký Tổ chức hợp tác

và phát triển kinh tế OECD (Organization of Economic Co-operation and Development) trong tài liệu giới thiệu về Chương trình đánh giá học sinh quốc tế PISA (OECD Program for International Student Assessment)

Là một chương trình đánh giá học sinh mang tính quốc tế, PISA được triển khai nhằm kiểm tra, đánh giá trình độ học sinh trong độ tuổi 15, giai đoạn chuẩn bị kết thúc thời gian học tập bắt buộc PISA đánh giá những kiến thức và kỹ năng không chỉ cần thiết cho mỗi cá nhân trong cuộc sống mà còn quan trọng cho sự phát triển của mỗi quốc gia về mặt chính trị, kinh tế, xã hội Kỳ thi PISA được định kỳ tổ chức 3 năm một lần, bắt đầu từ năm 2000, tập trung vào 4 mảng năng lực chính: Toán học, Khoa học tự nhiên, Đọc hiểu và Kỹ năng giải quyết vấn đề (Kỹ năng giải quyết vấn đề được đưa vào đề thi từ năm 2006), mỗi kỳ thi lấy một mảng năng lực làm nội dung chính (main domain)

Bởi là một kỳ thi được tổ chức trên diện rộng (mỗi nước tham gia có từ 4.500 đến 10.000 thí sinh dự thi, đại diện cho học sinh thuộc lứa tuổi 15 trên cả nước), kết quả đánh giá có thể được các nước sử dụng như một công cụ theo dõi liên tục công tác tổ chức và quản lý hệ thống giáo dục PISA không chỉ ra cho các nước cách thức

cụ thể quản lý trường học nhưng những dữ liệu có quy mô lớn và độ tin cậy cao thu

Trang 8

thập được từ kỳ thi PISA có thể chỉ ra thành công của nền giáo dục một số nước, cũng như những hạn chế trong quản lý giáo dục mà nhiều quốc gia mắc phải Những kết quả này giúp các quốc gia được coi là chưa thành công trong giáo dục có những phép phân tích, so sánh nhằm rút ra những bài học quý giá để cải tiến nền giáo dục của mình Đó cũng chính là mục đích chính xuyên suốt quá trình hình thành và phát triển của kỳ thi này

PISA lần đầu tiên tổ chức (năm 2000) có 43 nước tham gia, trong đó có 14 nước không thuộc khối OECD Qua 3 lần tổ chức, kỳ thi năm 2009 có 75 nước/nền kinh tế tham gia trong đó có 38 nước không thuộc khối OECD Sự gia tăng nhanh

số quốc gia/nền kinh tế tham gia Chương trình PISA chứng tỏ mục đích, ý nghĩa của kỳ thi ngày càng được nhận thức đúng đắn bởi các quốc gia

Trước xu hướng quốc tế hóa, toàn cầu hóa các hoạt động kinh tế, xã hội, nền giáo dục các nước, đặc biệt là các nước đang phát triển đứng trước nhiều thách thức

và cơ hội Người ta dễ dàng nhận thấy việc tham gia các chương trình đánh giá quốc

tế như PISA là một cơ hội rất tốt để các quốc gia có những kết luận giá trị và tin cậy

về các khía cạnh khác nhau liên quan đến hiệu quả và chất lượng của nền giáo dục của mình, từ đó có những định hướng cho việc cải tiến, nâng cao chất lượng giáo dục theo hướng phù hợp xu hướng phát triển chung của thế giới Tuy nhiên, với các nước đang phát triển như Việt Nam, đây cũng là một thách thức lớn, đòi hỏi sự cân nhắc và tính toán để việc tham gia này thực sự mang lại hiệu quả như mục đích mà các chương trình đánh giá đã đặt ra

Việt Nam chính thức đăng ký tham gia Chương trình PISA 2012, cùng với hơn 60 quốc gia/nền kinh tế khác trên toàn thế giới Ban chỉ đạo quốc gia Chương trình PISA đã được thành lập Chịu trách nhiệm điều phối, tổ chức toàn bộ các hoạt động khi tham gia Chương trình PISA, từ những khâu chuẩn bị đầu tiên để Việt Nam được tham gia kỳ thi cho đến việc tổ chức kỳ thi chính thức là Văn phòng PISA Việt Nam thuộc Trung tâm Đánh giá chất lượng giáo dục, Cục Khảo thí và Kiểm định chất lượng giáo dục, Bộ Giáo dục và Đào tạo

Trang 9

Từ lúc đăng ký và được OECD chính thức đồng ý để Việt Nam tham gia PISA 2012 đến khi kỳ thi chính thức diễn ra (tháng 4/2012) là cả một giai đoạn chuẩn bị đầy căng thẳng với hàng chục đầu công việc đã được lên kế hoạch chặt chẽ, nằm trong kế hoạch chung và kiểm soát chất lượng của Ban điều hành PISA của OECD Một trong những khâu chuẩn bị quan trọng và nhiều thử thách nhất, có thời gian chuẩn bị trải dài nhất là công tác dịch thuật và thích nghi hóa đề thi và các bảng hỏi thu thập dữ liệu Kinh nghiệm các nước cho thấy, mặc dù quy trình dịch thuật và thích nghi hóa tài liệu thi đã được OECD quy định, hướng dẫn và kiểm soát chặt chẽ, thực tế vẫn không tránh khỏi sai sót mà hậu quả của nó là gây nên một số câu hỏi trong đề thi có thiên kiến ở một số nhóm đối tượng thí sinh nhất định

Việc phát hiện những thiên kiến có thể có của câu hỏi thi PISA trên các nhóm học sinh quốc tế chia theo khu vực địa lý và điều kiện kinh tế - xã hội; trên nhóm học sinh Việt Nam sẽ làm tiền đề cho việc nghiên cứu tìm hiểu nguyên nhân của hiện tượng thực hiện chức năng sai khác này, là cơ sở cho những giải pháp mà Việt Nam và các nước tham gia có thể thực hiện trong quá trình tham gia dịch thuật

và thích nghi hóa đề thi để đề thi PISA đạt được độ tin cậy và độ giá trị cao nhất với học sinh tất cả các nước, không phụ thuộc điều kiện địa lý hay những điều kiện chính trị, tôn giáo, ngôn ngữ

2 Mục đích nghiên cứu của đề tài

Như đã đề cập ở trên, câu hỏi thi thiên kiến là một vấn đề không mong muốn nhưng vẫn thường và dễ dàng xảy ra trong hoạt động khảo thí, đặc biệt là ở các kỳ đánh giá trên diện rộng, khi một công cụ đánh giá chuẩn hóa được sử dụng để đo lường năng lực của các đối tượng được đánh giá đến từ các vùng, miền và điều kiện kinh tế - chính trị - xã hội – tôn giáo khác nhau

Dựa trên kết quả thi PISA, đề tài sẽ đi tìm những câu hỏi có nguy cơ gây thiên kiến cho các nhóm học sinh các nước ngoài khối OECD và nhóm học sinh quốc tế có điều kiện kinh tế - văn hóa – xã hội tương đối tương đồng với Việt Nam, làm tiền đề cho việc tiên lượng tính đáp ứng của học sinh Việt Nam với câu hỏi thi

Trang 10

PISA Đề tài cũng đi tìm sự khác biệt về sự đáp ứng của các nhóm học sinh Việt Nam với điều kiện kinh tế - văn hóa – xã hội khác nhau, với câu hỏi thi PISA, để từ

đó có những nhận định về khả năng các yếu tố ngôn ngữ, văn hóa có thể làm cho câu hỏi PISA thiên kiến

Thực hiện nghiên cứu này cũng giúp học viên hiểu biết sâu sắc về những lý

thuyết đánh giá liên quan đến câu hỏi thực hiện chức năng khác biệt (differential item functioning – DIF) và quy trình phân tích phát hiện DIF (điều kiện cần để kết

luận câu hỏi thiên kiến), một quy trình quan trọng trong xây dựng và phát triển đề thi chuẩn hóa

3 Giới hạn nghiên cứu của đề tài

Đề tài tập trung phân tích kết quả thi PISA quốc tế năm 2006 – số liệu do OECD công bố, tập trung phát hiện các dấu hiệu câu hỏi thực hiện chức năng khác

biệt (differential item functioning – DIF: điều kiện cần để kết luận câu hỏi thiên

để đi tìm nguy cơ câu hỏi thiên kiến với học sinh Việt Nam, ta đi tìm câu hỏi có nguy cơ thiên kiến với nhóm học sinh quốc tế có điều kiện kinh tế - văn hóa – xã

Trang 11

hội tương đối tương đồng với Việt Nam: đó là các nước nằm ngoài khối OECD, có chỉ số HDI tương đương với Việt Nam (theo báo cáo của UNDP), và thuộc châu Á

Với đối tượng học sinh Việt Nam, đề tài sử dụng số liệu kết quả thi thử PISA năm 2010 Kỳ thi do Văn phòng PISA Việt Nam tổ chức, sử dụng đề thi của kỳ đánh giá PISA chính thức năm 2009 Nghiên cứu sẽ tập trung phát hiện nguy cơ thiên kiến có thể có giữa các cặp so sánh:

- Nhóm học sinh miền Bắc và nhóm học sinh khu vực Tây Nguyên và miền Nam;

- Nhóm học sinh đồng bằng - duyên hải và nhóm học sinh miền núi - cao nguyên;

Sự phân cặp so sánh như trên nhằm tìm kiếm sự khác biệt về hiện tượng câu hỏi DIF giữa hai lần phân tích Ở Việt Nam, cặp so sánh thứ nhất tạo nên sự khác biệt rõ nét về yếu tố ngôn ngữ và văn hóa vùng miền giữa hai nhóm, trong khi cặp

so sánh thứ hai không tạo nên sự khác biệt này So sánh kết quả của hai lần phân tích (lần 1 với cặp thứ nhất, lần 2 với cặp thứ hai) sẽ có thể giúp đưa ra những nhận định về sự ảnh hưởng hoặc không ảnh hưởng của yếu tố văn hóa – ngôn ngữ vùng miền đến sự đáp ứng câu hỏi của học sinh, hay nguy cơ thiên kiến của câu hỏi

Ở phạm vi một đề tài luận văn thạc sĩ, các phân tích tìm kiếm DIF chủ yếu tập

trung vào nhóm câu hỏi nhiều lựa chọn, với cách cho điểm đúng và sai

4 Câu hỏi nghiên cứu

Câu hỏi nghiên cứu 1: Học sinh các nước không thuộc khối OECD tham gia kỳ thi

PISA 2006 đáp ứng câu hỏi thi PISA như thế nào? Câu hỏi thi có tiềm ẩn nguy cơ gây bất lợi hoặc tạo ưu thế cho học sinh các nước không thuộc khối OECD không?

Mức độ của nguy cơ?

Câu hỏi nghiên cứu 2: Học sinh ở các nước có đặc điểm kinh tế - văn hóa – xã hội

tương đồng với Việt Nam đáp ứng câu hỏi thi PISA 2006 như thế nào? Tìm kiếm nguy cơ câu hỏi thiên kiến đối với nhóm học sinh này và tiên lượng mức độ ảnh hưởng của nguy cơ câu hỏi thiên kiến đối với học sinh Việt Nam khi tham gia PISA?

Trang 12

Câu hỏi nghiên cứu 3: Điều kiện địa lý, văn hóa, ngôn ngữ vùng miền ở Việt Nam

có thể là yếu tố làm xuất hiện nguy cơ thiên kiến của câu hỏi thi PISA không? Mức

độ của các nguy cơ thiên kiến này?

5 Khách thể và đối tượng nghiên cứu

 Khách thể nghiên cứu:

- Câu hỏi thi PISA

 Đối tượng nghiên cứu:

- Tính chất thực hiện chức năng khác biệt của câu hỏi thi (differential item functioning – DIF)

6 Phương pháp tiếp cận nghiên cứu

Đề tài sử dụng tiếp cận nghiên cứu định lượng Kết quả thi PISA năm 2006 của các nước và thi thử PISA ở Việt Nam năm 2010, sử dụng đề thi năm 2009 đã được dịch sang tiếng Việt sẽ được phân tích định lượng để xác định mức độ đáp ứng của học sinh tham dự kỳ thi đối với câu hỏi thi, so sánh giữa các nhóm học sinh theo các tiêu chí phân tầng khác nhau Phân tích sẽ sử dụng các phần mềm phân tích

số liệu SPSS và CONQUEST

Dữ liệu thu thập được bao gồm:

 Cơ sở dữ liệu về chương trình đánh giá quốc tế PISA (sự ra đời và phát triển,

cơ sở khoa học xây dựng đề thi, phân tích và sử dụng kết quả đánh giá…); sử

dụng phương pháp hồi cứu tài liệu;

 Các cơ sở lý thuyết liên quan: Lý thuyết về đánh giá và xây dựng đề thi chuẩn hóa, Lý thuyết hồi đáp và mô hình Rasch, Lý thuyết về phân tích DIF

(Differential Item Functioning) như một cơ sở để phát hiện thiên kiến của công cụ đo lường tâm lý; sử dụng phương pháp tổng quan tài liệu;

 Tổng quan các nghiên cứu về câu hỏi/đề thi thiên kiến, công cụ khảo sát đánh giá thiên kiến trong các chương trình khảo sát/đánh giá năng lực trên

Trang 13

diện rộng (như PISA, TIMSS, PIRLS, SAT…); thu thập bằng phương pháp

tổng quan tài liệu;

 Dữ liệu kết quả thi PISA năm 2006 lấy từ website My PISA của ACER, Australia;

 Dữ liệu kết quả thi thử PISA trên mẫu đại diện từ 10 tỉnh/thành phố, tổ chức tháng 5/2010, sử dụng bộ câu hỏi thi của kỳ thi PISA năm 2009 Dữ liệu do

Văn phòng PISA Việt Nam cung cấp

7 Phạm vi nghiên cứu

Học sinh tất cả các quốc gia và vùng lãnh thổ tham gia kỳ đánh giá PISA chính thức năm 2006; Học sinh 10 tỉnh/thành phố của Việt Nam tham gia kỳ thi thử PISA do Văn phòng PISA Việt Nam tổ chức tháng 5/2012, sử dụng đề thi PISA chính thức năm 2009

8 CẤU TRÚC CỦA LUẬN VĂN

Cấu trúc các phần nội dung chính của luận văn bao gồm 3 chương:

Chương I TỔNG QUAN NGHIÊN CỨU

1.1 Các chương trình đánh giá học sinh quốc tế

1.1.1 TIMSS và PIRLS 1.1.2 Chương trình đánh giá học sinh quốc tế PISA 1.2 Tổng quan các nghiên cứu liên quan

Chương II LÝ THUYẾT ĐÁNH GIÁ

2.1 Khái niệm đánh giá trong giáo dục

2.2 Các dạng thức đánh giá

2.3 Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi

2.4 Ứng dụng lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí 2.5 Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi

Chương III KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN

3.1 Mô tả phương pháp và quy trình nghiên cứu

Trang 14

3.2 Kết quả nghiên cứu và bàn luận KẾT LUẬN

Trang 15

Chương I: TỔNG QUAN NGHIÊN CỨU

1.1 Các chương trình đánh giá quốc tế

1.1.1 TIMSS và PIRLS

TIMSS và PIRLS là hai chương trình nghiên cứu đánh giá học sinh quốc tế

với nhiều nét tương đồng TIMSS (Trends in International Mathematics and Science Study) tập trung nghiên cứu năng lực toán học và khoa học của học sinh quốc tế hai khối lớp 4 và lớp 8; trong khi PIRLS (Progress in International Reading Literacy Study) đánh giá năng lực đọc hiểu của học sinh khối lớp 4

TIMSS và PIRLS nằm trong những dự án của Hiệp hội đánh giá thành tích giáo dục quốc tế (IEA – International Association for Evaluation of Educational Achievement), hướng tới đánh giá thành tích học tập của học sinh trên phạm vi toàn cầu vì mục đích tối thượng là cải tiến, nâng cao chất lượng giảng dạy và học tập Trung tâm TIMSS & PIRLS quốc tế hiện đặt tại Trường Giáo dục Lynch, Đại học Boston, Hoa Kỳ, nơi chịu trách nhiệm điều hành toàn bộ các hoạt động đánh giá thuộc hai chương trình, phối hợp với các cơ quan, tổ chức ở các nước tham gia để triển khai các kỳ đánh giá

TIMSS và PIRLS là các cuộc đánh giá trên diện rộng, được thiết kế nhằm mang lại một bức tranh toàn cảnh về giảng dạy và học tập các môn toán học, khoa học và đọc hiểu, cung cấp những thông tin hữu ích phục vụ hoạch định chính sách giáo dục và xây dựng, triển khai các chương trình giáo dục Để đạt được mục đích này, bên cạnh những thông tin về thành tích giáo dục trên các lĩnh vực toán, khoa học và đọc hiểu, trong các kỳ thi TIMSS và PIRLS, các thông tin liên quan về đất nước, trường học, chương trình giảng dạy, môi trường học tập có khả năng ảnh hưởng đến sự phát triển năng lực và thành tích học tập của học sinh cũng được thu thập

TIMSS lần đầu tổ chức năm 1995 với 45 nước tham gia Định kỳ tổ chức 4 năm một lần, kỳ đánh giá năm 2011 đã có 63 nước đăng ký tham gia TIMSS Ở lĩnh vực đọc hiểu, PIRLS ra đời năm 2001 và được định kỳ tổ chức 4 năm một lần Từ

Trang 16

con số quốc gia tham gia lần đầu năm 2001 là 35, đến kỳ đánh giá thứ 3 năm 2011,

đã có 49 nước tham gia Hầu hết các nước tham gia kỳ đánh giá PIRLS cũng tham gia TIMSS, đặc biệt là năm 2011, khi cả hai chương trình cùng đến kỳ đánh giá Nhờ đó, nhiều nước đã thu được thông tin đồng bộ về năng lực học sinh lớp 4 ở cả

ba lĩnh vực quan trọng: toán, khoa học và đọc hiểu

TIMSS và PIRLS sử dụng chung một quy trình tổ chức và triển khai, từ khâu thiết kế khung đánh giá, viết câu hỏi, dịch thuật tài liệu đánh giá, thử nghiệm, chọn mẫu đến phân tích và báo cáo kết quả đánh giá Với phương pháp chọn mẫu ngẫu nhiên hai giai đoạn (chọn mẫu trường ở giai đoạn 1 và chọn mẫu lớp học trong mỗi trường ở giai đoạn 2) được thực hiện nghiêm ngặt đã đảm bảo số học sinh tham gia

ở mỗi nước mang tính đại diện cho tổng thể đối tượng học sinh của nước tham gia Thông qua kết quả của mẫu học sinh tham gia có thể dự đoán tương đối chính xác thành tích của học sinh trên toàn quốc

1.1.2 Chương trình đánh giá học sinh quốc tế PISA

a OECD và Chương trình đánh giá học sinh quốc tế PISA

Chương trình đánh giá học sinh quốc tế PISA là một sản phẩm do các nước thành viên OECD hợp tác xây dựng và phát triển, dưới sự điều phối của Ban Giáo dục - OECD (Directorate of Education) Mục tiêu của Chương trình PISA là đánh giá mức độ tiếp thu kiến thức và kỹ năng cần thiết cho việc gia nhập xã hội tri thức của học sinh độ tuổi chuẩn bị kết thúc giáo dục bắt buộc.1

Kỳ thi PISA chính thức đầu tiên được tổ chức năm 2000, với sự tham gia của

43 quốc gia/vùng lãnh thổ, trong đó có 14 quốc gia/vùng lãnh thổ không thuộc khối OECD Được tổ chức định kỳ 3 năm một lần, kỳ thi năm 2009 đã có 67 quốc gia/vùng lãnh thổ tham gia, trong đó 34 nước không thuộc khối OECD Theo tính toán của OECD thì các quốc gia/vùng lãnh thổ tham gia kỳ thi PISA năm 2006 (57 nước) chiếm tới 90% nền kinh tế thế giới

1

OECD PISA 2006 Brochure: Retrieved from www.oecd.org

Trang 17

Kỳ thi PISA Số quốc gia/ vùng

lãnh thổ tham gia

Số quốc gia/ vùng lãnh thổ thuộc khối OECD

Số quốc gia/ vùng lãnh thổ không thuộc khối OECD

Bảng 1.1: Tình hình tham gia Chương trình PISA của các nước/vùng lãnh thổ

Nguồn: OECD website: www.oecd.org

Chương trình PISA đánh giá sự thể hiện năng lực của học sinh ở 3 lĩnh vực trọng yếu là Toán học, Các môn khoa học và Đọc hiểu Bên cạnh bài thi, thông qua bảng hỏi và một số câu hỏi đánh giá thái độ trong đề thi, PISA còn khảo sát động cơ học tập của học sinh, những quan điểm, nhận thức của học sinh về bản thân mình cũng như những chiến lược học tập của các em Số liệu kết quả thi PISA có thể cho

ta biết sự khác biệt về năng lực giữa hai giới, hay giữa những nhóm kinh tế - xã hội khác nhau, đồng thời, việc phân tích tương quan giữa dữ liệu thu thập từ bảng hỏi

và kết quả thi PISA còn phát hiện những yếu tố tác động đến quá trình học tập, tích lũy và rèn luyện kiến thức, kỹ năng của học sinh Những phân tích này rất có ý nghĩa đối với công tác hoạch định chính sách của mỗi quốc gia/vùng lãnh thổ hay nhóm kinh tế - xã hội Có ý nghĩa hơn cả là thông qua kết quả thi PISA, ta có thể có những so sánh về năng lực học sinh và điều kiện/đầu tư cho giáo dục giữa các quốc gia, từ đó có thể kết luận về hiệu quả đầu tư cho giáo dục của từng quốc gia/vùng lãnh thổ khi so sánh với các nền kinh tế có điều kiện tương tự; hay kết luận về việc học sinh trong một quốc gia có nhận được cơ hội học tập một cách công bằng hay không

Trang 18

Có thể tóm tắt một số đặc trưng nổi bật của Chương trình PISA như sau2:

 Mục đích tối cao của chương trình là cải thiện môi trường chính sách, vì vậy thiết kế đề thi và phương pháp báo cáo kết quả thi được xác định theo nhu cầu của các chính phủ cần thông tin để làm cơ sở xây dựng chính sách;

Chương trình giới thiệu một khái niệm mới “literacy”, là khả năng áp dụng

kiến thức và kỹ năng của học sinh và khả năng phân tích, lý giải, giao tiếp hiệu quả khi phải đương đầu với những vấn đề xuất hiện trong nhiều tình huống khác nhau của cuộc sống;

 Chương trình phù hợp với học tập suốt đời, không giới hạn ở việc đánh giá năng lực học sinh theo chương trình giáo dục hay giao thoa các chương trình giáo dục; ngoài ra chương trình còn thu thập thông tin về động cơ và chiến lược học tập, nhận thức về bản thân

 Được tổ chức định kỳ 3 năm một lần, các nước tham gia có cơ hội theo dõi quá trình thực hiện những mục tiêu giáo dục quan trọng của quốc gia;

 Chương trình bao phủ một dải địa lý rộng lớn; phương thức tổ chức mang bản chất hợp tác với hơn 60 nước tham gia cho đến nay (chiếm khoảng 90% nền kinh tế thế giới), trong đó tất cả nước thuộc khối OECD đều tham gia

b Thiết kế và xây dựng công cụ đánh giá nhận thức – đề thi PISA

Như trên đã đề cập, Chương trình PISA tập trung đánh giá năng lực của học sinh thể hiện ở 3 lĩnh vực chính là Toán học, Khoa học và Kỹ năng đọc hiểu Mỗi

kỳ thi sẽ lần lượt lấy một lĩnh vực làm nội dung chính (main domain), chiếm một tỷ trọng lớn câu hỏi thi trong đề thi Trong các kỳ thi 2000, 2003, 2006, 2009, 2012 lĩnh vực đánh giá chính lần lượt là Đọc hiểu, Toán học, Khoa học, Đọc hiểu, Toán học

Công việc thiết kế công cụ đánh giá nhận thức – đề thi PISA được đặc trưng bởi sự hợp tác của tất cả các nước tham gia (thành viên và không phải thành viên

2

OECD PISA Brochure: Retrieved from OECD website www.oecd.org

Trang 19

OECD) Sự hợp tác thể hiện đầu tiên ở việc các nước cùng tham gia thảo luận và đi đến thống nhất về khung thiết kế đề thi của mỗi lĩnh vực Thứ hai, các nước tự nguyện viết câu hỏi, đóng góp cho nguồn dữ liệu câu hỏi thi PISA của OECD theo tiêu chí do tổ chức này đặt ra Đồng thời, tất cả các nước tham gia được kêu gọi rà soát các câu hỏi thi do một tổ chức chuyên nghiệp nằm trong liên danh nhà thầu thay OECD tổ chức chương trình PISA, chịu trách nhiệm phần xây dựng đề thi gửi đến

Mỗi lĩnh vực trong đề thi PISA được xây dựng dựa trên một khung thiết kế

đã được thảo luận và thống nhất giữa các nước tham gia Khung thiết kế cho chúng

ta biết những năng lực nào sẽ được đánh giá, giúp những người tham gia viết câu hỏi thi xác định các cấu trúc ẩn sau mỗi phần đánh giá Sau khi đã thống nhất khung thiết kế đề thi, nhóm chuyên gia bộ môn ở mỗi nước sẽ biên soạn câu hỏi thi gửi liên danh nhà thầu Trải qua 4 kỳ thi đầu tiên, Trung tâm Nghiên cứu giáo dục Úc (Australian Center for Education Research – ACER) giữ trọng trách điều phối công việc thiết kế xây dựng đề thi Nhóm chuyên gia bộ môn của từng quốc gia cũng được yêu cầu tham gia rà soát, đóng góp ý kiến cho các câu hỏi thi Đóng góp của các nước cho việc xây dựng câu hỏi thi được các chuyên gia xây dựng đề thi của

liên danh nhà thầu sử dụng, thông qua những quy trình kỹ thuật đặc biệt: quy trình

thi PISA cũng rất đa dạng, không dừng lại ở những câu trắc nghiệm khách quan mà còn có cả những câu hỏi mở với kỹ thuật cho điểm từng phần

Trước năm diễn ra khảo sát chính thức, các nước đã đăng ký tham gia PISA đều trải qua một kỳ thi thử Ngoài mục đích mang lại cơ hội để các nước diễn tập công tác tổ chức thi, các câu hỏi có thể được lựa chọn cho kỳ thi chính thức sẽ được thử nghiệm trong kỳ thi này Như vậy, câu hỏi của đề thi PISA chính thức là kết quả của cả sự rà soát bằng phương pháp chuyên gia (đóng góp ý kiến về nội dung, cấu trúc câu hỏi, những vấn đề tiềm ẩn liên quan đến dịch thuật hay văn hóa …), và

3

Turner, R (2009) PISA: An introduction and overview. In R Bybee & B McCrae (Eds), PISA Science 2006:

Implications for Science Teachers and Teaching, pp 3-14 Arlington, VA: NSTA Press

Trang 20

đánh giá chất lượng câu hỏi thi thông qua thử nghiệm, sẽ đảm bảo thu thập thông tin khá chính xác về năng lực của học sinh

c Chọn mẫu trong Chương trình đánh giá PISA

Học sinh dự thi PISA là một mẫu ngẫu nhiên trong toàn bộ học sinh đủ điều kiện dự thi PISA của một nước Chương trình PISA sử dụng phương pháp chọn mẫu hai giai đoạn: giai đoạn 1 là chọn trường và giai đoạn 2 là chọn học sinh trong từng trường đã được chọn Ở giai đoạn 1, tất cả các trường có học sinh đủ điều kiện

dự thi PISA (15 tuổi, từ lớp 7 trở lên) được chọn theo xác suất lựa chọn tỷ lệ với tổng số học sinh đủ điều kiện dự thi trong trường Khoảng 150 trường sẽ được chọn trong một quốc gia Giai đoạn 2 là lựa chọn ngẫu nhiên khoảng 30 học sinh từ mỗi trường đã chọn ở giai đoạn 1 Như vậy, mỗi nước sẽ có khoảng 4.500 học sinh được lựa chọn dự thi PISA Việc lựa chọn trường ở giai đoạn 1 là do liên danh nhà thầu

tổ chức thi PISA thực hiện, các nước tham gia chỉ cung cấp thông tin dữ liệu theo yêu cầu về tất cả các trường có học sinh thuộc độ tuổi dự thi PISA trên cả nước Công việc chọn mẫu học sinh ở giai đoạn 2 là do từng nước thực hiện, sử dụng phần mềm chọn mẫu KeyQuest của ACER

d Phân tích số liệu kết quả thi PISA và sử dụng kết quả phân tích

Turner (2009) mô tả vắn tắt bản chất của việc phân tích số liệu kết quả thi PISA như sau:

Kỹ thuật đưa dữ liệu lên một thang đo đóng vai trò quan trọng hàng đầu, làm nòng cốt cho hầu hết các phân tích sử dụng dữ liệu kết quả thi PISA Sử dụng kỹ thuật này, người ta đặt một số giả thiết sau: mỗi năng lực mà chúng ta cần đánh giá

thể hiện dưới một số nét năng lực cụ thể đã được xác định trong khung thiết kế đề thi; những mức độ khác nhau của mỗi nét năng lực nằm trên một đường liên tục,

hay hình thành một thang đo Ta có thể thiết kế câu hỏi thi gắn với mỗi nét năng lực này, đòi hỏi học sinh phải sử dụng nét năng lực đó để trả lời các câu hỏi mà ta đã ngụ ý khi thiết kế Và như vậy, ta có thể phán đoán mức độ năng lực của một học sinh dựa trên mức độ thành công khi trả lời các câu hỏi ngụ ý đo năng lực đó

Trang 21

PISA sử dụng mô hình Rasch để đưa dữ liệu về từng học sinh lên thang đo,

từ đó có thể thực hiện nhiều phép so sánh Mô hình này sử dụng kết quả trả lời câu hỏi của học sinh để dự đoán độ khó của các câu hỏi và năng lực của học sinh có câu trả lời cho các câu hỏi đó Như vậy, cả câu hỏi và học sinh đều gắn với một thang

đo trung gian được xác định bởi nét năng lực mà ta cần đánh giá

Hình 1.1: Ví dụ về thang năng lực PISA

Trang 22

giới tính hay các điều kiện kinh tế xã hội của gia đình học sinh, của địa phương nơi các em đang theo học Phân tích thống kê các tương quan này sẽ cho phép chúng ta thực hiện các phép so sánh dự đoán sự khác biệt giữa các nhóm đối tượng học sinh trong độ tuổi dự thi PISA khác nhau Những so sánh kết nối giữa sự thể hiện năng lực của học sinh thông qua bài thi và các biến thông tin cơ sở như trên rất có ý nghĩa với những công việc nghiên cứu hoạch định chính sách, giúp các nhà nghiên cứu và hoạch định chính sách xác định các nhân tố ảnh hưởng đến sự thể hiện năng lực của học sinh cũng như mức độ ảnh hưởng của chúng Bên cạnh đó, tính kế thừa khi thiết

kế đề thi và các bảng hỏi khảo sát còn cho phép ta theo dõi những thay đổi về năng lực và thông tin cơ sở của học sinh cũng như mối quan hệ giữa các biến này Theo dõi được những thay đổi này sẽ giúp các chính phủ đánh giá kết quả thực hiện chiến lược, lộ trình phát triển giáo dục của quốc gia

1.2 Tổng quan các nghiên cứu liên quan

Với sự phát triển của khoa học đo lường đánh giá, các cuộc đánh giá năng lực trên diện rộng ngày càng được quan tâm phát triển như một hệ quả tất yếu của tiến trình toàn cầu hóa Sự xuất hiện của Lý thuyết khảo thí hiện đại và các mô hình thống kê của nó mang lại những ứng dụng hữu ích không ngờ để đảm bảo xây dựng được những công cụ đánh giá – các đề thi chuẩn đáp ứng ở mức cao nhất có thể mục đích mà các cuộc khảo sát/đánh giá năng lực trên diện rộng đã đặt ra

Những quy trình xây dựng công cụ đánh giá ngày càng được chuẩn hóa, độ giá trị, độ tin cậy của đề thi và từng câu hỏi thi được đặc biệt quan tâm Một trong những yêu cầu kỹ thuật như thế là vấn đề không cho phép câu hỏi thi mang lại kết quả đánh giá khác nhau một cách có hệ thống giữa các nhóm đối tượng được dự báo

có mức năng lực tương đương nhau

Tuy ở hầu hết các cuộc đánh giá trên diện rộng, đặc biệt là các chương trình đánh giá mang tính quốc tế, có sự điều phối, tham gia của những tổ chức khảo thí hàng đầu, vấn đề câu hỏi thiên kiến đã được đặt ra và loại trừ trong giai đoạn xây

Trang 23

dựng công cụ khảo thí, nhiều nhà nghiên cứu vẫn rất quan tâm đến vấn đề này và tìm kiếm câu trả lời thông qua các nghiên cứu độc lập

Băn khoăn về những tác động của công tác dịch thuật tới độ khó của câu hỏi thi môn đọc hiểu thuộc chương trình đánh giá học sinh quốc tế PISA, Grisay và Monseur (2007)4 đã tiến hành những phân tích thống kê trên kết quả thi PISA năm

2000 – lĩnh vực đọc hiểu nhằm đo lường sự tương đương giữa 47 phiên bản (theo

47 ngôn ngữ) của đề thi Theo biện luận của tác giả, sự tương đồng của các câu hỏi thi giữa các phiên bản có thể bị ảnh hưởng nặng nề từ công tác dịch thuật, chẳng hạn học sinh giữa các ngôn ngữ khác nhau thì mức độ quen thuộc với nội dung câu hỏi hoặc tình huống câu hỏi cũng khác nhau Khi đó, một câu hỏi có thể là khó hơn hoặc dễ hơn với một nhóm thí sinh này hay nhóm thí sinh khác, trong khi cấp độ năng lực đọc hiểu giữa các nước đó có thể không chênh nhau Khi có quá nhiều trường hợp như thế xuất hiện trong một chương trình đánh giá quốc tế, các quốc gia

sẽ gánh hậu quả nặng nề khi sử dụng những kết quả đánh giá không chính xác, độ khó của câu hỏi lúc này không phản ánh chính xác năng lực đọc hiểu của thí sinh trên thang năng lực

Sử dụng các phép phân tích hồi quy logit của Lý thuyết trả lời câu hỏi (Item Response Theory – IRT) để đánh giá độ khó của câu hỏi, dựa trên số liệu kết quả thi PISA, Grisay và Monseur (2007) đã chỉ ra một tỉ lệ nhất định các câu hỏi có tính chất DIF (câu hỏi thực hiện chức năng khác biệt) tồn tại giữa các quốc gia/nhóm quốc gia (phân chia theo tiêu chí của tác giả)

Nhìn chung, xuyên suốt 47 phiên bản với 47 ngôn ngữ của đề thi PISA 2000 lĩnh vực đọc hiểu, độ khó của các câu hỏi giữa các phiên bản tương đối đồng đều nhau Tuy nhiên, cũng tồn tại một số khác biệt về độ khó giữa một số nước tham gia, mà sự xuất hiện của chúng hoàn toàn không phải là ngẫu nhiên, đòi hỏi được đầu tư xứng đáng để nghiên cứu tìm ra nguyên nhân và giải pháp loại bỏ Đó là, công tác dịch thuật đề thi luôn có ảnh hưởng đến tính tương đương của đề thi; một

số đặc điểm về địa lý, kinh tế - xã hội cũng ảnh hưởng đến thành tích đọc hiểu của

4 Grisay, A & Monseur, C (2007) Measuring equivalence of item difficulties in the various versions of an

international test Studies in Educational Evaluation, 33(1), 69-86

Trang 24

học sinh; kiểu câu hỏi thi (câu hỏi trắc nghiệm khách quan nhiều lựa chọn và câu hỏi mở) cũng ít nhiều ảnh hưởng đến độ khó câu hỏi giữa một số quốc gia, có thể lý giải do đặc điểm ngôn ngữ hoặc phong cách giảng dạy kỹ năng viết ở từng quốc gia

Từ những kết quả nghiên cứu, nhóm tác giả đưa ra một số đề xuất nhằm cải thiện, nâng cao tính tương đương của đề thi trong những kỳ thi tới, đặc biệt lưu ý tới công tác tổ chức dịch thuật và thích nghi hóa đề thi ở các quốc gia sử dụng chung một ngôn ngữ

Bên cạnh tác động của công tác dịch thuật, những nhân tố về văn hóa và thói quen sử dụng ngôn ngữ (một cách diễn đạt quen thuộc ở ngôn ngữ này nhưng lại không quen thuộc ở ngôn ngữ khác) cũng đã được phát hiện có thể là nguyên nhân làm cho câu hỏi thi PISA có độ khó khác nhau giữa một số quốc gia tham gia Wu (2009)5 trong một nghiên cứu nhằm so sánh mối tương đồng về mặt nội dung của các bài thi toán giữa hai chương trình PISA và TIMSS (Chương trình đánh giá quốc

tế năng lực toán học và khoa học), đã chỉ ra những ví dụ cụ thể (câu hỏi cụ thể) thuộc đề thi TIMSS 2003 dành cho học sinh lớp 8 có độ khó rất khác biệt giữa Hong Kong và Úc (giá trị độ khó logit lần lượt là -0.42 và 2.36) Quay trở lại phân tích ngôn ngữ sử dụng trong câu hỏi thi, tác giả đã phát hiện, sở dĩ có kết quả trên là

do sự chuyển tải ngôn ngữ từ tiếng Anh sang tiếng Trung Quốc của một cụm từ trong câu hỏi Việc dịch thuật hoàn toàn sát nghĩa, tuy nhiên cách diễn đạt đó không quen thuộc trong tiếng Trung Quốc Độ phân biệt của câu hỏi là 0.18 đối với học sinh Hong Kong và 0.41 đối với học sinh Úc càng làm cho tác giả tin rằng cách diễn đạt của câu hỏi đã gây khó hiểu cho học sinh Hong Kong

Tiến hành phân tích tương tự với hai nhóm quốc gia: phương Tây (bao gồm

Úc, Anh, Mỹ) và phương Đông (bao gồm Hong Kong, Nhật Bản, Hàn Quốc), tác giả cũng tìm thấy một số câu hỏi có độ khó và độ phân biệt khác nhau giữa hai nhóm nước này Chẳng hạn, với câu hỏi số 90 (mang mã số M032699) trên đề thi TIMSS 2003, học sinh ba nước phương Tây cảm nhận câu hỏi dễ hơn học sinh ba nước phương Đông (so sánh độ khó – giá trị logit) Hơn nữa, độ phân biệt của câu

5 Wu, M (2009) A critical comparison of the contents of PISA and TIMSS mathematics assessments Downloaded from the webite: www.edinformatics.com/timss/TIMSS_PISA_test.htm

Trang 25

hỏi này với học sinh ba nước phương Tây cũng thấp hơn học sinh ba nước phương

Đông Trở lại với bối cảnh câu hỏi: đơn vị đo lường nào thường được sử dụng để đo diện tích của một sân bóng, tác giả bình luận: liệu bối cảnh “sân bóng” có ảnh

hưởng đến sự khác biệt về độ khó câu hỏi giữa hai nhóm học sinh này; phải chăng học sinh phương Tây làm đúng câu hỏi này không phải do kiến thức học được ở trường mà do chủ đề này quen thuộc trong cuộc sống hàng ngày của chúng, còn với nhóm học sinh ba nước phương Đông thì ngược lại

Những kết quả phân tích như trên rất có ý nghĩa đối với những người làm chính sách và xây dựng chương trình giáo dục phổ thông ở các nước Các kỳ thi quốc tế như PISA hay TIMSS đã thực sự mang ý nghĩa góp phần làm thay đổi chương trình giáo dục các nước theo hướng gần với đời sống hiện thực hơn, để giáo dục phổ thông ngày càng làm tốt chức năng của mình là chuẩn bị những kiến thức

và kỹ năng cuộc sống cần thiết cho học sinh trước khi bước vào đời

Mở rộng nghiên cứu năm 2007 của mình, năm 2009, Grisay và Monseur đã cùng với Gonzalez đánh giá sự tương đương về độ khó của các câu hỏi thi lĩnh vực đọc hiểu thuộc hai chương trình đánh giá quốc tế PIRLS và PISA, giữa các phiên bản dịch của các nước tham gia6 Lặp lại các bước phân tích với kết quả thi PIRLS7, các tác giả đã chỉ ra một kết quả tương tự như các câu hỏi thi đọc hiểu thuộc chương trình PISA: độ khó câu hỏi giữa các phiên bản không khác biệt nhau nhiều Tỷ lệ khác biệt còn lại gắn liền với ngôn ngữ sử dụng cho công cụ khảo sát Từ các lý giải liên quan đến ngôn ngữ và văn hóa được cho là nguyên nhân dẫn đến độ khó câu hỏi khác nhau giữa các nhóm quốc gia, các tác giả cho rằng các công cụ đánh giá trong các cuộc khảo sát trên diện rộng mang tầm quốc tế như PIRLS hay PISA vẫn cần tiếp tục hoàn thiện về phương diện nhạy cảm văn hóa và quy trình dịch thuật, đặc biệt đối với các phiên bản thuộc các nhóm ngôn ngữ khác biệt hoàn toàn so với ngôn ngữ gốc của công cụ đánh giá

6

Grisay, A Gonzalez, E & Monseur, C (2009) Equivalence of item difficulties across national versions of

the PIRLS and PISA reading assessment IERI monograph series: Issues and methodologies in large-scale

assessment, Vol.2, 63-83

7 PIRLS – Progress in International Reading Literacy Studies: Chương trình đánh giá kỹ năng đọc hiểu quốc

tế, đối tượng khảo sát là học sinh lớp 4

Trang 26

Tại Hội đồng nghiên cứu giáo dục Úc – tổ chức chịu trách nhiệm xây dựng

đề thi và phân tích kết quả đánh giá trong liên danh các nhà thầu quốc tế thực hiện Chương trình đánh giá quốc tế PISA, nhà nghiên cứu Le Luc đã có những nghiên cứu và công bố khoa học quan trọng về câu hỏi thực hiện chức năng khác biệt - nguy cơ tiềm ẩn câu hỏi thi thiên kiến đối với một nhóm đối tượng nhất định, và tạo thuận lợi ghi điểm cho nhóm đối tượng khác Một trong số đó là nghiên cứu phát hiện câu hỏi trong lĩnh vực khoa học thực hiện chức năng khác biệt giữa hai giới ở một số nước và một số ngôn ngữ đánh giá8

Dữ liệu sử dụng cho nghiên cứu là kết quả thi PISA lĩnh vực khoa học, bài thi được tổ chức ở 50 quốc gia với 60 ngôn ngữ được sử dụng, số thí sinh xấp xỉ 83.000 người Tỷ lê nam nữ lần lượt là 49% và 51% Phần thi khoa học bao gồm

210 câu hỏi chia vào các quyển đề thi khác nhau đảm bảo nguyên tắc liên kết giữa các quyển đề thi 91% câu hỏi ở dạng cho điểm 0 và 1 (sai cho 0 điểm, đúng cho 1 điểm); 9% câu hỏi còn lại ở dạng cho điểm từng phần 0, 1 và 2 (sai cho 0 điểm, đúng một phần cho 1 điểm, đúng toàn bộ cho 2 điểm) Các câu hỏi có độ phân biệt thấp hoặc không phù hợp với mô hình tính toán đều bị loại khỏi dữ liệu

Với bộ số liệu trên, tác giả tính toán giá trị DIF giữa các hai nhóm nam và nữ của từng quốc gia và từng ngôn ngữ, tìm kiếm các câu hỏi có giá trị DIF đủ lớn và

so sánh tỷ lệ các câu hỏi có DIF đủ lớn giữa các nhóm ngôn ngữ và nhóm quốc gia Với các nhóm ngôn ngữ, nghiên cứu chỉ ra rằng: trung bình có 5,6% số câu hỏi

khoa học tạo thuận lợi cho nhóm học sinh nam và 2,8% câu hỏi tạo thuận lợi cho nhóm học sinh nữ Đi vào từng ngôn ngữ, tỷ lệ câu hỏi tạo thuận lợi cho nhóm học sinh nam hơn, hoặc tạo thuận lợi cho nhóm học sinh nữ hơn càng tăng cao, cá biệt

có những nhóm ngôn ngữ tỷ lệ này lên đến 49% Chỉ có khoảng 7% số câu hỏi hoàn toàn không bị ảnh hưởng bởi yếu tố ngôn ngữ Kết quả đánh giá cũng cho thấy, một

câu hỏi đã tạo thuận lợi cho nhóm nam hơn nhóm nữ khi phân tích dữ liệu quốc tế,

thì trong từng quốc gia và trong từng ngôn ngữ, cũng có xu hướng tương tự

8 Le, Luc T (2009) Investigating Gender Differential Item Functioning Across Countries and Test

Languages for PISA Science Items International Journal of Testing, 9:2, 122 – 133

Trang 27

Tóm lại, ngôn ngữ sử dụng để đánh giá thực sự là một vấn đề cần lưu tâm đối với các chương trình đánh giá trên diện rộng để đảm bảo độ tin cậy và độ giá trị của công cụ đánh giá năng lực Cũng theo tác giả, câu hỏi DIF là vấn đề không thể tránh khỏi trong các chương trình đánh giá trên diện rộng như PISA Các câu hỏi với giá trị DIF đủ lớn không nhất thiết phải loại bỏ, tuy nhiên, cần được phát hiện

để có những lưu ý tìm hiểu nguyên nhân (chẳng hạn do chủ đề, cách diễn đạt, hình thức câu hỏi ) và có những điều chỉnh thích hợp Nghiên cứu cũng đề xuất: đánh giá phát hiện câu hỏi DIF giữa hai giới trong từng ngôn ngữ là một việc làm cần thiết và quan trọng khi xây dựng đề thi cho các kỳ khảo sát đánh giá trên diện rộng Một câu hỏi có giá trị DIF giữa hai giới đủ lớn ở một số ngôn ngữ khác nhau cần được đặc biệt quan tâm

Chúng ta đã biết, trong các chương trình đánh giá quốc tế như PISA, TIMSS, PIRLS, bên cạnh bộ công cụ đánh giá năng lực học sinh, thông tin về phong cách học tập, thái độ làm bài thi của học sinh cũng được thu thập nhằm mang lại những kết luận đánh giá xác thực nhất về năng lực của học sinh Cũng giống như đề thi, những công cụ thu thập thông tin khảo sát này luôn được các tổ chức khảo thí nghiên cứu xây dựng công phu để đảm bảo độ giá trị của công cụ, giảm thiểu những thiên kiến của học sinh khi trả lời câu hỏi

Sử dụng mô hình Rasch và dữ liệu từ kỳ thi thử PISA 2006, Walker (2007)9

đã chỉ ra: tồn tại một mối tương quan giữa văn hóa và xu hướng trả lời các câu hỏi khảo sát thiết kế theo thang Likert ở học sinh dự thi PISA Điều này có nghĩa là, yếu

tố văn hóa có phần nào quy định xu hướng lựa chọn câu trả lời thiết kế theo thang Likert Một câu hỏi khảo sát về sự yêu thích các môn khoa học của học sinh, với

thang đo từ hoàn toàn không đồng ý, không đồng ý, phân vân, đồng ý, hoàn toàn đồng ý, thì việc lựa chọn câu trả lời không hoàn toàn bị chi phối bởi niềm yêu thích

môn khoa học của học sinh mà có phần nào từ yếu tố văn hóa nền của học sinh đó

Để giảm thiểu sự thiên kiến mang yếu tố văn hóa này, Walker (2007) thử nghiệm và

đề xuất sử dụng thang đo lưỡng phân: chỉ với hai lựa chọn không đồng ý và đồng ý

9 Walker, M (2007) Amelioting culturally based extreme response tendencies to attitude items Journal of

Applied Measurement, 8(3), 267-278

Trang 28

Tóm lại, cho dù đã được xây dựng công phu, các công cụ đánh giá chuẩn hóa dùng trong các chương trình đánh giá năng lực học sinh quốc tế như TIMSS, PIRLS, PISA vẫn không thể không tránh khỏi nguy cơ gây nên hiện tượng thiên kiến, có thể dẫn tới kết quả đánh giá không phản ánh hoàn toàn chính xác năng lực của học sinh Hiện tượng này đặc biệt dễ xảy ra với các chương trình đánh giá quốc

tế bởi sự tham gia của nhiều nước, nhiều vùng lãnh thổ, có các điều kiện kinh tế, chính trị, xã hội, văn hóa rất khác nhau, và hơn cả là bởi công cụ đo được dịch thuật

từ ngôn ngữ gốc sang các ngôn ngữ giảng dạy ở các nước

Việt Nam năm 2012 lần đầu tiên tham gia Chương trình đánh giá học sinh quốc tế PISA Tất cả các khâu chuẩn bị và tổ chức thi đã được thực hiện hết sức nghiêm túc, đảm bảo tuân thủ tuyệt đối các yêu cầu kỹ thuật do OECD đặt ra Kết quả sơ bộ sẽ chỉ được công bố tháng 12/2012 Là một nước đang phát triển có chỉ

số phát triển con người ở mức trung bình (theo số liệu thống kê của Chương trình phát triển Liên hợp quốc – UNDP), không thuộc khối OECD, và có nền văn hóa với nhiều đặc trưng khác biệt so với các nước phương Tây, một vấn đề cần quan tâm liên quan đến việc Việt Nam tham gia Chương trình PISA là liệu câu hỏi thi PISA

có tiềm ẩn những nguy cơ thiên kiến với các nhóm nước có điều kiện kinh tế - xã hội, văn hóa, ngôn ngữ tương đồng với Việt Nam

Ở phạm vi thực hiện luận văn tốt nghiệp chương trình đào tạo Thạc sĩ chuyên

ngành Đo lường và Đánh giá trong Giáo dục, Đề tài có tên “Nghiên cứu mức độ

đáp ứng của học sinh các nước không thuộc khối OECD và học sinh Việt Nam với Chương trình đánh giá quốc tế PISA” sẽ bước đầu chỉ ra những dẫn chứng

thống kê, chứng minh cho khả năng tồn tại hoặc không tồn tại những nguy cơ tiềm

ẩn gây nên tính thiên kiến của các câu hỏi thi PISA với học sinh Việt Nam Kết quả nghiên cứu sẽ là cơ sở cho những nghiên cứu sâu và rộng hơn về tình trạng thiên kiến, nguyên nhân và giải pháp khắc phục, đặc biệt trong giai đoạn dịch thuật và thích nghi hóa tài liệu thi PISA

Trang 29

Chương II: LÝ THUYẾT ĐÁNH GIÁ

Mở đầu

Đánh giá trong giáo dục hiện nay được biết đến là sản phẩm của giáo dục thế

kỷ 20 Để phục vụ quan điểm cũng như lối tư duy về giáo dục giai đoạn cuối thế kỷ

19, đầu thế kỷ 20, đó là giáo dục chỉ dành cho những tầng lớp trên của xã hội; cơ hội tiếp cận giáo dục của những nhóm đối tượng khác nhau trong xã hội hoàn toàn không giống nhau; và không phải tất cả mọi người đều có nhu cầu học lên trình độ

cao để trở thành công dân có ích của xã hội, đánh giá ra đời như một công cụ đo

phát triển của kinh tế, xã hội, tư duy giáo dục đã thay đổi Người ta nhận thấy tất cả những người bình thường trong xã hội đều có thể học hành, giáo dục được nhận thức là quyền công dân của tất cả mọi người trong một quốc gia Đến lúc này, lĩnh vực sư phạm - giảng dạy nói chung, và đánh giá nói riêng được đặt trước những thử thách mới về vai trò, chức năng của đánh giá trong giáo dục Ngoài những chức năng vốn có như phân loại, đo lường trình độ, hoạt động đánh giá còn được mong

đợi là hoạt động hỗ trợ quá trình chuyển tải kiến thức, kỹ năng - quá trình dạy và

học

Trong khi ở Việt Nam, vai trò và chức năng của đánh giá trong giáo dục còn chưa được xác định và nhìn nhận đúng đắn, thể hiện thông qua hệ thống các văn bản chỉ đạo, hướng dẫn thực hiện công tác kiểm tra đánh giá học sinh, thi và tổ chức các kỳ thi … do cơ quan quản lý cao nhất về giáo dục là Bộ Giáo dục và Đào tạo soạn thảo và ban hành, thì ở các quốc gia với hệ thống giáo dục phát triển, hoạt động đánh giá học sinh đã được nghiên cứu và chuyên nghiệp hóa, pháp quy hóa đến từng khía cạnh cụ thể nhất Ở Hoa Kỳ, năm 1990, Hiệp hội Giáo viên Hoa Kỳ (American Federation of Teachers), Hội đồng quốc gia về đo lường trong giáo dục (National Council on Measurement in Education) và Hiệp hội giáo dục quốc gia

(National Education Association) đã cùng nghiên cứu xây dựng Bộ chuẩn năng lực

10

Gordon (2008): adding reference

Trang 30

đánh giá học sinh dành cho giáo viên (Teacher Competence in Educational

Assessment of Students) Ngay sau đó, Hiệp hội các nhà quản lý trường học Hoa

Kỳ (American Association of School Administrators), Hiệp hội quốc gia hiệu trưởng các trường tiểu học và Hiệp hội quốc gia hiệu trưởng các trường trung học

đã cùng với Hội đồng đo lường giáo dục quốc gia xây dựng Bộ chuẩn năng lực đánh giá học sinh dành cho các nhà quản lý giáo dục (Competency Standards in

Student Assessment for Educational Administrators) Một ví dụ trên đủ cho thấy đo lường và đánh giá trong giáo dục phải được nhìn nhận là một cấu phần quan trọng của hệ thống giáo dục, là một hoạt động đòi hỏi sự tích hợp với hoạt động dạy và học, đòi hỏi tính chuyên môn cao

Để soi tỏ khái niệm đánh giá trong giáo dục khi nghiên cứu Chương trình đánh giá quốc tế PISA, phần này sẽ đề cập sơ lược một số vấn đề cơ bản về đo lường và đánh giá: Khái niệm và mục đích của đánh giá trong giáo dục, phân biệt với một số khái niệm liên quan; các dạng thức đánh giá trong giáo dục; các mô hình khảo thí cổ điển và hiện đại

2.1 Khái niệm đánh giá trong giáo dục

Trong lịch sử phát triển ngành đo lường và đánh giá trong giáo dục, đã có

không ít quan điểm/cách tiếp cận khác nhau khi xác định khái niệm đánh giá Thử

điểm qua một số cách tiếp cận như thế:

Theo Griffin (1993)11, đánh giá là một sự mô tả, bao gồm các hoạt động thu

thập thông tin minh chứng về thành quả học tập của học sinh và diễn giải ý nghĩa thông tin minh chứng đó, MÔ TẢ thành quả học tập của học sinh dựa trên sự diễn giải Định nghĩa này nói lên bản chất của hoạt động đánh giá mà không đề cập mục đích của hoạt động

Với tác giả Đỗ Công Tuất (2000)12 thì “đánh giá là quá trình hình thành những nhận định, phân đoán về kết quả của công việc, dựa vào sự phân tích những

Trang 31

thông tin thu được, đối chiếu với những mục tiêu, tiêu chuẩn đã đề ra, nhằm đề xuất những quyết định thích hợp để cải tạo thực trạng, điều chỉnh nâng cao chất lượng và hiệu quả công việc” Định nghĩa này có lẽ đã nghiêng về khái niệm đánh giá –

evaluation, với bản chất nổi bật là nhận định và phán đoán Đánh giá ở đây được

hiểu là một khái niệm có thể dùng chung cho nhiều lĩnh vực, không chỉ áp dụng trong ngành giáo dục Tác giả cũng đã đề cập mục tiêu cuối cùng của hoạt động

đánh giá là điều chỉnh nâng cao chất lượng và hiệu quả

Chương trình hiệu quả dạy học thuộc Trung tâm dạy và học, Đại học

Oregon13, Canada lại cho rằng: Bởi hoạt động học là mục tiêu cao nhất của tiếp cận lấy người học làm trung tâm nên đánh giá đóng vai trò quan trọng khi chúng ta chuyển sang phương thức dạy học này Khi tiến hành đánh giá, chúng ta thường đặt những câu hỏi như “người học đã học được những gì, tiếp thu ở mức độ như thế nào”, “chúng ta đã hoàn thành hoàn thành nhiệm vụ giảng dạy ở mức độ nào so với mục tiêu đề ra”… Chính bởi những câu hỏi như thế, đánh giá nhiều khi được đánh đồng với đánh giá kết quả học tập của người học hay đánh giá sản phẩm đầu ra của giảng dạy Để tránh nhầm lẫn này, Chương trình đưa ra định nghĩa: “đánh giá là quá trình thu thập và thảo luận về thông tin từ nhiều nguồn khác nhau nhằm có được một sự hiểu biết sâu sắc về những điều người học biết, hiểu và có thể làm với kiến thức của mình, như là kết quả của quá trình học tập của học; đỉnh điểm của quá trình đánh giá là kết quả đánh giá được sử dụng để nâng cao chất lượng hoạt động học sẽ diễn ra tiếp theo” Tuy định nghĩa không đề cập bản chất của quá trình đánh giá là xử lý thông tin thu thập được, nhưng đã cho chúng ta một khái niệm tương đối cụ thể, đặt trong bối cảnh giáo dục – dạy học Mục tiêu cuối cùng, cao nhất của hoạt động đánh giá đã được nêu rõ: nâng cao chất lượng học tập

Theo hầu hết các nghiên cứu về cơ sở lý luận và khoa học của hoạt động đánh giá trong giáo dục thì chính mục tiêu đánh giá quyết định cách tiếp cận đánh giá Nghiên cứu lịch sử phát triển các hệ thống đánh giá giáo dục, có thể thấy hoạt động đánh giá rất đa dạng cả về hình thức và quy mô cũng như cách thức và chủ thể

13

http://tep.uoregon.edu/workshops/teachertraining/learnercentered/assessing/definition.html

Trang 32

điều khiển, tiến hành Người ta cũng sử dụng thông tin thu được từ đánh giá để phục vụ nhiều mục đích khác nhau, từ cấp vi mô như điều chỉnh hoạt động dạy học, phân loại học sinh đến cấp vĩ mô như điều chỉnh chương trình giáo dục quốc gia, xây dựng chính sách giáo dục … Định nghĩa sau được cho là khá hoàn chỉnh khi đề cập tương đối đầy đủ những ý nghĩa trên của hoạt động đánh giá:

Đánh giá trong giáo dục được định nghĩa là quá trình thu thập thông tin để đưa

ra những quyết định giáo dục liên quan tới học sinh, để phản hồi cho học sinh

về sự tiến bộ, những điểm mạnh và điểm tồn tại trong học tập của chúng, để đưa ra phán quyết về hiệu quả của công tác giảng dạy và sự phù hợp của chương trình đào tạo, và cuối cùng là để cung cấp thông tin xây dựng chính

sách (AFT, NCME, NEA, 1990: 1)14

Như trên đã đề cập, thông tin đánh giá phục vụ nhiều mục đích khác nhau, và người ta thường phải xác định rõ mục đích của đánh giá để từ đó thiết kế đánh giá cho phù hợp với mục đích đã đề ra Tại cấp độ nhà trường và lớp học, đánh giá phục

vụ 3 mục đích lớn: (i) hỗ trợ hoạt động dạy và học, (ii) cho điểm cá nhân, xác định thành quả học tập của học sinh để phân loại, chuyển lớp, cấp bằng, và (iii) hỗ trợ nhà trường đáp ứng đòi hỏi giải trình với xã hội (Ernl, 2003).15 Ở cấp độ ngành, đánh giá giúp mang lại bức tranh chung về trình độ năng lực của học sinh, sự phù hợp của mục tiêu và chương trình đào tạo, sự phù hợp của phương thức tổ chức đào tạo cũng như của chính hoạt động kiểm tra đánh giá … Từ những thông tin mà đánh giá mang lại, người ta có thể có những điều chỉnh đối với chương trình, phương pháp giảng dạy và kiểm tra đánh giá … để mang lại hiệu quả giáo dục cao nhất Từ góc nhìn quản lý nhà nước, thông tin mà kiểm tra đánh giá mang lại về trình độ năng lực của học sinh, đặc biệt khi thông qua các kỳ khảo sát quy mô rộng như khảo sát quốc gia từng khối lớp hay tham gia các chương trình đánh giá quốc tế như TIMSS, PIRLS, PISA … sẽ rất hữu ích cho việc xây dựng chính sách và chiến lược

14 AFT (Liên đoàn giáo viên Hoa Kỳ), NCME (Hội đồng quốc gia về đo lường trong giáo dục), NEA (Hiệp hội giáo dục

quốc gia) (1990) Teacher Competence in Educational Assessment of Students USA

15Earl, L (2003) Classroom Assessment for Deep Understanding: Shifting from Assessment Of Learning to Assessment

For Learning and Assessment As Learning Tải xuống từ http://www.npbs.ca/Articles.htm lúc 20h15 ngày 1/7/2010

Trang 33

đầu tư, phát triển giáo dục, giúp hệ thống giáo dục quốc gia phát triển hội nhập với

xu thế phát triển chung của thế giới

Phân biệt các khái niệm đánh giá, khảo thí và đo lường

Theo Griffin (1993), thì:

- Đo lường (measurement): là lượng hóa một đặc điểm hoặc khía cạnh nào đó

của đối tượng để từ đó có thể miêu tả hay “đánh giá” đối tượng

- Khảo thí (testing): thực chất chỉ một hoạt động, bao gồm các phép đo đạc

được thiết kế có chủ đích và cấu trúc, giúp ta thu thập thông tin để phục vụ

“đánh giá”

- Đánh giá (assessment): là quá trình mô tả đối tượng, bao gồm các hoạt động

thu thập thông tin, minh chứng về thành quả học tập của học sinh, sau đó diễn giải thông tin để mô tả đối tượng Các phương thức thu thập thông tin rất đa dạng, không chỉ bó hẹp trong phạm vi các phép đo lường hay các bài kiểm tra mà còn có thể là các phép quan sát, theo dõi hồ sơ về đối tượng

- Đánh giá (evaluation): dựa trên thông tin thu được từ assessment, người đánh

giá đưa ra những nhận định, phán quyết liên quan đến giá trị của đối tượng

được đánh giá, quá trình đó gọi là evaluation

Trong tiếng Việt, cả hai thuật ngữ assessment và evaluation đều được chuyển ngữ là đánh giá; thực tiễn khoa học đánh giá trên thế giới cũng cho thấy hai thuật

ngữ này nhiều khi được sử dụng thay thế cho nhau

Phân tích mối quan hệ của 4 khái niệm này, ta thấy hoạt động khảo thí có phạm trù hẹp hơn cả, là một trong các phương thức thu thập thông tin phục vụ đo lường Kết quả đo lường (thường được số hóa) là nguồn thông tin phổ biến phục vụ

đánh giá (assessment), ngoài ra, đánh giá còn dựa trên những nguồn thông tin đa

dạng khác (định tính hoặc định lượng), không nhất thiết do đo lường mà có Sự diễn

giải, mô tả diễn ra trong hoạt động đánh giá (assessment) là cơ sở để người ta đưa ra

nhận định/phán quyết mang tính giá trị về đối tượng được đánh giá, hoạt động “cấp

cao” nhất này được gọi là đánh giá (evaluation)

Trang 34

Phân biệt rõ 4 khái niệm cơ bản trên trong khoa học đánh giá, cùng với việc nắm vững mối quan hệ giữa chúng sẽ góp phần giúp ta nhận rõ bản chất của đánh giá và sự hình thành cũng như quy trình diễn ra hoạt động đánh giá

2.2 Các dạng thức đánh giá

2.2.1 Đánh giá tổng kết và đánh giá quá trình

Khi chức năng hỗ trợ học tập của hoạt động đánh giá được phát hiện và công

nhận thì đồng thời cũng là xuất phát điểm để các nhà nghiên cứu giáo dục căn cứ trên vai trò, chức năng của đánh giá mà phân chia hoạt động đánh giá thành các nhóm khác nhau Một cách phân loại mà sau này, hầu hết các nghiên cứu về đánh giá trong giáo dục đều nhắc đến hoặc vận dụng là cách phân loại của Michael

Scriven (1967), khi ông đưa ra các khái niệm đánh giá quá trình (formative assessment) và đánh giá tổng kết (summative assessment) Từ kinh nghiệm nghiên

cứu về tâm lý học, Scriven nhận thấy cốt lõi của hoạt động đánh giá đúng là đo lường, nhận xét về giá trị của một con người, một sự kiện, hiện tượng … Tuy nhiên, cách người ta sử dụng kết quả đánh giá thì hoàn toàn không giống nhau Gắn với hoạt động đánh giá trong dạy học, sau này nhiều nhà nghiên cứu khác như Reedy (1995)16; Raths and Lyman (2003)17; Stiggins (2005)18; Chappuis & Chappuis (2007; 2008)19; Taras (2008)20 đều thống nhất rằng đánh giá quá trình hay đánh giá tổng kết, tên gọi của nó không phụ thuộc bản thân hoạt động đánh giá mà phụ thuộc

cách người ta sử dụng kết quả đánh giá Nếu kết quả đánh giá được sử dụng để phân loại, để đo lường hiệu quả, để đánh giá mức độ thành công … thì đó là đánh giá tổng kết; ngược lại, đánh giá để người ta sử dụng thông tin thu được từ công tác đánh giá nhằm phản hồi cho người học, điều chỉnh hoạt động học để đạt được mục

18 Stiggins, R (December 2005) From Formative Assessment to Assessment FOR Learning: A Path to Success in

Standards- Bases Schools Phi Delta Kappan 87(4): 324-328

19

Chappuis, A & Chappuis, J (December 2007-January 2008) The Best Value in Formative Assessment Educational

Leadership Informative Assessment 65(4): 14 - 19

20 Taras, M (2008) Summative and Formative Assessment: Perceptions and realities Active Learning in Higher

Education 9(2): 172 - 192

Trang 35

tiêu đầu ra, điều chỉnh hoạt động dạy để phù hợp nhu cầu người học, thì đó là đánh

giá quá trình Tóm lại, một cách khái quát, có thể hiểu:

- Đánh giá tổng kết là khi kết quả đánh giá được sử dụng để đi đến một nhận

định mang tính đo lường, chẳng hạn như cho điểm kết quả học tập của người học, đo lường hiệu quả của chương trình đào tạo, hay mức độ thành công của nhà trường;

- Đánh giá quá trình diễn ra ngay trong quá trình đào tạo, cung cấp thông tin

cho người học và người dạy nhằm cải tiến, điều chỉnh hoạt động dạy và học sao cho có chất lượng và hiệu quả hơn

Một cách diễn đạt đơn giản hơn, đánh giá quá trình là đánh giá CHO hoạt

động học (assessment FOR learning), còn đánh giá tổng kết là đánh giá CHÍNH hoạt động học (assessment OF learning)

Trong khi người ta quá tập trung nhấn mạnh vai trò và tác động tích cực của đánh giá quá trình thì đồng thời đánh giá tổng kết cũng bị nhắc đến, trong mối liên

hệ với đánh giá quá trình như một hình thức đánh giá với nhiều mặt tiêu cực Tuy nhiên, cần phải nhìn nhận đúng đắn vai trò quan trọng ngang nhau và mối quan hệ tác động qua lại giữa hai loại hình đánh giá này trong giáo dục và dạy học Một điểm cần đặc biệt lưu ý là khái niệm đánh giá quá trình hay đánh giá tổng kết không nằm ở bản thân hoạt động đánh giá mà xuất phát từ mục đích đánh giá Người ta có thể sử dụng hiệu quả kết quả của đánh giá tổng kết theo mục đích của đánh giá quá trình

Phân tích sự khác nhau giữa đánh giá tổng kết và đánh giá quá trình, dựa trên mục đích của việc sử dụng thông tin mà cuộc đánh giá mang lại, có thể nhận định: Chương trình đánh giá học sinh quốc tế PISA là một cuộc đánh giá tổng kết Chương trình PISA đo lường mức độ đạt được về kiến thức và kỹ năng của học sinh

15 tuổi ở các quốc gia khác nhau trong các lĩnh vực toán học, khoa học, đọc hiểu và các kỹ năng giải quyết vấn đề, không phụ thuộc chương trình đào tạo của các nước,

Trang 36

như một sự đánh giá hiệu quả của chương trình giáo dục của mỗi nước đối với việc chuẩn bị cho học sinh những kiến thức và kỹ năng cần thiết để gia nhập cuộc sống

2.2.2 Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn

Chúng ta đã biết, mục đích của các bài kiểm tra/thi là để thu thập thông tin khách quan nhất đến mức có thể về những nét năng lực mà chúng ta quan tâm trên đối tượng được đánh giá Lịch sử ngành khoa học đánh giá chứng kiến một cách phân loại các bài kiểm tra/thi đánh giá năng lực người học dựa trên sự tham chiếu nội dung khi thiết kế đề thi/kiểm tra, đó là: đề thi/kiểm tra tham chiếu nhóm chuẩn

(norm-referenced tests) và đề thi/kiểm tra tham chiếu tiêu chí (criterion-referenced tests)

Theo Kubiszyn & Borich (2003)21, một bài thi tham chiếu nhóm chuẩn sẽ cung cấp cho ta thông tin về vị trí của một thí sinh so với các thí sinh khác, tức là cho ta thông tin về thứ hạng của thí sinh Những thông tin như vậy sẽ rất có ích khi chúng ta cần đưa ra một số quyết định về học sinh, chẳng hạn như các kỳ thi tuyển sinh ở Việt Nam, học sinh được lựa chọn trúng tuyển theo cách thức dựa trên điểm

số bài thi, lấy từ cao đến thấp cho đến khi nào hết chỉ tiêu cần tuyển sinh

Với bài thi tham chiếu theo tiêu chí, kết quả đánh giá sẽ cho ta thông tin về cấp độ một thí sinh làm chủ những kiến thức, kỹ năng nhất định mà cuộc đánh giá quan tâm Ở đây, năng lực của thí sinh không được so sánh với mức độ trung bình của mẫu đánh giá mà so sánh với một chuẩn đã xác định – gọi là tiêu chí

Như vậy, một việc rất cần thiết và quan trọng trước khi bắt tay vào thiết kế một công cụ đánh giá giáo dục là chúng ta phải xác định rõ chúng ta cần loại thông tin nào về người được đánh giá: năng lực của họ so với nhóm chuẩn, hay năng lực

so với tiêu chí Nếu không xác định rõ được điều này, kết quả đánh giá sẽ không sử dụng được và trở nên vô nghĩa Các kỳ thi đánh giá năng lực sử dụng hay sự thành thạo ngôn ngữ nổi tiếng trên thế giới như TOEIC, IELTS, TOEFL là các bài thi

21 Kubiszyn, T & Borich, G (2003) Educational Testing and Measurement: Classroom Application and Practice John

Wiley & Sons, Inc Singapore

Trang 37

tham chiếu tiêu chí Với mỗi điểm số mà thí sinh đạt được, người ta có thể lý giải cụ thể năng lực sử dụng ngôn ngữ tiếng Anh của thí sinh tại thời điểm đó

Cũng theo Kubiszyn & Borich (2003), khi sử dụng đánh giá tham chiếu nhóm chuẩn và đánh giá tham chiếu tiêu chí chúng ta cần lưu ý một số khác biệt đặc trưng sau:

- Bài thi tham chiếu nhóm chuẩn thường có nội dung đánh giá rộng, bao trùm nhiều mục tiêu khác nhau; trong khi nội dung của bài thi tham chiếu tiêu chí thường hẹp, bao trùm chỉ một vài mục tiêu;

- Điểm số bài thi tham chiếu nhóm chuẩn chạy trên một dải điểm càng rộng càng tốt, vì ý nghĩa của bài đánh giá này nằm ở vị trí tương đối của điểm số từng thí sinh so với các thí sinh khác; ngược lại, bài thi tham chiếu tiêu chí không mong đợi điểm số đánh giá tạo nên một dải điểm rộng;

- Khi thiết kế đề thi tham chiếu nhóm chuẩn, người ta luôn cố gắng lựa chọn các câu hỏi sao cho phổ điểm càng rộng càng tốt Vì vậy, thường không có câu hỏi “quá dễ” hay “quá khó”; Đối với đề thi tham chiếu tiêu chí, người ta lựa chọn câu hỏi để phản ảnh năng lực mà tiêu chí đã đề ra Vì vậy, người ta chỉ chú trọng việc lựa chọn các câu hỏi sao cho phản ánh đầy đủ từng nét năng lực, tức là độ giá trị nội dung và độ giá trị cấu trúc của đề thi rất được coi trọng

- Về việc báo cáo và sử dụng điểm số: đánh giá tham chiếu nhóm chuẩn sử dụng thứ hạng và điểm chuẩn; trong khi đánh giá tham chiếu tiêu chí báo cáo thí sinh vượt qua hay không vượt qua bài thi, hoặc tỷ lệ thí sinh đạt từng cấp

độ năng lực

Nghiên cứu Chương trình PISA, ta thấy rõ đây là hình thức đánh giá tham chiếu tiêu chí Quá trình thiết kế đề thi bắt đầu với việc xây dựng các khung đánh giá năng lực cho từng lĩnh vực Dựa trên khung đánh giá năng lực, các câu hỏi thi được

dự thảo, thử nghiệm và lựa chọn để hình thành nên đề thi cho mỗi kỳ đánh giá Như vậy, bất kể học sinh dự thi PISA đến từ quốc gia nào, được học tập theo một chương

Trang 38

trình giáo dục nào, thì bài thi vẫn chủ đích mang lại một bức tranh về hiện trạng năng lực của học sinh độ tuổi 15 của mỗi quốc gia

2.2.3 Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực

Đánh giá dựa trên chương trình (CBA – Curriculum Based Assessment), theo Deno (1987) là “một tập hợp các quy trình đo lường, trong đó hoạt động học tập của học sinh trong một chương trình đào tạo được trực tiếp quan sát và ghi chép lại, và được sử dụng làm cơ sở để giáo viên đưa ra những quyết định trong quá trình dạy học” (in Hall & Mengel, 2002)22 Đánh giá dựa trên chương trình là một hình thức đánh giá liên tục, trong đó hoạt động hàng ngày của học sinh liên quan đến nội dung giảng dạy được theo dõi định kỳ Đánh giá này sẽ mang lại thông tin về sự tiến bộ trong tiếp thu chương trình của học sinh, cho giáo viên biết sự tiến bộ đó đã phù hợp với mục tiêu và yêu cầu của chương trình chưa Đánh giá dựa trên chương trình được xây dựng dựa trên những kiến thức và kỹ năng cụ thể mà chương trình đào tạo đề cập, được tiến hành trong suốt năm học, và cung cấp thông tin cơ sở để giáo viên đưa ra các quyết định giảng dạy cũng như học sinh lập kế hoạch học tập

Đánh giá dựa trên năng lực (Competence – based assessment), theo Grant et

al (1979) “là loại hình đánh giá được xây dựng dựa trên một bảng trọng số các kết quả đầu ra; các kết quả đầu ra mong đợi, khái quát và cụ thể được đề cập rõ ràng, giúp người đánh giá, học sinh và các đối tượng quan tâm đưa ra những phán quyết tương đối khách quan về việc học sinh đạt được hay không đạt được kết quả đầu ra mong muốn; đồng thời chứng nhận sự tiến bộ của học sinh thông qua việc học sinh thể hiện được đến đâu những kết quả mong đợi này Đánh giá dựa trên năng lực không bị ràng buộc chặt chẽ về mặt thời gian thực hiện các chương trình giáo dục” (in Wolf, 2001)23

Đánh giá dựa trên năng lực được đặc trưng bởi 3 điểm quan trọng, cũng đồng thời làm nó trở thành phạm trù đối lập với đánh giá dựa trên chương trình:

22

Hall, T & Mengel, M (June 2002) Curriculum-Based Evaluations NCAC Effective Classroom Practices NCAC

USA downloaded from NCAC website on 11 July 2010

23 Wolf, A (2001) Competence-Based Assessment Chapter 25 Raven, J & Stephenson, J Competence in

the Learning Society Peter Lang New York Pps 453-466

Trang 39

(i) Nhấn mạnh kết quả đầu ra: một tập hợp kết quả đầu ra đa dạng, độc lập với nhau

(ii) Những kết quả đầu ra được cụ thể hóa đến mức rõ ràng và minh bạnh để cả

người đánh giá, người được đánh giá và các đối tượng quan tâm nắm rõ người ta sẽ đánh giá cái gì, và người học cần đạt được kỹ năng gì

(iii) Đánh giá này không gắn liền với một trường hay một chương trình đào tạo

cụ thể nào

Ta cũng nhận thấy, đặc trưng nhấn mạnh kết quả đầu ra và sự cụ thể, minh bạch của kết quả đầu ra không phải là đặc điểm riêng của đánh giá dựa trên năng lực Các phép đo lường đánh giá tham chiếu theo tiêu chí (criterion referenced) đều mang đặc trưng này Điều này không có nghĩa là đánh giá dựa trên năng lực cũng là đánh giá tham chiếu theo tiêu chí Đặc điểm riêng của đánh giá dựa trên năng lực, làm cho nó khác với các phương thức đánh giá khác là các phép thu thập thông tin đánh giá không được mang tính học thuật, nó phải là những đánh giá giúp phát hiện những kỹ năng “đời sống” của người được đánh giá

Giáo dục, suy tới cùng là vì mục tiêu đào tạo nên con người xã hội với đủ phẩm chất, kiến thức và kỹ năng giúp đáp ứng tốt đời sống xã hội Bởi ưu thế vượt trội là khả năng đánh giá con người nhằm phát hiện những năng lực “đời sống” đã

có và còn thiếu của mỗi cá nhân, thông qua đó có thể tính toán và kết luận về hiệu quả “đào tạo công dân” của một hệ thống hay chương trình giáo dục, đánh giá dựa trên năng lực ngày càng được áp dụng rộng rãi, đặc biệt đối với những cuộc khảo sát quy mô lớn ở cuối bậc học phổ thông hay khi học sinh/sinh viên chuẩn bị bước vào đời

Chương trình đánh giá học sinh quốc tế PISA của Tổ chức hợp tác kinh tế và phát triển (OECD) khai thác hướng tiếp cận đánh giá dựa trên năng lực Với đối tượng đánh giá là học sinh thuộc lứa tuổi 15, lứa tuổi chuẩn bị kết thúc chương trình giáo dục phổ thông bắt buộc ở hầu hết các quốc gia, PISA tập trung đánh giá mức

độ áp dụng những kiến thức và kỹ năng mà học sinh đã được học và được luyện tập

Trang 40

ở trường khi phải va chạm hay đối mặt với tình huống thực trong đời sống Chẳng hạn, đối với năng lực đọc hiểu, PISA đánh giá mức độ học sinh sử dụng những kỹ năng đọc hiểu của mình để hiểu và diễn giải những văn bản khác nhau mà chúng có thể sẽ gặp trong cuộc sống hàng ngày; đối với năng lực toán học, PISA đánh giá mức độ học sinh sử dụng kiến thức và kỹ năng toán học của mình để giải quyết nhiều vấn đề khác nhau liên quan đến số học hay không gian Ngoài toán học, các môn khoa học và đọc hiểu, PISA còn có hợp phần đánh giá những năng lực mang tính tích hợp như năng lực giải quyết vấn đề (in OECD, 2009; p 20)24 Mục 3 Chương II sẽ đề cập những thông tin chi tiết hơn về Chương trình đánh giá học sinh quốc tế PISA

2.2.4 Hệ thống đánh giá và vai trò, vị trí của khảo sát/đánh giá năng lực trên

diện rộng

Hệ thống đánh giá trong giáo dục, theo TS Anil Kanjee25, có thể được hiểu

là tập hợp những chính sách và hoạt động thực tiễn tương tác với nhau, tương quan

và phụ thuộc lẫn nhau; là một loạt những cơ cấu và quá trình sử dụng thông tin minh chứng về hoạt động học tập của học sinh ở các cấp khác nhau trong hệ thống giáo dục

Hệ thống đánh giá đã được tác giả khái quát bao gồm 4 cấu phần: Đánh giá trong lớp học, các kỳ thi nội bộ, các kỳ thi bên ngoài, và các cuộc khảo sát/đánh giá năng lực trên diện rộng Các hoạt động đánh giá thuộc cả 4 cấu phần đều lấy việc thu thập và sử dụng thông tin minh chứng làm trung tâm

Ngày đăng: 16/03/2015, 17:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w