Từ năm 2007 đến nay, Viện Khoa học Giáo dục Việt Nam đã tạo cơ hội cho tác giả được tham gia phân tích các kết quả trắc nghiệm khách quan và tự luận từ việc khảo sát kết quả học tập một
Trang 1GS.TSKH LÂM QUANG THIỆP
ĐO LƯờNG TRONG GIáO DụC
Lý thuyết và ứng dụng
Nhà xuất bản đại học quốc gia Hà nội
Trang 3MỤC LỤC
LỜI NÓI ĐẦU 7
GIỚI THIỆU CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH 9
P H Ầ N I MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG
TRONG GIÁO DỤC 15
Chương 1 VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG TRONG GIÁO DỤC 16
1.1 NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC VỀ ĐO LƯỜNG NÓI CHUNG 16
1.2 ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC 17
1.3 PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC 19
1.4 PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ
TRONG GIÁO DỤC 23
1.5 CÁC KIỂU CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN 26
1.6 SO SÁNH CÁC PHƯƠNG PHÁP TRẮC NGHIỆM KHÁCH QUANVÀ TỰ LUẬN29 1.6.1 Các đặc điểm của phương pháp TL: 29
1.6.2 Các đặc điểm của phương pháp TNKQ: 29
1.7 SỰ KẾT HỢP TRẮC NGHIỆM KHÁCH QUAN VỚI TỰ LUẬN
TRONG ĐÁNH GIÁ 37
1.8 SỬ DỤNG CÁC CÂU HỎI TRẮC NGHIỆM ĐỂ ĐÁNH GIÁ CÁC MỨC ĐỘ
NHẬN THỨC KHÁC NHAU 37
1.9 CÁCH CHẾ TÁC CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN 41
1.10 QUY TRÌNH XÂY DỰNG MỘT NGÂN HÀNG CÂU HỎI HOẶC MỘT ĐỀ TRẮC NGHIỆM TIÊU CHUẨN HÓA 42
1.10.1 Mục tiêu giảng dạy, ma trận kiến thức và đề kiểm tra 42
1.10.2 Quy trình thiết kế một đề kiểm tra tiêu chuẩn hóa và một NHCH 43
Chương 2 MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ THỐNG KÊ VÀ KHÁI QUÁT VỀ TRẮC NGHIỆM CỔ ĐIỂN 51
2.1 MỘT SỐ KHÁI NIỆM VÀ ĐỊNH LUẬT QUAN TRỌNG
TRONG THỐNG KÊ HỌC 51
2.1.1 Xác suất 51
2.1.2 Luật số lớn 52
2.1.3 Tổng thể và mẫu 52
2.1.4 Phân bố 53
2.1.5 Tương quan 57
2.2 CÁC THAM SỐ ĐẶC TRƯNG CHO MỘT CÂU HỎI TRẮC NGHIỆM VÀ MỘT ĐỀ TRẮC NGHIỆM 59
2.2.1 Độ khó của CH 59
2.2.2 Độ phân biệt của CH 60
2.2.3 Độ tin cậy của ĐTN 62
Trang 42.2.4 Độ giá trị của ĐTN 64
2.3 ĐÁNH GIÁ MỘT ĐỀ TRẮC NGHIỆM 66
2.3.1 Phân tích các CH trắc nghiệm 66
2.3.2 Tính độ tin cậy của ĐTN 68
2.3.3 Xem xét độ giá trị của ĐTN 70
2.4 CÁC LOẠI ĐIỂM TRẮC NGHIỆM 71
2.4.1 Điểm thô 71
2.4.2 Điểm tiêu chuẩn tuyệt đối 72
2.4.3 Các loại điểm tương đối dựa vào phân bố chuẩn 72
2.4.4 Về các thang điểm được sử dụng ở nước ta 75
2.5 CÁC HẠN CHẾ CỦA LÝ THUYẾT TRẮC NGHIỆM CỔ ĐIỂN
VÀ KỲ VỌNG ĐỐI VỚI MỘT LÝ THUYẾT TRẮC NGHIỆM MỚI 76
P H Ầ N II TRẮC NGHIỆM HIỆN ĐẠI - LÝ THUYẾT ỨNG ĐÁP CÂU HỎI 81
Chương 3 HÀM ĐẶC TRƯNG CÂU HỎI – TẾ BÀO CỦA LÝ THUYẾT ỨNG ĐÁP CÂU HỎI 82
3.1 VỀ CÁC PHÉP ĐO LƯỜNG 82
3.1.1 Về quy trình xây dựng một phép đo lường 82
3.1.2 Các con số và các loại thang đo 83
3.1.3 Về các phép đo lường trong tâm lý và giáo dục 85
3.2 VỀ ĐƯỜNG CONG ĐẶC TRƯNG CÂU HỎI 86
3.2.1 Các mối tương tác nguyên tố và tính đơn chiều 86
3.2.2 Xây dựng thang đo để biểu diễn các tương tác 87
3.2.3 Ví dụ về mô hình đường cong đặc trưng câu hỏi đơn chiều, nhị phân, một tham số (mô hình Rasch) 88
Chương 4 CÁC MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG
CỦA CÂU HỎI NHỊ PHÂN 92
4.1 BA MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG CỦA CÂU HỎI NHỊ PHÂN DẠNG LOGISTIC 92
4.1.1 Mô hình đường cong đặc trưng của câu hỏi hai tham số 92
4.1.2 Mô hình đường cong đặc trưng của câu hỏi ba tham số 94
4.2 MỘT VÀI LƯU Ý VỀ CÁC MÔ HÌNH KIỂU KHÁC VỀ ĐẶC TRƯNG
CỦA CÂU HỎI 96
4.2.1 Mô hình đặc trưng của câu hỏi dạng đường cong tích lũy vòm chuẩn 97
4.2.2 Về mô hình Rasch và vai trò của nó 98
Chương 5 ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI TRẮC NGHIỆM 102
5.1 QUY TRÌNH ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI 102
5.2 VỀ TÍNH BẤT BIẾN CỦA CÁC THAM SỐ CÂU HỎI
ĐỐI VỚI MẪU THÍ SINH 105
Chương 6 ĐIỂM THỰC - ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM 117
6.1 ĐIỂM THỰC VÀ ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM 117
6.1.1 Quan niệm về điểm thực trong CTT 117
6.1.2 Xác định điểm thực theo IRT 118
6.1.3 So sánh điểm thô, điểm thực và điểm năng lực 122
Trang 56.2 MỘT SỐ PHÉP CHUYỂN ĐỔI 124
6.2.1 Vài phép chuyển đổi tuyến tính 124
6.2.2 Vài phép chuyển đổi phi tuyến 125
Chương 7 HÀM THÔNG TIN CỦA CÂU HỎI VÀ CỦA ĐỀ TRẮC NGHIỆM 129 7.1 HÀM THÔNG TIN CỦA CÂU HỎI TRẮC NGHIỆM 129
7.2 HÀM THÔNG TIN VÀ SAI SỐ TIÊU CHUẨN CỦA ĐỀ TRẮC NGHIỆM 132
7.2.1 Hàm thông tin của đề trắc nghiệm 132
7.2.2 Sai số tiêu chuẩn của đề trắc nghiệm 134
7.2.3 Hàm hiệu suất tỷ đối 135
Chương 8 ƯỚC LƯỢNG NĂNG LỰC CỦA THÍ SINH
VÀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM 137
8.1 QUY TRÌNH ƯỚC LƯỢNG GIÁ TRỊ NĂNG LỰC CỦA THÍ SINH 137
8.1.1 Các nguyên tắc chung của quy trình 138
8.1.2 Một ví dụ đơn giản về ước lượng nhờ đồ thị 140
8.1.3 Một ví dụ về việc sử dụng phương pháp tính lặp để tìm cực đại 142
8.1.4 Về sai số ước lượng giá trị năng lực 145
8.2 ĐỊNH CỠ ĐỀ TRẮC NGHIỆM: ƯỚC LƯỢNG ĐỒNG THỜI THAM SỐ
CỦA CÂU HỎI VÀ NĂNG LỰC CỦA THÍ SINH 146
8.2.1 Về việc ước lượng các tham số của câu hỏi 146
8.2.2 Ước lượng đồng thời tham số của câu hỏi và năng lực của thí sinh:
định cỡ đề trắc nghiệm 146
8.2.3 Vấn đề metric 148
8.3 TÍNH BẤT BIẾN CỦA VIỆC ƯỚC LƯỢNG NĂNG LỰC THÍ SINH
ĐỐI VỚI CÁC ĐỀ TRẮC NGHIỆM 149
8.4 VÍ DỤ VỀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM, TÍNH HÀM THÔNG TIN, HÀM ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM 150
Chương 9 ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH 161
9.1 CÁC PHƯƠNG PHÁP ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU
VÀ MÔ HÌNH 161
9.1.1 Đảm bảo tính đơn chiều 162
9.1.2 Kiểm tra tính bất biến 162
9.1.3 Kiểm tra các dự đoán mô hình 163
9.2 VÍ DỤ VỀ ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH 164
9.2.1 Kiểm tra tính bất biến của tham số CH đối với các mẫu TS khác nhau 164
9.2.2 Kiểm tra tính bất biến của năng lực TS đối với các ĐTN khác nhau 166
9.2.3 Đánh giá sự phù hợp giữa số liệu thực nghiệm và mô hình
qua giá trị thặng dư tiêu chuẩn hóa 168
Chương 10 THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM 171
10.1 SO SÁNH CTT VÀ IRT TRONG VIỆC THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM 171
10.2 CÁCH TIẾP CẬN CƠ BẢN ĐỂ THIẾT KẾ ĐỀ TRẮC NGHIỆM 172
10.3 MỘT SỐ LOẠI ĐỀ TRẮC NGHIỆM VÀ CÁCH THIẾT KẾ 174
10.4 ẢNH HƯỞNG CỦA MÔ HÌNH ĐƯỜNG CONG ĐTCH VÀ SỐ LƯỢNG CÂU HỎI LÊN ĐỀ TRẮC NGHIỆM 175
Chương 11 SO BẰNG CÁC ĐIỂM TRẮC NGHIỆM 178
Trang 611.1 CÁC PHƯƠNG PHÁP SO BẰNG TRONG CTT 178
11.2 CÁC PHƯƠNG PHÁP SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT 181
11.2.1 Một số trường hợp thực hiện định cỡ và xác lập thang đo 182
11.2.2 Xác định các hằng số thiết lập thang đo 186
11.3 VÍ DỤ VỀ SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT 191
Chương 12 TRẮC NGHIỆM NHỜ MÁY TÍNH 203
12.1 ĐẶC ĐIỂM CỦA TRẮC NGHIỆM NHỜ MÁY TÍNH
VÀ CÁC HỆ THỐNG HỖ TRỢ 203
12.1.1 Một số đặc điểm của trắc nghiệm nhờ máy tính 203
12.1.2 Đòi hỏi đối với các phầm mềm hỗ trợ trắc nghiệm nhờ máy tính 204
12.2 MỘT SỐ MÔ HÌNH TRIỂN KHAI TRẮC NGHIỆM NHỜ MÁY TÍNH 206
12.2.1 Các trắc nghiệm cố định nhờ máy tính 206
12.2.2 Các trắc nghiệm di chuyển thẳng nhờ máy tính 207
12.2.3 Các trắc nghiệm thích ứng nhờ máy tính dựa vào câu hỏi 207
12.2.4 Các trắc nghiệm thích ứng nhờ máy tính dựa vào phân đề 210
12.2.5 Các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn 210
12.3 VÍ DỤ VỀ TRẮC NGHIỆM THÍCH ỨNG NHỜ MÁY TÍNH 215
Chương 13 CÁC MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN 219
13.1 MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN 219
13.1.1 Mô hình định giá từng phần 220
13.1.2 Mô hình định giá từng phần tổng quát 231
13.2 CÁC VÍ DỤ VỀ ỨNG DỤNG TRẮC NGHIỆM ĐA PHÂN 232
13.2.1 Phân tích các bài kiểm tra gồm các CH tự luận
nhờ phần mềm CONQUEST 232
13.2.2 Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và tự luận nhờ phần mềm CONQUEST 242
13.2.3 Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và tự luận nhờ phần mềm PARSCALE 251
Chương 14 KHÁI NIỆM VỀ TRẮC NGHIỆM ĐA CHIỀU 256
14.1 MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA CHIỀU 256
14.1.1 Mô hình trắc nghiệm đa chiều nhờ các hàm logistic tuyến tính theo
số liệu từ các CH nhị phân 256
14.1.2 Một cách tiếp cận xây dựng mô hình tổng quát cho trắc nghiệm nhị phân,
đa phân, một chiều, đa chiều 262
14.1.3 Về các cách biểu hiện tính đa chiều: giữa các CH và trong từng CH 265
14.2 VÀI VÍ DỤ VỀ ÁP DỤNG TRẮC NGHIỆM ĐA CHIỀU 266
14.2.1 Phân tích bài kiểm tra gồm các CH nhị phân và đa phân đo lường 3 chiều năng lực biểu hiện ở riêng từng CH 266
14.2.2 Phân tích bài kiểm tra gồm các CH nhị phân đo lường 3 chiều năng lực
biểu hiện hỗn hợp trong mỗi CH 268
Các tài liệu dẫn và tham khảo chính 289
Trang 7LỜI NÓI ĐẦU
Trong các khoa học về giáo dục có một nhánh quan trọng là khoa học về đo lường trong tâm lý và giáo dục, thường được gọi là tâm trắc học (psychometrics) Khoa học này ở phương Tây bắt đầu phát triển mạnh từ cuối thế kỷ XIX và đạt được rất nhiều thành tựu vào cuối thế kỷ XX Tuy nhiên tại Liên Xô cũ vì gặp một số trắc trở nên khoa học này phát triển rất chậm, điều đó cũng ảnh hưởng đến nước ta, do vậy cho đến thập niên 90 của thế kỷ XX nước ta hầu như vẫn chưa tiếp cận với khoa học này, trừ vài
ba chuyên gia ở phía Nam được đào tạo từ phương Tây trước năm 1975 Nhìn thấy khiếm khuyết lớn nói trên trong việc xây dựng một nền giáo dục bền vững cho đất nước, khi làm công tác quản lý ở Bộ Giáo dục
và Đào tạo vào thập niên 90 của thế kỷ trước, tác giả tập sách này đã đề nghị Bộ Giáo dục và Đào tạo lần lượt gửi hàng mấy chục giảng viên đại học đi học thạc sỹ và tiến sỹ về khoa học này ở các nước tiên tiến Nhiều người học xong đã về làm việc rải rác ở các trường đại học, cũng có người tiếp tục làm việc ở nước ngoài Tuy nhiên, một thực tế đáng buồn là cho đến nay việc tiếp cận và ứng dụng khoa học này vào thực tiễn giáo dục ở nước ta vẫn còn rất yếu kém Trong các chương trình đào tạo giáo viên các cấp không có một môn học thích đáng giúp sinh viên tiếp cận khoa học này; ở các kỳ thi quan trọng cấp quốc gia, khoa học này cũng chưa thực sự được áp dụng Ngay trong các trường đại học lớn về sư phạm và giáo dục hiện nay chưa có các nhóm nghiên cứu sâu về đo lường trong tâm lý và giáo dục, cũng chưa có một cuốn giáo trình nào giới thiệu về thành tựu hiện đại của khoa học này Những thiếu sót nói trên chứng tỏ việc lấp lỗ
hổng về nhánh khoa học giáo dục này ở nước ta quá chậm, điều đó tất yếu
ảnh hưởng đến sự phát triển bền vững của toàn bộ hệ thống giáo dục
Vì thấy tầm quan trọng của khoa học đo lường trong tâm lý và giáo dục qua hoạt động thực tiễn, cũng vì vẻ đẹp bên trong của bản thân nó, tác giả đã dành thời gian tiếp cận lý luận và áp dụng thực tiễn khoa học
Trang 8đã nêu trong hơn mười năm qua Cuốn sách trong tay bạn đọc nhằm đóng góp thúc đẩy sự phát triển nhanh chóng hơn khoa học này ở nước ta Cuốn sách có thể sử dụng làm cơ sở ban đầu để giảng dạy trong các chương trình đại học và sau đại học ở các trường có các ngành sư phạm
và giáo dục, đặc biệt để tạo cho các bạn giáo viên và sinh viên trẻ quan tâm một con đường tương đối ngắn để tiếp cận khoa học này so với con đường mà tác giả đã phải đi qua
Từ năm 2007 đến nay, Viện Khoa học Giáo dục Việt Nam đã tạo
cơ hội cho tác giả được tham gia phân tích các kết quả trắc nghiệm khách quan và tự luận từ việc khảo sát kết quả học tập một số môn học lớp 5, lớp 6 và lớp 9 ở nước ta, nhờ đó tác giả có số liệu thô để minh họa về kỹ thuật phân tích trắc nghiệm trong sách, tác giả trân trọng cảm ơn Viện về các cơ hội nói trên Một công cụ được dùng để phân tích kết quả trắc nghiệm trong cuốn sách này là phần mềm phân tích trắc nghiệm VITESTA được xây dựng đầu tiên ở nước ta theo Lý thuyết Ứng đáp Câu hỏi Công ty Khoa học và Công nghệ Giáo dục (EDTECH-VN) đã cung cấp các kỹ sư giúp tác giả xây dựng thành công phần mềm nói trên, tác giả chân thành cảm ơn Công ty về sự hỗ trợ đó Tác giả cảm ơn Trường Đại học Giáo dục thuộc Đại học Quốc gia Hà Nội đã hỗ trợ làm thủ tục in cuốn sách Cuối cùng tác giả tỏ lòng biết ơn anh Dương Quang Minh, nghiên cứu sinh về tâm trắc học tại Viện Đại học Bang Michigan
đã đọc bản thảo cuốn sách và đóng góp nhiều ý kiến quý báu
Một cuốn sách như thế này lẽ ra phải được các giảng viên đã có cơ hội tiếp cận đầy đủ các chương trình đào tạo tiến sỹ ở các nước tiên tiến viết ra, nhưng vì chờ đợi mãi hàng chục năm qua chưa thấy ai chịu khó làm việc này nên tác giả đành phải cố gắng thực hiện Một mảng khoa học hiện đại rộng lớn, phát triển nhanh chóng và có nhiều ứng dụng đa dạng, nhưng chỉ được giới thiệu thu gọn trong một cuốn sách tương đối nhỏ như thế này thì chắc không tránh khỏi thiếu sót Tác giả rất hoan nghênh các ý kiến đóng góp về cuốn sách và xin bạn đọc gửi về địa chỉ
lqthiep@gmail.com
Hà Nội, tháng 10 năm 2010
TÁC GIẢ
Trang 9GIỚI THIỆU CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH
Cuốn sách gồm 2 phần lớn Phần I có 2 chương, chương 1 giới thiệu các khái niệm chung về trắc nghiệm và đo lường trong giáo dục; chương 2 giới thiệu khái quát về lý thuyết trắc nghiệm cổ điển Phần II là trọng tâm của cuốn sách, có 12 chương, tập trung vào trắc nghiệm hiện đại, đặc biệt
là Lý thuyết Ứng đáp Câu hỏi (Item Response Theory – IRT) Để bạn đọc
dễ theo dõi, đầu mỗi chương đều có nêu những vấn đề sẽ được đề cập đến trong chương và lưu ý người đọc nên tập trung vào vấn đề gì, ở cuối mỗi chương có các câu hỏi tự kiểm tra hoặc bài tập, hoặc cả hai
Người đọc nếu đã quen với trắc nghiệm cổ điển qua các cuốn sách
về trắc nghiệm của GS Dương Thiệu Tống [1]thì chỉ cần đọc lướt phần I
để nhớ lại các khái niệm sẽ được dùng đến ở phần II
Ở phần II, IRT được trình bày theo trình tự từ các điểm xuất phát cần thiết để xây dựng một phép đo lường trong giáo dục nói chung Diễn
tả được bắt đầu từ khái niệm cơ bản của IRT là hàm đặc trưng câu hỏi (biểu hiện qua đường cong đặc trưng câu hỏi), mô tả ứng đáp của một thí
sinh lên một câu hỏi, mối tương tác xảy ra trong một “tế bào” bao gồm một cặp “thí sinh – câu hỏi”, mà tác giả gọi là “mối tương tác nguyên tố” Mối tương tác đó là viên gạch để xây dựng toàn bộ tòa nhà IRT, cơ sở của khoa học đo lường hiện đại trong tâm lý và giáo dục Chương 3 và 4 dành để giới thiệu các mô hình đường cong đặc trưng câu hỏi khác nhau,
mô hình 1, 2 và 3 tham số dạng logistic, cũng giới thiệu mối quan hệ giữa chúng với dạng đường cong tích lũy vòm chuẩn đã được sử dụng nhiều trong quá khứ Vai trò của mô hình Rasch (mô hình một tham số) trong IRT nói chung cũng được bàn đến trong chương 3 Từ chương 3 đến
chương 12 của phần II chỉ tập trung trình bày mô hình trắc nghiệm nhị phân (dichotomous) và đơn chiều (unidimentional)
Trang 10Sau khi giới thiệu các hàm đặc trưng câu hỏi, chương 5 mô tả định tính về quy trình ước lượng các tham số của câu hỏi để bạn đọc hiểu thực chất của quy trình này, rồi chương 8 trở lại giới thiệu định lượng về quy trình ước lượng giá trị năng lực của thí sinh và ước lượng đồng thời các tham số của câu hỏi và năng lực của thí sinh, tức là định cỡ đề trắc nghiệm Những bạn đọc ngại đi vào các tính toán định lượng có thể chỉ đọc chương 5 là đủ để hình dung được khái quát cách dựa vào mô hình để tính toán các kết quả mong đợi cuối cùng – các tham số đặc trưng câu hỏi
và giá trị năng lực của thí sinh Bắt đầu ở chương 5 và trình bày rõ hơn ở chương 8 một tính chất quan trọng, hòn đá tảng thể hiện ưu việt của IRT,
đó là tính bất biến của các tham số của câu hỏi và năng lực của thí sinh đối
với các phép đo bằng trắc nghiệm Tính bất biến (invariance) này cũng hay được diễn đạt bằng các cụm từ “không phụ thuộc vào câu hỏi” (item- free), “không phụ thuộc vào mẫu thử” (sample-free) Các chương 6 và 7
trước hết giới thiệu thêm một công cụ quan trọng phản ánh tính chất của
câu hỏi trắc nghiệm là hàm thông tin của câu hỏi trắc nghiệm, sau đó giới
thiệu các công cụ tổng hợp mô tả tính chất của toàn bộ đề trắc nghiệm, đó
là hàm và đường cong đặc trưng đề trắc nghiệm (đường cong điểm thực)
cũng như hàm và đường cong thông tin của đề trắc nghiệm
Chương 9 trình bày một vấn đề quan trọng, đó là cách đánh giá sự phù hợp giữa số liệu và mô hình trong IRT Chỉ khi mức độ phù hợp giữa
số liệu và mô hình có thể chấp nhận được thì mọi ưu điểm liên quan đến IRT mới phát huy đầy đủ và chất lượng các phép đo lường mới đảm bảo
Ba chương tiếp theo nêu các phương pháp ứng dụng thực tế cụ thể của lý thuyết trắc nghiệm Chương 10 trình bày các phương pháp thiết kế các đề trắc nghiệm dựa vào lý thuyết trắc nghiệm cổ điển và đặc biệt là dựa vào IRT Chương 11 trình bày các phương pháp liên quan đến một nhu cầu quan trọng của hoạt động đánh giá trong thực tế: làm sao so sánh được các điểm trắc nghiệm thu được từ các đề trắc nghiệm khác nhau cũng như so sánh được các tham số của câu hỏi trắc nghiệm thu được từ các mẫu định cỡ khác nhau Nhu cầu này được giải quyết bởi các phương
pháp so bằng các điểm trắc nghiệm Chương 12 giới thiệu các mô hình trắc nghiệm nhờ máy tính, đặc biệt là phương pháp trắc nghiệm thích ứng
Trang 11nhờ máy tính (computational adaptive tests) một phương pháp phát triển
rất thuận lợi dựa trên cơ sở IRT
Hai chương cuối phần II của cuốn sách trình bày các cách tiếp cận
mở rộng mô hình nhị phân đơn chiều sang các mô hình đa phân (polytomous) và đa chiều (multidimentional) Chương 13 giới thiệu chung các mô hình trắc nghiệm đa phân và tập trung đi sâu vào mô hình định giá từng phần (partial credit model), một mô hình trắc nghiệm đa
chiều có tính khái quát cao Có thể sử dụng mô hình này để phân tích kết quả đo lường bằng các đề tự luận có cấu trúc và được quy định điểm cho từng phần Mô hình trắc nghiệm nhị phân được xem là một trường hợp riêng của mô hình trắc nghiệm đa phân nói chung cũng như của mô hình định giá từng phần Với quan niệm đó, có thể triển khai phân tích một đề thi kết hợp trắc nghiệm với tự luận bằng mô hình định giá từng phần Chương 14 trình bày mở đầu về trắc nghiệm đa chiều, giới thiệu một số
mô hình trắc nghiệm đa chiều và việc ứng dụng chúng khi phân tích ảnh hưởng của các chiều năng lực khác nhau lên kết quả đo lường
Phần ứng dụng lý thuyết đo lường vào thực tiễn đánh giá trong giáo dục được trình bày qua nhiều ví dụ đan xen trong các chương Ví dụ được lấy phần lớn từ thực tế đánh giá ở nước ta trong mấy năm qua Qua các ví dụ thực tế, một vài phần mềm tính toán tiêu biểu cũng được
sử dụng, đó là phần mềm CONQUEST của ACER (Úc), phần mềm BILOG-3M, MULTILOG, PARSCALE (Mỹ) và phần mềm VITESTA của EDTECH-VN (Việt Nam)
Để bạn đọc dễ theo dõi, đầu cuốn sách có đưa ra bảng thống kê các từ viết tắt được sử dụng nhiều trong sách Hơn nữa, do thành tựu hiện đại của khoa học đo lường trong giáo dục hầu hết gắn với các tác giả phương Tây, cho nên có thể xem chúng ta đang nhập khẩu khoa học này từ phương Tây Vì vậy các thuật ngữ tiếng Việt liên quan trong sách phần lớn do tác giả tự tạo ra, và để dễ đối chiếu khi đọc các tài liệu tiếng Anh ở cuối sách
có đưa ra một bảng thuật ngữ đối chiếu Anh – Việt
Cuối cùng tác giả có liệt kê các tài liệu dẫn và tài liệu tham khảo chính là các sách hoặc bài viết mà tác giả có lấy ý tưởng hoặc trích dẫn trong cuốn sách, cũng là các tài liệu mà tác giả đã đọc và tin tưởng về
Trang 12chất lượng Tác giả không muốn đưa quá nhiều tài liệu tham khảo liên quan vì không muốn giới thiệu với bạn đọc những cuốn sách mà tác giả chưa đọc kỹ và chưa nắm chắc về chất lượng
Tuy cố gắng giới thiệu một số kiến thức tổng quát ban đầu liên quan đến những thành tựu hiện đại của khoa học về đo lường trong giáo dục, nhưng cuốn sách vẫn chưa bao trùm hết các vấn đề cần thiết Tác giả
hy vọng sẽ bổ sung trong các lần xuất bản sau
Trang 13CÁC TỪ VIẾT TẮT THƯỜNG DÙNG
Lý thuyết Ứng đáp Câu hỏi (Item Response Theory) IRT
Lý thuyết trắc nghiệm cổ điển (Classical Test Theory) CTT
Hàm đặc trưng của câu hỏi (Item Characteristic Function) ICF Đường cong đặc trưng của CH (Item Characteristic Curve) ICC
Ước lượng theo biến cố hợp lý cực đại (maximum likelyhood
estimation)
MLE
Phản ứng khác biệt của câu hỏi (differential item functioning) DIF Dịch vụ trắc nghiệm giáo dục (Educational Testing Service) ETS Trắc nghiệm Đại học Hoa Kỳ (American College Testing) ACT Trắc nghiệm Đánh giá Học vấn (Scholastic Assesment Test) SAT
Kỳ thi Ghi nhận Sau đại học (Graduate Record Examination) GRE
Trang 14Trắc nghiệm Tuyển sinh sau đại học ngành Quản lý (Graduate
Management Admission Test)
(Structured Computer Adaptive Multistage Test)
ca-MST
Trắc nghiệm trên giấy (paper-and-pencil test) PAP Quá trình tạo đề tự động (automated test assembly) ATA Trắc nghiệm di chuyển thẳng nhờ máy tính (Linear-on-the-Fly Test) LOFT
Trang 15Phần I MỘT SỐ KHÁI NIỆM BAN ĐẦU
VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG
TRONG GIÁO DỤC
Trang 161.1 NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC
VỀ ĐO LƯỜNG NÓI CHUNG
Từ buổi sơ khai của lịch sử loài người, trong quá trình lao động và giao tiếp, con người đã phải thực hiện các phép đo lường Đo lường là phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, và kết quả
là đưa ra các con số để đánh giá
D I Menđêlêep có nói: “Ở đâu có sự đo lường thì ở đó bắt đầu có khoa học” Ở buổi ban đầu, con người cần đo lường để xây dựng nơi cư trú, chế tạo quần áo, trao đổi thực phẩm, nguyên liệu… Với sự phát triển các hoạt động của con người, các phép đo ngày càng chính xác, các đơn
vị đo ngày càng tinh tế Chẳng hạn, để đo chiều dài người cổ đại sử dụng
Trang 17các đơn vị đo dựa trên gang tay, để đo thời gian dùng các chu kỳ mọc và
lặn của Mặt Trời và Mặt Trăng… Người Lưỡng Hà đã biết sử dụng hệ
thập phân khi đo chiều dài, và các sử gia có biết đến đơn vị nhỏ nhất để
đo chiều dài mà người Lưỡng Hà đã sử dụng còn lưu lại ở các dấu khắc
trên ngà voi vào cỡ 1,704mm Khi đo thời gian và góc người xưa sử dụng
cách chia vòng tròn thành 360 phần, có lẽ xuất phát từ con số 360 ngày
trong một năm
Khi khoa học còn sơ khai thì các phép đo cũng thô thiển Với sự
phát triển của một khoa học nào đó, độ chính xác của phép đo trong khoa
học ấy cũng ngày càng được nâng cao Hãy lấy ví dụ về phép đo thời
gian Thời xa xưa con người đo thời gian bằng đơn vị tính theo độ dài
ước chừng giữa thời điểm Mặt Trời mọc và Mặt Trời lặn, rồi sau đó sử
dụng đồng hồ dựa vào độ dài của chu kỳ dao động con lắc Ngày nay
người ta phải tính đơn vị đo thời gian bằng việc xác định các bước sóng
bức xạ của dịch chuyển siêu tinh vi trong nguyên tử Mặt khác, tùy theo
mục tiêu của mỗi phép đo mà người ta đòi hỏi độ chính xác đến đâu, tức
là chấp nhận sai số đến mức nào Chẳng hạn, trong cuộc sống hàng ngày
người ta chỉ cần hẹn nhau chính xác đến năm ba phút Tuy nhiên, nói
chung sự tiến bộ của khoa học giúp con người có cơ sở để thiết kế các
phép đo có độ chính xác ngày càng cao
1.2 ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC
Bất kỳ một quá trình giáo dục nào mà một con người tham gia cũng
nhằm tạo ra những biến đổi nhất định trong con người đó Muốn biết
những biến đổi đó xảy ra ở mức độ nào phải đánh giá hành vi của người
đó trong một tình huống nhất định Việc đánh giá cho phép chúng ta xác
định, một là mục tiêu giáo dục được đặt ra có phù hợp hay không và có
đạt được hay không, hai là việc giảng dạy có thành công hay không, học
viên có tiến bộ hay không
Để việc đánh giá được đúng đắn phải triển khai đo lường: muốn so
sánh vật nào nặng hơn trong hai vật có bề ngoài không khác nhau người
ta phải đem cân chúng lên Việc dạy và học đã xuất hiện trong lịch sử
loài người hàng nghìn năm trước đây, và để tuyển dụng người giỏi người
ta phải tạo ra các hình thức thi để so sánh các thí sinh với nhau
Trang 18Trong lịch sử giáo dục Việt Nam, nhằm giúp nhà vua đánh giá đúng hiền tài để tuyển dụng vào các chức quan lại trị nước, triều đình phải tổ chức các kỳ thi từ thấp đến cao: thi hương, thi hội, thi đình Ở các kỳ thi này, người ta ra đề thi cho sỹ tử làm bài, và các giám khảo đo lường năng lực của thí sinh qua các bài thi đó dựa vào sự nhận xét chủ quan của mình Giám khảo giỏi và công bằng thì việc đo lường sẽ chính xác, giám khảo kém và không công bằng thì việc đo lường thường sai lệch, như vậy việc tuyển chọn đúng người tài cho quốc gia phụ thuộc nhiều vào độ chính xác trong phép đo lường năng lực thí sinh của giám khảo
Những ví dụ nêu trên cho thấy, việc đo lường và đánh giá trong giáo dục đã phát triển từ xa xưa, tuy nhiên, có thể nói, một ngành khoa học thật sự về đo lường trong tâm lý và giáo dục mới bắt đầu hình thành
từ cuối thế kỷ XIX Ở châu Âu, và đặc biệt là ở Mỹ, lĩnh vực khoa học về trắc nghiệm phát triển mạnh trong thế kỷ XX Có thể kể những dấu mốc quan trọng trong tiến trình phát triển, như Trắc nghiệm trí tuệ Simon-Binet được xây dựng bởi hai nhà tâm lý học người Pháp Alfred Binet và Theodore Simon vào khoảng năm 1905, tiếp đến được áp dụng tại Đại học Stanford ở Mỹ bởi Lewis Terman năm 1916, sau đó nó đã được cải tiến liên tục và được sử dụng ngày nay với tên gọi là Trắc nghiệm trí tuệ
IQ (intelligence quotient) Bộ trắc nghiệm thành quả học tập tổng hợp đầu tiên Stanford Achievement Test ra đời vào năm 1923 ở Mỹ Với việc đưa vào chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập Hội quốc gia về Đo lường trong giáo dục (National Council on Measurement in Education - NCME) vào thập niên 1950, sự ra đời hai tổ chức tư nhân Educational Testing Service (ETS) năm 1947 và American College Testing (ACT) năm 1959, hai tổ chức làm dịch vụ trắc nghiệm
lớn thứ nhất và thứ hai Hoa Kỳ, một ngành công nghiệp về trắc nghiệm
đã hình thành ở Mỹ Từ đó đến nay khoa học về đo lường trong tâm lý và giáo dục đã phát triển liên tục, những phê bình chỉ trích đối với khoa học này cũng xuất hiện thường xuyên nhưng chúng không đánh đổ được nó
mà chỉ làm cho nó tự điều chỉnh và phát triển mạnh mẽ hơn Hiện nay ở
Mỹ ước tính mỗi năm số lượt trắc nghiệm tiêu chuẩn hoá cỡ 1/4 tỷ và trắc nghiệm do giáo viên soạn lên đến con số 5 tỷ Tương ứng với ngành công nghiệp trắc nghiệm đồ sộ và sự phát triển của công nghệ thông tin,
Trang 19lý thuyết về đo lường trong tâm lý giáo dục cũng phát triển nhanh Các thành tựu lý luận quan trọng của khoa học về đo lường trong giáo dục đạt được cho đến thập niên 70 của thế kỷ trước được bao gồm trong "Lý thuyết trắc nghiệm cổ điển" (Classical Test Theory - CTT) Còn bước phát triển về chất của nó trong khoảng 4 thập niên vừa qua bao gồm trong “Lý thuyết trắc nghiệm hiện đại” mà cốt lõi là "Lý thuyết Ứng đáp Câu hỏi" (Item Response Theory - IRT) IRT đã đạt được những thành tựu quan trọng nâng cao độ chính xác của trắc nghiệm, và trên cơ sở lý thuyết đó, công nghệ Trắc nghiệm thích ứng nhờ máy tính (Computer Adaptive Test – CAT) ra đời Ngoài ra, trên cơ sở những thành tựu của
IRT và ngôn ngữ học máy tính, công nghệ Criterionchấm tự động các bài tự luận tiếng Anh nhờ máy tính của ETS đã được triển khai qua mạng Internet trong mấy năm qua
1.3 PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC
Để thiết kế quá trình dạy, học và đánh giá kết quả học tập, xác định
rõ các mục tiêu của hoạt động giáo dục là rất quan trọng Tại Hội nghị của Hội Tâm lý học Mỹ năm 1948, B S Bloom đã chủ trì xây dựng một
hệ thống phân loại các mục tiêu đó Ba lĩnh vực của các hoạt động giáo
dục đã được xác định, đó là lĩnh vực về nhận thức (cognitive domain), lĩnh vực về cảm xúc, thái độ (affective domain) và lĩnh vực về tâm lý vận động (kỹ năng) (psychomotor domain)
Lĩnh vực nhận thức thể hiện ở khả năng suy nghĩ, lập luận, bao gồm việc thu thập các sự kiện, giải thích, lập luận theo kiểu diễn dịch và quy nạp và sự đánh giá có phê phán
Lĩnh vực cảm xúc liên quan đến những đáp ứng về mặt tình cảm, bao hàm cả những mối quan hệ như yêu ghét, thái độ nhiệt tình, thờ ơ, cũng như sự cam kết với một nguyên tắc và sự tiếp thu các lý tưởng Lĩnh vực tâm lý vận động liên quan đến những kỹ năng đòi hỏi sự khéo léo về chân tay, sự phối hợp các cơ bắp và khả năng của thân thể từ đơn giản đến phức tạp để điều phối động tác
Các lĩnh vực nêu trên không hoàn toàn tách biệt hoặc loại trừ lẫn nhau Phần lớn việc phát triển tâm linh và tâm lý đều bao hàm cả 3 lĩnh vực nói trên
Trang 201) Lĩnh vực nhận thức
Bloom và những người cộng tác với ông ta cũng xây dựng nên các mức độ của các mục tiêu giáo dục, thường được gọi là cách phân loại
Bloom, trong đó lĩnh vực nhận thức được chia thành các mức độ nhận
thức (hay mức độ thao tác xử lý kiến thức) từ đơn giản nhất đến phức tạp nhất như sau [32]:
- Biết (Knowledge): được định nghĩa là sự nhớ, thuộc lòng, nhận
biết được và có thể tái hiện các dữ liệu, các sự việc đã biết hoặc đã học được trước đây Điều đó có nghĩa là một người có thể nhắc lại một loạt
dữ liệu, từ các sự kiện đơn giản đến các lý thuyết phức tạp, tái hiện trong trí nhớ những thông tin cần thiết Đây là mức độ hành vi thấp nhất đạt được trong lĩnh vực nhận thức
- Hiểu (Comprehention): được định nghĩa là khả năng nắm được ý
nghĩa của tài liệu Điều đó có thể thể hiện bằng việc chuyển tài liệu từ dạng này sang dạng khác (từ các ngôn từ sang số liệu…), bằng cách giải thích tài liệu (giải nghĩa hoặc tóm tắt), mô tả theo ngôn từ của mình và bằng cách ước lượng xu hướng tương lai (dự báo các hệ quả hoặc ảnh hưởng) Hành vi ở mức độ này cao hơn so với mức độ biết, và cũng bao gồm cả mức độ biết
- Áp dụng (Application): được định nghĩa là khả năng sử dụng các
tài liệu đã học vào một hoàn cảnh cụ thể mới Điều đó có thể bao gồm việc áp dụng các quy tắc, phương pháp, khái niệm, nguyên lý, định luật
và lý thuyết Hành vi ở mức độ này cao hơn mức độ biết và hiểu trên đây,
và cũng bao gồm cả các mức độ đó
- Phân tích (Analysis): được định nghĩa là khả năng phân chia một
tài liệu ra thành các phần của nó sao cho có thể hiểu được các cấu trúc tổ chức của nó Điều đó có thể bao gồm việc chỉ ra đúng các bộ phận, phân tích mối quan hệ giữa các bộ phận, và nhận biết được các nguyên lý tổ chức của chúng Hành vi ở mức độ này cao hơn so với mức độ biết, hiểu
và áp dụng, và cũng bao gồm cả các mức độ đó, vì nó đòi hỏi một sự thấu hiểu cả nội dung và hình thái cấu trúc của tài liệu
- Tổng hợp (Synthesis): được định nghĩa là khả năng sắp xếp các
bộ phận lại với nhau để hình thành một tổng thể mới Điều đó có thể bao
Trang 21gồm việc tạo ra một cuộc giao tiếp đơn nhất (chủ đề hoặc bài phát biểu), một kế hoạch hành động (dự án nghiên cứu), hoặc một mạng lưới các quan hệ trừu tượng (sơ đồ để phân lớp thông tin) Hành vi ở mức độ này cao hơn so với các mức độ biết, hiểu, áp dụng, phân tích, và cũng bao gồm cả các mức độ đó, nó nhấn mạnh các yếu tố sáng tạo, đặc biệt tập trung vào việc hình thành các mô hình hoặc cấu trúc mới
- Đánh giá (Evaluation): là khả năng xác định giá trị của tài liệu,
phán quyết được về những tranh luận, bất đồng ý kiến (tuyên bố, tiểu thuyết, thơ, báo cáo nghiên cứu) Việc đánh giá dựa trên các tiêu chí nhất định Đó có thể là các tiêu chí bên trong (cách tổ chức) hoặc các tiêu chí bên ngoài (phù hợp với mục đích), và người đánh giá phải tự xác định hoặc được cung cấp các tiêu chí Hành vi ở mức độ này cao hơn so với tất cả các mức độ biết, hiểu, áp dụng, phân tích, tổng hợp, và cũng bao gồm tất cả các mức độ đó
Cách phân chia mức độ thao tác xử lý kiến thức của lĩnh vực nhận thức trên đây do nhóm các nhà tâm lý học được chủ trì bởi B Bloom đưa
ra từ cách đây hơn nửa thế kỷ Vào năm 2001, các học trò cũ của Bloom là Anderson L.W và Krathwohl D.R [33], sau một quá trình bàn luận với một số nhà tâm lý học, đã đưa ra phương án điều chỉnh phân loại mục tiêu trong lĩnh vực nhận thức của Bloom Nội dung chính của điều chỉnh bởi
Anderson và Krathwohl là thay 2 thao tác xử lý kiến thức tổng hợp và đánh giá ở mức độ thứ 5 và thứ 6 tương ứng bằng đánh giá và sáng tạo
Ngoài ra, họ mô tả các thao tác xử lý kiến thức bằng các động từ thay vì danh từ như trước đây (trong tiếng Anh), và tạo thành một ma trận phân loại 2 chiều bằng cách, cùng với chiều đứng biểu diễn 6 thao tác xử lý kiến
thức, đưa vào thêm chiều ngang biểu diễn 4 loại kiến thức liên quan đến sự vật (factual), khái niệm (conceptual), quy trình (procedural) và siêu nhận thức (metacornitive) Hiện nay trong cộng đồng giáo dục thế giới sử dụng cả
hai cách phân loại cổ điển và điều chỉnh tùy theo thói quen của từng người
2) Lĩnh vực tình cảm: lĩnh vực tình cảm được phân chia thành các
mức độ hành vi từ đơn giản nhất đến phức tạp nhất như sau:
- Tiếp nhận (Receiving): thể hiện sự tự nguyện tiếp nhận thông tin,
sự quan tâm có lựa chọn
Trang 22- Đáp ứng (Responding): thể hiện sự quan tâm tích cực để tiếp
nhận, sự tự nguyện đáp ứng và cảm giác thỏa mãn
- Chấp nhận giá trị (Valuing): thể hiện niềm tin và sự chấp nhận
giá trị, sự ưa chuộng và sự cam kết
- Tổ chức (Organization): thể hiện sự khái quát hóa các giá trị và tổ
chức thành hệ thống giá trị
- Đặc trưng hóa (Characterization): Đây là cấp độ cao và phức tạp
nhất Nó bao gồm hành vi liên quan tới việc tiếp nhận một tập hợp các giá trị và sự khái quát thành đặc trưng của bản thân hay triết lý của cuộc sống Cách phân loại mức độ hành vi của lĩnh vực tình cảm trên đây được
đề xuất bởi nhóm nhà tâm lý học do Krathworl D.R (1964) chủ trì
3) Lĩnh vực kỹ năng: lĩnh vực kỹ năng được chia thành các mức độ
hành vi từ đơn giản nhất đến phức tạp nhất như sau:
- Bắt chước thụ động (Imitation): Làm theo hành vi của một người
khác một cách thụ động
- Thao tác theo (Manipulation): Thực hiện được các thao tác theo
một sự hướng dẫn từng bước quy trình
- Tự làm đúng (Precision): Thực hiện được một nhiệm vụ với sai
sót nhỏ và dần dần chính xác hơn mà không có nguồn hướng dẫn Thể hiện thao tác trơn tru, chính xác
- Khớp nối được (Articulation): Sắp xếp được một chuỗi thao tác
bằng cách kết hợp hai hay nhiều kỹ năng, có thể cải tiến thao tác cho phù hợp để giải quyết một vấn đề gì đó
- Thao tác tự nhiên (Naturalisation): Chứng tỏ mức độ thực hiện
thao tác một cách tự nhiên như bản hăng (”không cần suy nghĩ”) Các kỹ năng được kết hợp, thao tác trình tự, thực hiện nhất quán dễ dàng, tức là mất ít năng lượng và thời gian
Cách phân loại mức độ hành vi của lĩnh vực kỹ năng trên đây được Dave R.H (1970) đề xuất
Ngoài ra còn có một số cách phân loại mục tiêu giáo dục khác, nhưng trên đây là các cách được sử dụng phổ biến nhất
Trang 231.4 PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC
Có nhiều kiểu phân loại các phương pháp đo lường và đánh giá trong giáo dục, tùy theo cách xem xét và mục tiêu phân loại Chúng ta hãy làm quen với một số kiểu phân loại sau đây
1) Theo cách thực hiện việc đánh giá, có thể phân chia các phương
pháp đánh giá làm ba loại quan trọng: loại quan sát, loại vấn đáp và loại viết (xem Bảng 1)
- Loại quan sát giúp đánh giá các thao tác, các hành vi, các phản ứng
vô thức, các kỹ năng thực hành và cả một số kỹ năng về nhận thức, chẳng hạn cách giải quyết vấn đề trong một tình huống đang được nghiên cứu
- Loại vấn đáp có tác dụng tốt để đánh giá khả năng ứng đáp các
câu hỏi được nêu một cách tự phát trong một tình huống cần kiểm tra, cũng thường được sử dụng khi sự tương tác giữa người hỏi và người đối thoại là quan trọng, chẳng hạn để xác định thái độ người đối thoại
- Loại viết thường được sử dụng nhiều nhất, vì nó có các ưu điểm sau:
+ cho phép kiểm tra nhiều thí sinh cùng một lúc;
+ cho phép thí sinh cân nhắc nhiều hơn khi trả lời;
+ có thể đánh giá một số thao tác tư duy ở mức độ cao;
+ cung cấp các bản ghi trả lời của thí sinh để nghiên cứu kỹ khi chấm điểm;
+ dễ quản lý vì người chấm không tham gia trực tiếp vào bối cảnh kiểm tra
Loại viết lại được chia thành hai nhóm chính:
+ Nhóm các câu hỏi (CH) trắc nghiệm tự luận (TL- essay test): Các
CH buộc thí sinh (TS) phải tự mình trình bày ý kiến trong một đoạn bài viết để trả lời
+ Nhóm các CH trắc nghiệm khách quan (TNKQ - objective test):
Đề thi thường bao gồm rất nhiều CH, mỗi CH nêu lên vấn đề và cho những thông tin cần thiết để TS có thể trả lời một cách ngắn gọn
Trang 24Bảng 1 còn mô tả hai kiểu bài tự luận, và các loại CH TNKQ Mục 1.5
sẽ mô tả kỹ hơn các loại CH đó Ở nước ta nhiều người thường gọi tắt TNKQ là “trắc nghiệm” Thuận theo thói quen ấy, từ nay về sau nếu trong sách này dùng từ “trắc nghiệm” mà không nói gì thêm thì ta ngầm hiểu là TNKQ
Bảng 1 Phân loại các phương pháp đánh giá thành quả học tập
theo cách thực hiện việc đánh giá
2) Theo mục tiêu của việc đánh giá có thể phân chia các phương pháp đánh giá làm hai nhóm: đánh giá trong tiến trình (formative) và đánh giá tổng kết (summative)
- Đánh giá trong tiến trình được sử dụng trong quá trình dạy và học
để nhận được các phản hồi từ học viên, xem xét mức độ thành công của việc dạy và học, chỉ ra các trở ngại và tìm cách khắc phục
- Đánh giá tổng kết nhằm tổng kết những gì học viên đạt được, xếp
loại học viên, lựa chọn học viên thích hợp để tiếp tục đào tạo hoặc sử dụng trong tương lai, chứng tỏ hiệu quả của khóa học cũng như việc dạy của giảng viên, đề ra mục tiêu tương lai cho học viên
Hai nhóm đánh giá nêu trên được tiến hành theo những cách hoàn toàn khác nhau Trong giảng dạy ở nhà trường, các đánh giá trong tiến trình
Cung cấp thông tin
TRẮC NGHIỆM KHÁCHQUAN
(Objective tests)
TRẮC NGHIỆM TỰ LUẬN (Essay tests)
CÁC PHƯƠNG PHÁP ĐÁNH GIÁ THÀNH QUẢ HỌC TẬP
Tiểu luận
Ghép đôi Điền khuyết Trả lời ngắn Đúng sai Nhiều lựa chọn
Trang 25thường gắn chặt với giảng viên, còn các đánh giá tổng kết thường bám sát vào mục tiêu dạy học đã được đề ra, và có thể tách khỏi giảng viên Khi chỉ quan tâm đến mục tiêu của hai phương pháp đánh giá trên đây, người ta
thường diễn tả ngắn gọn hai loại phương pháp nêu trên tương ứng là đánh giá vì việc học tập (assessment FOR learning) và đánh giá việc học tập (assessment OF learning)
3) Theo phương hướng sử dụng kết quả đánh giá, có thể phân chia
ra đánh giá theo chuẩn (norm-referenced) và đánh giá theo tiêu chí (criterion-referenced)
- Đánh giá theo chuẩn: là đánh giá được sử dụng để xác định mức
độ thực hiện của một cá nhân nào đó so với các cá nhân khác trong một nhóm mà trên đó việc đánh giá được thực hiện
- Đánh giá theo tiêu chí: là đánh giá được sử dụng để xác định mức
độ thực hiện của một cá nhân nào đó so với các tiêu chí xác định cho trước của môn học hoặc chương trình học
4) Theo cách chuẩn bị cuộc đánh giá, có thể phân chia đánh giá theo hai nhóm, đánh giá tiêu chuẩn hoá và đánh giá ở lớp học
- Đánh giá tiêu chuẩn hoá thường do các chuyên gia đánh giá thiết
kế, thử nghiệm, tu chỉnh công cụ đánh giá, soạn thảo quy trình đánh giá và
sử dụng kết quả đánh giá Nếu đánh giá bằng TNKQ thì mỗi CH trắc nghiệm được gắn với các chỉ số cho biết thuộc tính và chất lượng của nó
(độ khó, độ phân biệt và các tham số khác đặc trưng cho CH, nội dung và mức độ kỹ năng gắn với CH), mỗi ĐTN phải đảm bảo có độ tin cậy và độ giá trị xác định
- Đánh giá ở lớp học là đánh giá chủ yếu do giáo viên tự chế tác
hoặc lựa chọn để sử dụng trong quá trình giảng dạy, có thể chưa được thử nghiệm và tu chỉnh công phu, thường chỉ sử dụng ở lớp học hoặc trong các
kỳ kiểm tra với số lượng học sinh không lớn và không thật quan trọng
5) Theo mức độ đảm bảo thời gian để làm đề kiểm tra, có thể phân chia loại đánh giá theo tốc độ và đánh giá không theo tốc độ
- Đánh giá theo tốc độ thường hạn chế thời gian, chỉ một ít TS làm
nhanh mới có thể làm hết số CH của đề kiểm tra, nhằm đánh giá khả năng làm nhanh của TS
Trang 26- Đánh giá không theo tốc độ thường cung cấp đủ thời gian cho
phần lớn TS có thể kịp suy nghĩ để làm hết đề kiểm tra
1.5 CÁC KIỂU CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN
Như đã mô tả ở Bảng 1, trong nhóm TNKQ có nhiều kiểu CH khác nhau:
- Câu ghép đôi (matching item) đòi hỏi TS phải ghép đúng từng
cặp dòng ở hai cột với nhau sao cho phù hợp về một phương diện nào đó
Ví dụ câu trắc nghiệm về văn học:
Hãy tìm ở cột bên phải tên tác giả của hai câu thơ liệt kê ở cột bên trái:
1 Hồ Tây cảnh đẹp hoá gò hoang
Thổn thức bên song mảnh giấy tàn
2 Rặng liễu đìu hiu đứng chịu tang
Tóc buồn buông xuống lệ ngàn hàng
3 Bóng chiều không thắm, không vàng vọt
Sao đầy hoàng hôn trong mắt trong
4 Con đường nhỏ nhỏ, gió xiêu xiêu
Lả lả cành hoang, nắng trở chiều
5 Ở ngoài kia vui sướng biết bao nhiêu
Nghe chim reo trong gió mạnh lên triều
- Câu điền khuyết (supply item): nêu một mệnh đề có khuyết một
bộ phận, TS phải nghĩ ra nội dung thích hợp để điền vào chỗ trống
Ví dụ câu trắc nghiệm về lịch sử:
Ngày 2 tháng 9 năm 1945 Chủ tịch Hồ Chí Minh đã đọc khai sinh nước Việt Nam Dân chủ Cộng hòa
Trang 27Đáp án: Tuyên ngôn độc lập
- Câu trả lời ngắn (short answer item): là câu trắc nghiệm chỉ đòi
hỏi trả lời bằng một từ hoặc cụm từ chỉ một khái niệm nào đó, rất ngắn
Ví dụ câu trắc nghiệm về sinh học:
Nguyên nhân hình thành các đặc điểm thích nghi của sinh vật là gì? Đáp án: Chọn lọc tự nhiên
- Câu đúng sai (yes/no item): đưa ra một nhận định, TS phải lựa
chọn một trong hai phương án trả lời để khẳng định nhận định đó là đúng hay sai Ví dụ câu trắc nghiệm về hoá học:
Sự khử là quá trình nhường electron
A) Đúng B) Sai
Đáp án: B
- Câu nhiều lựa chọn (NLC - multiple choise item) đưa ra một nhận
định và một số phương án trả lời, TS phải chọn để đánh dấu vào một phương án đúng hoặc phương án tốt nhất Ví dụ CH trắc nghiệm về toán: Hãy xác định giá trị của số hạng thứ bảy trong dãy các số "tam giác" mà 4 số hạng đầu được biểu diễn bởi các hình dưới đây:
- Câu thí sinh tự tạo đáp án (student-produced responses item) là
loại CH có đáp án bằng số mà trắc nghiệm SAT cải tiến mới đưa vào vào
Trang 28năm 2005 để giảm bớt sự lệ thuộc của TS vào cái khung trả lời định sẵn
TS có thể tô giá trị trả lời bằng số vào phiếu trả lời có dạng thức xác định, do đó có thể chấm bằng máy Ví dụ:
Tính giá trị của x thỏa mãn 2 phương trình: |4x - 7| = 5 và |3x -8| = 1
Giải: Vì |4x - 7| = 5 nên 4x-7=±5 x= 3 hoặc x= 1/2
Tương tự |3x -1| = x → 3x-1=±x x=1/4 hoặc x= 1/2 Như vậy giá trị x thỏa mãn hai phương trình trên là x= 1/2 TS phải tô các ô biểu diễn số 1/2 trên phiếu trả lời
Trong các kiểu câu trắc nghiệm đã nêu, kiểu CH đúng-sai và kiểu
CH NLC có cách trả lời đơn giản nhất CH đúng-sai cũng chỉ là trường hợp riêng của CH NLC với 2 phương án trả lời
Dễ dàng thấy rằng khi một người hoàn toàn không có hiểu biết chỉ đánh dấu hú hoạ để trả lời một CH đúng - sai thì xác suất để người đó làm đúng CH là 50%, cũng vậy nếu anh ta đánh dấu hú hoạ để trả lời câu trắc
nghiệm NLC với n phương án trả lời thì xác suất để làm đúng câu đó là 1/n
Trong các kiểu CH trắc nghiệm, kiểu câu NLC được sử dụng phổ biến hơn cả vì, một mặt, chúng có cấu trúc đơn giản, dễ xây dựng thành các đề thi, dễ chấm điểm tự động, mặt khác, chúng cho phép đánh giá được nhiều cấp độ nhận thức từ thấp đến cao Vì vị trí quan trọng của kiểu CH NLC nên sau đây chúng ta sẽ nói kỹ hơn về chúng Loại CH NLC thường dùng nhất là loại có 4 hoặc 5 phương án trả lời, vì số phương án như vậy vừa đủ để giảm xác suất làm đúng do đoán mò hú họa xuống tương ứng còn 25%, 20%, đồng thời việc chế tác chúng cũng không quá phức tạp
Câu trắc nghiệm NLC có hai phần, phần đầu được gọi là câu dẫn (stem), nêu vấn đề, cung cấp thông tin cần thiết hoặc đặt một CH; phần sau
là các phương án chọn, thường được đánh dấu bằng các chữ cái A, B, C,
D, hoặc các chữ số 1, 2, 3, 4, Kiểu CH trắc nghiệm NLC đơn giản nhất
quy định trong các phương án chọn chỉ có một phương án đúng duy nhất
hoặc một phương án đúng nhất; các phương án khác được đưa vào có tác dụng “gây nhiễu” (distractor) đối với TS Nếu CH NLC được soạn tốt thì một người không nắm vững vấn đề sẽ không thể nhận biết được trong tất
Trang 29cả các phương án để chọn đâu là phương án đúng, đâu là phương án nhiễu Trong khi soạn thảo CH trắc nghiệm, người ta thường cố gắng làm cho các phương án nhiễu đều có vẻ dường như “có lý” tựa như phương án đúng
Về nguyên tắc, đối với người có kinh nghiệm chế tác CH, một nội dung bất kỳ nào cần kiểm tra đều có thể được thể hiện vào một CH trắc nghiệm theo một kiểu nào đó Vì thế đối với tất cả các môn học người ta đều
có thể chế tác CH trắc nghiệm Tuy nhiên, do đặc thù của từng môn học mà việc chế tác CH trắc nghiệm cho môn này có thể khó hơn cho môn kia
Cũng cần lưu ý rằng không phải bất cứ ai có kiến thức chuyên môn cũng chế tác được CH trắc nghiệm có chất lượng cao cho chuyên môn
đó Muốn chế tác CH trắc nghiệm tốt phải suy nghĩ sâu sắc về chuyên môn, phải có những hiểu biết cơ bản về trắc nghiệm và cần tích lũy kinh nghiệm sau một thời gian luyện tập lâu dài
1.6 SO SÁNH CÁC PHƯƠNG PHÁP TRẮC NGHIỆM KHÁCH QUAN
VÀ TỰ LUẬN
1.6.1 Các đặc điểm của phương pháp TL
- Cho phép TS tương đối tự do trong việc lựa chọn cách bố cục, trình bày để diễn đạt ý kiến của mình nhằm trả lời một CH sao cho chính xác và sáng sủa
- Trong phạm vi thời gian hạn chế (một vài giờ) đề thi chỉ có thể hỏi vài chủ đề nào đó của môn học Vì có quá ít chủ đề được đề cập nên việc đánh giá không phủ kín được nội dung môn học, dễ xảy ra hiện tượng "trúng tủ, trật tủ" tạo nên mức độ may rủi lớn trong thi cử
- TS muốn trình bày phần kiến thức nào đó của môn học phải nhớ lại hơn là nhận biết thông tin
- Bài thi TL thường được người chấm đọc, đánh giá cho điểm theo nhận định chủ quan của mình, vì vậy các điểm cho bởi những người chấm khác nhau thường dễ không thống nhất
1.6.2 Các đặc điểm của phương pháp TNKQ
- TS phải trả lời các CH TNKQ theo các phương án trả lời cho sẵn, thông thường một CH chỉ có một phương án là đúng duy nhất hoặc đúng
Trang 30nhất, phù hợp nhất Như vậy, TS trả lời TNKQ theo một khuôn khổ định sẵn, không thể đưa ra các ý kiến nào khác của mình
- Vì thời gian cần thiết để trả lời một CH trắc nghiệm thường rất ngắn nên một ĐTN KQ có thể bao gồm rất nhiều CH, có thể đánh giá bao trùm chương trình của cả một môn học, điều này hạn chế việc học tủ và việc "trúng tủ, trật tủ", tức là hạn chế độ may rủi trong thi cử
- Kiến thức giúp TS lựa chọn đúng các phương án trả lời các CH trắc nghiệm, tuy nhiên TS không có kiến thức cũng có thể "đoán mò" để trả lời hoặc trả lời hú họa, dù rằng việc đoán mò đó cũng không dẫn "ăn may" khi ĐTN có số CH đủ lớn (theo dõi ví dụ trình bày dưới đây)
- TS có thể nhận biết kiến thức qua các CH trắc nghiệm chứ không cần phải nhớ lại để trình bày
- Bài TNKQ thường được chấm điểm bằng cách so sánh xem việc chọn phương án đúng của TS có trùng với đáp án cho sẵn hay không một cách máy móc, do đó người chấm điểm không đưa ra quan điểm riêng để đánh giá ĐTN mà chỉ cần đếm một cách máy móc Từ đó TNKQ có thể được chấm bằng máy Chính do tính khách quan của việc chấm điểm mà
người ta gọi loại trắc nghiệm đó là trắc nghiệm khách quan
- Việc xử lý định lượng kết quả TNKQ nhờ khoa học thống kê đã đạt được nhiều thành tựu quan trọng Chính vì vậy, đối với TNKQ có các phương pháp định lượng để nâng cao chất lượng của từng CH và có quy trình tạo các ĐTN tốt để đo chính xác năng lực của TS Ưu thế này làm cho TNKQ được sử dụng phổ biến trong các đánh giá tiêu chuẩn hóa
Có một câu hỏi thường nảy sinh: trong hai phương pháp TNKQ và
TL, phương pháp nào tốt hơn? Cần phải khẳng định ngay rằng không thể nói phương pháp nào là hoàn toàn tốt hơn, mỗi phương pháp đều có các
ưu điểm và nhược điểm nhất định Bảng so sánh dưới đây cho thấy tuỳ theo từng yêu cầu trong việc đánh giá, ưu thế thuộc về phương pháp nào
Ở Bảng 2 có đưa ra bảng tóm tắt so sánh các ưu thế của phương pháp TNKQ và TL đối với các yêu cầu khác nhau của việc đánh giá trong giáo dục Tuy nhiên, để làm rõ hơn một số ưu thế của TNKQ được
Trang 31nêu trong Bảng 2, dưới đây sẽ bàn tỉ mỉ một vài vấn đề quan trọng về ưu thế của TNKQ và TL mà nhiều bạn đọc còn nhầm lẫn
Bảng 2 So sánh ưu thế của phương pháp trắc nghiệm khách quan và tự
luận theo các yêu cầu trong việc đánh giá
Yêu cầu
Ưu thế thuộc
về phương pháp Trắc
nghiệm
Tự luận
Đánh giá được khả năng diễn đạt, đặc biệt là diễn đạt
Thuận lợi cho việc đo lường các tư duy sáng tạo
Khách quan trong chấm thi, hạn chế tiêu cực trong
Giữ bí mật đề thi, hạn chế quay cóp khi thi
Có tính định lượng cao, áp dụng được công nghệ đo
lường trong việc phân tích xử lý để nâng cao chất
lượng các câu hỏi và đề thi
Cung cấp số liệu chính xác và ổn định để sử dụng
cho các đánh giá so sánh trong giáo dục
Trước hết chúng ta hãy bàn về sự may rủi Phương ngôn nước ta
có câu "học tài, thi phận" để nói lên sự may rủi trong thi cử Khẳng định
đó không hoàn toàn đúng, nhưng trong cuộc sống đôi khi cũng có thể hiện Vậy nếu có sự may rủi trong thi cử thì phương pháp nào tạo sự may rủi nhiều hơn, TNKQ hay TL? Với kiểu đánh dấu có vẻ giản đơn khi làm một ĐTN, một số người tưởng rằng một TS không có chút kiến thức nào cũng có thể làm tốt bài thi nếu “số đỏ” giúp anh ta đánh dấu đúng vào những chỗ cần thiết Từ suy nghĩ đó họ nhầm tưởng rằng đề
Trang 32thi TNKQ tạo nên sự may rủi nhiều hơn đề thi TL Thực ra hoàn toàn ngược lại! Vì một đề thi TL thường chỉ liên quan đến một vài chủ đề của môn học nên TS rất dễ gặp may rủi do "trúng tủ, trật tủ", còn với đề thi TNKQ có số CH đủ lớn (ba bốn chục câu trở lên) thì sự may rủi hầu như hoàn toàn không xảy ra Thật vậy, như đã nói ở trên, đề thi TNKQ bao gồm rất nhiều CH nhỏ phủ kín chương trình môn học Nếu TS nắm chắc nội dung môn học thì sẽ làm đúng phần lớn các CH trắc nghiệm Trong trường hợp TS quên hoặc không nắm vững một vài chi tiết của môn học thì một số ít CH không làm được cũng không ảnh hưởng lớn đến kết quả của bài thi Ngược lại, đề thi TL thường chỉ liên quan đến một vài chủ đề của môn học, do đó ngoài những TS học chắc thật sự, những TS không học chắc nhưng ăn may “trúng tủ” cũng sẽ đạt kết quả cao, còn “trật tủ” sẽ bị đánh hỏng, bất kể kiến thức của anh ta về phần lớn nội dung còn lại của môn học như thế nào Vậy “số đỏ” có bao giờ đến với một TS "mít đặc" không có một hiểu biết nào mà chỉ đánh dấu
“hú họa” vào bài thi hay không? Có thể khẳng định là không bao giờ!
Thật vậy, giả sử một ĐTN gồm các CH NLC với 5 phương án trả lời, xác suất đánh dấu “hú họa” để làm đúng một CH là 1/5 Khi số CH ít tần suất làm đúng của TS thăng giáng rất nhiều, có thể đạt giá trị khá lớn, giúp TS “ăn may” Tuy nhiên, khi số CH (số phép thử) tăng lên đến một giá trị đủ lớn, tần suất làm đúng sẽ tiến dần đến xác suất làm đúng, tức là chỉ đạt giá trị gần với 1/5 (xem "luật số lớn" trong lý thuyết xác suất ở mục 2.1) Nếu ĐTN có 100 CH, TS “mít đặc” sẽ chỉ làm đúng trên dưới 20 CH Theo cách cho điểm trắc nghiệm thông thường, người
ta thường chưa tính điểm cho một bài trắc nghiệm khi số CH trả lời đúng nằm dưới ngưỡng làm đúng do “đoán mò” đó Nếu tính xác suất
để một TS "mít đặc" làm đúng hoàn toàn đề trắc nghiệm nói trên thì con
số thu được còn bé hơn nữa, chỉ bằng (1/5)100 Ngoài ra, lý thuyết trắc nghiệm hiện đại mà chúng ta sẽ làm quen ở Phần II của tập sách này còn nâng cao độ chính xác và loại trừ khả năng "ăn may" ngay với các ĐTN với chỉ vài chục CH
Một quan niệm cũng thường được bàn đến là ý kiến cho rằng phương pháp TNKQ chỉ đánh giá được khả năng ghi nhớ chứ không đo
Trang 33được những khả năng nhận thức ở mức độ cao Thật ra những người chế tác CH trắc nghiệm chuyên nghiệp có khả năng chế tác các CH TNKQ thích hợp để đánh giá tất cả 6 mức độ xử lý kiến thức trong lĩnh vực nhận thức đã nêu trước đây Ở mục 1.8 dưới đây chúng ta sẽ làm quen với một
số ví dụ về cách chế tác các CH để đánh giá các mức độ nhận thức như vậy Tất nhiên chế tác những CH để đánh giá mức độ nhận thức cao thường khó hơn so với để đánh giá mức độ nhận thức thấp, nên những người mới biết chế tác CH trắc nghiệm thường có thiên hướng chế tác CH trắc nghiệm thuộc loại sau Hiện nay trên truyền hình liên tục có những kỳ thi sử dụng các loại CH trắc nghiệm, nhưng hầu hết các CH cho các kỳ thi này chỉ đo lường mức độ nhận thức thấp nhất, tức là hỏi người thi có nhớ hoặc biết một sự kiện nào đó hay không Các chương trình truyền hình có thể sử dụng loại CH tầm thường như vậy vì mục tiêu chủ yếu của các chương trình đó không phải là đánh giá chính xác năng lực của những người tham gia, mà để phổ biến các thông tin trong các CH cho đông đảo khán giả trước màn hình Ở đây, việc đánh giá năng lực và thứ hạng của những người tham gia chỉ là mục tiêu phụ, để làm cho chương trình thêm hấp dẫn Các nhà giáo không nên nghĩ là có thể chỉ sử dụng các CH trắc nghiệm tầm thường như ở các chương trình trên truyền hình để đánh giá người học Trắc nghiệm để đo lường thành quả học tập trong giáo dục đòi hỏi đánh giá chính xác năng lực của người được trắc nghiệm, nên cần có nhiều CH nhằm đo lường các mức độ nhận thức cấp cao, chẳng những nhớ
và hiểu mà còn áp dụng, phân tích, tổng hợp, đánh giá Đưa ra các ý kiến trên đây chúng tôi muốn loại bỏ quan niệm không đúng là phương pháp TNKQ chỉ đánh giá được khả năng ghi nhớ Tuy nhiên, phải thừa nhận là
để đánh giá khả năng sáng tạo ở mức độ rất cao thì phương pháp TNKQ bị hạn chế hơn phương pháp TL, vì làm bài TNKQ bị giới hạn ở việc trả lời trong những cái khung định sẵn Do đó, trong quá trình giảng dạy rất cần
sử dụng nhiều phương pháp đo lường đánh giá khác nhau để tận dụng ưu điểm và hạn chế nhược điểm của từng phương pháp
Chúng ta hãy bàn thêm một chút về khả năng hạn chế nạn gian lận quay cóp trong thời gian làm bài thi Đối với TNKQ, với phạm vi bao quát rộng của đề thi, TS khó có thể chuẩn bị tài liệu để "quay" Vậy liệu
họ có "cóp" bài của nhau được không? Nếu trong một phòng thi mọi
Trang 34người đều làm một đề có hình thức như nhau thì TS rất dễ "cóp" cách tô đáp án của nhau Tuy nhiên một giải pháp đơn giản được thực hiện dễ dàng hiện nay là biến một ĐTN thành nhiều phiên bản cùng nội dung bằng cách đảo các phương án chọn trong từng CH sao cho các phương
án đúng của các ĐTN nằm ở vị trí khác nhau Các TS ngồi gần nhau sẽ nhận được các ĐTN hoàn toàn khác nhau về hình thức, họ sẽ phải đánh dấu vào phiếu trả lời theo những cách hoàn toàn khác nhau, do đó họ không thể "cóp" bài của nhau Đây là một giải pháp chống "cóp" bài rất hữu hiệu (tuy rằng, thực ra thay đổi vị trí các CH và các phương án trả lời có thể làm thay đổi độ khó của CH trắc nghiệm) Như vậy đối với đề TNKQ cả "quay" và "cóp" đều khó thực hiện hơn đối với đề TL
Một ưu điểm nữa cũng đáng lưu ý của TNKQ so với TL là quy trình xây dựng ĐTN đối với các kỳ thi đại trà ĐTN có thể được xây dựng theo một quy trình có rất nhiều người tham gia trong một thời gian đủ dài để vận dụng "trí tuệ tập thể" nhằm tăng chất lượng và sự an toàn về nội dung, đồng thời vẫn đảm bảo được tính bí mật, còn đề TL thì muốn đảm bảo tính
bí mật phải hạn chế tối đa số người tham gia ra đề và thời gian làm đề, sự hạn chế này dễ dẫn đến những sơ suất trong đề thi mà một số ít người ra đề trong một thời gian ngắn chưa phát hiện được Thật vậy, đối với TNKQ,
có thể tổ chức cho từng cá nhân hoặc từng nhóm người tham gia soạn thảo một số lượng rất nhỏ, khoảng 5 - 7 CH trắc nghiệm và thử nghiệm các CH
đó nhiều lần trên từng nhóm nhỏ TS thích hợp (khi thử nghiệm phải thu lại ĐTN) để phát hiện các sai sót và tu chỉnh, các CH được thử nghiệm này được đưa vào một NHCH trắc nghiệm đủ lớn Sau một thời gian chuẩn bị
đủ dài, khi mọi CH trong ngân hàng đó đã đủ hoàn thiện và đảm bảo chất lượng, người ta mới sử dụng các công nghệ và phần mềm tin học lựa chọn các CH thích hợp để tạo lập rất nhanh các ĐTN Quy trình nói trên vừa đảm bảo tính bí mật vừa tăng độ an toàn cho ĐTN, nhất là các ĐTN cho các kỳ thi đại trà cấp quốc gia
Một khác biệt quan trọng giữa phương pháp TNKQ và TL là ở tính khách quan Đối với đề TL, kết quả chấm thi phụ thuộc rất nhiều vào chủ quan của người chấm bài, do đó rất khó công bằng, chính xác
Để hạn chế mức độ chủ quan đó, người ta có thể cải tiến việc chấm bài
Trang 35TL bằng cách ra trước các đáp án và thang điểm rất chi tiết Dù vậy,
việc so sánh câu trả lời của TS với đáp án chi tiết cũng tùy thuộc vào phán xét của người chấm, thường rất khác nhau Dù với mọi biện pháp khắc phục tính chủ quan đó, nhiều thử nghiệm cho thấy sự thiên lệch của kết quả chấm bài TL từ những người chấm khác nhau thường rất lớn, thậm chí của cùng một người chấm ở những thời điểm với tâm trạng khác nhau cũng không nhỏ Tuy nhiên, việc ra đề TL có tính cấu trúc với các thang điểm tỉ mỉ nếu không khéo cũng có thể dẫn đến nguy
cơ là làm giảm ưu điểm của đề TL về độ “tự do”, và biến đề TL thành một đề TNKQ tồi
Tính khách quan, "máy móc" của việc chấm bài TNKQ cho phép chấm bài trắc nghiệm bằng máy Hiện nay trên thị trường có các máy đọc dấu hiệu quang học chuyên dụng (optical mark reader – OMR), hoặc các máy quét ảnh thông dụng kèm thêm một phần mềm đọc dịch
có thể chấm từ hàng trăm đến hàng chục nghìn bài trong một giờ Loại máy quét ảnh ngày càng tốt và rẻ tiền, rất thuận lợi cho các trường học trang bị để chấm thi trắc nghiệm
Cuối cùng chúng tôi muốn bàn thêm về ưu thế của TNKQ liên quan đến các công nghệ xử lý nâng cao chất lượng của từng CH trắc nghiệm và xây dựng các ĐTN trên cơ sở các lý thuyết trắc nghiệm Các
lý thuyết này, đặc biệt là lý thuyết trắc nghiệm hiện đại, đã đưa các phép đo lường trong giáo dục từ loại phép đo lường dường như rất trừu tượng, định tính và kém chính xác thành một loại phép đo có tính định lượng cao, có thể so sánh với các phép đo trong khoa học tự nhiên và
kỹ thuật Một trong những thành tựu quan trọng của khoa học đo lường hiện đại trong giáo dục là khả năng thiết kế các ĐTN tương đương với mức độ tương đương rất cao, tạo điều kiện hết sức thuận lợi cho việc triển khai các hoạt động thi cử Phần 2 sẽ bàn sâu hơn về khả năng này Qua tất cả các phân tích trên đây, chúng ta có thể đi đến một kết luận tương đối khái quát là chất lượng của phương pháp TNKQ phụ thuộc chủ yếu vào người làm đề và quy trình làm đề, còn chất lượng của phương pháp TL chủ yếu phụ thuộc năng lực đánh giá và phẩm chất
Trang 36của người chấm bài Do đó đối với TNKQ quy trình làm ĐTN (chế tác
CH, phân tích xử lý tu chỉnh từng CH, xây dựng ĐTN theo một công nghệ khoa học ) là hết sức quan trọng Nếu làm ĐTN theo một quy trình không thích hợp thì chẳng những các ưu thế của TNKQ không được phát huy mà các nhược điểm của nó có thể được nhân lên Do đó
có thể nói TNKQ là một con dao hai lưỡi, hiệu quả của nó phụ thuộc nhiều vào năng lực của người dùng dao
Như vậy cả hai phương pháp, TNKQ và TL, đều là những phương pháp hữu hiệu để đánh giá kết quả học tập, nhưng mỗi phương pháp có các ưu nhược điểm nhất định của mình Cần nắm vững bản chất và công nghệ triển khai cụ thể của từng phương pháp để có thể sử dụng mỗi phương pháp đúng quy trình, đúng lúc, đúng chỗ
Các chuyên gia về đánh giá cho rằng phương pháp TL nên dùng trong những trường hợp sau:
Khi TS không quá đông;
Khi muốn khuyến khích và đánh giá cách diễn đạt;
Khi muốn tìm hiểu ý tưởng của TS hơn là khảo sát thành quả học tập; Khi có thể tin tưởng khả năng chấm bài TL của giáo viên là chính xác; Khi không có nhiều thời gian soạn đề nhưng có đủ thời gian để chấm bài
Phương pháp TNKQ nên dùng trong những trường hợp sau:
Khi số TS rất đông;
Khi muốn chấm bài nhanh;
Khi muốn có điểm số đáng tin cậy, không phụ thuộc vào người chấm bài;
Khi phải coi trọng yếu tố công bằng, vô tư, chính xác và muốn ngăn chặn sự gian lận khi thi;
Khi muốn đề thi có độ an toàn cao về nội dung và đảm bảo tính bí mật Khi muốn kiểm tra một phạm vi hiểu biết rộng, muốn ngăn ngừa nạn học tủ, học vẹt và giảm thiểu sự may rủi
Trang 371.7 SỰ KẾT HỢP TRẮC NGHIỆM KHÁCH QUAN VỚI TỰ LUẬN TRONG ĐÁNH GIÁ
Trên đây chúng ta đã nghiên cứu tách biệt TNKQ và TL, và nêu các ưu điểm và nhược điểm của từng phương pháp
Tuy nhiên, với sự phát triển của khoa học về đo lường trong giáo dục và về công nghệ TNKQ và TL, có thể thấy rằng không nên tách biệt hoàn toàn hai phương pháp đánh giá này, xét về hai khía cạnh sau đây Một là, để tận dụng được ưu điểm và tránh bớt nhược điểm của
cả hai phương pháp, người ta ngày càng sử dụng nhiều đề kiểm tra có hỗn hợp các CH TNKQ và TL Hai là, khi phát triển các mô hình trắc nghiệm, người ta ngày càng tìm được nhiều mô hình khái quát mà trong đó TNKQ và TL chỉ là các trường hợp riêng, trong nhiều trường hợp có thể kết hợp phân tích chung TNKQ và TL trong một bài kiểm tra Chương 13 và 14 của giáo trình này, khi xét đến các mô hình trắc nghiệm đa phân và đa chiều sẽ có giới thiệu các ví dụ liên quan với sự kết hợp nói trên
1.8 SỬ DỤNG CÁC CÂU HỎI TRẮC NGHIỆM ĐỂ ĐÁNH GIÁ CÁC MỨC ĐỘ NHẬN THỨC KHÁC NHAU
Như đã nói trên đây có thể chế tác các CH trắc nghiệm để đánh giá các mức độ nhận thức từ thấp đến cao Dưới đây sẽ giới thiệu ví dụ về các CHTN được chế tác để đánh giá các mức độ nhận thức theo thang phân chia của B Bloom đã nêu trên đây
Trang 38E Michels
Chú ý là các phương án chọn của CH này có sự phù hợp nội tại, vì mọi tác gia được nêu đều là các học giả người Đức nghiên cứu về những vấn đề xã hội Đáp án là B
2) Hiểu (comprehention):
Ở mức độ này kiến thức về các sự kiện, lý thuyết, quá trình v.v… được xem là đã biết, và người ta muốn trắc nghiệm xem TS có hiểu kiến thức đó không
Ví dụ: Hai vật tích điện hút nhau bằng một lực xác định Nếu điện
tích trên mỗi vật tăng gấp đôi còn khoảng cách giữa chúng giữ nguyên thì lực tác dụng giữa chúng sẽ:
A tăng gấp bốn
B tăng gấp đôi
C giảm một nửa
D tăng lên nhưng không biết tăng bao nhiêu
Để trả lời được câu trắc nghiệm này TS phải biết định luật Culông
(Lực tương tác giữa hai điện tích tỷ lệ thuận với tích số các điện tích và
tỷ lệ nghịch với bình phương khoảng cách giữa các điện tích) và phải
hiểu mối quan hệ giữa các đại lượng trong định luật Đáp án là A
Trang 39chính xác đến từng chữ số thập phân, mà chỉ cần ước lượng để biết cỡ của đáp án gần với phương án nào Đáp án là C
4) Phân tích, tổng hợp (analysis, synthesis):
1980 - 1991
Tỷ lệ tăng dân số
1980 -
1991
Cơ cấu tổng thể về việc làm thời kỳ 1980-1985 (%) Nông
nghiệp
Công nghiệp
Hãy chọn phương án trả lời từ danh sách sau đây:
A 1 là Hàn quốc; 2 là Kenya; 3 là Canada
B 1 là Sri Lanka; 2 là Đức; 3 là Thái Lan
C 1 là Sri Lanka; 2 là Thái Lan; 3 là Thụy Điển
D 1 là Namibia; 2 là Portugal; 3 là Botswana
Để trả lời câu hỏi này TS phải nhớ các xếp hạng về kinh tế liên quan của nhiều nước (biết) và hiểu cơ sở của sự xếp hạng đó (hiểu) Họ
Trang 40phải áp dụng được các khái niệm đó khi được cung cấp thông tin, phải phân tích các thông tin đã cho và tổng hợp để trả lời CH Thật ra loại CH này không yêu cầu TS phải nhớ các con số thống kê cụ thể, mà cần phải xem bảng thống kê và thực hiện việc xếp hạng dựa trên các khái niệm
mà họ nắm được Đáp án là C
5) Đánh giá (evaluation):
Ở mức độ này TS được đòi hỏi phải đánh giá, chẳng hạn, sự nhất quán của các tài liệu đã viết, giá trị của các quá trình thực nghiệm hoặc việc giải thích dữ liệu
Ví dụ : một câu hỏi về "nguyên nhân" trong đó có hai nhận định được nối với nhau bằng từ "BỞI VÌ" TS phải đưa ra đánh giá của mình
về các sự kiện và nguyên nhân đó
Hãy đánh giá câu in trong ngoặc sau đây theo tiêu chí được nêu bên dưới:
"Hoa Kỳ gây cuộc Chiến tranh vùng vịnh chống Irắc năm 2003 BỞI VÌ Sađam Hussen che dấu Alqueda và chế tạo vũ khí hạt nhân"
A Sự kiện thứ nhất và thứ hai đều đúng, và nguyên nhân là chính xác
B Sự kiện thứ nhất là đúng nhưng sự kiện thứ hai không đúng, và nguyên nhân là không đúng
C Sự kiện thứ nhất và thứ hai đều không đúng, và nguyên nhân
cần phải biết và hiểu tình hình chính trị của vùng Cận Đông, biết phân tích và tổng hợp tình hình Điều được trắc nghiệm ở đây là khả năng đánh giá quan hệ giữa nguyên nhân và kết quả trong câu đã nêu Đáp án
là B