Áp dụng mô hình IRT 3 tham số vào đo lường và phân tích độ khó, độ phân biệt và mức độ dự đoán của các câu hỏi trong đề thi trắc nghiệm khách quan

Tư liệu tham khảo Số 7(85) năm 2016 _ ÁP DỤNG MƠ HÌNH IRT THAM SỐ VÀO ĐO LƯỜNG VÀ PHÂN TÍCH ĐỘ KHĨ, ĐỘ PHÂN BIỆT VÀ MỨC ĐỘ DỰ ĐOÁN CỦA CÁC CÂU HỎI TRONG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN ĐOÀN HỒNG CHƯƠNG* , LÊ ANH VŨ ** , PHẠM HOÀNG UYÊN*** TĨM TẮT Trong viết này, chúng tơi sử dụng mơ hình IRT tham số để đo lường độ khó, độ phân biệt câu hỏi đề thi trắc nghiệm khách quan nhiều lựa chọn, đồng thời khảo sát ảnh hưởng mức độ dự đoán thí sinh trả lời câu hỏi việc đo lường đánh giá lực thí sinh Dữ liệu viết thu thập từ mẫu ngẫu nhiên thi cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, ĐHQG TP Hồ Chí Minh Việc xử lí liệu thực gói lệnh “ltm” phần mềm R Kết viết giúp giáo viên đánh giá chất lượng đề thi lực thí sinh Từ khóa: lí thuyết ứng đáp câu hỏi, mơ hình IRT tham số, trắc nghiệm khách quan nhiều lựa chọn, phần mềm R ABSTRACT Applying 3-parameter logistic model in validating the level of difficulty, discrimination and guessing of items in a multiple choice test In this study, we use 3-parameter logistic model to validate the level of difficulty and discrimination of items in a multiple choice test; as well as examine the effect of test takers’ guessing in answering questions for assessing test takers’ competence Data was gathered from a random sample of the 2014 Intake students taking the Advanced Mathematics Final Test of University of Economics and Law, Vietnam National University, Ho Chi Minh City “Ltm” package of the freeware R was used to analyze the data The findings of this study, therefore, suggest the way to assess the test's quality and examinees’ competence Keywords: Item response theory, 3-parameter logistic model, multiple choice test, R software Mở đầu 1.1 Xuất xứ vấn đề nghiên cứu Lí thuyết trắc nghiệm cổ điển (Classical Test Theory – CTT) đời từ khoảng cuối kỉ XIX hoàn thiện vào năm 60 kỉ XX, có nhiều đóng góp quan trọng cho hoạt động đo lường đánh giá giáo dục Tuy nhiên, phương pháp bộc lộ số hạn chế: Trước tiên phụ thuộc tham số (độ khó, độ phân biệt) câu hỏi vào mẫu thí sinh tham gia kiểm tra; ảnh * ThS, Trường Đại học Kinh tế - Luật, ĐHQG TPHCM; Email: chuongdh@uel.edu.vn PGS TS, Trường Đại học Kinh tế - Luật, ĐHQG TPHCM *** TS, Trường Đại học Kinh tế - Luật, ĐHQG TPHCM ** 174 TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đoàn Hồng Chương tgk _ hưởng câu hỏi đến việc đo lường đánh giá lực tiềm tàng (latent trait) thí sinh (từ sau, lực tiềm tàng viết gọn lực) Chẳng hạn, đề thi, tiến hành với nhóm thí sinh giỏi, đề thi thường đánh giá đề thi dễ; nhóm thí sinh kém, đề thi có khả đánh giá đề thi khó Tương tự vậy, thí sinh, làm đề thi dễ lực thí sinh đánh giá cao so với làm đề thi khó Để khắc phục nhược điểm này, mơ hình lí thuyết ứng đáp câu hỏi (Item Response Theory – IRT) nghiên cứu áp dụng vào đo lường đánh giá câu hỏi đề thi Mơ hình IRT dựa giả thiết sau: “nếu người có lực cao người khác xác suất để người trả lời câu hỏi phải lớn xác suất tương ứng người kia; tương tự vậy, câu hỏi khó câu hỏi khác xác suất để người trả lời câu hỏi phải nhỏ xác suất để người trả lời câu hỏi kia” [8] Điểm bật mơ hình mơ tả mối liên hệ lực thí sinh với tham số câu hỏi thơng qua ứng đáp thí sinh câu hỏi đề thi [6,11] Một điểm đặc biệt mơ hình IRT tách biệt tham số câu hỏi với mẫu thí sinh tham gia kiểm tra, lực tiềm tàng thí sinh với đề thi [6,11] Do giáo viên nhà quản lí giáo dục áp dụng mơ hình IRT để thiết kế đề thi trắc nghiệm tiêu chuẩn có mức độ tương đương cao đo xác lực thí sinh 1.2 Tổng quan nghiên cứu Việt Nam trước Ở Việt Nam, mơ hình IRT nhiều tác giả quan tâm nghiên cứu Ví dụ Dương Thiệu Tống [4], Lâm Quang Thiệp [3], Nguyễn Bảo Hoàng Thanh [2], Nguyễn Thị Ngọc Xuân [5], Nguyễn Thị Hồng Minh [1] Tuy nhiên, việc đo lường, phân tích đánh giá tác giả dừng lại với mơ hình Rasch (là dạng mơ hình IRT tham số, mơ hình IRT hai tham số) Thực tế đề thi trắc nghiệm khách quan nhiều lựa chọn cho thấy, gặp câu hỏi có độ khó cao lực thân, thí sinh có khuynh hướng dự đốn câu trả lời (theo cách chọn ngẫu nhiên phương án theo cách loại suy dựa kinh nghiệm thân) Do đó, Birnbaum đề xuất thêm tham số dự đốn vào mơ hình để đo lường mức độ dự đốn thí sinh câu hỏi [7] 1.3 Mục đích nghiên cứu Mục đích viết áp dụng mơ hình IRT tham số Birbaum vào việc đo lường độ khó, độ phân biệt 20 câu hỏi đề thi cuối kì mơn Tốn Cao cấp năm 2014 Trường Đại học Kinh tế - Luật, ĐHQG TP Hồ Chí Minh; đồng thời khảo sát ảnh hưởng dự đốn thí sinh trả lời câu hỏi trắc nghiệm việc đo lường đánh giá lực thí sinh Bên cạnh đó, chúng tơi tiến hành phân tích mơ hình Rasch mơ hình IRT tham số mức độ phù hợp mơ hình liệu 175 Tư liệu tham khảo Số 7(85) năm 2016 _ khảo sát Từ suy mơ hình tốt cho việc đo lường đánh giá chất lượng đề thi lực thí sinh 1.4 Phương pháp nghiên cứu Chúng sử dụng phương pháp mẫu phân tích thống kê liệu với hỗ trợ phần mềm chuyên dụng thích hợp Cụ thể, sở 800 thi cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, chúng tơi trích xuất cách ngẫu nhiên 388 thi Sau dùng gói lệnh ltm phần mềm R để phân tích Đây gói lệnh tải dễ dàng miễn phí mạng địa http://CRAN.R-project.org [9]) Gói lệnh chuyên dùng để đo lường độ khó, độ phân biệt mức độ dự đoán câu hỏi đề thi Chúng tơi dùng gói lệnh để ước lượng lực sinh viên phân tích ảnh hưởng dự đốn thí sinh trả lời câu hỏi trắc nghiệm đến việc đánh giá lực thí sinh Ngồi ra, chúng tơi phân tích phương sai để chọn lựa mơ hình thích hợp với liệu khảo sát 1.5 Bố cục viết Bài viết trình bày thành mục Mục phần mở đầu nhằm giới thiệu xuất xứ vấn đề nghiên cứu, tổng quan nghiên cứu trước Việt Nam, mục đích phương pháp nghiên cứu Mục dành cho việc trình bày tóm lược sở lí thuyết mơ hình IRT Mục mục trình bày phương pháp kết đo lường độ khó, độ phân biệt câu hỏi; kết phân tích ảnh hưởng dự đốn thí sinh trả lời câu hỏi trắc nghiệm đến việc đánh giá lực thí sinh; kết so sánh mức độ phù hợp mơ hình với liệu khảo sát Mục cuối cùng, chúng tơi trình bày kết luận định hướng phát triển viết Tóm lược lí thuyết ứng đáp câu hỏi Trong [8], Rasch cho “nếu người có lực cao người khác xác suất để người trả lời câu hỏi phải lớn xác suất tương ứng người kia; tương tự vậy, câu hỏi khó câu hỏi khác xác suất để người trả lời câu hỏi phải nhỏ xác suất để người trả lời câu hỏi kia” Dựa sở này, Rasch mô tả mối liên hệ xác suất trả lời câu hỏi thí sinh với lực thí sinh thơng qua hàm đặc trưng câu hỏi (Item Chacracteristics Function – ICF): exp k  b j  P  X jk  / k , b j   , (1)  exp k  b j  với  k lực thí sinh thứ k, b j độ khó câu hỏi thứ j X jk ứng đáp thí sinh thứ k câu hỏi thứ j X jk  thí sinh trả lời câu hỏi X jk  thí sinh trả lời sai câu hỏi 176 Đồn Hồng Chương tgk TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ Độ khó câu hỏi đặc trưng cho khả trả lời câu hỏi thí sinh Câu hỏi có độ khó cao xác suất trả lời câu hỏi thí sinh thấp Trong [6], Baker phân loại độ khó câu hỏi theo mức sau: khó, khó, trung bình, dễ, dễ Theo Baker, câu hỏi thuộc loại khó tham số b j  , thuộc loại khó 0,5  b j  , thuộc loại trung bình 0,5  b j  0,5 , thuộc loại dễ 2  b j  0,5 thuộc loại dễ b j  2 Trong [10], Thissen Orlando đề xuất dạng mơ hình sau, gọi mơ hình IRT tham số:   P X jk  /  k , a, b j    exp  a  k  b j  ,  exp  a  k  b j    (2) tham số a gọi độ phân biệt câu hỏi đề thi Trong [7], Birnbaum đề xuất mở rộng mơ hình IRT tham số cách gán cho câu hỏi đề thi trắc nghiệm ứng với độ phân biệt a j khác Mơ hình gọi mơ hình IRT tham số Hàm đặc trưng câu hỏi mô hình có dạng:   P X jk  /  k , a j , b j    exp  a j  k  b j   exp  a j  k  b j    (3) Độ phân biệt câu hỏi đặc trưng cho khả phân loại thí sinh Thơng thường độ phân biệt câu hỏi có giá trị dương Trong trường hợp câu hỏi sai mắc lỗi thiết kế độ phân biệt mang giá trị âm [6] Câu hỏi có độ phân biệt dương lớn chênh lệch xác suất trả lời sinh có lực cao lực thấp lớn Nói cách khác, câu hỏi có độ phân biệt cao phân loại thí sinh tốt câu hỏi có độ phân biệt thấp Trong [6], Baker chia độ phân biệt câu hỏi thành mức: tốt, tốt, bình thường, Cụ thể câu hỏi gọi có độ phân biệt tốt tham số a j  1,7 , loại tốt 1,35  a j  1,7 , loại bình thường 0,65  a j  1,35 , loại 0,35  a j  0,65 loại a j  0,35 Thực tế cho thấy, trình kiểm tra trắc nghiệm khách quan nhiều lực chọn, thí sinh ln dự đốn câu trả lời (theo cách chọn ngẫu nhiên phương án theo cách loại suy dựa kinh nghiệm thân) Trong lí thuyết trắc nghiệm cổ điển, người ta giảm việc dự đốn thí sinh trả lời câu hỏi cách đưa vào điểm may rủi Tuy nhiên, cách làm có nhược điểm xem câu hỏi có độ may rủi Điều trái với thực tiễn thí sinh thường dự đốn để trả lời câu hỏi gặp câu hỏi khó gặp câu hỏi dễ Vì vậy, Birnbaum đề xuất thêm tham số c j   0,1 vào mơ hình IRT tham số để đo lường mức độ dự đốn thí sinh trả lời câu hỏi trắc nghiệm câu hỏi [7] Mơ hình với tham số đo lường mức độ 177 Số 7(85) năm 2016 Tư liệu tham khảo _ dự đốn thí sinh gọi mơ hình IRT tham số Hàm đặc trưng câu hỏi mơ hình có dạng sau:    exp  a   b     exp  aj k  jb   j   j k P X jk  /  k , a j , b j , c j  c j   c j (4) Hình Mơ hình Rasch mơ hình IRT tham số Trong 1, đồ thị bên phải đường cong đặc trưng câu hỏi mơ hình IRT tham số đồ thị bên trái đường cong đặc trưng mơ hình Rasch, mơ hình khơng xét đến yếu tố dự đốn thí sinh trả lời câu hỏi So với đường cong đặc trưng mơ hình Rasch, đường cong đặc trưng mơ hình IRT tham số có độ dốc lớn lệch bên phải Điều có nghĩa độ khó độ phân biệt câu hỏi tăng lên xét thêm yếu tố dự đoán thí sinh Sự gia tăng độ khó, độ phân biệt câu hỏi mơ hình IRT tham số dẫn đến điểm số thí sinh đạt có câu trả lời tăng lên Nói cách khác, yếu tố dự đoán tác động đến việc đánh giá lực thí sinh Mô tả cụ thể phương pháp Trên sở 800 thi cuối kì cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, ĐHQG TPHCM, chúng tơi trích xuất ngẫu nhiên 388 thi (chiếm tỉ lệ xấp xỉ 46,74%) lấy kết câu hỏi để phân tích Đề thi gồm 20 câu hỏi trắc nghiệm khách quan lựa chọn Chúng tơi mã hóa liệu thành dạng nhị phân theo quy tắc: Ứng với câu hỏi, thí sinh trả lời gán giá trị 1, ngược lại gán giá trị Trước tiên, chúng tơi áp dụng mơ hình Rasch để đo lường độ khó câu hỏi đề thi nói Tiếp theo, mơ hình IRT tham số áp dụng để ước lượng độ khó, độ phân biệt mức độ dự đoán câu hỏi đề thi Căn vào kết này, tiến hành phân loại đánh giá câu hỏi dựa theo thang đo [6] Năng lực thí sinh ứng với mơ hình tính tốn từ cơng 178 TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đồn Hồng Chương tgk _ thức (1) (4) So sánh kết này, đánh giá ảnh hưởng tham số đến việc đánh giá lực thí sinh Cuối cùng, phân tích phương sai áp dụng để so sánh mức độ phù hợp mơ hình Rasch mơ hình IRT tham số với liệu khảo sát Việc ước lượng tham số mô hình nói ước lượng lực thí sinh phân tích phương sai thực gói lệnh ltm phần mềm R [9] Kết cụ thể 4.1 Phân tích độ khó, độ phân biệt mức dự đoán câu hỏi Để ước lượng độ khó câu hỏi mơ hình Rasch, chúng tơi dùng lệnh rasch() Bảng sau mơ tả kết ước lượng độ khó câu hỏi đề thi Bảng Độ khó câu hỏi mơ hình Rasch value std.err z.vals Item1 – 0.7884 0.1256 – 6.2775 Item2 – 2.2140 0.1700 – 13.0020 Item3 – 2.2137 0.1700 – 13.0215 Item4 – 1.8848 0.1549 – 12.1664 Item5 – 0.3622 0.1211 – 2.9918 … Các giá trị cột value độ khó câu hỏi, giá trị cột std.err sai số độ lệch chuẩn cột z.vals, cột cuối cùng, độ khó câu hỏi quy đổi sang dạng chuẩn Theo mức phân loại [6], đề thi có câu thuộc loại khó, câu thuộc loại trung bình, câu thuộc loại dễ câu mức dễ Đối với mơ hình IRT tham số, dùng câu lệnh tpm() coeff() để ước lượng độ khó, độ phân biệt mức độ dự đốn thí sinh câu hỏi Kết trình bày bảng sau: Item1 Item2 Item3 Item4 Item5 … Bảng Mơ hình IRT tham số Gussng Diffclt Dscrmn 0.0000 – 1.0481 0.7403 0.0000 – 1.3040 3.4131 0.2352 – 1.3347 1.9398 0.4526 – 0.6019 3.9070 0.0001 – 0.6927 0.4882 Các giá trị cột Gussng mức dự đốn thí sinh câu hỏi, cột Diffclt độ khó câu hỏi cột cuối Dscrmn độ phân biệt câu hỏi Từ kết này, chúng tơi có số đánh sau: Đề thi có câu hỏi mức khó, câu hỏi mức khó, câu hỏi mức trung bình, 10 câu hỏi mức dễ 179 Tư liệu tham khảo Số 7(85) năm 2016 _ câu hỏi mức dễ So với kết đánh giá mơ hình Rasch, kết mơ hình IRT tham số sát với liệu thực tế hơn; đồng thời kết tương đối phù hợp với ma trận câu hỏi chuẩn đầu môn học Tiếp tục với độ phân biệt câu hỏi, đề thi có câu hỏi mức phân biệt tốt, câu hỏi mức tốt, câu hỏi mức bình thường, câu hỏi mức câu hỏi mức Tổng hợp kết phân tích độ khó độ phân biệt câu hỏi, thấy câu hỏi 6, câu hỏi có chất lượng tốt Các câu hỏi mức tương đối tốt 1, 2, 3, 4, 11, 12, 13, 14, 16, 17 Câu câu hỏi 19, 8, 5, mức khá; nhiên, cần điều chỉnh mồi nhử để đạt độ phân biệt tốt Câu hỏi 10 18 cần thay cải tiến nhiều độ phân biệt Đối với câu 15, độ phân biệt có giá trị âm Điều có nghĩa thí sinh có lực cao lại có khả sai nhiều thí sinh có lực thấp Phân tích câu 15, cho nguyên nhân xảy tượng cách sử dụng từ đa nghĩa cấu trúc phủ định phủ định Do đó, thí sinh hiểu sai ý câu hỏi khơng hiểu câu hỏi Vì vậy, thí sinh chọn đáp án theo cách ngẫu nhiên chọn sai đáp án Thơng thường, với câu hỏi dễ, thí sinh thường chọn câu trả lời mà không cần dự đoán Tuy nhiên, trường hợp câu hỏi 15 (là câu hỏi mức dễ), mức độ dự đoán cao so với câu hỏi mức độ Điều khẳng định suy đốn có lỗi thiết kế câu hỏi 15 hợp lí Tiếp theo, chúng tơi tiến hành phân tích mức độ dự đốn thí sinh câu hỏi để xác định ảnh hưởng chúng đến việc đánh giá lực thí sinh Theo Bảng 2, thấy rằng, câu hỏi dễ, mức dự đốn thí sinh thường nhỏ, chí gần 0; chẳng hạn câu hỏi 1, 2, 12, 14, 17 Các câu hỏi khó tỉ lệ đốn thí sinh tăng; Ví dụ: câu hỏi 9, câu hỏi khó, có mức dự đốn gần đến 50% 4.2 Phân tích ảnh hưởng dự đốn đến lực thí sinh Từ tham số ước lượng phần trên, ước lượng lực thí sinh thông qua câu lệnh factor.scores() Kết Bảng Bảng mô tả tương ứng lực thí sinh đánh giá mơ hình Rasch mơ hình IRT tham số Bảng Năng lực thí sinh ứng với mơ hình Rasch Abilities Std.Err No Person1 -1.922 0.489 Person2 -1.922 0.489 Person3 -1.061 0.446 Person4 -1.061 0.446 Person5 -1.061 0.446 Person6 -0.865 0.442 Person7 -1.263 0.453 … 180 TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đồn Hồng Chương tgk _ Bảng Năng lực thí sinh ứng với mơ hình IRT tham số Abilities Std.Err No Person1 -1.675 0.418 Person2 -2.224 0.57 Person3 -1.548 0.398 Person4 -1.663 0.42 Person5 -1.842 0.461 Person6 -1.477 0.38 Person7 -1.91 0.486 … Các giá trị cột Abilities ước lượng lực thí sinh; Std.Err sai số ước lượng No tổng số câu trả lời thí sinh Kết Bảng cho thấy mơ hình Rasch, thí sinh có tổng số câu trả lời lực thí sinh đánh giá Trong kết Bảng cho thấy dùng mơ hình IRT tham số để đánh giá, lực thí sinh phụ thuộc vào độ khó, độ phân biệt mức độ dự đốn câu hỏi Ví dụ: hai thí sinh có tổng số câu trả lời (thí sinh thứ trả lời câu hỏi 10, 11, 12 cịn thí sinh thứ hai trả lời câu hỏi 9, 11, 15) Tuy nhiên, kết đánh giá lực thí sinh thứ cao thí sinh thứ hai mức độ dự đoán câu trả lời câu hỏi 9, 11, 15 cao nhiều so với mức độ dự đoán câu trả lời câu hỏi 10, 11, 12 Điều chứng tỏ ảnh hưởng mức độ dự đoán câu trả lời câu hỏi đến việc đánh giá lực thí sinh 4.3 So sánh mức độ phù hợp mơ hình Kết bảng cho phép đánh giá chọn lựa mơ hình tối ưu cho liệu khảo sát Bảng So sánh mơ hình Rasch mơ hình IRT tham số Rasch 3PL AIC 9271.18 9098.79 Likelihood ratio table BIC log.Lik LRT 9350.40 - 4615.59 9336.45 - 4489.39 252.39 df 40 p.value

Định dạng
Số trang	11
Dung lượng	439,64 KB