Áp dụng mô hình IRT 3 tham số vào đo lường và phân tích độ khó, độ phân biệt và mức độ dự đoán của các câu hỏi trong đề thi trắc nghiệm khách quan

Mục đích của bài viết là áp dụng mô hình IRT 3 tham số của Birbaum vào việc đo lường độ khó, độ phân biệt của 20 câu hỏi trong đề thi cuối kì môn Toán Cao cấp năm 2014 của Trường Đại h[r]

(1)

Tư liệu tham khảo Số 7(85) năm 2016

_

ÁP DỤNG MƠ HÌNH IRT THAM SỐ VÀO ĐO LƯỜNG VÀ PHÂN TÍCH ĐỘ KHĨ, ĐỘ PHÂN BIỆT VÀ MỨC ĐỘ DỰ ĐOÁN CỦA CÁC CÂU HỎI TRONG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN

ĐOÀN HỒNG CHƯƠNG*, LÊ ANH VŨ **, PHẠM HỒNG UN***

TĨM TẮT

Trong viết này, sử dụng mơ hình IRT tham số để đo lường độ khó, độ phân biệt câu hỏi đề thi trắc nghiệm khách quan nhiều lựa chọn, đồng thời khảo sát ảnh hưởng mức độ dự đốn thí sinh trả lời câu hỏi việc đo lường đánh giá lực thí sinh Dữ liệu viết thu thập từ mẫu ngẫu nhiên thi cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, ĐHQG TP Hồ Chí Minh Việc xử lí liệu thực gói lệnh “ltm” phần mềm R Kết viết giúp giáo viên đánh giá chất lượng đề thi lực thí sinh

Từ khóa: lí thuyết ứng đáp câu hỏi, mơ hình IRT tham số, trắc nghiệm khách quan nhiều lựa chọn, phần mềm R

ABSTRACT

Applying 3-parameter logistic model in validating the level of difficulty, discrimination and guessing of items in a multiple choice test

In this study, we use 3-parameter logistic model to validate the level of difficulty and discrimination of items in a multiple choice test; as well as examine the effect of test takers’ guessing in answering questions for assessing test takers’ competence Data was gathered from a random sample of the 2014 Intake students taking the Advanced Mathematics Final Test of University of Economics and Law, Vietnam National University, Ho Chi Minh City “Ltm” package of the freeware R was used to analyze the data The findings of this study, therefore, suggest the way to assess the test's quality and examinees’ competence

Keywords: Item response theory, 3-parameter logistic model, multiple choice test, R software

1 Mở đầu

1.1 Xuất xứ vấn đề nghiên cứu

Lí thuyết trắc nghiệm cổ điển (Classical Test Theory – CTT) đời từ khoảng cuối kỉ XIX hoàn thiện vào năm 60 kỉ XX, có nhiều đóng góp quan trọng cho hoạt động đo lường đánh giá giáo dục Tuy nhiên, phương pháp bộc lộ số hạn chế: Trước tiên phụ thuộc tham số (độ khó, độ phân biệt) câu hỏi vào mẫu thí sinh tham gia kiểm tra; ảnh

*

ThS, Trường Đại học Kinh tế - Luật, ĐHQG TPHCM; Email: chuongdh@uel.edu.vn

**

(2)

TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đoàn Hồng Chương tgk

_

hưởng câu hỏi đến việc đo lường đánh giá lực tiềm tàng (latent trait) thí sinh (từ sau, lực tiềm tàng viết gọn lực) Chẳng hạn, đề thi, tiến hành với nhóm thí sinh giỏi, đề thi thường đánh giá đề thi dễ; nhóm thí sinh kém, đề thi có khả đánh giá đề thi khó Tương tự vậy, thí sinh, làm đề thi dễ lực thí sinh đánh giá cao so với làm đề thi khó

Để khắc phục nhược điểm này, mơ hình lí thuyết ứng đáp câu hỏi (Item Response Theory – IRT) nghiên cứu áp dụng vào đo lường đánh giá câu hỏi đề thi Mô hình IRT dựa giả thiết sau: “nếu người có lực cao người khác xác suất để người trả lời câu hỏi phải lớn xác suất tương ứng người kia; tương tự vậy, câu hỏi khó câu hỏi khác xác suất để người trả lời câu hỏi phải nhỏ xác suất để người trả lời câu hỏi kia” [8] Điểm bật mơ hình mơ tả mối liên hệ lực thí sinh với tham số câu hỏi thông qua ứng đáp thí sinh câu hỏi đề thi [6,11] Một điểm đặc biệt mô hình IRT tách biệt tham số câu hỏi với mẫu thí sinh tham gia kiểm tra, lực tiềm tàng thí sinh với đề thi [6,11] Do giáo viên nhà quản lí giáo dục áp dụng mơ hình IRT để thiết kế đề thi trắc nghiệm tiêu chuẩn có mức độ tương đương cao đo xác lực thí sinh

1.2 Tổng quan nghiên cứu Việt Nam trước

Ở Việt Nam, mơ hình IRT nhiều tác giả quan tâm nghiên cứu Ví dụ Dương Thiệu Tống [4], Lâm Quang Thiệp [3], Nguyễn Bảo Hoàng Thanh [2], Nguyễn Thị Ngọc Xuân [5], Nguyễn Thị Hồng Minh [1] Tuy nhiên, việc đo lường, phân tích đánh giá tác giả dừng lại với mơ hình Rasch (là dạng mơ hình IRT tham số, mơ hình IRT hai tham số) Thực tế đề thi trắc nghiệm khách quan nhiều lựa chọn cho thấy, gặp câu hỏi có độ khó cao lực thân, thí sinh có khuynh hướng dự đoán câu trả lời (theo cách chọn ngẫu nhiên phương án theo cách loại suy dựa kinh nghiệm thân) Do đó, Birnbaum đề xuất thêm tham số dự đốn vào mơ hình để đo lường mức độ dự đốn thí sinh câu hỏi [7]

1.3 Mục đích nghiên cứu

(3)

_

được khảo sát Từ suy mơ hình tốt cho việc đo lường đánh giá chất lượng đề thi lực thí sinh

1.4 Phương pháp nghiên cứu

Chúng sử dụng phương pháp mẫu phân tích thống kê liệu với hỗ trợ phần mềm chuyên dụng thích hợp Cụ thể, sở 800 thi cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, chúng tơi trích xuất cách ngẫu nhiên 388 thi Sau dùng gói lệnh ltm phần mềm R để phân tích Đây gói lệnh tải dễ dàng miễn phí mạng địa http://CRAN.R-project.org [9]) Gói lệnh chuyên dùng để đo lường độ khó, độ phân biệt mức độ dự đoán câu hỏi đề thi Chúng tơi dùng gói lệnh để ước lượng lực sinh viên phân tích ảnh hưởng dự đốn thí sinh trả lời câu hỏi trắc nghiệm đến việc đánh giá lực thí sinh Ngồi ra, chúng tơi phân tích phương sai để chọn lựa mơ hình thích hợp với liệu khảo sát

1.5 Bố cục viết

Bài viết trình bày thành mục Mục phần mở đầu nhằm giới thiệu xuất xứ vấn đề nghiên cứu, tổng quan nghiên cứu trước Việt Nam, mục đích phương pháp nghiên cứu Mục dành cho việc trình bày tóm lược sở lí thuyết mơ hình IRT Mục mục trình bày phương pháp kết đo lường độ khó, độ phân biệt câu hỏi; kết phân tích ảnh hưởng dự đốn thí sinh trả lời câu hỏi trắc nghiệm đến việc đánh giá lực thí sinh; kết so sánh mức độ phù hợp mơ hình với liệu khảo sát Mục cuối cùng, chúng tơi trình bày kết luận định hướng phát triển viết

2 Tóm lược lí thuyết ứng đáp câu hỏi

Trong [8], Rasch cho “nếu người có lực cao người khác xác suất để người trả lời câu hỏi phải lớn xác suất tương ứng của người kia; tương tự vậy, câu hỏi khó câu hỏi khác xác suất để người trả lời câu hỏi phải nhỏ xác suất để người trả lời câu hỏi kia” Dựa sở này, Rasch mô tả mối liên hệ xác suất trả lời câu hỏi thí sinh với lực thí sinh thơng qua hàm đặc trưng câu hỏi (Item Chacracteristics Function – ICF):

   

 

exp

1 / ,

1 exp

k j

jk k j

k j

b

P X b

b  

 

 

  , (1)

với k lực thí sinh thứ k, b độ khó câu hỏi thứ j j Xjk ứng đáp

của thí sinh thứ k câu hỏi thứ j Xjk  thí sinh trả lời câu hỏi

jk

(4)

TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đồn Hồng Chương tgk

_

Độ khó câu hỏi đặc trưng cho khả trả lời câu hỏi thí sinh Câu hỏi có độ khó cao xác suất trả lời câu hỏi thí sinh thấp Trong [6], Baker phân loại độ khó câu hỏi theo mức sau: khó, khó, trung bình, dễ, dễ Theo Baker, câu hỏi thuộc loại khó tham số b j 2, thuộc loại

khó 0,5bj , thuộc loại trung bình 0,52  bj0,5, thuộc loại dễ

2 bj 0,5

    thuộc loại dễ b   j

Trong [10], Thissen Orlando đề xuất dạng mơ hình sau, gọi mơ hình IRT tham số:

   

 

exp / , a,

1 exp

k j

jk k j

k j

a b

P X b

a b                

, (2)

trong tham số a gọi độ phân biệt câu hỏi đề thi

Trong [7], Birnbaum đề xuất mở rộng mô hình IRT tham số cách gán cho

mỗi câu hỏi đề thi trắc nghiệm ứng với độ phân biệt a khác Mơ hình j

này gọi mơ hình IRT tham số Hàm đặc trưng câu hỏi mơ hình có dạng:

   

 

exp / , a ,

1 exp

j k j

jk k j j

j k j

a b

P X b

a b                 (3)

Độ phân biệt câu hỏi đặc trưng cho khả phân loại thí sinh Thơng thường độ phân biệt câu hỏi có giá trị dương Trong trường hợp câu hỏi sai mắc lỗi thiết kế độ phân biệt mang giá trị âm [6] Câu hỏi có độ phân biệt dương lớn chênh lệch xác suất trả lời sinh có lực cao lực thấp lớn Nói cách khác, câu hỏi có độ phân biệt cao phân loại thí sinh tốt câu hỏi có độ phân biệt thấp

Trong [6], Baker chia độ phân biệt câu hỏi thành mức: tốt, tốt, bình thường, Cụ thể câu hỏi gọi có độ phân biệt tốt tham số a j 1,7, loại tốt 1, 35aj1, 7, loại bình thường 0,65aj1,35,

loại 0,35aj0,65 loại a j 0,35

Thực tế cho thấy, trình kiểm tra trắc nghiệm khách quan nhiều lực chọn, thí sinh ln dự đốn câu trả lời (theo cách chọn ngẫu nhiên phương án theo cách loại suy dựa kinh nghiệm thân) Trong lí thuyết trắc nghiệm cổ điển, người ta giảm việc dự đốn thí sinh trả lời câu hỏi cách đưa vào điểm may rủi Tuy nhiên, cách làm có nhược điểm xem câu hỏi có độ may rủi Điều trái với thực tiễn thí sinh thường dự đốn để trả lời câu hỏi gặp câu hỏi khó gặp câu hỏi dễ Vì vậy, Birnbaum đề xuất thêm tham số

0,1

j

c  vào mơ hình IRT tham số để đo lường mức độ dự đốn thí sinh trả

(5)

_

dự đốn thí sinh gọi mơ hình IRT tham số Hàm đặc trưng câu hỏi mơ hình có dạng sau:

     

 

exp

1 / , , ,

1 exp

j k j

jk k j j j j j

j k j

a b

P X a b c c c

a b

 



  

 

   

 

   

(4)

Hình Mơ hình Rasch mơ hình IRT tham số

Trong 1, đồ thị bên phải đường cong đặc trưng câu hỏi mơ hình IRT tham số đồ thị bên trái đường cong đặc trưng mơ hình Rasch, mơ hình khơng xét đến yếu tố dự đốn thí sinh trả lời câu hỏi So với đường cong đặc trưng mơ hình Rasch, đường cong đặc trưng mơ hình IRT tham số có độ dốc lớn lệch bên phải Điều có nghĩa độ khó độ phân biệt câu hỏi tăng lên xét thêm yếu tố dự đốn thí sinh Sự gia tăng độ khó, độ phân biệt câu hỏi mơ hình IRT tham số dẫn đến điểm số thí sinh đạt có câu trả lời tăng lên Nói cách khác, yếu tố dự đoán tác động đến việc đánh giá lực thí sinh

3 Mơ tả cụ thể phương pháp

Trên sở 800 thi cuối kì cuối kì mơn Tốn Cao cấp sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, ĐHQG TPHCM, chúng tơi trích xuất ngẫu nhiên 388 thi (chiếm tỉ lệ xấp xỉ 46,74%) lấy kết câu hỏi để phân tích Đề thi gồm 20 câu hỏi trắc nghiệm khách quan lựa chọn Chúng tơi mã hóa liệu thành dạng nhị phân theo quy tắc: Ứng với câu hỏi, thí sinh trả lời gán giá trị 1, ngược lại gán giá trị

(6)

TẠP CHÍ KHOA HỌC ĐHSP TPHCM Đoàn Hồng Chương tgk

_

thức (1) (4) So sánh kết này, đánh giá ảnh hưởng tham số đến việc đánh giá lực thí sinh Cuối cùng, phân tích phương sai áp dụng để so sánh mức độ phù hợp mơ hình Rasch mơ hình IRT tham số với liệu khảo sát Việc ước lượng tham số mô hình nói ước lượng lực thí sinh phân tích phương sai thực gói lệnh ltm phần mềm R [9]

4 Kết cụ thể

4.1 Phân tích độ khó, độ phân biệt mức dự đoán câu hỏi

Để ước lượng độ khó câu hỏi mơ hình Rasch, dùng lệnh rasch() Bảng sau mô tả kết ước lượng độ khó câu hỏi đề thi

Bảng Độ khó câu hỏi mơ hình Rasch

value std.err z.vals

Item1 – 0.7884 0.1256 – 6.2775

Item2 – 2.2140 0.1700 – 13.0020

Item3 – 2.2137 0.1700 – 13.0215

Item4 – 1.8848 0.1549 – 12.1664

Item5 – 0.3622 0.1211 – 2.9918

…

Các giá trị cột value độ khó câu hỏi, giá trị cột

std.err sai số độ lệch chuẩn cột z.vals, cột cuối cùng, độ khó câu hỏi quy đổi sang dạng chuẩn Theo mức phân loại [6], đề thi có câu thuộc loại khó, câu thuộc loại trung bình, câu thuộc loại dễ câu mức dễ

Đối với mơ hình IRT tham số, dùng câu lệnh tpm() coeff() để ước lượng độ khó, độ phân biệt mức độ dự đốn thí sinh câu hỏi Kết trình bày bảng sau:

Bảng Mơ hình IRT tham số

Gussng Diffclt Dscrmn

Item1 0.0000 – 1.0481 0.7403

Item2 0.0000 – 1.3040 3.4131

Item3 0.2352 – 1.3347 1.9398

Item4 0.4526 – 0.6019 3.9070

Item5 0.0001 – 0.6927 0.4882

…

Các giá trị cột Gussng mức dự đốn thí sinh câu hỏi, cột

(7)

_

2 câu hỏi mức dễ So với kết đánh giá mơ hình Rasch, kết mơ hình IRT tham số sát với liệu thực tế hơn; đồng thời kết tương đối phù hợp với ma trận câu hỏi chuẩn đầu môn học Tiếp tục với độ phân biệt câu hỏi, đề thi có câu hỏi mức phân biệt tốt, câu hỏi mức tốt, câu hỏi mức bình thường, câu hỏi mức câu hỏi mức Tổng hợp kết phân tích độ khó độ phân biệt câu hỏi, thấy câu hỏi 6, câu hỏi có chất lượng tốt Các câu hỏi mức tương đối tốt 1, 2, 3, 4, 11, 12, 13, 14, 16, 17 Câu câu hỏi 19, 8, 5, mức khá; nhiên, cần điều chỉnh mồi nhử để đạt độ phân biệt tốt Câu hỏi 10 18 cần thay cải tiến nhiều độ phân biệt Đối với câu 15, độ phân biệt có giá trị âm Điều có nghĩa thí sinh có lực cao lại có khả sai nhiều thí sinh có lực thấp Phân tích câu 15, chúng tơi cho ngun nhân xảy tượng cách sử dụng từ đa nghĩa cấu trúc phủ định phủ định Do đó, thí sinh hiểu sai ý câu hỏi khơng hiểu câu hỏi Vì vậy, thí sinh chọn đáp án theo cách ngẫu nhiên chọn sai đáp án Thơng thường, với câu hỏi dễ, thí sinh thường chọn câu trả lời mà không cần dự đoán Tuy nhiên, trường hợp câu hỏi 15 (là câu hỏi mức dễ), mức độ dự đoán cao so với câu hỏi mức độ Điều khẳng định suy đốn có lỗi thiết kế câu hỏi 15 hợp lí Tiếp theo, chúng tơi tiến hành phân tích mức độ dự đốn thí sinh câu hỏi để xác định ảnh hưởng chúng đến việc đánh giá lực thí sinh Theo Bảng 2, thấy rằng, câu hỏi dễ, mức dự đốn thí sinh thường nhỏ, chí gần 0; chẳng hạn câu hỏi 1, 2, 12, 14, 17 Các câu hỏi khó tỉ lệ đốn thí sinh tăng; Ví dụ: câu hỏi 9, câu hỏi khó, có mức dự đốn gần đến 50%

4.2 Phân tích ảnh hưởng dự đốn đến lực thí sinh

Từ tham số ước lượng phần trên, ước lượng

năng lực thí sinh thơng qua câu lệnh factor.scores(). Kết Bảng

và Bảng mơ tả tương ứng lực thí sinh đánh giá mơ hình Rasch mơ hình IRT tham số

Bảng Năng lực thí sinh ứng với mơ hình Rasch

Abilities Std.Err No

Person1 -1.922 0.489

Person2 -1.922 0.489

Person3 -1.061 0.446

Person4 -1.061 0.446

Person5 -1.061 0.446

Person6 -0.865 0.442

Định dạng
Số trang	7
Dung lượng	391,38 KB