Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan đến chất lượng của một đề thi trắc nghiệm khách quan.
TRƯỜNG ĐẠI HỌC SÀI GỊN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 75 (03/2021) No 75 (03/2021) Email: tcdhsg@sgu.edu.vn ; Website: http://sj.sgu.edu.vn/ ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN THƠNG QUA VIỆC ỨNG DỤNG MƠ HÌNH RASCH VÀ PHẦN MỀM CONQUEST Evaluating the quality of multiple-choice tests through applying Rasch model and ConQuest software ThS Nguyễn Văn Cảnh(1), ThS Nguyễn Quốc Tuấn(2) (1),(2) Trường Đại học Đồng Tháp TĨM TẮT Nghiên cứu trình bày cách đánh giá đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thơng qua việc sử dụng phần mềm ConQuest Kết phân tích viết số vấn đề liên quan đến chất lượng đề thi trắc nghiệm khách quan Cụ thể như: (1) độ khó, đề thi có câu hỏi dễ, thấp lực toàn thí sinh cần phải loại bỏ, đồng thời thiếu câu hỏi có khả đo lường lực thí sinh có lực cao; (2) độ phân biệt, đề thi có ba câu hỏi có độ phân biệt kém, khơng có ý nghĩa việc đo lường lực thí sinh; (3) chất lượng phương án nhiễu, đề thi có năm câu hỏi có phương án nhiễu chất lượng cần phải điều chỉnh thay Bằng phương pháp này, giảng viên biên soạn đề thi phát câu hỏi có chất lượng tốt đưa vào ngân hàng câu hỏi thi, đồng thời câu hỏi chất lượng điều chỉnh bị loại bỏ khỏi đề thi Từ khóa: ConQuest, đề thi, mơ hình Rasch ABTRACTS This study evaluates the quality of multiple-choice test, based on using the Rasch model and ConQuest software The analysis results in the article have pointed out some issues related to the quality of a test Specifically, (1) regarding difficulty, there is a very easy question in the test, which is lower than capacity of candidates that need to be removed and the test also lacks of difficult questions to measure the competency of highly capable candidates; (2) regarding discrimination, there are three questions with low discrimination, which are not significant in measuring the competency of candidates; (3) regarding quality of distracting options, there are five questions with low quality distracting options that need to be adjusted or replaced By this method, exam preparation teachers will discover good questions to put into the exam questions bank, and low quality questions will be adjusted or removed from the test Keywords: ConQuest, test, Rasch model qua việc Bộ Giáo dục Đào tạo sử dụng hình thức đánh giá với hầu hết môn thi kỳ thi trung học phổ thông quốc gia Bên cạnh đó, trường đại học sử dụng trắc nghiệm khách quan để Mở đầu Trong năm gần đây, trắc nghiệm khách quan dần trở thành hình thức kiểm tra đánh giá phổ biến giáo dục Việt Nam Điều thể Email: nvcanh@dthu.edu.vn 52 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN đánh giá kết học tập sinh viên, đặc biệt học phần đại cương có nhiều sinh viên đăng ký tham gia học tập Mặc dù có hạn chế định, hình thức có nhiều ưu điểm đo lường, đánh giá kết học tập Một ưu điểm bật hình thức đánh giá đảm bảo tính khách quan tiện lợi trình chấm thi Tuy nhiên để đảm bảo đề thi xác có khả đo lường lực thí sinh, cần thiết phải có cơng cụ đánh giá chất lượng đề thi, làm sở để điều chỉnh cải tiến chất lượng Ở Việt Nam, thời gian gần có số nghiên cứu việc đánh giá đề thi trắc nghiệm khách quan với hỗ trợ phần mềm tính tốn, tiêu biểu phải kể đến nghiên cứu tác Nguyễn Thị Hồng Minh Nguyễn Đức Thiện (2006) với việc sử dụng phương pháp PROX [1], Nguyễn Bảo Hoàng Thanh (2008) với việc sử dụng phần mềm Quest [2], Đoàn Hồng Chương cộng (2016) với việc sử dụng gói “ltm” phần mềm R [3], Bùi Ngọc Quang (2017) với việc sử dụng mơ hình Rasch phần mềm Quest [4], Lê Anh Vũ cộng (2017) với việc sử dụng phương pháp lấy mẫu GIBBS [5], Bùi Anh Kiệt Bùi Nguyên Phương (2018) với việc sử dụng phần mềm IATA [6] Trong nghiên cứu này, chúng tơi trình bày cách đánh giá đề thi trắc nghiệm khách dựa vào mơ hình Rasch thơng qua việc ứng dụng phần mềm ConQuest Bên cạnh việc hỗ trợ tính tốn tham số câu hỏi độ khó độ phân biệt, phần mềm ConQuest cịn hỗ trợ phân tích chất lượng phương án nhiễu câu hỏi thông qua hệ số tương quan, phép kiểm định t hình ảnh biểu diễn xác suất trả lời cho phương án theo lực thí sinh Đây ưu điểm phần mềm so với phần mềm khác có chức phân tích câu hỏi trắc nghiệm khách quan Nội dung nghiên cứu 2.1 Giới thiệu mơ hình Rasch Khoa học đo lường đánh giá giáo dục phát triển tương đối hoàn chỉnh từ thập niên 1970 với đời hoàn thiện lý thuyết khảo thí cổ điển (Classical Test Theory – CTT) Việc áp dụng CTT để đo lường đánh giá đề thi trắc nghiệm khách quan dễ thực khơng địi hỏi giả thiết chạy mơ hình, phương pháp tồn số hạn chế [7] Hạn chế lý thuyết không tách biệt đặc trưng thí sinh với đặc trưng đề trắc nghiệm, đặc trưng giải thích mối quan hệ với đặc trưng ngược lại Cụ thể, đặc trưng đề trắc nghiệm độ khó, độ phân biệt câu hỏi, độ tin cậy độ giá trị đề trắc nghiệm xác định dựa vào nhóm thí sinh làm Vì vậy, đặc trưng đề trắc nghiệm thay đổi đo lường nhóm thí sinh khác Bên cạnh đó, lực thí sinh thay đổi đề trắc nghiệm thay đổi, chẳng hạn thực đề trắc nghiệm dễ thí sinh đánh giá có lực cao, ngược lại thí sinh đánh giá có lực thấp thực đề trắc nghiệm khó Do đó, khó so sánh lực thí sinh họ phải thực đề trắc nghiệm khác khó so sánh độ khó câu hỏi đề thi chúng trả lời nhóm thí sinh khác [8] Trên sở đó, lý thuyết ứng đáp câu hỏi (Item Response Theory – IRT) đời nhằm khắc phục điểm hạn chế CTT Lý thuyết ứng đáp hỏi xây dựng dựa hai giả thiết: (1) ứng đáp thí sinh câu hỏi tiên đốn lực tiềm ẩn thí sinh; (2) quan hệ ứng đáp câu hỏi 53 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) thí sinh lực tiềm ẩn làm sở cho đáp ứng mơ tả hàm đặc trưng câu hỏi đồng biến [8] Theo đó, Rasch cho việc phân tích đo lường đánh giá đề thi trắc nghiệm khách quan có ý nghĩa dựa vào cá nhân thí sinh, đó, thuộc tính thí sinh câu hỏi tách riêng Quan điểm Rasch đánh dấu chuyển tiếp từ mơ hình CTT sang mơ hình IRT, mơ hình mơ tả xác suất trả lời câu hỏi đề thi trắc nghiệm khách quan ứng đáp thí sinh câu hỏi [9] Dựa quan điểm đó, Rasch giới thiệu mơ hình gọi mơ hình Rasch, mơ hình dựa giả thuyết sau: “Nếu người có lực cao người khác xác suất trả lời câu hỏi phải lớn xác suất tương ứng người kia; tương tự vậy, câu hỏi khó câu hỏi khác xác suất để người trả lời câu hỏi phải nhỏ xác suất để người trả lời câu hỏi kia” [10] Trên sở đó, Rasch xây dựng mơ hình tốn học cho ứng đáp câu hỏi thí sinh Cơng thức mơ hình có dạng sau: b ei j P( X ij 1/ i , b j ) b 1 e i j (1) Trong đó, θi lực thí sinh thứ i, bj độ khó câu hỏi thứ j, Xij trả lời thí sinh thứ i câu hỏi thứ j Nếu thí sinh trả lời câu hỏi thìXij =1 ngược lại thí sinh trả lời sai câu hỏi Xij =0 Đồ thị hàm số công thức theo biến θi gọi đường cong đặc trưng câu hỏi có dạng Hình Hình Đường cong đặc trưng câu hỏi mơ hình Rasch Đường cong đặc trưng câu hỏi có độ dốc hướng lên biểu thị cho xác suất trả lời câu hỏi thí sinh tỉ lệ thuận với lực thí sinh Xác suất tiến dần lực thí sinh tiến đến dương vơ Trong mơ hình Rasch, lực θi thí sinh với độ khó câu hỏi bj khả trả lời câu hỏi thí sinh 50% Mức lực gọi ngưỡng câu hỏi Như vậy, độ khó câu hỏi ngưỡng mà với lực đó, khả trả lời câu hỏi thí sinh 50% Điểm bật mơ hình Rasch mơ tả mối liên hệ lực thí sinh tham số đặc trưng câu hỏi thông qua ứng đáp thí sinh trả lời câu hỏi đề thi [11] 54 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN file sơ đồ phân bố lực thí sinh với độ khó câu hỏi, giá trị phù hợp MNSQ có định dạng *.shw; file thống kê lực thí sinh có định dạng *.mle 2.3.1 Sự phù hợp câu hỏi với mơ hình Rasch Mức độ phù hợp câu hỏi đề thi với mô hình Rasch xác định dựa vào giá trị bình phương trung bình MNSQ (Mean Square) Câu hỏi coi phù hợp với mơ hình giá trị MNSQ câu hỏi nằm khoảng tin cậy CI (Confidence Interval) tương ứng Những câu hỏi có giá trị MNSQ cột UNWEIGHTED FIT WEIGHTED FIT nằm ngồi khoảng CI tương ứng chứng tỏ có điều bất thường xảy câu hỏi đó, cần phải xem xét lại Những bất thường xảy câu hỏi có khả đáp án bị sai, hay nội dung câu hỏi thể khơng rõ ràng gây hiểu nhầm cho thí sinh Kết thống kê cho thấy đề thi có 13 câu hỏi có giá trị MNSQ cột UNWEIGHTED FIT WEIGHTED FIT không nằm khoảng tin cậy CI tưng ứng Những câu hỏi thể qua Bảng 2.2 Giới thiệu liệu phân tích Bài viết dựa kết phân tích liệu thi trắc nghiệm khách quan môn Tiếng Anh kỳ thi kết thúc học phần học kỳ 1, năm học 2018 - 2019 Trường Đại học Đồng Tháp Đề thi gồm 50 câu hỏi trắc nghiệm khách quan, câu hỏi có 04 phương án trả lời có 01 phương án 03 phương án nhiễu Số lượng thí sinh tham gia trả lời câu hỏi đề thi 874 người 2.3 Đánh giá chất lượng đề thi trắc nghiệm khách quan dựa vào mơ hình Rasch phần mềm ConQuest Phần mềm ConQuest viết Hội đồng nghiên cứu giáo dục Úc dùng để ứng dụng lý thuyết ứng đáp câu hỏi IRT vào phân tích liệu đề thi đánh giá lực thí sinh [12] Để sử dụng phần mềm ConQuest cần có hai file liệu đầu vào gồm file cấu hình có định dạng *.cqc file chứa kết trả lời thi sinh có định dạng *.dat Kết phân tích xuất từ phần mềm ConQuest phụ thuộc vào file cấu hình gồm file sau: file đánh giá câu hỏi có dạng *.itn; Bảng Thống kê giá trị MNSQ số câu hỏi xảy bất thường 55 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) Trong đề thi có 13 câu hỏi có khả xảy bất thường giá trị MNSQ hai cột UNWEIGHTED FIT WEIGHTED FIT nằm khoảng CI tương ứng thể Hình Đó câu hỏi như: câu 13, 14, 20, 27, 31, 33, 36, 39, 41, 45, 46, 47 câu 49 Đây câu hỏi cần xem xét lại nội dung phương án trả lời Còn lại 37 câu hỏi đề thi phù hợp với mơ hình Rasch 2.3.2 Độ khó câu hỏi Độ khó câu hỏi đặc trưng cho khả trả lời câu hỏi thí sinh Câu hỏi có độ khó cao xác suất trả lời câu hỏi thí sinh thấp Độ khó câu hỏi đề thi theo thang đo logarit ước lượng phần mềm ConQuest thể cột ESTIMATE bảng ước lượng giá trị MNSQ câu hỏi (Hình 2) Theo Baker (2001), độ khó câu hỏi chia thành 05 mức sau: mức dễ giá trị độ khó bé 2,0; mức dễ giá trị độ khó từ -2,0 đến -0,5; mức trung bình giá trị độ khó từ -0,5 đến 0,5; mức khó giá trị độ khó từ 0,5 đến 2,0 mức khó độ khó câu hỏi đạt từ 2,0 trở lên [11] Theo cách phân loại trên, kết thống kê phần mềm ConQuest cho thấy độ khó câu hỏi phân bố theo mức độ sau: Bảng Thống kê độ khó câu hỏi đề thi Giá trị độ khó Mức độ Số lượng câu hỏi Tỷ lệ % Dưới -2.0 Rất dễ 0.0 Từ -2.0 đến -0.5 Dễ 16 32.0 Từ -0.5 đến 0.5 Trung bình 20 40.0 Từ 0.5 đến 2.0 Khó 13 26.0 Từ 2.0 trở lên Rất khó 2.0 50 100.0 Tổng cộng Kết thống kê Bảng cho thấy phần lớn câu hỏi đề thi có độ khó tập trung vào mức độ: mức dễ (16 câu, tỷ lệ 32%), mức trung bình (20 câu, tỷ lệ 40%) mức khó (13 câu, 26%) Đề thi khơng có câu hỏi mức dễ có câu hỏi mức khó 2.3.3 Phân bố độ khó câu hỏi lực thí sinh Việc phân bố độ khó câu hỏi lực thí sinh cho thấy mức độ phù hợp đề thi thí sinh dự thi Một đề thi có chất lượng tốt câu hỏi đề thi có độ khó tương ứng với lực thí sinh, kể thí sinh có lực thấp thí sinh có lực cao Những câu hỏi có độ khó vượt khả thấp so với lực thí sinh cần phải điều chỉnh loại bỏ Kết phân bố độ khó câu hỏi đề thi so với lực thí sinh dự thi thể qua Hình 56 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Hình Biểu đồ phân bố độ khó câu hỏi lực thí sinh Kết tính tốn phần mềm ConQuest cho thấy lực thí sinh dự thi theo thang đo logarit đạt giá trị từ 1,575 đến 3,352, lực trung bình thí sinh 0,809 độ lệch chuẩn 1,036 Bên cạnh đó, độ khó câu hỏi đề thi có giá trị từ -1,682 đến 2,279, độ khó trung bình câu hỏi 0,00 độ lệch chuẩn 0,908 Như vậy, đề thi dễ có độ khó trung bình (bằng 0,00) thấp so với lực trung bình thí sinh (bằng 0,809) Ngồi ra, kết thống kê Hình cịn cho thấy câu hỏi khó đề thi 57 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) câu 22 với độ khó 2,279 dễ câu 21 với độ khó -1,682 Mặc dù câu 22 câu hỏi khó đề thi độ khó câu hỏi cịn thấp lực số thí sinh Điều cho thấy, đề thi thiếu câu hỏi khó để đánh giá thí sinh có lực cao Bên cạnh đó, câu 21 đề thi có độ khó thấp lực tất thí sinh dự thi Vì vậy, câu hỏi cần loại bỏ khỏi đề thi 2.3.4 Đánh giá chất lượng câu hỏi đề thi Bên cạnh độ khó câu hỏi, chất lượng đề thi cịn thể thơng qua độ phân biệt chất lượng phương án nhiễu câu hỏi Trong đó, độ phân biệt câu hỏi thể khả phân loại thí sinh có lực cao thí sinh có lực thấp việc trả lời câu hỏi Một câu hỏi có độ phân biệt tốt trả lời câu hỏi đó, thí sinh có lực cao có tỷ lệ trả lời cao thí sinh có lực thấp Ngược lại, câu hỏi có độ phân biệt dẫn đến thí sinh có lực cao lực thấp trả lời câu hỏi Hay nói cách khác, câu hỏi có độ phân biệt lớn có ý nghĩa tốt việc phân loại thí sinh Ebel (1965) cho câu hỏi thi nên có độ phân biệt đạt từ 0,3 trở lên [13] Bên cạnh đó, phương án nhiễu, thí sinh có lực cao phải có tỷ lệ chọn thấp thí sinh có lực thấp Điều xác định thông qua giá trị hệ số tương quan Pt Bis giá trị p phép kiểm định t kết thống kê phần mềm ConQuest Cụ thể, giá trị Pt Bis > cho biết số lượng thí sinh có lực cao lựa chọn nhiều số lượng thí sinh có lực thấp người lại, giá trị p < 0,05 cho biết chênh lệch số lượng thí sinh lựa chọn phương án có ý nghĩa thống kê với độ tin cậy 95% Như vậy, phương án nhiễu gọi có chất lượng hệ số tương quan Pt Bis < giá trị p < 0,05 Kết tính tốn phần mềm ConQuest cho thấy số câu hỏi đề thi có phương án nhiễu có chất lượng tốt Một số câu hỏi với số liệu thống kê thể qua Bảng Bảng Thông tin phân tích câu hỏi Item Cases for this item: 873 Discrimination: 0,34 Item Threshold(s): -0,70 Weighted MNSQ: 1,02 Item Delta(s): -0,70 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 0,00 45 5,15 -0,13 -3,99 (0,000) 0,24 0,76 B 0,00 76 8,71 -0,23 -7,09 (0,000) 0,08 0,77 C 0,00 69 7,90 -0,17 -5,19 (0,000) 0,21 0,63 D 1,00 683 78,24 0,34 10,84 (0,000) 0,99 1,03 58 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Kết thống kê cho thấy phương án câu hỏi phương án D (giá trị Score =1) thu hút 683 thí sinh trả lời Độ khó câu hỏi theo thang đo logarit (Item Threshold) -0,70 (mức dễ), độ phân biệt câu hỏi (Discrimination) 0,34 lớn 0.3 Các phương án nhiễu A, B, C thu hút 45, 67, 69 thí sinh trả lời có giá trị Pt Bis < phép kiểm định t có giá trị p = 0,000 < 0,05 Điều cho thấy phương án nhiễu câu hỏi có ý nghĩa phân biệt thí sinh có lực cao thí sinh có lực thấp Sự phân biệt thể rõ qua hình biểu diễn đường xác suất trả lời phương án câu hỏi Hình Hình Đường cong đặc trưng Câu hỏi Đường biểu diễn xác suất trả lời phương án nhiễu A, B, C cho thấy lực thí sinh cao xác suất trả lời phương thấp tiến dần lực thí sinh mức cao Điều cho thấy câu hỏi có phương án nhiễu có chất lượng tốt Bên cạnh câu hỏi có phương án nhiễu có chất lượng tốt, kết thống kê cho thấy đề thi có câu hỏi có phương án nhiễu chất lượng Một số câu hỏi 14 với số liệu thống kê thể qua Bảng Bảng Thông tin phân tích câu hỏi 14 Item 14 Cases for this item: 871 Item Threshold(s): 0,27 Item Delta(s): 0,26 Label Score Count A 1,00 531 B 0,00 75 C 0,00 185 D 0,00 80 Discrimination: 0,48 Weighted MNSQ: 0,94 % of tot 60,96 8,61 21,24 9,18 Pt Bis 0,48 -0,06 -0,42 -0,16 59 t (p) 16,32 (0,000) -1,86 (0,063) 13,61 (0,000) -4,88 (0,000) WLEAvg:1 1,20 0,57 0,02 0,29 WLE SD:1 1,01 0,83 0,67 0,68 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) Phương án câu hỏi phương án A (giá trị Score =1) thu hút 531 thí sinh trả lời Độ khó câu hỏi theo thang đo logarit (Item Threshold) 0,27 (mức trung bình), độ phân biệt câu hỏi (Discrimination) 0,48 lớn 0,3 Các phương án nhiễu B, C, D thu hút 75, 185, 80 thí sinh trả lời Trong đó, phương án B có giá trị Pt Bis = -0,06 < phép kiểm định t có giá trị p = 0,063 > 0,05 Điều cho thấy phương án B phương án nhiễu chất lượng khơng có ý nghĩa phân biệt thí sinh có lực cao thí sinh lực thấp Sự phân biệt phương án nhiễu thể rõ qua hình biểu diễn đường đặc trưng câu hỏi Hình Hình Đường cong đặc trưng Câu hỏi 14 Đường biểu diễn xác suất trả lời phương án câu hỏi cho thấy rõ phân biệt hai phương án nhiễu C D thí sinh có lực cao thí sinh có lực thấp Cụ thể, thí sinh có lực cao xác suất lựa chọn hai phương án thấp Đây điều hợp lý phương án nhiễu Tuy nhiên phương án B chưa thể rõ phân biệt Một số thí sinh có lực cao xác suất lựa chọn phương án cịn cao thí sinh có lực thấp Đây điều chưa hợp lý phương án nhiễu câu hỏi đề thi Do đó, phương án nhiễu chất lượng Ngoài ra, kết thống kê phần mềm ConQuest cịn cho thấy đề thi có số câu hỏi có độ phân biệt thấp, khơng có ý nghĩa việc phân biệt lực thí sinh dự thi Một số câu hỏi 39 với số liệu thống kê thể qua Bảng 60 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Bảng Thông tin đánh giá câu hỏi 39 Item 39 Cases for this item: 874 Discrimination: 0,19 Item Threshold(s): -0,05 Weighted MNSQ: 1,18 Item Delta(s): -0,05 Label Score Count % of tot Pt Bis t (p) A 1,00 586 B 0,00 C D 67,05 0.19 5,75 (0,000) 0,95 1,06 56 6,41 -0.18 -5,35 (0,000) 0,16 0,88 0,00 191 21,85 -0.04 -1,08 (0,282) 0,70 0,90 0,00 41 4,69 -0.15 -4,39 (0,000) 0,15 0,81 Đây câu hỏi có độ phân biệt (Discrimination = 0,19 < 0,30) Ngoài phép kiểm định t có giá trị p = 0,282 > 0,05 phương án C cho thấy phương án khơng WLEAvg:1 WLE SD:1 có ý nghĩa phân biệt thí sinh có lực cao thí sinh có lực thấp Đường biểu diễn cho thấy phân biệt câu hỏi thể qua Hình Hình Đường cong đặc trưng Câu hỏi 39 Đường biểu diễn xác xuất trả lời phương câu hỏi cho thấy rõ phương án nhiễu C câu hỏi ý nghĩa phân biệt thí sinh có lực cao thí sinh có lực thấp Đây câu hỏi chất lượng cần phải 61 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) loại bỏ khỏi đề thi Bằng phương pháp đánh giá tương tự, phát đề thi cịn có thêm hai câu hỏi có độ phân biệt cần phải loại bỏ khỏi đề thi, là: câu 20 với giá trị độ phân biệt 0,29 câu 31 với giá trị độ phân biệt 0,26 Ngoài ra, đề thi có thêm số câu hỏi có phương án nhiễu chất lượng thể qua Bảng Bảng Thống kê câu hỏi có phương án nhiễu chất lượng Câu hỏi 20 22 26 31 Tham số Phương án A B C D Số lượt chọn 500 198 65 109 Pt Bis 0,29 -0,29 -0,11 0,01 t 9,08 -8,79 -3,16 0,19 p - value 0,000 0,000 0,002 0,848 Số lượt chọn 191 194 121 368 Pt Bis -0,09 0,32 -0,05 -0,16 t -2,53 10,1 -1,54 -4,92 p - value 0,011 0,000 0,124 0,000 Số lượt chọn 15 143 197 516 Pt Bis -0,16 -0,36 -0,06 0,36 t -4,9 11,32 -1,66 11,43 p - value 0,000 0,000 0,098 0,000 Số lượt chọn 28 107 523 213 Pt Bis -0,15 -0,23 0,26 -0,05 t -4,38 -7,07 7,82 -1,59 p - value 0,000 0,000 0,000 0,113 Kết thống kê Bảng cho thấy, phương án nhiễu chất lượng câu hỏi phương án D câu hỏi 20 câu hỏi 31; phương án C câu hỏi 22 câu hỏi 39 Như vậy, số câu hỏi có bất thường phát dựa vào giá trị phù hợp MNSQ Hình 2, bốn câu hỏi có phương án nhiễu chất lượng câu 14, 20, 31 Đáp án A B D C câu 39 Như vậy, câu hỏi lại phát có dấu hiệu bất thường cách diễn đạt nội dung câu hỏi mang đến hiểu làm cho thí sinh Kết luận Kết phân tích, đánh giá chất lượng đề thi trắc nghiệm khách quan thơng qua việc ứng dụng mơ hình Rasch phần mềm ConQuest đề thi có số 62 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN câu hỏi có dấu hiệu bất thường giá trị phù hợp MNSQ không nằm khoảng tin cậy tương ứng Ngồi ra, kết phân tích giúp loại bỏ câu hỏi có độ khó thấp khơng tương ứng với lực thí sinh, đồng thời phát đề thi thiếu câu hỏi có độ khó cao nhằm đánh giá thí sinh có lực cao Bên cạnh đó, câu hỏi có chất lượng phương án nhiễu chất lượng phát hiện, giúp người biên soạn đề thi kịp thời điều chỉnh cải tiến để nâng cao chất lượng câu hỏi nâng cao chất lượng đề thi góp phần đánh giá xác, khách quan kết học tập lực người học TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Hồng Minh, Nguyễn Đức Thiện, “Đo lường đánh giá thi trắc nghiệm khách quan: Độ khó câu hỏi lực thí sinh”, Tạp chí Khoa học Đại học Quốc gia Hà Nội, 22(4), 34-47, 2006 [2] Nguyễn Bảo Hoàng Thanh, “Sử dụng phần mềm Quest để phân tích câu hỏi trắc nghiệm khách quan”, Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, Số 2, tr.119-126, 2008 [3] Đoàn Hồng Chương, Lê Anh Vũ, Phạm Hồng Un, “Áp dụng mơ hình IRT tham số vào đo lường phân tích độ khó, độ phân biệt mức độ dự đoán câu hỏi đề thi trắc nghiệm khách quan” Tạp chí Khoa học Trường Đại học Sư phạm TP Hồ Chí Minh, 7(85), 174-184, 2016 [4] Bùi Ngọc Quang, “Đánh giá chất lượng ngân hàng đề thi trắc nghiệm khách quan mơn Nhân học đại cương mơ hình Rasch phần mềm Quest”, Tạp chí Phát triển Khoa học Công nghệ, Tập 20, Số X3, tr.42-54, 2017 [5] Lê Anh Vũ, Phạm Hoàng Uyên, Đoàn Hồng Chương, Lê Thanh Hoa, “Áp dụng lấy mẫu GIBBS vào đo lường đánh giá độ khó câu hỏi mơ hình Rasch”, Tạp chí Khoa học Trường Đại học Sư phạm Thành phố Hồ Chí Minh, 14(4), 119-130, 2017 [6] Bùi Anh Kiệt, Bùi Nguyên Phương, “Sử dụng phần mềm IATA để phân tích, đánh giá nâng cao chất lượng câu hỏi trắc nghiệm khách quan chương trình hàm số lũy thừa, hàm số mũ, hàm số logarit”, Tạp chí Khoa học Trường Đại học Cần Thơ, 54(9C), 81-93, 2018 [7] Romel A Morales, “Evaluation of mathematics achievement test: A comparison between CTT and IRT”, The International Journal of Educational and Psychological Assessment, 1(1), 19-26, 2009 [8] L Q Thiệp, Đo lường giáo dục, lý thuyết ứng dụng, NXB Đại học Quốc gia Hà Nội, 2010 [9] G Camilli, Lorrie A Shepard, Methods of identifying biased test items, Thousand Oaks, CA: Sage, 1994 63 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) [10] G Rasch, Studies in mathematical psychology: I Probabilistic models for some intelligence and attainment tests, Danish Institute for Educational Research, 1960 [11] Frank B Baker, The basics of item response theory, College Park, MD, ERIC Clearinghouse on Assessment and Evaluation, 2001 [12] Margaret L Wu, Raymond J Adams, Mark R Wilson, and Samuel A Haldane, ACER ConQuest version 2.0: Generalised item response modelling software, ACER Press (2007) [13] Robert L Ebel, Measuring educational achievement, Englewood Cliffs: Prentice-Hall, 1965 Ngày nhận bài: 21/3/2020 Biên tập xong: 15/3/2021 64 Duyệt đăng: 20/3/2021 ... phương án nhiễu Số lượng thí sinh tham gia trả lời câu hỏi đề thi 874 người 2.3 Đánh giá chất lượng đề thi trắc nghiệm khách quan dựa vào mơ hình Rasch phần mềm ConQuest Phần mềm ConQuest viết Hội... làm cho thí sinh Kết luận Kết phân tích, đánh giá chất lượng đề thi trắc nghiệm khách quan thông qua việc ứng dụng mơ hình Rasch phần mềm ConQuest đề thi có số 62 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN... sử dụng phần mềm IATA [6] Trong nghiên cứu này, chúng tơi trình bày cách đánh giá đề thi trắc nghiệm khách dựa vào mơ hình Rasch thơng qua việc ứng dụng phần mềm ConQuest Bên cạnh việc hỗ trợ