Bài viết trình bày đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số của câu hỏi, đề thi trắc nghiệm.
Tạp chí y - dợc học quân số 4-2021 PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1 TÓM TẮT Mục đích: Đánh giá chất lượng câu hỏi đề thi trắc nghiệm lý thuyết đáp ứng câu hỏi (IRT) Đối tượng phương pháp: Câu hỏi thi trắc nghiệm đề thi trắc nghiệm học phần Bệnh học Nhi khoa xử lý kết phần mềm Conquest để đưa thông số câu hỏi, đề thi trắc nghiệm Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905 Câu hỏi trắc nghiệm phân thành nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi cần loại bỏ) Độ khó câu hỏi chia thành nhóm: Câu hỏi có độ khó trung bình, câu hỏi dễ, câu hỏi dễ so với lực thí sinh Kết luận: Câu hỏi thi trắc nghiệm khách quan có thơng số phù hợp, đề thi phù hợp với mơ hình Rash, độ tin cậy cao, đánh giá nội dung, dễ so với lực thí sinh * Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest Analysis and Evaluation of Questions and Objective Test of Pediatric Disease Software by Conquest Software at Vietnam Military Medical University Summary Objectives: To evaluate the quality of questions and on multiple-choice questions using question-response theory (IRT) Subjects and methods: Multiple-choice questions and multiple-choice questions in the Pediatric Pathology section were processed using Conquest software to provide the parameters of the questions and multiple-choice questions Results: Separation reliability = 0.905 Multiple choice questions were divided into groups: Good questions, bad questions that need editing, and questions that need to be eliminated The difficulty of the question was divided into groups: Medium difficulty questions, easy questions, and too easy questions compared to the competitor's ability Conclusion: Objective multiplechoice questions with appropriate parameters, exam questions suitable for the Rash model, high reliability, correct content assessment, easy compared to the candidate's capacity * Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software Phòng Khoa học Quân sự, Học viện Quân y Người phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn) Ngày nhận bài: 20/2/2021 Ngày báo đăng: 28/4/2021 134 Tạp chí y - dợc học quân số 4-2021 ĐẶT VẤN ĐỀ Kiểm tra đánh giá khâu quan trọng trình đổi đào tạo Kiểm tra đánh giá khách quan, nghiêm túc, công bằng, cách tạo động lực cho người học, khích lệ người học đường chiếm lĩnh tri thức Mặt khác, thông qua hoạt động kiểm tra đánh giá giúp giảng viên nhà quản lý đổi phương pháp giảng dạy, phương pháp quản lý để hỗ trợ người học đạt mục tiêu học tập Những năm gần đây, Học viện Quân y, bên cạnh việc đổi chương trình phương pháp giảng dạy, hoạt động đổi phương pháp kiểm tra đánh giá quan tâm, trọng việc thay đổi quan điểm tiếp cận lý luận kiểm tra đánh giá, thay đổi phương pháp kiểm tra đánh giá phù hợp với yêu cầu hoạt động giảng dạy Hình thức thi trắc nghiệm khách quan phương pháp đánh giá có nhiều ưu điểm sử dụng nhiều kỳ thi quan trọng như: Thi tuyển sinh Đại học, thi tốt nghiệp Trung học phổ thông Quốc gia… ngày áp dụng với nhiều môn thi Học viện Quân y năm gần Tuy nhiên, câu hỏi trắc nghiệm khách quan đề thi trắc nghiệm sử dụng Học viện Quân y chưa đánh giá cách khoa học khách quan Do đó, việc nâng cao chất lượng câu hỏi trắc nghiệm, đánh giá mức độ phù hợp đề thi với lực sinh viên quan trọng để hoạt động kiểm tra đánh giá thực vai trị chức Chúng tơi nghiên cứu đề tài nhằm: Đánh giá chất lượng câu hỏi trắc nghiệm khách quan đề thi học phần Bệnh học Nhi khoa ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU Đối tượng nghiên cứu Dữ liệu thu thập từ kết thi 86 thí sinh với đề thi 50 câu hỏi trắc nghiệm khách quan môn Bệnh học Nhi khoa Học viện Quân y năm 2021 Ngân hàng câu hỏi thi trắc nghiệm sau biên soạn đảm bảo đáp ứng nội dung yêu cầu chương trình đào tạo Phương pháp nghiên cứu Sử dụng phần mềm Conquest xử lý kết thi trích xuất từ phần mềm thi trắc nghiệm sau thi xong Chương trình Conquest cho thông số mức độ phù hợp câu hỏi với mơ hình Rash, lực thí sinh với độ khó câu hỏi, độ tin cậy đề thi đặc trưng câu hỏi độ khó, độ phân biệt, hệ số tương quan câu hỏi với toàn bài, độ tin cậy sai số * Các thông số đánh giá câu hỏi đề thi trắc nghiệm: Sau câu hỏi trắc nghiệm khách quan nghiệm thu nội dung, cần định lượng tham số câu hỏi kết trả lời thí sinh với câu hỏi Theo lý thuyết khảo thí cổ điển, câu hỏi cần đạt giá trị độ khó, độ phân biệt Các giá trị tính tốn 135 T¹p chÝ y - dợc học quân số 4-2021 cy ca đề trắc nghiệm dựa kết thống kê mà không xem xét nội dung thuộc vào lĩnh vực đánh giá nhiều phương pháp như: - Độ khó câu hỏi (p): Là tỷ lệ phần Trắc nghiệm - trắc nghiệm lại; đề thi trắc trăm thí sinh trả lời câu hỏi/tổng số nghiệm tương đương; phân đơi đề thi trắc thí sinh tham gia trả lời Giá trị p nằm nghiệm; phương pháp Kuder-Richardson; khoảng 0,1, p lớn câu hỏi hệ số Cronbach alpha: biểu thức dùng dễ ngược lại Giá trị ước lượng độ tin cậy đề kiểm tra chấp nhận nằm khoảng tổng thể (có thể gồm nhiều đề trắc 0,25 - 0,75; câu hỏi có p < 0,25 nghiệm nhị phân đa phân, khó, câu hỏi có p > 0,75 dễ với thí sử dụng nhiều tâm lý giáo dục) sinh (Lord [2]) Về lý thuyết, giá trị độ tin cậy nằm - Độ phân biệt câu hỏi trắc nghiệm đề thi trắc nghiệm: Là khả phân biệt lực thí sinh: giỏi, khá, trung bình, kém… Độ phân biệt câu hỏi liên quan đến độ khó câu hỏi Nếu câu hỏi khó hay dễ phản ứng thí sinh có lực khác giống nhau: Hoặc sai hết hết, khơng phân biệt lực thí sinh Vì vậy, câu hỏi có khả phân biệt tốt cần có độ khó mức trung bình đề thi trắc nghiệm tốt cần có nhiều câu hỏi có mức độ trung bình Khi đó, điểm số thí sinh có phổ trải rộng Để xác định độ phân biệt câu hỏi, tính hệ số tương quan điểm câu hỏi với điểm thi trắc nghiệm (hệ số R-pearson) Thông thường, giá trị Rp > 0,2 (Lord [2]) - Độ tin cậy: Là giá trị dùng để đánh giá chất lượng đề thi trắc nghiệm, đại lượng biểu thị mức độ xác phép đo nhờ đề trắc nghiệm Độ tin 136 khoảng - Độ tin cậy cao nghĩa câu hỏi có độ gắn kết với Thí sinh trả lời câu hỏi có xu hướng trả lời câu hỏi nhóm Đề thi có độ tin cậy > 0,8 tốt sử dụng cho đề thi lớp; độ tin cậy từ 0,7 - 0,8 tốt, nhiên cần chỉnh sửa số câu hỏi; độ tin cậy < 0,7 tương đối thấp (Brenan [4]) - Độ giá trị đề thi trắc nghiệm: Là u cầu quan trọng phản ánh giá trị nội dung cần đo, biểu thị mức độ đạt mục tiêu đề cho phép đo nhờ đề trắc nghiệm Để độ giá trị đề trắc nghiệm cao, cần xác định tỉ mỉ mục tiêu cần đo bám sát mục tiêu trình xây dựng ngân hàng câu hỏi Độ giá trị độ tin cậy đề thi trắc nghiệm có liên quan với Đề thi có độ tin cậy thấp khơng thể có giá trị Nhưng ngược lại, độ tin cậy cao chưa có giá trị khơng phản ánh đối tượng cần đo (Samuel Messick [7]) Tạp chí y - dợc học quân sù sè 4-2021 * Lý thuyết khảo thí đại phần mềm Conquest: số: sử dụng tham số độ khó, độ phân biệt độ phán đốn thí sinh Thuyết đáp ứng câu hỏi (Item Response Theory), cịn gọi lý thuyết khảo thí Phần mềm Conquest xây dựng dựa lý thuyết IRT, sử dụng để đánh giá phân tích câu hỏi, cho phép khảo sát thuộc tính đánh giá lực đánh giá truyền thống Phần mềm cung cấp cho người sử dụng thông tin: Thông số việc phân tích câu hỏi theo mơ hình IRT; thơng số độ khó, độ phân biệt theo lý thuyết cổ điển; tham số liên quan đến độ khó, độ phân biệt, độ đốn theo lý thuyết IRT, độ tin cậy đề thi, số lượng thí sinh lựa chọn phương án trả lời; phân bố độ khó câu hỏi với lực thí sinh; đường cong đặc trưng câu hỏi; trường hợp bất thường người trả lời đại, đời vào kỷ XX phát triển mạnh mẽ Lý thuyết khảo thí đại khắc phục số nhược điểm lý thuyết khảo thí cổ điển khơng tách biệt đặc trưng thí sinh độc lập (năng lực) với đặc trưng đề trắc nghiệm; thuyết khảo thí cổ điển coi sai số tiêu chuẩn phép đo lực thí sinh nhau, quan tâm mức độ đáp ứng thí sinh với đề thi mà không trọng mức độ đáp ứng thí sinh với câu hỏi riêng biệt (Lâm Quang Thiệp [1]) Lý thuyết ứng đáp câu hỏi mô hình hóa mối quan hệ biến khơng thể quan sát lực thí sinh xác suất mà thí sinh trả lời câu hỏi (Harris [5]) Hiểu đơn giản hơn, theo Wu CS [3], lý thuyết ứng đáp câu hỏi sử dụng mơ hình tốn học để dự đốn xác suất trả lời câu hỏi, dựa số lực người trả lời độ khó câu hỏi Câu hỏi trắc nghiệm đặc trưng thơng số là: Độ khó, độ phân biệt độ phán đốn (đốn mị thí sinh) Tương ứng thơng số đó, mơ hình đáp ứng đưa bao gồm: Mơ hình đáp ứng thơng số (mơ hình Rash): sử dụng tham số độ khó câu hỏi; mơ hình tham số: sử dụng biến độ khó độ phân biệt câu hỏi; mơ hình tham KẾT QUẢ NGHIÊN CỨU Đề thi gồm 50 câu hỏi trắc nghiệm khách quan học phần Bệnh học Nhi khoa với thời gian 60 phút 85 sinh viên y khoa năm thứ Đề thi nhằm đánh giá lực nhận thức mức độ: Nhớ (25 câu), thông hiểu (15 câu) vận dụng (10 câu) Mức độ phù hợp với mơ hình IRT Tiến hành phân tích kết file SHW cho thấy, câu hỏi kiểm tra có giá trị Unweighted fit nằm giới hạn 0,7 - 1,30 số Weighted MNSQ câu hỏi xấp xỉ cho thấy liệu dùng để phân tích phù hợp với mơ hình IRT 137 T¹p chí y - dợc học quân số 4-2021 Bng 1: Mức độ phù hợp câu hỏi với mô hình IRT Cả 50 câu hỏi đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá nội dung cần đánh giá Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905 Các đặc tính câu hỏi Câu hỏi trắc nghiệm khách quan tốt câu hỏi đảm bảo chuẩn nội dung, tham số câu hỏi độ khó, độ phân biệt, phương án nhiễu hợp lý Câu hỏi khơng phù hợp với mơ hình, q khó, q dễ, phương án nhiễu khơng hiệu cần loại bỏ điều chỉnh cho phù hợp - Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án nhiễu có giá trị Ví dụ phân tích câu hỏi s 9: 138 Tạp chí y - dợc học quân sù sè 4-2021 Hình 2: Kết phân tích tham số đường cong đặc trưng câu hỏi Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển 0,65, nằm giới hạn (0,25 -0,75), có 65,88% thí sinh trả lời kết Độ phân biệt câu hỏi mức (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả phân biệt nhóm học sinh có lực cao nhóm học sinh có lực thấp Chỉ số Pt Bis phương án nhiễu (A, B, C) có giá trị âm, phương án (D) có giá trị dương cao Chứng tỏ phương án nhiễu có giá trị việc đánh giá lực thí sinh So sánh cấu trúc đề thi ý kiến chuyên gia nội dung câu hỏi cho thấy, câu hỏi số dùng để đánh giá lực nhận thức mức độ vận dụng, độ khó 0,65 phù hợp, độ phân biệt 0,48 mức chấp nhận Phân tích đường cong đặc trưng câu hỏi thấy phù hợp - Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có độ phân biệt thấp, phương án nhiễu khơng hiệu có độ khó khơng phù hợp Ví dụ phân tích câu hỏi số 27: 139 Tạp chí y - dợc học quân số 4-2021 Hình 3: Kết phân tích tham số đường cong đặc trưng câu hỏi 27 Kết phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1 Tham khảo ý kiến chuyên gia cho thấy câu hỏi sử dụng để đánh giá lực mức thông hiểu Do câu hỏi dễ nên khả phân biệt lực thí sinh Xem xét giá trị Pt Bis thấy đáp án A, D có số dương, có 1/85 thí sinh chọn đáp án A Chứng tỏ phương án nhiễu khơng hiệu - Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ phân biệt phương án nhiễu khơng hợp lý Ví dụ phân tích câu hỏi s 20: 140 Tạp chí y - dợc học quân sù sè 4-2021 Hình 4: Kết phân tích tham số đường cong đặc trưng câu hỏi 20 Kết phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11 Có thể thấy, câu hỏi khơng có khả phân biệt lực nhóm thí sinh Điều thấy rõ số Pt Bis đáp án A có 85,88% sinh viên trả lời có giá trị -0,01, nhỏ giá trị đáp án sai B, C Phân bố độ khó câu hỏi với lực thí sinh Hình 5: Thang phân bố độ khó câu hỏi với lực thí sinh 141 T¹p chí y - dợc học quân số 4-2021 khó câu hỏi với mức lực thí sinh từ -2 đến +2 theo đơn vị logic Câu hỏi trắc nghiệm phân thành nhóm chính: Nhóm câu hỏi có độ khó trung bình, nhóm câu hỏi dễ nhóm câu hỏi dễ - Nhóm câu hỏi có độ khó trung bình: 36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38 - Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5, 48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23, 37, 1, 18, 2, 10, 20, 22, 35 - Nhóm có câu hỏi dễ: 43, 19, 34, 28, 41, 50, 12, 15, 25, 39 Nhiều thí sinh (16/85 thí sinh) có lực cao câu hỏi có độ khó cao Ngược lại, nhiều câu hỏi mức độ dễ độ khó câu hỏi nằm lực tất thí sinh tham gia kiểm tra (các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39) KẾT LUẬN Từ kết phân tích đặc tính câu hỏi lý thuyết đáp ứng IRT (mức độ phù hợp mơ hình, độ tin cậy, độ giá trị, độ phân biệt phân bố độ khó câu hỏi với lực thí sinh, đường cong đặc trưng câu hỏi) kết hợp ý kiến chuyên gia, rút số kết luận: giúp giảng viên nhà quản lý lựa chọn câu hỏi tốt, đề xuất câu hỏi cần chỉnh sửa loại bỏ câu hỏi khơng chất lượng, từ nâng cao chất lượng ngân hàng câu hỏi, góp phần đánh giá lực người học, nâng cao chất lượng đào tạo TÀI LIỆU THAM KHẢO Lâm Quang Thiệp Đo lường đánh giá hoạt động học tập nhà trường NXB Đại học Sư phạm Hà Nội 2012 Lord FM Tài liệu dịch: Psychometrika Mối quan hệ độ tin cậy câu hỏi đa lựa chọn phân bổ độ khó câu hỏi 1952; 18:181-194 Wu M, Adams R Applying the Rasch Model to Psycho-social Measurement: A practical approach Tài liệu tập huấn Thiết kế công cụ đánh giá Ngân hàng Thế giới phối hợp với ACER tổ chức năm 2007-2008 Việt Nam 2007 Brennan LR Educational Measurement (4th ed.) American Council on Education Washington DC 2006 Harris D Comparison of 1-, 2-, and 3-paramater ITR models A module in NCME series of Instructional Topics in Educational Measurement NCME Journal of Educational Measurement: Issues and Practices 1989; 35-41 Margaret L, Wu Raymond J, Adams Mark R, Wilson Samuel A Haldane ACER Conquest version 2.0: Generalised item response modelling software ACER Press 2007 - Đề thi phù hợp với mơ hình Rash, có độ giá trị độ tin cậy cao Tuy nhiên, đề thi dễ so với lực thí sinh, thể qua việc nhiều thí sinh (16/85) có lực vượt qua mức độ khó câu hỏi có 14/50 câu hỏi có mức độ khó lực tất thí sinh Messick S Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning American Psychologist 1995; 50:741-749 - Phần mềm Conquest hỗ trợ việc phân tích đánh giá chất lượng câu hỏi trắc nghiệm đề thi trắc nghiệm hiệu theo lý thuyết khảo thí đại Qua Rasch G Probablistic models for some intelligence and attainment tests Danish Institute for Educational Research Copenhagen, Denmark 1960 142 ... tuyển sinh Đại học, thi tốt nghiệp Trung học phổ thông Quốc gia… ng? ?y áp dụng với nhi? ??u môn thi Học viện Quân y năm gần Tuy nhi? ?n, câu hỏi trắc nghiệm khách quan đề thi trắc nghiệm sử dụng Học. .. c? ?y đề thi đặc trưng câu hỏi độ khó, độ phân biệt, hệ số tương quan câu hỏi với toàn bài, độ tin c? ?y sai số * Các thông số đánh giá câu hỏi đề thi trắc nghiệm: Sau câu hỏi trắc nghiệm khách quan. .. từ kết thi 86 thí sinh với đề thi 50 câu hỏi trắc nghiệm khách quan môn Bệnh học Nhi khoa Học viện Quân y năm 2021 Ngân hàng câu hỏi thi trắc nghiệm sau biên soạn đảm bảo đáp ứng nội dung y? ?u cầu