PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN BẰNG PHẦN MỀM QUEST CONQUEST

9 1.3K 12
PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN  BẰNG PHẦN MỀM QUEST CONQUEST

Đang tải... (xem toàn văn)

Thông tin tài liệu

PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN BẰNG PHẦN MỀM QUEST CONQUEST I. ĐẶT VẤN ĐỀ Trắc nghiệm là một phương pháp của khoa học về đo lường trong giáo dục. Những năm gần đây, trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệp phổ thông và tuyển sinh đại học nên sự quan tâm của các trường học Đại học, các cơ sở quản lý giáo dục và đội ngũ giáo viên về phương pháp giảng dạy này ngày một nhiều. Một ưu điểm nổi bật của phương pháp trắc nghiệm là việc sử dụng các phần mềm để xử lý số liệu của câu hỏi trắc nghiệm (CHTN), đề trắc nghiệm (ĐTN) đã mang lại hiệu quả cao. Do đó, việc vận dụng phần mềm Quest/Conquest để phân tích, đánh giá câu hỏi trắc nghiệm, đề trắc nghiệm là rất cần thiết. II. NỘI DUNG NGHIÊN CỨU 1. Vận dụng lý thuyết khảo thí cổ điển trong phân tích đề thi Một trong những ứng dụng của lý thuyết đánh giá cổ điển là phân tích câu hỏi thi - kiểm tra. Phân tích câu hỏi - thi kiểm tra là một quá trình xem xét chúng một cách kỹ lưỡng và có phê phán. Phân tích câu hỏi thi - kiểm tra nhằm làm tăng chất lượng của chúng, loại bỏ những câu hỏi quá tồi, sửa chữa những câu hỏi có thể sửa được và giữ lại những câu hỏi đáp ứng yêu cầu. Phân tích câu hỏi thi - kiểm tra có thể thực hiện bằng một trong hai phương pháp: Phương pháp chuyên gia (Phương pháp bình phẩm, phê phán) bằng cách đề nghị một số chuyên gia cho ý kiến nhận xét về những câu hỏi thi - kiểm tra cụ thể theo một số tiêu chí đề ra. Những người được hỏi có thể là các chuyên gia môn học, chuyên gia soạn thảo văn bản, thậm chí là một số thí sinh. Cách tiếp cận này có hai nguyên tắc: + Người được hỏi phải là người có khả năng bình phẩm, phê phán các câu hỏi thi - kiểm tra; + các câu hỏi thi - kiểm tra được viết theo một nguyên tắc đã được xác định và có các tiêu chí để bình phẩm, phê phán. Phương pháp định lượng (Phân tích số liệu): Phân tích thống kê kết quả làm bài của thí sinh. Sau khi có kết quả, nhập dữ liệu để phân tích. Việc này thường làm trong quá trình thử nghiệm các câu hỏi thi - kiểm tra. Mục đích chính của thử nghiệm là thu thập dữ liệu để phân tích các câu hỏi thi - kiểm tra, chỉ ra những câu hỏi thi - kiểm tra cần phải sửa. Các phương pháp phân tích số liệu và bình phẩm, phê phán đều quan trọng để nâng cao chất lượng câu hỏi thi - kiểm tra. 2. Thuyết ứng đáp câu hỏi Thuyết ứng đáp câu hỏi (Item Response Theory - IRT) là một lý thuyết của khoa học về đo lường trong giáo dục, ra đời từ nửa sau của thế kỷ XX và phát triển mạnh mẽ cho đến nay. So với lý thuyết khảo thí cổ điển, lý thuyết khảo thí hiện đại ưu việt hơn nhiều, được áp dụng ngày càng rộng rãi để định cỡ các CHTN và thiết kế các đề trắc nghiệm. Thuyết đáp ứng câu hỏi của Rasch mô hình hóa mối quan hệ giữa mức độ khả năng của người làm trắc nghiệm và đáp ứng của người ấy với câu trắc nghiệm. Mỗi câu trắc nghiệm được mô tả bằng một thông số (độ khó) ký hiệu là δ và mỗi người làm trắc nghiệm được mô tả bằng một thông số (khả năng) ký hiệu là θ. Mỗi khi một người cố gắng trả lời một câu hỏi, các thông số độ khó và khả năng tác động lẫn nhau, để cho một xác suất đáp ứng của người làm trắc nghiệm ấy. Dạng toán học của mô hình này là: Trong đó, P(θ) là xác suất để thí sinh có năng lực θ trả lời ĐÚNG câu hỏi có độ khó δ. 3. Xử lý số liệu bằng phần mềm Quest/Conquest Chúng tôi sử dụng mô hình Rasch với phần mềm Quest/Conquest để phân tích đề thi trắc nghiệm khách quan môn Thuế nhà nước của sinh viên (SV) Trường Đại học Hùng Vương gồm 50 câu hỏi trắc nghiệm. Đề thi có 150 thí sinh tham gia với 5 mã đề khác nhau (có chất lượng tương đương nhau). Chúng tôi đã chọn ngẫu nhiên 1 mã đề bất kỳ (mã đề 32) trong 5 mã đề. - Sau khi thi xong, Phòng Thanh tra, Khảo thí và Đảm bảo Chất lượng của Trường tiến hành thu nhận bài thi. Kết quả bài thi được nhập bằng tay vào máy tính. Dữ liệu này được nhập vào phần mềm SPSS để chuyển sang định dạng phù hợp với phần mềm Quest/Conquest. - Chương trình Quest/Conquest xử lý sẽ cho ta các kết quả như mức độ phù hợp của các câu hỏi với mô hình Rasch, năng lực của thí sinh so với độ khó của câu hỏi, độ tin cậy của đề thi và các chỉ số đặc trưng cho từng câu hỏi như độ khó, độ phân biệt, hệ số tương quan giữa câu hỏi thi với toàn bài, độ tin cậy, sai số. - Sau đây là các bảng mô tả kết quả phân tích 50 câu trắc nghiệm. 3.1. Mức độ phù hợp với mô hình Khi dữ liệu phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình phương trung bình (mean square) xấp xỉ bằng 1 và độ lệch chuẩn (SD) xấp xỉ bằng 0. Bảng 1. Mức độ phù hợp với mô hình Rash THUE NHA NUOC Summary of item Estimates ========================= Mean .00 - chấp nhận SD 2.43 - quá lớn SD (adjusted) 2.29 - quá lớn Reliability of estimate .89 - tin cậy Fit Statistics =============== Infit Mean Square Outfit Mean Square Mean .99 Mean 1.04 SD .10 SD .60 Infit t Outfit t Mean .26 Mean .22 SD .54 SD .63 13 items with zero scores 3 items with perfect scores Summary of case Estimates ========================= Mean -1.11 - rất thấp SD .54 SD (adjusted) .00 Reliability of estimate .00 Fit Statistics =============== Infit Mean Square Outfit Mean Square Mean .98 Mean 1.04 SD .64 SD 1.17 Infit t Outfit t Mean 20 Mean 18 SD 1.60 SD 1.42 - Các giá trị SD quá lớn so với điểm số các phương án trả lời của thí sinh. - Các thông tin về kết quả tính toán cho thấy năng lực trung bình của mẫu thí sinh (case estimate) tham gia bài kiểm tra - 1.11 thấp hơn nhiều so với độ khó chung của bài kiểm tra. Độ tin cậy của tính toán đáng tin cậy vì có giá trị bằng 0,89= (89%). 3.2. Mức độ phù hợp của các câu hỏi với nhau Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm biểu thị bằng dấu *. Những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị INFIT MNSQ nằm trong khoảng [0,77; 1,30] sẽ phù hợp với mô hình Rasch. Nếu câu trắc nghiệm nào nằm ngoài khoảng này là không phù hợp và sẽ bị loại bỏ. Trong nghiên cứu này, câu 46 cần xem xét lại vì nằm ngoài khoảng cho phép (tỷ lệ chọn đáp án giữa phương án đúng - sai là 50 - 50). Bảng 2. Sự phù hợp các câu hỏi trong bài thi trắc nghiệm THUE NHA NUOC INFIT MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40 1.50 1.60 + + + + + + + + + + + + +- 2 item 2 . | * . 3 item 3 . * | . 4 item 4 . | * . 5 item 5 . * | . 6 item 6 . *| . 9 item 9 . | * . 10 item 10 . | * . 11 item 11 . * . 13 item 13 . * | . 14 item 14 . * | . 15 item 15 . * | . 16 item 16 . | * . 17 item 17 . | * . 18 item 18 . |* . 19 item 19 . * | . 20 item 20 . | * . 23 item 23 . | * . 26 item 26 . | * . 27 item 27 . * | . 28 item 28 . * | . 29 item 29 . | * . 31 item 31 . * | . 32 item 32 . | * . 33 item 33 . *| . 35 item 35 . | * . 36 item 36 . * | . 37 item 37 . * | . 38 item 38 . * | . 39 item 39 . | * . 40 item 40 . | * . 44 item 44 . | * . 45 item 45 . * | . 46 item 46 . | .* 47 item 47 . * | . 3.3. Phân bố độ khó câu hỏi thi và năng lực thí sinh Sơ đồ phân bố độ khó câu hỏi thi và năng lực thí sinh cho thấy mức độ phù hợp của đề thi đối với thí sinh dự thi. Kết quả xử lý bằng phần mềm CONQUEST cho một bản đồ phân bố năng lực học sinh và độ khó câu hỏi thi. Dựa vào biểu đồ ở bảng 2, ta thấy đề thi khá dễ với năng lực của nhóm thí sinh tham gia bài thi này, do đó cần bổ sung một số câu khó để đánh giá những thí sinh có năng lực ở mức giữa, một số câu dưới ngưỡng năng lực thấp của thí sinh (quá dễ: câu 2, 13, 15, 17, 18, 23, 24, 27, 29, 32, 44, 45, 50, 36, 4, 5, 28). Các câu 1, 48, 49, 50 có 100% sinh viên chọn đáp áp đúng nên phần mềm tự động không đưa vào phân tích đánh giá. +item |3 6 9 11 12 16 21 26 31 33 34 37 |Câu hỏi khó |39 47 48 49 | | | | | | | | | |41 | | | | | XXX| | |14 | XXX| | XXX|19 | | | XXXXXXX| |Câu hỏi khó trung bình XXXXXXXXXX| | XXX| | XXXXXXXXXXXXX| | 0 XXX| | XXX| | XXXXXXXXXX| | XXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXX|10 38 | XXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXX| | XXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXX| | XXXXXXXXXX|40 | XXXXXXXXXX|46 | XXXXXXXXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|20 | XXXXXXXXXXXXXXXXX| | XXXXXXXXXXXXX| | XXX| | XXXXXXXXXXXXX|35 | XXXXXXX| | XXXXXXXXXX| | Câu hỏi dễ | | | | | | | | |5 28 | | | | | XXX| | | | | | |4 | | | |36 | | | XXX| | |45 50 | |2 13 15 17 18 23 24 27 29 32 44 | Hình 1. Biểu đồ minh họa sự phân bố độ khó câu hỏi trắc nghiệm với năng lực sinh viên 3.4. Phân tích các tiêu chí khác Ta tiếp tục xem xét các chỉ số thu được từ kết quả phân tích bằng phần mềm QUEST như sau: - Độ khó: số người trả lời đúng/tổng số người tham gia trả lời (0,3 - 0,7 là chấp nhận). - Categories: câu chọn, trắc nghiệm, phương án đúng được đánh dấu (*). - Disc: độ phân biệt của câu hỏi giữa các nhóm thí sinh, (Disc) phải nằm trong khoảng (0,25 - 0,75) đối với các test trong lớp học. - Percent: tỉ lệ phần trăm của một phương án là tỉ lệ giữa số thí sinh chọn phương án đó so với thí sinh làm bài kiểm tra; Infit MNSQ phải nằm trong khoảng 0,77 - 1,30. - Beserial: hệ số tương quan point biserial. Cần loại bỏ những câu hỏi có mối tương quan thấp hoặc dưới 0 sẽ làm tăng độ tin cậy của bài kiểm tra. - Step Label 1: giữa giá trị 0 và 1 có một bước, thí sinh thực hiện được bước này khi trả lời đúng câu hỏi. - Thresholds: ngưỡng để vượt qua, thực chất là độ khó của câu trắc nghiệm. - Error: sai số trong tính toán. Bảng 3: Ví dụ chỉ số thống kê của câu hỏi tính toán từ QUEST đối với câu hỏi 1. Item 1: item 1 Infit MNSQ = .00 Disc = .00 Categories 0 1 2 3 4* 9 missing Count 0 0 0 0 27 0 0 Percent (%) .0 .0 .0 .0 100.0 .0 Pt-Biserial NA NA NA NA .00 NA p-value NA NA NA NA .500 NA Mean Ability NA NA NA NA -1.11 NA NA Step Labels 1 Thresholds Error Kết quả phân tích cho thấy chỉ số MNSQ = 0,00 dưới ngưỡng cho phép, độ phân biệt (Disc) = 0,00 cũng dưới ngưỡng cho phép, các phương áp gây nhiễu (A, B, C) không có sinh viên nào chọn, tất cả đều chọn đáp án D (được mã hóa là 4 có gắn dấu *). Tương tự như vậy là các câu 7, 8, 21, 22, 24, 25, 30, 34, 41, 42, 43, 48, 49, 50. Những câu này xác suất trả lời đúng là 1, độ khó ở ngưỡng rất dễ (1,0). Những câu hỏi có chất lượng tốt hơn là các câu 38. Bảng 4: Ví dụ chỉ số thống kê của câu hỏi tính toán từ QUEST đối với câu hỏi 38. Item 38: item 38 Infit MNSQ = .83 Disc = .56 Categories 0 1 2* 3 4 9 missing Count 0 1 17 7 2 0 0 Percent (%) .0 3.7 63.0 25.9 7.4 .0 Pt-Biserial NA 29 49 .55 .20 NA p-value NA .070 .004 .001 .158 NA Mean Ability NA -1.98 -1.31 63 70 NA NA Step Labels 1 Thresholds 01 Error .45 Câu hỏi này có độ khó trung bình (0,63), độ phân biệt tốt (0,56) và chỉ số MNSQ nằm trong khoảng cho phép. - Đường cong liền thể hiện các xác suất để thí sinh có năng lực θ trả lời đúng câu hỏi 38 với độ khó thấp nhất là 0,01. δ = − - Đường gấp khúc nét đứt được nối bởi các điểm mẫu với nhau thể hiện năng lực, độ khó và khả năng thí sinh làm đúng đáp án. - Hình vẽ thể hiện xác suất trả lời đúng ở câu 38 trong bộ TNKQ ở mức khá cáo (32% - 100%), câu 38 có độ khó thấp. Tương tự như vậy là các câu 14, 18, 23. 4. Kết luận Qua phân tích ứng dụng phần mềm Quest/Conquest trong phân tích đánh giá đề thi cho thấy đây là một công cụ quan trọng trong việc đánh giá chất lượng đề thi trắc nghiệm, tiến tới từng bước để xây dựng ngân hàng đề thi. Thông qua công cụ này giúp giáo viên có thể chẩn đoán thăm dò, đánh giá được năng lực học tập chung của lớp để có những điều chỉnh phù hợp. Kết quả phân tích cũng cho thấy đề thi còn dễ so với năng lực chung của sinh viên, nhiều câu hỏi dễ, các phương án nhiễu không có tác dụng, độ phân biệt thấp cần phải thay thế bằng các câu hỏi khác (15 câu). TÀI LIỆU THAM KHẢO 1. Phạm Xuân Thanh (2013), Mô hình Rash và phân tích dữ liệu bằng phần mềm QUEST, Chương trình đào tạo thạc sỹ đo lường và đánh giá, Hà Nội. 2. Lâm Quang Thiệp (2011), Đo lường trong giáo dục, lý thuyết và ứng dụng, Nxb Đại học Quốc gia Hà Nội. 3. Nguyễn Bảo Hoàng Thanh (2008), Sử dụng phần mềm Quest để phân tích câu hỏi trắc nghiệm khách quan, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng. số 2 (25). . PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN BẰNG PHẦN MỀM QUEST CONQUEST I. ĐẶT VẤN ĐỀ Trắc nghiệm là một phương pháp của khoa học về đo lường trong giáo dục. Những năm gần đây, trắc nghiệm khách. trắc nghiệm là việc sử dụng các phần mềm để xử lý số liệu của câu hỏi trắc nghiệm (CHTN), đề trắc nghiệm (ĐTN) đã mang lại hiệu quả cao. Do đó, việc vận dụng phần mềm Quest/ Conquest để phân tích, . dụng mô hình Rasch với phần mềm Quest/ Conquest để phân tích đề thi trắc nghiệm khách quan môn Thuế nhà nước của sinh viên (SV) Trường Đại học Hùng Vương gồm 50 câu hỏi trắc nghiệm. Đề thi có 150

Ngày đăng: 24/06/2015, 15:32

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan