Chƣơng III THỬ NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ
3.4. Phân tích đề kiểm tra
3.4.3. Bài kiểm tra học kỳ 1
Đề kiểm tra học kỳ 1 với 40 câu hỏi trắc nghiệm khách quan với 4 phương án lựa chọn, nhằm kiểm tra 3 mức năng lực nhận thức: Nhận biết (12 câu), Thông hiểu (16 câu), Vận dụng (12 câu). Chúng tơi sẽ phân tích câu hỏi và đề kiểm tra theo cách thức phân tích đề kiểm tra 45 phút số 1.
3.4.3.1. Phân bố điểm
T kết quả bài thi của HS, chúng tơi thu được phổ điểm hình 3.11. Ta thấy
Điểm trung bình của bài kiểm tra là 6,62 điểm và điểm trung bình lí tưởng của bài kiểm tra là khoảng 7, độ lệch chuẩn 1.325, phổ điểm chủ yếu tập chung khu vực 6-8 điểm, điểm thấp nhất là 4, cao nhất là 10. Mức độ học sinh điểm trung bình, yếu ít. Như vậy đề được đánh giá phù hợp với lực học của đối tượng khảo sát.
HK1 N Valid 92 Missing 0 Mean 6.62 Std. Error of Mean .138 Median 6.50 Mode 6 Std. Deviation 1.325 Minimum 4 Maximum 10 Sum 609
Hình 3.10. Phân bố điểm bài kiểm thi học kỳ I 3.4.3.2. Mức độ phù hợp với mơ hình IRT 3.4.3.2. Mức độ phù hợp với mơ hình IRT
Kết quả khi phân tích đề kiểm tra với phần mềm Conquest 1.0 trong file SHW được tóm tắt trong bảng dưới đây:
Bảng 3.5. Mức độ phù hợp của câu hỏi đề kiểm tra học kỳ với mơ hình
------------------------------------------------------------------------------------------ VARIABLES UNWEIGHTED FIT WEIGHTED FIT
--------------- ----------------------- ----------------------- item ESTIMATE ERROR^ MNSQ CI T MNSQ CI T ------------------------------------------------------------------------------------------ 1 1 -0.761 0.191 1.03 ( 0.71, 1.29) 0.3 1.04 ( 0.69, 1.31) 0.3 2 2 -0.426 0.183 0.89 ( 0.71, 1.29) -0.7 0.96 ( 0.76, 1.24) -0.3 3 3 -0.835 0.193 1.03 ( 0.71, 1.29) 0.3 1.00 ( 0.68, 1.32) 0.1 4 4 -0.223 0.178 1.04 ( 0.71, 1.29) 0.3 1.02 ( 0.80, 1.20) 0.2 5 5 -2.833 0.246 0.77 ( 0.71, 1.29) -1.7 0.98 ( 0.00, 2.06) 0.1 6 6 -0.007 0.175 0.88 ( 0.71, 1.29) -0.8 0.93 ( 0.83, 1.17) -0.8 7 7 -0.523 0.185 0.99 ( 0.71, 1.29) -0.0 1.00 ( 0.74, 1.26) 0.1 8 8 1.676 0.178 1.50 ( 0.71, 1.29) 3.0 1.24 ( 0.80, 1.20) 2.2 9 9 0.441 0.170 1.09 ( 0.71, 1.29) 0.7 1.09 ( 0.87, 1.13) 1.4 10 10 0.584 0.170 1.05 ( 0.71, 1.29) 0.4 1.04 ( 0.88, 1.12) 0.7 11 11 -0.588 0.186 0.82 ( 0.71, 1.29) -1.3 0.91 ( 0.73, 1.27) -0.7 12 12 -0.589 0.186 0.88 ( 0.71, 1.29) -0.8 0.95 ( 0.73, 1.27) -0.4 13 13 0.631 0.169 1.10 ( 0.71, 1.29) 0.7 1.09 ( 0.88, 1.12) 1.4 14 14 1.254 0.172 1.07 ( 0.71, 1.29) 0.5 1.06 ( 0.86, 1.14) 0.8 15 15 -0.589 0.186 0.93 ( 0.71, 1.29) -0.4 0.95 ( 0.73, 1.27) -0.3 16 16 -0.589 0.186 0.78 ( 0.71, 1.29) -1.6 0.88 ( 0.73, 1.27) -0.9 17 17 -0.589 0.186 0.92 ( 0.71, 1.29) -0.5 0.94 ( 0.73, 1.27) -0.4 18 18 -0.283 0.179 0.98 ( 0.71, 1.29) -0.1 0.98 ( 0.79, 1.21) -0.1 19 19 0.196 0.172 0.81 ( 0.71, 1.29) -1.3 0.84 ( 0.85, 1.15) -2.3 20 20 1.355 0.173 1.22 ( 0.71, 1.29) 1.4 1.17 ( 0.85, 1.15) 2.1 21 21 1.675 0.178 1.32 ( 0.71, 1.29) 2.0 1.16 ( 0.80, 1.20) 1.6 22 22 -0.170 0.177 1.04 ( 0.71, 1.29) 0.3 1.04 ( 0.80, 1.20) 0.4 23 23 -0.726 0.189 0.87 ( 0.71, 1.29) -0.9 0.92 ( 0.70, 1.30) -0.5 24 24 -0.401 0.182 1.23 ( 0.71, 1.29) 1.5 1.13 ( 0.77, 1.23) 1.1 25 25 2.319 0.193 1.17 ( 0.71, 1.29) 1.2 1.08 ( 0.68, 1.32) 0.5 26 26 0.095 0.173 1.06 ( 0.71, 1.29) 0.5 1.06 ( 0.84, 1.16) 0.7 27 27 -1.644 0.216 1.19 ( 0.71, 1.29) 1.3 1.04 ( 0.46, 1.54) 0.2 28 28 0.196 0.172 1.02 ( 0.71, 1.29) 0.2 1.03 ( 0.85, 1.15) 0.4 29 29 0.584 0.170 0.92 ( 0.71, 1.29) -0.5 0.92 ( 0.88, 1.12) -1.3 30 30 -1.642 0.216 0.78 ( 0.71, 1.29) -1.5 0.92 ( 0.46, 1.54) -0.2
32 32 1.459 0.175 1.09 ( 0.71, 1.29) 0.7 1.06 ( 0.84, 1.16) 0.7 33 33 -1.407 0.209 0.69 ( 0.71, 1.29) -2.3 0.90 ( 0.54, 1.46) -0.4 34 34 0.147 0.173 0.87 ( 0.71, 1.29) -0.9 0.89 ( 0.85, 1.15) -1.5 35 35 0.296 0.171 1.01 ( 0.71, 1.29) 0.1 1.00 ( 0.86, 1.14) 0.0 36 36 1.734 0.179 0.94 ( 0.71, 1.29) -0.4 0.95 ( 0.80, 1.20) -0.5 37 37 -0.168 0.177 0.91 ( 0.71, 1.29) -0.6 0.95 ( 0.80, 1.20) -0.5 38 38 1.108 0.171 1.29 ( 0.71, 1.29) 1.9 1.24 ( 0.87, 1.13) 3.5 39 39 0.097 0.173 0.94 ( 0.71, 1.29) -0.4 0.95 ( 0.84, 1.16) -0.6 40 40 -0.795* 1.147 0.88 ( 0.71, 1.29) -0.8 0.95 ( 0.69, 1.31) -0.3 --------------------------------------------------------------------------------
An asterisk next to a parameter estimate indicates that it is constrained Separation Reliability = 0.969
Kết quả khi phân tích đề kiểm tra được liệt kê trong file SHW cho thấy tất cả các câu hỏi có UNWEIGHTED FIT nằm trong khoảng (0.71, 1.29), chỉ số Weighted MNSQ của tất cả các câu hỏi xấp xỉ bằng 1 cho thấy dữ liệu dùng để phân tích là phù hợp với mơ hình IRT.
Như vậy các câu hỏi của đề kiểm tra hoàn toàn phù hợp, cả 40 câu hỏi trong đề kiểm tra này đều đo đúng nội dung kiến thức cần kiểm tra. Hệ số tin cậy Separation Reliability = 0.969 cho thấy bài kiểm tra có độ tin cậy cao.
3.4.3.3. Đặc tính các câu hỏi thi
Câu hỏi tốt là những câu hỏi phù hợp với mơ hình Rasch, có độ khó, độ phân biệt chấp nhận được, các phương án nhiễu của các câu hỏi có tỷ lệ chọn tương đương nhau. Với những câu không đạt yêu cầu, cần được loại bỏ, điều chỉnh sao cho phù hợp với mơ hình, phù hợp với các tiêu chí đánh giá.
T kết quả trong file ITN chúng tơi chia thành các nhóm câu hỏi. Dưới đây chúng tơi sẽ phân tích một số nhóm câu hỏi tốt, chưa tốt và nhóm câu hỏi cần điều chỉnh. Mỗi nhóm sẽ phân tích 1-2 câu hỏi đặc trưng
Nhóm câu hỏi tốt (Câu 1, 2, 17, 23, 28, 35) là nhóm các câu hỏi độ khó phù hợp, độ phân biệt tốt, các phương án nhiễu có giá trị. Ta sẽ phân tích hai câu hỏi trong nhóm này
item:35 (35) Cases for this item 92 Discrimination 0.32
Item Threshold(s): 0.30 Weighted MNSQ 1.00 Item Delta(s): 0.30
------------------------------------------------------------------------------ Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1 ------------------------------------------------------------------------------ A 1.00 55 59.78 0.32 3.26(.002) 0.82 0.65 B 0.00 10 10.87 0.14 -1.31(.194) 0.97 0.62 C 0.00 19 20.65 -0.37 -3.82(.000) 0.29 0.58 D 0.00 8 8.70 -0.18 -1.74(.086) 0.33 0.58 ============================================================================== Độ khó của câu hỏi p = 0.59, nằm trong khoảng có giá trị 0,25-0,75, có
hỏi có giá trị phân biệt nhóm thí sinh có năng lực cao và nhóm thí sinh có năng lực thấp. Hệ số tương quan (Pt Bis) cho ta thấy các phương án nhiễu có chỉ số âm, phương án đúng có chỉ số dương cho thấy các phương án gây nhiễu có giá trị trong việc đánh giá năng lực của thí sinh. Đối chiếu với nội dung câu hỏi số 35 trong đề kiểm tra:
Theo phân tích của chuyên gia, câu hỏi số 35 được thiết kế để kiểm tra cấp độ vận dụng, độ khó p=0.59 là phù hợp, độ phân biệt D = 0.32 là câu hỏi có độ phân biệt chấp nhận được. Kết quả này cũng có thể được khẳng định thông qua đường cong đặc trưng của câu hỏi (hình 3.12): Đường cong thực tế của câu hỏi (đường nét đứt) bám sát đường cong kỳ vọng của câu hỏi, xuất phát t điểm xác suất gần gốc tọa độ đi lên, cho thấy câu hỏi thiết kế phù hợp để kiểm tra năng lực của thí sinh.
Hình 3.11. Đường cong đặc trưng câu hỏi 35
Nhóm các câu 7, 12, 16, 18, 19, 24, 30, 33, 34, 39, 40, cũng có thể coi là câu hỏi tốt. Đây là nhóm các câu hỏi độ khó, độ phân biệt, các phương án nhiễu phù hợp. Tuy nhiên lại khơng thực sự phù hợp với tiêu trí đánh giá hoặc một trong các đặc trưng của câu hỏi chưa thực sự tốt. Ví dụ
Câu 18 (Item 18) -------
item:18 (18) Cases for this item 92 Discrimination 0.37
Item Threshold(s): -0.28 Weighted MNSQ 0.98 Item Delta(s): -0.28
------------------------------------------------------------------------------ Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1 ------------------------------------------------------------------------------ A 0.00 2 2.17 -0.22 -2.12(.037) -0.12 0.73 B 0.00 21 22.83 -0.22 -2.15(.034) 0.42 0.71 C 1.00 66 71.74 0.37 3.75(.000) 0.81 0.61 D 0.00 3 3.26 -0.23 -2.24(.027) 0.28 0.73
Hình 3.12. Đường cong đặc trưng câu hỏi 18
Độ khó của câu hỏi p = 0.71 nằm trong khoảng cho phép (giá trị 0.25- 0.75), Độ phân biệt rất tốt D = 0.37, câu hỏi có giá trị phân biệt nhóm thí sinh có năng lực cao và nhóm thí sinh có năng lực thấp. T hệ số tương quan (Pt Bis) cho ta các phương án nhiễu có chỉ số âm, phương án đúng có chỉ số dương cho thấy các phương án gây nhiễu có giá trị trong việc đánh giá năng lực của thí sinh.
Đối chiếu với nội dung câu hỏi số 18 trong đề kiểm tra: câu hỏi số 18 được thiết kế để kiểm tra cấp độ nhận biết. Do đó, độ khó p=0.71 là phù hợp, độ phân biệt D = 0.37 là câu hỏi có độ phân biệt chấp nhận được. Kết quả này cũng có thể được khẳng định thông qua đường cong đặc trưng của câu hỏi (hình 3.13): Đường cong thực tế của câu hỏi (đường nét đứt) gần bám sát đường cong kỳ vọng của câu hỏi, xuất phát t điểm xác suất gần 0.3 đi lên, cho thấy câu hỏi thiết kế phù hợp để kiểm tra năng lực của thí sinh. Có điểm chưa thực sự tốt trong câu này, đó là câu nhận biết nhưng chỉ có 71% HS trả lời đúng
Nhóm các câu hỏi cân nhắc điều chỉnh (Câu 5, 8, 9, 20, 21, 25, 26, 27, 29) là các câu hỏi có độ phân biệt rất thấp, các phương án nhiễu không hiệu quả hoặc có độ khó khơng phù hợp, khơng đánh giá chính xác theo mục tiêu đề ra. Ví dụ phân tích câuhỏi số 9 (Item 9)
item:9 (9) Cases for this item 92 Discrimination 0.17
Item Threshold(s): 0.44 Weighted MNSQ 1.09 Item Delta(s): 0.44
------------------------------------------------------------------------------ Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1
A 0.00 1 1.09 -0.30 -2.94(.004) -0.64 0.00 B 1.00 52 56.52 0.17 1.63(.107) 0.73 0.73 C 0.00 27 29.35 -0.12 -1.17(.243) 0.56 0.51 D 0.00 12 13.04 0.01 0.08(.936) 0.84 0.57 ==============================================================================
Độ khó của câu hỏi p = 0.56 cho thấy đây là câu hỏi v a phái, độ phân biệt khá nhỏ D = 0.17 < 0.2. Do vậy, câu khơng thể phân biệt được nhóm học sinh học lực thấp và nhóm học sinh học lực cao.
Để giải thích kết quả này, chúng ta cần đối chiếu với các kết quả phân tích bằng phương pháp chuyên gia. Câu hỏi số 9 thiết kế ở mức độ nhận biết – mức độ thấp nên câu hỏi khá dễ, do đó hầu hết học sinh đều làm đúng câu hỏi. Tuy nhiên trên thực tế khi kiểm tra, tỉ lệ HS làm được không quá cao (56%). Khi xem lại đề kiểm tra chúng tôi không phát hiện bất thường. Như vậy, trong đề kiểm tra này ta vẫn có thể dùng được câu hỏi số 9. Ta phân tích thêm câu 8 (Item 8)
item:8 (8) Cases for this item 92 Discrimination -0.22
Item Threshold(s): 1.68 Weighted MNSQ 1.24 Item Delta(s): 1.68
------------------------------------------------------------------------------ Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1 ------------------------------------------------------------------------------ B 0.00 60 65.22 0.30 2.94(.004) 0.82 0.58 C 1.00 27 29.35 -0.22 -2.18(.032) 0.51 0.77 D 0.00 5 5.43 -0.17 -1.66(.101) -0.05 0.35 ==============================================================================
Hình 3.13. Đường cong đặc trưng câu hói số 8
Độ khó của câu hỏi p = 0.29 cho thấy đây là câu hỏi khó, độ phân biệt khá ngược D = -0.22. Do vậy, câu không thể phân biệt được nhóm học sinh học lực thấp và nhóm học sinh học lực cao. Khi nhìn vào đường cong đặc trưng câu hỏi (hình 3,14) ta cũng thấy điều này, HS khơng làm được, đã chọn ngẫu nhiên, dẫn đến sự phân bố lệch rất xa so với đường cong đặc trưng câu hỏi. Đồng thời, ta cũng thấy phương án nhiễu A khơng có tác dụng do khơng
có HS lựa chọn. Để giải thích kết quả này, chúng ta cần đối chiếu với các kết quả phân tích bằng phương pháp chuyên gia. Câu hỏi số 8 thiết kế ở mức độ Vận dụng – mức độ cao nên câu hỏi khá khó, hầu hết học sinh đều khơng làm đúng câu hỏi. Trong một đề kiểm tra nên có một số câu hỏi ở cấp độ này, nhưng khơng nên có q nhiều. Tuy nhiên ta vẫn phải điều chỉnh đáp án nhiễu B cho phù hợp
Nhóm các câu hỏi (Câu 3, 4, 6, 10, 11,13, 15, 22, 31, 37, 38) giống các câu trên nhưng có thể chấp nhận được bởi sự sai khác khơng qúa lớn so với các tiêu trí đánh giá và đảm bảo gần đúng độ khó, độ phân biệt
Nhóm câu hỏi kém chất lượng (Câu 14, 32, 36) là nhóm các câu hỏi sai lệch hồn tồn các tiêu trí đánh giá mặc dù đảm bảo được các tiêu trí về độ khó, độ phân biệt, phương án nhiễu. Cụ thể, câu 4 ở mức độ thơng hiểu, độ khó là 0.38; câu 32 ở mức độ thơng hiểu nhưng độ khó là 0.33; câu 36 ở mực độ nhận biết nhưng độ khó là 0.28
3.4.3.4. Thang phân bố độ khó của câu hỏi với năng lực của HS
Kết quả khi phân tích đề thi học kỳ 1 với phần mềm Conquest 1.0 trong File SHW được tóm tắt trong hình dưới đây:
---------------------------------------------------------------------------------------