- Trắc nghiệm theo tiêu chí: là trắc nghiệm được sử dụng để xác định mức độ
10. Tập hợp các câu hỏi th
1.6.3. Một số yêu cầu thống kê đối với câu hỏi và bài TNKQ
• Độ khó và độ phân biệt của câu trắc nghiệm
Một số thống kê có thể chỉ ra những thuộc tính của câu hỏi thi, qua đó chúng ta biết được câu hỏi tốt và chưa tốt. Các nhà nghiên cứu (Crocker & Algina, 1986)
đã phân loại các chỉ số thường được sử dụng trong phân tích định lượng như sau: 1- Những chỉ số mô tả sự phân bố trả lời của các thí sinh về một câu hỏi cụ
thể (trung bình cộng và phương sai).
2- Những chỉ số mô tả mức độ của mối quan hệ giữa sự trả lời của học sinh về một câu hỏi và những tiêu chí cụ thểđang được quan tâm.
3- Những chỉ số liên quan đến phương sai của câu hỏi thi kiểm tra và mối liên hệ với những tiêu chí cụ thể.
Một thống kê thường được sử dụng để mô tả các thông số trên câu hỏi thi kiểm tra là giá trị p (độ khó của câu hỏi), phương sai, một số chỉ số phân biệt như hệ
số tương quan point-biserial, hệ số tương quan biserial, hệ số tương quan phi. Mỗi chỉ số thống kê này đều quan trọng với những mục tiêu cụ thể khi phân tích câu hỏi thi kiểm tra.
Trong những bài kiểm tra TNKQ dùng trong lớp học, giáo viên thường quan tâm đánh giá câu hỏi qua hai đại lượng là độ khó và độ phân biệt của câu trắc nghiệm. Khi soạn xong một câu hoặc một bài trắc nghiệm người soạn chỉ có thểước lượng độ khó hoặc độ phân biệt của nó bằng cảm tính. Độ lớn của các đại lượng đó chỉ có thể tính được cụ thể bằng phương pháp thống kê sau lần trắc nghiệm thử trên một mẫu thí sinh, dựa vào kết quả thu được từ các câu trắc nghiệm và bài làm của thí sinh.
Để xác định độ khó, độ phân biệt thường được tiến hành như sau: chia mẫu học sinh tham gia làm bài kiểm tra thành 3 nhóm :
+ Nhóm điểm cao H: Từ 25% đến 27% số học sinh đạt điểm cao nhất. + Nhóm điểm thấp L: Từ 25% đến 27% số học sinh đạt điểm thấp nhất.
+ Nhóm điểm trung bình M: Từ 46% đến 50% số học sinh còn lại.
Tuy nhiên, nếu trong lớp học với số lượng học sinh không đông, có thể chỉ
chia thành hai nhóm: nhóm điểm thấp (50%) và nhóm điểm cao (50%).
Độ khó của câu hỏi (giá trị p, 0 < p < 1) bằng tỷ số phần trăm thí sinh làm
đúng câu trắc nghiệm trên tổng số thí sinh tham gia trả lời câu hỏi.
(%) 100 × + + = N N N N p H M L Trong đó:
N: tổng số học sinh tham gia làm bài kiểm tra
NH: tổng số học sinh ở nhóm cao trả lời đúng câu hỏi. NL: tổng số học sinh ở nhóm thấp trả lời đúng câu hỏi.
NM : tổng số học sinh ở nhóm trung bình trả lời đúng câu hỏi.
Nhiều chuyên gia cho rằng độ khó của các câu hỏi trắc nghiệm được quy
định trong khoảng sau:
P < 30% là câu hỏi khó.
30% ≤ P ≤ 40% là câu tương đối khó.
40% ≤ P ≤ 60% là câu có độ khó trung bình. P ≤ 70% là câu có độ khó vừa phải.
P > 70% là câu dễ.
Các chuyên gia biên soạn câu hỏi TNKQ thường lựa chọn câu hỏi có hệ số P với 25% ≤ P ≤ 75% đối với các bài trắc nghiệm dùng trong lớp học.
Khi ra một câu hoặc một bài trắc nghiệm cho một nhóm thí sinh nào đó, người ta thường muốn phân biệt trong nhóm ấy những người có năng lực khác nhau (giỏi, trung bình, kém v.v), khả năng của câu trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt.
Độ phân biệt của một câu hỏi được tính bằng công thức:
N N N D H − L = D: độ phân biệt. ( -1 ≤ D ≤ 1) Chỉ số D của một câu trắc nghiệm: 41
D ≥ 0,4: là rất tốt
0,3 ≤ D ≤ 0,39: là khá tốt.
0,2 ≤ D ≤ 0,29: chấp nhận được.
D ≤ 0,19: kém, cần loại bỏ hoặc sửa chữa lại cho tốt hơn.
Độ phân biệt của một câu liên quan đến độ khó. Thật vậy, nếu một câu trắc nghiệm dễđến mức mọi thí sinh đều làm tốt, thì độ phân biệt của nó rất kém, vì mọi thí sinh đều có phản ứng như nhau đối với câu trắc nghiệm đó. Cũng vậy, nếu một câu trắc nghiệm khó đến mức mọi thí sinh đều làm không được, các điểm số đạt
được chụm ở phần điểm thấp, thì độ phân biệt của nó cũng rất kém. Muốn có độ
phân biệt tốt thì câu trắc nghiệm nên có độ khó ở mức trung bình.
• Tiêu chuẩn để chọn câu hỏi hay
Sau khi phân tích và tính toán các chỉ số của câu hỏi thỏa mãn các yêu cầu sau đây thì được xếp vào danh mục câu hỏi hay:
- Độ khó nằm trong khoảng 40% < P < 60%
- Độ phân biệt D > 0,20 trở lên là thỏa mãn vềđộ phân biệt.
• Độ tin cậy:
Trắc nghiệm là một phép đo mà thước đo là bài trắc nghiệm dùng để đo lường một năng lực nào đó của thí sinh. Độ tin cậy của bài trắc nghiệm chính là đại lượng biểu thị mức độ chính xác của phép đo nhờ bài trắc nghiệm.
Qua nghiên cứu cho thấy các yếu tố sau có ảnh hưởng trực tiếp đến bài trắc nghiệm:
- Bài trắc nghiệm càng thuần nhất thì độ tin cậy càng cao. Một bài trắc nghiệm
được coi là thuần nhất nếu phần lớn các câu hỏi trong bài có độ khó trung bình. Tuy nhiên cần chú ý khi cố gắng làm tăng tính thuần nhất sẽ có nguy cơ
thu hẹp nội dung đánh giá tức là làm giảm độ giá trị của bài trắc nghiệm. - Độ tin cậy của bài trắc nghiệm có mục đích khác nhau, chẳng hạn bài trắc
nghiệm về thành quả tối thiểu hay thành quả tối đa có độ tin cậy khác với bài trắc nghiệm phân loại hay chuẩn đoán.
Các phương pháp ước lượng độ tin cậy là: phương pháp thi hai lần; dùng các bài trắc nghiệm tương đương; phương pháp dùng phép tính phương sai; phương pháp phân đôi bài trắc nghiệm; phương pháp Kuder – Richardson… Trong khuôn khổ luận văn này, tác giảđã sử dụng phần mềm thống kê SPSS và áp dụng lý thuyết IRT để tính độ tin cậy một cách đơn giản, nhanh chóng và cho kết quả chính xác.
• Độ giá trị:
Yêu cầu quan trọng nhất của bài trắc nghiệm với tư cách là một phép đo lường trong giáo dục là phép đo ấy đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Độ giá trị của bài trắc nghiệm là đại lượng biểu thị mức độđạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm.
Các loại tính chất giá trị: giá trị tiên đoán; giá trị so với tiêu chí cho sẵn; giá trị nội dung.
Để bài trắc nghiệm có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua bài trắc nghiệm và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm cũng như khi tổ chức triển khai kỳ thi. Nếu thực hiện các quá trình nói trên không đúng thì có khả năng kết quả của phép đo sẽ phản ánh một cái gì khác chứ không phải cái mà ta muốn đo nhờ bài trắc nghiệm.
Qua định nghĩa về độ tin cậy và độ giá trị ta có thể thấy rõ mối tương quan giữa chúng. Khi bài trắc nghiệm không có độ tin cậy, tức là phép đo nhờ bài trắc nghiệm rất kém chính xác, thì chúng ta không thể nói đến độ giá trị của nó. Nói cách khác, khi bài trắc nghiệm không có độ tin cậy thì nó cũng không thể có độ giá trị.
Đôi khi phép đo nhờ bài trắc nghiệm có thểđo chính xác, nhưng nó lại không đo cái cần đo, trong trường hợp đó thì bài trắc nghiệm có độ tin cậy cao nhưng độ giá trị
rất thấp.
• Độ phù hợp với mô hình của bài trắc nghiệm khách quan
Một trong những dẫn chứng quan trọng để nói rằng bộ câu hỏi TNKQ là tốt khi xác định được tất cả các câu hỏi đều tạo thành một cấu trúc. Khi phân tích dữ
liệu bằng phần mềm Quest dựa trên mô hình Rasch, nếu các câu hỏi đều có Infit MNSQ nằm trong khoảng từ 0.77 đến 1.30 là nằm trong giới hạn cho phép. Hay nói
cách khác, các câu hỏi trong bộđề thi này đã tạo thành một cấu trúc đo đúng cái cần
đo. Còn nếu câu nào nằm ngoài giới hạn cho phép trên có nghĩa là câu hỏi đó không phù hợp với mô hình, vì vậy các câu hỏi này cần sửa đổi hay loại bỏ.
Ngoài ra chúng ta còn xem xét 2 chỉ báo sau: (Kiểm tra sự phù hợp trong thống kê với mô hình Rasch của các câu hỏi.)
Summary of item Estimates --- Mean : bằng 0 SD : gần 1 SD (adjusted) : gần 1 . Reliability of estimate : Fit Statistics ---
Infit Mean Square Outfit Mean Square
Mean = 1.00 Mean 1.00
SD gần = 0 SD .24
--- Nếu các chỉ báo trên đạt thì bộ câu hỏi đã xây dựng là tốt.