V. Phân tích và đánh giá câu hỏi và đề thi trắc nghiệm khách quan.
r k= k/(1+ (k-1)) Với:
sai là 12. Còn p, q được trình bày trong bảng sau:
(p, q giải thích như sau, chẳng hạn có 35 câu hỏi có tỷ lệ trả lời đúng 0.4 và trả lời sai 0.6). Số câu hỏi p q pq pq 10 0.7 0.3 0.21 2.1 25 0.6 0.4 0.24 2.4 35 0.4 0.6 0.24 2.4 30 0.5 0.5 0.25 2.5 10 0.3 0.7 0.21 2.1 Tổng: 100 23.7 Tính theo công thức KR20 ta có r = 0.84. Tính theo công thức KR21 ta có r = 0.8347.
V.7.2. Một số thảo luận về các vấn đề liên quan đến độ tin cậy
- Ảnh hưởng của việc lấy mẫu:
Ta thấy, việc xác định độ tin cậy của một bài trắc nghiệm được tiến hành trên mẫu thử. Do đó việc chọn mẫu có ảnh hưởng rất lớn đến độ tin cậy. Các yếu tố ảnh hưởng đó là:
+ Tính thuần nhất của các câu hỏi khi tách đề thi ra làm đôi. Các câu hỏi phải có độ khó gần đồng nhất nhau và có nội dung cần kiểm tra tương đương nhau.
+ Việc phân nhóm người trắc nghiệm phân đôi cũng phải hết sức ngẫu nhiên, không thiên lệch. Các yếu tố tâm lý, yếu tố gợi nhớ của người được trắc nghiệm có ý nghĩa quan trọng trong PP trắc nghiệm lại.
+ Yếu tố thời gian trả lời và thái độ nghiêm túc của thí sinh cũng cần xem xét khi đánh giá độ tin cậy và độ giá trị.
- Ảnh hưởng của khoảng biến thiên về điểm số lên độ tin cậy:
Theo công thức Kuder-Richardson 21 và theo các công thức tính hệ số tương quan thì việc tính chỉ số độ tin cậy sẽ bị ảnh hưởng của khoảng biến thiên điểm số. Do đó nếu thử nghiệm bài trắc nghiệm trên một nhóm người có năng lực gần giống nhau sẽ dẫn đến khoảng biến thiên về điểm số sẽ hẹp và chỉ số tin cậy dựa vào hai bộ điểm số như vậy cũng sẽ thấp, mặc dù đôi khi bài thi đó vẫn rất đáng tin cậy.
- Ảnh hưởng của độ dài của bài thi lên độ tin cậy và độ giá trị:
Số lượng câu hỏi có độ khó phù hợp càng nhiều thì dải phân bố điểm càng lớn và do đó số câu hỏi có ảnh hưởng đến độ tin cậy. Theo công thức Spearman - Brown ([31]):
rk = kr/(1+ (k-1)r). Với: Với:
rk là chỉ số độ tin cậy khi tăng độ dài lên k lần (lưu ý: các câu hỏi phải có độ khó tương đương).
Công thức trên được sử dụng với giả định là các câu hỏi mới thêm vào phải tương tự với các câu hỏi cả về nội dung, độ khó và mức độ tương quan giữa các câu hỏi. Từ công thức trên ta thấy rằng, trong một chừng mực mà bài kiểm tra quá dài gây ảnh hưởng tới sức khỏe, hay tạo sự nhàm chán cho học sinh thì bài trắc nghiệm càng dài độ tin cậy của phép đo mà nó đo càng cao.
Ví dụ: Một bài trắc nghiệm có chỉ số độ tin cậy là 0.7 khi tăng độ dài lên 4 lần (bằng các câu hỏi thuần nhất và có độ khó tương đương) sẽ có chỉ số độ tin cậy mới sẽ là: 0.9.
Theo các kết quả tính toán trong các tài liệu chuyên khảo về đánh giá trắc nghiệm [24/tr 155]... cho thấy việc tăng chiều dài của bài trắc nghiệm có ảnh hưởng lên độ giá trị của bài thi, nhưng rất ít. Vì vậy, thay vì tốn thời giờ và công sức để tăng chiều dài bài trắc nghiệm để tăng độ giá trị, người ta xây dựng nhiều bộ câu hỏi để đo nhiều biến số tiêu chí khác nhau, hơn là phải tốn công nhiều chỉ để đo một biến số.
- Sai số chuẩn của phép đo:
Như đã biết độ tin cậy nói lên sự chính xác của phép đo bằng cách sử dụng bài trắc nghiệm, vì vậy điểm số thu được của học sinh trên bài trắc nghiệm và điểm số thực chất của em đó sẽ có sai số, sai số này rõ ràng có liên quan đến độ tin cậy. Nhưng thường thì người ta không tính sai số cho từng thí sinh mà chỉ tính trị trung bình của sai số phép đo. Ta có khái niệm sai số chuẩn của phép đo, có nhiều loại sai số chuẩn của phép đo. Nó phụ thuộc vào trình độ của nhóm thí sinh được đo, vào các giá trị điểm số khác nhau,... Các số này có thể xem thêm trong [3/ tr114-116]. Nếu giả định sai số chuẩn bằng nhau với các điểm số khác nhau và không phụ thuộc vào trình độ của nhóm thí sinh, khi đó ta có công thức sau: [24/tr 113].
m = o*sqrt(1-rll).
m = sai số chuẩn của phép đo.
o = độ lệch chuẩn của các điểm quan sát được. rll = hệ số tin cậy.
Sai số chuẩn của phép đo tỷ lệ nghịch với hệ số tin cậy, khi hệ số tin cậy càng cao thì sai số chuẩn càng giảm và ngược lại.
m được sử dụng khi báo cáo điểm số thực của học sinh (tất nhiên là với hai giả định trên). Ví dụ: Với bài trắc nghiệm có độ tin cậy là 0.95 và độ lệch chuẩn là 16 thì ta có m = 16.SQRT(1 - 0.95) = 16*0.25 = 3.5. Một thí sinh qua bài trắc nghiệm trên có điểm là 115, khi đó với mức chính xác 0.95 điểm số thực của thí sinh đó là: 115 1.96*0.35. (Giá trị 1.96 được tra trong bảng chuẩn - kiểm định giả thuyết thống kê với độ tin cậy 0.95).
V.7.3. Mối quan hệ giữa độ giá trị và độ tin cậy.
Độ giá trị phản ánh mức độ mà một bài trắc nghiệm đo được cái mà nó định đo, còn độ tin cậy phản ánh sự chính xác của phép đo.
Độ giá trị đòi hỏi có độ tin cậy, nhưng độ tin cậy không đảm bảo cho độ giá trị. Do đó, một bài trắc nghiệm có thể có độ tin cậy rất cao tức là nó đo chính xác, ít sai số một vấn đề trong đánh giá thành quả học tập của học sinh. Tuy vậy đôi khi chưa hẳn đã có giá trị vì nó đã đo một cái khác điều ta định đo.
Độ giá trị thường được xác định qua phân tích logic, bên cạnh đó độ tin cậy lại được tính toán bằng định lượng, nên có vẻ gì đó làm cho ta yên tâm hơn. Tuy vậy, phải hết sức mối quan hệ giữa độ giá trị và độ tin cậy nói trên.
V.8. Thực hành phân tích đánh giá đề thi trắc nghiệm khách quan.
Sử dụng các kết quả trắc nghiệm của một bài thi của học sinh, hoặc có thể sử dụng kết quả trắc nghiệm của chính các học viên trong lớp trên một đề kiểm tra môn Tin học 12 - THPT để tiến hành thực hành các vấn đề sau.
+ Đánh giá độ khó, độ phân biệt của từng câu hỏi. + Chỉnh sửa các phương án nhiễu, nêu lý do chỉnh sửa.
+ Đánh giá độ tin cậy theo công thức Rulon hay Kuder-Richardson. + Phân tích các độ giá trị của đề thi.