Điểm tổng của các item còn lại (điểm trắc nghiệm) X: Điểm trung bình của item được phân tích

Một phần của tài liệu Đánh giá và đo lường trong khoa học xã hội quy trình, kỹ thuật thiết kế, thích nghi, chuẩn hóa công cụ đo (Trang 79 - 84)

CÁC KY THUAT PHAN TICH ITEM

Y: Điểm tổng của các item còn lại (điểm trắc nghiệm) X: Điểm trung bình của item được phân tích

ứy: Độ lệch chuẩn của điểm trờn item được phõn tớch ứy: Đệ lệch chuẩn của điểm trắc nghiệm

Nếu trắc nghiệm có các item được cho điểm theo kiểu nhị phân (đúng/sai; đồng ý/không đồng ý; có/không có), người ta đùng công thức sau để đánh giá tương quan:

À = Điểm trung bình trắc nghiệm (cho tất cả mọi

người)

Äj= Điểm trung bình của những người làm trắc nghiệm

trả lời đúng item 1

ox = Độ lệch chuẩn của trắc nghiệm

P= Tỷ lệ những người trả lời đúng trên item 1

Giá trị của hệ số tương quan càng tiệm cận 1,0 càng

chứng tỏ item và trắc nghiệm có tính đổng nhất cao, tức là

cùng đo một đặc tính. Với các trắc nghiệm đánh giá năng lực, giá trị tương quan càng gần 1,0 sẽ cho biết càng có

nhiều người có điểm trắc nghiệm cao trả lời đúng item đó.

Ngược lại giá trị tương quan càng gần - 1,0 sẽ cho biết càng có nhiều người có điểm trắc nghiệm thấp trả lời đúng

item đó.

Xem lại ví dụ trước:

Item 1 c6 D = 0,5 -ằ item 1 cd R= 0,36 Item 5 c6 D = 0,8 > Item 5 cé R= 0,73 Item 11 cé D = 0,1 > Item 11.6 R= 0,13

Từ số liệu này ta nhận thấy, hai cách đánh giá độ phân biệt này có sự tương đương. ltem ð có độ phân biệt tốt nhất cũng là item có tương quan cao nhất, trái lại item 11 có độ phân biệt thấp nhất cũng là item có tương

quan nhỏ nhất. Theo các chuyên gia trắc nghiệm, các item có R lớn hơn hoặc bằng 0,3 được coi là phù hợp cho trắc nghiệm.

Thực tế tương quan giữa item và điểm trắc nghiệm có thể dẫn đến kết quả đánh giá thổi phông độ phân biệt (vì điểm của item được phân tích cũng được cộng vào điểm của trắc nghiệm). Do vậy, để điểu chỉnh khi phân tích độ phân biệt ta loại bổ điểm của item được phân tích ra khỏi điểm của trắc nghiệm, tức là tính tương quan điểm của item với điểm tổng của các item còn lại thay cho điểm tổng toàn bộ các item của trắc nghiệm.

Trong khi phân tích item người ta có thể kết hợp phân tích độ phân biệt và độ khó theo cùng một công 83

thức tính toán, nếu ta chỉ chia số người làm trắc nghiệm thành hai nhóm, khi đó:

Pr + Ps

D=P= ——

2

Độ khó tính theo công thức này gọi là độ khó ước lượng, nó có giá trị xấp xỉ độ khó thực (xem bảng đánh

giá độ khó và độ phân biệp).

3. Phân tích năng lực gây nhiễu của những lựa chọn thay thế

Những trắc nghiệm đánh giá năng lực thường sử dụng các item có nhiều lựa chon (multiple choice format), trong 46 chỉ có một lựa chọn đúng, còn các lựa chọn khác là những lựa chọn thay thế (câu trả lời sai) làm nhiệm vụ gây nhiễu, đánh lạc hướng (distractor) người làm trắc nghiệm. Độ khó của item phụ thuộc vào năng lực gây nhiễu của các lựa chọn thay thế này, do vậy cần phân tích từng lựa chọn thay thế trong item để đánh giá liệu chúng có khả năng phát hiện những sai lầm thường có ở người làm trắc nghiệm hay không.

Nếu các lựa chọn thay thế (lựa chọn sai) được thiết kế tốt (có khả năng phát hiện những lỗi thường gặp của người làm trắc nghiệm) sẽ làm tăng độ hiệu lực của item. Về lý thuyết, một câu hổi hay một item có nhiều lựa chọn được thiết kế tốt phải có đủ hai đặc tính sau:

(Ð - Những người có hiểu biết, có kỹ năng (thuộc phạm oì trắc nghiệm do lường) khi trả lời sẽ chọn được 84

câu trả lời đúng.

(3) - Những người thiếu hiểu biết, bhông có kỹ năng (thuộc phạm vi trắc nghiệm đo lường) khi lam trắc nghiệm sẽ khó chọn được câu trả lời đúng, họ chỉ có thể chọn ngấu nhiên trong số các câu trả lời. Một số chọn đúng do đoán mò (may rủi), một số chọn sai.

Như vậy năng lực “đánh lừa” của các lựa chọn sai

được mong đợi bằng tỷ lệ % của số người chọn những câu trả lời sai trên số các lựa chọn sai. Số người cụ thể

chọn lựa một câu trả lời sai nói lên năng lực gây nhiễu của câu trả lời sai đó. Những câu trả lời sai không được một ai chọn hoặc chỉ có rất ít người chọn bị coi là không có năng lực gây nhiễu, sẽ bị loại bỏ hoặc viết lại. Ngược lại, những câu trả lời sai được quá nhiều người làm trắc nghiệm chọn (hơn cả số người chọn câu trả lời đúng) có thể có vấn để về bản sắc văn hoá, ngữ nghĩa, độ đọc hiểu... nên được xem xét lại. Tuỳ mục đích của item và trắc nghiệm mà giữ nguyên hay phải viết lại.

Các lựa chọn sai cần phải được phân tích lý giải dưới ánh sáng của những thông tin về độ khó của item. Khi item cần tăng tối đa độ khó nên gồm những lựa chọn sai được đa số người làm trắc nghiệm chon. Do độ khó được tạo ra từ sự có mặt của các câu trả lời sai, nên những câu trả lời sai càng có vẻ “giống” với câu trả lời đúng càng làm tăng độ khó của item.

Không có một quy định cứng nhắc về độ phù hợp của những câu trả lời sai làm nhiệm vụ gây nhiễu, do vậy người thiết kế trắc nghiệm phải căn cứ vào mục đích của 8ã

trắc nghiệm, nhiệm vụ của item để xác định những lựa chọn sai nào là phù hợp nhất.

Tóm lại, độ nhiễu của những lựa chọn thay thế, độ khó, độ phân biệt của item có ảnh hưởng lẫn nhau và chúng đều ảnh hưởng đến độ tin cậy và độ hiện lực của trắc nghiệm. Năng lực gây nhiễu của các lựa chọn sai ảnh hưởng trực tiếp đến độ khó của item. Đệ khó của item lại ảnh hưởng trực tiếp đến độ phân biệt. Cả độ khó và độ phân biệt của item ảnh hưởng trực tiếp đến

phạm vi phân bố điểm trắc nghiệm, vì vậy ảnh hưởng đến độ tin cậy và độ hiệu lực của trắc nghiệm. Thông thường những item có độ khó được ưa thích nằm gần 0,5 (khoảng 0,3.0,8) và độ phân biệt được coi là thích hợp phải có R lớn hơn hoặc bằng 0,3. Những item tốt nhất cho một thang đo để một cấu trúc đồng nhất là những item có quan hệ tuyến tính với điểm tổng của thang đo đó và có độ dốc đường thẳng là những trị số đương gần 1,0.

Chương V

Một phần của tài liệu Đánh giá và đo lường trong khoa học xã hội quy trình, kỹ thuật thiết kế, thích nghi, chuẩn hóa công cụ đo (Trang 79 - 84)

Tải bản đầy đủ (PDF)

(119 trang)