8. Bố cục luận văn
2.4. Thử nghiệm bộ công cụ
2.4.2. Kết quả thực nghiệm lần 2
Sau khi chạy thử nghiệm lần 1, chúng tơi tiến hành chuẩn hóa đề thi bằng cách loại bỏ những câu hỏi chƣa đƣợc và chỉnh sửa những câu hỏi chƣa tốt. Với 240 câu hỏi của 4 mã đề lần 1, sau q trình loại bỏ và chỉnh sửa chúng tơi thu đƣợc khoảng 200 câu hỏi để đƣa vào đề kiểm tra lần 2. Ở lần thử nghiệm này chúng tôi tiến hành thử nghiệm với 2 mã đề 101 và 102.
Dữ liệu thử nghiệm đề văn 101 lần 2 gồm 157 học sinh tham gia, khơng có dự liệu missing. Kết quả cho thấy có 9 câu (những câu tam giác đỏ) cần đƣợc điều chỉnh hoặc loại bỏ. Xem xét chi tiết từng câu, nhận thấy tất cả các câu hỏi đều không thoả mãn độ phân biệt theo lý thuyết cổ điển (Discr>0.2). Về độ khó, hầu hết các câu hỏi này cũng thuộc nhóm quá dễ (C1, C5, C8, C9, C11, C13, C16, b <
-3). Biểu diễn phân tích nhân tố của các câu hỏi này cũng không đáp ứng yêu cầu, có sự chênh lệch lớn giữa đƣờng lý thuyết và thực nghiệm (xem trƣờng hợp với câu hỏi 1).
Hình 2.8 . Kết quả phân tích sự phù hợp với lý thuyết IRT (items fit) và các tham số (tóm lược)
Để có nhận định chung về đề thi, chúng tối tiến hành phân tích phổ điểm theo thang năng lực và hàm thông tin của đề thi. Kết quả cho thầy năng lực trung
bình của thí sinh là 0,07 gần với mức năng lực trung bình lý thuyết, phân bố năng lực của thí sinh có dáng điệu chuẩn và số câu hỏi đáp ứng mơ hình là 55/60 câu. Hàm thơng tin có đỉnh đạt xấp xỉ 13, độ tin cậy bằng 0.81 đáp ứng yêu cầu.
Giá trị Trung bình 0.07 Trung vị 0.01 Độ lệch chuẩn 0.08 Phƣơng sai 0.17
Hình 2.9 Phân bố điểm năng lực và hàm thông tin của đề thi theo lý thuyết IRT
1. Phân bố điểm
Hình 2.10.Biểu đồ phân bố điểm thử nghiệm lần 2
Nhìn vào biểu đồ ta thấy phân bố điểm trung bình của bài kiểm tra là 6,64, độ lệch chuẩn là , phổ điểm chủ yếu tập trung vào khu vực từ 5-9 điêpr, thấp nhất là điểm 3 và cao nhất là điểm 9. Mức độ học sinh đạt điểm trung bình, yếu ít hơn
nhiều so với số lƣợng học sinh đạt từ điểm 7 trở lên. Nhƣ vậy đề đƣợc đánh giá phù hợp với năng lực của đối tƣợng khảo sát.
2. Mức độ phù hợp với mơ hình IRT
Hình 2.11.Biểu đồ cho thấy mức độ phù hợp với mơ hình IRT
Hình 2.12.Biểu đồ phân bố chuẩn của đề thi
Kết quả khi phân tích đề kiểm tra đƣợc phân bố chuẩn cho thấy đề thi có phổ điểm tƣơng đối chuẩn nhƣng có khả năng đánh giá những thí sinh ở mức năng lực thấp.
Bài kiểm tra 90 phút với 60 câu trắc nghiệm khách quan đa lựa chọn nhằm kiểm tra 3 mức năng lực nhận thức: thu thập thông tin, kết nối- tích hợp, phản hồi- đánh giá.
Với dạng đề có nhiều câu hỏi và các đặc trƣng phân tích đã rõ, chúng tơi tiến hành phân tích theo nhóm các vấn đề và nhóm các câu hỏi nhƣ sau:
Sau khi sử dụng phần mềm IATA chúng tôi tiến hành phân tích một số nhóm câu hỏi tốt, chƣa tốt và nhóm câu hỏi cần điều chỉnh.
Nhóm các câu hỏi tốt (các câu màu xanh: C4, C17, C19, C26, C27, C31, C35, C38, C46, C48, C50, C52, C53, C54, C55, C56, C57, C60).
Phân tích câu hỏi số 19:
Hình 2.13 Biểu đồ minh họa chất lượng câu hỏi số 19
Nhìn vào số liệu ta thấy câu hỏi số 19 có độ khó và độ phân biệt tố, độ phân biệt D= 0,65 đây là câu hỏi có giá trị phân biệt nhóm thí sinh có năng lực cao và nhóm thí sinh có năng lực thấp. độ khó P=0,41, nằm trong khoảng phù hợp từ 0,25-0,75. Với câu hỏi này, nhóm thí sinh có năng lực cao hầu hết đều lựa chọn đáp án đúng là C với 76,6%, nhóm thí sinh có năng lực trung bình thì phân vân giữa các đáo án B và C, các phƣơng án khác đều có sự lựa chọn khá đồng đều. Với nhóm thí sinh có năn lực thấp thì hầu hết lựa chọn các phƣơng án khác. Nhìn vào tổng thể ta có thể thấy, các phƣơng án nhiều của câu hỏi này tƣơng đối tốt, đều có
các thí sinh lựa chọn, độ khó của câu hỏi phù hợp vì vậy năng lực của thí sinh càng tốt thì xác xuất trả lời câu hỏi càng cao.
K3. Câu 19. Trong truyện Nhưng nó phải bằng hai mày tác giả dân gian đã chơi chữ bằng cách nào?
A. Sử dụng từ đồng nghĩa. B. Sử dụng cách nói lái. C. Sử dụng từ đồng âm. D. Sử dụng từ trái nghĩa.
Theo phân tích của chuyên gia, câu hỏi số 19 đƣợc thiết kế kiểm tra cấp độ thu thập thông tin về mặt kiến thức do đó độ khó p= 0,41 là độ khó lí tƣởng, D= 0,65 là độ phân biệt có thể chấp nhận đƣợc. Kết quả này cũng có thể khẳng định thông qua đƣờng cong đặc trƣng. Điều này cho thấy câu hỏi thiết kế phù hợp để đo lƣờng năng lực của thí sinh.
Nhóm câu hỏi cần điều chỉnh (câu hỏi có màu vàng: C2, C3, C7, C10, C12, C14, C15, C18, C20, C21, C22, C23, C25, C28, C29, C30, C32, C33, C34, C36, C37, C39, C40, C41, C42, C43, C44, C45, C47, C49, C51, C58, C59).
Hình 2.14: Biểu đồ minh họa chất lượng câu hỏi số 37
Với câu hỏi số 37, đây là câu hỏi có độ khohs lí tƣởng p=0,48 nhƣng độ phân biệt của câu hỏi thấp d=0,29, dƣờng nhƣ không có độ phân biệt về năng lực của các thí sinh. Vì vậy với nhóm học sinh có năng lực cao thì chỉ có 63,8% trả lời
lại chia đều cho cả 4 phƣơng án. Tƣơng tự với nhóm học sinh có năng lực yếu. Nhìn vào câu hỏi ta dễ dàng nhận ra phƣơng án nhiễu A dễ gây hiểu lầm cho thí sinh về đáp án đúng. Vì vậy nên điều chỉnh phƣơng án nhiễu ở đáp án A cho câu hỏi này.
R2. Câu 37. Hai câu: “Chi phấn hữu thần liên tử hậu/ Văn chương vô mệnh
lụy phần dư” chia sẻ cảm hứng với câu thơ nào của Nguyễn Du trong tác phẩm Đoạn trường tân thanh?
A. Đau đớn thay phận đàn bà
Lời rằng bạc mệnh cũng là lời chung
B. Đắn đo cân sắc cân tài
Ép cung cầm nguyệt thử bài quạt thơ
C. Trăm năm trong cõi ngƣời ta
Chữ tài chữ mệnh khéo là ghét nhau Trải qua một cuộc bể dâu
Những điều trơng thấy mà đau đớn lịng
D. Thơng minh vốn sẵn tính trời
Pha nghề thi họa đủ mùi ca ngâm Cung thƣơng làu bậc ngũ âm
Nghề riêng ăn đứt hồ cầm một trƣơng Khúc nhà tay lựa nên chƣơng
Một thiên bạc mệnh lại càng não nhân.
Tƣơng tự với câu số 34 có thể thấy, đây là câu hỏi quá dễ với độ khó p=0,92, câu hỏi cũng khơng phân biệt đƣợc năng lực của các nhóm thí sinh.
Hình 2.15: Biểu đồ minh họa chất lượng câu hỏi số 34
Nhìn vào bảng số liệu ta có thể thấy vì độ khó câu hỏi dễ nên 100% số thí sinh ở mức năng lực cao đều trả lời đúng. Với nhóm học sinh có mắc năng lực trung bình cũng có tới 89,15 học sinh trả lời đúng câu hỏi này và có 79,1% số thí sinh ở nhóm năng lực thấp trả lời đúng câu hỏi. Các phƣơng án nhiễu của câu hỏi chƣa đạt khi số thí sinh lựa chọn rất ít.
Nhóm câu hỏi cần loại bỏ (câu hỏi có màu đỏ: C1, C5, C6, C8, C9, C11, C13, C16, C24).
Với câu hỏi số 1, độ khó p=0,82, độ phân biệt d= 0,17, nhìn vào bảng số liệu ta có thể thấy đây là một câu hỏi cần đƣợc loại bỏ vì khơng đánh giá đƣợc năng lực của thí sinh và hầu nhƣ khơng có sự phân biệt giữa các nhóm thí sinh có năng lực khác nhau. Các phƣơng án nhiễu kém, đặc biệt là phƣơng án A vì hầu nhƣ khơng có sự lựa chọn hoặc rất ít.
Hình 2.16: Biểu đồ minh họa chất lượng câu hỏi số 1
3. Phân bố độ khó câu hỏi và năng lực của thí sinh
Để đánh giá chính xác về năng lực của thí sinh tƣơng ứng với độ khó của câu hỏi, chúng tơi tiếp tục chạy dữ liệu phân tích bằng phần mềm Conquest và thu đƣợc kết quả nhƣ sau:
Hình 2.17: Phân bố độ khó câu hỏi và năng lực thí sinh
Nhìn vào kết quả có thể nhận thấy đây là biểu đồ cho thấy năng lực của thí sinh tƣơng ứng với các câu hỏi. X là biểu thị cho thí sinh tƣơng ứng với 60 câu hỏi của đề kiểm tra. Kết hợp với ma trận đề thi có thể thấy những câu hỏi phía trên là những câu hỏi khó (C42, C36, C49, C51, C58), những câu phía dƣới là những câu hỏi dễ hơn. Tƣơng ứng với các chữ x biểu thị cho thí sinh cũng nhƣ vậy, x càng
có năng lực thấp. Nhìn vào đây sẽ thấy, đa phần các thí sinh tham gia khảo sát có năng lực tốt hơn so với đề thi vì có q nhiều câu hỏi ở mức độ trung bình, dễ.
Tiểu kết chƣơng 2
Trong chƣơng 2 của luận văn tác giả tập trung khái quát và xây dựng quy trình nghiên cứu, thử nghiệm, phân tích số liệu để xác định độ tin cậy. Kết quả đã có một bộ cơng cụ để tiến hành đánh giá năng lực đọc hiểu văn bản Ngữ văn 10 THP. Tuy nhiên những câu hỏi trong đề thi đang đánh giá các thí sinh ở mức năng lực trung bình.
Với thử nghiệm lần 1, độ tin cậy của cơng cụ chƣa cao, sau khi phân tích số liệu khảo sát cho thấy có nhiều câu hỏi cần loại bỏ và xem xét để có thể đánh giá năng lực đọc hiểu của học sinh tốt hơn.
Sau q trình chỉnh sửa bộ cơng cụ dựa trên kết quả của phần mềm và xin ý kiến chuyên gia, chúng tôi thu đƣợc những câu hỏi ở đề thực nghiệm lần 2. Kết quả xử lí số liệu cho thấy bộ cơng cụ sau chỉnh sửa có độ tin cậy tốt hơn, phù hợp để đánh giá năng lực đọc hiểu hiểu của học sinh ở mức trung bình.