CHƯƠNG 2: XÂY DỰNG MÔ HÌNH TRẮC NGHIỆM THÍCH NGHI
2.3. ƯỚC LƯỢNG THAM SỐ BKT VÀ IRT
Khi áp dụng mô hình đề xuất thì vấn đề đặt ra là làm sao xác định được tập hợp 04 tham số trong mô hình BKT cho mỗi đỉnh kiến thức và tập hợp tham số cho ngân hàng câu hỏi trắc nghiệm khi sử dụng IRT. Tác giả đề xuất sử dụng xác suất
DUT.LRCC
Nghiên cứu bayesian knowledge tracing xây dựng hệ thống trắc nghiệm thích nghi
thực nghiệm để tính toán các tham số cho mô hình BKT và sử dụng lý thuyết trắc nghiệm cổ điển để tính toán các tham số cho câu hỏi trắc nghiệm.
2.3.1. Tính toán tham số BKT sử dụng xác suất thực nghiệm
Xác suất thực nghiệm là một quy trình hai bước bao gồm: Xác định dữ liệu ngân hàng câu hỏi có hiệu suất với đỉnh kiến thức, sau đó sử dụng thông tin này để tính toán các tham số trong mô hình BKT.
Bước đầu tiên trong xác suất thực nghiệm là xác định được tập hợp dữ liệu hiệu quả để đánh giá cho từng thí sinh trong mỗi đỉnh kiến thức. Giả sử mức độ kiến thức là biết và không biết, và không cho phép quên (trạng thái chưa biết không bao giờ có thể theo sau trạng thái đã biết). Tác giả đề xuất sử dụng phương pháp heuristic đơn giản [10] để xác định thời điểm thí sinh học một đỉnh kiến thức và lựa chọn chuỗi câu hỏi phù hợp nhất.
Hình 2.3. Lựa chọn dữ liệu hiệu quả và Xác suất thực nghiệm
Trong hình 2.3 mô tả một đỉnh kiến thức gồm 5 câu hỏi và có 6 thí sinh đã tham gia đánh giá. Tác giả đề xuất những dữ liệu hiệu quả trong việc tính xác suất thực nghiệm là những dữ liệu thí sinh sở hữu số câu hỏi trong đỉnh kiến thức nhiều (trong ví dụ ở hình 2.3 là 80% trở lên), dựa vào những dữ liệu đó ta sẽ lập được ma trận dữ liệu hiệu quả để tính toán.
Bước tiếp theo: tính toán xác suất cho các tham số trong mô hình BKT từ dữ liệu ban đầu. Tham số P(L0) là xác suất thí sinh biết trước đỉnh kiến thức (trước khi bước vào quá trình đánh giá) được tính bằng cách lấy giá trị trung bình của thí sinh trong trong lần trả lời đầu tiên [11], với K là kết quả trả lời câu hỏi đầu tiên của các dữ liệu hiệu quả:
P(𝐿0) =∑ 𝐾0
|𝐾0| (2.13)
Sử dụng 𝐾𝑖 (mức độ kiến thức) và 𝐶𝑖 (kết quả trả lời đúng câu hỏi) của các dữ liệu hiệu quả làm cơ sở ta có thể tính toán 03 tham số còn lại của mô hình BKT như sau:
DUT.LRCC
Nghiên cứu bayesian knowledge tracing xây dựng hệ thống trắc nghiệm thích nghi P(T) =∑𝑖≠0(1 − 𝐾𝑖−1)𝐾𝑖
∑𝑖≠1(1 − 𝐾𝑖−1) (2.14)
P(G) = ∑ 𝐶𝑖 𝑖(1 − 𝐾𝑖)
∑ (1 − 𝐾𝑖 𝑖) (2.15) P(S) =∑ (1 − 𝐶𝑖 𝑖)𝐾𝑖
∑ 𝐾𝑖 𝑖 (2.16) 2.3.2. Tính toán tập tham số câu hỏi trắc nghiệm
Lý thuyết Trắc nghiệm cổ điển (Classical Test Theory) là một trong những lý thuyết quan trọng liên quan đến khoa học đo lường đánh giá được xây dựng dựa trên khoa học xác suất và thống kê. Lý thuyết này được ứng dụng trong việc phân tích câu hỏi trắc nghiệm nhằm làm tăng chất lượng của chúng, loại bỏ, sửa chữa và tuyển chọn câu hỏi trắc nghiệm theo yêu cầu.
Khi phân tích câu hỏi trắc nghiệm có 2 chỉ số cần quan tâm là độ khó và độ phân biệt của câu hỏi trắc nghiệm.
Độ khó của câu hỏi trắc nghiệm là chỉ số đo nói lên chất lượng của câu hỏi trắc nghiệm, có hiệu nghiệm trong việc phân tán, đánh giá năng lực của thí sinh.
Theo lý thuyết trắc nghiệm cổ điển thì độ khó bi của câu hỏi trắc nghiệm i là tỷ số phần trăm số thí sinh làm đúng câu hỏi trắc nghiệm i trên tổng số thí sinh tham gia làm câu hỏi trắc nghiệm đó:
𝑏𝑖 =𝑁1
𝑁 (2.17) Trong đó:
− N1: số thí sinh trả lời đúng câu hỏi trắc nghiệm i;
− N: tổng số thí sinh trả lời câu hỏi trắc nghiệm i.
Giá trị độ khó b của mỗi câu hỏi trắc nghiệm chưa nói lên được câu hỏi trắc nghiệm đó tốt hay không, nhưng nó nói lên độ khó tương đối của câu hỏi trắc nghiệm đó đối với nhóm thí sinh tham gia làm bài trắc nghiệm. Nếu một nhóm thí sinh khác trả lời câu hỏi trắc nghiệm đó thì giá trị độ khó b có thể khác.
Giá trị độ khó b có ý nghĩa quan trọng trong quá trình phân tích câu hỏi. Từ đó có thể thấy được mức độ phù hợp của câu hỏi trắc nghiệm đó đối với nhóm thí sinh. Ngoài ra, giá trị b còn giúp xác định một số lỗi khác của câu hỏi trắc nghiệm để kịp thời điều chỉnh, sửa đổi. Giá trị b cũng có thể cho thấy kết quả làm bài của các nhóm thí sinh khác nhau. Có thể xác định độ khó bằng phương pháp thống kê.
Dựa vào kết quả trắc nghiệm khách quan có thể phân chia thí sinh thành 3 nhóm:
DUT.LRCC
Nghiên cứu bayesian knowledge tracing xây dựng hệ thống trắc nghiệm thích nghi
− Nhóm 1: là nhóm thí sinh giỏi (25% ÷ 27% thí sinh có kết quả trắc nghiệm cao nhất);
− Nhóm 2: là nhóm thí sinh yếu (25% ÷ 27% thí sinh có kết quả trắc nghiệm thấp nhất);
− Nhóm 3: là nhóm thí sinh trung bình (46% ÷ 50% thí sinh còn lại, không phụ thuộc vào 2 nhóm kia).
Khi đó độ khó câu hỏi trắc nghiệm i được tính như sau:
𝑏𝑖 =𝑁𝐺𝑖+ 𝑁𝑊𝑖
𝑁 (2.18) Trong đó:
− NGi là số thí sinh thuộc nhóm giỏi trả lời đúng câu hỏi trắc nghiệm i;
− NWi là số thí sinh thuộc nhóm yếu trả lời đúng câu hỏi trắc nghiệm i;
− N là tổng số thí sinh tham gia trả lời câu hỏi trắc nghiệm i.
Độ khó câu hỏi trắc nghiệm sẽ có giá trị trong khoảng [0, 1], giá trị độ khó càng gần 0 thì độ khó câu hỏi trắc nghiệm càng tăng, ngược lại giá trị độ khó càng gần 1 thì độ khó câu hỏi trắc nghiệm càng giảm. Thông thường độ khó của một câu hỏi trắc nghiệm có thể chấp nhận được nằm trong khoảng [0.25, 0.75], câu hỏi trắc nghiệm có độ khó lớn hơn 0,75 là quá dễ, có độ khó nhỏ hơn 0,25 là quá khó.
Một câu hỏi trắc nghiệm cần có khả năng phân biệt thí sinh có các mức năng lực khác nhau như: giỏi, khá, trùng bình, yếu,… Khả năng của câu hỏi trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt và được thể hiện thông qua tham số độ phân biệt (discriminasion) của câu hỏi trắc nghiệm. Với câu hỏi trắc nghiệm có độ phân biệt thì phản ứng của các thí sinh có mức độ năng lực khác nhau đối với câu hỏi trắc nghiệm đó phải là khác nhau.
Độ phân biệt của một câu hỏi trắc nghiệm liên quan đến độ khó của câu hỏi trắc nghiệm đó. Nếu một câu hỏi trắc nghiệm dễ đến mức mọi thí sinh đều làm đúng thì độ phân biệt của nó rất kém vì mọi thí sinh đều có kết quả như nhau đối với câu hỏi trắc nghiệm đó. Ngược lại, nếu một câu hỏi trắc nghiệm khó đến mức mọi thí sinh đều làm sai thì độ phân biệt của nó cũng rất kém. Từ các trường hợp giới hạn nói trên có thể nói rằng muốn có độ phân biệt tốt thì câu hỏi trắc nghiệm phải có độ khó ở mức trung bình. Độ phân biệt của câu hỏi i được tính như sau:
𝑎𝑖 = 𝑁𝐺𝑖− 𝑁𝑊𝑖
(𝑁𝐺𝑖− 𝑁𝑊𝑖)𝑀𝑎𝑥 (2.19)
DUT.LRCC
Nghiên cứu bayesian knowledge tracing xây dựng hệ thống trắc nghiệm thích nghi Trong đó: ai là độ phân biệt của câu hỏi i. Độ phân biệt của một câu hỏi trắc nghiệm là chỉ số xác định chất lượng của câu trắc nghiệm, có tác dụng phân loại các nhóm năng lực của thí sinh. Theo Ebel:
− Nếu ai ≤ 0 thì câu hỏi trắc nghiệm i không có độ phân biệt hay nói cách khác là câu hỏi trắc nghiệm đó không phân biệt được các thí sinh có mức độ năng lực khác nhau;
− Nếu 0 < ai < 0.3 thì câu hỏi trắc nghiệm i có độ phân biệt thấp;
− Nếu 0.3 ≤ ai < 1 thì câu hỏi trắc nghiệm i có độ phân biệt cao.
Độ khó và độ phân biệt có mối quan hệ tỷ lệ thuận với nhau. Tuy nhiên, nếu độ khó đạt đết mức độ 100% thì độ phân biệt sẽ bằng 0. Những câu hỏi trắc nghiệm như vậy sẽ ít có giá trị sử dụng.