Phân bố của thời gian phản hồi theo đơn vị giây của câu hỏi 3 (hình

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp tạo chỉ số thống kê và ứng dụng (Trang 56)

2 Mơ hình phản hồi thời gian ứng đáp câu hỏi lognormal

3.2 Phân bố của thời gian phản hồi theo đơn vị giây của câu hỏi 3 (hình

hỏi 13 (hình dưới; N=490).[4]

Khơng ràng buộc Có ràng buộc Mơ hình lơ-ga-rít chuẩn

Mơ hình chuẩn

Hình 3.3: Ước lượng cường độ thời gian (βi) và tham số độ phân biệt (αi) trong mơ hình lơ-ga-rít chuẩn và mơ hình chuẩn cho cả hai trường hợp khơng có ràng bc và có ràng buộc củaαi.[4]

Khơng ràng buộc Có ràng buộc Mơ hình lơ-ga-rít chuẩn

Mơ hình chuẩn

Hình 3.4: Phân bố của tham số tốc độ (τi) đã ước lượng ở mơ hình lơ-ga-rít chuẩn và mơ hình chuẩn cho cả hai trường hợp tham sốαi khơng có ràng buộc và có ràng buộc.[4]

3.3 Độ phù hợp của mơ hình

Để kiểm tra độ phù hợp cho cả4mơ hình, ta sử dụng phân bố của xác suất hậu nghiệm tích lũy ở phương trình32cho thời gian phản hồi của 27029câu hỏi-thí sinh của mẫu. Hình 3.5 biểu diễn phân bố tích lũy của cả 4 mơ hình. Ta đã biết đường cong có độ phù hợp hồn hảo khi nó gần nhất với đường thẳng y = x, như vậy hai đường cong của mơ hình lơ-ga-rít chuẩn có độ phù hợp tương đối hồn hảo. Cịn hình dáng đường cong ở hai mơ hình chuẩn cho thấy độ lệch của hệ thống ở các quan sát phía đi dưới và đi trên. Một lần nữa, ràng buộc của αi không tạo ra ảnh hưởng gì mấy đến kết quả biểu diễn. Vì mơ hình lơ-ga-rít chuẩn cho kết quả biểu diễn có độ phù hợp tốt hơn nhiều nên ta sẽ chỉ tiếp tục phân tích sâu thêm mơ hình này.

Độ phù hợp của từng câu hỏi được đánh giá bằng cách lặp lại quy trình trước đó cho từng câu hỏi một với phân bố của xác suất tích lũy cho các thí sinh trả lời câu hỏi đó. Hình 3.6 ta biết những câu hỏi có độ phù hợp tốt nhất và tệ nhất của tập dữ liệu. Thậm chí với câu hỏi có độ phù hợp tệ nhất thì độ phù hợp dường như vẫn thỏa mãn được hầu hết các mục đích thực tế.

Độ dài của bài kiểm tra trong tập dữ liệu này quá ngắn nên khơng thể sử dụng quy trình tương tự để kiểm tra độ phù hợp của các thí sinh. Thay vào đó, ta sẽ đếm số

Khơng ràng buộc Có ràng buộc Mơ hình lơ-ga-rít chuẩn

Mơ hình chuẩn

Hình 3.5: Tổng quan độ phù hợp của mơ hình lơ-ga-rít chuẩn và mơ hình chuẩn cho cả hai trường hợp tham sốαi khơng có ràng buộc và có ràng buộc. Càng phù hợp thì đường cong càng gần với đường thẳng đơn vị y=x.[4]

Không ràng buộc Có ràng buộc Câu hỏi tốt nhất

Câu hỏi tệ nhất

Hình 3.6: Độ phù hợp của mơ hình lơ-ga-rít chuẩn cho câu hỏi tốt nhất và câu hỏi tệ nhất với cả hai trường hợp tham sốαi khơng có ràng buộc và có ràng buộc. Càng phù hợp thì đường cong càng gần với đường thẳng đơn vị y=x[4]

thí sinh có thời gian phản hồi quan sát được nhỏ hơn đuôi dưới hoặc lớn hơn đi trên của bách phân vị cho trước. Sau đó ta so sánh tỷ lệ số lần vừa đếm được với xác suất kỳ vọng tính theo phân bố nhị phân. Ví dụ, với các thí sinh cùng làm 15 câu hỏi, ta kỳ vọng có tỷ lệ 15x 0.005x0.9515−x thí sinh có thời gian phản hồi nhỏ hơn bách phân vị thứ 5 ; có nghĩa là tại giá trị đó có nhiều nhất 5 phần trăm thí sinh có thời gian phản hồi kém hơn giá trị thời gian phản hồi này. Kết quả của bách phân vị đuôi trái được thể hiện ở Bảng 3.3, bách phân vị đuôi phải được thể hiện ở Bảng 3.4. Kết luận chính được rút ra từ hai bảng này là nhìn chung, số lượng thí sịnh khơng phù hợp ít hơn lượng kỳ vọng nếu chỉ tính thuần xác suất. Với cả ba loại bài kiểm tra có độ dài khác nhau, ở bách phân vị thứ 5, 10ở Bảng 3.3 và bách phân vị 90và 95ở Bảng 3.4, ta thấy tỷ lệ thí sịnh khơng có thời gian phản hồi lớn hơn nhiều so với kỳ vọng trong khi tỷ lệ thí sịnh có thời gian phản hồi của 1,2,3 câu đều thấp hơn kỳ vọng. Tỷ lệ thí sinh ở mơ hình lơ-ga-rít chuẩn ít hơn một chút so với mơ hình lơ-ga-rít chuẩn có ràng buộc, nhưng khơng có lý do gì rõ ràng cho sự khác biệt này.

Lognormal Lognormal+ràng buộc

Phân vị Độ dài bài kiểm tra p 0 1 2 ≥3 0 1 2 ≥3

0.05 13 Quan sát 0.65 0.29 0.05 0.01 0.63 0.31 0.06 0.00 0.05 13 Kỳ vọng 0.51 0.35 0.11 0.03 0.51 0.35 0.11 0.03 0.05 14 Quan sát 0.64 0.30 0.06 0.00 0.57 0.36 0.07 0.00 0.05 14 Kỳ vọng 0.49 0.36 0.12 0.03 0.49 0.36 0.12 0.03 0.05 15 Quan sát 0.59 0.35 0.06 0.00 0.58 0.32 0.09 0.01 0.05 15 Kỳ vọng 0.46 0.37 0.13 0.04 0.46 0.37 0.13 0.04 0.10 13 Quan sát 0.37 0.40 0.18 0.05 0.34 0.42 0.19 0.05 0.10 13 Kỳ vọng 0.25 0.37 0.24 0.14 0.25 0.37 0.24 0.14 0.10 14 Quan sát 0.29 0.42 0.23 0.06 0.28 0.41 0.24 0.07 0.10 14 Kỳ vọng 0.23 0.36 0.26 0.15 0.23 0.36 0.26 0.15 0.10 15 Quan sát 0.28 0.47 0.17 0.08 0.26 0.49 0.19 0.05 0.10 15 Kỳ vọng 0.21 0.34 0.27 0.18 0.21 0.34 0.27 0.18

Ghi chú: Các cột ghi 0,1,2, ≥3 thể hiện số lượng câu hỏi.

Bảng 3.3: Tỷ lệ quan sát được và tỷ lệ kỳ vọng của thí sinh có thời gian phản hồi nhỏ hơn phân vị5

và10trong phân bố hậu nghiệm ở từng trường hợp câu hỏi.[4]

Tóm lại, mơ hình lơ-ga-rít chuẩn trong bài này rõ ràng vượt trội hơn so với mơ hình chuẩn. Vì thời gian phản hồi nhìn chung là lớn (như trong Hình 3.2), nên việc ta kỳ vọng sự xuất hiện tự nhiên của số 0 sẽ không ảnh hưởng đến độ phù hợp của mơ hình chuẩn hóa ra lại hơi lạc quan. Rõ ràng, với bài kiểm tra thích ứng, ta cần mơ hình lơ-ga-rít chuẩn để phù hợp với độ lệch của phân bố thời gian phản hồi.

Khía cạnh thống kê Bayes của mơ hình cũng giúp ta thuận tiện trong việc áp dụng giải thuật Gibbs và một loạt các quy trình kiểm tra độ phù hợp dựa vào phân bố hậu nghiệm dự đốn của "thí sinh-và-câu hỏi". Với tập dữ liệu trong ví dụ thực nghiệm,

Lognormal Lognormal+ràng buộc

Phân vị Độ dài bài kiểm tra p 0 1 2 ≥3 0 1 2 ≥3

0.95 13 Quan sát 0.63 0.29 0.08 0.00 0.59 0.32 0.08 0.01 0.95 13 Kỳ vọng 0.51 0.35 0.11 0.03 0.51 0.35 0.11 0.03 0.95 14 Quan sát 0.58 0.32 0.09 0.01 0.55 0.34 0.09 0.02 0.95 14 Kỳ vọng 0.49 0.36 0.12 0.03 0.49 0.36 0.12 0.03 0.95 15 Quan sát 0.61 0.26 0.10 0.03 0.59 0.29 0.10 0.02 0.95 15 Kỳ vọng 0.46 0.37 0.13 0.04 0.46 0.37 0.13 0.04 0.90 13 Quan sát 0.31 0.42 0.21 0.06 0.30 0.42 0.22 0.06 0.90 13 Kỳ vọng 0.25 0.37 0.24 0.14 0.25 0.37 0.24 0.14 0.90 14 Quan sát 0.27 0.38 0.26 0.09 0.26 0.37 0.28 0.09 0.90 14 Kỳ vọng 0.23 0.36 0.26 0.15 0.23 0.36 0.26 0.15 0.90 15 Quan sát 0.31 0.40 0.18 0.12 0.28 0.40 0.22 0.10 0.90 15 Kỳ vọng 0.21 0.34 0.27 0.18 0.21 0.34 0.27 0.18

Ghi chú: Các cột ghi 0,1,2,≥3thể hiện số lượng câu hỏi.

Bảng 3.4: Tỷ lệ quan sát được và tỷ lệ kỳ vọng của thí sinh có thời gian phản hồi nhỏ hơn phân vị5

và10trong phân bố hậu nghiệm ở từng trường hợp câu hỏi.[4]

tốc độ chạy của PC là 1.50GHz, 256M B RAM thì cứ khoang 1000 vịng lặp của giải thuật Gibbs là chạy trong xấp xỉ một tiếng. Vì thời gian chạy dữ liệu tỷ lệ thuận với số lượng thí sinh-câu hỏi nên ta dễ dàng tính được tổng thời gian cần thiết để ước lượng tham số cho tập dữ liệu. Với bài kiểm tra trên máy tính, thời gian phản hồi được tự động ghi lại trong thời gian làm kiểm tra nên cũng khơng khó để ước lượng thêm tham số câu hỏi trong mơ hình phục vụ cho việc hiệu chỉnh câu hỏi.

KẾT LUẬN

Luận văn nghiên cứu phương pháp tạo chỉ số thống kê của thời gian phản hồi trong bài kiểm tra đánh giá thích ứng dựa theo lý thuyết ứng đáp câu hỏi. Trong luận văn đã thực hiện được các công việc sau đây:

- Tổng hợp và trình bày một cách rõ ràng hơn về mơ hình thời gian phản hồi, q trình phát triển của mơ hình. Đưa ra lý do tại sao lại chọn mơ hình lơ-ga-rít chuẩn để đo thời gian phản hồi dựa vào việc lựa chọn các tham số phù hợp và so sánh độ khớp giữa mơ hình lơ-ga-rít chuẩn với mơ hình chuẩn.

- Trình bày ví dụ thực nghiệm cho mơ hình thời gian phản hồi lơ-ga-rít chuẩn và mơ hình phản hồi chuẩn, so sánh độ khớp của hai mơ hình trên bộ dữ liệu để rút ra được các chỉ số đánh giá năng lực người học dựa vào thời gian phản hồi. Đồng thời rút ra được kết luận có thể coi chỉ số độ phân biệt là một hằng số để giảm độ phức tạp của mơ hình mà khơng làm ảnh hưởng đến kết quả cuối cùng.

Hướng tìm hiểu nghiên cứu tiếp theo của luận văn này là đưa mơ hình phản hồi thời gian lơ-ga-rít chuẩn IRT vào mơ hình phân cấp. Mơ hình phân cấp cho phép ta ước lượng phân bố mẫu của tham số câu hỏi theo hai mơ hình. Như vậy ta có thể sử dụng ví dụ thực tiễn phía trên để làm thêm một bước nữa là ước lượng tham số IRT từ thời gian phản hồi.

Ngồi ra mơ hình thời gian phản hồi này có thể được sử dụng để cập nhật lại, tăng thêm độ chính xác trong ước tính năng lực thí sinh ở các bài kiểm tra thích ứng, đồng thời cải thiện quá trình thiết kế bài kiểm tra, lựa chọn câu hỏi.

Thực tế, mơ hình thời gian cho phép ta cải thiện mọi quy trình kiểm tra bất kỳ ở hiện tại vì nó đưa ra cho chúng ta thêm một nguồn thông tin quý giá để đánh giá năng lực người học.

Tài liệu tham khảo

[1] Đặng Hùng Thắng (2007), Quá trình ngẫu nhiên và tính tốn ngẫu nhiên, NXB

Đại học Quốc gia Hà Nội.

[2] Fox, J.-P.(2018),Modeling Response Accuracy and Response Times.

[3] Roskam, E. E. (1997), Models for Speed and Time-limit tests. In W. J. van der Linden&R. K. Hambleton (Eds.),Handbook of modern item response theory (pp. 187–208). New York: Springer.

[4] van der Linden, W. J.(2006), A Lognormal Model for Response Times on Test Items, Journal of Educational and Behavioral Statistics, 31, 181–204.

[5] van der Linden, W. J.(2008), Using Response Times for Item Selection in Adaptive Testing, Journal of Educational and Behavioral Statistics, 33, 5–20.

[6] van der Linden, W. J.(2009), Conceptual Issues in Response-time Model- ing,Journal of Educational Measurement, 46, 247–272.

[7] van der Linden, W. J., and Klein Entink, R. H., and Fox, J.-P. (2010), Item Parameter Estimation with Response Times as Collateral Information. Applied Psychological Measurement, 34, 327–347.

[8] van der Linden (2019), Lognormal Response-Time Model. In W. J. van der Lin- den, Handbook of Item Response Theory Volume one (p. 261–282). Chapman and Hall/CRC.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp tạo chỉ số thống kê và ứng dụng (Trang 56)

Tải bản đầy đủ (PDF)

(62 trang)