CHƢƠNG 3 : TRẮC NGHIỆM THÍCH NGHI
3.4. Một số phát triển mới hiện nay
3.4.3. Sử dụng các công cụ trắc nghiệm thích nghi
Khi kiểm tra tuyến tính trở nên thích nghi, sự tiết kiệm thời gian trắc nghiệm có thể đƣợc sử dụng để làm ngắn độ dài bài trắc nghiệm hoặc tăng độ chính xác của điểm số. Ví dụ các hệ thống trắc nghiệm có thể đƣợc quản lý trong một session đơn có khối lƣợng việc làm kiểm tra là rất lớn. Những ví dụ là sự sử dụng hệ thống trắc nghiệm cho cố vấn hƣớng nghiệp hay chẩn đoán cho hƣớng dẫn điều trị. Với cả hai, mục đích là để đƣa ra những profile về điểm số cho mỗi ngƣời làm bài kiểm tra. Khi các profile đƣợc sử dụng cho việc ra các quyết định quan trọng, độ chính xác của các điểm cá nhân của họ cao nhƣ là trắc nghiệm thông thƣờng. Nhƣng thƣờng là không thể quản lý một hệ thống có năm bài trắc nghiệm với độ dài thông thƣờng. Một trong những ứng dụng đầu tiên của trắc nghiệm thích nghi là để giải quyết tình trạng giữa độ chính xác và tổng thời gian trắc nghiệm cho các hệ thống trắc nghiệm [7]. Nhƣ các quy tắc vụng về, trắc nghiệm thích nghi cần 40-50% câu hỏi để nghiên cứu có độ chính xác nhƣ một bài trắc nghiệm tuyến tính. Ví dụ, việc tăng độ hiệu quả cho phép chúng ta sử dụng thời gian 1 giờ trắc nghiệm về 5 bài trắc nghiệm thích nghi đạt đƣợc 10 câu hỏi sử dụng trong hƣớng dẫn chẩn đoán bệnh, và để hiệu
quả tƣơng đƣơng với một hệ thống 5 bài kiểm tra tuyến tính của khoảng 20-24 câu hỏi.
Tính hiệu quả có thể đƣợc nâng cao hơn bằng việc tối ƣu hóa các lệnh mà ở đó các bài kiểm tra đƣợc quản lý tới từng ngƣời tham gia kiểm tra. Một cách hiển nhiên, chiến lƣợc tốt nhất là chọn các lệnh một cách thích nghi: Bài kiểm tra đầu tiên sau đó đƣợc chọn để tối ƣu trên các ƣớc lƣợng ban đầu của mỗi năng lực đƣợc đo bởi các bài kiểm tra. Sau bài kiểm tra đầu tiên hoàn thành, bài kiểm tra thứ 2 đƣợc chọn để tối ƣu trên các năng lực dự tính của các bài kiểm tra còn lại dựa trên ứng đáp của ngƣời tham gia kiểm tra bài đầu tiên, và tiếp tục nhƣ vậy.
Lý do tại sao hiệu quả của hệ thống trắc nghiệm thích nghi tuần tự lại có thể đƣợc mong đợi, là mang lợi nhuận dựa trên mẫu tiêu biểu của sự hội tụ về ƣớc lƣợng năng lực trong một bài trắc nghiệm thích nghi. Vì sự ngẫu nhiên của các đáp án, sự ƣớc lƣợng có vẻ nhƣ đi vòng một thời gian đầu trong bài kiểm tra, và hội tụ chỉ khi các đáp án bắt đầu thể hiện một xu hƣớng hiển nhiên nào đó. Việc sử dụng thông tin từ sự trả lời trong các phần kiểm tra trƣớc khiến bài kiểm tra tiếp theo bắt đầu tốt hơn rất nhiều, hơn là sự lựa chọn tiêu biểu về ƣớc lƣợng năng lực giá trị ban đầu ở đâu đó trong khoảng giữa thang đánh giá.
Một khung thống kê tự nhiên cho hệ thống trắc nghiệm thích nghi tuần tự là IRT đa cấp. Khung này nên bao gồm các mô hình đáp án riêng biệt cho mỗi một ngân hàng đề với hệ thống nhƣ các mô hình cấp đầu tiên trong sự kết hợp với mô hình cấp hai vì sự phân bố các tham số năng lực của chúng với mật độ của những ngƣời tham gia kiểm tra. Với mô hình Rasch trong (1) và một sự phân bố thông thƣờng biến đổi đa dạng cho các năng lực = (ˆ1,. . ., ˆH ) , khung trở thành
) ( 1 ) ( } 1 Pr{ h h i h i h ih b epx b epx U , ih=1, . . .,Ih , h=1, . . .,H, (4) Với ~MVN(µ,) (5)
Cũng cần chú ý sự khác biệt giữa khung này và cấu trúc đa cấp trong (2)-(3), vốn có một mô hình riêng với mỗi nhóm câu hỏi và một sự phân bố cấp thứ 2 của các tham số độ khó của chúng.
Cấu trúc đa cấp ở (4)-(5) tự thêm cho nó một cách hoàn hảo với sự thực thi trắc nghiệm thích nghi thứ tự sử dụng phƣơng pháp Bayes theo kinh nghiệm: Các câu hỏi trong bài kiểm tra đầu tiên sau đó đƣợc lựa chọn sử dụng cập nhật của sự phân bố sau của các tham số năng lực của nó. Tại cuối mỗi bài kiểm tra, những ứng
đáp đƣợc sử dụng để tính toán sự phân bố dự đoán sau của các năng lực trên mỗi bài kiểm tra còn lại trong hệ thống và bài kiểm tra với hầu hết sự phân bố dự đoán thông tin đƣợc lựa chọn. Sự phân bố này đƣợc sử dụng sau đó nhƣ một dự phân bố chính cho sự lựa chọn câu hỏi đầu tiên trong bài kiểm tra mới. Sự lựa chọn các bài kiểm tra và các câu hỏi sau là tƣơng tự.
Bƣớc tiếp cận này là theo kinh nghiệm, bởi vì mô hình 2 cấp đối với sự phân bố các năng lực đƣợc tính toán từ dữ liệu kiểm tra thực tế trong quá trình định cỡ câu hỏi. Để chi tiết hơn về hệ thống trắc nghiệm thích nghi có thứ tự này, và các kết quả theo kinh nghiệm của cả hai cho các hệ thống trắc nghiệm thích nghi có ràng buộc và không có ràng buộc [21]. Thông thƣờng, hiệu quả có đƣợc nhờ vào thứ tự thích nghi là chức năng của mẫu về sự tƣơng quan giữa các năng lực đƣợc đo đạc bởi các bài kiểm tra. Hệ thống kiểm tra trên thực tế thƣờng đƣợc xây dựng để đo một tập hợp có liên quan nhƣng các năng lực riêng rẽ. Vì vậy, chúng ta mong đợi sự tƣơng quan này sẽ là có thật, và nó có thể là một sự lãng phí khi bỏ qua thông tin về chúng.