Chu trình hoạt động của một câu hỏi

3.3.1. SIETTE

SIETTE là một hệ thống đánh giá thích nghi dựa trên web. Nó là một công cụ mở, đƣợc tích hợp bên trong các hệ thống học dựa trên web hoặc các hệ thống dạy học thông minh. Nó có thể làm việc nhƣ là công cụ đánh giá độc lập hoặc nằm trong hệ thống thích nghi web khác nhƣ là một công cụ chẩn đoán sinh viên. Trong hệ thống này, nội dung đánh giá đƣợc cấu trúc theo các môn học. Mỗi môn học đƣợc cấu trúc có thứ bậc trong các chủ đề. Một chƣơng trình đào tạo đƣợc kết hợp với mỗi chủ đề, việc trình bày một cấu trúc bao gồm một tập các câu hỏi mục tiêu đƣợc định nghĩa để đánh giá chủ đề đó.

SIETTE thực hiện kỹ thuật trắc nghiệm thích nghi trên máy tính. Thực vậy, trong hệ thống này, tiêu chí lựa chọn câu hỏi và ƣớc lƣợng mức hiểu biết của ngƣời học đƣợc thực hiện dựa trên lý thuyết ứng đáp của ngƣời hỏi. Sự lựa chọn câu hỏi dựa trên hàm ƣớc lƣợng là xác suất trả lời đúng cho một câu hỏi cụ thể, cuối cùng dẫn tới ƣớc lƣợng mức hiểu biết của ngƣời học. Bởi vậy, câu hỏi (trong ngân hàng câu hỏi chƣa đƣợc trình bày) bao gồm xác suất cao nhất sẽ đƣợc trình bày.

SIETTE bao gồm bốn thành phần:

Trƣớc khi hoạt động

Trong hoạt động

Sau hoạt động Giai đoạn soạn

thảo câu hỏi

Giai đoạn đƣa ra

Giai đoạn đánh giá Sự trình bày

câu hỏi

Sự đệ trình câu trả lời

- Thành phần đầu tiên là Knowledge base: lƣu giữ các câu hỏi, các bài trắc nghiệm và các chủ đề

- Thành phần thứ hai là Student Model Reporsitory: lƣu giữ các mô hình ngƣời học đã làm bài trắc nghiệm. Các mô hình ngƣời học này là những ƣớc lƣợng theo xác suất về sự hiểu biết các chủ đề trắc nghiệm của thí sinh. - Thành phần thứ ba là Students Workspace: là thành phần chịu trách nhiệm

tạo ra trắc nghiệm thích nghi.

- Thành phần cuối cùng là Authoring Environment: là thành phần tạo ra tập hợp các công cụ để đánh giá tạm nội dung cũng nhƣ cập nhật và phân tích kết quả của ngƣời học dựa trên các câu hỏi đã trình bày.

3.3.2. Hệ thống đánh giá cá nhân (PASS)

PASS là hệ thống đánh giá dựa trên nền web, nó thƣờng có ba sự lựa chọn đánh giá hƣớng theo các câu trả lời của ngƣời học: trắc nghiệm trƣớc tự đánh giá và đánh giá cuối kỳ. Sự sinh ra các câu hỏi dựa trên hai kỹ thuật là trắc nghiệm thích nghi và câu hỏi thích nghi trên máy tính.

Mô đun PASS đã đƣợc tích hợp và đánh giá trong môi trƣờng giả lập INSPIRE, hệ thống siêu truyền thông giáo dục thích nghi (AEHS) dựa trên web. Hệ thống có thể tích hợp đến bất kỳ AEHS nào với lĩnh vực kiến thức có cấu trúc và mô hình ngƣời học lƣu trữ thông tin về hành vi của ngƣời học.

PASS đƣợc xây dựng từ 6 thành phần chính: Assesment base, Temporary learner model, Question and Test Editor, Test adaptive jeneration, performance estimation và presentation.

- Assesment Base có chứa ngân hàng các câu hỏi với nhiều tham số và Temporary learner model. Mô hình này sử dụng để lƣu giữ thông tin về các tƣơng tác của ngƣời học với hệ thống cũng nhƣ ƣớc lƣợng tạm thời về mức độ hiểu biết của họ.

- Question and Test Editor đƣợc sử dụng cho các câu hỏi của tác giả, các thông tin phản hồi và đánh giá và các tham số câu hỏi.

- Thành phần Test adaptive Generation cho phép lựa chọn câu hỏi phù hợp đƣợc trình bày cho ngƣời học theo các tham số đánh giá và các câu hỏi và ƣớc lƣợng mức hiểu biết hiện thời đƣợc ghi trên mô hình ngƣời học tạm thời. - Performance estimation: là thành phần ƣớc lƣợng mức độ thực hiện của

ngƣời học và cập nhật vào mô hình ngƣời học tạm thời.

- Thành phần cuối cùng, presentation là thành phần trình bày câu hỏi đƣợc lựa chọn và phản hồi phù hợp tùy thuộc theo câu trả lời của ngƣời học. Thêm

vào đó nó cung cấp tiến độ học của thí sinh đƣợc trình bày bằng đồ họa và văn bản.

3.4. Một số phát triển mới hiện nay

3.4.1. Trắc nghiệm thích nghi có ràng buộc

Mặc dù sự áp đặt những đặc tả nội dung trong việc lựa chọn các câu hỏi từ ngân hàng đã định cỡ dƣờng nhƣ thừa thãi từ bối cảnh trắc nghiệm học tâm lý, nhƣng dối với kiểm tra kiến thức và kinh nghiệm từ việc học hành thì nó đặc biệt quan trọng. Vì nếu ngƣời tham gia kiểm tra nhận thấy rằng việc lựa chọn các câu hỏi có xu hƣớng tập trung vào nội dung của một số lĩnh vực nhất định và loại bỏ những lĩnh vực khác, thì họ sẽ có thể thay đổi việc học và làm mất hiệu lực sự định cỡ câu hỏi. Thêm vào đó với các đặc tả nội dung, những bài trắc nghiệm thích nghi thƣờng phải thỏa mãn nhiều điều kiện khác, một vài cái thƣờng liên quan tới giá trị của chúng nhƣng một số khác thì chỉ đơn giản mang tính ôn luyện tập. Hơn nữa việc sử dụng những sự thay đổi đặc biệt trong thuật toán để giải quyết riêng với các đặc tả này, chúng ta nên quan tâm tới bƣớc tiếp cận chung có thể đƣợc tin tƣởng với bất kỳ loại sự đặc tả kiểm tra nào.

Chìa khóa dẫn tới sự phát triển của cách tiếp cận này là khái niệm đặc tả bài trắc nghiệm nhƣ là một sự ràng buộc việc chọn các câu hỏi bởi thuật toán. Đó là, sự chấp nhận của nó chỉ ra rằng chúng ta có thể coi trắc nghiệm thích nghi nhƣ một trƣờng hợp của sự tối ƣu tổ hợp có ràng buộc (Constrained), một vấn đề khi chúng ta lựa chọn sự kết hợp tối ƣu của các câu hỏi từ ngân hàng và phải đạt đƣợc các tiêu chuẩn ràng buộc đã đƣợc định nghĩa. Tuy nhiên, không nhƣ sự tối ƣu tổ hợp có ràng buộc thông thƣờng, sự kết hợp phải đƣợc tìm ra một cách tuần tự, mỗi lần cập nhật hàm mục tiêu là lúc đƣợc tối ƣu – trong hình 11: Thông tin về  trong bài kiểm tra – mỗi câu hỏi mới đƣợc chọn.

Sự tuần tự tự nhiên của vấn đề đã ngăn chúng ta khỏi việc lần tìm ngƣợc đó là việc hủy sự lựa chọn câu hỏi sớm hơn nếu nó xuất hiện dẫn tới một giải pháp là gần tối ƣu hoặc thậm chí không khả thi bởi vì một vài ràng buộc trong bài kiểm tra sẽ bị vi phạm sau đó. Lần tìm ngƣợc là các thuật toán điển hình sử dụng cho giải pháp giải quyết các vấn đề của tối ƣu tổ hợp thông thƣờng (ví dụ: thuật toán phân nhánh – giới hạn). Khi việc lần tìm ngƣợc là không thể, cách tiếp cận duy nhất còn lại là nhìn về phía trƣớc và tiên đoán hậu quả của mỗi bƣớc. Cách làm sau này đƣợc tuân theo trong cách tiếp cận kiểm tra ẩn với trắc nghiệm thích nghi.

Cách tiếp cận này đƣợc tổng hợp lại bằng thuật toán giả nhƣ sau:

- Lựa chọn bài kiểm tra đầy đủ đạt đƣợc tất cả điều kiện ràng buộc và là tối ƣu tại ƣớc lƣợng năng lực ban đầu ˆ0.

- Lựa chọn các câu hỏi tốt nhất từ bài kiểm tra để thực hiện. - Ghi lại đáp án và tính toán ƣớc lƣợng năng lực mới ˆ1.

- Tập hợp lại bài kiểm tra đầy đủ từ bƣớc 1 để tối ƣu tại ˆ1 trong khi vẫn đạt đƣợc tất cả các ràng buộc và cố định lại những câu hỏi đã đƣợc thực hiện. - Lặp lại từ bƣớc 2 tới 4 cho tới khi trắc nghiệm thích nghi đƣợc hoàn thiện.

Những bài kiểm tra đầy đủ đã đƣợc sắp xếp (sắp xếp lại) là những bài kiểm tra ẩn; ngƣời tham gia kiểm tra không bao giờ thấy chúng nhƣng chỉ phục vụ bƣớc trung gian trong việc lựa chọn các câu hỏi cho trắc nghiệm thích nghi (hình 13). Bởi vì mỗi bài kiểm tra ẩn đạt đƣợc tất cả các điều kiện ràng buộc, trắc nghiệm thích nghi tự động cũng đạt đƣợc. Tƣơng tự, vì mỗi bài kiểm tra ẩn tối ƣu và các câu hỏi tốt nhất của nó luôn đƣợc sử dụng, trắc nghiệm thích nghi đƣợc đƣa ra cũng tối ƣu theo tập các ràng buộc.

Một cách lý tƣởng để triển khai phƣơng pháp kiểm tra ẩn là qua lập trình số nguyên 0-1. Trong kỹ thuật này, hàm mục tiêu và các ràng buộc đƣợc mô hình hóa sử dụng các biến nhận giá trị 0-1 cho việc lựa chọn các câu hỏi, và rồi mô hình sẽ đƣợc xử lý cho sự tối ƣu của nó. Chƣơng trình phần mềm với những xử lý mạnh cho các vấn đề 0-1 có ở trong hầu hết các gói tối ƣu hóa thƣơng mại. Một danh sách các ví dụ của việc làm thế nào để đƣa vào công thức đặc tả bài test nhƣ các ràng buộc sử dụng các biến 0-1. Các vấn đề trắc nghiệm thích nghi điển hình với hàng trăm ràng buộc và một giải pháp đƣợc triển khai tốt, việc tính toán trắc nghiệm ẩn tiếp theo không tới một giây. Đồng thời, câu hỏi tốt nhất đƣợc lựa chọn nhanh hơn rất nhiều với trắc nghiệm thích nghi không ràng buộc, bởi vì nó đƣợc lựa chọn từ các câu hỏi chƣa làm trong bài trắc nghiệm ẩn mà không phải lựa chọn từ toàn bộ ngân hàng đề.

Hình 13: Trắc nghiệm thích nghi sử dụng phương pháp trắc nghiệm ẩn

Ngân hàng câu hỏi Trắc nghiệm ẩn Câu hỏi ƣu tiên

Cách thức kiểm tra ẩn có vẻ nhƣ ngƣợc lại với trực giác; thay vì chọn câu hỏi tốt nhất trong ngân hàng, bƣớc đầu tiên của nó là sự nhóm lại của các bài kiểm tra tuyến tính truyền thống. Nhƣng nó đã đƣợc chứng minh là hoạt động xuất sắc trong một loạt các nghiên cứu gần đây, với những ứng dụng nhƣ là các bài kiểm tra thực tế có ràng buộc chặt chẽ, những ràng buộc điều khiển mức độ của tốc độ của sự thực hiện kiểm tra cá nhân, những ràng buộc giữ tỷ lệ lộ của các câu hỏi trắc nghiệm trong ngân hàng dƣới mức độ bảo mật đã đƣa ra, cũng nhƣ những ràng buộc phân tầng bài kiểm tra tƣơng ứng với các câu hỏi của nó – các tham số độ phân biệt (= α-phân tầng) để ngăn ngừa sự lựa chọn các câu hỏi gần tối ƣu sớm trong bài kiểm tra bởi những lỗi lớn trong sự ƣớc lƣợng . Một ứng dụng không chính tắc trong phƣơng pháp kiểm tra ẩn với trắc nghiệm thích nghi không những là tạo một số điểm chính xác trong trắc nghiệm thích nghi mà có thể tự động bằng với những điểm số ở trong các bài kiểm tra theo tuyến tính đã dùng khi cho điểm.

3.4.2. Trắc nghiệm thích nghi với việc sinh ra các câu hỏi dựa vào quy tắc tắc

Trong các dạng trắc nghiệm tuyến tính truyền thống, những câu hỏi mới đƣợc viết và kiểm tra trƣớc cho một dạng kiểm tra đơn mỗi khi dạng kiểm tra trƣớc đó trở nên lỗi thời. Nhƣng mỗi một phiên bản mới của trắc nghiệm thích nghi yêu cầu sự thay đổi của toàn bộ ngân hàng đề. Nếu thí sinh có thể làm bài trắc nghiệm thích nghi liên tục và các sự rủi ro trong bảo mật là cao, thì sự thay đổi của ngân hàng câu hỏi sẽ đặt một cách nặng nề lên các tài nguyên của các cơ quan kiểm tra và ngƣời làm đề có thể sẽ dẫn đến việc cạn kiệt ý tƣởng cho câu hỏi mới tƣơng đƣơng.

Một trong những giải pháp sớm hơn cho vấn đề này là sử dụng kỹ thuật điều khiển các câu hỏi đã bị lộ để khai thác ngân hàng đề tốt hơn. Mặc dù ban đầu chúng đƣợc phát minh ra để tránh rủi ro của sự dàn xếp các câu hỏi bằng cách giảm thiểu tỷ lệ lộ đề của các câu hỏi phổ biến trong ngân hàng, kỹ thuật này cũng đƣợc nhận ra ngay rằng những kỹ thuật giống nhau có ảnh hƣởng tích cực tới tỷ lệ của các câu hỏi trong ngân hàng mà thông thƣờng có xu hƣớng càng ít đƣợc sử dụng. Tất nhiên, những ứng dụng này chỉ hoạt động một cách hài lòng khi tất cả các câu hỏi trong ngân hàng đều có chất lƣợng cao.

Một bƣớc tiếp cận cơ bản hơn với vấn đề là nhìn vào khả năng sản xuất hàng loạt của các câu hỏi chất lƣợng cao bằng các thuật toán máy tính. Những ý tƣởng về việc sinh ra câu hỏi dựa theo quy tắc đã đƣợc khai thác trong những năm 1960, chủ

yếu sử dụng trong trắc nghiệm lĩnh vực tham khảo [15]. Những khả năng cho sự sinh ra câu hỏi nhờ máy tính một cách trực tiếp để sử dụng trong trắc nghiệm thích nghi đã làm sống lại lĩnh vực nghiên cứu này.

Những cách khác nhau của việc sinh ra câu hỏi đã đƣợc nghiên cứu. Một cách dễ hiểu đó là sử dụng các dạng, hoặc các cấu trúc câu hỏi mà ở đó các câu hỏi có chất lƣợng tốt hơn tồn tại sẵn đƣợc lựa chọn và một số yếu tố của các câu hỏi đƣợc thay thế bởi những tập hợp lớn, từ đó các yếu tố đƣợc thay thế một cách ngẫu nhiên. Một cách khác, đó là nhân bản các câu hỏi sử dụng quy tắc biến đổi (ví dụ, quy tắc ngôn ngữ hoặc các quy tắc dựa trên nội dung). Nghiên cứu trong lĩnh vực sinh ra câu hỏi dựa theo quy tắc đã phát triển rất nhanh bởi vì những lợi điểm rất hứa hẹn của nó. Một ví dụ ứng dụng thành công gần đây cho phép sinh ra rất nhiều câu hỏi cho kiểm tra lập luận hình ảnh từ một tập hợp giới hạn các quy tắc đƣợc giới thiệu [11].

Tuy nhiên, một vấn đề chƣa đƣợc đƣa ra bởi việc sinh ra các câu hỏi dựa theo quy tắc đó là chi phí để kiểm tra trƣớc các câu hỏi này. Trên thực tế, những chi phí này còn cao hơn rất nhiều việc viết ra các câu hỏi; chúng bao gồm cả việc xem xét lại câu hỏi thêm vào, kiểm tra trƣớc theo kinh nghiệm, và định cỡ câu hỏi thống kê. Có thể thật ngây thơ khi nghĩ rằng những việc này có thể bỏ qua, bởi vì các tham số của một câu hỏi có thể đƣợc sử dụng một cách tự động cho bất kỳ một câu hỏi khác đƣợc sinh ra từ nó. Ấn tƣợng chung từ nghiên cứu theo kinh nghiệm về vấn đề này là những sự khác biệt giữa sự ƣớc lƣợng tham số của câu hỏi trong các nhóm câu hỏi là nhỏ hơn rất nhiều so với giữa các nhóm, nhƣng chúng vẫn đủ lớn để không thể bỏ qua. Hình 15 chỉ rõ sự khác nhau điển hình giữa các tham số câu hỏi trong ngân hàng với các nhóm của các câu hỏi sinh ra từ một tập hợp nhỏ của các câu hỏi cha hoặc các quy tắc câu hỏi.

Hình 14: Ngân hàng nhóm câu hỏi cho trắc nghiệm thích nghi

Sự tiết kiệm đáng kể của việc định cỡ câu hỏi là có thể khi sự lựa chọn các câu hỏi tuân theo thủ tục 2 giai đoạn: (i) một nhóm câu hỏi đƣợc biết đó là tối ƣu tại ƣớc lƣợng hiện thời  và (ii) một câu hỏi sinh ra ngẫu nhiên từ nhóm câu hỏi này. Bƣớc đầu tiên khai thác những sự khác nhau giữa các nhóm câu hỏi trong ngân hàng đề và vẫn cho phép chúng ta có thể thích nghi. Bƣớc thứ 2 ngẫu nhiên theo hƣớng những sự khác biệt trong nhóm nhỏ hơn nhiều.

Cách lựa chọn câu hỏi này đƣợc làm cho thuận tiện bởi sự thay thế của mô hình ứng đáp bằng mô hình với cấu trúc 2 cấp. Giả sử chúng ta có các nhóm câu hỏi f = 1,…, F. Các câu hỏi từ nhóm f là if = 1,…, If. Với mô hình Rasch trong (1), một cấu trúc 2 cấp phù hợp là: ) exp( 1 ) exp( } 1 Pr{ f f f i i i b b U        , if=1,…,I, f=1,…,F (2) Với bif ~ N(f,2f), f=1,…,F (3)

Thể hiện rằng mỗi một nhóm f có một sự phân chia bình thƣờng các tham số độ khó với giá trị trung bình μf và phƣơng sai σ2f của nó. Những khác biệt giữa các

Giới thiệu chung về đặc tả QTI

Các tài liệu trong đặc tả QTI