Như vậy, nếu trong CTT, việc tính toán giá trị độ khó của câu hỏi hoàn toàn phụ thuộc vào mẫu thí sinh thử nghiệm, thì trong IRT đã khắc phục được nhược điểm này.
Ƣớc lƣợng năng lực thí sinh không phụ thuộc vào câu hỏi (item invariant of an examinee’s ability estimate)
Thêm một nguyên tắc cơ bản trong IRT là: việc ước lượng năng lực thí sinh không phụ thuộc vào các câu hỏi dùng để xác định năng lực này. Nguyên tắc này được dựa trên hai điều kiện sau:
(1) tất cả các câu hỏi được thiết kế trong bài trắc nghiệm dùng để đo cùng một năng lực cụ thể của thí sinh (chẳng hạn, tất cả các câu hỏi đều cùng đo về năng lực làm toán của thí sinh);
(2) giá trị các tham số của tất cả các câu hỏi được đo bằng một thang đo chung; (việc xác định thang đo nào và quy đổi giữa các thang đo đã được đề cập trong Mục 2.2.5).
Ví dụ mô tả cụ thể cho nguyên tắc năng lực thí sinh không phụ thuộc vào câu hỏi như sau:
Giả sử thang đo dùng chung là thang đo có gốc 0, đơn vị là 1. Một thí sinh có giá trị năng lực là 0 - mức trung bình ( được định vị ở chính giữa của thang). Bài trắc nghiệm thứ nhất có 10 câu hỏi đã định cỡ (các tham số của câu hỏi đã ước lượng được), độ khó trung bình của bài trắc nghiệm này là -2 (nói chung “dễ” hơn so với năng lực của thí sinh). Ở đây độ khó trung bình của bài trắc nghiệm được xác định là giá trị trung bình của tất cả các độ khó của các câu hỏi trong bài trắc nghiệm. Bài trắc nghiệm thứ hai gồm 10 câu hỏi đã được định cỡ, độ khó trung bình của bài trắc nghiệm này là +1 (nói chung “khó” hơn so với
năng lực thí sinh). Năng lực thí sinh được ước lượng dựa trên kết quả trả lời 2 bài trắc nghiệm, giả sử giá trị năng lực ước lượng được thông qua bài trắc nghiệm thứ nhất là 1 và giá trị này thông qua bài trắc nghiệm thứ hai là 2. Về mặt lý thuyết, theo nguyên tắc vừa trình bày ở trên thì 1 = 2, nghĩa là: kết quả ước lượng năng lực thí sinh thông qua thực hiện 2 bài trắc nghiệm cho ra cùng một giá trị ước lượng năng lực. Tuy nhiên trong thực hành, hai giá trị ước lượng 1 và 2 này không hoàn toàn bằng nhau do còn tính đến các sai số trong khi ước lượng, các giá trị này gần sát với giá trị năng lực thực của thí sinh.
Nếu trong CTT, việc đánh giá năng lực thí sinh thông qua ước lượng điểm thực (là kỳ vọng của điểm quan sát được hay điểm thô) và rõ ràng giá trị này phụ thuộc vào bài trắc nghiệm thì trong IRT việc đánh giá năng lực thông qua tham số θ và giá trị này là bất biến đối với mỗi bài trắc nghiệm. Ngoài ra có thể thực hiện tính toán quy đổi từ giá trị năng lực θ về giá trị điểm thực của bài trắc nghiệm (theo cách tính của IRT) để dễ dàng quan sát và chuyển đổi về các thang điểm khác nhau. Chính nhờ ưu điểm này của IRT mà có thể so sánh năng lực các thí sinh khi thực hiện trên các bài trắc nghiệm khác nhau thỏa mãn các điều kiện (1) và (2) đã nêu ở trên.
Bên cạnh đó, có thể ứng dụng IRT vào trong hình thức thi trắc nghiệm thích nghi (adaptive test). (Ta nhắc lại khái niệm “trắc nghiệm thích nghi” là hình thức trắc nghiệm trên máy tính mà mức độ khó/dễ của các câu hỏi sau phụ thuộc vào kết quả trả lời của câu hỏi trước đó. Với một bài trắc nghiệm thích nghi, thí sinh có thể thực hiện những câu hỏi phù hợp với khả năng của mình, năng lực thí sinh được đánh giá dựa trên những câu hỏi thí sinh nhận được cũng như phương án thí sinh trả lời câu hỏi đó).
b. Nhƣợc điểm của IRT
- So với CTT, khối lượng tính toán trong các mô hình (1 tham số, 2 tham số, 3 tham số) của IRT là lớn hơn rất nhiều.
- Cần số lượng thí sinh lớn khi thực hiện bài trắc nghiệm nhằm ước lượng tham số câu hỏi cũng như ước lượng năng lực thí sinh với sai số nhỏ (độ tin cậy cao).
- Trong một số trường hợp, mô hình IRT không phải luôn hội tụ, tuy nhiên, trong thực tế trường hợp này không nhiều.
2.4. Lý thuyết ứng đáp câu hỏi nhiều chiều
Trong mục này chúng ta sẽ đề cập đến lý thuyết ứng đáp câu hỏi nhiều chiều (Multidimensional Item Response Theory – MIRT) một cách rất vắn tắt, chi tiết hơn về MIRT được trình bày trong tài liệu [12].
Mô hình IRT thừa nhận một điều: bài trắc nghiệm gồm nhiều câu hỏi và các câu hỏi chỉ đo một đặc tính nào đó của thí sinh hay nói cách khác mục tiêu của phép đo là định vị thí sinh trên một trục. Ví dụ, khi xét một bài trắc nghiệm về môn toán, mô hình IRT “ngầm” thừa nhận tất cả các câu hỏi trong bài trắc nghiệm chỉ đo kỹ năng làm toán của thí sinh, trong khi đó, thực tế để đưa ra phương án trả lời câu hỏi thí sinh phải vận dụng nhiều kỹ năng khác nhưng IRT hoàn toàn bỏ qua không xét đến. Thừa nhận này được gọi là thừa nhận đơn chiều (unidimentionality assumption). So với thực tế, thừa nhận này được đơn giản hoá hơn rất nhiều. Các dạng tương tự thừa nhận này khá phổ biến trong nhiều lĩnh vực khoa học, chẳng hạn, trong vật lý, khi đo gia tốc của một vật rơi tự do được giả thiết là phụ thuộc duy nhất vào trọng lực, tuy nhiên trong thực tế, gia tốc thực của vật còn phụ thuộc vào sức cản không khí, hình dáng của vật và một số yếu tố khác. Trong thực tế, để thí sinh xác định một phương án trả lời cho câu hỏi trắc nghiệm nói chung cần yêu cầu nhiều kỹ năng và kiến thức. Ví dụ, một câu hỏi về toán thí sinh cần có các kỹ năng đọc để hiểu, sau đó là kỹ năng giải bài toán và kỹ năng tính toán. Để lượng giá (assessment) được các kỹ năng này, cần định vị thí sinh trên một số trục liên tục thể hiện một số kỹ năng tương ứng hơn là chỉ dùng một trục để thể hiện. Khi đó, mô hình toán học thể hiện cho sự ứng đáp câu hỏi của thí sinh được gọi là mô hình MIRT (Multidimensional Item Response Theory).
Trong mô hình MIRT, các đặc điểm (về các năng lực cần lượng giá) của một thí sinh có thể được biểu diễn bởi một điểm trong không gian nhiều chiều, toạ độ của điểm này được biểu diễn bằng một vectơ j =(j1,j2, ..., jM) trong đó
M là số chiều biểu diễn các năng lực của thí sinh.
Khi đó, mô hình MIRT được biểu diễn thông qua công thức:
' ( ) 1 ( ) i j i j a d P e Trong đó:
P(j) là xác suất trả lời đúng câu hỏi thứ i của thí sinh có các năng lực
j =(j1,j2, ..., jM);
ai’ là vectơ gồm m thành phần (a1i,a2i,...,ami);
di là tham số có liên quan đến độ khó của câu hỏi.
Nếu xét đến tham số “mức phỏng đoán” (guessing parameter) thì mô hình MIRT được biểu diễn như sau:
' ( ) 1 ( ) (1 ) i j i j i i a d P c c e
Việc ước lượng các tham số của mô hình MIRT có độ chính xác không cao, khối lượng tính toán lớn. Một số tác giả bước đầu nghiên cứu và xây dựng thuật toán để ước lượng các tham số cho mô hình này. Theo [12] thủ tục ước lượng các tham số của mô hình MIRT bước đầu được cài đặt trong 2 chương trình là NOHARM (1998) và TESTFACT(2003), tuy nhiên khối lượng tính toán rất lớn. Gần đây một số tác giả có sử dụng các phương pháp xích Markov Monte Carlo - (Markov chain Monte Carlo - MMC) trong việc ước lượng các tham số và có cải thiện đáng kể về thời gian tính toán. Theo kết quả thống kê trong [12], với tập dữ liệu kết quả trả lời 31 câu hỏi của 3000 thí sinh tính toán trên =(1,2,3)
(3 chiều), thời gian thực hiện thuật toán MMC ước lượng các tham số theo mô hình MIRT là 40 giờ. Hiện nay MIRT đang được nghiên cứu và đưa vào ứng dụng.
CHƯƠNG 3 NGÂN HÀNG CÂU HỎI
Mở đầu
Ngân hàng câu hỏi là một thành phần hết sức quan trọng trong bất kỳ hệ thống trắc nghiệm nào. Tính khách quan trong kết quả thi trắc nghiệm phụ thuộc vào nhiều yếu tố trong đó có các yếu tố liên quan đến câu hỏi như: hình thức tổ chức kỳ thi, chất lượng câu hỏi, số lượng câu hỏi trong ngân hàng, mức kiến thức được đưa ra trong câu hỏi, phương thức đánh giá câu hỏi, phương thức đánh giá năng lực thí sinh... Bài thi trắc nghiệm (mà thành phần là các câu hỏi) là phương tiện dùng để đo năng lực thí sinh, do đó, xây dựng ngân hàng câu hỏi là một vấn đề được đặt ra đối với bất cứ kỳ thi trắc nghiệm nào. Trong chương này sẽ trình bày về một số dạng câu hỏi phổ biến được trong các hệ thống trắc nghiệm trên máy tính dùng cho các môn học về Công nghệ thông tin; tiếp đó là các đặc tả kỹ thuật cho các dạng câu hỏi này; cuối cùng là phần đề xuất một quy trình xây dựng ngân hàng câu hỏi sát hạch kỹ năng Công nghệ thông tin.
3.1. Một số dạng câu hỏi trắc nghiệm
Có nhiều dạng câu hỏi trắc nghiệm khác nhau và trong cùng một dạng câu hỏi cũng có thể có nhiều cách thể hiện khác nhau, tuỳ theo đặc trưng của mỗi môn học mà lựa chọn dạng câu hỏi trắc nghiệm nào cho phù hợp với tiêu chí đánh giá của môn học đó. Sau đây là một số dạng câu hỏi trắc nghiệm phổ biến, được dùng nhiều trong các ngân hàng câu hỏi trắc nghiệm.
a. Câu hỏi đúng/sai (True/False question)
Đây là dạng câu hỏi đơn giản nhất trong thi trắc nghiệm. Câu hỏi được đưa ra dưới dạng một mệnh đề hoặc câu hỏi, có hai phương án trả lời: hoặc đúng hoặc sai. Thí sinh trả lời bằng cách chọn một trong hai lựa chọn được cung cấp.
b. Câu hỏi nhiều lựa chọn (Multiple choice question)
Phương án trả lời cho câu hỏi được chọn ra một từ danh sách các phương án cho trước. Dạng câu hỏi này có thể có nhiều hình thức thể hiện khác nhau, chẳng hạn phương án trả lời được chọn bằng đánh dấu theo kiểu lựa chọn một phương án (Radio button) hoặc lựa chọn từ một danh sách các phương án trong Combo box, được mô tả như trong Hình 3.1 và Hình 3.2 sau đây: