- Một bộ câu hỏi trong đó mỗi câu hỏi đều kèm theo các phương án trả
1.6.2. Phƣơng pháp phân tích câu hỏi theo lý thuyết khảo thí hiện đạ
Để biết một thí sinh có nắm được nội dung của môn học sau khi học xong môn học đó hay không, một bài TNKQ có thể cho chúng ta biết một cách chính xác năng lực của thí sinh đó ở mức nào (chỉ nhận biết kiến thức một cách máy móc hay còn có khả năng đánh giá, chuyển giao nhận thức của mình). Các công cụ đo lường, quan sát cần được thiết kế cẩn thận, có độ tin cậy cao để ghi nhận chính xác các hành vi, làm cơ sở để xác định các đại lượng ẩn.
34
Lý thuyết khảo thí hiện đại hay còn gọi là lý thuyết hồi đáp (Items Response Theory – IRT) [21, 24]
Lý thuyết hồi đáp (Item Response Theory hay viết tắt là IRT) của ông
Georg Rasch nhằm mô hình hóa mối liên hệ giữa mức độ năng lực của một người và đáp ứng của người ấy với một câu trắc nghiệm hay câu hỏi. Vì các mức độ năng lực (hay gọi tổng quát là “đặc điểm” (trait) là những gì không thể quan sát được nên (IRT) cũng là một trong các mô hình thường được gọi là mô hình đặc điểm tiềm tàng (Latent trait model).
Trái với lý thuyết cổ điển về trắc nghiệm, IRT đưa ra một số giả định về hành vi của một người khi trả lời câu hỏi. Các giả định này có một số lợi điểm:
+ Ta có thể mô tả, hay nêu ra độ khó của một câu hỏi mà không phải phụ thuộc vào mẫu (hay nhóm) người trả lời câu hỏi ấy.
+ Ta có thể mô tả hay nêu ra năng lực của một nguời mà không phải phụ thuộc vào mẫu (hay nhóm) các câu hỏi được đặt ra cho người ấy.
Thế nhưng IRT cũng có một số điểm bất lợi. Hầu như người ta không thể kiểm chứng được hoàn toàn tính chính xác của các giả định mà lý thuyết ấy đưa ra, căn cứ trên các dữ kiện thu thập được. Hơn nữa, các ứng dụng của lý thuyết hồi đáp IRT rất tốn kém về chi phí và công sức, so với các ứng dụng tương tự của các lý thuyết cổ điển. Trong đa số các ứng dụng IRT, người ta phải sử dụng máy tính hiệu năng cao.
Một số khái niệm căn bản của IRT + Các giả định:
Phần nhiều các mô hình IRT đều đưa ra giả định rằng chỉ có một đặc điểm (trait) duy nhất làm căn bản cho thành tích đáp ứng một câu hỏi. Giả định này xét ra cũng khá hợp lý vì phần lớn các bài trắc nghiệm chỉ đo lường một đặc điểm (hay khả năng) duy nhất, chẳng hạn: khả năng ngôn ngữ, khả năng suy luận trừu tượng.
Tất cả các mô hình IRT đều giả định rằng người ta có thể mô tả bằng toán học mối liên hệ giữa mức khả năng của một người và thành tích đáp ứng của người ấy với một câu hỏi. Khi mô tả bằng Toán học mối liên hệ giữa mức khả năng của
35
một người và thành tích đáp ứng câu hỏi này được gọi là “Hàm đáp ứng câu hỏi” (Item response function, viết tắt là IRF) hay “đường cong đặc trưng của câu hỏi “(item characteristic curve).
+ Hàm đáp ứng câu hỏi:
Với các câu trắc nghiệm có hai điểm số (0 = sai, 1 = đúng), hàm đáp ứng câu hỏi (IRF) cho ta biết xác suất đáp ứng đúng một câu hỏi ở mức độ khả năng nào đó. Xác suất có điều kiện này là hàm của các đặc tính câu hỏi hay các “thông số” (parameters). Hàm đáp ứng câu hỏi (IRF) được phát biểu như sau:
Nếu u biểu thị cho một đáp ứng với câu hỏi i (0 = sai, 1 = đúng), và là khả năng hay đặc điểm đang được đo lường thì hàm đáp ứng câu hỏi (logistic item responsse function) là
P(ui = 1/) = ci + (1 - ci)/1 + e - 1.702ai ( - bi)
Và đáp ứng hình đường cong chuẩn (normal ogive item response function) là:
P(ui = 1/) = ci + (1 - ci)[ai (- bi )]
Trong đó [ai (- bi )] là hàm phân bố tích lũy chuẩn (normal comulative distribution function). Trong các phương trình trên đây ai, bi và ci là những thông số mô tả các đặc trưng của câu hỏi i. Hình vẽ dưới đây trình bày hàm đáp ứng câu hỏi (IRF) và ý nghĩa của ba thông số nói trên: ai là thông số độ phân biệt (discrimination) của câu hỏi, nó có liên hệ đến độ dốc của đường biểu diễn ở điểm uốn (point of inflection) của đường ấy; bi là độ khó của câu hỏi, nó là mức ở điểm uốn của đường biểu diễn; ci là thông số tạm coi như là thông số đoán mò, nó là xác suất của một người làm trắc nghiệm với khả năng rất thấp nhưng đáp ứng được đúng câu hỏi.
Không phải tất cả mọi câu hỏi đều đòi hỏi phải có ba thông số nói trên. Một số chuyên gia đo lường thực hiện công trình nghiên cứu của họ với hai thông số: a
36
(độ phân biệt) và b (độ khó) (cho c = 0). Nhiều người khác, trong số đó có Georg Rasch, thực hiện các mô hình với một thông số mà thôi: bi (ai = cố định, ci = 0) P(Q)
1
0.5
0
tg α= ai
Hình 1.4. Hàm đáp ứng câu hỏi (IRF)
Mô hình Rasch với câu trắc nghiệm hai điểm số (0 và 1)
Trong những năm từ 1950 đến năm 1960, Georg Rasch đã đưa ra một loạt các mô hình đo lường trên cơ sở lý thuyết nói trên. Mô hình căn bản nhất là mô hình Rasch áp dụng với câu trắc nghiệm với hai loại điểm số: 0 điểm, nếu làm sai câu hỏi, và 1 điểm nếu làm đúng câu hỏi. Trong trường hợp này mỗi câu trắc nghiệm được mô tả bằng một thông số (độ khó) kí hiệu là , và mỗi người làm trắc nghiệm được mô tả cũng bằng một thông số (khả năng), kí hiệu là . Mỗi khi một người cố gắng trả lời một câu hỏi, các thông số, độ khó và khả năng, tác động lẫn nhau để cho xác suất đáp ứng của người làm trắc nghiệm ấy. Dạng toán học của mô hình này như sau:
e(n - i) Pr =
1 + e(n - i)
Trong đó Pr = xác suất của một người với khả năng n làm đúng (tức được 1 điểm) câu trắc nghiệm có độ khó i
Điểm
uốn P
37
Đồ thị dưới đây cho thấy sự tác động lẫn nhau giữa độ khó của câu trắc nghiệm và khả năng của người làm trắc nghiệm. Đường cong này được gọi là “đường cong đặc trưng của câu hỏi trắc nghiệm” (item characteristic curve)
Xác suất Pr của điểm 1 (đúng) hay điểm 0 (sai) chỉ có thể biến thiên giữa 0 và 1, như ta thấy trên tung độ. Hoành độ chỉ hiệu số: khả năng - độ khó. Hiệu số là số âm nếu độ khó lớn hơn khả năng, và là số dương khi khả năng lớn hơn độ khó.
Trên hình vẽ, hiệu số giữa số và là 0 ở giao điểm. Lúc ấy xác suất làm đúng câu hỏi là 0.50. Điều này có nghĩa là cơ may làm đúng câu hỏi cũng bằng cơ may làm sai câu hỏi ấy. Ở phía bên phải của giao điểm này, khả năng của người làm trắc nghiệm lớn hơn độ khó của câu hỏi, và xác suất trả lời đúng thì cao hơn xác suất trả lời sai. Cũng vậy, ở phía bên trái giao điểm, khi độ khó lớn hơn khả năng, xác suất làm đúng câu hỏi giảm xuống đến tận 0. Trong vùng này (bên trái), xác suất đáp ứng sai thì lớn hơn xác suất làm đúng câu ấy.
Các đặc tính thống kê của mô hình này cho phép tách riêng ra hai thông số: độ khó của câu hỏi ( ) và khả năng của người làm trắc nghiệm ()
38 { }vt P x (n - i)< 0 (n - i)> 0 1 Pr(1) vt 1 P{x =1}> 2 1 2 (n - i) = 0 vt 1 P{x =1}< 2 Pr(0) ( v t) 0 v < t v = t v > t
Hình 1.5. Đƣờng cong trả lời theo mô hình Rasch
Định cỡ câu trắc nghiệm với hai loại điểm số (0 và 1)
Mô hình Rasch đưa ra một lí thuyết mới để + Phân tích và lựa chọn câu trắc nghiệm
+ Lập một thang đo cho các điểm số trắc nghiệm
Như đã nói ở trên, mô hình Rasch cho biết xác suất của một người trả lời đúng một câu hỏi trắc nghiệm, căn cứ trên hai thông số:
- Thuộc tính của người làm trắc nghiệm. Thuộc tính này là bất cứ đặc điểm nào của người ấy mà ta muốn đo lường nhưng thông thường nhất là “khả năng” (ability), “thành quả” (achievement) hay “thái độ” (attitude). Nói chính xác hơn, đó là mức độ khả năng mà người ấy có để trả lời đúng một số câu hỏi tương tự như các câu trong bài trắc nghiệm đã cho.
39
- Thuộc tính của câu trắc nghiệm. Trong thực tế, đó là mức độ khó của câu trắc nghiệm. Mức độ khó này được định nghĩa như là điểm trên thang đo lường mà ở đó người làm trắc nghiệm có may rủi 50% trả lời đúng câu ấy.
Do đó, mô hình Rasch đặt người làm trắc nghiệm và câu trắc nghiệm trên cùng một thang đo lường. Việc phỏng định hai thuộc tính nói trên – khả năng của người làm và độ khó của câu hỏi trắc nghiệm được gọi là định cỡ (calibration). Trước khi các số phỏng định nói trên được sử dụng trong việc định cỡ và đo lường, ta cần phải kiểm chứng xem các dữ kiện dùng để phỏng định đó có thích hợp để đo lường hay không. Nếu các dữ kiện không thể xử lí được theo mô hình Rasch, chúng không thể được dùng để định cỡ các câu trắc nghiệm hay đo lường khả năng con người theo bài trắc nghiệm ấy. Công việc kiểm chứng này được gọi là phân tích sự phù hợp (analysis of fit)
Việc định cỡ câu trắc nghiệm (item calibration) đòi hỏi phải đánh giá sự hoà hợp (fit) của thông số độ khó với mô hình Rasch
Việc định cỡ bài trắc nghiệm (test calibration) đòi hỏi phải đánh giá sự phù hợp của những người làm trắc nghiệm với mô hình Rasch và phỏng định thông số khả năng tương ứng với mỗi điểm số về bài trắc nghiệm ấy
Tất cả các công việc trên – đánh giá sự phù hợp, định cỡ câu trắc nghiệm, và định cỡ bài trắc nghiệm đều phải thực hiện trên máy tính.
Áp dụng lý thuyết khảo thí hiện đại, ứng dụng công nghệ thông tin, hiện nay có rất nhiều các phần mềm toán học có thể giúp ta nhanh chóng phân tích câu hỏi trắc nghiệm. Hiện nay chúng ta thường sử dụng phần mềm Quest được soạn thảo ở Úc. Phần mềm này có thể tính toán cho ra kết quả về độ khó, độ phân biệt của câu trắc nghiệm và khả năng của người làm trắc nghiệm, phân tích sự phù hợp của câu trắc nghiệm và của người làm trắc nghiệm, đồng thời cũng có thể chỉ ra kết quả bất thường của người làm câu TN nếu có.
Các thành tựu quan trọng đó của IRT đã nâng độ chính xác của phép đo lường trong giáo dục lên một tầm cao mới về chất so với các lý thuyết đo lường cổ điển. Từ thành tựu tổng quát đó của IRT, người ta có thể đưa ra các quy trình để xây
40
dựng ngân hàng câu hỏi (item banking), phân tích các kết quả TNKQ để hiệu chỉnh ngân hàng câu hỏi, chủ động thiết kế các đề trắc nghiệm theo các mục đích đặt ra.