D. Phƣơng pháp mã hóa dữ liệu (Nguồn VnExpress) Mã hóa khóa bí mật
A. MÔ HÌNH RASCH
1. Lý thuyết test thống kê - Lý thuyết test hiện đại.
1.1 Lý thuyết test thống kê (Classical Test Theory, CTT) (xem [4]) Lý thuyết này dựa trên công thức cơ bản: X = T + E.
Với T (True score) là số đo năng lực thực sự của thí sinh trong kỹ năng đang đƣợc đo lƣờng, X (Observed score) là điểm thực tế và E (Error) là sai số.
Vì T không thể đo trực tiếp đƣợc nên T đƣợc giả định là trung bình của X. Đây là một trong các điểm yếu của CTT vì X phụ thuộc vào câu hỏi nên T cũng thế trong khi T là số đo năng lực thật sự của thí sinh và phải độc lập với câu hỏi.
Đối với câu hỏi thì có 2 thông số quan trọng là độ khó và độ phân biệt. Đây cũng là một điểm yếu nữa của CTT vì trong CTT, 2 thông số này đƣợc tính toán dựa trên kết quả làm bài của thí sinh mà kết quả đó phụ thuộc vào thí sinh trong khi các thông số của câu hỏi phải độc lập với thí sinh thì việc so sánh kết quả mới có giá trị. Tuy nhiên cách tính của lý thuyết này khá đơn giản.
1.2 Lý thuyết test hiện đại (Item Response Theory, IRT) (xem [4])
IRT ra đời nhằm khắc phục các nhƣợc điểm của CTT. Khác với CTT, IRT không chú ý đến kết quả toàn bài mà chú ý đến kết quả đối với từng câu hỏi. Công thức cơ bản của IRT diễn tả mối liên hệ giữa năng lực của thí sinh và xác suất thí sinh đó trả lời đúng câu hỏi. Trong công thức đó có cả các thông số của câu hỏi. Nhƣ vậy rõ ràng IRT phức tạp hơn và cũng đo lƣờng năng lực thí sinh chính xác hơn.
Trong thực tế xác suất trả lời đúng một câu hỏi phụ thuộc cùng lúc vào nhiều năng lực của thí sinh nhƣ khả năng nghe, hiểu, ghi nhớ, vận dụng...
Một câu hỏi trắc nghiệm có các thuộc tính đặc trƣng: độ khó, độ phỏng đoán, độ phân biệt. Các thuộc tính này là cơ sở để đánh giá chất lƣợng câu hỏi trắc nghiệm, trong mô hình Rasch chỉ có một tham số là độ khó của câu hỏi.
2. Cơ sở lí thuyết của mô hình Rasch [3, tr. 246,247]
Georg Rasch - nhà toán học Đan Mạch cho xuất bản một tác phẩm với nhan đề “Các mô hình xác suất cho một số trắc nghiệm trí thông minh và thành quả” (Probabilistic Model for Some Intelligence and Attainment Tests) lần đầu tiên vào năm 1960, tiếp theo đó ông viết cuốn thứ hai với nhan đề “Về các quy luật tổng quát và ý nghĩa của đo lƣờng trong tâm lý học” (On General Laws and the Meaning of Measurement in Psychology).
Nhiều năm trƣớc khi Georg Rasch xuất bản cuốn sách trên, F.M. Lord (1952) đã khai triển lý thuyết của ông về khả năng tiềm tàng, đƣợc gọi là “Lý thuyết về mô hình khả năng tiềm tàng hình vòm chuẩn” (Theory of the normal ogive latent ability model), nhƣng các phƣơng pháp phỏng định các trị số khả năng của ông rất phức tạp nên không đƣợc các giới nghiên cứu giáo dục và tâm lý thời bấy giờ chú ý đến. Đến năm 1980, F.M. Lord cho xuất bản cuốn sách khác mang tính chất ứng dụng hơn là “Các ứng dụng của lý thuyết đáp ứng câu hỏi trong vấn đề thực tiễn về trắc nghiệm”.
Lý thuyết ứng đáp câu hỏi của ông mô hình hóa mối liên hệ giữa khả năng của một ngƣời và đáp ứng của ngƣời ấy với một câu hỏi. Vì các mức độ khả năng là những
gì không thể quan sát đƣợc nên lý thuyết đáp ứng câu hỏi cũng là một mô hình đặc điểm tiềm tàng (Latent trait model).
Rasch (1960) nói: "một thí sinh có khả năng hơn thí sinh khác phải có một xác
suất lớn hơn để trả lời đúng một câu hỏi bất kỳ, cũng tương tự như vậy, một câu hỏi khó hơn một câu hỏi khác có nghĩa là đối với bất kỳ thí sinh nào xác suất để trả lời đúng câu hỏi sau là lớn hơn so với câu hỏi trước".
Trái với lý thuyết thống kê, lý thuyết IRT đƣa ra một số giả định về hành vi của một ngƣời khi trả lời các câu hỏi. Các giả định này có một số lợi điểm:
Ta có thể mô tả hay nêu ra đặc điểm của một câu hỏi mà không phải phụ thuộc vào mẫu (hay nhóm) ngƣời trả lời câu hỏi ấy.
Ta có thể mô tả hay nêu ra đặc điểm của một ngƣời mà không phải phụ thuộc vào mẫu (hay nhóm) các câu hỏi đƣợc đặt ra cho ngƣời ấy.
Tuy nhiên IRT cũng có một số điểm bất lợi. Dựa trên các dữ kiện thu thập đƣợc, ngƣời ta hầu nhƣ không thể kiểm chứng đƣợc hoàn toàn tính chính xác của các giả định mà lý thuyết ấy đƣa ra. Hơn nữa, các ứng dụng của IRT rất tốn kém về chi phí và công sức so với các lý thuyết thống kê.
3. Một số khái niệm căn bản của lý thuyết IRT [3, tr. 248-254] 3.1 Hàm ứng đáp câu hỏi (Item Response Function – IRF)
Với các câu trắc nghiệm có hai lựa chọn (đúng = 1, sai = 0), hàm ứng đáp câu hỏi cho ta biết xác suất đáp ứng đúng một câu hỏi ở một mức độ khả năng nào đó. Xác suất có điều kiện này là hàm của các đặc tính của câu hỏi hay còn gọi là các thông số.
3.2 Định cỡ câu hỏi
Định cỡ là quá trình xác định độ khó của các câu hỏi trắc nghiệm và xác định độ chính xác của chúng với tƣ cách là công cụ để đo. Độ chính xác của chúng ở đây là sai số có thể chấp nhận đƣợc của công cụ đo.
Theo cách tính của mô hình Rasch, cứ mỗi vòng lặp ƣớc lƣợng độ khó của câu hỏi và khả năng của thí sinh, ta lại so sánh độ lệch giữa b0 và b1, θ0 và θ1. Nếu chƣa đủ nhỏ thì lặp lại. Nhƣ vậy độ lệch ấy chính là sai số.
Khi các câu hỏi đƣợc định cỡ, các số đo về độ khó tƣơng đối của chúng có thể đƣợc sử dụng để đánh giá độ khó của các câu hỏi khác lấy từ cùng một kho.
Mô hình Rasch cho biết xác suất của một ngƣời trả lời đúng một câu hỏi trắc nghiệm căn cứ trên hai thông số là độ khó của câu trắc nghiệm và năng lực của thí sinh. Do đó, mô hình Rasch đặt ngƣời và câu trắc nghiệm trên cùng một thang đo lƣờng.
Khi các thuộc tính đã đƣợc phỏng định, ta cần phải kiểm chứng xem các dữ kiện đó có thích hợp để đo lƣờng hay không. Nếu các dữ kiện không thể xử lí đƣợc theo mô hình Rasch, chúng không thể đƣợc dùng để định cỡ các câu trắc nghiệm hay đo lƣờng khả năng con ngƣời theo bài trắc nghiệm ấy. Công việc kiểm chứng này đƣợc gọi là phân tích sự hoà hợp (analysis of fit).
-Việc định cỡ câu trắc nghiệm (item calibration) đòi hỏi phải đánh giá sự hoà hợp của thông số độ khó và mô hình Rasch.
-Việc định cỡ bài trắc nghiệm (test calibration) đòi hỏi phải đánh giá sự hoà hợp của những ngƣời làm trắc nghiệm với mô hình Rasch và phỏng định thông số khả năng tƣơng ứng với mỗi điểm số về bài trắc nghiệm ấy.
Là một đồ thị biểu diễn mối liên hệ giữa năng lực thực sự của thí sinh và khả năng mà thí sinh đó trả lời đúng câu hỏi, có nghĩa là dựa vào đƣờng cong này ngƣời ta có thể biết một thí sinh có năng lực θ nào đó có xác suất trả lời đúng câu hỏi đó là bao nhiêu.
Sau khi định cỡ đƣợc độ khó của câu hỏi và năng lực của thí sinh, ta áp dụng hàm ứng đáp câu hỏi của Rasch để tính xác suất của các thí sinh và hiệu số giữa năng lực, độ khó θ-b. Đƣờng cong đặc trƣng đƣợc vẽ từ những số liệu xác suất, θ-b này.
4. Thế nào là không phụ thuộc mẫu (sample free) [1, tr. 44]
Tính chất tách biệt mẫu và trắc nghiệm gây nhiều tranh luận và tạo nhiều sự hiểu sai.
Không phụ thuộc mẫu không có nghĩa là không phụ thuộc vào đám đông.
Cách tiếp cận không phụ thuộc mẫu sử dụng khi định cỡ công cụ chứ không có nghĩa khi dùng công cụ để nghiên cứu.
Khi nghiên cứu thành quả hoặc đo đạc nhất thiết phải thiết kế và sử dụng mẫu thích hợp.
Cần ƣớc lƣợng sai số chọn mẫu khi dùng một công cụ để xác định tham số của đám đông hoặc giải thích sự khác nhau giữa các nhóm và đám đông.
Khái niệm không phụ thuộc mẫu liên quan đến sự ƣớc lƣợng tƣơng đối năng lực và độ khó, không phải sự ƣớc lƣợng tuyệt đối.
Năng lực hoặc độ khó tƣơng đối là không phụ thuộc mẫu, còn giá trị tuyệt đối của chúng không phải nhƣ vậy.
Đơn vị đo đạc đƣợc sử dụng chung cho mẫu và bài trắc nghiệm gọi là logit (tức là logarithm của tỉ số việc xẩy ra một sự kiện mong muốn so với việc xẩy ra các sự kiện khác), độ logit đƣợc áp dụng cho cả thí sinh và câu hỏi.
5. Tiên đề của IRT
Tiên đề của IRT [5, tr. 13]
Kết quả trả lời câu hỏi trắc nghiệm phụ thuộc vào các thuộc tính của câu hỏi và năng lực của thí sinh.
Sự hiểu biết của một thí sinh và một môn học là một đại lƣợng chƣa biết, cần đƣợc đo qua bài trắc nghiệm.
Đại lƣợng này không thể xác định chính xác nhƣng có thể ƣớc lƣợng gần đúng. Quan hệ giữa xác suất trả lời đúng một câu hỏi trác nghiệm và năng lực thí sinh đƣợc biểu diễn bằng một đƣờng cong đặc trƣng (đƣờng cong ứng đáp câu hỏi).
Thuật toán ước lượng đồng thời độ khó b của câu hỏi và năng lực θ của thí sinh:
[5, tr. 16]
Giai đoạn 1: Ƣớc lƣợng tham số b0, xuất phát θ0 = điểm thô (là điểm mà thí sinh nhận đƣợc khi làm bài trắc nghiệm).
Giai đoạn 2: ƣớc lƣợng năng lực θ1 dựa vào b0 vừa ƣớc lƣợng đƣợc.
So sánh độ lệch giữa θo và θ1. Nếu chƣa đủ nhỏ thì lặp lại giai đoạn 1 (xuất phát θ1) và giai đoạn 2.
Lặp lại quá trình trên để đƣợc độ chính xác mong muốn.
Kết quả ước lượng:
Ƣớc lƣợng đƣợc năng lực của thí sinh. Xác định đƣợc sai số của các ƣớc lƣợng.
6 Mô hình Rasch với câu trắc nghiệm hai lựa chọn [3, tr. 250]
Mô hình này áp dụng với các câu trắc nghiệm có 2 lựa chọn: làm đúng câu hỏi đƣợc 1 điểm, làm sai đƣợc 0 điểm. Mỗi câu hỏi trắc nghiệm đƣợc mô tả bằng một thông số là độ khó, kí hiệu là b, và mỗi ngƣời làm trắc nghiệm đƣợc mô tả bằng một thông số là năng lực, kí hiệu là θ. Mỗi khi một ngƣời cố gắng trả lời một câu hỏi, các thông số độ khó và năng lực tác động lẫn nhau để cho xác xuất đáp ứng của ngƣời làm trắc nghiệm ấy.
Rasch đã xây dựng hàm ứng đáp nhƣ sau:
( ) ( ) ( 1) 1 v i v i b b e p x e
Trong đó v là năng lực của học sinh thứ v, bi là độ khó của câu hỏi thứ i, Pi( v - bi) là xác suất để học sinh thứ v trả lời đúng câu hỏi thứ i.
Đối với một câu hỏi có độ khó bi thì sẽ cho ta một đƣờng cong tƣơng ứng (đƣờng cong ứng đáp câu hỏi).
Vd: 1 câu hỏi có độ khó b = 0, thì đƣờng cong đặc trƣng của nó có dạng:
Đƣờng cong này mô tả mối liên hệ giữa năng lực của thí sinh và độ khó của câu hỏi, đồng thời cũng biểu diễn xác suất trả lời đúng câu hỏi của thí sinh.
7. Các tính chất quan trọng của mô hình Rasch (xem [2])
Thực tế áp dụng lý thuyết đáp ứng câu hỏi chứng tỏ lý thuyết này cho phép tạo dựng các phép đo lƣờng trong giáo dục thoả mãn hai yêu cầu đƣợc đặt ra với một sai số có thể chấp nhận đƣợc trong thực tế. Đó là yêu cầu: Các đặc trƣng của CH trắc nghiệm xác định đƣợc không phụ thuộc vào mẫu TS (sample free) và các mức năng lực xác định đƣợc của TS không phụ thuộc vào ĐTN đã đƣợc định cỡ (item free). Đó là tính bất biến (invariance) quan trọng áp dụng cho phƣơng pháp chọn mẫu (sampling), lập ngân hàng câu hỏi (item-banking) và thiết kế các đề trắc nghiệm (test design).
Lối đo lƣờng độ khó của câu trắc nghiệm thông dụng nhất là lối tính theo thống kê, tức là tính tỉ lệ phần trăm số ngƣời trả lời đúng câu trắc nghiệm ấy. Tỉ lệ phần trăm ấy đƣợc gọi là trị số p. Trị số p của câu trắc nghiệm đƣợc tính bằng công thức:
Số ngƣời trả lời đúng câu i Trị số p của câu i =
Số ngƣời làm bài trắc nghiệm
Còn theo mô hình Rasch thì ban đầu độ khó b0 đƣợc ƣớc lƣợng dựa vào điểm thô θ0, sau đó lại ƣớc lƣợng θ1 dựa vào độ khó b0 đó. Lặp lại quá trình trên cho đến khi tìm đƣợc sai số phù hợp. Nhƣ vậy độ khó tính theo Rasch có những điểm khác với độ khó tính theo thống kê.
Thứ nhất, độ khó tính theo thống kê căn cứ vào tần số tƣơng đối của số ngƣời làm trắc nghiệm đã trả lời đúng câu hỏi ấy, sau khi tính đƣợc độ khó của câu hỏi ấy thì không thể sử dụng đƣợc để tính độ khó các câu hỏi khác trong cùng một nguồn. Còn độ khó tính theo mô hình Rasch lại đƣợc ƣớc lƣợng, định cỡ tỉ mỉ theo các công thức phức tạp hơn. Mô hình Rasch đặt thí sinh và câu trắc nghiệm trên cùng một thang đo lƣờng, tiến hành phỏng định khả năng của thí sinh và độ khó của câu trắc nghiệm theo thuật toán. Độ khó sau khi đã đƣợc phỏng định có thể đƣợc sử dụng để đánh giá độ khó của các câu hỏi khác lấy từ cùng một kho.
Thứ hai, độ khó tính theo thống kê phụ thuộc vào mẫu thi sính làm trắc nghiệm, giả sử ta đƣa 1 câu hỏi cho một nhóm gồm 30 thí sinh làm, có 10 thí sinh làm đúng. Nhƣ vậy độ khó của câu hỏi đó là b=10/30=0.33. Tuy nhiên nếu cùng câu hỏi đó ta đƣa cho một nhóm gồm 50 thí sinh và có 30 thí sinh làm đúng thì độ khó của câu hỏi đó lại là b=30/50=0.6. Nhƣng với các ƣớc lƣợng theo mô hình Rasch thì độ khó của câu hỏi sẽ không phụ thuộc vào mẫu thí sinh làm bài.
Thứ ba, khi tính theo thống kê, độ khó của câu hỏi không đƣợc gắn liền với năng lực của thí sinh, do đó nó cho ta một thứ đo lƣờng chung độ khó của các câu trắc nghiệm về nhiều lĩnh vực hoàn toàn khác nhau, giả sử độ khó của 1 câu Sử là 0.2 còn độ khó của 1 câu Hóa là 0.5; dựa vào điều này ta có thể khẳng định đƣợc rằng câu Sử khó hơn câu Hóa, điều này là vô lý. Theo mô hình Rasch thì độ khó của câu hỏi và năng lực của thí sinh đƣợc đặt chung trên một thang đo lƣờng, ta không thể so sánh tính chất khó dễ của một câu Sử so với một câu Hóa nhƣ thống kê đƣợc, vì nó đòi hỏi kiến thức chuyên môn, tức năng lực của thí sinh.
9. Tính theo Rasch thì độ tin cậy của một đề thi là gì?
Mô hình Rasch chỉ đề cập đến hai thông số là độ khó của câu hỏi và khả năng của thí sinh. Khi đƣa các dữ liệu để xử lí theo mô hình Rasch thì ta không đề cập đến độ tin cậy, độ giá trị hay các thuộc tính khác của bài trắc nghiệm nữa, vì các dữ liệu đó đã đƣợc xử lí trƣớc đó, tức là bài trắc nghiệm của ta đã đạt yêu cầu về độ tin cậy rồi.
Tài liệu tham khảo
[1]. Lâm Quang Thiệp (2001), Đo lường và đánh giá trong giáo dục (tài liệu phục vụ lớp cao học giáo dục ĐHSP Huế), Huế.
[2]. Lâm Quang Thiệp, “Lý thuyết ứng đáp câu hỏi trắc nghiệm”
http://www.edtech.com.vn
[3]. Dƣơng Thiệu Tống (1995), Trắc nghiệm và đo lường thành quả học tập (Phương pháp thực hành), nhà xuất bản khoa học xã hội.
[4]. Diễn đàn đại học Cần Thơ: (29-01-2005), Các lý thuyết đo lƣờng giáo dục, http://www.ctu.edu.vn.