Xác định tham số của câu hỏi, thuộc tính của bài t- 123docz.net

2.2. Lý thuyết trắc nghiệm cổ điển (Classical Test Theory)

2.2.1. Xác định tham số của câu hỏi, thuộc tính của bài trắc nghiệm

Trong CTT, việc đánh giá năng lực thí sinh chủ yếu dựa vào điểm bài trắc nghiệm. Một bài trắc nghiệm được tạo nên từ nhiều câu hỏi, vì thế, các thuộc tính của các câu hỏi cần được xem xét và tính toán. Trong CTT, câu hỏi được xem xét với hai thuộc tính là độ khó và độ phân biệt đồng thời điểm bài trắc nghiệm và độ tin cậy của điểm bài trắc nghiệm được tính toán. Sau đây chúng ta sẽ xem xét các tham số câu hỏi và thuộc tính của bài trắc nghiệm.

 Độ khó(Facility):

Định nghĩa: Trong CTT, độ khó là tỷ số của số thí sinh trả lời đúng câu hỏi và tổng số thí sinh đã trả lời câu hỏi [6], được tính theo công thức:

Fac i( ) r .

 (4)

với Fac(i) là độ khó của câu hỏi i nào đó; r là số thí sinh trả lời đúng câu hỏi; M

là tổng số thí sinh đã trả lời câu hỏi.

Theo công thức (4), giá trị Fac(i) càng cao thì i là một câu hỏi càng dễ, ngược lại

Fac(i) càng nhỏ i là câu hỏi càng khó.

Chú ý:

- Giá trị độ khó (facility) trong CTT càng lớn thì câu hỏi càng dễ. Tuy nhiên, sau này, trong IRT, độ khó (difficulty) được đưa ra theo một định nghĩa khác, chúng ta sẽ đề cập định nghĩa này ở phần tiếp thao.

 Độ phân biệt: (Discrimination)

Định nghĩa: Trong CTT, khái niệm độ phân biệt được xem là một đại lượng dùng để đo mức độ phân biệt (distinguish) giữa các sinh viên trong nhóm. Khi ra

một câu hỏi hoặc một bài trắc nghiệm cho một nhóm thí sinh nào đó thực hiện, người ta thường muốn phân biệt trong nhóm ấy những người có năng lực khác nhau: giỏi, trung bình, kém... Khả năng của câu trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt.

Một câu hỏi có độ phân biệt cao thì phản ứng của nhóm thí sinh giỏi và nhóm thí sinh kém lên câu đó phải khác nhau. Người ta thường thống kê các phản ứng khác nhau đó của các thí sinh để tính độ phân biệt.

Các phương pháp tính độ phân biệt trong CTT:

 Công thức tương quan mô men tích Pearson (Pearson product-moment correlation) là công thức được dùng phổ biến. Theo đó, độ phân biệt của câu hỏi chính là tương quan giữa điểm của câu hỏi X và tổng điểm bài trắc nghiệm Y. X Y, cov( , ) (( ( ))( ( ))) X Y X Y X Y E X E X Y E Y          (5)

Trong đó, như ta đã biết X , Ylà độ lệch tiêu chuẩn được xác định theo công thức: . )) ( ( ) ( ) )) ( (( . )) ( ( ) ( ) )) ( (( 2 2 2 2 2 2 Y E Y E Y E Y E X E X E X E X E Y X           (6)

Với: E(X) là kỳ vọng của điểm câu hỏi X của các thí sinh;

E(Y) là kỳ vọng của điểm bài thi Y của các thí sinh.

Giá trị X Y, trong công thức (5) càng lớn nếu câu hỏi có độ phân biệt càng lớn.  Ngoài ra, độ phân biệt có thể tính theo theo tương quan giữa điểm của câu hỏi với hiệu số giữa điểm bài trắc nghiệm và điểm của câu hỏi này.

Theo CTT, giá trị độ phân biệt của câu hỏi có thể biến đổi từ 1 (với thí sinh đạt điểm cao trong câu hỏi này đồng thời đạt điểm cao trong cả bài trắc nghiệm) đến –1 (với thí sinh đạt điểm cao trong câu hỏi này nhưng lại đạt điểm thấp trong cả bài trắc nghiệm)

Ví dụ: Một bài thi có 8 câu hỏi được thực hiện bởi 10 thí sinh như sau: Câu hỏi Thí sinh Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Tổng điểm Tâm 1 1 2 3 5 0 10 10 32 An 1 1 4 3 0 0 9 10 28 Hoa 1 1 2 3 0 1 8 10 26 Ngọc 0 1 4 3 0 0 7 10 25 Lan 0 0 0 3 0 1 6 10 20 Hoa 1 1 3 2 0 2 5 2 16 Hải 1 1 3 2 0 0 4 4 15 Tuấn 0 1 5 2 0 0 3 2 13 Nghĩa 0 1 1 2 0 0 2 6 12 Nam 0 1 1 2 0 2 0 6 12

Max (điểm tối đa) 1 1 5 5 5 5 10 10 42 Fac (độ khó) 0.50 0.90 0.50 0.50 0.10 012 0.54 0.70

Disc1(r:q,total) 0.50 0.00 0.12 0.90 0.57 -0.31 0.96 0.79

Disc2(r:q,total-q) 0.45 -0.04 -0.09 0.89 0.41 -0.41 0.88 0.46

Bảng 2.1: Ví dụ kết quả trả lời bài thi 8 câu hỏi của 10 thí sinh

Trong bảng trên, Disc1(r:q, total) cho biết giá trị độ phân biệt của câu hỏi so với cả bài trắc nghiệm, giá trị này được tính theo công thức (5); Disc2(r:q,total-q)

cho biết giá trị độ phân biệt của câu hỏi so với các câu còn lại của bài trắc nghiệm.

 Ngoài ra, CTT còn đưa ra một cách tính khác cho độ phân biệt của câu hỏi [20], theo đó, thực hiện chia toàn bộ các thí sinh tham gia bài thi trắc nghiệm làm hai nhóm: nhóm có tổng điểm bài thi cao và nhóm có tổng điểm bài thi thấp hơn. Lần lượt tính độ khó của câu hỏi cho từng nhóm thí sinh điểm cao và nhóm thí sinh điểm thấp. Độ phân biệt của câu hỏi là hiệu của hai độ khó này.

Ví dụ: Có 25 thí sinh làm bài thi, trong đó chia ra được 13 thí sinh đạt điểm ở mức cao, còn lại 12 thí sinh ở nhóm điểm thấp. Với câu hỏi đang xét, nhóm thí sinh điểm cao có 10 người trả lời đúng, khi đó, độ khó của câu hỏi cho nhóm thí sinh này là: 10/13=0.77. Còn nhóm thí sinh điểm thấp hơn có 6 người trả lời

đúng câu hỏi này, do đó, độ khó của câu hỏi tính cho nhóm thí sinh điểm thấp là: 6/12=0.5. Cuối cùng tính được độ phân biệt của câu hỏi: 0.77-0.5=0.27.

 Độ tin cậy

Trong bất kỳ phép đo nào đều gồm hai thành phần đó là giá trị thực và sai số. Trắc nghiệm là một phép đo: dùng thước đo là bài trắc nghiệm để đo lường một năng lực của thí sinh. Độ tin cậy của bài trắc nghiệm chính là đại lượng biểu thị mức độ chính xác của phép đo nhờ bài trắc nghiệm. Độ tin cậy càng cao, điểm thu được bài trắc nghiệm càng chính xác.

Trong CTT, độ tin cậy của điểm thu được từ bài trắc nghiệm X được ký hiệu là được định nghĩa là tỷ lệ giữa phương sai của điểm thực và phương sai của điểm nhận được :

hay:

(7)

với σX và σT được tính theo công thức (6).

Trong công thức này, độ tin cậy của điểm bài trắc nghiệm cao khi phương sai lỗi 2

 nhỏ và ngược lại. Nếu biết điểm thực ta có thể biết được độ tin cậy của bài trắc nghiệm. Tuy nhiên, độ tin cậy không thể ước lượng trực tiếp được vì giá trị này đòi hỏi tính được giá trị điểm thực, mà điều này theo CTT là không thể. Do đó, người ta dùng một số cách ước lượng độ tin cậy khác.

Một số cách ước lượng gián tiếp độ tin cậy:

- Cách “test-retest” (trắc nghiệm – trắc nghiệm lại): Đây là cách thực hiện đi thực hiện lại cùng một bài trắc nghiệm cho cùng một nhóm thí sinh, trong hai lần khác nhau. Độ tin cậy là tương quan giữa điểm lần trắc nghiệm thứ nhất và điểm lần trắc nghiệm thứ hai của các thí sinh. Cách ước lượng này nhằm đánh giá tính ổn định của bài thi. Nếu tương quan giữa hai lần thi càng lớn thì độ tin cậy càng cao.

- Cách “parallel test” (trắc nghiệm song song): người ta xây dựng một khái niệm bài trắc nghiệm song song. Hai bài trắc nghiệm được gọi là “song song” nếu nó có tính chất: với mọi thí sinh, điểm thực (kỳ vọng của điểm thu được)

và phương sai của điểm thu được (điểm bài thi) từ bài trắc nghiệm này cũng chính bằng các giá trị này khi thực hiện ở bài trắc nghiệm khác. Nếu X và X’

là hai bài trắc nghiệm song song thì:

ti = (Xi) = (Xi’) = ti’

và 2

Ei = 2

E’i

Theo [20] độ tin cậy của bài trắc nghiệm bằng tương quan giữa bài trắc nghiệm này và bài trắc nghiệm song song với nó. Cụ thể, gọi ρXX’ là tương quan giữa hai bài trắc nghiệm X và X’ thì:

Việc sử dụng cả hai cách trên (test-retest và parrallel test) đều cồng kềnh và khó thực hiện: dạng “test-retest” thường tốn thời gian, công sức, trong khi đó, thí sinh lại có thể rút kinh nghiệm từ lần trắc nghiệm trước; còn với dạng “parallel test” thì khó xây dựng được các “bài trắc nghiệm song song” theo định nghĩa đã đưa ra ở trên. Do đó, trong thực tế người ta sử dụng một đại lượng khác gọi là Cronbach's α để tính biên dưới của độ tin cậy.

Tính biên dưới của độ tin cậy

Xét một bài trắc nghiệm gồm k câu hỏi, điểm cho các câu hỏi với thí sinh thứ i là uij(j=1,2,...k). Tổng điểm bài trắc nghiệm được định nghĩa là tổng điểm đạt được của k câu hỏi. Do đó, với thí sinh i, ta có:

Biểu thức Cronbach-alpha:

. (8)

với: k là tổng số câu hỏi.

Giá trị Cronbach-alpha đã được chứng minh là biên dưới của độ tin cậy. Do đó, phương pháp này là khả thi và được áp dụng nhiều trong CTT.

Theo CTT, độ tin cậy phản ánh chất lượng nói chung của điểm trắc nghiệm. Độ tin cậy càng cao điểm thu được từ bài trắc nghiệm càng đáng tin cậy (càng tốt). CTT không đề xuất ra cao bao nhiêu là hợp lý. Trong một số tài liệu [6] cho

rằng giá trị độ tin cậy >0.80 là chấp nhận được, giá trị >0.90 là tốt, giữa 0.70 và 0.80 là bình thường nhưng vẫn còn chấp nhận được, giá trị <.70 là bài trắc nghiệm có độ tin cậy kém. Đây chỉ là một thang giá trị quy ước, không được chứng minh.

 Độ giá trị

Yêu cầu quan trọng nhất của bài trắc nghiệm với tư cách là một phép đo lường trong giáo dục là phép đo ấy đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Theo [17], độ giá trị của bài trắc nghiệm là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm. Độ giá trị là một khái niệm mang tính định tính gắn liền với mục tiêu đặt ra cho bài trắc nghiệm.

Để bài trắc nghiệm có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua bài trắc nghiệm và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm cũng như khi tổ chức triển khai kỳ thi.

Qua định nghĩa về độ phân biệt và độ giá trị có thể thấy rõ mối tương quan giữa chúng. Khi bài trắc nghiệm không có độ tin cậy, tức là phép đo nhờ bài trắc nghiệm rất kém chính xác, thì không thể nói đến độ giá trị của nó. Nói cách khác,

khi bài trắc nghiệm không có độ tin cậy thì nó cũng không thể có độ giá trị.

Một vấn đề đặt ra là: một bài trắc nghiệm có độ tin cậy cao thì có nhất thiết là có độ giá trị cao hay không? Câu trả lời là: không nhất thiết. Thật vậy, đôi khi phép đo nhờ bài trắc nghiệm có thể đo chính xác, nhưng nó đo một cái gì đó mà không phải cái nó cần đo, trong trường hợp đó thì bài trắc nghiệm có độ tin cậy cao nhưng độ giá trị rất thấp.

Ví dụ: một khẩu súng chuẩn xác được người bắn nhằm vào mục tiêu là tấm bia ngắm, các viên đạn bắn ra đều trúng chụm lân cận tâm điểm của bia ngắm. Khẩu súng như vậy là có độ tin cậy cao, và người bắn nhắm đúng mục tiêu nên kết quả bắn cũng đạt độ giá trị cao. Tuy nhiên cũng khẩu súng đó nếu rơi vào tay một người ngắm nhầm mục tiêu, kết quả là các viên đạn vẫn chụm nhưng nằm lân cận một mục tiêu khác chứ không đúng mục tiêu đặt ra, trong trường hợp này việc bắn có độ tin cậy vẫn cao nhưng độ giá trị rất thấp.

2.2.2. Ƣu điểm của CTT

- So với các mô hình lý thuyết ứng đáp câu hỏi (sẽ trình bày trong Mục 2.3), các phân tích trong CTT có thể thực hiện được trên tập mẫu các thí sinh có số lượng nhỏ.

- CTT sử dụng công thức toán học đơn giản để biểu thị mối quan hệ đồng thời các ước lượng tham số của mô hình dễ hiểu hơn so với các mô hình trong lý thuyết ứng đáp câu hỏi.

2.2.3. Nhƣợc điểm của CTT

CTT nói chung tỏ ra dễ áp dụng do tính đơn giản của các công thức tính toán, tuy nhiên nó cũng có một số mặt hạn chế quan trọng.

- CTT sử dụng mối liên hệ chủ yếu giữa 3 đại lượng X,T,, (trong đó: X điểm bài thi quan sát được; T là năng lực thực sự của thí sinh và ở CTT giả định T

là kỳ vọng của phân bố xác suất của X; là điểm sai số). Do X phụ thuộc vào câu hỏi nên T cũng phụ thuộc vào câu hỏi mà trong thực tế T là số đo năng lực thực sự của thí sinh, T yêu cầu phải độc lập với câu hỏi.

- Năng lực của thí sinh được đánh giá thông qua độ khó của bài trắc nghiệm. Nếu các câu hỏi trong bài trắc nghiệm là dễ thì thí sinh được đánh giá có năng lực cao, ngược lại nếu câu hỏi là khó thì thí sinh được đánh giá có năng lực thấp. Như vậy, theo CTT thì năng lực của thí sinh phụ thuộc vào bài trắc nghiệm hay nói một cách khác năng lực của thí sinh phụ thuộc vào nhóm trắc nghiệm thử (vì độ khó của các câu hỏi được xác định thông qua trắc nghiệm thử). Ngoài ra, trong CTT rất khó so sánh năng lực của hai thí sinh khi họ thực hiện hai bài trắc nghiệm khác nhau.

- Hai thống kê cơ bản của CTT là độ khó và độ phân biệt cùng phụ thuộc vào mẫu thử nghiệm. Nếu nhóm thí sinh thử nghiệm có mức năng lực dưới trung bình thì các giá trị độ khó câu hỏi sẽ cao và ngược lại nếu nhóm thí sinh thử nghiệm có mức năng lực trên trung bình thì giá trị độ khó sẽ thấp hơn. Như vậy, tham số độ khó câu hỏi phụ thuộc vào mẫu các thí sinh thử nghiệm. Tham số độ phân biệt có khuynh hướng cao nếu nhóm thí sinh thử nghiệm có năng lực không đồng nhất và có khuynh hướng thấp nếu nhóm thí sinh này có năng lực đồng nhất. Nhóm trắc nghiệm càng đồng đều về năng lực thì độ phân biệt càng kém. Rõ ràng, độ phân biệt của câu hỏi trong CTT phụ thuộc vào các thí sinh thử nghiệm.

Do những nhược điểm nêu trên mà những năm gần đây CTT ít được sử dụng, thay vào đó lý thuyết ứng đáp câu hỏi (Item Resonse Theory) ra đời và được ứng dụng rộng rãi trong thực tế.

2.3. Lý thuyết ứng đáp câu hỏi (Item Response Theory)

Vào những năm 1970, lý thuyết ứng đáp câu hỏi (IRT – Item Response Theory) được đưa vào ứng dụng thực tế và thay thế cho CTT. Ngày nay hầu hết các hệ thống sát hạch đều sử dụng IRT để ước lượng các tham số của câu hỏi cũng như ước lượng năng lực thí sinh.

IRT được xây dựng dựa trên một số tiên đề và dựa trên một hàm phân bố xác suất của năng lực thí sinh theo các tham số của câu hỏi.

Ở đây chúng ta chỉ xét đến bài thi gồm các câu hỏi trắc nghiệm mà phương án trả lời của thí sinh cho câu hỏi hoặc đúng (nhận giá trị 1) hoặc sai (nhận giá trị 0).

2.3.1. Các tiên đề

Theo [22] IRT dựa trên một số tiên đề cơ bản sau:

a) Việc trả lời đúng một câu hỏi trắc nghiệm của thí sinh có thể bị ảnh hưởng bởi các nhân tố: đặc điểm câu hỏi và năng lực (ability) của thí sinh. (Như đã trình bày ở phần đầu của chương này, năng lực của thí sinh ở đây có thể được hiểu là một khả năng hay một thuộc tính nào đó của thí sinh được đo bởi bài trắc nghiệm, có thể là: sự hiểu biết, các kỹ năng,... tuỳ thuộc vào mục đích đo của bài trắc nghiệm).

Ví dụ, với cùng một câu hỏi trắc nghiệm về môn toán, với hai thí sinh có năng lực khác nhau (một thí sinh giỏi, một thí sinh kém) thì xác suất trả lời đúng câu hỏi của hai thí sinh này là khác nhau. Ngược lại, một thí sinh có

Xác định tham số của câu hỏi, thuộc tính của bài trắc nghiệm

Câu hỏi dùng thanh trượt

Hệ thống trắc nghiệm của Viện CNTT