Ví dụ kết quả trả lời bài thi 8 câu hỏi của 10 thí- 123docz.net

Trong bảng trên, Disc1(r:q, total) cho biết giá trị độ phân biệt của câu hỏi so với cả bài trắc nghiệm, giá trị này được tính theo công thức (5); Disc2(r:q,total-q)

cho biết giá trị độ phân biệt của câu hỏi so với các câu còn lại của bài trắc nghiệm.

 Ngoài ra, CTT còn đưa ra một cách tính khác cho độ phân biệt của câu hỏi [20], theo đó, thực hiện chia toàn bộ các thí sinh tham gia bài thi trắc nghiệm làm hai nhóm: nhóm có tổng điểm bài thi cao và nhóm có tổng điểm bài thi thấp hơn. Lần lượt tính độ khó của câu hỏi cho từng nhóm thí sinh điểm cao và nhóm thí sinh điểm thấp. Độ phân biệt của câu hỏi là hiệu của hai độ khó này.

Ví dụ: Có 25 thí sinh làm bài thi, trong đó chia ra được 13 thí sinh đạt điểm ở mức cao, còn lại 12 thí sinh ở nhóm điểm thấp. Với câu hỏi đang xét, nhóm thí sinh điểm cao có 10 người trả lời đúng, khi đó, độ khó của câu hỏi cho nhóm thí sinh này là: 10/13=0.77. Còn nhóm thí sinh điểm thấp hơn có 6 người trả lời

đúng câu hỏi này, do đó, độ khó của câu hỏi tính cho nhóm thí sinh điểm thấp là: 6/12=0.5. Cuối cùng tính được độ phân biệt của câu hỏi: 0.77-0.5=0.27.

 Độ tin cậy

Trong bất kỳ phép đo nào đều gồm hai thành phần đó là giá trị thực và sai số. Trắc nghiệm là một phép đo: dùng thước đo là bài trắc nghiệm để đo lường một năng lực của thí sinh. Độ tin cậy của bài trắc nghiệm chính là đại lượng biểu thị mức độ chính xác của phép đo nhờ bài trắc nghiệm. Độ tin cậy càng cao, điểm thu được bài trắc nghiệm càng chính xác.

Trong CTT, độ tin cậy của điểm thu được từ bài trắc nghiệm X được ký hiệu là được định nghĩa là tỷ lệ giữa phương sai của điểm thực và phương sai của điểm nhận được :

hay:

(7)

với σX và σT được tính theo công thức (6).

Trong công thức này, độ tin cậy của điểm bài trắc nghiệm cao khi phương sai lỗi 2

 nhỏ và ngược lại. Nếu biết điểm thực ta có thể biết được độ tin cậy của bài trắc nghiệm. Tuy nhiên, độ tin cậy không thể ước lượng trực tiếp được vì giá trị này đòi hỏi tính được giá trị điểm thực, mà điều này theo CTT là không thể. Do đó, người ta dùng một số cách ước lượng độ tin cậy khác.

Một số cách ước lượng gián tiếp độ tin cậy:

- Cách “test-retest” (trắc nghiệm – trắc nghiệm lại): Đây là cách thực hiện đi thực hiện lại cùng một bài trắc nghiệm cho cùng một nhóm thí sinh, trong hai lần khác nhau. Độ tin cậy là tương quan giữa điểm lần trắc nghiệm thứ nhất và điểm lần trắc nghiệm thứ hai của các thí sinh. Cách ước lượng này nhằm đánh giá tính ổn định của bài thi. Nếu tương quan giữa hai lần thi càng lớn thì độ tin cậy càng cao.

- Cách “parallel test” (trắc nghiệm song song): người ta xây dựng một khái niệm bài trắc nghiệm song song. Hai bài trắc nghiệm được gọi là “song song” nếu nó có tính chất: với mọi thí sinh, điểm thực (kỳ vọng của điểm thu được)

và phương sai của điểm thu được (điểm bài thi) từ bài trắc nghiệm này cũng chính bằng các giá trị này khi thực hiện ở bài trắc nghiệm khác. Nếu X và X’

là hai bài trắc nghiệm song song thì:

ti = (Xi) = (Xi’) = ti’

và 2

Ei = 2

E’i

Theo [20] độ tin cậy của bài trắc nghiệm bằng tương quan giữa bài trắc nghiệm này và bài trắc nghiệm song song với nó. Cụ thể, gọi ρXX’ là tương quan giữa hai bài trắc nghiệm X và X’ thì:

Việc sử dụng cả hai cách trên (test-retest và parrallel test) đều cồng kềnh và khó thực hiện: dạng “test-retest” thường tốn thời gian, công sức, trong khi đó, thí sinh lại có thể rút kinh nghiệm từ lần trắc nghiệm trước; còn với dạng “parallel test” thì khó xây dựng được các “bài trắc nghiệm song song” theo định nghĩa đã đưa ra ở trên. Do đó, trong thực tế người ta sử dụng một đại lượng khác gọi là Cronbach's α để tính biên dưới của độ tin cậy.

Tính biên dưới của độ tin cậy

Xét một bài trắc nghiệm gồm k câu hỏi, điểm cho các câu hỏi với thí sinh thứ i là uij(j=1,2,...k). Tổng điểm bài trắc nghiệm được định nghĩa là tổng điểm đạt được của k câu hỏi. Do đó, với thí sinh i, ta có:

Biểu thức Cronbach-alpha:

. (8)

với: k là tổng số câu hỏi.

Giá trị Cronbach-alpha đã được chứng minh là biên dưới của độ tin cậy. Do đó, phương pháp này là khả thi và được áp dụng nhiều trong CTT.

Theo CTT, độ tin cậy phản ánh chất lượng nói chung của điểm trắc nghiệm. Độ tin cậy càng cao điểm thu được từ bài trắc nghiệm càng đáng tin cậy (càng tốt). CTT không đề xuất ra cao bao nhiêu là hợp lý. Trong một số tài liệu [6] cho

rằng giá trị độ tin cậy >0.80 là chấp nhận được, giá trị >0.90 là tốt, giữa 0.70 và 0.80 là bình thường nhưng vẫn còn chấp nhận được, giá trị <.70 là bài trắc nghiệm có độ tin cậy kém. Đây chỉ là một thang giá trị quy ước, không được chứng minh.

 Độ giá trị

Yêu cầu quan trọng nhất của bài trắc nghiệm với tư cách là một phép đo lường trong giáo dục là phép đo ấy đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Theo [17], độ giá trị của bài trắc nghiệm là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm. Độ giá trị là một khái niệm mang tính định tính gắn liền với mục tiêu đặt ra cho bài trắc nghiệm.

Để bài trắc nghiệm có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua bài trắc nghiệm và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm cũng như khi tổ chức triển khai kỳ thi.

Qua định nghĩa về độ phân biệt và độ giá trị có thể thấy rõ mối tương quan giữa chúng. Khi bài trắc nghiệm không có độ tin cậy, tức là phép đo nhờ bài trắc nghiệm rất kém chính xác, thì không thể nói đến độ giá trị của nó. Nói cách khác,

khi bài trắc nghiệm không có độ tin cậy thì nó cũng không thể có độ giá trị.

Một vấn đề đặt ra là: một bài trắc nghiệm có độ tin cậy cao thì có nhất thiết là có độ giá trị cao hay không? Câu trả lời là: không nhất thiết. Thật vậy, đôi khi phép đo nhờ bài trắc nghiệm có thể đo chính xác, nhưng nó đo một cái gì đó mà không phải cái nó cần đo, trong trường hợp đó thì bài trắc nghiệm có độ tin cậy cao nhưng độ giá trị rất thấp.

Ví dụ: một khẩu súng chuẩn xác được người bắn nhằm vào mục tiêu là tấm bia ngắm, các viên đạn bắn ra đều trúng chụm lân cận tâm điểm của bia ngắm. Khẩu súng như vậy là có độ tin cậy cao, và người bắn nhắm đúng mục tiêu nên kết quả bắn cũng đạt độ giá trị cao. Tuy nhiên cũng khẩu súng đó nếu rơi vào tay một người ngắm nhầm mục tiêu, kết quả là các viên đạn vẫn chụm nhưng nằm lân cận một mục tiêu khác chứ không đúng mục tiêu đặt ra, trong trường hợp này việc bắn có độ tin cậy vẫn cao nhưng độ giá trị rất thấp.

2.2.2. Ƣu điểm của CTT

- So với các mô hình lý thuyết ứng đáp câu hỏi (sẽ trình bày trong Mục 2.3), các phân tích trong CTT có thể thực hiện được trên tập mẫu các thí sinh có số lượng nhỏ.

- CTT sử dụng công thức toán học đơn giản để biểu thị mối quan hệ đồng thời các ước lượng tham số của mô hình dễ hiểu hơn so với các mô hình trong lý thuyết ứng đáp câu hỏi.

2.2.3. Nhƣợc điểm của CTT

CTT nói chung tỏ ra dễ áp dụng do tính đơn giản của các công thức tính toán, tuy nhiên nó cũng có một số mặt hạn chế quan trọng.

- CTT sử dụng mối liên hệ chủ yếu giữa 3 đại lượng X,T,, (trong đó: X điểm bài thi quan sát được; T là năng lực thực sự của thí sinh và ở CTT giả định T

là kỳ vọng của phân bố xác suất của X; là điểm sai số). Do X phụ thuộc vào câu hỏi nên T cũng phụ thuộc vào câu hỏi mà trong thực tế T là số đo năng lực thực sự của thí sinh, T yêu cầu phải độc lập với câu hỏi.

- Năng lực của thí sinh được đánh giá thông qua độ khó của bài trắc nghiệm. Nếu các câu hỏi trong bài trắc nghiệm là dễ thì thí sinh được đánh giá có năng lực cao, ngược lại nếu câu hỏi là khó thì thí sinh được đánh giá có năng lực thấp. Như vậy, theo CTT thì năng lực của thí sinh phụ thuộc vào bài trắc nghiệm hay nói một cách khác năng lực của thí sinh phụ thuộc vào nhóm trắc nghiệm thử (vì độ khó của các câu hỏi được xác định thông qua trắc nghiệm thử). Ngoài ra, trong CTT rất khó so sánh năng lực của hai thí sinh khi họ thực hiện hai bài trắc nghiệm khác nhau.

- Hai thống kê cơ bản của CTT là độ khó và độ phân biệt cùng phụ thuộc vào mẫu thử nghiệm. Nếu nhóm thí sinh thử nghiệm có mức năng lực dưới trung bình thì các giá trị độ khó câu hỏi sẽ cao và ngược lại nếu nhóm thí sinh thử nghiệm có mức năng lực trên trung bình thì giá trị độ khó sẽ thấp hơn. Như vậy, tham số độ khó câu hỏi phụ thuộc vào mẫu các thí sinh thử nghiệm. Tham số độ phân biệt có khuynh hướng cao nếu nhóm thí sinh thử nghiệm có năng lực không đồng nhất và có khuynh hướng thấp nếu nhóm thí sinh này có năng lực đồng nhất. Nhóm trắc nghiệm càng đồng đều về năng lực thì độ phân biệt càng kém. Rõ ràng, độ phân biệt của câu hỏi trong CTT phụ thuộc vào các thí sinh thử nghiệm.

Do những nhược điểm nêu trên mà những năm gần đây CTT ít được sử dụng, thay vào đó lý thuyết ứng đáp câu hỏi (Item Resonse Theory) ra đời và được ứng dụng rộng rãi trong thực tế.

2.3. Lý thuyết ứng đáp câu hỏi (Item Response Theory)

Vào những năm 1970, lý thuyết ứng đáp câu hỏi (IRT – Item Response Theory) được đưa vào ứng dụng thực tế và thay thế cho CTT. Ngày nay hầu hết các hệ thống sát hạch đều sử dụng IRT để ước lượng các tham số của câu hỏi cũng như ước lượng năng lực thí sinh.

IRT được xây dựng dựa trên một số tiên đề và dựa trên một hàm phân bố xác suất của năng lực thí sinh theo các tham số của câu hỏi.

Ở đây chúng ta chỉ xét đến bài thi gồm các câu hỏi trắc nghiệm mà phương án trả lời của thí sinh cho câu hỏi hoặc đúng (nhận giá trị 1) hoặc sai (nhận giá trị 0).

2.3.1. Các tiên đề

Theo [22] IRT dựa trên một số tiên đề cơ bản sau:

a) Việc trả lời đúng một câu hỏi trắc nghiệm của thí sinh có thể bị ảnh hưởng bởi các nhân tố: đặc điểm câu hỏi và năng lực (ability) của thí sinh. (Như đã trình bày ở phần đầu của chương này, năng lực của thí sinh ở đây có thể được hiểu là một khả năng hay một thuộc tính nào đó của thí sinh được đo bởi bài trắc nghiệm, có thể là: sự hiểu biết, các kỹ năng,... tuỳ thuộc vào mục đích đo của bài trắc nghiệm).

Ví dụ, với cùng một câu hỏi trắc nghiệm về môn toán, với hai thí sinh có năng lực khác nhau (một thí sinh giỏi, một thí sinh kém) thì xác suất trả lời đúng câu hỏi của hai thí sinh này là khác nhau. Ngược lại, một thí sinh có năng lực về toán ở mức trung bình, nếu yêu cầu thí sinh trả lời hai câu hỏi trắc nghiệm khác nhau (chẳng hạn: một câu hỏi dễ, một câu hỏi khó hơn) thì xác suất thí sinh trả lời đúng câu hỏi dễ sẽ cao hơn xác suất trả lời đúng câu hỏi khó hơn.

b) Với thuật ngữ “năng lực” như đã nói ở trên, mỗi thí sinh thực hiện bài trắc nghiệm luôn sở hữu một giá trị năng lực nào đó, năng lực này được tích lũy trong quá trình học tập của thí sinh. Năng lực thực sự của thí sinh là đại lượng không đo trực tiếp được, nhưng có thể ước lượng được thông qua việc thí sinh thực hiện bài trắc nghiệm gồm nhiều câu hỏi. Việc ước lượng

năng lực thí sinh trong IRT tương ứng với việc xác định được một giá trị bằng số gọi là điểm năng lực (ability score) từ đó định vị giá trị này trên thang đo năng lực (ability scale). Năng lực thí sinh trong IRT thường được ký hiệu là θ. Độ chính xác của các ước lượng năng lực thí sinh được xác định theo từng mức năng lực, nghĩa là, mỗi mức năng lực của thí sinh ước lượng được (từ cùng một bài trắc nghiệm) có sai số khác nhau.

Tiên đề này cũng dựa trên một thừa nhận (tương tự như trong CTT) là: năng lực thực sự của thí sinh không thể đo được thông qua bài trắc nghiệm, chỉ có thể tính toán được giá trị ước lượng của năng lực này đồng thời tính toán được sai số của ước lượng.

c) Quan hệ giữa xác suất trả lời đúng câu hỏi và năng lực thí sinh được mô tả thông qua một hàm đơn điệu tăng gọi là hàm đặc trưng của câu hỏi hay còn gọi là đường cong đặc trưng của câu hỏi (Item Characteristic Curve - ICC) mà thực chất là đồ thị của hàm đặc trưng.

2.3.2. Đƣờng cong đặc trƣng của câu hỏi

Xét một câu hỏi trắc nghiệm có nhiều phương án trả lời, kết quả thí sinh trả lời câu hỏi rơi vào một trong hai trường hợp: hoặc đúng hoặc sai. Xác suất để một thí sinh có năng lực  nào đó trả lời đúng một câu hỏi phụ thuộc vào một số thuộc tính của câu hỏi, xác suất này được biểu diễn bởi một hàm số theo biến số là năng lực  của thí sinh. Theo [6], quan hệ giữa xác suất trả lời đúng câu hỏi của thí sinh có năng lực  và các tham số độ khó b, độ phân biệt a của câu hỏi được biểu diễn thông qua một hàm phân bố chuẩn như sau:

  2/ 2 ( ) 1 = ( , , ) ( ) 2 z a b P P a b Z e dz             (9) Trong đó:

a là tham số độ phân biệt của câu hỏi (discrimination), nó cho biết mức độ phân biệt của các thí sinh có năng lực trên mức năng lực trung bình hoặc các thí sinh có năng lực dưới mức năng lực trung bình, - a  +

b là tham số độ khó của câu hỏi (difficulty), cho biết mức độ khó của câu hỏi, - b  +

P() là xác suất để thí sinh có năng lực  trả lời đúng câu hỏi.

Hàm (9) là một hàm dưới dấu tích phân, việc tính toán trên hàm này khá phức tạp, vì thế, người ta xấp xỉ hàm hàm (9) bởi hàm (10) sau đây:

' ' '( ) 1 1 ( ) ( ', , ) ( ) 1 Z 1 a b P P a b Z e e              (10)

khi a’=1,702a thì: | (Z) - (Z’)| <0.01; với - < <+. (Xem chứng minh chi tiết trong [6])

Đồ thị của hàm số (10) được gọi là đường cong đặc trưng của câu hỏi (Item Characteristic Curve - ICC) tương ứng với mô hình 2 tham số. Đồ thị của hàm (10) được biểu diễn như sau:

Hình 2.2: Đường cong đặc trưng của một câu hỏi

Do mỗi câu hỏi có những giá trị thuộc tính khác nhau nên chúng sẽ có một đường cong đặc trưng riêng. Đường cong đặc trưng là hàm đơn điệu (monotonic) theo biến năng lực của thí sinh.

Chú ý: Để tiện cho việc biểu diễn các tham số, ký hiệu a’ trong (10) được ký hiệu là a. Sau này, trong cài đặt thuật toán để ước lượng các tham số của câu hỏi, sau khi tính toán ra giá trị của tham số a, cần thực hiện phép chia cho 1.702 để tìm ra giá trị độ khó của câu hỏi.

Trong thực tế không phải mọi câu hỏi đều có đường cong đặc trưng tuân thủ theo (10). Theo [6], đường cong đặc trưng của một số câu hỏi trắc nghiệm còn có

Ví dụ kết quả trả lời bài thi 8 câu hỏi của 10 thí sinh

Câu hỏi dùng thanh trượt

Hệ thống trắc nghiệm của Viện CNTT