Phân tích và đánh giá bài thi TNKQ

Một phần của tài liệu Giáo dục đại học, Trường Cao đẳng Sư phạm Trung ương, Kết quả học tập, Đánh giá (Trang 45 - 49)

Sau khi chấm điểm một bài trắc nghiệm, chúng ta cần đánh giá hiệu quả của từng câu hỏi trong bài trắc nghiệm thông qua việc phân tích các phương án trả lời của các thí

sinh trong từng câu hỏi trắc nghiệm.

1.6.1. Mục đích phân tích câu hỏi và bài test Việc phân tích này nhằm hai mục đích:

- Kết quả bài thi có thể giúp giáo viên đánh giá mức độ thành công của việc giảng dạy và học tập, từ đó kịp thời điều chỉnh nội dung dạy học và phương pháp đánh giá kết quả học tập cho phù hợp.

- Thông qua việc phân tích câu hỏi xem SV trả lời mỗi câu hỏi như thế nào, từ đó có thể bổ sung hay chỉnh sửa lại các câu hỏi đó hay không và nếu cần phải sửa thì sửa như thế nào để bài TNKQ có thể ĐGKQHT của sinh viên một cách tốt hơn.

1.6.2. Phương pháp phân tích câu hỏi theo lí thuyết khảo thí hiện đại

Để biết một thí sinh có nắm được nội dung của môn học hay không sau khi học xong môn học đó, một bài test có thể cho chúng ta biết một cách chính xác: thí sinh đó hiểu đến mức nào (chỉ nhận biết khái niệm một cách máy móc hay còn có khả năng đánh giá, chuyển giao nhận thức của mình). Các công cụ đo lường, quan sát (ví dụ bài test) cần được thiết kế cẩn thận, có độ tin cậy cao để ghi nhận chính xác các hành vi, làm cơ sở để xác định đại lượng ẩn.

Lý thuyết khảo thí hiện đại còn gọi là Lý thuyết hồi đáp (Items Response Theory)

Xem thông tin chi tiết trong phụ lục 1.2

Lí thuyết hồi đáp ra đời đã có ảnh hưởng lớn trong lĩnh vực đo lường đánh gía.

Bởi vậy nó được áp dụng rất rộng rãi vì sự hữu ích của nó không chỉ trong đo lường trong giáo dục mà còn trong ngành công nghiệp và ngành khoa học xã hội (Hambleton, Swaminathan & Rogers, 1971). Mô hình Racsh được áp dụng trong đo lường và phân tích câu hỏi thi, nó là mô hình chủ đạo trong lí thuyết hồi đáp. Mô hình được ứng dụng rộng rãi trong khoa học đo lường và phát triển các bài test (Hambleton, Swaminathan, 1985). Dựa vào lí thuyết hồi đáp và mô hình Racsh, Adams & Khoo- 1993- đã phát triển phần mềm Quest. Phần mềm này cho một bài test

tốt với việc phân tích bộ câu hỏi trong bài test, nó cung cấp tính toán về từng câu hỏi, từng thí sinh và độ phù hợp với mô hình. Kết quả thu được qua việc đọc các bảng tính toán và các biểu đồ. Nói cụ thể hơn phần mềm này đặc biệt hữu dụng cho người thiết kế, biên soạn, phát triển và người phân tích các câu hỏi thi.

1.6.3. Một số yêu cầu thống kê đối với đề kiểm tra 1.6.3.1. Độ phù hp vi mô hình

Một trong những dẫn chứng quan trọng để nói rằng bộ câu hỏi là tốt khi xác định được tất cả các câu hỏi đều tạo thành một cấu trúc. Khi phân tích dữ liệu bằng phần mềm Quest dựa trên mô hình Rasch2 nếu các câu hỏi đều có Infit MNSQ nằm trong khoảng từ 0,77 đến 1,30 là nằm trong giới hạn cho phép. Hay nói cách khác các câu hỏi trong bộ câu hỏi này đã tạo thành 1 cấu trúc đo đúng cái cần đo. Còn nếu câu hỏi nào nằm ngoài giới hạn cho phép trên có nghĩa là câu hỏi đó không phù hợp với mô hình vì vậy các câu hỏi này cần sửa đổi hay loại bỏ.

Ngoài ra chúng ta còn xem xét 2 chỉ báo sau Summary of item Estimates

Mean : bằng 0 SD . gần 1 SD (adjusted) .

Reliability of estimate .

Fit Statistics Kiểm tra sự phù hợp trong thống kê với mô hình Rasch của các câu hỏi Infit Mean Square Outfit Mean Square

Mean = 1.00 Mean 1.00 SD gần = 0 SD .24

Nếu các chỉ báo trên đạt thì bộ câu hỏi chúng ta xây dựng là tốt 1.6.3.2. Độ khó và độ phân bit ca câu trc nghim

+ Độ khó của câu hỏi: Là một chỉ số nói lên chất lượng của mỗi câu hỏi trên lớp. Nó được tính bằng phương pháp thống kê theo công thức:

n

P = R Trong đó: R: số sinh viên làm câu đúng n: Số sinh viên tham dự.

Nhiều chuyên gia cho rằng độ khó của câu hỏi trắc nghiệm được quy định trong khoảng sau: P < 30% là câu hỏi khó.

30≤ P ≤ 40% là câu có độ tương đối khó

2 Xem thông tin chi tiết ở phụ lục 4.

40≤ P ≤ 60% là câu có độ khó trung bình P ≤ 60% là câu có độ khó vừa phải P ≥ 70% là câu dễ.

+ Độ phân biệt của câu hỏi: Là để đo khả năng của câu hỏi phân biệt rõ kết quả làm bài của một nhóm sinh viên có năng lực khác nhau. Công thức tính độ khó phân biệt:

n

T

D=C− Trong đó: C: Số sinh viên trong nhóm cao trả lời đúng câu TN T: Số sinh viên trong nhóm thấp trả lời đúng câu TN n: Số SV dự thi TN của nhóm cao hoặc nhóm thấp.

Chỉ số D của một câu trắc nghiệm:

D≥ 40%: là rất tốt.

30≤D≤39%: Khá tốt

20≤D≤29%: Chấp nhận được

D≤19% kém, cần loại bỏ hay sửa chữa lại cho tốt hơn

Tiêu chun để chn câu hi hay

Sau khi phân tích và tính toán các chỉ số của các câu hỏi thoả mãn các câu hỏi sau đây thì được xếp vào danh mục câu hỏi hay:

- Độ khó nằm trong khoảng 40% ≤ P ≤ 60%

- Độ phân biệt D ≥ 0,20 trở lên là thoả mãn về độ phân biệt.

Trong nghiên cứu của mình với sự hỗ trợ của công nghệ thông tin, việc phân tích câu hỏi được thực hiện nhờ các phần mềm máy tính nó cho chúng ta kết quả rất nhanh chóng và chính xác. Từng phương án lựa chọn trong một câu hỏi có bao nhiêu thí sinh lựa chọn,....Không những thế nó còn chỉ cho chúng ra độ khó của từng câu hỏi so với năng lực thí sinh và câu hỏi này có phù hợp với bộ câu hỏi trong bài test hay không.

1.6.3.3. Độ tin cy ca bài trc nghim

“Độ tin cậy nói lên tính vững chắc của một tập hợp điểm số trắc nghiệm trong việc đo lường bất cứ cái gì mà nó muốn đo lường”

- Độ tin cậy là thuộc tính của bài trắc nghiệm ấy khi nó đem ra áp dụng với một nhóm sinh viên nào đó. Bài TN ấy càng thích hợp với mức độ, khả năng của nhóm ấy bao nhiêu thì độ tin cậy của các điểm số ấy càng cao.

- Hệ số tương quan sử dụng như là một số đo lường độ tin cậy. Nếu sự khác biệt giữa các điểm số của cùng một người tương đối nhỏ với sự khác biệt giữa các điểm số ấy của những người khác nhau thì độ tin cậy của điểm số bài trắc nghiệm ấy càng cao.

Trong thực tế, để xác định độ tin cậy của bài trắc nghiệm người ta dùng công thức sau:

+ Công thức Kuder – Richardson (với những câu hỏi đúng/sai, đa lựa chọn) - KR 20 [A25]

⎟⎟

⎟⎟

⎜⎜

⎜⎜

⎛ −

− −

= ∑

= 2 1

) 1 (

1 1 c

n i

i

i p

p n

n

δ σ Trong đó:

pi là độ khó câu hỏi i

2

σc là phương sai của cả bài test n là số câu hỏi của bài test

- K-R 21 . Công thức KR 21 sử dụng trong trường hợp độ khó của các câu hỏi bằng nhau hoặc xấp xỉ bằng nhau.

⎟⎟ ⎠

⎜⎜ ⎞

⎛ − −

= − ( 2 )

1 1 c

c c

n n n

n

σ à

δ à Trong đú: c

à là trung bỡnh cộng của cả bài test

2

σc là phương sai của cả bài test n là số câu hỏi của bài test

+ Công thức dự báo của Spearman – Brown: để tiên đoán sự gia tăng tin cậy bằng cách tăng gia chiều dài của trắc nghiệm

r k kr

) 1 ( 1 + −

δ = Trong đó: r là độ tin cậy của bài test

δ là độ tin cậy của bài test, được kéo dài k lần Qua nghiên cứu cho thấy các yếu tố sau có ảnh hưởng trực tiếp đến bài trắc nghiệm:

- Bài trắc nghiệm càng thuần nhất thì độ tin cậy càng cao. Một bài trắc nghiệm được coi là thuần nhất nếu phần lớn các câu hỏi trong bài có độ khó trung bình.

Tuy nhiên cần chú ý khi cố gắng làm tăng tính thuần nhất sẽ có nguy cơ thu hẹp nội dung đánh giá tức là làm giảm độ giá trị của bài trắc nghiệm.

- Độ tin cậy của bài trắc nghiệm có mục đích khác nhau, chẳng hạn bài trắc nghiệm về thành quả tối thiểu hay thành quả tối đa có độ tin cậy khác với bài trắc nghiệm phân loại hay chuẩn đoán.

- Nếu chiều dài bài trắc nghiệm tăng lên n lần sẽ làm độ tin cậy r ban đầu theo công thức Spearman – Brown.

Ngoài ra còn có các công thức khác tính độ tin cậy như Hệ số α Crombach và công thức phân đôi. Việc tính toán này làm chúng ta mất nhiều thời gian và công sức thậm chí có thể tính nhầm. Tuy nhiên trong luận văn này tác giả đã sử dụng phần mềm thống kê SPSS và áp dụng lí thuyết IRT để tính độ tin cậy (Pt-Biserial) một cách đơn giản, nhanh chóng và cho kết quả chính xác.

1.6.3.4. Độ giá tr ca bài trc nghim

“Độ giá trị nói lên tính chính xác của một tập hợp điểm số trong việc đo lường cái mà nó phải đo lường”. Độ giá trị của một dụng cụ đo lường là tính chất để thể hiện dụng cụ đó có thể đo được cái chúng ta cần đo. Đối với bài trắc nghiệm thì độ giá trị thể hiện hiệu quả của nó trong việc đo lường các mục tiêu đề ra. Do đó, khi xét tính chất gía trị ta cần phải xác định xem bài trắc nghiệm này có giá trị đối với ai, trong mục đích nào? Chúng ta cần xét đến tính chất giá trị nội dung các câu hỏi trong bài trắc nghiệm phải là một mẫu tiêu biểu, nó bao trùm toàn bộ nội dung môn học. Do đó trước khi xác định tính chất này, chúng ta phải làm rõ mục tiêu giảng dạy, phân loại khả năng hoặc kiến thức phải nắm sau khi học tập. Vậy độ giá trị được ước lượng bằng cách so sánh nội dung đề cập trong các câu hỏi nào nội dung của chương trình.

Một phần của tài liệu Giáo dục đại học, Trường Cao đẳng Sư phạm Trung ương, Kết quả học tập, Đánh giá (Trang 45 - 49)

Tải bản đầy đủ (PDF)

(151 trang)