Mô hình rasch và phân tích dữ liệu bằng phần mềm QUEST

Qua đó có thể trả lời các câu hỏi nghiên cứu như: - Đề thi có phù hợp với năng lực của nhóm thí sinh dự thi hay không?. Trường hợp nhầm đáp án có thể xảy ra bởi các nguyên nhân: có thể

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN ĐẢM BẢO CHẤT LƯỢNG GIÁO DỤC

- -

BÀI TẬP PHÂN TÍCH ĐỀ THI VÀ KẾT QUẢ THI Môn tiếng Anh kỳ thi tuyển sinh vào lớp 10 trường THPT chuyên Quang Trung – năm học 2010 - 2011 Môn học: Mô hình Rasch và Phân tích dữ liệu bằng phần mềm QUEST

Giảng viên: TS Phạm Xuân Thanh

Học viên: Nguyễn Văn Nghiêm

Lớp Thạc sĩ Đo lường đánh giá Khóa 3 (2010) TP HCM

TP Hồ Chí Minh, tháng 5/2011

Trang 2

MỤC LỤC

MỤC LỤC 1

Chương 1 Tổng quan tiểu luận 2

1 Giới thiệu về dữ liệu đề thi 2

2 Mục đích, yêu cầu 2

3 Cấu trúc tiểu luận gồm 5 chương: 2

4 Phương pháp thực hiện 3

Chương 2 Phân tích đề thi bằng lý thuyết cổ điển 4

1 Độ khó của câu hỏi thi: 4

2 Các khả năng nhầm đáp án 5

3 Chất lượng của các phương án sai (mồi nhử) 5

4 Độ phân biệt của câu hỏi thi 8

5 Hệ số tương quan giữa điểm của câu hỏi thi với điểm toàn bài thi 9

6 Độ tin cậy của đề thi 10

7 Kết luận chương 2 10

Chương 3 Xử lý số liệu và phân tích đề thi bằng lý thuyết hiện đại 12

1 Sự phù hợp của câu hỏi thi 12

1.1 Mức độ phù hợp với mô hình: 12

1.2 Mức độ phù hợp của các câu hỏi với nhau 13

2 Phân bố độ khó câu hỏi thi và năng lực thí sinh 14

3 Các chỉ số thống kê của câu hỏi 16

4 Khảo sát các câu hỏi có tính định kiến, thiên vị 18

5 Kết luận chương 3 20

Chương 4 Kết luận & kiến nghị 22

PHỤ LỤC 24

Trang 3

Chương 1 Tổng quan tiểu luận

1 Giới thiệu về dữ liệu đề thi

Bộ dữ liệu là kết quả làm bài đề thi tuyển vào lớp 10 trường THPT chuyên Quang Trung năm học 2010 – 2011 môn tiếng Anh với 50 câu hỏi trắc nghiệm (dạng 4 lựa chọn) gồm 1625 thí sinh tham gia dự thi

File dữ liệu có 54 biến gồm: mahs, mahuyen, matruong, gioi, Cau1, Cau2,

Cau3, Cau4, Cau5, Cau6, Cau7, Cau8, Cau9, Cau10, Cau11, Cau12, Cau13, Cau14, Cau15, Cau16, Cau17, Cau18, Cau19, Cau20, Cau21, Cau22, Cau23, Cau24, Cau25, Cau26, Cau27, Cau28, Cau29, Cau30, Cau31, Cau32, Cau33, Cau34, Cau35, Cau36, Cau37, Cau38, Cau39, Cau40, Cau41, Cau42, Cau43, Cau44, Cau45, Cau46, Cau47, Cau48, Cau49, Cau50 Trong đó mahs là mã số

thí sinh (case), mahuyen là mã huyện (nơi thí sinh cư trú), matruong là mã số

trường thí sinh học lớp 9, gioi là thông tin về giới tính (0 là nữ, 1 là nam) và các biến từ Cau1 đến Cau50 là kết quả trả lời của 50 câu trắc nghiệm (item)

2 Mục đích, yêu cầu

Tiểu luận này vận dụng lý thuyết khảo thí cổ điển và lý thuyết khảo thí hiện đại nhằm đánh giá câu hỏi thi Qua đó có thể trả lời các câu hỏi nghiên cứu như:

- Đề thi có phù hợp với năng lực của nhóm thí sinh dự thi hay không? Nếu chưa phù hợp thì cần điều chỉnh như thế nào?

- Có câu hỏi nào trong đề không phù hợp và cần chỉnh sửa hay loại bỏ hay không?

Những phân tích này là cơ sở để lựa chọn câu hỏi đạt chất lượng xây dựng ngân hàng câu hỏi thi cho kỳ thi tuyển đầu vào trường THPT chuyên Quang Trung Đồng thời đưa ra khuyến cáo cho công tác viết câu hỏi trắc nghiệm trong những lần ra đề sau này đạt chất lượng được tốt nhất

3 Cấu trúc tiểu luận gồm 4 chương:

Chương 1 Tổng quan tiểu luận Chương 2 Phân tích đề thi bằng lý thuyết cổ điển

Trang 4

Chương 3 Phân tích đề thi bằng lý thuyết hiện đại Chương 4 Kết luận

4 Phương pháp thực hiện

Sử dụng phần mềm MS Excel, Quest, SPSS để xử lý số liệu

Dựa trên lý thuyết khảo thí cổ điển và khảo thí hiện đại (mô hình Rasch)

để phân tích số liệu được xử lý bằng các phần mềm nói trên

Trang 5

Chương 2 Phân tích đề thi bằng lý thuyết cổ điển

1 Độ khó của câu hỏi thi:

Độ khó của câu hỏi thi (P) là tỷ lệ thí sinh trả lời đúng so với tổng số thí sinh tham gia trả lời câu hỏi đó Kết quả phân tích số liệu được thể hiện ở bảng thống kê dưới đây:

Câu

Phương án

Sót Độ khó Câu

Phương án

Sót Độ khó

Trang 6

Theo thuyết khảo thí cổ điển, Osterlind (1989), thì giá trị độ khó càng lớn cho thấy câu hỏi càng dễ, độ khó của câu hỏi nằm trong khoảng 0.4 đến 0.8 là chấp nhận được Thống kê dữ liệu cho thấy độ khó trung bình của của 50 câu hỏi là 0.48 và rải từ 0.25 đến 0.87 Chỉ có 1 câu có độ khó lớn hơn 0.8, có đến

15 câu có độ khó p < 0.4 câu chiếm tỷ lệ 30% số câu trong đề thi, số câu có độ khó từ 0.6 trở lên chỉ có 9 câu (chiếm 18%) và có đến 41 câu có độ khó dưới 0.6 (chiếm 82%) Như vậy, hầu hết các câu hỏi của bài test này thuộc loại khó đối với nhóm học sinh tham gia nghiên cứu này

Nhận xét: Đề thi có quá nhiều câu hỏi khó và thiếu các câu dễ Cần tăng

cường, bổ sung các câu dễ mới đánh giá được năng lực của học sinh Các câu 5,

6, 8, 12, 15, 16, 18, 22, 27, 32, 37, 41, 42, 47, 50 có độ khó < 0.4 cần được điều chỉnh trước khi chọn vào ngân hàng câu hỏi vì là những câu này quá khó Câu

20 có độ khó p = 0.87 là một câu hỏi quá dễ cũng cần được điều chỉnh

2 Các khả năng nhầm đáp án

Nhầm đáp án là trường hợp đa số thí sinh tham gia làm bài chọn phương

án khác với đáp án Trường hợp nhầm đáp án có thể xảy ra bởi các nguyên nhân:

có thể do người viết câu hỏi có sự nhầm lẫn, cũng có thể do phần lớn thí sinh tham gia làm bài hiểu sai câu hỏi hoặc được dạy sai kiến thức, cũng có thể do câu hỏi quá khó khiến thí sinh đoán mò và trùng hợp là phần đông thí sinh đoán

mò trùng một phương án (trường hợp này xác xuất xảy ra là rất thấp)

Bảng 1 cho thấy có 2 trường hợp nhầm đáp án Đó là câu 6 và câu 18 Các câu này cần được điều chỉnh hoặc loại bỏ

3 Chất lượng của các phương án sai (mồi nhử)

Phương án sai hay gọi là mồi nhử là các phương án ngoài đáp án Mồi nhử tốt là mồi nhử có tỷ lệ lựa chọn gần với tỷ lệ mong muốn được tính theo

công thức: i = (1 – P)/(k – 1) x 100%

Trong đó: P là độ khó của câu hỏi;

Trang 7

k là số phương án trả lời

Ví dụ câu hỏi 4 lựa chọn có độ khó là 0.6 thì tỷ lệ mồi nhử mong muốn là (1 – 0.6)/(4-1) x 100% = 13.33 % cho mỗi phương án Cùng với cách tính này ở đây ta xác định mồi nhử kém khi tỷ lệ lựa chọn nhỏ hơn 50% tỷ lệ mong muốn

Từ dữ liệu thống kê được ta thấy bài test có đến 6 câu xuất hiện mồi nhử kém (gồm các câu: 2, 3, 24, 33, 37, 40)

Ở bảng 2 dưới đây, khi so sánh các phương án sai giữa nhóm trên gồm

những thí sinh có kết quả điểm toàn bài thi cao nhất chiếm 27% tổng số thí sinh (Nh trên) với nhóm dưới gồm những thí sinh có kết quả điểm toàn bài thi thấp nhất chiếm 27% tổng số thí sinh (Nh dưới) cho thấy có 22 câu có độ lệch rất thấp (trong khoảng ±0.1) Điều này cho thấy các phương án sai này không có hiệu quả đối với cả 2 nhóm có năng lực khác nhau

Độ lệch của các phương án là đáp án của đề thi tương đối tốt Có 46 câu (92%) có độ lệch đáp án >0.2, trong đó có 13 câu có độ lệch đáp án >0.5 Có 2 câu có độ lệch đáp án <0 cần phải loại bỏ hoặc chỉnh sửa, đó là câu 6 và câu 18

Trong 22 câu có độ lệch trong khoảng ± 0.1 thì có 19 câu là câu có mồi nhử kém đã được tính ở trên (gồm các câu: 1, 7, 8, 12, 13, 14, 15, 16, 18, 19, 20,

21, 28, 29, 30, 31, 38, 41, 48) (chiếm 38% số câu trong đề thi) Điều này có nghĩa là cả nhóm trên và nhóm dưới đều rất ít thí sinh chọn, cho thấy những mồi nhử ấy thật sự là mồi nhử kém

Nhận xét: Chất lượng của các phương án sai (mồi nhử) không cao vì cả

học sinh kém và học sinh giỏi đều có tỷ lệ trả lời sai gần nhau Có nhiều câu cả nhóm trên và nhóm dưới đều rất ít thí sinh chọn, cho thấy những mồi nhử ấy thật

sự là mồi nhử kém, nhất định phải chỉnh sửa mồi nhử trước khi đưa vào ngân hàng câu hỏi hoặc có thể loại bỏ

Câu N.Trên N.Dưới Lệch N.Trên N.Dưới Lệch N.Trên N.Dưới Lệch N.Trên N.Dưới Lệch

Trang 9

4 Độ phân biệt của câu hỏi thi

Độ phân biệt của câu hỏi thi là mức độ khác nhau về kết quả trả lời giữa hai nhóm trên và dưới khi làm bài thi Câu hỏi có chỉ số phân biệt nhỏ hơn hoặc bằng 0 cần bị loại bỏ Ebel (1956) đề xuất rằng các câu hỏi của bài test trong lớp học nên có chỉ số phân biệt bằng 0,30 hoặc cao hơn Một số tác giả khác cho rằng độ phân biệt nên nằm trong khoảng 0,25-0,75 Tuy nhiên, trong các kỳ thi

có quy mô lớn, việc sử dụng một số câu hỏi thi quá dễ hoặc quá khó sẽ dẫn đến

độ phân biệt của câu hỏi thi có thể có giá trị quá thấp hoặc quá cao

Đề thi này là một đề thi tuyển sinh đầu vào môn tiếng Anh của một trường chuyên, là một đề thi khó đối với thí sinh dự thi nên độ phân biệt của câu hỏi thi có thể sẽ cao Độ phân biệt của từng câu hỏi được tính toán như Bảng 3 dưới đây

Câu hỏi Độ PB Câu hỏi Độ PB Câu hỏi Độ PB Câu hỏi Độ PB Câu hỏi Độ PB

Trang 10

Bảng 3 Độ phân biệt câu hỏi thi

Độ phân biệt >0.75 >0.6 >0.5 >=0.4 >=0.3 <0.25 Min Mean Max

-0.19 0.42 0.61

Bảng 3.1 Thống kê phân bổ độ phân biệt

Từ số liệu thống kê trên cho thấy các câu hỏi đều có độ phân biệt trung bình là 0.42 rải từ -0.19 đến 0.61 Có 37 câu (chiếm 74%) đạt độ phân biệt từ 0.4 trở lên, 44 câu có độ phân biệt từ 0.30 trở lên (chiếm 88%) điều này cho thấy đề thi có độ phân biệt rất tốt Các câu có độ phân biệt chưa tốt (< 0.25) gồm 6 câu:

1, 6, 16, 18, 20, 30 trong đó có hai câu có độ phân biệt < 0 là câu 6, và câu 18 (cũng là 2 câu nhầm đáp án)

Nhận xét: Có 88% số câu hỏi đạt độ phân biệt trong khoảng chấp nhận

được (từ 0.25 đến 0.75) Số câu đạt độ phân biệt ở mức rất tốt chiếm 74% đề thi, chứng tỏ độ phân biệt của đề thi là rất tốt Tuy nhiên cần chỉnh sửa một số câu

có độ phân biệt chưa tốt như câu 1, 6, 16, 18, 20, 30

5 Hệ số tương quan giữa điểm của câu hỏi thi với điểm toàn bài thi

Giữa kết quả điểm của từng câu hỏi thi với điểm chung của toàn bài thi phải có mối tương quan thuận (hệ số tương quan dương) Mối tương quan chặt chẽ giữa câu hỏi thi và toàn bài thi góp phần làm tăng độ tin cậy của bài test Cần giữ lại những câu hỏi thi có mối tương quan cao và loại bỏ những câu hỏi

có mối tương quan thấp hoặc dưới 0 để làm tăng độ tin cậy của đề thi Theo Griffin (1998), những câu hỏi tốt là những câu hỏi có hệ số tương (Pt-Biserial) nằm trong khoảng 0.35 và 0.75

Câu

HSTQ Pt- Biserial

Câu

Trang 11

6 Độ tin cậy của đề thi

Độ tin cậy của đề thi thể hiện được tính theo nhiều công thức khác nhau Tuy nhiên, độ tin cậy được xác định dựa trên tính ổn định bên trong của đề thi thường được sử dụng Kết quả tính toán bằng phần mềm QUEST cho thấy độ tin cậy của đề thi đạt 0.99 Đây là một đề thi có độ tin cậy rất cao

7 Kết luận chương 2

1 Đề thi và các câu hỏi trắc nghiệm có chất lượng tương đối tốt, độ tin

cậy của đề thi đạt rất cao (0.99) tuy nhiên có 2 trường hợp sai đáp án cần phải loại bỏ và rút kinh nghiệm đối với công tác viết câu hỏi trắc nghiệm

2 Đề thi quá ít những câu hỏi dễ nên không phân biệt được giữa những

học sinh có năng lực trung bình với học sinh yếu, kém Nhìn chung đề thi này là khó so với học sinh tham gia làm bài kiểm tra Các câu 5, 6, 8, 12, 15, 16, 18,

22, 27, 32, 37, 41, 42, 47, 50 có độ khó p < 0.4; câu 20 có độ khó p=0.87 cần được điều chỉnh trước khi chọn vào ngân hàng câu hỏi

3 Chất lượng của các phương án sai (mồi nhử) không cao vì cả học sinh

kém và học sinh giỏi đều có tỷ lệ trả lời sai gần nhau Các câu: 1, 7, 8, 12, 13,

14, 15, 16, 18, 19, 20, 21, 28, 29, 30, 31, 38, 41, 48, cả nhóm trên và nhóm dưới đều rất ít thí sinh chọn (trong đó các câu 12, 15, 16, 18, 37, 41, 47 là những câu

có độ khó p<0.4) cho thấy những mồi nhử của các câu này thật sự là mồi nhử

Trang 12

kém, cần phải chỉnh sửa mồi nhử trước khi đưa vào ngân hàng câu hỏi hoặc có thể loại bỏ

4 Có 88% số câu hỏi đạt độ phân biệt trong khoảng chấp nhận được (từ

0.25 đến 0.75) Số câu đạt độ phân biệt ở mức rất tốt chiếm 74% đề thi, chứng tỏ

độ phân biệt của đề thi là rất tốt Tuy nhiên cần chỉnh sửa một số câu có độ phân biệt chưa tốt như câu 1, 6, 16, 18, 20, 30

5 Có 86% số câu hỏi đạt hệ số tương quan đạt trên 0.3 chứng tỏ các câu

hỏi có mối tương quan thuận và khá mạnh với điểm chung của bài thi Riêng 2 câu có hệ số tương quan < 0 (tương quan nghịch với điểm toàn bài thi) cần phải loại bỏ đó là câu 6 và câu 18

Trang 13

Chương 3 Xử lý số liệu và phân tích đề thi bằng lý thuyết hiện đại

Việc phân tích câu hỏi thi bằng lý thuyết khảo thí hiện đại cũng có thể đưa

ra những thông tin thống kê để phân tích câu hỏi thi như lý thuyết khảo thí cổ điển Tuy nhiên, việc phân tích câu hỏi thi bằng lý thuyết khảo thí hiện đại (sử dụng phần mêm QUEST và các phần mềm chuyên dụng khác) còn có thể giúp

có được những thông tin đầy đủ hơn về đề thi và các câu hỏi thi Để phân tích và đánh giá đề thi này tác giả sẽ phân tích các chỉ số sau:

Trích file ThiTS.map :

Summary of item Estimates

=========================

Mean .00

SD .59

SD (adjusted) 59 Reliability of estimate .99

Fit Statistics

===============

Infit Mean Square Outfit Mean Square

Mean 1.00 Mean 1.01

SD .12 SD .17

Infit t Outfit t

Mean -.46 Mean -.20

SD 4.16 SD 3.29

0 items with zero scores

0 items with perfect scores

Trang 14

1.2 Mức độ phù hợp của các câu hỏi với nhau

Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm biểu thị bằng dấu * Những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị trung bình bình phương độ phù hợp INFIT MNSQ nằm trong khoảng (0.77;1.30) sẽ phù hợp với mô hình Rasch Nếu câu trắc nghiệm nào không phù hợp thì loại

bỏ

Trong biểu đồ dưới đây ta thấy câu 6 và câu 18 có chỉ số phù hợp (INFIT MNSQ) nằm ngoài vùng cho phép, cần loại bỏ

-INFIT

MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40 1.50

1.60 -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -

1 item 1 | *

2 item 2 * |

3 item 3 | *

4 item 4 * |

5 item 5 * |

6 item 6 | *

7 item 7 * |

8 item 8 *|

9 item 9 * |

10 item 10 *|

11 item 11 *|

12 item 12 | *

13 item 13 *

14 item 14 *

15 item 15 * |

16 item 16 | *

17 item 17 * |

18 item 18 | *

19 item 19 | *

20 item 20 |*

21 item 21 | *

22 item 22 * |

23 item 23 * |

24 item 24 * |

25 item 25 * |

26 item 26 * |

27 item 27 * |

28 item 28 | *

29 item 29 *

30 item 30 | *

31 item 31 | *

32 item 32 * |

33 item 33 * |

34 item 34 * |

35 item 35 * |

36 item 36 * |

37 item 37 * |

38 item 38 | *

39 item 39 * |

40 item 40 * |

41 item 41 * |

42 item 42 * |

43 item 43 * |

44 item 44 * |

45 item 45 * |

46 item 46 * |

47 item 47 *

48 item 48 * |

49 item 49 * |

50 item 50 * |

Sau khi loại bỏ câu 6 và 18, dùng phần mềm Quest chạy lại thì xuất hiện thêm câu 30 có chỉ số INFIT MNSQ = 1.33, ngoài khoảng cho phép

nên ta tiếp tục bỏ câu 30 và chạy dữ liệu lại lần thứ 3.

Sau khi loại bỏ câu 6, 18 và 30 ta còn 47 câu có chỉ số phù hợp

(INFIT MNSQ) nằm trong vùng cho phép theo mô hình Rasch được thể hiện ở

biểu đồ sau:

Trang 15

-INFIT

MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40 1.50

1.60 -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -

1 item 1 | *

2 item 2 *|

3 item 3 | *

4 item 4 *

5 item 5 *|

7 item 7 * |

8 item 8 | *

9 item 9 *

10 item 10 |*

11 item 11 |*

12 item 12 | *

13 item 13 | *

14 item 14 | *

15 item 15 * |

16 item 16 | *

17 item 17 * |

19 item 19 | *

20 item 20 |*

21 item 21 | *

22 item 22 * |

23 item 23 * |

24 item 24 * |

25 item 25 * |

26 item 26 *|

27 item 27 * |

28 item 28 | *

29 item 29 | *

31 item 31 | *

32 item 32 * |

33 item 33 * |

34 item 34 * |

35 item 35 * |

36 item 36 * |

37 item 37 *

38 item 38 | *

39 item 39 *|

40 item 40 * |

41 item 41 *

42 item 42 * |

43 item 43 *

44 item 44 *

45 item 45 *

46 item 46 *

47 item 47 | *

48 item 48 * |

49 item 49 * |

50 item 50 * |

INFIT

INFIT MNSQ

Bảng 5 Chỉ số Infit MNSQ

2 Phân bố độ khó câu hỏi thi và năng lực thí sinh

Sơ đồ phân bố độ khó câu hỏi thi và năng lực thí sinh cho thấy mức độ phù hợp của đề thi đối với thí sinh dự thi Kết quả xử lý bằng phần mềm QUEST cho một bản đồ phân bố năng lực học sinh và độ khó câu hỏi thi

Các thông tin về kết quả tính toán từ bảng Summary of case Estimates cho thấy năng lực trung bình của mẫu thí sinh (case) tham gia bài kiểm tra (-0.02)

Trang 16

nhỏ hơn và gần bằng so với độ khó chung của bài kiểm tra (0.00) cho thấy độ

khó của đề thi tương đối phù hợp với năng lực thí sinh

Sử dụng lý thuyết khảo thí hiện đại, năng lực của học sinh và độ khó của

câu hỏi được đánh giá bằng thang logistic Theo sơ đồ trên, các câu hỏi có độ

khó từ - 2.20 đến 0.92 (thang logistic) Trong khi đó, năng lực của thí sinh phân

bố từ -2.26 đến 3.96 với trung bình cộng là -0.02 và độ lệch chuẩn 0.97 Điều

này đòi hỏi phải có thêm một số câu khó hơn để đo được toàn bộ năng lực của

học sinh với những mức năng lực khác nhau

Bảng số liệu tính toán trên thí sinh tham gia:

Summary of case Estimates

=========================

Mean -.02

SD .97

SD (adjusted) 90

Reliability of estimate .87

Fit Statistics =============== Infit Mean Square Outfit Mean Square Mean 1.00 Mean 1.01 SD .08 SD .29

Infit t Outfit t Mean 00 Mean 07

SD .82 SD .61

0 cases with zero scores 6 cases with perfect scores Sơ đồ phân bổ năng lực thí sinh và độ khó câu hỏi thi (thang logistic): -

Item Estimates (Thresholds) 6/ 6/11 13:53

all on 3-thits (N =1625 L = 47 Probability Level= 50) -

4.0 X | |

|

X | |

3.0 |

XX | |

|

XX | |

2.0 XX | XX | XX | XXXXX | XXX | XXX | XXX | XXX | 1.0 XXXX | 16

XXXXX | 15

XXX | 41 50

XXXXXXXX | 5 12 22 27 37 47

XXXXX | 8 32 42

XXXXX | 28 31 36 43 45 49

XXXXXXXXXXXXXX | 25 48

.0 XXXXXXXX | 17 21 33 34

XXXXXXXXXXXXXXXX | 19 35 38 40

XXXXXXXXXX | 4 9 10 24 29 44

XXXXXXXXXXX | 3 14 46

XXXXXXXXXXXXXXXXXXXXX | XXXXXXXXXXX | 7 11 13 23 39

XXXXXXXXXX |

Trang 17

XXXXXXXXXX | 2 26

-1.0 XXXXXXXXXXXXXX | XXXXXXX | 1

XXXXX | XXX | XX | |

X | X | -2.0 |

|

| 20

|

-3.0 |

-

Each X represents 8 students

Ý kiến: Đề tương đối phù hợp với năng lực của nhóm thí sinh tham gia bài

thi này, tuy nhiên cần bổ sung một số câu khó để đánh giá những thí sinh có năng lực cao vì những thí sinh có ngưỡng năng lực (thresholds) từ 0.92 trở lên và

bổ sung một số câu dễ để đánh giá những thí sinh có năng lực thấp với ngưỡng năng lực dưới -1.06 chưa có câu hỏi nào để đánh giá, mới chỉ có một câu 20 là quá ít

3 Các chỉ số thống kê của câu hỏi

Các chỉ số đã được phân tích ở trên là:

Infit MNSQ

Độ phân biệt Disc

Count Percent (%) Pt-Biserial

4 chỉ số cần được phân tích tiếp là:

P-value Mean ability Thresholds Error

P-value: là giá trị thống kê cho biết hệ số tương quan (Point Biserial) tính toán được là có ý nghĩa thống kê ở mức nào, thông thường phải nhỏ hơn hoặc bằng 0.05 (có ý nghĩa thống kê ở mức α = 0.05)

Trong số 50 câu hỏi được phân tích trên đều có p-value đạt yêu cầu, ở những phương án là đáp án có ý nghĩa thống kê rất cao ở mức p-value = 0.000 Điều này cho thấy hệ số tương quan tính được giữa câu hỏi thi và điểm thi của toàn bài có ý nghĩa thống kê cao

Trang 18

Mean ability: Trung bình năng lực của những thí sinh đưa ra sự lựa chọn của mình cho từng phương án trả lời Phương án trả lời đúng phải có Mean ability cao hơn các phương án trả lời sai, các phương án trả lời sai (mồi nhử) thường có Mean Ability âm Yêu cầu này đều đạt được ở tất cả các câu hỏi khi

đã loại bỏ các câu 6, 18 và 30

Thresholds: Là ngưỡng năng lực yêu cầu (theo thang logistic) để trả lời đúng câu hỏi đang phân tích Với 47 câu hỏi này ta thấy chỉ số thresholds rải từ -2.20 đến 0.92 trong khi đó ngưỡng năng lực của thí sinh phân bố từ -2.26 đến 3.96 cho thấy đề thi này không có những câu hỏi đủ khó để đánh giá thí sinh có ngưỡng năng lực từ trên 0.92 đồng thời thiếu những câu hỏi đủ dễ để đánh giá thí sinh có ngưỡng năng lực từ -1.09 trở xuống

Error: là sai số tính toán, thông số này cho thấy độ tin cậy của số liệu tính được cho từng câu hỏi, thông thường nhỏ hơn 0.2 Yêu cầu này đều đạt được ở tất cả các câu hỏi

Dưới đây là trích kết quả phân tích có được từ phần mềm Quest Câu 6, câu 30 là câu ngoại lai, câu 20 là câu được đề nghị loại bỏ ở phần đánh giá bằng

lý thuyết cổ điển và là câu có chỉ số thresholds thấp nhất Câu 16 là câu có độ khó (thresholds) cao nhất trên thang logistic

Câu 06 (trích file thiTS.ita xử lý lần 1) có Infit MNSQ quá lớn  ngoại lai đồng thời giá trị Mean ability phương án đúng A* = -0.36 < D = 0.38

Item 6: item 6 Infit MNSQ = 1.51

Trang 19

Câu 20 (trích file 3-thiTS.ita xử lý lần 3): Tỷ lệ chọn đúng cao (87.5%), ngưỡng

năng lực thresholds thấp (-2.20), mean ability = 0.04 cho thấy câu hỏi này quá

dễ tuy nhiên theo quan điểm của thuyết khảo thí hiện đại thì 2 câu này không cần thiết phải loại bỏ

Câu 16 (trích file 3-thiTS.ita xử lý lần 3): Tỷ lệ chọn đúng thấp (30.3%), ngưỡng

năng lực thresholds khá cao (-0.92), mean ability = 0.40 cho thấy câu hỏi này không dễ

4 Khảo sát các câu hỏi có tính định kiến, thiên vị

Trong quá trình soạn câu hỏi thi, có thể có những câu hỏi khá dễ đối với nhóm thí sinh này nhưng lại khó đối với nhóm thí sinh khác Đó là các câu hỏi

có tính định kiến, thiên vị (biased) Nguyên nhân có thể do người soạn câu hỏi thi dùng các từ ngữ địa phương, những từ ngữ không phổ biến, những kiến thức không phổ thông, những kiến thức mà nhiều vùng học sinh không được học Một đề thi có chất lượng tốt phải không có các câu hỏi có tính định kiến, thiên

vị

Trang 20

Dữ liệu phân tích có 1625 thí sinh tham gia dự thi thuộc 11 huyện thị, các

huyện thị có mã số 7, 8, 8, 10, 11 là các trường thuộc thị trấn, thị xã gọi là nhóm

thành thị (tt) gồm 761 thí sinh; những huyện có mã số 1, 2, 3, 4, 5, 6 là những

huyện không thuộc thị trấn, thị xã và được gọi là vùng nông thôn (nt) gồm 864

thí sinh

Trong đề thi này, câu 28 nằm ngoài vùng ±2 là câu hỏi định kiến, thiên vị

đối với 2 nhóm thí sinh tham gia kỳ thi: 1) nhóm nông thôn (nt) và 2) nhóm thị

xã (tt)

Từ biểu đồ ta thấy các câu hỏi phân bổ khá đồng đều cho cả 2 nhóm

Riêng câu 28 dễ đối với nhóm thí sinh thành thị nhưng lại quá khó đối với nhóm

nông thôn, câu này cần phải loại bỏ hoặc điều chỉnh

Biểu đồ phân bổ câu hỏi theo sự khác biệt giữa 2 nhóm thí sinh

THI TS 2010

-

Comparison of Item estimates for groups nt and tt on the thits scale

-

Plot of Standardised Differences

-3 -2 -1 0 1 2 3

item 1 * |

item 2 .* |

item 4 * |

item 5 | *

item 7 * |

item 8 |*

item 10 | *

item 12 * |

item 14 | *

item 16 * |

item 18 *

item 19 | *

item 21 * |

item 22 | *

item 24 | *

item 25 * |

item 27 | *

item 28 | *

item 29 * |

item 31 | *

item 33 | *

item 34 * |

item 36 * |

item 38 * |

item 40 * |

item 42 * |

item 44 * |

item 45 * |

item 47 | *

item 48 | *

item 50 | *

Chạy lần 2 (bỏ câu 28) THI TS 2010

-

Comparison of Item estimates for groups nt and tt on the thits scale

Định dạng
Số trang	40
Dung lượng	1,16 MB