Trong trắc nghiệm trực tuyến, tất cả các câu hỏi trắc nghiệm thuộc một môn học hoặc một chủ đề nào đó được tập trung lại thành một ngân hàng câu hỏi đặt ở phía máy chủ; phần mềm trắc ngh
Trang 1trong trắc nghiệm trực tuyến
Luận văn Thạc sĩ CNTT
Người thực hiện: Nguyễn Thị Thắm Người hướng dẫn khoa học: GS.TSKH Đinh Dũng
Trang 2MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT iii
DANH MỤC CÁC HÌNH VẼ iv
DANH MỤC CÁC BẢNG BIỂU v
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ TRẮC NGHIỆM 6
1.1 Trắc nghiệm và phân loại trắc nghiệm 6
1.1.1 Trắc nghiệm (Test) là gì? 6
1.1.2 Phân loại trắc nghiệm 7
1.1.3 So sánh giữa trắc nghiệm khách quan và tự luận 10
1.2 Trắc nghiệm trực tuyến 14
1.3 Tình hình phát triển và ứng dụng trắc nghiệm 17
1.3.1 Tình hình phát triển và ứng dụng trắc nghiệm trên thế giới 17
1.3.2 Tình hình phát triển và ứng dụng trắc nghiệm ở Việt Nam 18
CHƯƠNG 2 LÝ THUYẾT TRẮC NGHIỆM 22
2.1 Nhắc lại một số khái niệm trong xác suất thống kê 23
2.2 Lý thuyết trắc nghiệm cổ điển (Classical Test Theory) 25
2.2.1 Xác định tham số của câu hỏi, thuộc tính của bài trắc nghiệm 26
2.2.2 Ưu điểm của CTT 32
2.2.3 Nhược điểm của CTT 32
2.3 Lý thuyết ứng đáp câu hỏi (Item Response Theory) 33
2.3.1 Các tiên đề 33
2.3.2 Đường cong đặc trưng của câu hỏi 34
2.3.3 Ước lượng các tham số của câu hỏi 39
2.3.4 Ước lượng năng lực thí sinh 46
2.3.5 Ước lượng đồng thời các tham số câu hỏi và năng lực thí sinh 53 2.3.6 Điểm thực của bài trắc nghiệm 58
2.3.7 Ưu, nhược điểm của IRT 60
2.4 Lý thuyết ứng đáp câu hỏi nhiều chiều 64
Trang 3CHƯƠNG 3 NGÂN HÀNG CÂU HỎI 66
3.1 Một số dạng câu hỏi trắc nghiệm 66
3.2 Đặc tả QTI cho câu hỏi, bài trắc nghiệm 70
3.2.1 Giới thiệu chung về đặc tả QTI 70
3.2.2 Các tài liệu trong đặc tả QTI 71
3.2.3 Các đối tượng cơ bản nhất trong QTI 72
3.2.4 Ví dụ minh hoạ biểu diễn câu hỏi theo đặc tả QTI 74
3.3 Quy trình xây dựng ngân hàng câu hỏi 78
3.3.1 Xác định các đặc điểm năng lực mà câu hỏi sẽ đo 78
3.3.2 Viết câu hỏi 79
3.3.3 Xem xét lại câu hỏi đã viết (review) 81
3.3.4 Thử nghiệm (pilot test) 82
CHƯƠNG 4 ỨNG DỤNG LÝ THUYẾT IRT TRONG HỆ THỐNG TRẮC NGHIỆM CỦA VIỆN CNTT – ĐHQGHN 84
4.1 Hệ thống trắc nghiệm của Viện CNTT 84
4.2 Thử nghiệm ước lượng các tham số câu hỏi và năng lực thí sinh 86
KẾT LUẬN 94
TÀI LIỆU THAM KHẢO 96
PHỤ LỤC 99
Trang 4DANH MỤC CÁC TỪ VIẾT TẮT
Stt Từ hoặc cụm từ Từ viết tắt Từ Tiếng Anh
3 Lý thuyết ứng đáp câu hỏi
nhiều chiều
Response Theory
6 Đặc tả về tính khả thi tương
tác giữa câu hỏi và bài trắc
nghiệm của tổ chức IMS
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Các phương pháp trắc nghiệm 8
Hình 2.1: Ví dụ đồ thị của phân bố chuẩn (0, 1) 25
Hình 2.2: Đường cong đặc trưng của một câu hỏi 35
Hình 2.3: Đường cong đặc trưng của câu hỏi và thể hiện tham số 36
Hình 2.4: Đường ICC của 3 câu hỏi có cùng độ phân biệt, khác độ khó 38
Hình 2.5: Biểu diễn các điểm ước lượng xác suất trả lời đúng câu hỏi theo từng nhóm thí sinh 41
Hình 2.6: Đường cong đặc trưng của câu hỏi nhận được sau ước lượng tham số 43 Hình 2.7: Một hàm thông tin của bài trắc nghiệm 10 câu hỏi 50
Hình 2.8: Một đường cong đặc trưng của bài trắc nghiệm có 10 câu hỏi 60
Hình 2.9: Các tham số câu hỏi ước lượng được thông qua trả lời của nhóm có năng lực thấp 61
Hình 2.10: Các tham số câu hỏi ước lượng được thông qua trả lời của nhóm thí sinh có năng lực cao 61
Hình 2.11: Đường cong đặc trưng của câu hỏi tìm được 62
Hình 3.1: Câu hỏi nhiều lựa chọn dùng radio button 67
Hình 3.2: Câu hỏi nhiều lựa chọn dùng combo box 67
Hình 3.3: Câu hỏi nhiều phương án trả lời 67
Hình 3.4: Câu hỏi điền thông tin 68
Hình 3.5: Câu hỏi ghép đôi 68
Hình 3.6: Câu hỏi lựa chọn điểm hoặc vùng trên ảnh 69
Hình 3.7: Câu hỏi dùng thanh trượt 69
Hình 3.8: Câu hỏi lựa chọn một phương án 74
Hình 4.1: Mô hình hệ thống trắc nghiệm trực tuyến của Viện CNTT 84
Hình 4.2: Ví dụ kết quả trả lời bài thi của các thí sinh 87
Hình 4.3: Sơ đồ thuật toán ước lượng đồng thời câu hỏi và năng lực thí sinh 88
Trang 6DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: So sánh giữa Trắc nghiệm khách quan và Tự luận 11
Bảng 2.1: Ví dụ kết quả trả lời bài thi 8 câu hỏi của 10 thí sinh 28
Bảng 3.1: Ví dụ về một bảng yêu cầu 80
Bảng 4.1: Kết quả ước lượng các tham số a, b, c cho 40 câu hỏi 89 Bảng 4.2: Kết quả ước lượng năng lực của 30 thí sinh đầu tiên trong danh sách 91
Trang 8Trắc nghiệm trên máy tính nói chung và trắc nghiệm trực tuyến nói riêng thường gồm hai bộ phận quan trọng là: ngân hàng câu hỏi và phần mềm trắc nghiệm Ngân hàng câu hỏi được xem là phần nội dung (content) của phần mềm trắc nghiệm Trong trắc nghiệm trực tuyến, tất cả các câu hỏi trắc nghiệm thuộc một môn học hoặc một chủ đề nào đó được tập trung lại thành một ngân hàng câu hỏi đặt ở phía máy chủ; phần mềm trắc nghiệm làm nhiệm vụ tổ chức câu hỏi được lấy ra từ ngân hàng thành bài thi và phân phối đến thí sinh thông qua trình duyệt Web, đồng thời thực hiện phân tích các phương án trả lời của thí sinh và cuối đưa ra kết quả đánh giá năng lực thí sinh Việc đánh giá năng lực thí sinh (qua việc làm bài thi trắc nghiệm) phụ thuộc vào một số yếu tố, trong đó đặc biệt chú ý đến: (1) ngân hàng câu hỏi trắc nghiệm có chất lượng và phù hợp mục tiêu trắc nghiệm; (2) phương thức đánh giá năng lực thí sinh khách quan và có độ chính xác cao
(1) Ngân hàng câu hỏi trắc nghiệm: Cho dù triển khai trắc nghiệm theo phương
thức nào thì câu hỏi luôn thành phần cơ bản trong mỗi bài thi trắc nghiệm Chất lượng của các câu hỏi được xem xét theo một số tiêu chí, chẳng hạn: mục đích thiết kế ra câu hỏi; nội dung câu hỏi; các tham số đặc trưng cơ bản của câu hỏi như độ khó, độ phân biệt, độ phỏng đoán (xem giải thích ý
Trang 9nghĩa các tham số này trong Chương 2) Để có được một ngân hàng câu hỏi trắc nghiệm có chất lượng cần thực hiện qua nhiều công đoạn khác nhau: từ bước lập kế hoạch; viết câu hỏi; đến bước đánh giá câu hỏi Mỗi công đoạn đều có những yêu cầu riêng Để tổng hợp lại các công đoạn thực hiện trong quá trình xây dựng ngân hàng câu hỏi đồng thời giúp nâng cao chất lượng câu hỏi trắc nghiệm luận văn đề xuất ra một quy trình xây dựng ngân hàng câu hỏi trắc nghiệm được trình bày trong Chương 3 của Luận văn
Trong trắc nghiệm trực tuyến, việc tổ chức câu hỏi trắc nghiệm thành ngân hàng ngoài ý nghĩa dễ dàng sinh ra các bài thi ngẫu nhiên từ các câu hỏi có trong ngân hàng, còn có một ý nghĩa khác đó là: dễ dàng sử dụng lại hoặc chia sẻ các câu hỏi có trong ngân hàng với các hệ thống trắc nghiệm trực tuyến khác Cũng vì lý do này mà IMS Global đưa ra một đặc tả có tên IMS
QTI specification – Question and Test Interoperability (tạm dịch là: đặc tả
về tính khả thi tương tác giữa câu hỏi và bài trắc nghiệm) cho các câu hỏi
và bài trắc nghiệm Đặc tả này cũng được giới thiệu ngắn gọn trong Mục 3.2 của Luận văn
(2) Phương thức đánh giá năng lực thí sinh:
Thuật ngữ năng lực được hiểu như sau: Khi xét một khối kiến thức cụ thể (môn học, lĩnh vực ), mỗi thí sinh luôn sở hữu một lượng kiến thức nào đó, không phụ thuộc vào bài trắc nghiệm Mục tiêu của bài trắc nghiệm được tổ chức ra là để đo “lượng kiến thức” mà thí sinh này sở hữu là bao nhiêu, từ
đó định vị các thí sinh trên một thang đo Thuật ngữ “năng lực” được sử dụng với hàm ý nói đến “lượng kiến thức” mà thí sinh sở hữu
Sau khi đã có được ngân hàng câu hỏi trắc nghiệm đã đánh giá được chất lượng (đã ước lượng được các tham số độ khó, độ phân biệt, độ phỏng đoán của các câu hỏi), phần mềm trắc nghiệm thực hiện chọn ngẫu nhiên (theo một tiêu chí nào đó) các câu hỏi trong ngân hàng và tổ chức thành bài thi trắc nghiệm Từ các phương án trả lời mỗi câu hỏi trắc nghiệm của thí sinh trong bài thi, phần mềm trắc nghiệm thực hiện việc xác định năng lực thí sinh thông qua một phương thức đánh giá dựa trên một lý thuyết trắc nghiệm đã chọn
Việc đánh giá các câu hỏi và năng lực thí sinh có liên quan mật thiết với nhau và được thực hiện dựa trên cơ sở là lý thuyết trắc nghiệm Cho đến nay, có
Trang 10hai lý thuyết trắc nghiệm chính giúp thực hiện điều này, đó là: lý thuyết cổ điển (Classical Test Theory - CTT) và lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) IRT được ra đời sau CTT và đã khắc phục được hai nhược điểm lớn của CTT: (i) việc xác định các tham số đặc trưng của câu hỏi không bị phụ thuộc vào nhóm các thí sinh trong mẫu thử nghiệm; (ii) năng lực của thí sinh không bị phụ thuộc vào bộ câu hỏi trắc nghiệm dùng để xác định năng lực Trong IRT, mối quan hệ giữa năng lực thí sinh và các tham số đặc trưng cơ bản của câu hỏi trắc nghiệm được thể hiện thông qua một hàm số Nếu biết trước các tham số của câu hỏi có thể ước lượng được năng lực thí sinh; ngược lại, nếu biết trước năng lực của thí sinh có thể ước lượng được các tham số của các câu hỏi Nhưng tại thời điểm ban đầu, khi mới xây dựng được các câu hỏi thì các tham số của các câu hỏi này là chưa biết trước được; đồng thời năng lực của các thí sinh lại là đại lượng đang cần đo thông qua việc thực hiện bài thi trắc nghiệm
Sử dụng IRT giúp giải quyết được vấn đề này Nét độc đáo của IRT là nhờ áp
dụng các thuật toán ước lượng trong thống kê với tập mẫu lớn mà có thể ước
lượng đồng thời tham số thời năng lực thí sinh và các tham số của câu hỏi với
một độ chính xác nào đó Nếu trường hợp các tham số của các câu hỏi đã ước lượng được từ trước đó, lúc này có thể dễ dàng ước lượng được năng lực thí sinh nhờ thuật toán “Ước lượng năng lực thí sinh” được trình bày trong Mục 2.3.4 Việc ứng dụng lý thuyết trắc nghiệm, đặc biệt là ứng dụng IRT trong phân tích câu hỏi và năng lực thí sinh là yếu tố then chốt nhằm: (a) phân tích các tham
số đặc trưng của câu hỏi đồng thời tìm ra những câu hỏi kém chất lượng trong quá trình thử nghiệm; (b) giúp đem lại kết quả trắc nghiệm mang tính khách quan
và có độ chính xác cao
Ở Việt Nam, việc áp dụng một lý thuyết trắc nghiệm vào đánh giá kết quả trắc nghiệp chưa thực sự được quan tâm, phần lớn các hệ thống trắc nghiệm mới chỉ dừng lại ở mức tính ra điểm thô (điểm thô được tính bằng số câu trả lời đúng nhân thêm một hệ số nào đó cho mỗi câu) Năm 2005, GS Lâm Quang Thiệp đã
có bài viết “Việt Nam cần áp dụng một khoa học đo lường trong giáo dục” trên website www.vnn.vn [17] Gần đây trên diễn đàn giáo dục của Bộ Giáo dục www.edu.net có một vài bài ngắn gọn nói về vấn đề này, nhưng cho đến nay mới chỉ dừng lại ở mức giới thiệu hết sức đơn giản Chính vì vậy, việc tìm hiểu và ứng dụng IRT trong hệ thống trắc nghiệm trực tuyến cũng là một vấn đề được giải quyết trong luận văn
Trang 11Luận văn tập trung vào việc trình bày lý thuyết ứng đáp câu hỏi (IRT) và ứng dụng của lý thuyết này trong việc phân tích câu hỏi và năng lực thí sinh thông qua kết quả làm bài thi trên hệ thống trắc nghiệm trực tuyến của Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội Luận văn cũng đề xuất ra một quy trình xây dựng ngân hàng câu hỏi trắc nghiệm áp dụng cho một số môn học chuyên ngành Công nghệ Thông tin nói chung và trước mắt áp dụng trong xây dựng ngân hàng câu hỏi sát hạch Kỹ năng Công nghệ Thông tin triển khai tại Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội Trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm dùng trong hệ thống trắc nghiệm trực tuyến, luận văn đã tìm hiểu sơ bộ về đặc tả QTI – Question and Test Interoperability – một đặc tả được đưa ra bởi tổ chức IMS Global và là đặc tả phổ biến được dùng trong các hệ thống trắc nghiệm trực tuyến Cuối cùng là phần ứng dụng lý thuyết ứng đáp câu hỏi vào phân tích bộ câu hỏi trắc nghiệm và năng lực thí sinh, đồng thời luận văn đưa ra một số kết luận và hướng phát triển trong thời gian tới
Luận văn được chia thành 4 chương với các nội dung sau:
Chương 1: Tổng quan về thi trắc nghiệm
Giới thiệu về tình hình phát triển thi trắc nghiệm cùng với những ưu, nhược điểm của nó; giới thiệu về một số phương thức thi trắc nghiệm trên máy tính đặc biệt là thi trắc nghiệm trực tuyến; tình hình ứng dụng của phương thức thi trắc nghiệm trên thế giới và tại Việt Nam
Chương 2: Lý thuyết trắc nghiệm
Chương này trình bày về một số lý thuyết trắc nghiệm: lý thuyết trắc nghiệm cổ điển (Classical Test Theory); lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT); lý thuyết ứng đáp câu hỏi nhiều chiều (Multidimensional Item Response Theory – MIRT), trong đó, chủ yếu tập trung vào lý thuyết ứng đáp câu hỏi với các thuật toán ước lượng các tham số câu hỏi, năng lực thí sinh
Chương 3: Ngân hàng câu hỏi
Mô tả một số dạng câu hỏi trắc nghiệm thường gặp; đặc tả QTI (Question
& Test Interoperability) (tạm dịch: đặc tả về tính khả thi tương tác của câu hỏi
và bài trắc nghiệm) – là một mô tả về phương diện kỹ thuật cho câu hỏi và bài
trắc nghiệm Bên cạnh đó trong chương này còn đề xuất về một Quy trình xây dựng ngân hàng câu hỏi trắc nghiệm cho nội dung về kỹ năng Công nghệ Thông
Trang 12tin Quy trình này đã được Viện Công nghệ Thông tin áp dụng cho quá trình xây dựng ngân hàng câu hỏi trắc nghiệm Kỹ năng Công nghệ Thông tin cho Đề án
315 thí sinh thuộc hệ đào tạo Kỹ thuật viên thuộc Trung tâm Tin học PT – Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội
Phần kết luận đưa ra tổng kết các kết quả luận văn đã làm được và một số hướng nghiên cứu tiếp theo của luận văn
Trang 13CHƯƠNG 1 TỔNG QUAN VỀ TRẮC NGHIỆM
1.1 Trắc nghiệm và phân loại trắc nghiệm
đó Trong giáo dục, trắc nghiệm được hiểu là một phương pháp đo để thăm đò một số đặc điểm năng lực trí tuệ chủa học sinh (chú ý, ghi nhớ, quan sát, tưởng tượng, tư duy năng khiếu…) hoặc để kiểm tra đánh giá một số kiến thức, kỹ năng, kỹ xảo, thái độ của các thí sinh
Theo [1], trắc nghiệm theo nghĩa rộng là một hoạt động được thực hiện để
đo lường năng lực của các đối tượng nào đó nhằm những mục đích xác định, chẳng hạn, phân loại thí sinh, tìm ra thí sinh nổi trội, sàng lọc ra những thí sinh kém
Trong giáo dục trắc nghiệm được tiến hành thường xuyên ở các kỳ thi, kiểm tra hay sát hạch nhằm đánh giá kết quả học tập và giảng dạy đối với một phần của môn học hoặc toàn bộ môn học hay đối với cả một cấp học Ngoài ra, trắc nghiệm cũng có thể được sử dụng nhằm lọc chọn một số người có năng lực cao nhất vào học một khoá học nào đó
Trắc nghiệm là một trong những phương thức lượng giá giáo dục mang tính khoa học và đặc biệt có hiệu quả trong trường hợp số lượng các thí sinh lớn Tuy trong một số trường hợp, trắc nghiệm được xem như một phương thức quan trọng đánh giá kết quả học tập bổ sung cho phương thức truyền thống, không thay thế hoàn toàn cho phương thức truyền thống
Trang 141.1.2 Phân loại trắc nghiệm
Có thể phân chia các phương pháp trắc nghiệm ra làm 3 loại: loại quan sát, loại vấn đáp và loại viết
a Loại quan sát:
Trắc nghiệm quan sát giúp xác định những thái độ, phản ứng vô thức, những kỹ năng thực hành trong những tình huống cụ thể và một số kỹ năng về nhận thức, chẳng hạn, cách giải quyết vấn đề trong một tình huống đang được nghiên cứu
b Loại vấn đáp:
Loại trắc nghiệm vấn đáp có tác dụng tốt khi nêu các câu hỏi phát sinh trong một tình huống cần kiểm tra Trắc nghiệm vấn đáp thường được dùng khi tương tác giữa người chấm và người học là quan trọng, chẳng hạn cần xác định thái độ phản ứng khi phỏng vấn…
c Loại viết:
Thường được sử dụng nhiều nhất vì nó có những ưu điểm sau:
o Cho phép kiểm tra nhiều thí sinh một lúc;
o Cho phép thí sinh cân nhắc nhiều hơn khi trả lời;
o Cung cấp bản ghi rõ ràng các câu trả lời của thí sinh để dùng khi chấm;
o Dễ quản lý và chấm điểm bài thi hơn
Trắc nghiệm viết, theo [1], được chia thành 2 nhóm chính:
Tự luận (essay): Nhóm các câu hỏi trắc nghiệm buộc trả lời theo dạng mở,
thí sinh phải tự trình bày ý kiến trong một bài viết dài để giải quyết vấn đề mà câu hỏi nêu ra Phương pháp tự luận rất quen thuộc với hầu hết mọi người
Trắc nghiệm khách quan (objective test): Nhóm các câu trắc nghiệm mà
trong đó đề thi thường gồm rất nhiều câu hỏi, mỗi câu nêu ra một vấn đề cùng với những thông tin cần thiết sao cho thí sinh chỉ phải trả lời vắn tắt cho từng câu
Trang 15Các phương pháp thi trắc nghiệm
Hình 1.1: Các phương pháp trắc nghiệm
Trong luận văn này, chúng ta chỉ xem xét đến trắc nghiệm khách quan
Trong trắc nghiệm khách quan, có thể có một số cách phân loại như sau:
1) Dựa theo cách chuẩn bị đề thi trắc nghiệm khách quan, có thể phân chia thành
hai loại: trắc nghiệm tiêu chuẩn hoá và trắc nghiệm dùng ở lớp học
- Trắc nghiệm tiêu chuẩn hoá thường do các chuyên gia trắc nghiệm soạn
thảo, thử nghiệm, tu chỉnh, do đó mỗi câu trắc nghiệm khách quan được gắn với các chỉ số cho biết thuộc tính và chất lượng của nó (độ khó, độ phân biệt, phản ánh nội dung và mức độ kỹ năng nào), mỗi đề thi trắc nghiệm có gắn với một độ tin cậy xác định, ngoài ra có những chỉ dẫn cụ thể về cách triển khai trắc nghiệm
và giải thích kết quả trắc nghiệm
- Trắc nghiệm dùng ở lớp học (hoặc trắc nghiệm do giáo viên soạn) là trắc
nghiệm do giáo viên tự viết để sử dụng trong quá trình giảng dạy, có thể chưa được thử nghiệm và tu chỉnh công phu, thường chỉ sử dụng trong các kỳ kiểm tra với số lượng học sinh không lớn và không thật quan trọng
2) Dựa theo dạng lượng giá (assessment) giáo dục trong các khoá học, có thể chia thành một số dạng trắc nghiệm khách quan tương ứng:
- Trắc nghiệm phân loại (Diagnostic Test): là bài trắc nghiệm dùng để tìm
hiểu, chẩn đoán (diagnostic) đối tượng học hoặc phân lớp đối tượng, thường
Cung cấp thông tin
Ghép đôi
Điền khuyết
Trả lời ngắn
Đúng sai
Nhiều lựa chọn
Trang 16dùng vào đầu quá trình giảng dạy Thông thường bài trắc nghiệm này do chính giáo viên giảng dạy soạn thảo
- Trắc nghiệm giữa kỳ (Formative Test): thực hiện trong tiến trình (formative) giảng dạy nhằm thu được những thông tin phản hồi từ người học giúp điều chỉnh quá trình dạy và học
- Trắc nghiệm tổng kết (Summative Test): thực hiện khi kết thúc khóa học
nhằm tổng kết và đánh giá kết quả dạy và học
3) Dựa theo việc đảm bảo thời gian để làm trắc nghiệm khách quan, có thể phân
chia thành hai loại: loại trắc nghiệm theo tốc độ và trắc nghiệm không theo tốc
độ
- Trắc nghiệm theo tốc độ thường hạn chế thời gian (có thể hạn chế thời
gian cho mỗi câu hỏi hoặc hạn chế thời gian cho cả bài), thông thường, chỉ một ít thí sinh làm nhanh mới có thể làm hết số câu của bài trắc nghiệm Dạng trắc nghiệm này nhằm đánh giá năng lực và khả năng làm nhanh của thí sinh
- Trắc nghiệm không theo tốc độ thường cung cấp đủ thời gian cho phần
lớn sinh có thể kịp suy nghĩ để làm hết bài trắc nghiệm
4) Dựa theo phương hướng sử dụng kết quả trắc nghiệm khách quan, có thể phân chia thành: trắc nghiệm theo chuẩn (norm-referrenced test) và trắc nghiệm theo tiêu chí (criterion-referrenced test)
- Trắc nghiệm theo chuẩn: là trắc nghiệm được sử dụng để xác định mức
độ thực hiện của một cá nhân nào đó so với các các nhân khác cùng làm một bài trắc nghiệm
- Trắc nghiệm theo tiêu chí: là trắc nghiệm được sử dụng để xác định
mức độ thực hiện của một cá nhân nào đó so với một tiêu chí xác định nào đó cho trước
5) Dựa theo phương thức triển khai trắc nghiệm khách quan, có thể chia thành: trắc nghiệm trên máy tính (Computer Based Testing - CBT) hoặc trắc nghiệm truyền thống trên giấy
- Trắc nghiệm trên máy tính: thí sinh dùng máy tính thực hiện bài trắc
nghiệm Với dạng trắc nghiệm trên máy, có nhiều cách phân loại khác, chẳng hạn, phân thành 2 loại: bài trắc nghiệm được cài đặt trên máy tính cá nhân (Computer Based Testing - CBT); bài trắc nghiệm đặt trên máy chủ và thí sinh thực hiện bài thi thông qua trình duyệt Web (Internet Based Testing - iBT)
Trang 17Ngoài ra, trắc nghiệm trên máy tính còn có thể phân ra thành hai loại: trắc nghiệm thích nghi (Computer Adaptive Test - CAT) và trắc nghiệm thông
thường (Non-Apdaptive Test) Trắc nghiệm thích nghi là phương thức trắc
nghiệm mà mỗi câu hỏi thí sinh nhận được trong bài trắc nghiệm phụ thuộc vào câu trả lời của thí sinh đối với câu hỏi trước đó, chẳng hạn, nếu thí sinh trả lời đúng câu hỏi có độ khó ở mức trung bình thì câu hỏi mà thí sinh nhận được sau
đó độ khó sẽ tăng lên một chút, ngược lại, câu hỏi mà thí sinh nhận được sau đó
sẽ dễ hơn câu hỏi trước
1.1.3 So sánh giữa trắc nghiệm khách quan và tự luận
Tự luận được xem là dạng thi "truyền thống" trong đó đề thi có thể là những câu hỏi cụ thể hoặc tổng quát và thí sinh được phép "tự do" trả lời câu hỏi theo sự hiểu biết hoặc suy nghĩ của cá nhân mình Dựa vào các câu hỏi, đề bài được ra, thí sinh phải diễn đạt ý trả lời trên giấy hoặc gõ trên máy tính Bài trắc nghiệm tự luận thường được chấm điểm một cách chủ quan và các điểm cho bởi những người chấm khác nhau có thể không thống nhất Thông thường một bài trắc nghiệm tự luận gồm ít câu hỏi hơn là một bài trắc nghiệm khách quan do thí sinh phải cần nhiều thời gian để trả lời mỗi câu hỏi
Trắc nghiệm khách quan thường có nhiều phương án trả lời được cung cấp cho mỗi câu hỏi của bài trắc nghiệm nhưng chỉ có một phương án duy nhất là đúng hoặc đúng nhất, phù hợp nhất Trước đây, bài trắc nghiệm khách quan được chấm điểm bằng cách đếm số lần mà thí sinh đã chọn được phương án trả lời đúng trong số những phương án trả lời đã được cung cấp, điểm này còn gọi là điểm thô (raw score) Tuy nhiên, sau này khi áp dụng phương thức lượng giá theo lý thuyết ứng đáp câu hỏi (item response theory), điểm thực của bài thi được tính theo cách khác (xem Chương 2) Bài trắc nghiệm được gọi là khách quan vì việc cho điểm là khách quan, không chủ quan như đối với bài tự luận Nói chung, kết quả chấm điểm sẽ như nhau, không phụ thuộc vào việc ai chấm bài trắc nghiệm đó Thông thường bài trắc nghiệm khách quan gồm có nhiều câu hỏi hơn
bài tự luận, và mỗi câu hỏi thường có thể được trả lời bằng cách đánh dấu chọn
đơn giản
Có một câu hỏi thường nảy sinh: trong hai phương pháp trắc nghiệm khách quan và tự luận, phương pháp nào tốt hơn? Cần phải khẳng định ngay rằng không thể nói phương pháp nào hoàn toàn tốt hơn; mỗi phương pháp có các ưu điểm và nhược điểm nhất định và được thể hiện cụ thể qua bảng so sánh sau:
Trang 18Vấn đề
Ưu thế của phương pháp TNKQ Tự luận
Đánh giá được khả năng diễn đạt, đặc biệt là diễn đạt
Áp dụng được công nghệ mới trong việc nâng cao chất
lượng kỳ thi, giữ bí mật đề thi, hạn chế quay cóp khi
thi, hạn chế tiêu cực trong chấm thi và giúp phân tích
kết quả thi
Bảng 1.1: So sánh giữa Trắc nghiệm khách quan và Tự luận
Cụ thể trong từng điểm như sau:
- Ra đề thi: Ra đề thi tự luận dễ ra đề hơn ra đề thi trắc nghiệm khách quan mà
biểu hiện rõ nhất là việc soạn đề thi ít tốn thời gian và công sức hơn do đề thi
tự luận có ít câu hỏi Một đề thi trắc nghiệm khách quan bao gồm rất nhiều câu hỏi và để ra được đề thi trắc nghiệm khách quan cho một kỳ thi cần phải chuẩn bị một ngân hàng câu hỏi khá hơn Việc tạo nên mỗi câu hỏi đòi hỏi rất nhiều công sức và sự khéo léo để bao quát hết các trường hợp có thể xảy ra Câu hỏi trong đề thi trắc nghiệm khách quan có thể trải rộng trên nhiều mức:
từ đơn giản là kiểm tra khả năng nhớ bài học của thí sinh đến khả năng ứng dụng kiến thức vào thực tế vào một tình huống cho sẵn và, ở mức độ cao hơn
là đánh giá một thông tin nào đó được giả định
- Đánh giá khả năng diễn đạt, tư duy hình tượng: Đề thi tự luận cho phép thí
sinh có được sự tự do lớn nhất trong việc thể hiện cách trả lời những câu hỏi Thi tự luận là cách tốt nhất để yêu cầu thí sinh thực hiện khả năng "cắt nghĩa", "so sánh", "tóm tắt", "nêu bật", "mô tả", "đánh giá", một vấn đề Đây cũng là cơ hội cho thí sinh thể hiện kỹ năng viết, trình bày tổ chức và thể hiện ý tưởng, các suy nghĩ sáng tạo và cảm xúc Trong khi đó, đề thi trắc nghiệm khách quan không làm được điều này Do vậy, với các môn học thiên
về văn chương, triết học, xã hội học, việc áp dụng hình thức thi trắc nghiệm khách quan khó đánh giá được toàn diện các kỹ năng
Trang 19- Đề thi phủ kín toàn bộ nội dung: Một đề thi tự luận thí sinh làm trong vài
giờ cũng khó có thể bao trùm hết toàn bộ kiến thức yêu cầu của môn học, hoặc của chương trình học Trong khi đó một đề thi trắc nghiệm khách quan với hàng trăm câu hỏi, thí sinh làm trong một giờ có thể phủ kín toàn bộ nội dung môn học, chương trình học
- Tính may rủi: Do đề thi tự luận không thể bao trùm hết nội dung môn học,
chương trình học nên có thể tạo ra tình trạng "học tủ", "học lệch", "học theo
đề mẫu" ở một số thí sinh Chính vì thế, tính may rủi ở thi tự luận thường cao hơn trong thi trắc nghiệm khách quan rất nhiều Với một đề thi tự luận thí sinh rất dễ gặp may rủi do trúng tủ, lệch tủ, còn với đề thi trắc nghiệm khách quan thì sự may rủi hầu như hoàn toàn không xảy ra
Thật vậy, như đã nói ở trên, vì đề thi trắc nghiệm khách quan bao gồm hàng chục câu hỏi nhỏ phủ kín chương trình học Nếu thí sinh nắm chắc nội dung môn học thì sẽ làm đúng phần lớn các câu trắc nghiệm Trong trường hợp thí sinh không nắm vững một vài chi tiết của môn học thì số ít câu không làm được cũng không ảnh hưởng lớn đến kết quả của bài thi Ngược lại, đề thi
tự luận thường chỉ liên quan đến một vài chủ đề của môn học, do đó, ngoài những thí sinh học chắc thật sự, những thí sinh “trúng tủ” cũng sẽ đạt kết quả cao; còn thí sinh “lệch tủ” sẽ bị đánh hỏng, bất kể kiến thức của anh ta về phần lớn nội dung còn lại của môn học như thế nào Như vậy câu hỏi: “liệu
“số đỏ” có bao giờ đến với một thí sinh đánh dấu bừa vào bài thi trắc nghiệm
khách quan mà không cần hiểu biết gì không?” Có thể khẳng định là không
bao giờ! Thật vậy, giả sử một đề thi trắc nghiệm có 100 câu hỏi nhiều lựa
chọn với 5 phương án trả lời, nếu thí sinh đánh dấu hú họa vào các phương án nào đó, xác suất để anh ta làm đúng chỉ là 20% Với số câu hỏi lớn, tần suất làm đúng của anh ta sẽ gần với xác suất, tức là bằng cách đánh dấu hú họa, số câu anh ta “làm đúng” chỉ chiếm khoảng trên dưới 20 trong 100 câu hỏi Và theo cách chấm điểm trắc nghiệm khách quan thông thường thì đối với một bài trắc nghiệm 100 câu nếu chỉ làm đúng 20 câu thì điểm đạt được sẽ lân cận điểm không
Tuy nhiên, đề thi tự luận làm hạn chế các câu trả lời theo kiểu "đoán mò" một phương án đúng trong bài thi trắc nghiệm khách quan
- Thi và chấm thi: Việc tổ chức thi tự luận mất khá nhiều thời gian và công
sức, hơn nữa, khả năng quay cóp có thể xảy ra Tuy nhiên, việc tổ chức thi trắc nghiệm khách quanh nhanh chóng và đơn giản hơn nhiều, khả năng quay
Trang 20cóp là khó xảy ra vì: với phạm vi bao quát rộng của đề thi, thí sinh khó có thể chuẩn bị tài liệu để quay cóp; khả năng thí sinh nhìn bài của nhau cũng bị hạn chế do lượng câu hỏi trong mỗi đề thi khá lớn hơn nữa có hình thức đảo đề thi, đảo câu hỏi giữa các thí sinh nên các thí sinh ngồi gần nhau hầu như không gặp các đề thi giống nhau
Trắc nghiệm tự luận mang tính chủ quan khá cao, rất khó đảm bảo tính khách quan Nói cách khác, nó có độ tin cậy thấp, đặc biệt là khi số lượng thí sinh càng đông Quy trình chấm thi tự luận phải rất nghiêm ngặt Thực tế, qua nhiều khảo sát khác nhau cũng chứng minh sự sai biệt điểm thi giữa những giám khảo khác nhau trên cùng một bài thi đáng kể Trong khi đó, việc tổ chức thi và chấm thi trắc nghiệm khách quan đơn giản và nhanh hơn rất nhiều Việc chấm thi trắc nghiệm khách quan là chính xác, hoàn toàn không phụ thuộc vào người chấm thi và đặc biệt có thể áp dụng công nghệ vào việc
ra đề và chấm thi một cách chính xác hoàn toàn
- Áp dụng công nghệ: Trắc nghiệm khách quan dễ dàng áp dụng công nghệ
(máy tính và truyền thông) trong việc ra đề thi, giữ bí mật đề thi, hạn chế hiện tượng quay cóp khi thi và dễ dàng phân tích, thống kê kết quả thi
- Chi phí cho các kỳ thi tự luận khá cao nếu xét trên bình diện xã hội Nhiều
hoạt động của phụ huynh, các nhà chức trách và nhà trường bị ảnh hưởng, mất nhiều thời gian và tiền bạc cho tính an toàn và công bằng ở các kỳ thi
Theo các chuyên gia về đánh giá về giáo dục, có thể dùng phương pháp tự luận
trong các trường hợp sau:
1) Khi thí sinh không quá đông
2) Khi muốn khuyến khích và đánh giá cách diễn đạt cũng như cách trình bày 3) Khi muốn tìm hiểu ý tưởng của thí sinh hơn là khảo sát thành quả học tập 4) Khi có thể tin tưởng khả năng chấm bài tự luận của giáo viên là chính xác 5) Khi không có nhiều thời gian soạn đề thi nhưng có đủ thời gian để chấm bài
Và phương pháp trắc nghiệm khách quan nên được sử dụng trong những trường
hợp sau:
1) Khi số thí sinh rất đông
2) Khi muốn chấm bài nhanh
3) Khi muốn có điểm số đáng tin cậy, không phụ thuộc vào người chấm bài
Trang 214) Khi phải coi trọng yếu tố công bằng, vô tư, chính xác và muốn ngăn chặn sự gian lận trong thi cử
5) Khi muốn kiểm tra một phạm vi hiểu biết rộng, muốn ngăn ngừa nạn học tủ, học vẹt và giảm thiểu sự may rủi
Ở Việt Nam nhiều người thường gọi tắt “trắc nghiệm khách quan” là “trắc nghiệm” và trong một số tài liệu của một số tác giả trong nước cũng sử dụng thuật ngữ “trắc nghiệm” thay cho “trắc nghiệm khách quan” Do đó, trong luận văn này, sau đây sẽ sử dụng thuật ngữ “trắc nghiệm” thay cho “trắc nghiệm khách quan” Trắc nghiệm khách quan sẽ là đối tượng nghiên cứu chính trong luận văn này
1.2 Trắc nghiệm trực tuyến
Thi trắc nghiệm được triển khai theo nhiều phương thức khai nhau và mức ứng dụng công nghệ trong từng công đoạn (ra đề thi, tổ chức đề thi, thi, chấm thi, đánh giá và tổng kết kết quả thi) cũng khác nhau Việc sử dụng chương trình máy tính nhằm hỗ trợ giáo viên trong việc xây dựng, quản lý ngân hàng câu hỏi, tổ chức các đề thi và chấm điểm tự động là hết sức cần thiết Thông qua đó, thí sinh
có thể thực hiện bài thi trắc nghiệm trực tiếp trên máy và biết điểm ngay sau đó Ngoài ra, trong những hệ đào tạo lớn, có thể tổ chức thành các phần mềm độc lập như: phần mềm tạo câu hỏi (Authoring Tool); phần mềm quản lý câu hỏi (Item Bank); phần mềm tổ chức và phân phối bài trắc nghiệm (Delivery System), các phần mềm này có thể kết nối với nhau thành một hệ thống nhất khi tổ chức kỳ thi Việc tổ chức và phân phối bài trắc nghiêm đến thí sinh được thực hiện theo nhiều phương thức, trong đó, có thể kể đến hai phương thức phổ biến là:
(1) dùng phần mềm thi trắc nghiệm cài đặt sẵn trên máy tính cá nhân (Computer Based Testing - CBT);
(2) dùng phần mềm thi trắc nghiệm trực tuyến (Online Testing hay Internet Based Testing - iBT)
Tuy nhiên, trong các hệ thống trắc nghiệm nhỏ, các thành phần như: công
cụ xây dựng câu hỏi, tổ chức và quản lý ngân hàng câu hỏi, tổ chức và phân phối bài thi thường được tích hợp trong cùng một hệ thống
Trắc nghiệm trực tuyến là một phương thức triển khai thi trắc nghiệm được ra đời cùng với sự phát triển của công nghệ Web và ngày càng được quan tâm và ứng dụng rộng rãi Trắc nghiệm trực tuyến được hiểu như sau:
Trang 22Trắc nghiệm trực tuyến (Online Testing) là hình thức thi trắc nghiệm áp dụng cho loại trắc nghiệm khách quan, trong đó các công đoạn tổ chức bài thi, thi, chấm thi, đánh giá và tổng hợp kết quả đều có thể được thực hiện thông qua trình duyệt Web
Trắc nghiệm trực tuyến cũng là một phương thức trắc nghiệm được quan tâm trong những năm gần đây và phương thức này đã được đưa vào ứng dụng tại nhiều cơ sở đào tạo và sát hạch trên thế giới Phần mềm trắc nghiệm được dùng trong phần triển khai thử nghiệm của luận văn là một phần mềm trắc nghiệm trực tuyến - phần mềm CMTest - được xây dựng bởi Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội
Các đặc điểm của trắc nghiệm trực tuyến
Trắc nghiệm trực tuyến mang đầy đủ các đặc điểm của hình thức trắc nghiệm trên máy tính như:
- Phát sinh các bài thi và chấm thi tự động Hệ thống thi trắc nghiệm thực
hiện chọn ngẫu nhiên các câu hỏi trong ngân hàng câu hỏi và đưa vào các bài thi sao các câu hỏi trong mỗi bài thi được trải khắp trên toàn bộ các nội dung của môn học, số lượng câu hỏi trên các bài thi là như nhau và chúng cùng độ khó Nếu ngân hàng với số lượng lớn các câu hỏi, có thể đảm bảo cho các thí sinh ngồi gần nhau có đề thi khác nhau Công việc chấm thi cũng được thực hiện ngay khi thí sinh kết thúc bài thi và cho kết quả ngay sau đó Việc phát sinh bài thi và chấm thi được thực hiện tự động và khách quan, đặc biệt thích hợp với các kỳ thi có số lượng thí sinh lớn Đây cũng chính là một trong những ưu điểm của hệ thống thi trắc nghiệm trên máy tính nói chung
- Vấn đề đảm bảo an toàn bí mật cho các câu hỏi và đáp án được quan tâm
và xem xét một cách nghiêm túc
Ngoài các đặc điểm chung của phương thức thi trắc nghiệm trên máy tính, trắc nghiệm trực tuyến còn có một số đặc điểm riêng như:
- Dễ dàng triển khai các kỳ thi trắc nghiệm trên diện rộng Một hệ thống thi
trắc nghiệm trực tuyến cho phép thí sinh có thể tham gia kỳ thi từ bất kỳ nơi
nào, chẳng hạn, các trung tâm sát hạch được ủy quyền, có máy tính được
kết nối với máy chủ cung cấp đề thi Đây là một thuận lợi lớn đối với các kỳ thi trên diện rộng và theo quy mô lớn, chẳng hạn như kỳ thi thi sát hạch lấy
Trang 23chứng chỉ quốc tế Khi tham gia những kỳ thi tổ chức theo hình thức thi trắc nghiệm trực tuyến thí sinh có thể thực hiện bài thi ở ngay hội đồng thi được
uỷ quyền tại địa phương, do đó, giúp giảm chi phí đi lại cho thí sinh
- Sử dụng trắc nghiệm trực tuyến trong các hệ thống e-Learning Đối
tượng tham gia các khóa học e-Learning đặc biệt là hình thức đào tạo qua mạng (Web Based Training) từ nhiều nơi khác nhau và học vào những thời điểm khác nhau Hơn nữa, trong cấu trúc của một số khóa học điện tử được thiết kế có đan xen các bài kiểm tra vào giữa chương trình học hoặc giữa các bài học Do vậy, việc sử dụng hình thức trắc nghiệm trực tuyến trong các bài kiểm tra, hoặc trong kỳ thi đầu vào hay kỳ thi cuối khóa của các khóa học điện tử là một lựa chọn hợp lý và mang lại hiệu quả
- Giáo viên dễ dàng xây dựng và cập nhật ngân hàng câu hỏi Hệ thống thi
trắc nghiệm trực tuyến giúp cho giáo viên dễ dàng hơn trong việc xây dựng
ngân hàng câu hỏi nhờ việc phân chia thành các dạng câu hỏi Giáo viên cũng có thể dễ dàng cập nhật các câu hỏi từ bất kỳ máy tính nào có kết nối với hệ thống trắc nghiệm Hệ thống thi trắc nghiệm trực tuyến cho phép các giáo viên trong cùng bộ môn dễ dàng sử dụng chung các câu hỏi trong ngân hàng Ngân hàng câu hỏi dùng chung có ý nghĩa là mối liên kết thực hiện giao lưu chia sẻ kinh nghiệm và học tập giữa các giáo viên trong việc đánh giá Nhờ thực hiện chung trên mạng, các câu hỏi có thể được sử dụng chung, tiết kiệm công sức, không lặp lại những câu hỏi đã có, từ đó có thể phát triển nhiều câu hỏi đa dạng và phong phú hơn Do đó, nếu sử dụng thi trắc nghiệm trực tuyến trong việc đánh giá kết quả của một môn học, một chương trình học trong trường đại học cũng rất thuận lợi
- Có thể gặp các sự cố trên đường truyền Trắc nghiệm trực tuyến sử dụng
hạ tầng mạng máy tính để truyền tải bài thi từ máy chủ tới máy tính của thí sinh, do đó, có thể gặp một số sự cố như: thí sinh đang làm bài thi thì mất điện, tính an toàn và bảo mật cho các câu hỏi không cao khi truyền tải trên đường truyền… Do vậy, mỗi hệ thống trắc nghiệm trực tuyến cần có những biện pháp khắc phục nhược điểm này
Trang 241.3 Tình hình phát triển và ứng dụng trắc nghiệm
1.3.1 Tình hình phát triển và ứng dụng trắc nghiệm trên thế giới
Theo [1], trên thế giới việc học và thi diễn ra hàng nghìn năm trước đây (ở Trung Quốc từ khoảng năm 2000 TCN), nhưng một khoa học đo lường trong giáo dục thật sự có thể xem như bắt đầu cách đây chỉ khoảng một thế kỷ (Thorndike,1904) Ở châu Âu và đặc biệt là Mỹ lĩnh vực khoa học này phát triển mạnh vào thời kỳ từ trước và sau thế chiến thứ hai với những dấu mốc quan trọng như Trắc nghiệm trí tuệ Stanford-Binet xuất bản năm 1916, bộ trắc nghiệm thành quả học tập tổng hợp đầu tiên Stanford Achievement Test ra đời vào 1923 Với việc đưa vào chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập National Council on Measurement in Education (NCME) vào thập niên 1950 và
ra đời Educational Testing Services (ETS) năm 1947, một ngành công nghiệp
trắc nghiệm (test industry) đã hình thành ở Mỹ Từ đó đến nay khoa học về đo lường trong tâm lý và giáo dục đã phát triển liên tục, những phê bình chỉ trích đối với khoa học này cũng xuất hiện thường xuyên nhưng chúng không đánh đổ được nó mà chỉ làm cho nó tự điều chỉnh và phát triển mạnh mẽ hơn Hiện nay ở
Mỹ ước tính mỗi năm số lượt trắc nghiệm tiêu chuẩn hoá cỡ 1/4 tỷ và trắc nghiệm do giáo viên soạn lên đến con số 5 tỷ Tương ứng với ngành công nghiệp trắc nghiệm đồ sộ và sự phát triển của công nghệ thông tin, lý thuyết về đo lường trong tâm lý giáo dục cũng phát triển nhanh Lý thuyết ứng đáp câu hỏi (Item Response Theory-IRT) đã đạt những thành tựu quan trọng nâng cao độ chính xác của trắc nghiệm, và trên cơ sở IRT công nghệ Trắc nghiệm Thích ứng nhờ máy tính (Computer Adaptive Test – CAT) ra đời Ngoài ra, trên cơ sở những thành tựu của IRT và ngôn ngữ học máy, công nghệ E-RATE chấm tự động các bài tự luận tiếng Anh nhờ máy tính của ETS đã được triển khai nhờ mạng Internet trong mấy năm qua
Theo [1], đề thi cho các kỳ thi tuyển đại học ở một số nước như Mỹ, Nhật, Thái Lan được soạn toàn bộ dựa trên phương thức trắc nghiệm khách quan Để tuyển sinh đại học, ở Mỹ các trường đại học không tổ chức thi tuyển mà dựa vào kết quả của các kỳ thi trắc nghiệm do các công ty ngoài nhà nước tổ chức để xét tuyển Có dịch vụ thi phục vụ công việc này, đó là SAT (Scholastic Assesment Test) do công ty ETS tổ chức, và ACT do Chương trình ACT (American College Testing Program) triển khai SAT cho thi 2 môn, Tiếng Anh và toán, còn ACT cho thi 4 môn, ngoài Tiếng Anh và Toán còn thi thêm đọc hiểu và suy luận khoa
Trang 25học Cả SAT và ACT thường tổ chức thi mỗi năm 4 lần, cho các học sinh ở những năm cuối bậc phổ thông trung học Hiện nay hàng năm có khoảng 1,8 triệu thí sinh thi SAT và 1,6 triệu thí sinh thi ACT Học sinh Mỹ thường gửi đơn
dự tuyển đến 5, 6 trường đại học, các trường căn cứ trên điểm SAT (hoặc ACT), điểm trung bình học tập ở phổ thông trung học (GPA) và một số nhân tố khác liên quan đến từng cá nhân (phỏng vấn, hoạt động xã hội, thư đề nghị ) để xét tuyển
Trắc nghiệm cũng được áp dụng cho các kỳ thi sau đại học Ở Mỹ, công ty ETS tổ chức các kỳ thi Graduate Record Examination (GRE) GRE gồm trắc nghiệm tổng quát (General Test - GRE GT) về Tiếng Anh, Toán, và khả năng phân tích Ngoài ra còn các trắc nghiệm môn học (Subject Test - GRE ST) cho
16 môn khác nhau, mỗi môn học có liên quan với lĩnh vực của chương trình sau đại học tương ứng Ngoài các GRE, đối với chương trình cao học quản trị kinh doanh (MBA) ETS còn tổ chức riêng Chương trình trắc nghiệm tuyển sinh sau đại học về Quản lý (Graduate Management Admision Test - GMAT)
Các kỳ thi trắc nghiệm tiêu chuẩn hoá ở Mỹ được chuẩn bị rất công phu và khoa học, do đó, tính chính xác và khách quan của chúng khá cao
Bên cạnh đó, phương thức trắc nghiệm đặc biệt phù hợp cho các hình thức sát hạch lấy chứng chỉ và được áp dụng rộng rãi trên thế giới Chẳng hạn, các chứng chỉ TOEFL (Test of English as Foreign Language), ICDL (International Computer Driving Licience), TOEIC (Test of English for International Communication), IELTS đều được tổ chức thông qua phương thức thi trắc nghiệm
1.3.2 Tình hình phát triển và ứng dụng trắc nghiệm ở Việt Nam
Theo [1], ở nước ta khoa học về đo lường trong giáo dục ở trong tình trạng khá lạc hậu và phát triển rất chậm Trước 1975 ở miền nam nước ta có một vài người được đào tạo về khoa học này từ các nước phương tây, trong đó có Giáo sư Dương Thiệu Tống Vào năm 1974 một hoạt động đáng lưu ý là kỳ thi tú tài lần đầu tiên được tổ chức ở miền nam bằng phương pháp trắc nghiệm khách quan
Ở miền Bắc nước ta trước đây, khoa học này ít được quan tâm vì trong hệ thống các nước xã hội chủ nghĩa cũ, kể cả Liên Xô cũ, khoa học này không được chú ý phát triển Vào những năm sau 1975 ở phía Bắc nước ta có một số người
có nghiên cứu về khoa học đo lường trong tâm lý Chỉ đến năm 1993 Bộ Giáo dục và Đào tạo mới mời một số chuyên gia nước ngoài vào nước ta phổ biến về
Trang 26khoa học này cũng như cử một số cán bộ ra nước ngoài học tập Từ đó một số trường đại học có tổ chức các nhóm nghiên cứu áp dụng các phương pháp đo lường trong giáo dục để thiết kế các công cụ đánh giá, soạn thảo các phần mềm
hỗ trợ, mua máy quét quang học chuyên dụng (OMR) để chấm thi Một điểm mốc đáng ghi nhận là kỳ thi tuyển đại học thí điểm tại trường Đại học Đà Lạt vào tháng 7 năm 1996 bằng phương pháp trắc nghiệm khách quan mà sự thành công tốt đẹp của nó được Hội nghị rút kinh nghiệm của Bộ Giáo dục và Đào tạo vào tháng 9 năm đó khẳng định Kỳ thi này có 7200 thí sinh dự tuyển, 2 loại đề trắc nghiệm và tự luận được sử dụng để thí sinh tự chọn Có khoảng 70% lượt thí sinh chọn đề trắc nghiệm, chấm thi bằng máy Opscan-7, trong khoảng 60 trường hợp
vi phạm luật thi do quay cóp thì chỉ có 4 thí sinh từ nhóm làm trắc nghiệm
Từ năm 1997 đến nay các hoạt động đổi mới phương pháp đo lường và đánh giá trong giáo dục ở các trường đại học lắng xuống Bộ Giáo dục và Đào tạo đã thành lập “Cục Khảo thí và Kiểm định chất lượng” để cải tiến việc thi cử
và đánh giá chất lượng các trường đại học, và quyết định dùng phương pháp trắc nghiệm khách quan để làm đề thi tuyển đại học cho môn Ngoại ngữ bắt đầu từ mùa thi đại học 2005 Năm 2005, Bộ Giáo dục cũng tiến hành kỳ thi trắc nghiệm thí điểm cho môn ngoại ngữ trên diện rộng ở các trường phổ thông trung học Điều này cho thấy trắc nghiệm bước đầu được quan tâm trong hệ thống giáo dục phổ thông ở nước ta
Trong giáo dục ở bậc đại học và đào tạo chuyên môn ngành nghề, hình thức thi trắc nghiệm cũng rải rác được áp dụng ở một số nơi, đặc biệt là những nơi có ứng dụng công nghệ thông tin trong đào tạo
Trong một số hội thảo về công nghệ thông tin và truyền thông trong những năm gần đây, cùng với e-Learning, trắc nghiệm cũng là một vấn đề được đề cập tới Các cơ sở đào tạo như: trường Đại học Bách Khoa Hà Nội, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, Học Viện Bưu chính Viễn thông, trung tâm Đào tạo và Sát hạch VITEC – Bộ Khoa học Công nghệ, Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội, trường Đại học Sư phạm tp.HCM, đã bước đầu có những nghiên cứu triển khai về thi trắc nghiệm Một số sản phẩm liên quan đến các hệ thống trắc nghiệm được các đơn vị này xây dựng như:
- Phần mềm CmTest 112 của Viện Công nghệ Thông tin – Đại học Quốc gia
Hà Nội được triển khai nhằm sát hạch kỹ năng công nghệ thông tin cho các cán bộ cơ quan hành chính của nhà nước theo Đề án 112 của Chính phủ
Trang 27Ngân hàng câu hỏi được xây dựng trong phần mềm này dùng cho 7 module
cơ bản trong khung đào tạo của đề án, bao gồm: Cơ bản về máy tính, Hệ điều hành Windows, MS-Word, MS-Excel, Trình duyệt và thư điện tử, Cơ bản về mạng máy tính, Hệ thống thông tin tác nghiệp chính phủ Cho đến nay, số lượng lượt sát hạch thông qua phần mềm này lên đến gần 60 nghìn người Ngoài ra Viện Công nghệ thông tin còn ứng dụng phương thức thi trắc nghiệm trên máy tính cho các lần thi học kỳ dành cho đối tượng Kỹ thuật viên Tin học của trung tâm Tin học PT thuộc Viện Bên cạnh đó, trung tâm Đào tạo và Sát hạch của Viện Công nghệ Thông tin còn là một đơn vị
ủy nhiệm của tổ chức ICDL AP, tiến hành sát hạch cho các đối tượng thi chứng chỉ ICDL thông qua hệ thống sát hạch của chính tổ chức này
- Hệ thống Hỗ trợ ra Đề thi Trắc nghiệm của khoa Công nghệ Thông tin – Đại học Bách Khoa Hà Nội là một phần mềm cho phép tạo ra và quản lý các câu hỏi, đề thi, túi bài thi theo từng phòng thi Hệ thống này hỗ trợ tốt cho việc tạo ra các đề thi và in ra phát cho thí sinh làm trắc nghiệm trên giấy (Paper Based Test-PBT)
- Phần mềm MrTest của trung tâm SeLab – trường Đại học Công nghệ - Đại học Quốc gia Hà Nội được đưa vào ứng dụng Đây là phần mềm hỗ trợ cho việc ra đề thi, in đề thi ra giấy và chấm thi tự động thông qua máy quét quang học chuyên dụng (OMR) Sản phẩm đã đoạt giải thưởng ViFotech và được ứng dụng ở một số trường đại học ở Việt Nam
- Trung tâm Đào tạo và Sát hạch VITEC- Bộ Khoa học Công nghệ thông qua
dự án của Nhật Bản hiện đang triển khai hệ thống Cultiva (Nhật Bản) nhằm
hỗ trợ học viên ôn tập để thi chứng chỉ kỹ sư công nghệ thông tin cơ bản (FE) và chứng chỉ kỹ sư phần mềm (SE) theo tiêu chuẩn của Nhật Bản
- Trung tâm Công nghệ Dạy học thuộc Viện nghiên cứu giáo dục, Đại học
Sư phạm Tp.HCM cũng xây dựng một phần mềm trắc nghiệm cài đặt trên máy tính cá nhân và bước đầu đưa vào ứng dụng
- Phần mềm thi trắc nghiệm của trường Đại Học Kinh Tế TP.HCM Phần mềm được tổ chức đơn giản, cho phép tạo ra các đề thi trắc nghiệm trên máy và trên giấy
Ngoài ra còn có một số công ty, đơn vị khác cũng xây dựng và phát triển các phần mềm hỗ trợ phương thức thi trắc nghiệm Tuy nhiên, cho đến nay, các phần mềm trắc nghiệm do các đơn vị Việt Nam phát triển chủ yếu là các sản
Trang 28phẩm nhỏ, đặc biệt phần ngân hàng câu hỏi – nhân tố quan trọng ảnh hưởng đến chất lượng bài trắc nghiệm chưa được quan tâm đúng mức Hầu hết các đơn vị có
sử dụng phương thức trắc nghiệm đều mới chỉ dừng ở mức: các chuyên gia (hoặc giáo viên) ra câu hỏi trắc nghiệm và tự đánh giá các câu hỏi này theo quan điểm chủ quan của mình; kết quả thi chủ yếu được đánh giá trên điểm thô (tổng số câu trả lời đúng) của thí sinh mà chưa ứng dụng một lý thuyết trắc nghiệm nào Trong thời gian gần đây, GS Lâm Quang Thiệp đã có một số bài báo đề cập vấn
đề này [17] nhưng cho đến thời điểm hiện tại, vấn đề vẫn chưa thực sự được quan tâm
Trang 29CHƯƠNG 2
LÝ THUYẾT TRẮC NGHIỆM
Lý thuyết trắc nghiệm đã được xây dựng và đưa vào ứng dụng trong các trường đại học ở Mỹ và một số nước khác từ khá sớm (bắt đầu từ những năm 1920) Lý thuyết trắc nghiệm là cơ sở khoa học giúp đánh giá chất lượng của bài thi trắc nghiệm (thông qua đánh giá các câu hỏi) và ước lượng năng lực thí sinh (thông qua việc thí sinh trả lời các câu hỏi) Cho đến nay có 2 lý thuyết trắc nghiệm chính dùng trong lý thuyết đo lường giáo dục, đó là: lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT); lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) IRT ra đời sau CTT và hiện nay trên thế giới IRT được
áp dụng rộng rãi trong các hệ thống đánh giá giáo dục, đặc biệt là ở Mỹ, Australia và một số nước phát triển khác
Chương này sẽ đề cập chủ yếu đến lý thuyết IRT Tuy nhiên, trước khi trình bày về lý thuyết ứng đáp câu hỏi - IRT và các đặc điểm của nó, chúng ta sẽ điểm một vài nét về lý thuyết trắc nghiệm cổ điển - CTT, trên cơ sở đó làm căn cứ so sánh với IRT Để rõ ràng hơn, phần đầu chương sẽ điểm lại một số khái niệm cơ bản trong xác suất thống kê được sử dụng trong lý thuyết trắc nghiệm
Tuy nhiên, trước khi trình bày các lý thuyết trắc nghiệm, ở đây chúng ta cần
làm rõ khái niệm năng lực được nói đến trong luận văn này:
Trong đo lường giáo dục nói chung có một “biến số” ngầm, biến này trong nhiều trường hợp thường được hiểu một cách trực quan, chẳng hạn như “chỉ số thông minh” Khi nói một người là giỏi hay trung bình, người nghe sẽ có ý niệm nào đó về điều mà người nói đang truyền tải về đối tượng Cũng như vậy, người
ta có thể nói về năng lực học tập với các đặc điểm như: đạt điểm cao; dễ dàng tiếp thu kiến thức mới; tổng hợp tốt thông tin từ các nguồn; sử dụng thời gian học tập một cách có hiệu quả Trong lĩnh vực học thuật, “biến số” ngầm này có thể được mô tả bởi các thuật ngữ, chẳng hạn: khả năng đọc, khả năng về số học Khi xét một khối kiến thức cụ thể, chẳng hạn một môn học, mỗi thí sinh sở hữu một lượng kiến thức nào đó, tuy nhiên, ta không đo một cách chính xác được
“lượng kiến thức” mà thí sinh sở hữu là bao nhiêu mà chỉ có thể ước lượng được thông qua việc thực hiện bài trắc nghiệm của thí sinh Mục tiêu chính của đo lường giáo dục là xác định xem “lượng kiến thức” của một người là bao nhiêu, từ
Trang 30đó định vị trên một thang đo Thuật ngữ chung “năng lực” (ability) được đề cập trong lý thuyết trắc nghiệm được ngầm nói đến “lượng kiến thức” này
2.1 Nhắc lại một số khái niệm trong xác suất thống kê
- Biến cố ngẫu nhiên:
Việc thực hiện một nhóm các điều kiện cơ bản để quan sát một hiện tượng nào đó có xảy ra hay không được gọi là thực hiện một phép thử, còn hiện
tượng có thể xảy ra trong kết quả của phép thử đó được gọi là biến cố Biến
cố ngẫu nhiên là biến cố có thể xảy ra hoặc không thể xảy ra khi thực hiện
một phép thử
Ví dụ: Một bà mẹ sinh con là một phép thử, còn việc sinh được con trai hay con gái là biến cố
- Biến ngẫu nhiên: Biến ngẫu nhiên X là một biến mà nó nhận giá trị này hay
giá trị khác tùy thuộc vào những tình huống mà ta không đoán chắc được
sao cho bất đẳng thức {X<x} xác định một biến cố ngẫu nhiên với mọi
x R 1 Có hai loại biến ngẫu nhiên: biến ngẫu nhiên rời rạc; biến ngẫu
- Phân bố xác suất (Probability distribution):
Giả sử X là biến ngẫu nhiên bất kỳ, x là một số thực nào đó Xét biến cố
"Biến ngẫu nhiên X nhận giá trị nhỏ hơn x", ký hiệu (X < x) Hiển nhiên là x thay đổi thì xác suất P{X < x} cũng thay đổi theo Như vậy, xác suất này là một hàm số x
Hàm phân bố xác suất của biến ngẫu nhiên X, ký hiệu F(x), là xác suất để biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất kỳ, ký
Trang 31thì: f(x) được gọi là hàm mật độ (xác suất) của biến ngẫu nhiên X
- Kỳ vọng (Expectation): Kỳ vọng E X( ) của biến ngẫu nhiên rời rạc
X {x 1 , x 2 , ., x N } với p i = P{X=x i } được định nghĩa là:
- Phương sai (Variance): Phương sai của một biến ngẫu nhiên là một độ đo
sự phân tán thống kê của biến đó Phương sai của biến ngẫu nhiên X được định nghĩa là: Var(X) ≡ D(X) = E(X - E(X)) 2 = E(X 2 ) – [E(X)] 2
Phương sai của biến X cũng có thể được ký hiệu là 2
X
- Độ lệch tiêu chuẩn (Standard deviation): Độ lệch tiêu chuẩn X của biến
ngẫu nhiên X được định nghĩa là căn bậc hai của phương sai
- Sai số tiêu chuẩn (Standard error): Sai số tiêu chuẩn của một ước lượng
được xem như là độ lệch tiêu chuẩn của ước lượng đó, còn sai số tiêu chuẩn của một mẫu có kích thước n được định nghĩa là độ lệch tiêu chuẩn của mẫu chia cho n
- Tương quan (correlation): là thước đo mối quan hệ giữa hai hay nhiều biến
ngẫu nhiên Giả sử X, Y là 2 biến ngẫu nhiên với các giá trị kỳ vọng là X và
Y
, độ lệch tiêu chuẩn là X và Y Khi đó, hệ số tương quan X Y, giữa hai
biến X và Y được tính theo công thức:
Trang 32- Phân bố chuẩn (normal distribution): Biến ngẫu nhiên X được gọi là biến
ngẫu nhiên có phân bố chuẩn (μ, σ 2 ) với các tham số là μ R 1 , σ>0 nếu X
có hàm mật độ xác suất sau:
2 2
22
Hình 2.1: Ví dụ đồ thị của phân bố chuẩn (0, 1)
2.2 Lý thuyết trắc nghiệm cổ điển (Classical Test Theory)
Lý thuyết trắc nghiệm cổ điển (CTT) hay còn gọi là lý thuyết điểm thực
(true score theory) được ra đời vào đầu thế kỷ 20 Mô hình CTT thể hiện mối quan hệ giữa 3 đại lượng: điểm bài thi (test score) hay điểm quan sát được (obsevered score), điểm thực (true score) và điểm sai số (error score) Theo CTT, các đại lượng này được định nghĩa như sau:
Xét một bài thi trắc nghiệm gồm có các câu hỏi nhiều lựa chọn, kết quả thí sinh trả lời mỗi câu hỏi chỉ rơi vào một trong hai trường hợp: hoặc đúng hoặc sai Nếu đúng thí sinh nhận một điểm nào đó, nếu sai thí sinh nhận điểm 0 cho trả lời của câu hỏi này
(1) điểm bài thi (test score) hay điểm quan sát được (observed score):
điểm thí sinh nhận được sau khi thực hiện bài thi, điểm này được tính bằng tổng điểm nhận được từ việc trả lời tất cả các câu hỏi trong bài thi CTT giả định rằng, điểm bài thi của mỗi thí sinh được thể hiện
thông qua một biến ngẫu nhiên; ký hiệu điểm bài thi mà thí sinh thứ i nhận được là biến ngẫu nhiên X i
(2) điểm thực (true score): là số đo một năng lực thực sự nào đó của thí
sinh (chẳng hạn: năng lực tính toán, đọc (reading), kỹ năng dùng máy tính, tư duy logic ) Điểm thực của một thí sinh là đại lượng không đo
trực tiếp được, nó được định nghĩa là kỳ vọng của điểm bài thi Điểm
Trang 33thực là một hằng số Nếu ký hiệu điểm thực của thí sinh thứ i là t i thì:
(3) điểm sai số (error score) của phép đo lường: là một biến ngẫu nhiên có
phân bố chuẩn Nếu ký hiệu điểm sai số của thí sinh thứ i là i thì:
Do đó, kỳ vọng của sai số bằng 0 vì:
E( i ) = E(X i − t i ) = E(X i ) − E(t i ) = t i − t i = 0 (3) Công thức (2) là công thức cơ bản trong CTT, thể hiện mối quan hệ giữa điểm bài thi và điểm thực
2.2.1 Xác định tham số của câu hỏi, thuộc tính của bài trắc nghiệm
Trong CTT, việc đánh giá năng lực thí sinh chủ yếu dựa vào điểm bài trắc nghiệm Một bài trắc nghiệm được tạo nên từ nhiều câu hỏi, vì thế, các thuộc tính của các câu hỏi cần được xem xét và tính toán Trong CTT, câu hỏi được xem xét với hai thuộc tính là độ khó và độ phân biệt đồng thời điểm bài trắc nghiệm và độ tin cậy của điểm bài trắc nghiệm được tính toán Sau đây chúng ta sẽ xem xét các tham số câu hỏi và thuộc tính của bài trắc nghiệm
Độ khó (Facility):
Định nghĩa: Trong CTT, độ khó là tỷ số của số thí sinh trả lời đúng câu hỏi và
tổng số thí sinh đã trả lời câu hỏi [6], được tính theo công thức:
Fac i( ) r .
M
với Fac(i) là độ khó của câu hỏi i nào đó; r là số thí sinh trả lời đúng câu hỏi; M
là tổng số thí sinh đã trả lời câu hỏi
Theo công thức (4), giá trị Fac(i) càng cao thì i là một câu hỏi càng dễ, ngược lại
Fac(i) càng nhỏ i là câu hỏi càng khó
Chú ý:
- Giá trị độ khó (facility) trong CTT càng lớn thì câu hỏi càng dễ Tuy nhiên, sau này, trong IRT, độ khó (difficulty) được đưa ra theo một định nghĩa khác, chúng
ta sẽ đề cập định nghĩa này ở phần tiếp thao
Độ phân biệt: (Discrimination)
Định nghĩa: Trong CTT, khái niệm độ phân biệt được xem là một đại lượng
dùng để đo mức độ phân biệt (distinguish) giữa các sinh viên trong nhóm Khi ra
Trang 34một câu hỏi hoặc một bài trắc nghiệm cho một nhóm thí sinh nào đó thực hiện, người ta thường muốn phân biệt trong nhóm ấy những người có năng lực khác nhau: giỏi, trung bình, kém Khả năng của câu trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt
Một câu hỏi có độ phân biệt cao thì phản ứng của nhóm thí sinh giỏi và nhóm thí sinh kém lên câu đó phải khác nhau Người ta thường thống kê các phản ứng khác nhau đó của các thí sinh để tính độ phân biệt
Các phương pháp tính độ phân biệt trong CTT:
Công thức tương quan mô men tích Pearson (Pearson product-moment correlation) là công thức được dùng phổ biến Theo đó, độ phân biệt của câu hỏi
chính là tương quan giữa điểm của câu hỏi X và tổng điểm bài trắc nghiệm Y
))(((
.))(()()
))(((
2 2
2
2 2
2
Y E Y
E Y
E Y E
X E X
E X
E X E Y
Với: E(X) là kỳ vọng của điểm câu hỏi X của các thí sinh;
E(Y) là kỳ vọng của điểm bài thi Y của các thí sinh
Giá trị X Y, trong công thức (5) càng lớn nếu câu hỏi có độ phân biệt càng lớn
Ngoài ra, độ phân biệt có thể tính theo theo tương quan giữa điểm của câu hỏi với hiệu số giữa điểm bài trắc nghiệm và điểm của câu hỏi này
Theo CTT, giá trị độ phân biệt của câu hỏi có thể biến đổi từ 1 (với thí sinh đạt điểm cao trong câu hỏi này đồng thời đạt điểm cao trong cả bài trắc nghiệm) đến –1 (với thí sinh đạt điểm cao trong câu hỏi này nhưng lại đạt điểm thấp trong cả bài trắc nghiệm)
Trang 35Ví dụ: Một bài thi có 8 câu hỏi được thực hiện bởi 10 thí sinh như sau:
Bảng 2.1: Ví dụ kết quả trả lời bài thi 8 câu hỏi của 10 thí sinh
Trong bảng trên, Disc1(r:q, total) cho biết giá trị độ phân biệt của câu hỏi so với
cả bài trắc nghiệm, giá trị này được tính theo công thức (5); Disc2(r:q,total-q)
cho biết giá trị độ phân biệt của câu hỏi so với các câu còn lại của bài trắc nghiệm
Ngoài ra, CTT còn đưa ra một cách tính khác cho độ phân biệt của câu hỏi [20], theo đó, thực hiện chia toàn bộ các thí sinh tham gia bài thi trắc nghiệm làm hai nhóm: nhóm có tổng điểm bài thi cao và nhóm có tổng điểm bài thi thấp hơn Lần lượt tính độ khó của câu hỏi cho từng nhóm thí sinh điểm cao và nhóm thí sinh điểm thấp Độ phân biệt của câu hỏi là hiệu của hai độ khó này
Ví dụ: Có 25 thí sinh làm bài thi, trong đó chia ra được 13 thí sinh đạt điểm ở
mức cao, còn lại 12 thí sinh ở nhóm điểm thấp Với câu hỏi đang xét, nhóm thí sinh điểm cao có 10 người trả lời đúng, khi đó, độ khó của câu hỏi cho nhóm thí sinh này là: 10/13=0.77 Còn nhóm thí sinh điểm thấp hơn có 6 người trả lời
Trang 36đúng câu hỏi này, do đó, độ khó của câu hỏi tính cho nhóm thí sinh điểm thấp là: 6/12=0.5 Cuối cùng tính được độ phân biệt của câu hỏi: 0.77-0.5=0.27
Độ tin cậy
Trong bất kỳ phép đo nào đều gồm hai thành phần đó là giá trị thực và sai
số Trắc nghiệm là một phép đo: dùng thước đo là bài trắc nghiệm để đo lường
một năng lực của thí sinh Độ tin cậy của bài trắc nghiệm chính là đại lượng biểu
thị mức độ chính xác của phép đo nhờ bài trắc nghiệm Độ tin cậy càng cao,
điểm thu được bài trắc nghiệm càng chính xác
Trong CTT, độ tin cậy của điểm thu được từ bài trắc nghiệm X được ký hiệu là
được định nghĩa là tỷ lệ giữa phương sai của điểm thực và phương sai của điểm nhận được :
hay:
với σX và σT được tính theo công thức (6)
Trong công thức này, độ tin cậy của điểm bài trắc nghiệm cao khi phương sai lỗi
2
E
nhỏ và ngược lại Nếu biết điểm thực ta có thể biết được độ tin cậy của bài trắc nghiệm Tuy nhiên, độ tin cậy không thể ước lượng trực tiếp được vì giá trị này đòi hỏi tính được giá trị điểm thực, mà điều này theo CTT là không thể Do
đó, người ta dùng một số cách ước lượng độ tin cậy khác
Một số cách ước lượng gián tiếp độ tin cậy:
- Cách “test-retest” (trắc nghiệm – trắc nghiệm lại): Đây là cách thực hiện đi thực hiện lại cùng một bài trắc nghiệm cho cùng một nhóm thí sinh, trong hai lần khác nhau Độ tin cậy là tương quan giữa điểm lần trắc nghiệm thứ nhất
và điểm lần trắc nghiệm thứ hai của các thí sinh Cách ước lượng này nhằm đánh giá tính ổn định của bài thi Nếu tương quan giữa hai lần thi càng lớn thì
độ tin cậy càng cao
- Cách “parallel test” (trắc nghiệm song song): người ta xây dựng một khái niệm bài trắc nghiệm song song Hai bài trắc nghiệm được gọi là “song song” nếu nó có tính chất: với mọi thí sinh, điểm thực (kỳ vọng của điểm thu được)
Trang 37và phương sai của điểm thu được (điểm bài thi) từ bài trắc nghiệm này cũng
chính bằng các giá trị này khi thực hiện ở bài trắc nghiệm khác Nếu X và X’
là hai bài trắc nghiệm song song thì:
t i = (X i ) = (X i ’ ) = t i ’
và 2
Ei = 2
E’i
Theo [20] độ tin cậy của bài trắc nghiệm bằng tương quan giữa bài trắc
nghiệm này và bài trắc nghiệm song song với nó Cụ thể, gọi ρ XX’ là tương quan
giữa hai bài trắc nghiệm X và X’ thì:
Việc sử dụng cả hai cách trên (test-retest và parrallel test) đều cồng kềnh và khó thực hiện: dạng “test-retest” thường tốn thời gian, công sức, trong khi đó, thí sinh lại có thể rút kinh nghiệm từ lần trắc nghiệm trước; còn với dạng “parallel test” thì khó xây dựng được các “bài trắc nghiệm song song” theo định nghĩa đã đưa ra ở trên Do đó, trong thực tế người ta sử dụng một đại lượng khác gọi là Cronbach's α để tính biên dưới của độ tin cậy
Tính biên dưới của độ tin cậy
Xét một bài trắc nghiệm gồm k câu hỏi, điểm cho các câu hỏi với thí sinh thứ i là u ij (j=1,2, k) Tổng điểm bài trắc nghiệm được định nghĩa là tổng điểm đạt được của k câu hỏi Do đó, với thí sinh i, ta có:
Biểu thức Cronbach-alpha:
với: k là tổng số câu hỏi
Giá trị Cronbach-alpha đã được chứng minh là biên dưới của độ tin cậy Do đó, phương pháp này là khả thi và được áp dụng nhiều trong CTT
Theo CTT, độ tin cậy phản ánh chất lượng nói chung của điểm trắc nghiệm
Độ tin cậy càng cao điểm thu được từ bài trắc nghiệm càng đáng tin cậy (càng tốt) CTT không đề xuất ra cao bao nhiêu là hợp lý Trong một số tài liệu [6] cho
Trang 38rằng giá trị độ tin cậy >0.80 là chấp nhận được, giá trị >0.90 là tốt, giữa 0.70 và 0.80 là bình thường nhưng vẫn còn chấp nhận được, giá trị <.70 là bài trắc nghiệm có độ tin cậy kém Đây chỉ là một thang giá trị quy ước, không được chứng minh
Độ giá trị
Yêu cầu quan trọng nhất của bài trắc nghiệm với tư cách là một phép đo
lường trong giáo dục là phép đo ấy đo được cái cần đo Nói cách khác, phép đo
ấy cần phải đạt được mục tiêu đề ra cho nó Theo [17], độ giá trị của bài trắc
nghiệm là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm Độ giá trị là một khái niệm mang tính định tính gắn liền với
mục tiêu đặt ra cho bài trắc nghiệm
Để bài trắc nghiệm có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua bài trắc nghiệm và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi trắc nghiệm cũng như khi tổ chức triển khai kỳ thi
Qua định nghĩa về độ phân biệt và độ giá trị có thể thấy rõ mối tương quan giữa chúng Khi bài trắc nghiệm không có độ tin cậy, tức là phép đo nhờ bài trắc nghiệm rất kém chính xác, thì không thể nói đến độ giá trị của nó Nói cách khác,
khi bài trắc nghiệm không có độ tin cậy thì nó cũng không thể có độ giá trị
Một vấn đề đặt ra là: một bài trắc nghiệm có độ tin cậy cao thì có nhất thiết là có
độ giá trị cao hay không? Câu trả lời là: không nhất thiết Thật vậy, đôi khi phép
đo nhờ bài trắc nghiệm có thể đo chính xác, nhưng nó đo một cái gì đó mà không
phải cái nó cần đo, trong trường hợp đó thì bài trắc nghiệm có độ tin cậy cao
nhưng độ giá trị rất thấp
Ví dụ: một khẩu súng chuẩn xác được người bắn nhằm vào mục tiêu là tấm bia
ngắm, các viên đạn bắn ra đều trúng chụm lân cận tâm điểm của bia ngắm Khẩu súng như vậy là có độ tin cậy cao, và người bắn nhắm đúng mục tiêu nên kết quả bắn cũng đạt độ giá trị cao Tuy nhiên cũng khẩu súng đó nếu rơi vào tay một người ngắm nhầm mục tiêu, kết quả là các viên đạn vẫn chụm nhưng nằm lân cận một mục tiêu khác chứ không đúng mục tiêu đặt ra, trong trường hợp này việc bắn có độ tin cậy vẫn cao nhưng độ giá trị rất thấp
Trang 392.2.2 Ƣu điểm của CTT
- So với các mô hình lý thuyết ứng đáp câu hỏi (sẽ trình bày trong Mục 2.3), các phân tích trong CTT có thể thực hiện được trên tập mẫu các thí sinh có số lượng nhỏ
- CTT sử dụng công thức toán học đơn giản để biểu thị mối quan hệ đồng thời các ước lượng tham số của mô hình dễ hiểu hơn so với các mô hình trong lý thuyết ứng đáp câu hỏi
2.2.3 Nhƣợc điểm của CTT
CTT nói chung tỏ ra dễ áp dụng do tính đơn giản của các công thức tính toán, tuy nhiên nó cũng có một số mặt hạn chế quan trọng
- CTT sử dụng mối liên hệ chủ yếu giữa 3 đại lượng X,T,, (trong đó: X điểm
bài thi quan sát được; T là năng lực thực sự của thí sinh và ở CTT giả định T
là kỳ vọng của phân bố xác suất của X; là điểm sai số) Do X phụ thuộc vào
câu hỏi nên T cũng phụ thuộc vào câu hỏi mà trong thực tế T là số đo năng lực thực sự của thí sinh, T yêu cầu phải độc lập với câu hỏi
- Năng lực của thí sinh được đánh giá thông qua độ khó của bài trắc nghiệm Nếu các câu hỏi trong bài trắc nghiệm là dễ thì thí sinh được đánh giá có năng lực cao, ngược lại nếu câu hỏi là khó thì thí sinh được đánh giá có năng lực thấp Như vậy, theo CTT thì năng lực của thí sinh phụ thuộc vào bài trắc nghiệm hay nói một cách khác năng lực của thí sinh phụ thuộc vào nhóm trắc nghiệm thử (vì độ khó của các câu hỏi được xác định thông qua trắc nghiệm thử) Ngoài ra, trong CTT rất khó so sánh năng lực của hai thí sinh khi họ thực hiện hai bài trắc nghiệm khác nhau
- Hai thống kê cơ bản của CTT là độ khó và độ phân biệt cùng phụ thuộc vào mẫu thử nghiệm Nếu nhóm thí sinh thử nghiệm có mức năng lực dưới trung
bình thì các giá trị độ khó câu hỏi sẽ cao và ngược lại nếu nhóm thí sinh thử nghiệm có mức năng lực trên trung bình thì giá trị độ khó sẽ thấp hơn Như vậy, tham số độ khó câu hỏi phụ thuộc vào mẫu các thí sinh thử nghiệm Tham số độ phân biệt có khuynh hướng cao nếu nhóm thí sinh thử nghiệm có năng lực không đồng nhất và có khuynh hướng thấp nếu nhóm thí sinh này có năng lực đồng nhất Nhóm trắc nghiệm càng đồng đều về năng lực thì độ
phân biệt càng kém Rõ ràng, độ phân biệt của câu hỏi trong CTT phụ thuộc
vào các thí sinh thử nghiệm
Trang 40Do những nhược điểm nêu trên mà những năm gần đây CTT ít được sử dụng, thay vào đó lý thuyết ứng đáp câu hỏi (Item Resonse Theory) ra đời và được ứng dụng rộng rãi trong thực tế
2.3 Lý thuyết ứng đáp câu hỏi (Item Response Theory)
Vào những năm 1970, lý thuyết ứng đáp câu hỏi (IRT – Item Response Theory) được đưa vào ứng dụng thực tế và thay thế cho CTT Ngày nay hầu hết các hệ thống sát hạch đều sử dụng IRT để ước lượng các tham số của câu hỏi cũng như ước lượng năng lực thí sinh
IRT được xây dựng dựa trên một số tiên đề và dựa trên một hàm phân bố xác suất của năng lực thí sinh theo các tham số của câu hỏi
Ở đây chúng ta chỉ xét đến bài thi gồm các câu hỏi trắc nghiệm mà phương án trả lời của thí sinh cho câu hỏi hoặc đúng (nhận giá trị 1) hoặc sai (nhận giá trị 0)
2.3.1 Các tiên đề
Theo [22] IRT dựa trên một số tiên đề cơ bản sau:
a) Việc trả lời đúng một câu hỏi trắc nghiệm của thí sinh có thể bị ảnh hưởng bởi các nhân tố: đặc điểm câu hỏi và năng lực (ability) của thí sinh (Như đã trình bày ở phần đầu của chương này, năng lực của thí sinh ở đây có thể được hiểu là một khả năng hay một thuộc tính nào đó của thí sinh được đo bởi bài trắc nghiệm, có thể là: sự hiểu biết, các kỹ năng, tuỳ thuộc vào mục đích đo của bài trắc nghiệm)
Ví dụ, với cùng một câu hỏi trắc nghiệm về môn toán, với hai thí sinh có năng lực khác nhau (một thí sinh giỏi, một thí sinh kém) thì xác suất trả lời đúng câu hỏi của hai thí sinh này là khác nhau Ngược lại, một thí sinh có năng lực về toán ở mức trung bình, nếu yêu cầu thí sinh trả lời hai câu hỏi trắc nghiệm khác nhau (chẳng hạn: một câu hỏi dễ, một câu hỏi khó hơn) thì xác suất thí sinh trả lời đúng câu hỏi dễ sẽ cao hơn xác suất trả lời đúng câu hỏi khó hơn
b) Với thuật ngữ “năng lực” như đã nói ở trên, mỗi thí sinh thực hiện bài trắc nghiệm luôn sở hữu một giá trị năng lực nào đó, năng lực này được tích lũy trong quá trình học tập của thí sinh Năng lực thực sự của thí sinh là đại lượng không đo trực tiếp được, nhưng có thể ước lượng được thông qua việc thí sinh thực hiện bài trắc nghiệm gồm nhiều câu hỏi Việc ước lượng