CHƢƠNG 3 : TRẮC NGHIỆM THÍCH NGHI
3.1. Khái niệm trắc nghiệm thích nghi trên máy tính
3.1.3. Ƣu điểm và nhƣợc điểm của CAT
Theo [12] và [28] nhìn chung CAT có các ƣu và nhƣợc điểm sau:
Nhiều thuận lợi của CAT đƣợc mô tả trong các thảo luận trƣớc đó, nhƣng nói chung CAT có những thuận lợi sau:
- CAT tránh được việc thí sinh phải làm bài thi trên những câu hỏi không phù hợp với năng lực của mình. Các câu hỏi quá dễ hoặc quá khó đối với thí sinh có thể dẫn đến thái độ không mong muốn, chẳng hạn, việc thí sinh đoán mò hoặc trả lời cẩu thả đối với các câu hỏi đƣa ra. Việc CAT đƣa ra những câu hỏi phù hợp với năng lực thí sinh giúp loại bỏ đƣợc điều này.
- Bài trắc nghiệm sử dụng CAT ngắn và chính xác hơn bài trắc nghiệm thông thường. Bắt nguồn từ quan điểm bài trắc nghiệm dạng CAT thì có ít câu hỏi hơn trắc nghiệm giấy-bút thông thƣờng. Bài trắc nghiệm dạng CAT ngắn hơn nhƣng không nhiều. Thực tế, trong bài test “high stakes” độ dài của hai dạng là ngang nhau! Tốt nhất, một bài trắc nghiệm CAT dừng lại khi quyết định qua/không qua (pass/fail) đƣợc đƣa ra. Chính việc bài trắc nghiệm CAT ngắn hơn bài trắc nghiệm giấy-bút thông thƣờng tránh đƣợc tình trạng thí sinh cảm thấy mệt mỏi trong quá trình làm bài thi.
- Việc xây dựng, triển khai và đưa ra các kết quả báo cáo của các bài trắc nghiệm CAT nhanh hơn so với trắc nghiệm thông thường.
Với các bài trắc nghiệm sử dụng trong lớp học, các báo cáo về kết quả/điểm có đƣợc ngay khi thí sinh kết thúc bài thi, dễ dàng tránh đƣợc các sai sót khi scanning bài thi, cho điểm và đƣa ra báo cáo so với các thực hiện bài trắc nghiệm giấy-bút thông thƣờng.
- Một câu hỏi sai đáp án ít ảnh hưởng đến kết quả bài thi.
Trong trắc nghiệm thông thƣờng, nếu không may một câu hỏi bị sai đáp án có thể ảnh hƣởng đến kết quả bài thi, ảnh hƣởng đến kết quả pass/fail của thí sinh, tuy nhiên, trong bài trắc nghiệm CAT điều này ít ảnh hƣởng do câu hỏi đó chỉ ảnh hƣởng đến phân đoạn (segment) của bài trắc nghiệm.
- CAT cũng giúp thuận tiện cho việc quản lí: cho kết quả về thí sinh ngay tức thời, tiết kiệm thời gian cho giáo viên bởi việc chấm tự động, giáo viên có thể dễ dàng theo dõi sự thực hiện của từng sinh viên, bài thi đƣợc hiện đồng thời ở nhiều vị trí. Các giáo viên nhận đƣợc thông tin phản hồi và dữ liệu đánh giá ngay lập tức để thiết kế khóa học của họ.
- Giới hạn bởi công nghệ: Để triển khai đƣợc hệ thống CAT cần cơ sở hạ tầng mạng mạnh, phần cứng máy tính luôn luôn phải đƣợc chuẩn bị sẵn sàng để back up dữ liệu kỳ thi để tránh sự cố về mạng và phần cứng. Các thí sinh tham gia kỳ thi này yêu cầu phải biết về máy tính và mạng, thí sinh có thể thi ở nhà nhƣng trong trƣờng hợp có những thí sinh nghèo không có đủ tiền để mua máy tính thì đơn vị tổ chức thi phải có đủ máy tính cho thí sinh dùng. Điều này là khó nếu nhƣ lƣợng thí sinh yêu cầu dùng máy tại đơn vị là lớn.
- Vấn đề đầu tiên liên quan đến CAT là định cỡ ngân hàng câu hỏi. Để mô hình hóa các đặc trƣng của các câu hỏi (ví dụ chọn câu hỏi tối ƣu), tất cả các câu hỏi về bài test phải đƣợc khảo sát trƣớc một mẫu lớn và sau đó đƣợc phân tích. Để đạt đƣợc điều này, các câu hỏi mới phải đƣợc trộn lẫn vào các câu hỏi đƣợc sử dụng trong bài thi (các câu trả lời đƣợc ghi lại nhƣng không đƣợc tính vào điểm số của ngƣời tham gia kiểm tra) đƣợc gọi là trắc nghiệm thử (pilot testing), trắc nghiệm trƣớc, seeding. Điều này xảy ra các vấn đề, khó tổ chức đúng quy cách, bảo mật. Ví dụ không thể đƣa vào một bài test thích nghi với các câu hỏi mới và không chuẩn bị trƣớc; tất cả các câu hỏi phải đƣợc kiểm tra trƣớc với một mẫu đủ lớn để có đƣợc bản thống kê câu hỏi ổn định. Mẫu này có thể đƣợc yêu cầu một số lớn 1.000 thí sinh chẳng hạn. Mỗi chƣơng trình phải quyết định tỷ lệ phần trăm hợp lý của các câu hỏi không tính điểm trong bài kiểm tra.
- Mặc dù trắc nghiệm thích nghi có các thuật toán điều khiển quảng bá nhằm ngăn ngừa khả năng một số ít câu hỏi đƣợc dùng quá nhiều lần. Năng lực trên điều kiện quảng bá thƣờng không đƣợc kiểm soát và có thể dễ dàng xấp xỉ gần 1. Tức là, thông thƣờng một số câu hỏi để trở thành rất phổ biến trên các bài test cho ngƣời có cùng một năng lực. Đây là một mối quan tâm bảo mật nghiêm trọng bởi vì các nhóm chia xẻ chung các câu hỏi có thể có mức độ năng lực tƣơng tự. Trong thực tế, một kỳ thi hoàn toàn ngẫu nhiên là an toàn nhất (nhƣng cũng ít hiệu quả).
- Việc xem lại các câu hỏi trong quá khứ nói chung là không đƣợc phép. Các bài trắc nghiệm thích nghi có xu hƣớng đƣa ra các câu hỏi dễ hơn sau khi một ngƣời trả lời không chính xác. Giả sử, một ngƣời tham ra kiểm tra tinh ranh có thể sử dụng các đầu mối nhƣ vậy để phát hiện ra câu trả lời sai và sửa lại chúng cho đúng. Hoặc, ngƣời tham gia kiểm tra có thể đƣợc đƣa ra có tính toán lựa chọn các câu trả lời sai, dẫn đến một bài kiểm tra dễ hơn tăng. Sau khi sử dụng mẹo nhằm đánh lừa bài thi trắc nghiệm thích nghi trong việc xây dựng một bài thi đơn giản tối đa, họ có thể xem lại các câu hỏi và trả lời chúng một cách chính xác - có thể đạt đƣợc một số
điểm rất cao. Những ngƣời tham gia kiểm tra thƣờng xuyên phàn nàn về việc không có khả năng xem lại.
3.2. Lịch sử phát triển
Trắc nghiệm là một trong các công cụ sử dụng rộng rãi nhất trong nền giáo dục chất lƣợng cao. Mục đích chính của trắc nghiệm là để đo mức hiểu biết của một ngƣời học về một hoặc nhiều khái niệm, vấn đề. Theo nguyên tắc, các bài trắc nghiệm luôn luôn đƣợc xây dựng để đáp ứng những yêu cầu của những ngƣời tham gia kiểm tra, và mức thực hiện đƣợc chờ đợi của các thí sinh nhƣ một nhóm. Nó luôn luôn đƣợc nhận ra rằng việc cho một bài test có nhiều câu quá dễ với các thí sinh có khả năng là một sự lãng phí thời gian, dẫn đến thí sinh coi thƣờng lỗi cẩu thả hay cân nhắc chọn các câu trả lời sai mà có thể là các câu trả lời cho "Những câu hỏi mánh khóe ". Mặt khác, những câu hỏi mà quá khó, cũng đƣa ra các kết quả trắc nghiệm không có thông tin chung, bởi vì các thí sinh không có khả năng trả lời các câu hỏi, dùng đến đoán, những tập trả lời và dạng khác không cần đến.
Ý tƣởng thích nghi một bài kiểm tra theo mức năng lực của những ngƣời kiểm tra riêng lẻ không có gì mới. Gốc của sự thích nghi này là thi vấn đáp trong giáo dục và sự phỏng vấn chẩn đoán cá nhân trong tâm lý học. Kể từ khi các kỳ thi vấn đáp lần đầu tiên đƣợc sử dụng, ngƣời hỏi thi nhận ra một thực tế là nó có thể gây lãng phí thời gian hỏi thí sinh các câu hỏi quá khó hoặc quá dễ. Khi thí sinh đƣa ra những câu trả lời sai với một loạt các câu hỏi khó, mỗi ngƣời hỏi thi sẽ sử dụng tới các câu hỏi dễ hơn cho tới lúc độ khó của câu hỏi dẫn tới tình trạng không chắc chắn nhƣ câu trả lời kế tiếp sẽ đúng hay sai. Chiến lƣợc ngƣợc lại sẽ đƣợc tuân theo nếu thí sinh đƣa ra một loạt các câu trả lời hoàn hảo.
Những ngƣời hỏi thi và các nhà tâm lý học phải có những ý kiến về những độ khó của các câu hỏi trong bài kiểm tra của họ, và làm cách nào đánh giá chúng khi chấm điểm hoặc phân loại ngƣời tham gia kiểm tra. Trong việc này, chúng ta thậm chí có thể tranh luận rằng những ý kiến này phải hoạt động nhƣ những phiên bản thuộc về trực giác của các mô hình ứng đáp câu hỏi sau này, họ sắp xếp các câu hỏi và ngƣời tham gia kiểm tra, và hƣớng họ trong việc chọn lựa câu hỏi đầu tiên cũng nhƣ việc chấm điểm của những câu hỏi sau.
Ý tƣởng về việc thích nghi một bài kiểm tra theo mức độ của ngƣời tham gia kiểm tra đã ăn sâu trong thói quen của sự kiểm tra và chẩn đoán tâm lý, đến nỗi nó đã tự động thích nghi khi mà nhiều bài trắc nghiệm tâm lý chính tắc hơn đƣợc đƣa
Binet vào đầu thế kỷ 20. Thay vì sự chuẩn hóa kỹ càng của nó, bài kiểm tra này đã hoàn toàn có khả năng thích nghi; cách thức của nó đã bao gồm những mô tả rõ ràng nhƣ là làm cách nào để chọn câu hỏi kế tiếp cho ngƣời kiểm tra nhƣ một hàm của những câu trả lời trƣớc đó của thí sinh [6]. Ông nhận Ông cũng có thể hƣớng các bài kiểm tra để các cá nhân bởi việc sắp đặt stratagem-rank đơn giản các câu hỏi dƣới dạng độ khó. Sau đó ông sẽ bắt đầu kiểm tra thí sinh một nhóm câu hỏi mục tiêu mà ông phỏng đoán ở mức độ các năng lực của thí sinh. Nếu thí sinh thành công, Binet đề xuất để cung cấp cho nhóm câu hỏi khó hơn tiếp theo cho đến khi thí sinh thƣờng xuyên trả lời sai. Nếu thí sinh sai ở nhóm câu hỏi ban đầu thì Binet sẽ đƣa ra nhóm câu hỏi kế tiếp dễ hơn cho đến khi thí sinh thành công thƣờng xuyên. Từ thông tin này, Binet có thể ƣớc lƣợng mức năng lực của thí sinh. Thủ tục của Binet là dễ dàng để thực hiện trên máy tính. Sự tiên phong này vì thế mà phải thuyết phục đƣợc rằng với một bài kiểm tra đƣợc chuẩn hóa thì sẽ không cần thiết phải đƣa cho mỗi ngƣời kiểm tra một loạt các câu lựa chọn giống nhau – mà chỉ cần họ phải chịu cho những quy tắc nhất định lựa chọn câu hỏi.
Mặc dù bài kiểm tra trí thông minh của Binet nhìn chung đƣợc gọi là bài kiểm tra chuẩn mực đầu tiên trong lịch sử trắc nghiệm tâm lý. Binet đã sử dụng thứ tự tuổi nhƣ là một thang bậc đánh giá thông minh, kiểm tra trƣớc một cách rộng rãi các câu hỏi của ông ta để ƣớc lƣợng vị trí của họ trên thang đánh giá của ông, và chấm điểm ngƣời tham gia thi bằng cách tính toán vị trí của họ trên cùng thang đánh giá mà ông ta tham chiếu tới nhƣ là tuổi của họ. Không phải là ngẫu nhiên mà Thustone trong chính bài viết đầu tiên về các khía cạnh thống kê của thang đánh giá năm 1925 đã sử dụng lại dữ liệu của bài kiểm tra trí thông minh của Binet để biểu diễn mô hình thang đánh giá mới của ông ta.
Chúng ta đã phải đợi 2 sự phát triển mới trƣớc khi trắc nghiệm thích nghi quay trở lại. Đầu tiên là sự ra đời của cái đƣợc biết đến nhƣ là thuyết ứng đáp câu hỏi (IRT). Đặc điểm quan trọng của mô hình IRT, là sự giải thích của nó về khả năng phân bố của các ứng đáp trong một câu hỏi kiểm tra, bởi các tham số tách biệt đối với năng lực của mỗi ngƣời tham gia kiểm tra và các đặc trƣng liên quan của câu hỏi. Một trong những ví dụ đầu tiên của một mô hình IRT [17], mô hình này có chính xác một tham số năng lực và một tham số cho độ khó của câu hỏi. Mô hình này giả định rằng khả năng của một trả lời đúng Ui bởi ngƣời tham ra kiểm tra câu hỏi có thể viết dƣới dạng
) exp( 1 ) exp( } 1 Pr{ i i i b b U , (1)
Trong đó năng lực của thí sinh và bi là độ khó của câu hỏi i. Khi các câu hỏi trong bài kiểm tra đã đƣợc định cỡ việc sử dụng dữ liệu kiểm tra trƣớc (ví dụ: độ khó của các câu hỏi đã đƣợc ƣớc lƣợng với độ chính xác đủ để coi chúng nhƣ đã biết), những ƣớc lƣợng về năng lực từ câu trả lời của ngƣời tham gia kiểm tra đƣợc điều chỉnh tự động cho độ khó của câu hỏi đã dùng trong bài kiểm tra. Bởi vậy, đặc trƣng này cho phép sử dụng lựa chọn câu hỏi bất kỳ nào từ ngân hàng câu hỏi trắc nghiệm đã đƣợc định cỡ, nhƣ là một bài kiểm tra mà không mất đi sự so sánh về điểm của ngƣời tham ra kiểm tra và khiến sự lựa chọn thích nghi của câu hỏi trắc nghiệm là có thể.
Trong việc lựa chọn câu hỏi thích nghi, bài kiểm tra bắt đầu bằng việc ƣớc lƣợng tham số năng lực ˆ0. Câu hỏi tiếp theo sau đó đƣợc chọn tối ƣu tại ˆ0và đáp án của nó đƣợc sử dụng ƣớc lƣợng lại năng lực và tính toán ƣớc lƣợng ˆ1. Thủ tục này đƣợc lặp lại và kết quả sẽ là ƣớc lƣợng ˆ2. Tƣơng tự với mô hình ở (1), một thủ tục hiển nhiên là chọn mỗi câu hỏi kế tiếp để nó có độ khó bi có thế bằng ƣớc lƣợng hiện tại . Với những mô hình linh động hơn thƣờng đƣợc sử dụng điển hình trong trắc nghiệm giáo dục thì tiêu chí này không thích hợp. Một tiêu chí phổ biến đƣợc sử dụng để đo thông tin của Fisher trong thống kê nhƣ hàm thông tin câu hỏi I(). Chúng ta biểu diễn sử dụng của nó chỉ bằng đồ thị. Hình 11 biểu diễn sự lựa chọn của 3 câu hỏi đầu tiên trong trắc nghiệm thích nghi (từ trên xuống). Mỗi một câu hỏi kế tiếp đƣợc lựa chọn để có đỉnh của nó có thể càng gần tới ƣớc lƣợng sau cùng của . Đó là, những hàm thông tin câu hỏi có lợi thế của việc đƣợc cộng thêm vào, hàm thông tin kiểm tra chỉ là tổng số các hàm thông tin các câu hỏi của nó. Nhƣ hình 11, thậm chí chỉ sau một số ít nhƣ 3 câu hỏi, hàm thông tin kiểm tra đã hé lộ xu hƣớng trở thành đỉnh của một khu vực nhỏ trong thang đánh giá năng lực. Với những mô hình IRT chủ đạo đƣợc sử dụng trong trắc nghiệm, nó có thể đƣợc chứng minh rằng vị trí của đỉnh hội tụ tới năng lực thật sự của ngƣời tham gia kiểm tra.
Hình 11: Đồ thị về sự lựa chọn ba câu hỏi đầu tiên trong trắc nghiệm thích nghi sử dụng hàm thông tin về các câu hỏi trong ngân hàng
Sự phát triển thứ hai dẫn tới việc giới thiệu lại của trắc nghiệm thích nghi là khả năng tính toán của máy tính. Khi điều kiện của máy tính trở nên có đủ khả năng vào nửa cuối những năm 1980, chúng đã lập tức đƣợc sử dụng để quản lý bài kiểm
tra. Sức mạnh của chúng cho phép ngành công nghiệp trắc nghiệm, ƣớc lƣợng đƣợc những tham số của ngƣời tham gia kiểm tra bằng những cách thức tinh vi một cách có thống kê, và lựa chọn các câu hỏi một cách tối ƣu trong sự ƣớc lƣợng từ ngân hàng lớn các câu hỏi trong thời gian thực. Điều này có thể đƣợc điều hành thuận lợi bởi sự quản lý của cá nhân hay bằng máy tính. Các câu hỏi đƣợc khai báo độ khó, và một vài nhóm câu hỏi đƣợc hình thành theo từng cấp độ. Khi bài test thành công bởi việc quản lý nhóm câu hỏi, và di chuyển lên hoặc xuống phù hợp với tỷ lệ thành công trên mỗi nhóm. Sau khi sự quản lý của một vài nhóm, ƣớc lƣợng năng lực thí sinh cuối cùng đạt đƣợc.
Những ứng dụng quy mô lớn đầu tiên của trắc nghiệm thích nghi đƣợc khởi động từ giữa những năm 1990. Một điều ngạc nhiên là không có một ứng dụng nào trắc nghiệm tâm lý mà ở trong những lĩnh vực nhƣ thi tuyển đại học, chứng chỉ