Mô hình hệ thống trắc nghiệm thích nghi

Module Soạn câu hỏi: cho phép giáo viên hoặc chuyên gia soạn thảo câu

hỏi và tích hợp các câu hỏi vào ngân hàng câu hỏi trong cơ sở dữ liệu.

CSDL Câu hỏi/ Thí sinh/ Kết quả thi

Module phân phối bài thi

(Delivery Module)

Module Quản trị (Administration

Module)

Module Soạn câu hỏi (Authoring

Tool Module)

Thí sinh Giáo viên/

Chuyên gia

Module Phân phối bài thi: cho phép phân phối bài thi đến các thí sinh

thông qua môi trƣờng Web. Bài thi đƣợc tạo thành nhờ việc chọn từng câu hỏi từ bài trắc nghiệm đầy đủ, sự lựa chọn này đƣợc thực hiện phù hợp với năng lực thí sinh và đảm bảo rằng các câu hỏi trong bài trắc nghiệm đầy đủ không phải là câu hỏi phổ biến (nghĩa là chọn câu hỏi ít đƣợc dùng nhất mà vẫn đảm bảo phù hợp với năng lực thí sinh). Các thí sinh khác nhau có bài thi khác nhau phụ thuộc vào câu trả lời của thí sinh ở câu hỏi hiện thời. Kết quả thực hiện bài thi của thí sinh đƣợc cập nhật vào cơ sở dữ liệu, phục vụ cho việc truy vấn và quản trị. Hiện tại, chƣơng trình vẫn chƣa áp dụng lý thuyết ứng đáp câu hỏi (IRT) trong hệ thống mà ở đây hệ thống mới chỉ mang tính thử nghiệm mô phỏng thích nghi nên việc tính điểm bài thi cho từng thí sinh đƣợc tính theo điểm bài trắc nghiệm quy đổi từ điểm thô:

Từ điểm thô (raw score) là điểm tƣơng ứng với số câu trả lời đúng của thí sinh của mỗi thí sinh, tính tỷ lệ trả lời đúng ở mức năng lực của thí sinh so với độ khó tối đa quy định của của học phần đó sau đó thực hiện phép quy đổi về thang điểm 10. Ví dụ: nếu thí sinh trả lời đúng câu hỏi ở mức độ khó bằng 4 trong tổng 5 mức và trả lời toàn bộ các câu hỏi mức đó đúng thì điểm của thí sinh đƣợc công nhận là 8 điểm cho phần kiến thức đó. Điểm của bài thi sẽ đƣợc tính theo trọng số quy định điểm từng phần của môn học.

Module Quản trị: cho phép quản trị các thông tin về thí sinh, bài thi, câu

hỏi, kết quả thi, lập các báo cáo tổng hợp về thí sinh và kết quả thi.

Về mức độ tuân thủ đặc tả QTI: hệ thống mới chỉ có phần mô tả dữ liệu

câu hỏi là tuân thủ QTI. Tuy nhiên, hệ thống vẫn đang tiếp tục đƣợc phát triển và hoàn thiện.

4.2. Thực nghiệm

Việc thử nghiệm về trắc nghiệm thích nghi trong luận văn này hiện mới chỉ thử nghiệm với Module Phân phối bài thi cho các câu hỏi đa lựa chọn, và điểm đƣợc tính dựa trên tính thô (mỗi câu trả lời đúng đƣợc tính 1 điểm sau đó quy về thang điểm 10) chứ chƣa áp dụng lý thuyết ứng đáp.

Bài thi của thí sinh đƣợc thực hiện thích nghi trên bài trắc nghiệm đầy đủ. Bài trắc nghiệm đầy đủ đƣợc sinh ra cho mỗi thí sinh bao gồm các ràng buộc (học phần, độ khó, …), bài trắc nghiệm này là ẩn đối với thí sinh. Mỗi bài trắc nghiệm gồm 4 học phần, mỗi học phần gồm 10 câu hỏi có độ khó i (i=1,…5), mỗi độ khó có hai câu hỏi và các câu hỏi trong bài thi này phải là những câu hỏi ít bị lộ

nhất. Chính vì bài trắc nghiệm đầy đủ này thỏa mãn các ràng buộc nên trắc nghiệm thích nghi cũng thỏa mãn.

Việc thực hiện thi của thí sinh đƣợc thực hiện theo quy trình sau. - Đƣa ra một bài test đầy đủ đạt đƣợc tất cả các ràng buộc.

- Ƣớc lƣợng năng lực ban đầu của thí sinh ở mỗi học phần 0=1(tƣơng ứng với độ khó của câu hỏi).

- Lựa chọn các câu hỏi tốt nhất từ học phần trong bài trắc nghiệm đầy đủ để thực hiện mà có thể đạt đƣợc năng lực θ

- Ghi lại đáp án và tính toán ƣớc lƣợng năng lực mới 1 (là năng lực mà thí sinh có thể đạt tới khi thực hiện câu hỏi kế tiếp), tập hợp lại học phần và cố định các câu đã đƣợc lựa chọn.

- Lặp lại từ bƣớc 3-4 đến khi gặp tiêu chuẩn dừng (hết thời gian, không có khả năng trả lời câu hỏi tiếp nữa, hoặc đạt đƣợc năng lực tối đa của từng học phần.

- Lặp lại bƣớc 2-4 mỗi khi kết thúc học phần đến khi gặp tiêu chuẩn dừng. Nhƣ vậy mỗi thí sinh sẽ có một bài trắc nghiệm khác nhau và cách thực hiện từng bài trắc nghiệm là khác nhau phụ thuộc vào năng lực của thí sinh đó.

Dƣới đây là phần cài đặt thực hiện đối với Module Phân phối bài thi và Kết quả thực hiện đối với môn học Tin học cơ sở gồm 4 học phần do hai thí sinh khác nhau thực hiện.

* Thí sinh Nguyễn Thị Hường

Bài test đầy đủ của thí sinh đƣợc sinh ra gồm 40 câu (Xem phụ lục 2A) Kết quả thí sinh Nguyễn Thị Hƣờng thực hiện bài test này nhƣ sau:

Giải thích các cột:

+ Câu hỏi: là số thứ tự mà thí sinh thực hiện từng câu hỏi + Vi tri: là câu hỏi trong bài test đầy đủ

+ Hoc phan: Học phần (chủ đề)

+ Do kho: Độ khó của câu hỏi trong bài test đầy đủ của thí sinh + Tra loi: Là phƣơng án trả lời của thí sinh câu hỏi

+ Dap an: Là đáp án đúng của câu hỏi tƣơng ứng trong bài test đầy đủ Quy trình thực hiện của thí sinh này

- Đối với học phần = 1, ƣớc lƣợng năng lực ban đầu của thí sinh ở độ khó bằng 1 (mức hiểu) thí sinh trả lời sai câu hỏi đầu tiên, dẫn đến thí sinh không thể có mức năng lực tốt hơn, nên câu hỏi thứ 2 của thí sinh ở mức này đƣợc lựa chọn, thí sinh trả lời đúng, kết luận thí sinh đạt 10% câu trả lời đúng; (số câu hỏi thực hiện 2/10 câu). Thí sinh không thể tiếp tục thi ở phần này nữa do ở mức độ khó là dễ nhất mà thí sinh đã trả lời có câu hỏi sai.

- Đối với học phần bằng 2, ƣớc lƣợng năng lực ban đầu của thí sinh ở độ khó bằng 1 thí sinh trả lời đúng => ƣớc lƣợng năng lực mới, tăng độ khó của học phần này lên 3, ở độ khó này thí sinh trả lời đúng, tiếp tục tăng độ khó của câu hỏi lên 5, thí sinh trả lời đúng (vì đây là mức khó tối đa) nên thực hiện tiếp câu hỏi có độ khó bằng 5 còn lại và thí sinh trả lời sai => ở học phần này thí sinh đạt 90% câu trả lời đúng (số câu hỏi thực hiện 4/10 câu).

- Đối với học phần bằng 3, ƣớc lƣợng năng lực ban đầu của thí sinh ở độ khó bằng 1, thí sinh trả lời sai chọn câu còn lại có độ khó bằng 1, và tại đây thí sinh trả lời sai => thí sinh đạt 0% câu trả lời đúng (số câu hỏi thực hiện 2/10 câu).

- Đối với học phần bằng 4 tƣơng tự nhƣ 1 (số câu hỏi thực hiện 2/10 câu) Kết luận bài test thí sinh đạt (10+90+0+10)%/4=27,75%  3 điểm

*) Sinh viên Nguyễn Ngọc Tú

Bài test đầy đủ của thí sinh này (xem phụ lục 2B)

Kết quả thí sinh Nguyễn Ngọc Tú thực hiện bài test này nhƣ sau:

- Đối với học phần bằng 1, ƣớc lƣợng năng lực ban đầu của thí sinh ở độ khó bằng 1 thí sinh trả lời đúng câu hỏi đầu tiên, ƣớc lƣợng năng lực tiếp theo có thể đạt tới ở mức độ khó của câu hỏi bằng 3 thí sinh trả lời đúng => tăng độ khó câu hỏi lên 5, và tại đây thí sinh cũng trả lời đúng (vì là độ khó tối đa) nên thực hiện tiếp câu hỏi có độ khó bằng 5 còn lại và thí sinh trả lời sai => ở

học phần này thí sinh đạt 90% câu trả lời đúng (số câu hỏi thực hiện 4/10 câu).

- Đối với học phần 2, 3 cũng tƣơng tự học phần 1 thí sinh đạt 100% kiến thức về phần này (số câu hỏi thực hiện 4/10 câu).

- Đối với học phần bằng 4, ƣớc lƣợng năng lực ban đầu của thí sinh ở độ khó bằng 1 thí sinh trả lời đúng, tăng độ khó của câu hỏi lên 3, tại đây thí sinh trả lời sai => giảm độ khó của câu hỏi về 2, ở mức này thí sinh tiếp tục trả lời sai, tiếp tục giảm độ khó về 1, và thí sinh trả lời đúng => tăng độ khó của câu hỏi tiếp theo lên 2, tại đây thí sinh trả lời đúng => học phần này thí sinh đạt 30% câu trả lời đúng (số câu hỏi thực hiện 5/10 câu).

Kết luận bài test thí sinh đạt (90 + 100 + 100 + 30)%/4 = 80% = 8 điểm

Nhận xét kết quả:

+ Nhận xét chung:

Nhìn chung sử dụng phƣơng pháp trắc nghiệm này số câu hỏi của thí sinh trong bài thi là ngắn, thí sinh không phải làm bài thi đối với các câu hỏi quá khó (Nguyễn Thị Hƣờng, học phần 1, 3, 4) hoặc làm các câu hỏi quá dễ (Nguyễn Ngọc Tú học phần 1, 2, 3).

Việc sinh ra bài Test đầy đủ tránh đƣợc sự tắc nghẽn đƣờng truyền mạng vì thí sinh làm bài trên bài test đầy đủ này và sau khi kết thúc bài test mới cập nhật kết quả vào cơ sở dữ liệu.

+ Về câu hỏi: Số câu hỏi của mỗi thí sinh làm bài là khác nhau phụ thuộc vào năng lực của thí sinh. Đối với bài test thông thƣờng thí sinh phải làm hết 40 câu hỏi nhƣng với trắc nghiệm thí nghi thì ít hơn nhiều mà vẫn đo đƣợc năng lực của thí sinh.

+ Về năng lực thí sinh:

Năng lực thí sinh đƣợc đánh giá thông qua độ khó của câu hỏi trong từng học phần mà thí sinh trả lời đƣợc, các giá trị năng lực đƣợc chọn là bằng với độ khó của câu hỏi (từ 1 đến 5), nếu độ khó cao hơn mà thí sinh trả lời đƣợc thì câu hỏi có độ khó thấp hơn thí sinh cũng trả lời đƣợc.

KẾT LUẬN

Mặc dù trắc nghiệm thích nghi không phải là một vấn đề mới ở trên thế giới, nó đã hình thành rất lâu, nhƣng nó chỉ thực sự bắt đầu phát triển từ những năm 80 khi mà máy tính trở nên phát triển và đủ mạnh. Nhƣng cho đến nay trắc nghiệm thích nghi vẫn đang đƣợc xây dựng và chuẩn hóa dần dần để đƣợc đƣa vào ứng dụng và có một số các tổ chức đã sử dụng phƣơng pháp này để tổ chức các kỳ thi sát hạch.

Ở Việt Nam trắc nghiệm thích nghi trên máy tính cho đến nay vẫn chỉ là một điều mới mẻ, chƣa có tác giả nào nghiên cứu đi sâu vào vấn đề này. Qua đó luận văn này tập trung nghiên cứu, tìm hiểu về trắc nghiệm thích nghi. Các kết quả cụ thể đã đạt đƣợc là:

- Hệ thống hóa các cơ sở lý thuyết về trắc nghiệm thích nghi trên máy tính. - Nghiên cứu về trắc nghiệm thích nghi có ràng buộc: đây là phƣơng pháp để duy trì tính hợp lệ của bài trắc nghiệm với việc lựa chọn câu hỏi có ràng buộc thông qua bài trắc nghiệm đầy đủ trung gian (trắc nghiệm ẩn) khi đó thực hiện trắc nghiệm thích nghi trên bài trắc nghiệm đầy đủ này, bài trắc nghiệm ẩn đạt đƣợc tất cả các ràng buộc thì trắc nghiệm thích nghi cũng tự động đạt đƣợc.

- Nghiên cứu về trắc nghiệm thích nghi với việc sinh ra các câu hỏi dựa vào quy tắc để tránh đƣợc việc cạn kiệt ý tƣởng mới cho câu hỏi tƣơng đƣơng mà vẫn đảm bảo đƣợc tính bảo mật của hệ thống.

- Nghiên cứu về sử dụng các thời gian ứng đáp (RT) trong trắc nghiệm thích nghi: đó là khai thác các RT đƣợc ghi lại trong thời gian kiểm tra để từ đó đƣa ràng buộc vào bài test sao cho ƣớc lƣợng tổng thời gian còn lại của các câu hỏi cần làm không lớn hơn thời gian còn lại của bài test, và ƣớc lƣợng năng lực của thí sinh dựa vào thời gian họ làm bài.

- Tìm hiểu về các công cụ và các chuẩn hỗ trợ trắc nghiệm thích nghi.

- Luận văn đƣa ra đƣợc mô phỏng trắc nghiệm thích nghi với ngân hàng câu hỏi đã đƣợc định cỡ. Mô phỏng này mới dừng ở mức ngân hàng câu hỏi toàn dạng câu hỏi có nhiều lựa chọn, và việc tính điểm vẫn dựa trên tính điểm thô.

Từ các kết quả trên có thể thấy trắc nghiệm thích nghi với máy tính hỗ trợ là một phƣơng pháp hiện đại có thể đánh giá đúng năng lực của học viên, đồng thời phù hợp với xu hƣớng triển khai e-learning và hạ tầng CNTT trong nƣớc hiện nay.

Hƣớng nghiên cứu tiếp theo của chúng tôi là tìm hiểu về phƣơng pháp trắc nghiệm thích nghi đa chiều. Đồng thời, chúng tôi cũng mong muốn hoàn thiện hệ thống sát hạch bằng trắc nghiệm thích nghi có ứng dụng lý thuyết ứng đáp câu hỏi để có thể đƣa vào ứng dụng thực tế ở Việt Nam.

TÀI LIỆU THAM KHẢO * Tài liệu Tiếng Việt

[1] Phùng Chí Dũng (2006), Nghiên cứu mô hình chia sẻ nội dung động cho đào tạo điện tử, Luận văn thạc sỹ, Trƣờng Đại học Công nghệ.

[2] Nguyễn Thị Thắm (2006), Lý thuyết trắc nghiệm và ứng dụng trong trắc nghiệm trực tuyến, Luận văn thạc sỹ, Trƣờng Đại học Công nghệ.

[3] Lâm Quang Thiệp (1995), Trắc nghiệm và đo lường cơ bản trong giáo dục, Bộ Giáo dục và Đào tạo.

[4] Tổng quan về e-learning http://el.edu.net.vn/docs/

* Tài liệu Tiếng Anh

[5] Angel Syang (1993), “COMPUTERIZED ADAPTIVE TESTING IN COMPUTER SCIENCE : Assessing Student Programming Abilities”, ACM- 24thCSE-2/93 -lN,USA, ACM 0-89791 -566 -6/93 /000210053, pp.53-57. [6] Binet, A., & Simon, Th. A. (1905). Méthodes nouvelles pour le diagnostic du

niveau intellectual des anormoux [New methods for the diagnosis of abnormal levels of intellect]. L’Anneé Psychologie, 11, 191–336.

[7] Brown, J.M., & Weiss, D.J. (1977). An adaptive testing strategy for achievement test batteries (Research report 77–6). Minneapolis, MN: University of Minnesota, Psychometric Methods Program.

[8] Eduardo Guzmán, Ricardo Conejo, Eva Millán, Mónica Trella, José Luis Pérez-De-La-Cruz & Antonia Ríos (2004). “SIETTE: A Web–Based Tool for Adaptive Testing”, International Journal of Artificial Intelligence in Education, 14, pp. 1 -33.

[9] Eduardo Guzmán, Ricardo Conejo and Emilio García-Hervás (2005). “An Authoring Environment for Adaptive Testing”. Educational Technology & Society, 8 (3), PP 66-76.

[10] Elena García, Miguel-Ángel Sicilia, José-Ramón Hilera, José-Antonio 14aaGutiérrez (2002), “Extending Question & Test Learning Technology Specifications with Enhanced Questionnaire Models”, International

Conference on Information Technology Based Higher Education and Training ITHET, Budapet.

[11] Freund, Ph. A., Hofer, S., & Holling, H. (in press). Explaining and controlling for the psychometric properties of computer-generated figural matrix items.

Applied Psychological Measurement.

[12] John Michael Linacre, Ph.D.MESA Psychometric LaboratoryUniversity of Chicago (2000), “Computer-Adaptive Testing: A Methodology Whose Time Has Come”, Seoul, South Korea: Komesa Press.

[13] Glas, C.A.W., & van der Linden, W.J. (2001). Modeling variability in item parameters in item response models (Research report 01–11). Enschede, The Netherlands: University of Twente.

[14] Glas, C.A.W., & van der Linden, W.J. (2003). Computerized adaptive testing with item cloning. Applied Psychological Measurement, 27, 247–261.

[15] Hively, W., Patterson, H.L., & Page, S.H. (1968). A “universedefined” system of arithmetic achievement items. Journal of Educational Measurement, 5, 275– 290.

[16] Lilia Cheniti-Belcadhi (2007), “ Assessment personalization in the semantic web, Doctor of Philosophy In the Computer Sciences College, french.

[17] Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Chicago: University of Chicago Press.

[18] Reckase, M.D. (1974) An interactive computer program for tailored testing based on the one-parameter logistic model. Behavior Research Methods and Instrumentation 6(2): 208-212

[19] Sinharay, S., Johnson, M.S., & Williamson, D.M. (2003). Calibrating item families and summarizing the results using family expected response functions.

Journal of Educational and Behavioral Statistics, 28, 295–313

[20] Wim J.van der Linder (2006). A lognormal model for response times on test items. Journal of Educational and Behavioral Statistics, 31, 181–204.

[21] Wim J.van der Linder (2007). Sequencing an adaptive testing battery. Submitted for publication.

[22] Wim J.van der Linder, Bernard P.Veldkamp (2008). Implementing Sympson- Hetter Item-Exposure Control in a Shadow-Test Approach to Constrained Adaptive Testing, International Journal of Testing, 8: 272–289,

[23] Wim J.van der Linder (2008b). Using response times for item selection in adaptive testing. Journal of Educational and Behavioral Statistics, 33. In press. [24] Wim J.van der Linder (2008), “some new developments in adaptive Testing

Technology”, journal of psychology: vol. 216 (1), pp. 3-11.

[25] W.P. Lee and A.Goh (2004), “Setting and Sharing Web-Based Assessments”,

Web Based Education Proceeding (416), pp.270-274.

[26] http://bugs.sakaiproject.org/jira/browse/SAK-1891 - QTI import of Respondus-generated question – Sakai

[27] http://library.blackboard.com/docs/cp/learning_system/release6/ instructor/_Microsoft_LRN_Content.ht

[28] http://en.wikipedia.org/wiki/Computer-adaptive_test

[29] Advanced distributed learning, (2004), SCORM 2004 Overview, http://www.adlnet.org/.

[30] Advanced distributed learning, (2004), SCORM CAM, http://www.adlnet.org/.

[31] http://www.imsglobal.org/xsd/imsqti_v2p0.

PHỤ LỤC

PHỤ LỤC 1A Mô tả câu hỏi đa lựa chọn bằng xml

<?xml version="1.0" encoding="UTF-8" ?>

- <assessmentItem xmlns="http://www.imsglobal.org/xsd/imsqti_item_v2p0"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.imsglobal.org/xsd/imsqti_item_v2p0

imsqti_item_v2p0.xsd" identifier="choice" title="Máy in" adaptive="True"

timeDependent="false">

- <responseDeclaration identifier="RESPONSE" cardinality="single" baseType="identifier">

- <correctResponse>

<value>ChoiceC</value>

</correctResponse>

</responseDeclaration>

- <outcomeDeclaration identifier="SCORE" cardinality="single" baseType="integer"> - <defaultValue> <value>0</value> </defaultValue>

Mô hình hệ thống trắc nghiệm thích nghi

Giới thiệu chung về đặc tả QTI

Các tài liệu trong đặc tả QTI