Phát triển hệ thống trắc nghiệm thích ứng trên máy tính: Nghiên cứu thử nghiệm đánh giá năng lực toán học của học sinh lớp 10

15 129 0
Phát triển hệ thống trắc nghiệm thích ứng trên máy tính: Nghiên cứu thử nghiệm đánh giá năng lực toán học của học sinh lớp 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu cũng tiến hành xây dựng ngân hàng gồm 500 câu hỏi trắc nghiệm thích ứng được chuẩn hóa theo lý thuyết IRT với điều kiện độ khó tuân theo phân phối chuẩn thỏa mãn kiểm định Kolmogorov-Smirnov, để đánh giá năng lực toán học của học sinh lớp 10.

VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Original Article Developing Computerized Adaptive Testing: An Experimental Research on Assessing the Mathematical Ability of 10th Graders Le Thai Hung1, Tang Thi Thuy1, Tran Lan Anh1, Nguyen Tien Dung2, Nguyen Phuong Anh2, Nguyen Thi Quynh Giang3,* Faculty of Quality Management, VNU University of Education, 144 Xuan Thuy, Cau Giay, Hanoi, Vietnam High school of Education Sciences, VNU University of Education, 144 Xuan Thuy, Cau Giay, Hanoi, Vietnam Viettel Digital Service Corporation, 01 Giang Van Minh, Kim Ma, Ba Dinh, Hanoi, Vietnam Received 23 September 2019 Revised 12 October 2019; Accepted 28 October 2019 Abstract: Computerized Adaptive Testing (CAT) is a form of assessment test which requires fewer test questions to arrive at precise measurements of examinees' ability One of the core technical components in building a CAT is mathematical algorithms which estimate examinees’ ability and select the most appropriate test questions for the estimation Mathematical algorithms serve as a locomotive in operating the system of adaptive multiple-choice questions on computers This research aims to develop essential mathematical algorithms for a computerized system of adaptive multiple-choice tests A question bank of 500 multiple-choice questions standardized by IRT theory with the difficulty level following the normal distribution satisfying KolmogorovSmirnov test, to measure the mathematical ability of 10th graders is also built The experimenting of the question bank shows that it satisfies the requirements of a psychometric model and the constructed mathematical algorithms meet the criteria for applying in computerized adaptive testing Keywords: Computerized Adaptive Testing, ability measurement, mathematical ability, IRT * _ * Corresponding author E-mail address: qgiang.nguyen@gmail.com https://doi.org/10.25073/2588-1159/vnuer.4301 49 VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Phát triển hệ thống trắc nghiệm thích ứng máy tính: Nghiên cứu thử nghiệm đánh giá lực toán học học sinh lớp 10 Lê Thái Hưng1, Tăng Thị Thuỳ1, Trần Lan Anh1, Nguyễn Tiến Dũng2, Nguyễn Phương Anh2, Nguyễn Thị Quỳnh Giang3,* Khoa Quản trị Chất lượng, Trường Đại học Giáo dục, Đại học Quốc gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam Trường Trung học phổ thông Khoa học Giáo dục, Trường Đại học Giáo dục, Đại học Quốc gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam Tổng công ty Dịch vụ số Viettel, Số Giang Văn Minh, Kim Mã, Ba Bình, Hà Nội, Việt Nam Nhận ngày 23 tháng năm 2019 Chỉnh sửa ngày 12 tháng 10 năm 2019; Chấp nhận đăng ngày 28 tháng 10 năm 2019 Tóm tắt: Trắc nghiệm thích ứng máy tính (Computerized Adaptive Testing - CAT) hình thức kiểm tra đánh giá cho phép rút ngắn số lượng câu hỏi đảm bảo độ xác đánh giá lực thí sinh Một phần cốt lõi hệ thống trắc nghiệm thích nghi thuật tốn ước lượng lực thí sinh lựa chọn câu hỏi Các thuật tốn đóng vai trò quan trọng q trình vận hành hệ thống trắc nghiệm thích nghi máy tính Nghiên cứu phát triển thuật toán cốt lõi hệ thống trắc nghiệm thích nghi từ lập trình hệ thống trắc nghiệm thích ứng Nghiên cứu tiến hành xây dựng ngân hàng gồm 500 câu hỏi trắc nghiệm thích ứng chuẩn hố theo lý thuyết IRT với điều kiện độ khó tuân theo phân phối chuẩn thoả mãn kiểm định Kolmogorov-Smirnov, để đánh giá lực toán học học sinh lớp 10 Kết vận hành thử nghiệm với hệ thống ngân hàng câu hỏi bước đầu cho thấy: câu hỏi xây dựng đáp ứng u cầu mơ hình ước lượng lực thuật toán cốt lõi đáp ứng u cầu trắc nghiệm thích ứng Từ khóa: Trắc nghiệm thích ứng máy tính, đánh giá lực, lực toán học, IRT câu hỏi [1], đươc thử nghiệm ASVAB (Armed Services Vocational Aptitude Battery) với kiểm tra thích ứng lực cá nhân Từ năm 1979 - 1996, Trung tâm Nghiên cứu Phát triển Nhân lực Hải quân (NPRDC) phát triển, triển khai mơ hình đánh giá CAT-ASVAB việc xây dựng ngân hàng trắc nghiệm chuẩn hóa quy mô lớn với người tuyển dụng vào quân đội Một số Mở đầu * Trắc nghiệm thích ứng máy tính (CAT) phát triển vào năm 1960 sau có phát triển mơ hình Rasch lý thuyết ứng đáp _ * Tác giả liên hệ Địa email: qgiang.nguyen@gmail.com https://doi.org/10.25073/2588-1159/vnuer.4301 50 L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 nhà khoa học Anh, Reckase [2]; Bejar Weiss [3] nghiên cứu nhiều báo cáo mơ hình đánh giá CAT mơ hình đánh giá truyền thống giấy tương đương kết phân tích Trên giới, có nhiều nghiên cứu cho thấy hiệu việc sử dụng CAT đánh giá người học Một số kì thi sử dụng CAT: trắc nghiệm thích ứng tốn học (CAT-Math) đọc (CAT-Reading); CAT đánh giá độ thành thạo ngôn ngữ: tiếng Tây Ban Nha, tiếng Ả Rập Trung Quốc thực Kenyon Malabonga (2001) [4]; CATEnglish thử nghiệm Thái Lan với đa số sinh viên họ hài lòng với kiểm tra tỏ thích thú với hình thức CAT Một ưu CAT tổ chức đánh giá đồng thời diện rộng với số lượng lớn học sinh tham gia làm hệ thống máy tính kết nối mạng Hơn nữa, CAT cho phép phân tích số lực thí sinh sau thí sinh trả lời câu hỏi thông tin lực học sinh cập nhật thường xuyên trình làm đo lực thực họ CAT khơng giúp đánh giá xác lực mà đưa thơng tin đầy đủ tồn diện lực học sinh thời điểm đánh giá Kết sở quan trọng triển khai mơ hình học tập thích ứng, xu quan tâm giáo dục Kết đánh giá thích ứng học sinh cung cấp thông tin cho người dạy suốt trình học tập để người dạy đưa định phù hợp Hệ thống trắc nghiệm thích ứng giúp người học chủ động tham gia đánh giá nhận kết thời điểm để có chiến lược học tập phù hợp Tại Việt Nam, nghiên cứu CAT chưa phổ biến, cơng trình chủ yếu nghiên cứu sở lí luận đưa khung lí thuyết xây dựng trắc nghiệm thích nghi máy tính mà chưa xây dựng sở liệu để dùng CAT đánh giá người học Vì vậy, CAT chưa đưa để sử dụng rộng rãi đánh giá lực người học Bài báo tập trung trình bày kết nghiên cứu phát triển hệ thống đánh giá thích ứng từ việc lựa chọn phát triển thuật toán, xây dựng hệ 51 thống website, xây dựng ngân hàng 500 câu hỏi trắc nghiệm thích ứng mơn Tốn lớp 10 thực nghiệm để kiểm nghiệm lại mơ hình thuật tốn Ngun lý đánh giá thích ứng Trắc nghiệm thích ứng, tiếng Anh gọi “Adaptive Test” thuật ngữ để phương pháp đánh giá thí sinh (học sinh, sinh viên, bệnh nhân, …) hình thức kiểm tra trắc nghiệm với mục đích đánh giá theo hướng lực thông qua câu hỏi tương ứng với mức lực thí sinh Hệ thống Trắc nghiệm thích ứng hệ thống phần mềm phát triển sở mơ hình Trắc nghiệm thích ứng để đánh giá thí sinh Về hoạt động, ta hình dung hệ thống Trắc nghiệm thích ứng cố gắng bắt chước phương pháp đánh giá người giáo viên học sinh Cụ thể, lần hệ thống mặc định lực học sinh chuẩn trung bình cung cấp cho thí sinh câu hỏi khó trung bình Nếu thí sinh trả lời câu trả lời cách xác, sau câu hỏi khó đề nghị khơng câu hỏi có độ khó thấp đề nghị Quá trình nên lặp lặp lại có đủ chứng để xác định trình độ kiến thức thí sinh Trong Trắc nghiệm thích ứng, q trình thực cách tự động Ban đầu tạm thời ước lượng mức lực thí sinh, sau đặt câu hỏi thí sinh trả lời Một ước lượng lực thí sinh tính tốn lại Với ước tính này, câu hỏi chọn cách xác Ta xem Trắc nghiệm thích ứng thuật tốn lặp với thơng số đầu vào ước tính ban đầu mức độ lực thí sinh Quy trình để triển khai trắc nghiệm thích ứng Nathan A Thompson đưa sau [5]: Giai đoạn Phát triển ngân hàng câu hỏi hệ thống trắc nghiệm thích ứng Giai đoạn Thực đánh giá theo bước: Bước 1: Lựa chọn câu hỏi bắt đầu trình đánh giá; 52 L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Bước Câu hỏi phù hợp với lực thí sinh đưa thí sinh trả lời câu hỏi đó; Bước Theo kết câu trả lời thí sinh, ước lượng mức độ lực tính tốn; Bước Quay lại Bước điều kiện dừng Trắc nghiệm thích ứng chưa thỏa mãn Bước Kết thúc trình đánh giá điều kiện dừng Trắc nghiệm thích ứng thoả mãn hợp với khả thí sinh khó khăn phải tính tốn cách tối ưu Bên cạnh ngân hàng câu hỏi chuẩn hố theo lý thuyết ứng đáp câu hỏi cần xây dựng Số câu hỏi ngân hàng cần đủ lớn để đạt phân bố chuẩn với tham số độ khó Xây dựng thuật tốn cốt lõi hệ thống trắc nghiệm thích ứng Các phương pháp phổ biến ước lượng lực θ bao gồm: ước lượng hợp lý cực đại (Maximum-Likelihood), ước lượng hậu nghiệm cực đại (Maximum a posteriori) ước lượng hậu nghiệm trung bình (Expected a posteriori estimator) Tất phương pháp mô tả rõ Lord (1986), Mislevy (1986) Loại ước lượng mà sử dụng nghiên cứu ước lượng hậu nghiệm cực đại Dưới mơ tả kỹ ước lượng thuật tốn để tìm ước lượng 3.1 Hàm biến cố hợp lý cực đại ước lượng hậu nghiệm cực đại Hàm biến cố hợp lý cực đại ứng với k-1 câu hỏi cho bởi: Hình Quy trình triển khai CAT Do vậy, mơ hình Trắc nghiệm thích ứng: thuật toán lựa chọn câu hỏi phù (1) Ở Pi xác suất trả lời câu hỏi thứ i cho công thức sau theo lý thuyết IRT [6]: Pi    P  X i  1/  , , bi , ci   ci  1  ci  Các ước lượng Bayes xem tham số cần ước lượng biến ngẫu nhiên số Tham số cần ước lượng gắn với phân bố ban đầu Ước lượng kiểu Bayes sử dụng mà liệu sau ước lượng cải thiện tốt có thêm liệu Trong suy diễn Bayes, ban đầu ta giả sử θ tuân theo phân bố gọi phân bố tiên nghiệm (prior distribution) f (θ) exp    bi    exp    bi   (2) Sau dựa vào phân bố tiên nghiệm hàm hợp lý cực đại ta suy phân bố hậu nghiệm tham số θ: g  / X , , X k 1   f   L  / X , , X k 1  (3) f   L  / X , , X k 1  d Trong suy diễn Bayes, ước lượng phân phối hậu nghiệm cực đại (Maximum a L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Posteriori Estimator- MAP) giới thiệu IRT sách Lord (1986) [7] cho công thức sau: (4) Muốn tìm ta chuyển tốn từ tìm maximum hàm Nếu ta chọn phân bố tiên nghiệm θ phân bố chuẩn với trung bình 0, độ lệch chuẩn Khi ta có: (5) Ở C số Để tìm maximum ta dùng thuật tốn “Gradient Descent” mơ tả 3.2 Thuật tốn Gradient Descent Thuật toán Gradient Descent thuật toán hiệu dùng để tìm điểm cực trị hàm số mà giải phương trình đạo hàm phức tạp (Vũ Hữu Tiệp, 2018) [8] Giả sử ta muốn tìm cực tiểu hàm biến f(x) Ta mơ tả sơ lược thuật tốn sau: từ điểm đồ thị x, ta cố gắng di chuyển điểm x điểm mà f(x) đạt giá trị cực tiểu, ký hiệu x* Điểm x di chuyển theo hướng ngược với dấu đạo hàm trường hợp ta muốn tìm cực tiểu Vì giả sử f'(x)>0, x nằm phía bên phải so với x*, x phải giảm để tiến tới x* Ngược lại f'(x)0.05 nên giả thuyết Ho thoả mãn, nên độ khó 500 câu hỏi tuân theo phân phối chuẩn Kết vận hành hệ thống trắc nghiệm thích ứng Tác giả tiến hành nhập câu hỏi cho thí sinh làm hệ thống để kiểm nghiệm lại tính đắn thuật tốn ngân hàng câu 60 L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 hỏi trắc nghiệm thích ứng đánh lực Tốn học, số kết điển hình Kết thi thí sinh có lực θ=1 cho ta ước lượng lực thí sinh sau 22 câu hỏi =1.068 Điểm lực đổi sang điểm thô cách sử dụng hàm phân phối phân bố chuẩn Ta tính: phát triển Từ cho phép ta khẳng định tính xác hệ thống trắc nghiệm thích ứng (11) Điều có nghĩa THÍ SINH làm 85.72% thi tiêu chuẩn Đổi sang thang điểm 100 ta nhân giá trị với 100 điểm THÍ SINH 85.72 Nhìn vào hình ta thấy kết thi hệ thống trắc nghiệm thích ứng hồn tồn trùng khớp với kết mô phần mềm R cơng bố trước [11] Kết cho thấy, thí sinh làm đến câu hỏi thứ 22 thoả mãn điều kiện dừng theo mơ hình lý CAT Biểu đồ Mơ CAT với thí sinh có lực θ=1 (Giang cs, 2018) j Hình Kết thi thí sinh có mức lực L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 61 k Để khẳng định mức độ xác hệ thống, ta kiểm tra thêm hai trường hợp: trường hợp thí sinh trả lời tất câu hỏi trường hợp thí sinh trả lời sai tất câu hỏi Kết thi thí sinh tương ứng cho hình hình Trường hợp thí sinh trả lời sai tất câu hỏi điểm thi cuối thí sinh 0.01 thang điểm 100 Ngược lại trường hợp thí sinh trả lời tất câu hỏi điểm thi cuối thí sinh 99.99 thang điểm 100 Kết cho thấy ứng với thí sinh có lực khác nhau, số lượng câu hỏi cần trả lời hệ thống khác Hình Kết thi thí sinh có mức lực 62 L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Hình Kết thi thí sinh có mức lực tốt Kết luận Hệ thống trắc nghiệm thích ứng xây dựng thử nghiệm ngân hàng 500 câu hỏi trắc nghiệm đánh giá lực Tốn học với độ khó đáp ứng phân phối chuẩn miền từ [-3, +3,5] So sánh với kết mô cho thấy kết chạy hệ thống trắc nghiệm thích ứng hồn tồn trùng khớp với kết mơ với phần mềm R Từ khẳng định tính chuẩn xác thuật toán hệ thống L.T Hung et al / VNU Journal of Science: Education Research, Vol 35, No (2019) 49-63 Với ngân hàng câu hỏi xây dựng đạt chuẩn chất lượng, hệ thống trắc nghiệm thích ứng cho phép rút ngắn thời gian làm thí sinh thí sinh mà đạt độ chuẩn xác Hệ thống trắc nghiệm thích ứng có tính giúp giáo viên dễ dàng quản lý ngân hàng câu hỏi, quản lý thí sinh thu thập kết thi thí sinh cách tự động Từ giúp giáo viên dễ dàng theo dõi tiến học sinh có trợ giúp kịp thời Nghiên cứu tạo tiền đề để phát triển hệ thống đánh giá thích ứng kết hợp dạy học phân hố cho người học khơng mơn Tốn mà mơn học khác nhóm lực kĩ liên quan xác định rõ ràng, đánh giá Mặt khác để có hệ thống đánh giá thích ứng tốt, ngồi việc phát triển thuật tốn phần mềm phần trọng tâm xây dựng ngân hàng câu hỏi chuẩn hoá theo lý thuyết IRT, cơng việc đòi hiểu nhiều cơng sức giáo viên có kinh nghiệm giảng dạy am hiểu kiểm tra đánh giá Lời cảm ơn Kết nghiên cứu trình bày tài trợ đề tài nghiên cứu khoa học mã số QS.17.14 QS.17.15 trường Đại học Giáo dục thực nhóm nghiên cứu Khoa Quản trị Chất lượng, Trường Đại học Giáo dục 3 63 Tài liệu tham khảo [1] Rod Powers, Jennifer Lawler, ASVAB For Dummies, John Wiley @Sons Published house, 2007 [2] M.D Reckase, Item pool design for computerized adaptive tests, Paper presented at annual meeting of the National Council on Measurement in Education, Chicago, IL, 2003 [3] D.J Weiss, G.G Kingsbury, Application of computerized adaptive testing to educational problems Journal of Educational Measurement 21 (1984) 361-375 [4] A Carol, Chapelle, Shannon Sauro, The Handbook of Technology and Second Language Teaching and Learning, John Wiley & Sons, 2017 [5] Thompson, A Nathan, Weiss, A David, A Framework for the Development of Computerized Adaptive Tests Practical Assessment, Research & Evaluation, 16 (1) Available online: http://pareonline.net/getvn.asp?v=16&n=1/, 2011 [6] Lam Quang Thiep, Measurement and Evaluation in Education: Theory and Application, VNU Publishing house, 2011 (in Vietnamese) [7] F.M Lord, Maximum likelihood and Bayesian parameter estimation in item response theory, Journal of Educational Measurement 23 (1986) 157-162 [8] Vu Huu Tiep, Basic Machine Learning, Scientific and Technical Publishing, 2018 (Vietnamese) [9] ECD, PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science, Problem Solving and Financial Literacy, OECD Publishing, 2013 [10] Alper Şahin, David J Weiss, Effects of Calibration Sample Size and Item Bank Size on Ability Estimation in Computerized Adaptive Testing, Educational Sciences: Theory & Practice, 2015 [11] Nguyen Thuy Giang, Le Thai Hung, Simulate an Computerized Adaptive Testing with R, Vietnam Education Journal 11 (2018) 6-11 (in Vietnamese) ... Education Research, Vol 35, No (2019) 49-63 Phát triển hệ thống trắc nghiệm thích ứng máy tính: Nghiên cứu thử nghiệm đánh giá lực toán học học sinh lớp 10 Lê Thái Hưng1, Tăng Thị Thuỳ1, Trần Lan... ứng hệ thống phần mềm phát triển sở mơ hình Trắc nghiệm thích ứng để đánh giá thí sinh Về hoạt động, ta hình dung hệ thống Trắc nghiệm thích ứng cố gắng bắt chước phương pháp đánh giá người giáo... Dựa theo nghiên cứu trước [10] cỡ ngân hàng trắc nghiệm CAT, phát triển 500 câu hỏi trắc nghiệm thích ứng đánh giá lực tốn học học sinh lớp 10 Dưới trình bày kết phân tích 01 đề thử nghiệm theo

Ngày đăng: 13/01/2020, 10:40

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan