Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi trắc nghiệm

4 38 0
Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi trắc nghiệm

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mục tiêu của nghiên cứu này áp dụng cả ý kiến chuyên gia (phản hồi nhận xét từ giảng viên) và ý kiến của cộng đồng (người dự thi) nhằm đưa ra một cách giải quyết việc trộn đề thi từ cách phân bố ngẫu nhiên chuyển sang phân bố có chủ đích nhằm đạt đến mục tiêu đảm bảo giữa hai đề thi có độ khó tương đương nhau.

54 Đặng Thái Thịnh ỨNG DỤNG THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐỂ KHAI THÁC KẾT QUẢ THI NHẰM CHUẨN HÓA CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM ENHANCING THE QUALITY OF MULTIPLE-CHOICE TESTS USING CLUSTERING ALGORITHM TO MINE TEST RESULTS Đặng Thái Thịnh Trường Đại học Kinh tế TP Hồ Chí Minh; thinhdt@ueh.edu.vn Tóm tắt - Cơng tác đề thi phụ thuộc hoàn toàn vào ý chí chủ quan cá nhân giảng viên hội đồng đề thi Đề thi phát sinh từ phần mềm thi trắc nghiệm chủ yếu xác lập cách lấy ngẫu nhiên nhóm câu hỏi Tuy nhiên, kết thực tế từ thí sinh phản ánh không quan điểm nhận xét trước người đề thi Mục tiêu nghiên cứu áp dụng ý kiến chuyên gia (phản hồi nhận xét từ giảng viên) ý kiến cộng đồng (người dự thi) nhằm đưa cách giải việc trộn đề thi từ cách phân bố ngẫu nhiên chuyển sang phân bố có chủ đích nhằm đạt đến mục tiêu đảm bảo hai đề thi có độ khó tương đương Thuật tốn phân cụm q trình phân bố đề thi sau phân cụm đề xuất để khai thác liệu kết thi Thực nghiệm triển khai Trường Đại học Kinh tế TP Hồ Chí Minh phản ánh kết nghiên cứu Abstract - Currently, working out exam papers depend alm ost entirely on the subjective opinions of individual faculty mem bers or the exam boards Multiple test software has given test questions mainly taken random ly from the question groups However, in som e situations, test results from test takers might not reflect the teacher’s opinions correctly This research aims to use rating from teachers and mining from test results in the past to generate new tests with equal level of difficulty Clustering algorithm combined with proposed test question distribution is used in this study to mine data of test results The experiment implemented in Ho Chi Minh University of Econom ics has reflected the result of the research Từ khóa - khai phá liệu; phân cụm liệu; khai thác kết thi; trộn đề đề thi; chất lượng đề thi Key words - data mining; data clustering; m ining test results; m ixing test questions; quality of tests Đặt vấn đề quan giảng viên sai, việc đánh giá lại liệu thật đối tượng dự thi khác giúp người đề có nhiều thơng tin để định lần sau, định có hỗ trợ máy móc để tạo báo cáo cho người định [2] Hiện cách thức biểu diễn đề thi chủ yếu phụ thuộc vào phân cấp theo [1], node chứa nhiều câu hỏi Mỗi node tượng trưng cho nhóm câu hỏi Khi trộn đề, người giảng viên chia tỷ lệ chọn lựa câu hỏi nhóm để có đề thi Quá trình lặp lặp lại để sinh nhiều đề thi Ưu điểm cách trộn đề thi giữ cấu trúc định nghĩa trước số lượng câu hỏi node (phần/chương/mục) Tuy nhiên với cách truyền thống này, việc chọn câu hỏi node mang tính chất ngẫu nhiên, vậy: ‐ ‐ Khơng thể độ khó tương đương đề thi với nhau; Sự trùng lắp nhiều câu hỏi đề thi xảy cách chọn ngẫu nhiên Một số cách thức xây dựng ngân hàng câu hỏi có phân loại theo mức độ “khó”, “dễ”, “trung bình” hoăc phân loại theo nhóm câu hỏi thuộc “phân tích”, “kiến thức” hay “kỹ năng” tồn số sách nhà xuất Pearson giống tương tự cách đề cập trên, nghĩa chia nhỏ số lượng node làm cho người giảng viên vất vả trình xác định số lượng câu hỏi phân hóa đề thi [5] Nghiên cứu nhằm đưa cách tiếp cận kết hợp cách phân nhóm câu hỏi, đưa ý kiến chuyên gia vào câu hỏi với ý kiến thụ động đại đa số người dự thi nhằm tự động phân loại điều chỉnh cách thức chọn câu hỏi để đạt đến mục tiêu giảm thiểu trùng lắp câu hỏi đề thi, đảm bảo độ khó tương đương đề thi với Ứng dụng trường học, phương pháp vừa đề cập cách tổ chức phổ biến Việc khai thác kết thi giúp giảng viên xem xét lại cách đánh giá qua ngân hàng đề thi Sự đánh giá câu hỏi chủ Phân tích đề xuất thuật tốn 2.1 Dữ liệu đầu vào Bước 1: Xây dựng ngân hàng câu hỏi Bước 2: Phân nhóm câu hỏi theo phần/ chương/ mục Bước 3: Giảng viên đánh giá mức độ khó/dễ (như ví dụ bảng 3) cho câu hỏi ngân hàng đề thi thang điểm giá trị thập phân từ đến (tri thức chuyên gia) Trong khó số nhỏ (gần 0), dễ số cao (gần 1) Khơng nên đánh giá (câu hỏi trả lời đúng) (câu hỏi trả lời sai) câu hỏi khơng có tính phân loại Mỗi câu hỏi mang thi nhiều lần, thí sinh lần thi xảy trường hợp: là, đánh đúng; hai là, đánh sai Tất lịch sử lưu trữ lại Từ liệu ta tính được: ỷ ệ ả đú â ỏ ổ ố ầ ổ ả đú ố ầ ả â â Giá trị tính từ đến Q trình gọi trình học từ thực tiễn, kết ta có dạng ví dụ Bảng 1: Bảng Ví dụ tỷ lệ trả lời câu hỏi Câu hỏi thứ … N Tỷ lệ 60% 30% … 25% ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2.2 Biểu diễn phân cụm Mỗi câu hỏi ci biểu diễn thành vector mang tác động (Hình 2) ( ci(x,y) ), điểm trục tọa độ Oxy: Tác động 1: Từ ý kiến chuyên gia Tác động 2: Từ ý kiến cộng đồng Như vậy, n câu hỏi mô tả thành điểm giống Dữ liệu thích hợp cho q trình phân cụm xác định (clustering) Nghiên cứu sử dụng thuật toán K-means [6] Hình mơ tả cho q trình phân cụm, tìm câu hỏi gần tương tự nhau, gom thành nhóm (ở từ tác động ý kiến chuyên gia ý kiến cộng đồng) 55 Thuật tốn dừng khơng có đối tượng chuyển nhóm, ta phân câu hỏi thành k cụm riêng biệt 2.3 Phân bố câu hỏi sau phân cụm ‐ Gọi k số cụm, trước tiên ta tìm tâm k cụm (chạy thuật tốn K-means) ‐ Tìm tâm chung C câu hỏi ‐ Sắp xếp k cụm thành thứ tự có khoảng cách từ bé đến lớn nhất, đến tâm chung C câu hỏi ‐ Với D tổng số đề thi cần tạo ra, M số câu hỏi đề thi ‐ for (d= to D) do//một vòng lặp ta xây dựng đề  for (i=1 to M) //một vịng lặp ta tìm câu hỏi cho đề thứ d Xét cụm gần thứ i tâm chung, chọn câu hỏi thỏa yêu cầu để đưa vào đề thứ d: o Chọn ngẫu nhiên; o Ưu tiên câu không trùng câu hỏi chọn trước, chọn lại câu đó, chọn hết câu hỏi lần trước); Hình Biểu diễn phân cụm Giải thuật xử lý sau: Trước tiên lựa chọn ngẫu nhiên k đối tượng, đối tượng đại diện cho trung bình cụm hay tâm cụm Đối với đối tượng lại, đối tượng ấn định vào cụm mà giống dựa khoảng cách đối tượng trung bình cụm Sau tính lại trung bình cụm cho cụm Xử lý lặp lại hàm tiêu chuẩn hội tụ Bình phương sai số [6] thường dùng làm hàm tiêu chuẩn hội tụ, định nghĩa sau: E=∑ ∑ ∈ | | (1) Với k số cụm, x điểm không gian đại diện cho đối tượng cho trước, mi trung bình cụm Ci (cả x mi đa chiều) Ta có: Đầu vào: Số cụm k hàm E có giá trị theo cơng thức Đầu ra: Hàm tiêu chuẩn E đạt giá trị tối thiểu Thuật toán mơ tả sơ đồ Hình sau: o Có tổng khoảng cách đến câu hỏi i1 lần chọn trước bé Thực nghiệm đánh giá kết 3.1 Một số phương pháp đánh giá Mỗi đề thi đánh giá tương đồng độ khó Giả sử đề thi có n câu hỏi, câu hỏi có độ khó biểu diễn vector giá trị độ khó chuyên gia độ khó người dùng định nghĩa Biểu diễn vector đề thi có n câu sau: (u1, u2, u3, u4,…un), (e1, e2, e3, e4, … en), với: ui: độ khó câu hỏi thứ i người dự thi định; ei: độ khó câu hỏi thứ i chuyên gia (người đề thi) định Sự tương đồng đề thi tính nhiều phương pháp như: Cosine similarity, Pearson correlation [3] Ví dụ: cosin similarity ∑ 〈 , 〉 Cos , | | | | ∑ ∑ Với đề thi mô tả: x1, x2, x3… xn (xi) Với đề thi mô tả: y1, y2, y3… yn (yi) Nếu tương đồng cao (giá trị tiến 1), nghĩa độ khó đề thi tương đương Phương pháp đánh giá lại kết sau q trình trộn đề thi hồn tất Cách đo khoảng cách vector cịn thực qua phương pháp tính khoảng cách sau: Inner product 〈 , 〉 x, y Pearson correlation Hình Sơ đồ bước phân cụm orr x, y ∑ ∑ ̅ ∑ 56 Đặng Thái Thịnh 〈 || ̅ || || Ý kiến chuyên gia Bảng So sánh Pearson ý kiến chuyên gia đề thi 〉 ̅, | ̅ , Các cơng thức đo khoảng cách thực cho nghiên cứu Pearson sử dụng thực nghiệm 3.2 Thực nghiệm Thực nghiệm lấy từ kết thi đánh giá xếp loại đoàn viên Đoàn Thanh niên – Hội Sinh viên Trường Đại học Kinh tế TP.HCM Cuộc thi thực học kỳ cuối năm 2014 với ngân hàng 150 câu hỏi xem cần phân loại vào nhóm nội dung thi Nội dung câu hỏi chủ đề kiến thức Đoàn, Hội Trung bình câu hỏi có 203,66 lượt trả lời Kết chạy thuật tốn ta có: Các câu hỏi xếp theo giá trị chuyên gia tăng dần, ta có phân bố cộng đồng sau (Hình 3): Đề Đề Đề Đề Đề Đề 1 Đề 0.972208 Đề 0.976262 0.971808 Đề 0.97531 0.961304 0.984653 Đề 0.953814 0.98156 0.970552 0.965235 Ý kiến cộng đồng Bảng So sánh Pearson ý kiến cộng đồng đề thi Đề Đề Đề Đề Đề Đề 1 Đề 0.974957 Đề 0.986603 0.990853 Đề 0.975203 0.984919 0.978244 Đề 0.983579 0.98317 0.992197 0.975544 Để cụ thể hơn, ta vẽ biểu đồ độ khó (tỷ lệ trả lời đúng) đề thi sau chạy thuật toán K-means cách chọn câu hỏi sau phân cụm sau (Hình 6) Hình So sánh độ khó dựa vào ý kiến chuyên gia cộng đồng (đã xếp) Nhận xét: Nhìn chung xu hướng cộng đồng theo xu hướng đánh giá chuyên gia, liệu tương đối tốt cho thử nghiệm Hình Biểu đồ độ tương đồng đề thi (chuyên gia) Kết sau chạy thử nghiệm chọn đề thi sau: Số cụm = 5; số đề = 5; câu hỏi đề = 20 (như giao diện Hình 4) Hình Biểu đồ độ tương đồng đề thi (cộng đồng) 3.3 Đánh giá phương pháp thực Hình Giao diện phần mềm làm thực nghiệm Đánh giá Pearson độ tương đồng đề thi sau sinh mô tả Bảng Bảng Giữa đề thi tồn tương tự độ khó dựa ý kiến chuyên gia (người đề), hay ý kiến cộng đồng (tỷ lệ người dự thi trả lời đúng) Gọi P(x,y) độ tương quan đề x đề y có giá trị [-1,1]; P(x,y) tiến độ khó đề x y tương đương Nếu P(x,y), P(y,z) tiến 1, P(x,z) tiến Giả sử P(x,y) gần 1, P(y,z) lại không gần 1, P(x,z) khơng gần Kết mô tả Bảng Bảng cho thấy đề thi phát sinh phương pháp báo có giá trị Pearson gần (lớn 0.95) , nghĩa đề thi sinh từ mơ hình nghiên cứu có độ khó tương đương Vì tính chất P(x,y) = P(y,z), nên phần Bảng Bảng xóa bỏ Về thuật tốn phân cụm liệu: Nhược điểm Kmeans nhạy cảm với nhiễu phần tử ngoại lai liệu [6] Hơn nữa, chất lượng phân cụm liệu thuật toán K-means phụ thuộc nhiều vào tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp trọng tâm khởi tạo ban đầu mà lệch so với trọng tâm cụm tự nhiên kết phân cụm K-means thấp, nghĩa cụm liệu khám phá lệch so với cụm thực tế Trên thực tế, chưa có giải pháp tối ưu để chọn tham số đầu vào, giải pháp thường sử dụng thử nghiệm với giá trị đầu vào k khác nhau, sau chọn giải pháp tốt Đánh giá thuật tốn K-means: Ưu điểm:  K-means có độ phức tạp tính tốn O (t.k.n) với k số cụm, n số lần lặp t tổng số lượng phần tử  K-means phân tích phân cụm đơn giản, nên áp ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN dụng tập liệu lớn  Bảo đảm hội tụ sau trình lặp hữu hạn Nhược điểm:  K-means không khắc phục nhiễu giá trị số cụm k phải cho người dùng  Chỉ thích hợp áp dụng với liệu có thuộc tính số khám cụm có dạng hình cầu Sự trùng lặp câu hỏi đề thi:  Nếu câu hỏi bị trùng nhiều, nghĩa độ khó gần nhiều, cách khơng phải mục tiêu nghiên cứu  Giả sử ta tìm n đề thi, đề thi có c câu hỏi Với thuật tốn hạn chế trùng đề thi, cách chọn thực sở ưu tiên chọn câu hỏi Điểm mạnh nghiên cứu:  Nghiên cứu đề xuất phương pháp mô tả chi tiết lấy tri thức từ chuyên gia đề thi, không nhiều thông tin phải cung cấp, đủ cho trình đánh giá phân loại đề thi  Nghiên cứu đưa mơ hình phân loại câu hỏi dựa kết thi từ cộng đồng kết hợp tri thức chuyên gia  Một phương pháp đánh giá trộn đề thi công đề thi, phương pháp trước mang nhiều ý kiến chủ quan, khơng có phân bố dựa độ khó mà dựa phân bố ngẫu nhiên Điểm yếu mơ hình:  Bài thi thí sinh phải đủ nhiều câu hỏi, đánh giá có ý nghĩa  Ý kiến chuyên gia xem xét với ý kiến người dự thi, chưa Tuy nhiên, ý kiến chuyên gia thay đổi quan điểm sau người đề xem xét liệu trả người dự thi Những yếu tố khác tác động lên thi, thông tin cá nhân học thức người dự thi chưa xem xét mơ hình Ví dụ: thi tiếng Anh TOEIC, TOEFL yêu cầu khảo sát nhỏ trước thí sinh thực thi Trong đó, họ có nghiên cứu yếu tố ảnh hưởng đến chất lượng thi dùng để phân loại câu hỏi sau [4] cụm chọn lọc để đưa vào đề thi Nghiên cứu tương đồng đề thi qua phương pháp đo khoảng cách vector trình bày Kết phương pháp áp dụng để cách trộn đề thi vừa đảm bảo phân bố mang yếu tố ngẫu nhiên, vừa có độ khó tương đương đề thi Tuy nhiên phương pháp đề xuất nghiên cứu chưa đưa tiêu chuẩn cho đề thi Kết thực nghiệm cho thấy điểm thi cộng đồng có xu hướng phân bố rải rác độ khó phân bố đồng Điều hỗ trợ cho trình xác định mức điển phân loại (khá, giỏi, trung bình, khơng đạt) dễ dàng Đóng góp nghiên cứu hỗ trợ cho người đề thi dựa khai khai thác kết thi, có đánh giá từ kiến thức chuyên gia (người đề thi) liệu cộng đồng đánh giá (từ kết trắc nghiệm khách quan) - cách tiếp cận định lượng Thực nghiệm thiếu nhiều liệu yếu tố khác ảnh hưởng đến kết thi Để có liệu cộng đồng đủ lớn, giúp q trình đánh giá có ý nghĩa điều khó khăn Ban đầu hệ thống chạy với liệu chuyên gia hoàn tồn, sau thời gian liệu cộng đồng có nhiều, kết hợp với liệu chuyên gia để đánh giá Người đề, sau có kết thi, nhìn nhận lại cách đánh giá để xem xét có chủ quan đưa định ban đầu hay khơng Từ đó, hệ thống điều chỉnh học cách làm liên tục Nghiên cứu mở rộng cách tăng giảm độ khó đề thi cách phân bố không vào cụm sau phân hoạch Tuy nhiên, cần đánh giá lại việc phân loại cần có phương pháp đánh giá khác TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] Kết luận Nghiên cứu đưa cách tiếp cận dựa phương pháp phân cụm liệu, kết trình phân 57 [6] Cizek, G J (2006), Standard setting In S M Downing & T M Haladyna Eds Handbook of test development Mahwah: Lawrence Erlbaum Associations Cizek, G J., & Bunch, M B (2007), Standard setting: A guide to establishing and evaluating performance standards on tests Thousand Oaks: SAGE Publications J.L Rodgers, W.A Nicewander, “Thirteen ways to look at the correlation coefficient”, Amer Statist 42 (1988) Hurtz, G M., & Auerbach, M A (2003), A meta-analysis of the effects of modifications to the Angoff method on cutoff scores and judgment consensus Educational and Psychological Measurement, 63(4), 584-601 Kane, M T (2001), So much remain the same: Conception and status of validation in setting standards In G J Cizek (Ed.) Setting performance standards Concepts, methods, and perspectives (pp 53-88) Nguyễn Hoàng Tú Anh (2009), Khai thác liệu & ứng dụng (Data Mining), NXB ĐHQG TP.HCM (BBT nhận bài: 18/08/2015, phản biện xong: 29/10/2015) ... người đề thi dựa khai khai thác kết thi, có đánh giá từ kiến thức chuyên gia (người đề thi) liệu cộng đồng đánh giá (từ kết trắc nghiệm khách quan) - cách tiếp cận định lượng Thực nghiệm thi? ??u... đồng đề thi Đề Đề Đề Đề Đề Đề 1 Đề 0.974957 Đề 0.986603 0.990853 Đề 0.975203 0.984919 0.978244 Đề 0.983579 0.98317 0.992197 0.975544 Để cụ thể hơn, ta vẽ biểu đồ độ khó (tỷ lệ trả lời đúng) đề thi. .. Về thuật tốn phân cụm liệu: Nhược điểm Kmeans nhạy cảm với nhiễu phần tử ngoại lai liệu [6] Hơn nữa, chất lượng phân cụm liệu thuật toán K-means phụ thuộc nhiều vào tham số đầu vào như: số cụm

Ngày đăng: 07/05/2021, 13:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan