A Kết quả phân loại câu hỏi môn KTLT và CTDL&GT
4.12 Thông tin của tập dữ liệu
Học kỳ Số câu hỏi Số sinhviên Số bài nộp
KTLT Học kỳ 2, năm
học 2019-2020 32 673 38543
CTDL> Học kỳ 2, năm
học 2019-2020 32 58 2604
b) Mơ hình phân cụm độ khó câu hỏi
Nhóm đề xuất 2 mơ hình sau:
(a) Mơ hình 1: sử dụngk-means với số cụm là 3, đầu vào của một điểm dữ liệu là 1 giá
trị từ cơng thức F0.
(b) Mơ hình 2: sử dụngk-means với số cụm là 3, đầu vào của một điểm dữ liệu là một
vector gồm 4 giá trị <F1, F2, F3, F4>.
Mơ hình 1 được sử dụng để xem xét và đánh giá sơ bộ mơ hình 2. Cả 2 mơ hình sau đó sẽ được sử dụng để hiện thực tính năng phân loại câu hỏi.
c) Xử lý dữ liệu
Các bước chuẩn bị dữ liệu để phân loại câu hỏi: (a) Lấy tất cả các bài nộp thuộc 1 khóa học.
(b) Loại bỏ đi các bài nộp không phải do sinh viên làm. (c) Loại bỏ đi các bài nộp cho các bài tập lớn.
(d) Loại bỏ các bài nộp bị trùng của một sinh viên cho một câu hỏi. Bài nộp trùng có thể xảy ra do khi sinh viên nhấn nộp bài nhưng giao diện chưa có phản hồi kịp, sinh viên tiếp tục nhấn nộp bài dẫn đến có bài nộp trùng, hoặc sinh viên cố tính nộp tiếp bài nộp cũ.
(e) Từ các bài nộp còn lại, lấy tất cả các câu hỏi có bài nộp.
d) Gán độ khó phù hợp cho cụm
Giải thuậtk-means chỉ giúp thực hiện gom cụm và các điểm dữ liệu (câu hỏi) nằm trong
một cụm sẽ được đánh dấu cùng một nhãn. Trong mục này, nhóm tác giả trình bày cách gán độ khó phù hợp cho từng cụm.
Đối với mơ hình 1, việc phân cụm dựa trên đầu vào là 1 giá trị. Sau khi giải thuậtk-means
center cao nhất được gán mức độ là khó, center có giá trị thấp nhất được gán là dễ, center còn lại được gán giá trị là trung bình.
Đối với mơ hình 2, việc phân cụm dựa trên vector 4 chiều. Bước đầu, nhóm cũng lấy 3 vector của 3 center sau khi phân cụm. Tuy nhiên khơng có cách định nghĩa mối quan hệ "lớn hơn" hoặc "nhỏ hơn" về độ khó của 2 vector nên khơng thể sắp xếp 3 vector. Nhóm đề xuất sử dụng thơng tin trong bảng 4.11 cột Tính chất để xem xét một hoán vị của 3 vector vừa lấy. Nhóm tác giả định nghĩascorelà số điểm mà một hốn vị đạt được. Việc gán độ khó phù hợp được thực hiện qua các bước:
(a) Tạo ra 6 hoán vị của 3 vector 4 chiều.
(b) Với mỗi 2 vector liền kề, xem xét tất cả các cặp giá trị của cùng một công thức, nếu 2 giá trị này thoả mãn tính chất trong bảng của cơng thức đó thì tăngscorethêm 1 (giả sử đang sắp xếp các vector theo độ khó tăng dần).
(c) Chọn hốn vị vectors cóscorecao nhất, lần lượt gán tâm của hoán vị này các mức độ dễ, trung bình, khó.
Ví dụ về cách tính score của một hốn vị:
Giả sử một hoán vị 3 vector như sau:
v1=<0.3,0.4,0.5,0.6>
v2=<0.2,0.3,0.4,0.3>
v3=<0.1,0.2,0.3,0.4>
Xét các giá trị của F1: 0.3, 0.2, 0.1, vì 0.3 > 0.2 và 0.2 > 0.1 nên score của F1 là 2 (sắp xếp theo độ khó tăng dần). Tương tự, score củaF2là 2, score củaF3là 2. XétF3: có 0.4 > 0.3 nhưng 0.3 < 0.6 (khơng thoả tính chất), nên score củaF3là 1. Do đó, score cho hốn vị này là 7.
e) Kết quả phân loại
Điểm Silhouette của 2 mơ hình được ghi lại trong bảng 4.13.