Đối với môn học của vế kết quả, chúng tôi sử dụng hàm Len để xác định số lượng ký tự của vế kết quả. Trong trường hợp tổng số ký tự nhỏ hơn 7, chúng tôi kết hợp hàm VLOOKUP và hàm LEFT để lấy các ký tự trong cột kết quả (ngoại trừ ký tự cuối). Ngược lại, nếu tổng số ký tự lớn hơn 7, chúng tôi kết hợp ba hàm VLOOKUP, MID và FIND để tìm các ký tự sau dấu khoảng trắng để lấy mã môn để tra tên mơn học.
Hình 37. Cơng thức tìm tên mơn học cho vế điều kiện
Bước 4: Áp dụng tiêu chí sàng lọc luật để tiến hành sàng lọc bước cuối, thứ tự sàng
lọc được thực hiện như sau:
Bước 4.1: Chỉ lấy những mơn có ý nghĩa đồng nhất. Chúng tơi sẽ loại bỏ những
luật kết hợp khơng có ý nghĩa đồng nhất về mặt ý nghĩa thự tế. Ví dụ như có MIS201F thì sẽ có MK203P, tức là rớt mơn MIS201 thì sẽ đậu mơn MK203, điều này trên thực tế khơng có ý nghĩa cho đề xuất.
Bước 4.2: Chỉ lấy những mơn thoả điều kiện theo lộ trình học tập của ngành MIS
khoá 18. Sau khi đã thu được kết quả từ bước 4.1, chúng tôi tiếp tục lọc theo lộ trình ngành MIS khố 18. Ví dụ, nếu ta có luật kết hợp là có MIS202P thì sẽ có MIS201P (tức là nếu đậu mơn MIS202 thì đậu mơn MIS201). Nhưng thực tế, mơn MIS201 phải học trước mơn MIS202 theo lộ trình học tập ngành MIS khố 18. Do đó, những luật kết hợp tương tự như thế này sẽ bị loại bỏ.
Bước 4.3: Chọn ra các mơn học có cùng đóng góp vào 1 năng lực lõi trong ma
trận năng lực lõi của ngành MIS. Ở bước cuối cùng này, chúng tôi sẽ xem xét để loại bỏ những mơn học khơng cùng đóng góp vào 1 trong 7 năng lực lõi của sinh viên ngành MIS theo chương trình đào tạo ngành MIS. Ví dụ với cặp luật AP (đậu môn A) -> BP (đậu mơn B), mơn A đóng góp vào năng lực lõi ngành MIS là PL01, PL02, PL03, PL04, PL05 và mơn B có đóng góp vào năng lực PL03, PL04, PL05 thì khi đó chúng tơi sẽ giữ lại luật kết hợp AP -> BP vì chúng có cùng đóng góp vào chung 1 năng lực lõi trong ma trận năng lực lõi.
Chúng tơi tiếp tục thực hiện lại q trình khai thác (mục 4.4) với chỉ số kiểm thử dữ liệu (testing) lần lượt là 0%, 10%, 20%, 30%, 50% và thực hiện các bước xử lý, sàng lọc kết quả thu được và dùng những kết quả này để so trùng với những lần thực hiện với các chỉ số kiểm thử dữ liệu khác để tăng tính chính xác của kết quả đầu ra.
Với từng chỉ số kiểm thử dữ liệu (testing), chúng tôi thu được các kết quả như sau: 0% tỉ lệ kiểm thử: 561 luật được sinh ra, trong đó có 112 luật phù hợp.
20% tỉ lệ kiểm thử: 577 luật được sinh ra, trong đó có 121 luật phù hợp. 30% tỉ lệ kiểm thử: 533 luật được sinh ra, trong đó có 120 luật phù hợp. 50% tỉ lệ kiểm thử: 651 luật được sinh ra, trong đó có 183 luật phù hợp.
Kết hợp tất cả những luật kết hợp trùng khớp từ 5 lần thực hiện khai thác, chúng tôi thu được kết quả cuối cùng là 36 luật kết hợp.
PHẦN 5: QUÁ TRÌNH KHAI THÁC DỮ LIỆU CHO MỤC ĐÍCH ĐƯA RA CẢNH BÁO HỌC TẬP CHO SINH VIÊN
Do mỗi tập dữ liệu cần được chuẩn hoá riêng theo các hình thức khác nhau để phục vụ cho mục đích khai thác dữ liệu khác nhau. Tuy nhiên, giai đoạn trích xuất cho hai mơ hình khai thác là như nhau. Vì vậy, chúng tơi sẽ khơng trình bày lại giai đoạn trích xuất dữ liệu.
5.1 Chuẩn hố
Từ bảng dữ liệu thơ như hình 8, chúng tơi loại bỏ các trường dữ liệu như ID, INPUT, KETQUASHORT để thu được bảng dữ liệu như sau: