Chúng tôi tiếp tục thực hiện việc loại bỏ hai trường dữ liệu là TBMHSO và HOCKY nhằm phục vụ cho mục đích tính tổng số tín chỉ của sinh viên. Sau đó, chúng tơi thực hiện việc xố các giá trị lặp lại để làm mịn dữ liệu. Khi một sinh viên khi rớt một mơn học, điểm của mơn học đó mà sinh viên đạt được vẫn được lưu vào bảng điểm thành phần của sinh viên, nhưng tín chỉ của mơn học mà sinh viên rớt sẽ khơng được tính. Ngồi ra, một số sinh viên cũng có xu hướng học cải thiện điểm số. Hai nguyên nhân trên là lý do chúng tơi thực hiện việc xố các giá trị trùng lặp và các hàng dữ liệu có KETQUA là “FAIL”, tức là nếu sinh viên
rớt mơn nào, thì chúng tơi sẽ khơng tính mơn đó vào số tín chỉ hiện tại của sinh viên. Trong trường hợp sinh viên đó học cải thiện, chúng tôi sẽ chỉ lấy dữ liệu của lần học đầu tiên.
Hình 39. Bảng thống kê tổng số tín chỉ của sinh viên và tiến độ so với lộ trình học của ngành HQ Khố 18
Nhóm chúng tơi sau khi thống kê lại tổng số tín chỉ của sinh viên HQ khoá 18, chúng tơi thu được bảng thơng tin như hình 39. Từ hình 39, chúng tơi có thể dễ dàng nhận thấy đâu là những sinh viên đang đúng, trễ lộ trình học của ngành MIS khố 18.
Từ bảng dữ liệu như hình 38, Chúng tơi tiếp tục thực hiện việc loại bỏ những môn học không thuộc trong lộ trình của khố 18. Cụ thể, chúng tơi chỉ giữ lại những hàng dữ liệu điểm của những môn học sau đây:
Chúng tơi tiếp tục tạo một trang tính Excel mới, sử dụng 12 lần hàm VLOOKUP để lấy kết quả của những mơn học của từng sinh viên tương ứng.
Hình 41. Bảng dữ liệu đã được chuẩn hố (chưa loại bỏ giá trị N/A)
Như hình 41, những giá trị N/A khơng hề mang ý nghĩa là lỗi mà sẽ được hiểu là sinh viên chưa học mơn học đó. Bảng dữ liệu này hồn tồn có thể được sử dụng để tiến hành khai thác. Hoặc theo cách khác, chúng ta có thể loại bỏ các mơn học có giá trị N/A trong đó để bộ dữ liệu trơng tinh gọn hơn (hình 42).
Hình 42. Bảng dữ liệu đã được chuẩn hố cho mục đích khai thác (đã xử lý giá trị N/A)
5.2 Tải dữ liệu vào SQL Server
Ở giai đoạn này, chúng tôi chỉ cần lặp lại các bước như mục 4.3 của đề án.