Cơ sở dữ liệu của bài toán - CÔNG NGHIỆP CAO SU 4.- 123docz.net

CÔNG NGHIỆP CAO SU 4.1 Phát biểu bài toán

4.2. Cơ sở dữ liệu của bài toán

- Dữ liệu thu thập được lấy từ chương trình quản lý đào tạo của trường Cao đẳng Công nghiệp Cao Su, và lưu dưới dạng file *.XLS như hình 4.1.

- Dữ liệu của bài toán đầu vào để tìm luật kết hợp là kết quả học tập các môn học đạt yêu cầu trở lên (>=5.0) thuộc khối kiến thức các môn cơ sở theo từng ngành học của các lớp Cao đẳng khoá đã tốt nghiệp.

Hình 4.1. Bảng kết quả học tập của sinh viên

- Tiền xử lý dữ liệu với Weka:

Do dữ liệu của bài toán chỉ yêu cầu kết quả học tập các môn cơ sởđạt yêu cầu nên bảng kết quả học tập sẽ được lọc bỏ bớt các thông tin không cần thiết và chuyển về file dạng *.csv như sau:

Hình 4.2. Bảng kết quả học tập sau khi chỉnh sửa

Từ file dữ liệu trên ta tiếp tục lọc bỏ những môn học cơ sởảnh hưởng nhiều nhất tới kết quả học tập của sinh viên theo từng môn học chuyên ngành.

Hình 4.3. Bảng kết quả học tập theo môn chuyên ngành

Để thực hiện mô hình khai phá luật kết hợp (Association Rule Mining)

trên file DLTao_luat.csv ta cần phải làm các việc sau :

+ Loại bỏ thuộc tính MaSV vì thuộc tính này không dùng trong mô hình. Quá trình này gọi là lọc thuộc tính (Filtering Attribute).

Hình 4.4. Loại bỏ thuộc tính MaSV

+ Rời rạc hóa giá trị của các trường liên tục là điểm các môn học vì mô hình khai phá luật kết hợp không làm việc với các kiểu dữ liệu liên tục. Quá trình này gọi là rời rạc hóa dữ liệu (Discretization)

Điểm các môn học hệ Cao đẳng được làm tròn đến phần nguyên, để thuận lợi cho việc demo chương trình và để dễ hiểu, các khoảng giá trị trên được thay thế bởi các nhãn tương ứng (Xs, Gi, Kh, Tbk, Tb).

Sau đây là kết quả thực hiện thuật toán Apriori để phát hiện luật kết hợp trên các file dữ liệu.

Hình 4.6. Kết quả thực hiện thuật toán Apriori cho KTGCCS_N1.arff