3.5 .Chuẩn hoá dữ liệu đầu vào cho thuật toán
3.6. Phân tích cơ sở dữ liệu dữ liệu
3.6.1. Tìm hiểu và chuẩn bị dữ liệu
Sau khi thu thập dữ liệu, tiền xử lý bằng cách loại bỏ các giá trị dư thừa và thiếu (missing), số lượng mẫu tin (mỗi mẫu tin tương ứng với một sinh viên) còn lại là 280 instances (bản ghi)
Trong tập dữ liệu thu thập được có rất nhiều thuộc tính, vậy thuộc tính nào ảnh hưởng lớn nhất đến kết quả dự đoán và làm sao để chọn các thuộc tính đó? Để giải quyết vấn đề này, tác giả đã dùng phương pháp chọn thuộc tính (feature selection).
Trong cơng cụ Weka đã có hỗ trợ rất nhiều phương pháp giúp lựa chọn thuộc tính. Ở đây tác giả đã sử dụng phương pháp lựa chọn thuộc tính thơng qua đánh giá độ lợi thông tin của từng thuộc tính “Information Gain Attribute Evaluation”, sau đó xếp hạng của chúng (ranked attribute) theo thứ tự giảm dần và có thể loại bỏ các thuộc tính mà độ lợi thơng tin của nó quá thấp.
Kết quả cho độ lợi thông tin theo thứ tự như sau:
Bảng 3.2: Mức độ quan trọng của thuộc tính
STT Thuộc tính Xếp hạng 1 DiemTHPT 0.5694 2 DiemNN 0.1955 3 MaPhai 0.1286 4 DiemLy 0.0839 5 DiemToan 0.071 6 MaKV 0.0191 7 DiemVan 0.0113 8 MaPhai 0.0111
Như vậy dựa vào bảng kết quả ta thấy thuộc tính DiemTHPT có độ lợi thơng tin cao nhất nên được chọn làm thuộc tính phân lớp cho bài tốn.
3.6.2. Mơ hình hóa dữ liệu
Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mơ hình hố cho việc dự đốn. Trong phần này sẽ trình bày việc xây dựng mơ hình bao gồm các kỹ thuật sử dụng, các biến đầu vào và biến dự đốn (target attribute)
Bảng 3.3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả chọn ngành. Tác giả đã sử dụng dạng phân lớp cho dự đốn Xuất sắc, Giỏi, Khá, Trung bình.
Vấn đề: Dựa vào thông tin đầu vào và kết quả đầu ra để dự đoán kết quả học tập của sinh viên
Bảng 3.3: Giải thuật của hệ thống
Giải thuật Biến đầu vào Kết quả đầu ra
Dựa vào cây quyết định để dự đoán dữ liệu chưa biết của sinh viên là kết quả tốt nghiệp đại học, cao đẳng: Xuất sắc, Giỏi, Khá và Trung bình. - KhuVuc - MaDiemTHPT - DiemToan - DiemVan - DiemNN - DiemLy - GioiTinh Dự đoán kết quả tốt nghiệp là: Xuất sắc, Giỏi, Khá, Trung bình. 3.6.3. Đánh giá mơ hình
Sau khi mơ hình hóa, việc đánh giá độ tin cậy của các mơ hình sẽ được thực hiện, gồm cả thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm
tra mơ hình sao cho đạt kết quả chính xác nhất.Đánh giá hiệu quả phân lớp bằng độ đo
InfoGain trong chức năng InfoGainAttributeEval của Weka. Kết quả cho thấy như
sau:
Hình 3.16: Kết quả đánh giá mơ hình
Với dữ liệu huấn luyện là 158 thuộc tính và sử dụng thuật tốn C4.5 thì Weka phân lớp được 112 bản ghi đúng và 46 bản ghi không phân lớp được chiếm tỷ lệ phân lớp đúng là 71% và sai là 29%.
Sau đó dựa vào mơ hình này ta sử dụng để dự đoán cho tập dữ liệu kiểm thử với 122 thuộc tính ta có kết quả sau:
Hình 3.17: Ứng dụng mơ hình cho tập dữ liệu kiểm tra
Ta thấy rằng với mơ hình trên nhưng với ở tập dữ liệu kiểm thử ít hơn nên cho ta mức độ dự đốn tốt hơn đó là dự đốn đúng 81% và sai 19%.
Do đó, mơ hình này tốt để dự đốn những tập dữ liệu mới chưa biết.