Phân tích cơ sở dữ liệu dữ liệu

3.5 .Chuẩn hoá dữ liệu đầu vào cho thuật toán

3.6. Phân tích cơ sở dữ liệu dữ liệu

3.6.1. Tìm hiểu và chuẩn bị dữ liệu

Sau khi thu thập dữ liệu, tiền xử lý bằng cách loại bỏ các giá trị dư thừa và thiếu (missing), số lượng mẫu tin (mỗi mẫu tin tương ứng với một sinh viên) còn lại là 280 instances (bản ghi)

Trong tập dữ liệu thu thập được có rất nhiều thuộc tính, vậy thuộc tính nào ảnh hưởng lớn nhất đến kết quả dự đoán và làm sao để chọn các thuộc tính đó? Để giải quyết vấn đề này, tác giả đã dùng phương pháp chọn thuộc tính (feature selection).

Trong cơng cụ Weka đã có hỗ trợ rất nhiều phương pháp giúp lựa chọn thuộc tính. Ở đây tác giả đã sử dụng phương pháp lựa chọn thuộc tính thơng qua đánh giá độ lợi thông tin của từng thuộc tính “Information Gain Attribute Evaluation”, sau đó xếp hạng của chúng (ranked attribute) theo thứ tự giảm dần và có thể loại bỏ các thuộc tính mà độ lợi thơng tin của nó quá thấp.

Kết quả cho độ lợi thông tin theo thứ tự như sau:

Bảng 3.2: Mức độ quan trọng của thuộc tính

STT Thuộc tính Xếp hạng 1 DiemTHPT 0.5694 2 DiemNN 0.1955 3 MaPhai 0.1286 4 DiemLy 0.0839 5 DiemToan 0.071 6 MaKV 0.0191 7 DiemVan 0.0113 8 MaPhai 0.0111

Như vậy dựa vào bảng kết quả ta thấy thuộc tính DiemTHPT có độ lợi thơng tin cao nhất nên được chọn làm thuộc tính phân lớp cho bài tốn.

3.6.2. Mơ hình hóa dữ liệu

Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mơ hình hố cho việc dự đốn. Trong phần này sẽ trình bày việc xây dựng mơ hình bao gồm các kỹ thuật sử dụng, các biến đầu vào và biến dự đốn (target attribute)

Bảng 3.3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả chọn ngành. Tác giả đã sử dụng dạng phân lớp cho dự đốn Xuất sắc, Giỏi, Khá, Trung bình.

Vấn đề: Dựa vào thông tin đầu vào và kết quả đầu ra để dự đoán kết quả học tập của sinh viên

Bảng 3.3: Giải thuật của hệ thống

Giải thuật Biến đầu vào Kết quả đầu ra

Dựa vào cây quyết định để dự đoán dữ liệu chưa biết của sinh viên là kết quả tốt nghiệp đại học, cao đẳng: Xuất sắc, Giỏi, Khá và Trung bình. - KhuVuc - MaDiemTHPT - DiemToan - DiemVan - DiemNN - DiemLy - GioiTinh Dự đoán kết quả tốt nghiệp là: Xuất sắc, Giỏi, Khá, Trung bình. 3.6.3. Đánh giá mơ hình

Sau khi mơ hình hóa, việc đánh giá độ tin cậy của các mơ hình sẽ được thực hiện, gồm cả thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm

tra mơ hình sao cho đạt kết quả chính xác nhất.Đánh giá hiệu quả phân lớp bằng độ đo

InfoGain trong chức năng InfoGainAttributeEval của Weka. Kết quả cho thấy như

Hình 3.16: Kết quả đánh giá mơ hình

Với dữ liệu huấn luyện là 158 thuộc tính và sử dụng thuật tốn C4.5 thì Weka phân lớp được 112 bản ghi đúng và 46 bản ghi không phân lớp được chiếm tỷ lệ phân lớp đúng là 71% và sai là 29%.

Sau đó dựa vào mơ hình này ta sử dụng để dự đoán cho tập dữ liệu kiểm thử với 122 thuộc tính ta có kết quả sau:

Hình 3.17: Ứng dụng mơ hình cho tập dữ liệu kiểm tra

Ta thấy rằng với mơ hình trên nhưng với ở tập dữ liệu kiểm thử ít hơn nên cho ta mức độ dự đốn tốt hơn đó là dự đốn đúng 81% và sai 19%.

Do đó, mơ hình này tốt để dự đốn những tập dữ liệu mới chưa biết.

Giới thiệu về TrườngĐại học Phạm Văn Đồng

Hình ảnh trích ra từ chương trình demo