Trong các ứng dụng khai phá dữ liệu, CSDL cần khai phá thƣờng không đầy đủ, tức là có những giá trị thuộc tính bị thiếu. Để khai phá các CSDL không đầy đủ, thu đƣợc những tri thức hữu ích, cần phải xử lý các giá trị thiếu. Cho đến nay, nhiều phƣơng pháp xử lý giá trị thiếu đã đƣợc đề xuất và áp dụng, nhƣng theo các tài liệu nghiên cứu, không có phƣơng pháp nào là tốt nhất trong mọi trƣờng hợp dữ liệu và cho tất cả các nhiệm vụ khai phá. Trong
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
mỗi trƣờng hợp dữ liệu và nhiệm vụ khai phá cụ thể, việc xử lý các giá trị thiếu cần phải đƣợc cân nhắc và thực hiện một cách thận trọng, nếu không sẽ làm cho tri thức khai phá bị sai lệch.
Chƣơng 2 luận văn đã trình bày nội dung và phân tích ƣu, nhƣợc điểm của 10 phƣơng pháp cơ bản, thƣờng đƣợc sử dụng xử lý giá trị thiếu, trong đó có 4 phƣơng pháp thống kê, 3 phƣơng pháp học máy và 3 phƣơng pháp nhúng.
Chƣơng 2 cũng trình bày các kết quả tính toán thực nghiệm nhằm so sánh độ hiệu quả của 5 trong số 10 phƣơng pháp đã trình bày trong việc xử lý giá trị thiếu trên các tập dữ liệu phục vụ nhiệm vụ phân lớp. Đó là các phƣơng pháp NCBMM, RCBMM, KMCMM, k-NN và C4.5. Tiêu chí đánh giá là thời gian thay thế đƣợc tất cả các giá trị thiếu và tỷ lệ lỗi phân lớp khi áp dụng thuật toán phân lớp trên tập dữ liệu đầy đủ thu đƣợc.
Tuy không có phƣơng pháp xử lý giá trị thiếu nào là tối ƣu trong mọi trƣờng hợp, nhƣng các phân tích lý thuyết và tính toán thực nghiệm cho thấy, nói chung các phƣơng pháp thống kê có độ phức tạp tính toán thấp hơn so với các phƣơng pháp học máy.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 3
PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU PHỐI HỢP KHAI PHÁ LUẬT KẾT HỢP VỚI PHƢƠNG PHÁP
K-LÁNG GIỀNG GẦN NHẤT