Trong các ứng dụng khai phá dữ liệu, CSDL cần khai phá thường không đầy đủ, tức là có những giá trị thuộc tính bị thiếu. Để khai phá các CSDL không đầy đủ, thu được những tri thức hữu ích, cần phải xử lý các giá trị thiếu. Cho đến nay, nhiều phương pháp xử lý giá trị thiếu đã được đề xuất và áp dụng, nhưng theo các tài liệu nghiên cứu, không có phương pháp nào là tốt nhất trong mọi trường hợp dữ liệu và cho tất cả các nhiệm vụ khai phá. Trong mỗi trường hợp dữ liệu và nhiệm vụ khai phá cụ thể , việc xử lý các giá trị thiếu cần phải được cân nhắc và thực hiện một cách thận trọng, nếu không sẽ làm cho tri thức khai phá bị sai lệch.
Chương 2 luận văn đã trình bày một số thuật toán cơ bản xử lý giá trị thiếu thường được dùng nhất.
Tuy không có phương pháp xử lý giá trị thiếu nào là tối ưu trong mọi trường hợp, nhưng các phân tích lý thuyết và tính toán thực nghiệm cho thấy, nói chung các phương pháp thống kê có độ phức tạp tính toán thấp hơn so với các phương pháp học máy.
Chương 3 tiếp theo của luận văn sẽ trình bầy kết quả cài đặt và tính toán thực nghiệm một số thuật toán xử lý giá trị thiếu trong khai phá dữ liệu.
CHƯƠNG 3. TRÌNH BÀY KẾT QUẢ CÀI ĐẶT VÀ TÍNH TOÁN THỰC NGHIỆM MỘT SỐ THUẬT TOÁN XỬ LÝ GIÁ TRỊ THIẾU
TRONG KHAI PHÁ DỮ LIỆU
Trên cơ sở lý thuyết trong chương 1 và các thuật toán xử lý dữ liệu thiếu trong chương 2, luận văn sẽ tiến hành cài đặt xây dựng hệ thống demo xử lý giá trị thiếu bằng 4 thuật toán cơ bản: Xóa bộ dữ liệu có giá trị thiếu, thay thế bằng hằng số Missing, thay thế giá trị thiếu bằng trung bình thuộc tính.