Loại bỏ các bộ dữ liệu có chứa giá trị thiếu (discarding data tuples with

Một phần của tài liệu xử lý giá trị thiếu trong khai phá dữ liệu (Trang 32)

data tuples with missing values)

Phƣơng pháp này là phƣơng pháp thƣờng đƣợc sử dụng bởi nhiều thuật toán khai phá dữ liệu khi CSDL khai phá là không đầy đủ.

Có hai cách chính để thực hiện việc loại bỏ dữ liệu thiếu [12]. Cách thứ nhất là loại bỏ tất cả các bộ có chứa giá trị thiếu. Cách thứ hai là loại bỏ có cân nhắc các bộ và/hoặc các thuộc tính có giá trị thiếu. Đối với cách thứ hai, trƣớc hết cần xem xét mức độ thiếu giá trị trong mỗi bộ và mỗi thuộc tính, tầm quan trọng của mỗi thuộc tính, sau đó chỉ xóa đi những bộ có số giá trị thiếu cao và những thuộc tính vừa có số giá trị thiếu cao lại vừa ít quan trọng đối với mục tiêu khai phá.

Phƣơng pháp loại bỏ các bộ dữ liệu có chứa giá trị thiếu có ƣu điểm là đơn giản, ít tốn thời gian hơn bất kỳ phƣơng pháp nào khác. Nhƣng nó lại có có hai điểm hạn chế quan trọng. Thứ nhất, nếu chúng ta áp dụng vào trong thực tế có thể gây mất mát nhiều dữ liệu. Ví dụ, giả sử cơ sở dữ liệu cần khai

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

phá có 40 thuộc tính và 1000 bộ dữ liệu; xác suất một bộ dữ liệu có ít nhất một giá trị thuộc tính bị thiếu là 0.80%, khi đó nếu áp dụng phƣơng pháp Loại bỏ các bộ dữ liệu có chứa giá trị thiếu thì chúng ta chỉ có thể sử dụng 200 bộ dữ liệu. Vấn đề thứ hai là nếu phân bố dữ liệu thiếu trong tập dữ liệu không thuộc trƣờng hợp 1 (MCAR) thì việc loại bỏ tất cả các bộ dữ liệu có giá trị thiếu sẽ làm sai lệch nghiêm trọng kết quả khai phá [12].

Một phần của tài liệu xử lý giá trị thiếu trong khai phá dữ liệu (Trang 32)