Thiếu giá trị và các vấn đề của nó là rất phổ biến trong quá trình điền đầy dữ liệu. Một số phương pháp đã được đề xuất để xử lý dữ liệu bị mất trong bộ dữ liệu và tránh các vấn đề gây ra bởi nó. Mục này thảo luận về các vấn đề khác nhau gây ra bởi các giá trị còn thiếu và những cách khác nhau mà chúng ta có thể giải quyết.
Thiếu dữ liệu là một vấn đề quen thuộc và không thể tránh khỏi trong các bộ dữ liệu lớn và được thảo luận rộng rãi trong lĩnh vực khai phá dữ liệu và thống kê.
Do đó phân tích tác động của các vấn đề gây ra bởi các giá trị còn thiếu và tìm ra
các giải pháp để giải quyết với chúng là một vấn đề quan trọng trong lĩnh vực Điền đầy và Chuẩn bị Dữ liệu. Trong mục này, chúng ta thảo luận về những khiếm khuyết khác nhau mà chúng ta phải đối mặt khi nói đến dữ liệu bị thiếu và xem chúng có thể được giải quyết như thế nào.
37
2.2.1. Các loại khác nhau của việc thiếu dữ liệu
Vấn đề thiếu dữ liệu nằm ở hầu hết các cuộc điều tra và các thí nghiệm được thiết kế. Một trong những phương pháp phổ biến là bỏ qua các trường hợp thiếu các giá trị, việc bỏ qua các trường hợp thiếu các giá trị đôi khi có thể dẫn đến việc loại bỏ một phần lớn của bộ dữ liệu dẫn đến kết quả không thích hợp.
Các loại cơ chế bị thiếu khác được nêu dưới đây:
❖ MCAR – Missing Completely at Random
Thuật ngữ “Thiếu hoàn toàn ngẫu nhiên” dùng để chỉ dữ liệu ở đó cơ chế mất dữ liệu không phụ thuộc vào biến số quan tâm, hay bất kỳ biến nào khác, được quan sát trong tập dữ liệu [64]. Ở đây dữ liệu được thu thập và được quan sát một cách tùy tiện và dữ liệu thu thập không phụ thuộc vào bất kỳ biến số khác của tập dữ liệu.
Loại dữ liệu bị thiếu này rất hiếm khi được tìm thấy và phương pháp tốt nhất là bỏ qua các trường hợp như vậy.
❖ MAR – Missing at Random
Đôi khi dữ liệu có thể không bị mất một cách ngẫu nhiên nhưng có thể được gọi là “Thiếu ở chế độ ngẫu nhiên”. Chúng ta có thể xem xét một tập Xi như mất dữ liệu một cách ngẫu nhiên nếu dữ liệu đáp ứng yêu cầu rằng sự thiếu sót không phụ thuộc vào giá trị của Xi sau khi kiểm soát một biến khác.
❖ NAMR – Not missing at Random
Nếu dữ liệu không bị thiếu ở một cách ngẫu nhiên hoặc thiếu thông tin thì nó được gọi là “Không thiếu ở dạng ngẫu nhiên”. Tình huống như vậy xảy ra khi cơ chế mất dữ liệu phụ thuộc vào giá trị thực tế của dữ liệu bị thiếu [65]. Mô hình hóa một điều kiện như vậy là một nhiệm vụ rất khó khăn để đạt được. Điều này có nghĩa là chúng ta cần phải viết một mô hình cho dữ liệu bị thiếu và sau đó tích hợp nó vào một mô hình phức tạp hơn để ước lượng các giá trị còn thiếu.
38
2.2.2. Phần tử ngoại lai
Phần tử ngoại lai trong cơ sở dữ liệu gồm hai loại: i) loại thứ nhất là các dữ liệu được thu thập hoặc tạo sinh theo một quy luật khác với các dữ liệu khác và được xem là dữ liệu sai hay dữ liệu không hợp lệ; ii) loại thứ hai là dữ liêu hợp lệ nhưng có những đặc điểm khác biệt so với đa số dữ liệu.
Cả hai loại đều có đặc tính chung là có dấu hiệu khác biệt so với đa số các dữ liệu khác, vấn đề đặt ra là phát triển các phần mềm để phát hiện tự động các phần tử có dấu hiệu khác biệt trong CSDL cho phép các chuyên gia xác định xem cần loại bỏ nó ra khỏi CSDL hay cần xử lý đặc biệt đối với các phần tử ngoại lai được phát hiện này. Đến nay, ngoài các phương pháp xác định dữ liệu ngoại lai bằng phương pháp thống kê, có nhiều công trình nghiên cứu về phát hiện phần tử ngoại lai. Các phương pháp chính để xác định phần tử ngoại lai bao gồm:
❖ Xác định phần tử ngoại lai theo khoảng cách (Distance-Based):
Theo hướng tiếp cận này cần phải xác định một hàm đo khoảng cách (metric) giữa các phần tử trong tập dữ liệu. Các phần tử ngoại lai là những phần tử nằm khá xa với tập các phần tử còn lại.
❖ Xác định theo thống kê (Statistical-Based):
Hướng nghiên cứu này dựa trên việc xác định các mô hình phân phối thống kê mà các phần tử phải tuân theo (phân phối chuẩn, phân phối X2...). Phần tử ngoại lai là những phần tử không tuân theo các luật này.
❖ Xác định theo độ khác hiệt (Deviation-Based):
Hướng nghiên cứu này dựa trên việc xác định những đặc trưng cơ bản của các phần tử trong một tập các phần tử. Các phần tử có những đặc trưng khác biệt quá lớn so với các phần tử còn lại thì là các phần tử ngoại lai.
39