6. Cấu trúc luận văn
1.7. Những thách thức trong ứng dụng và nghiên cứu kỹ thuật KPDL
Dữ liệu động: Hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên
tục. Dữ liệu có thể thay đổi theo thời gian dẫn đến việc khai phá dữ liệu bị ảnh hƣởng. Mô hình hay tri thức phát hiện đƣợc bị thay đổi theo thời gian (vì mô hình hay tri thức phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai phá); Việc này làm cho các mẫu khai thác trƣớc đó mất giá trị.
Dữ liệu thiếu: Xử lý dữ liệu có số chiều, số thuộc tính lớn, các thuộc tính
không phù hợp, các bộ giá trị không đầy đủ, bị thiếu giá trị trong các miền thuộc tính sẽ ảnh hƣởng rất lớn đến việc khai phá dữ liệu. Chẳng hạn nhƣ khi khai phá dữ liệu, các hệ thống tƣơng tác với nhau, phụ thuộc nhau, chỉ cần thiếu một vài giá trị nào đó sẽ dẫn đến các mâu thuẫn, không chính xác, không hoàn chỉnh sẽ gây ra việc tìm ra các mẫu giả, dẫn đến tri thức tìm đƣợc sai lệch với thực tế.
Dữ liệu bị nhiễu và không chắc chắn: Dữ liệu có thể bị ảnh hƣởng, bị nhiễu bởi tác động của môi trƣờng bên ngoài, hay bộ dữ liệu không hoàn chỉnh làm cho dữ liệu không phản ánh trung thực, chính xác của các quy luật, tri thức mà ta tìm đƣợc.
Vấn đề “quá phù hợp” (Overfitting): Với các hệ thống khai phá dữ liệu theo mô hình học có giám sát có thể xảy ra tình trạng quá phù hợp với kết quả đã biết, nghĩa là kết quả của mô hình có thể sẽ phù hợp với tập dữ liệu huấn luyện nhƣng lạ không có khả năng đáp ứng cho tập dữ liệu kiểm tra. Để khắc phục tình trạng này thƣờng phải thực hiện thêm việc kiểm tra chéo để đánh giá mô hình, hoặc sử dụng các biện pháp thống kê cổ điển.
Khả năng tích hợp với các hệ thống khác: Một ứng dụng để đạt đƣợc hiệu
quả cao, linh hoạt cần có khả năng tích hợp với các hệ thống khác nhƣng trên thực tế khá khó khăn trong các hệ thống khai phá dữ liệu. Điều này xuất phát từ chính các kỹ thuật khai phá dữ liệu là phải xây dựng một mô hình phù hợp để tìm ra các mẫu đặc trƣng.