5. Phƣơng pháp nghiên cứu
1.1.5. Những thách thức trong Khai phá dữ liệu
Dữ liệu thiếu và nhiễu: Mức độ nhiễu cao trong dữ liệu dẫn đến thuật toán thiếu chính xác.
19
Vấn đề “quá phù hợp” (Overfitting): Thuật toán trên lý thuyết sử dụng bộ dữ liệu “quá phù hợp” nhƣng không phù hợp với các bộ dữ thực tế.
Sự thay đổi của dữ liệu và tri thức: Dữ thay đổi nhanh chóng có thể dẫn đến những tri thức đã khai phá trƣớc đây không còn phù hợp.
Đánh giá các mẫu dữ liệu tìm đƣợc: Việc kiểm tra tính hữu ích của các mẫu phát hiện đƣợc cũng là một thách thức lớn với khai phá dữ liệu.
Làm việc với các dữ liệu phức tạp: Hiện nay, ngoài cơ sở dữ liệu quan hệ sự phát triển của mạng máy tính, tự động hóa,… làm cho dữ liệu có thể đƣợc thu thập ở nhiều nguồn với nhiều định dạng khác nhau, kích thƣớc rất lớn. Việc phát hiện tri thức từ các dạng dữ liệu này rất phức tạp và là một thách thức rất lớn với khai phá dữ liệu.
Dữ liệu lớn: Khác với trong lý thuyết, các tập dữ liệu cần khai phá trong thực tế thƣờng có kích thƣớc rất lớn để đảm bảo các tri thức sinh ra có mức độ chính xác cần thiết. Tuy nhiên, các thuật toán khai phá dữ liệu thƣờng có độ phức tạp đa thức trở lên làm tăng thời gian xử lý khi đầu vào lớn. Hiện nay, mặc dù kích thƣớc bộ nhớ trong của máy tính tăng đáng kể nhƣng không thể đáp ứng kịp với việc tăng kích thƣớc dữ liệu. Vì vậy, việc cải tiến, vận dụng các kỹ thuật xác suất, lấy mẫu, đệm, song song, …vào các giải thuật hoặc dùng các máy tính chuyên biệt hay sử dụng mô hình phân tán...cũng là một trong nhiều lựa chọn đƣợc nghiên cứu và sử dụng hiện nay. Ngoài ra, việc lựa chọn ngôn ngữ lập trình, đảm bảo việc cấp phát bộ nhớ cho toàn bộ giải thuật cũng là một vấn đề đáng quan tâm.