6. Kết cấu luận văn
1.5. NHỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU
Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn hơn. Sau đây là một số các thách thức và khó khăn cần được quan tâm [5]:
- Các CSDL lớn hơn rất nhiều: CSDL với hàng trăm trường và bảng, hàng triệu bản ghi và kích thước lên tới nhiều gigabyte là vấn đề hoàn toàn bình thường.
- Số chiều cao: không chỉ thường có một số lượng rất lớn các bản ghi trong CSDL mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến) làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ.
- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu (động) có thể làm cho các mẫu phát hiện trước đó không hợp lệ. Thêm vào đó, các biến đã đo trong một CSDL ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo mới. Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi.
- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các CSDL thương mại. Các thuộc tính quan trọng có thể bị mất nếu CSDL không được thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều chiến lược thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc.
- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có cầu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện
tinh vi hơn cho việc biểu diễn tri thức về nội dung của một CSDL sẽ đòi hỏi các giải thuật phải có khả năng sử dụng hiệu quả các thông tin này. Về mặt lịch sử, các giải thuật khai phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù các kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát triển.
- Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt. Các giải pháp có thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng đồ thị, cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức.
- Người dùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri thức và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn giản. Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của xử lý khám phá tri thức.
- Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có thể không hữu ích lắm. Các vấn đề tích hợp điển hình gồm có việc tích hợp với một DBMS (tức là qua một giao diện truy vấn), tích hợp với các bảng tính và các công cụ trực quan và điều tiết các dự đoán cảm biến thời gian thực.