Những thách thức đối với khai phá dữ liệu

Một phần của tài liệu LUẬN văn THẠC sĩ ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU NHẰM hỗ TRỢ CÔNG tác tư vấn MUA HÀNG tại các DOANH NGHIỆP vừa và NHỎ ở TỈNH KIÊN GIANG (Trang 27 - 29)

Sau đây là một số thách thức và khó khăn cần quan tâm [3]:

- Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và kích thước lên tới nhiều gigabyte là vấn đề hoàn toàn bình thường và cơ sở dữ liệu terabyte (1012 byte) cũng đã bắt đầu xuất hiện.

- Số chiều cao: không chỉ thường có một số lượng rất lớn các bản ghi trong cơ sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các biến) làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ.

Vậy nên cần giảm bớt hiệu quả kích thước của bài toán và tính hữu ích của tri thức cho trước để nhận biết các biến không hợp lệ.

- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu (động) có thể làm cho các mẫu phát hiện trước đó không hợp lệ. Thêm vào đó, các biến đã đo trong một cơ sở dữ liệu ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm các phép đo mới. Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi.

- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các cơ sở dữ liệu thương mại. Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không được thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều chiến lược thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc.

- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị có cầu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn cho việc biểu diễn tri thức về nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật phải có khả năng sử dụng hiệu quả các thông tin này. Về mặt lịch sử, các giải thuật khai phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn giản, mặc dù các kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang được phát triển.

- Tính dễ hiểu của các mẫu: trong nhiều ứng dụng, điều quan trọng là những gì khai thác được phải càng dễ hiểu đối với con người thì càng tốt. Các giải pháp có thể thực hiện được bao gồm cả việc biểu diễn được minh họa bằng đồ thị, cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức.

- Người dùng tương tác và tri thức sẵn có: nhiều phương pháp khám phá tri thức và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo

các cách đơn giản. Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của xử lý khám phá tri thức.

- Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có thể không hữu ích lắm. Các vấn đề tích hợp điển hình gồm có việc tích hợp với một DBMS (tức là qua một giao diện truy vấn), tích hợp với các bảng tính và các công cụ trực quan và điều tiết các dự đoán cảm biến thời gian thực.

Một phần của tài liệu LUẬN văn THẠC sĩ ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU NHẰM hỗ TRỢ CÔNG tác tư vấn MUA HÀNG tại các DOANH NGHIỆP vừa và NHỎ ở TỈNH KIÊN GIANG (Trang 27 - 29)