Các thách thức khi khai phá dữ liệu

Một phần của tài liệu Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu (Trang 25)

Mặc dù các phương pháp được ứng dụng trong khai phá dữ liệu rất phong phú và đa dạng cho việc giải quyết các bài toán thực tế hiện nay. Tuy nhiên vấn đề này gặp không ít khó khăn và thách thức lớn từ việc chuẩn bị cho đến việc khai phá cũng như việc trình bày và sử dụng tri thức đã được tìm thấy.

1.2.6.1. Khó khăn về cơ sở dữ liệu

Việc khai phá dữ liệu thường dựa trên một tập cơ sở dữ liệu lớn, các dữ liệu trong thực tế thường phức tạp, nhập nhằng, đa dạng, có tính chất thời gian, không đầy đủ hoặc nhiễu,… Ngoài ra, cơ sở dữ liệu có thể được lưu trữ phân tán, với số lượng thuộc tính và bản ghi quá đa dạng và phong phú dẫn đến độ phức tạp của bài toán quá lớn, không gian tìm kiếm rộng.

Vấn đề dữ liệu phụ thuộc vào thời gian cũng gây không ít khó khăn khi khai phá, các dữ liệu này phụ thuộc vào thời gian và tính chất của dữ liệu thay đổi vào thời điểm quan sát hay khai phá nên tính đúng đắn hay tri thức khai phá được phụ thuộc vào thời điểm sử dụng. Có những dữ liệu chỉ đúng trong từng thời điểm nhất định nên chính điều này có thể gây nên các hiệu ứng phụ khi khai phá dữ liệu.

Một số khó khăn nữa khi khai phá dữ liệu liên quan đến cơ sở dữ liệu là các thuộc tính không phù hợp, các bộ giá trị không đầy đủ gây nên nhầm lẫn hoặc ảnh hưởng tới quá trình khai phá. Đôi khi, các thuộc tính còn bị thiếu gây nên các giá trị của dữ liệu bị giảm.

Vấn đề nhập nhằng, không chắc chắn của dữ liệu cũng cần được quan tâm, với những dữ liệu dạng này gây nên sự phát sinh lỗi hoặc tri thức không đúng.

Mối quan hệ, liên quan giữa các thuộc tính cũng phải được xét đến, bộ thuộc tính hay giá trị có cấu trúc phân cấp, phân lớp hay có mối liên quan với nhau đôi khi cũng gây nên các lỗi trong cơ sở dữ liệu phục vụ khai phá.

1.2.6.2. Một số vấn đề cần quan tâm

Khi khai phá dữ liệu, các vấn đề cần quan tâm nảy sinh từ khi bắt đầu đến khi sử dụng lại tri thức được khai phá, tuy vậy có một số vấn đề mà chúng ta cần quan tâm khi khai phá dữ liệu, đó là:

Sự quá khổ (overfitting): Điều này thường xuyên xảy ra đối với một hệ thống khai phá dữ liệu. Khi sử dụng thuật toán để đưa ra một mô hình kết quả rất có thể mô hình kết quả không phù hợp hoặc không có khả năng đáp ứng cho các tri thức dữ liệu dạng mới dẫn đến mô hình hoạt động không hiệu quả. Để có thể khắc phục được sự quá khổ này, người ta thường dùng các thuật toán kiểm tra chéo kết hợp với một số nguyên tắc cụ thể như thống kê, dự đoán, cắt tỉa,…

Tính dễ hiểu của mô hình kết quả: Mô hình kết quả là đối tượng quan trọng nhất trong suốt quá trình khai phá dữ liệu, đây cũng là sản phẩm cuối cùng của quá trình khai phá. Mô hình kết quả thu được phải dễ hiểu cho người sử dụng như được thể hiện dưới dạng đồ họa, trực quan, có cấu trúc đơn giản, dễ biểu diễn bởi ngôn ngữ tự nhiên hay các kỹ thuật quen thuộc,…

Sự tác động của người sử dụng tri thức vào các tri thức thu được: Vấn đề này là cốt yếu trong quá trình khai phá dữ liệu, đây là giai đoạn cuối cùng cũng như là mục đích cuối cùng của quá trình khai phá. Những tri thức này được sử đụng để phân tích, dự đoán sự phân bố xác suất dữ liệu trước đó hay phục vụ cho một công đoạn khai phá ra tri thức mới hoặc hỗ trợ cho người sử dụng ra quyết định ngay trong lĩnh vực đó. Hoặc chúng có thể được tổng hợp lại dưới dạng các báo cáo để hỗ trợ cho các quyết định khác nhau

Một phần của tài liệu Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu (Trang 25)