8. CẤU TRÚC ĐỀ TÀỊ
1.4.8. Những khĩ khăn trong khai phá dữ liệu
Việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu gặp nhiều khĩ khăn, nhưng khơng phải là khơng giải quyết đuợc mà chúng cần được tìm hiểu để cĩ thể phát triển tốt hơn. Những khĩ khăn phát sinh trong khai phá dữ liệu chính là dữ liệu trong thực tế thường động, khơng đầy đủ, lớn và bị nhiễụ Trong trường hợp khác, người ta khơng biết CSDL cĩ chứa thơng tin cần thiết cho việc khai thác hay khơng và làm thế nào để giải quyết sự dư thừa thơng tin khơng thích hợp nàỵ
- Dữ liệu lớn: Hiện nay các CSDL với hàng trăm trường và bảng, hàng triệu bản ghi với kích thước rất lớn, cĩ thể lên đến GB. Các phương pháp giải quyết hiện nay là đưa ra một ngưỡng cho CSDL, lấy mẫu, các phương pháp tính xấp xỉ, xử lí song song.
- Kích thước lớn: Khơng chỉ cĩ số lượng bản ghi mà số các trường trong CSDL cũng nhiềụ Vì vậy mà kích thước của bài tốn trở nên lớn làm tăng khơng gian tìm kiếm. Hơn nữa, nĩ cũng làm tăng khả năng một thuật tốn khai phá dữ liệu cĩ thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thước tác động của bài tốn và sử dụng các tri thức biết trước để xác định các biến khơng phù hợp.
- Dữ liệu động: Đặc điểm cơ bản của hầu hết các CSDL là nội dung của chúng thay đổi liên tục. Chẳng hạn như các biến trong CSDL của ứng dụng đã cho chúng cĩ thể bị thay đổi, bị xĩa hoặc là tăng lên theo thời gian. Dữ liệu cĩ thể thay đổi theo thời gian và việc khai phá dữ liệu bị ảnh hưởng bởi thời điểm quan sát dữ liệu, do đĩ cĩ thể làm cho mẫu khai thác được trước đĩ mất giá trị. Vấn đề này
Phát hiện tri thức trong tập dữ liệu lớn
được giải quyết bằng giải pháp tăng trưởng để nâng cấp các mẫu và coi những thay đổi như là cơ hội để khai thác bằng cách sử dụng nĩ để tìm kiếm các mẫu bị thay đổị
- Các trường dữ liệu khơng phù hợp: Một đặc điểm quan trọng khác là tính khơng thích hợp của dữ liệu – nghĩa là mục dữ liệu trở thành khơng thích hợp với trọng tâm hiện tại của việc hiện tại của việc khai thác. Bên cạnh đĩ, tính ứng dụng của một thuộc tính đối với một tập con của CSDL cũng là một vấn đề đơi khi cũng liên quan đến độ phù hợp.
- Các giá trị bị thiếu: Sự cĩ mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp cĩ thể ảnh hưởng đến việc khai phá dữ liệụ Trong hệ thống tương tác, sự thiếu vắng dữ liệu quan trọng cĩ thể dẫn tới yêu cầu cho giá trị của nĩ hoặc kiểm tra để xác định giá trị của nĩ. Hoặc cũng cĩ thể sự vắng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất cĩ thể được xem như một giá trị trung gian và giá trị khơng biết.
- Các trường dữ liệu bị thiếu: Một quan sát khơng đầy đủ CSDL cĩ thể làm cho dữ liệu cĩ giá trị bị xem như cĩ lỗị Việc quan sát CSDL phải phát hiện được tồn bộ các thuộc tính cĩ thể dùng để thuật tốn khai phá dữ liệu cĩ thể áp dụng để giải quyết bài tốn. Giả sử ta cĩ các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng khơng làm được điều đĩ thì cĩ nghĩa là đã cĩ lỗi trong dữ liệụ Đây cũng là vấn đề thường xảy ra trong CSDL kinh doanh. Các thuộc tính quan trọng cĩ thể sẽ bị thiếu dữ liệu khơng được chuẩn bị.
Phát hiện tri thức trong tập dữ liệu lớn
- Quá phù hợp: Khi một thuật tốn tìm kiếm tham số tốt nhất cho một mơ hình nào đĩ sử dụng một tập dữ liệu hữu hạn, nĩ cĩ thể sẽ bị tình trạng "quá độ" dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tượng chỉ phù hợp với dữ liệu đĩ mà khơng cĩ khả năng đáp ứng cho các dữ liệu lạ), làm cho mơ hình hoạt động rất kém đối với các dữ liệu thử. Các giải pháp khắc phục như đánh giá chéo, thực hiện theo nguyên tắc nào đĩ hoặc sử dụng các biện pháp thống kê khác.
- Khả năng biểu đạt mẫu: Trong rất nhiều ứng dụng, điều quan trọng là những điều khai thác được phải càng dễ hiểu với con người càng tốt. Vì vậy, các giải pháp thường bao gồm việc diễn tả dưới dạng đồ hoạ, xây dựng cấu trúc luật với các đồ thị cĩ hướng, biểu diễn bằng ngơn ngữ tự nhiên và kỹ thuật khác nhằm biểu diễn các tri thức và dữ liệụ
- Sự tương tác với người sử dụng các tri thức sẵn cĩ: Rất nhiều cơng cụ và phương pháp khai phá dữ liệu khơng thực sự tương tác với người dùng và khơng dễ dàng kết hợp cùng với các tri thức đã biết trước đĩ. Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệụ Đã cĩ nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng CSDL suy diễn để phát hiện tri thức, những tri thức này sau đĩ được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố xác suất dữ liệu trước đĩ như một dạng mã hĩa tri thức cĩ sẵn.
Phát hiện tri thức trong tập dữ liệu lớn
CHƯƠNG IỊ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU - MỘT SỐ THUẬT TỐN PHÁT HIỆN LUẬT KẾT HỢP