Mặc dù còn rất nhiều vấn đề mà khai phá dữ liệu cần phải tiếp tục nghiên cứu để giải quyết nhưng tiềm năng của nó đã được khẳng định bằng sự ra đời của rất nhiều ứng dụng.
Khai phá dữ liệu được ứng dụng rất thành công trong “CSDL thị trường” (database marketing), đây là một phương pháp phân tích CSDL khách hàng, tìm kiếm các mẫu trong số khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng trong tương lai. Tạp chí Business Week của Mỹ đã đánh giá hơn 50% các nhà bán lẻ đang và có ý định sử dụng “CSDL thị trường” cho hoạt động kinh doanh của họ (Berry 1994). Kết quả ứng dụng cho thấy số lượng thẻ tín dụng American Express bán ra đã tăng 15% - 20% (Berry 1994). Các ứng dụng khác của khai phá dữ liệu trong kinh doanh như phân tích chứng khoán và các văn kiện tài chính; phân tích và báo cáo những thay đổi trong dữ liệu, bao gồm Coverstory của IRI (Schmitz, Armstrong & Little 1990), Spotlight của A.C Nielsen (Nand & Kahn 1992) đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTE cho CSD y tế (Matheus, Piatestsky – Shapiro, & McNeil); phát hiện và phòng chống gian lận cũng thường là bài toán của khai phá dữ liệu và phát hiện tri thức. Ví dụ như hệ thống phát hiện gian lận trong dịch vụ y tế đã được Major và Riedinger phát triển tại Travelers insurance năm 1992. Các ứng dụng của
khai phá dữ liệu trong khoa học cũng được phát triển. Ta có thể đưa ra một số ứng dụng khoa học như:
- Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho các nhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảo sát lớn có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir).
- Phân tử sinh học: hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conkin, Fortier và Glasgow 1993) và trong các dữ liệu gen (Holder, Cool, và Djoko 1994).
- Mô hình hóa những thay đổi của thời tiết: các mẫu không thời gian như lốc, gió xoáy được tự động tìm thấy trong các tập lớn dữ liệu mô phỏng và quan sát được (Stolorz et al. 1994).
CHƯƠNG 2. KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP
Khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ liệu. Vấn đề này được Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất lần đầu vào năm 1993. Sau đó năm 1996 được Rakesh Agrawal, Heikki Mannia, Ramakrishnan Srikant, Hannu Toivonen, A.Inkeri Verkamo tiếp tục cải tiến, Ngày nay bài toán khai thác các luật kết hợp nhận được rất nhiều sự quan tâm của nhiều nhà khoa học. Việc khai thác các luật như thế nào vẫn là một trong các phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai thác dữ liệu.
Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được những thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thụy Sỹ thì dùng nước hoa hiệu Chanel” hoặc “75% khách hàng là công nhân thì mua TV thường mua loại 32 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp.