II. KHAI PHÁ D LIỆU
2.1. Khai phá dữliệu bằng phƣơng pháp tiếp cận
Khai phá dữ liệu, giống nhƣ phân cụm dữ liệu, là một hoạt động thăm dò, do đó, phƣơng pháp phân cụm dữ liệu đang rất thích hợp để khai phá dữ liệu. Phân cụm dữ liệu thƣờng là một bƣớc khởi đầu quan trọng của một số trong quá trình khai phá dữ liệu [Fayyad 1996]. Một số phƣơng pháp khai phá dữ liệu sử dụng phƣơng pháp phân cụm dữ liệu đƣợc cơ sở dữ liệu phân khúc, mẫu tiên đoán, và trực quan hóa cơ sở dữ liệu lớn.
Phân đoạn. Phƣơng pháp phân cụm dữ liệu đƣợc sử dụng trong khai phá dữ liệu vào cơ sở dữ liệu phân khúc thành các nhóm đồng nhất. Điều này có thể phục vụ mục đích của nén dữ liệu (làm việc với các cụm hơn là các cá nhân), hoặc để nhận biết các đặc điểm của dân số phụ thuộc mà có thể đƣợc nhắm mục tiêu cho các mục đích cụ thể (ví dụ, tiếp thị nhằm vào ngƣời già).Thuật toán phân cụm dữ liệu K-means [Faber 1994] đã đƣợc sử dụng để phân cụm điểm ảnh trong hình ảnh Landsat [Faber et al. 1994]. Mỗi điểm ảnh ban đầu có 7 giá trị từ các ban nhạc vệ tinh khác nhau, bao gồm hồng ngoại. Những giá trị 7 là khó khăn cho con ngƣời để đồng hóa và phân tích mà không cần sự trợ giúp. Các điểm ảnh với các giá trị 7 tính năng đƣợc nhóm thành 256 nhóm, sau đó mỗi điểm ảnh đƣợc gán giá trị của cụm trung tâm. Hình ảnh này sau đó có thể đƣợc hiển thị với những thông tin không gian còn nguyên vẹn. Con ngƣời ngƣời xem có thể nhìn vào một hình ảnh đơn và xác định một khu vực quan tâm (ví dụ, đƣờng cao tốc hoặc rừng) và nhãn nó nhƣ là một khái niệm. Hệ thống này sau đó xác định điểm ảnh khác trong cùng một nhóm nhƣ là một ví dụ của khái niệm đó.
Đoán trƣớc mẫu. Thống kê phƣơng pháp phân tích dữ liệu thƣờng liên quan đến thử nghiệm một mô hình giả thuyết của các nhà phân tích đã có trong tâm trí. Khai thác dữ liệu có thể giúp ngƣời dùng phát hiện giả thuyết tiềm năng trƣớc khi sử dụng các công cụ thống kê. Đoán trƣớc mô hình sử dụng phân nhóm để các nhóm, sau đó infers quy tắc để characterize các nhómvà đề xuất các mô hình. Ví dụ, ngƣời đăng ký tạp chí có thể đƣợc nhóm dựa trên một số yếu tố (tuổi tác, giới
78 tính, thu nhập, vv), sau đó các nhóm kết quả đặc trƣng trong một nỗ lực để tìm một mô hình mà sẽ phân biệt các thuê bao này sẽ gia hạn đăng ký của họ từ những ngƣời mà sẽ không [Simoudis 1996].
Hình ảnh. Cụm trong cơ sở dữ liệu lớn có thể đƣợc sử dụng để hình dung, để hỗ trợ các nhà phân tích của con ngƣời trong việc xác định các nhóm và nhóm con có đặc điểm tƣơng tự. WinViz [Lee và Ong 1996] là một công cụ khai thác dữ liệu trực quan, trong đó có nguồn gốc cụm có thể đƣợc xuất khẩu nhƣ các thuộc tính mới mà sau đó có thể đƣợc đặc trƣng bởi hệ thống. Ví dụ, ngũ cốc ăn sáng đƣợc nhóm theo calo, đạm, chất béo, natri, chất xơ, carbohydrate,đƣờng, kali, vitamin và các nội dung trên phục vụ. Khi thấy các cụm kết quả,ngƣời sử dụng có thể xuất các cụm để Win-Viz là thuộc tính. Hệ thống này cho thấy rằng một trong những cụm đƣợc đặc trƣng bởi nội dung kali cao, và các nhà phân tích của con ngƣời nhận ra các cá nhân trong nhóm nhƣ là thuộc cám "gia đình ngũ cốc", dẫn đến một khái quát rằng "ngũ cốc, cám nhiều chất kali."