4. Khai phỏ dữ liệu
4.1 Khai phỏ dữ liệu bằng Phƣơng phỏp tiếp cận.
Khai phỏ dữ liệu, giống như phõn cụm dữ liệu, là một hoạt động thăm dũ, do đú, phương phỏp phõn cụm dữ liệu đang rất thớch hợp để khai phỏ dữ liệu. Phõn cụm dữ liệu thường là một bước khởi đầu quan trọng của một số trong quỏ trỡnh khai phỏ dữ liệu [Fayyad 1996]. Một số phương phỏp khai phỏ dữ liệu sử dụng phương phỏp phõn cụm dữ liệu được cơ sở dữ liệu phõn khỳc, mẫu tiờn đoỏn, và trực quan húa cơ sở dữ liệu lớn.
Phõn đoạn. Phương phỏp phõn cụm dữ liệu được sử dụng trong khai phỏ dữ liệu vào cơ sở dữ liệu phõn khỳc thành cỏc nhúm đồng nhất. Điều này cú thể phục vụ mục đớch của nộn dữ liệu (làm việc với cỏc cụm hơn là cỏc cỏ nhõn), hoặc để nhận biết cỏc đặc điểm của dõn số phụ thuộc mà cú thể được nhắm mục tiờu cho cỏc mục đớch cụ thể (vớ dụ, tiếp thị nhằm vào người già).
Thuật toỏn phõn cụm dữ liệu K-means [Faber 1994] đó được sử dụng để phõn cụm điểm ảnh trong hỡnh ảnh Landsat [Faber et al. 1994]. Mỗi điểm ảnh ban đầu cú 7 giỏ trị từ cỏc ban nhạc vệ tinh khỏc nhau, bao gồm hồng ngoại. Những giỏ trị 7 là khú khăn cho con người để đồng húa và phõn tớch mà khụng cần sự trợ giỳp. Cỏc điểm ảnh với cỏc giỏ trị 7 tớnh năng được nhúm thành 256 nhúm, sau đú mỗi điểm ảnh được gỏn giỏ trị của cụm trung tõm. Hỡnh ảnh này sau đú cú thể được hiển thị với những thụng tin khụng gian cũn nguyờn vẹn. Con người người xem cú thể nhỡn vào một hỡnh ảnh đơn và xỏc định một khu vực quan tõm (vớ dụ, đường cao tốc hoặc rừng) và nhón nú như là một khỏi niệm. Hệ thống này sau đú xỏc định điểm ảnh khỏc trong cựng một nhúm như là một vớ dụ của khỏi niệm đú.
Đoỏn trước mẫu. Thống kờ phương phỏp phõn tớch dữ liệu thường liờn quan đến thử nghiệm một mụ hỡnh giả thuyết của cỏc nhà phõn tớch đó cú trong tõm trớ. Khai thỏc dữ liệu cú thể giỳp người dựng phỏt hiện giả thuyết tiềm năng trước khi sử dụng cỏc cụng cụ thống kờ. Đoỏn trước mụ hỡnh sử dụng phõn nhúm để cỏc nhúm, sau đú infers quy tắc để characterize cỏc nhúm và đề xuất cỏc mụ hỡnh. Vớ dụ, người đăng ký tạp chớ cú thể được nhúm dựa trờn một số yếu tố (tuổi tỏc, giới tớnh, thu nhập, vv), sau đú cỏc nhúm kết quả đặc trưng trong một nỗ lực để tỡm một mụ hỡnh mà sẽ phõn biệt cỏc thuờ bao này sẽ gia hạn đăng ký của họ từ những người mà sẽ khụng [Simoudis 1996]. Hỡnh ảnh. Cụm trong cơ sở dữ liệu lớn cú thể được sử dụng để hỡnh dung, để
hỗ trợ cỏc nhà phõn tớch của con người trong việc xỏc định cỏc nhúm và nhúm con cú đặc điểm tương tự. WinViz [Lee và Ong 1996] là một cụng cụ khai thỏc dữ liệu trực quan, trong đú cú nguồn gốc cụm cú thể được xuất khẩu như cỏc thuộc tớnh mới mà sau đú cú thể được đặc trưng bởi hệ thống. Vớ dụ, ngũ cốc ăn sỏng được nhúm theo calo, đạm, chất bộo, natri, chất xơ, carbohydrate, đường, kali, vitamin và cỏc nội dung trờn phục vụ. Khi thấy cỏc cụm kết quả, người sử dụng cú thể xuất cỏc cụm để Win-Viz là thuộc tớnh. Hệ thống này cho thấy rằng một trong những cụm được đặc trưng bởi nội dung kali cao, và cỏc nhà phõn tớch của con người nhận ra cỏc cỏ nhõn trong nhúm như là thuộc cỏm "gia đỡnh ngũ cốc", dẫn đến một khỏi quỏt rằng "ngũ cốc, cỏm nhiều chất kali."