Ƣu điểm chính của phƣơng pháp tiếp cận phân cụm dựa trên lƣới là thời gian xử lý nhanh chóng, mà thƣờng là độc lập với số lƣợng đối tƣợng dữ liệu, nhƣng phụ thuộc vào chỉ số của các tế bào trong mỗi chiều trong không gian lƣợng tử hóa. Một số ví dụ điển hình của phƣơng pháp tiếp cận dựa trên lƣới điện bao gồm Sting, khám phá các thông tin thống kê đƣợc lƣu trữ trong các tế bào lƣới; WaveCluster, cụm đối tƣợng bằng cách sử dụng một phƣơng pháp biến đổi wavelet và Clique, đại diện cho một mạng lƣới [10].
Hình 2.5 Ví dụ về xác định các cụm trung tâm (hàng đầu) và các cụm có hình dạng tùy ý (hàng dưới cùng).
Thuật toán WaveCluster: Clustering Using Wavelet Transformation
WaveCluster là một thuật toán phân cụm đa mức đầu tiên tóm tắt các dữ liệu bằng cách áp dụng một cấu trúc lƣới đa chiều vào dữ liệu không gian. Sau đó sử dụng một wavelet chuyển đổi để chuyển đổi không gian đặc trƣng ban đầu, việc tìm kiếm các khu vực dày đặc trong không gian chuyển đổi.
Trong phƣơng pháp này, mỗi ô lƣới tóm tắt các thông tin của một nhóm các điểm bản đồ thành ô. Thông tin tóm tắt này thƣờng phù hợp với bộ nhớ chính để sử dụng wavelet đa mức biến đổi và phân tích cụm tiếp theo.
Khi áp dụng một biến đổi wavelet, dữ liệu đƣợc chuyển đổi để duy trì khoảng cách tƣơng đối giữa các đối tƣợng ở các cấp độ khác nhau của độ phân giải. Điều này cho phép các cụm tự nhiên trong dữ liệu để trở thành phân biệt hơn. Cụm sau đó có thể đƣợc xác định bằng cách tìm kiếm cho các khu vực dày đặc tên miền mới.
Thuật toán này có những ƣu điểm nhƣ:
* Phân cụm theo phƣơng pháp không có giám sát và nó dễ dàng loại bỏ các phần tử ngoại lai.
Hình 2.6 Ví dụ về đặc trưng của không gian 2 chiều. Từ [SCZ98].
Hình 2.7 Multiresolution of the feature space at (a) scale 1 (high resolution); (b) scale 2 (medium resolution); and (c) scale 3 (low resolution). From [SCZ98]
* Phân cụm dựa trên Wavelet là rất nhanh, với một phức tạp tính toán O(n), n là số của các đối tƣợng trong cơ sở dữ liệu. Việc thực hiện thuật toán có thể đƣợc thực hiện song song. WaveCluster là một thuật toán dựa trên lƣới và dựa trên mật độ. Nó phù hợp với nhiều yêu cầu của một thuật toán phân nhóm tốt: Nó xử lý dữ liệu lớn thiết lập hiệu quả, phát hiện ra các cụm với hình dạng bất kỳ, thành công xử lý bên ngoài, không nhạy cảm với thứ tự của đầu vào, và không yêu cầu các đặc điểm kỹ thuật của các thông số đầu vào nhƣ số cụm hoặc bán kính một khu phố. Trong nghiên cứu thực nghiệm, WaveCluster thấy tốt hơn BIRCH, CLARANS, và DBSCAN về cả hiệu quả và phân nhóm chất lƣợng. Nghiên cứu cũng phát hiện WaveCluster có khả năng xử lý dữ liệu lên đến số chiều là 20.
CHƢƠNG 3: PHÂN CỤM DỮ LIỆU VỚI THUỘC TÍNH ĐỊNH DANH
Nhƣ chúng ta đã biết thuật toán k-means ra đời từ rất sớm ban đầu để phân cụm dữ liệu thực. Tuy nhiên với sự bùng nổ thông tin nhanh chóng nhƣ hiện nay, hơn nữa dữ liệu trong thực tế rất phong phú, đa dạng: âm thanh, hình ảnh, số... dẫn đến việc khám phá tri thức trong các cơ sở dữ liệu thƣờng phải xử lý khối lƣợng dữ liệu rất lớn, nhiều khi ngay cả các thuật toán với độ phức tạp tính toán là đa thức cũng không dùng đƣợc. Việc phân và xử lý dữ liệu theo các cụm là một giải pháp hữu hiệu, vì vậy bài toán phân cụm hiện nay đƣợc nhiều ngƣời quan tâm trở lại.
Một thực tế là số chiều của dữ liệu thƣờng rất lớn (có thể lên tới vài chục thuộc tính). Nhƣ vậy việc biểu diễn số chiều này trong không gian đa chiều không có ý nghĩa và rất phức tạp. Đối với dữ liệu thực có phƣơng pháp giảm chiều bằng phƣơng pháp phân tích thành phần chính (PCA – Principal Component Analysis) [1]. Việc chọn đặc trƣng rất quan trọng đối với bài toán nhận dạng mẫu và càng ít đặc trƣng càng tốt. Nói chung ta không chọn đồng thời các đặc trƣng có độ tƣơng quan cao. Một cách thƣờng dùng để giảm đặc trƣng là phân tích thành phần chính, ý tƣởng của nó là biến đổi trực giao để chọn các vector riêng có ý nghĩa. Khi phân tích thành phần chính cần cân nhắc xem cần giữ lại bao nhiêu đặc trƣng là đủ. Tiêu chuẩn của Kaiser là bỏ các giá trị riêng nhỏ hơn 1. Một cách khác là ngƣời ta dùng biểu đồ biểu diễn các giá trị riêng đánh số theo thứ tự giảm dần và chỉ giữ lại các vector riêng lệch nhiều so với các giá trị bị loại. Đối với dữ liệu định danh với số lƣợng thuộc tính nhiều có thể giảm chiều bằng cách: chọn ra tập con dữ liệu các đặc trƣng. Nhƣng không có cách nào đánh giá đƣợc tập con nào tốt, tập con nào xấu trừ khi ta biết rất rõ về tập dữ liệu đã có.
Với kỹ thuật thông thƣờng không đạt đƣợc khi phân cụm đƣợc tiến hành trong không gian chiều cao. Chẳng hạn dữ liệu thƣa thớt, chứa các thuộc tính dƣ thừa trong dữ liệu chiều cao, sự gia tăng kích thƣớc, sự khác nhau giữa các khoảng cách của đối tƣợng. Nhƣ vậy, một số thuật toán chính nhƣ đã trình bày ở chƣơng 2, việc phân cụm với dữ liệu hỗn hợp sẽ không hiệu quả đặc biệt là dữ liệu định danh với số lƣợng thuộc tính nhiều.
Trong chƣơng này, luận văn trình bày một số thuật toán phân cụm thuộc tính định danh, đặc biệt là thuật toán phân cụm dữ liệu hỗn hợp có trọng số (MWKM) và COOLCAT cho kết quả phân cụm tốt. Thuật toán trọng số thuộc tính hỗn hợp phân cụm dữ liệu chiều cao là một phần mở rộng của thuật toán k-mode dựa trên đánh giá trọng số của từng thuộc tính nhờ phân tích mode của cụm. Thuật toán COOLCAT dùng phƣơng pháp Entropy để đánh giá chất lƣợng của cụm mà không can thiệp vào thuộc tính.