Các phƣơng pháp phân cụm dựa trên lƣới

CHƢƠNG I PHÂN CỤM DỮ LIỆU

1.2. Các phƣơng pháp và các thuật toán phân cụm dữ liệu [2]

1.2.4. Các phƣơng pháp phân cụm dựa trên lƣới

Các phương pháp phân cụm dựa vào mật độ như DBSCAN, OPTICS phải đổi có thể sẽ thất bại trong không gian dữ liệu với số chiều cao và phải thiết lập các tham số 

và MinPts. Để nâng cao hiệu quả của phân cụm, tiếp cận phân cụm dựa trên lưới sử dụng cấu trúc dữ liệu dạng lưới. Tiếp cận này phân chia không gian dữ liệu vào một số lượng hữu hạn các ô tạo nên dạng hình lưới. Tiện lợi chính của tiếp cận này là thời gian xử lý nhanh và nó không phụ thuộc vào số lượng các đối tượng dữ liệu, chỉ phụ thuộc vào số lượng các ô ở mỗi chiều trong không gian lượng hóa.

Một số thuật toán cơ bản của tiếp cận dựa trên lưới là thuật toán STING, thuật toán này tìm kiếm theo thống kê các thông tin nằm trong các ô. Thuật toán WaveCluster phân cụm dữ liệu sử dụng phương pháp biến đối sóng và thuật toán CLIQUE trình bày cách tiếp cận dựa vào mật độ và dựa vào lưới để phân cụm dữ liệu nằm trong không gian với số chiều lớn. Xem chi tiết ở [5]

1.2.4.1. Thuật toán STRING: A STatistical INformation Grid approach

STING là một cấu trúc dữ liệu đa mức dựa trên lưới, trong không gian dữ liệu được chia thành các ô hình chữ nhật. Có các ô tương ứng với các mức khác nhau để giải quyết bài toán, cách phân chia ô như vậy tạo ra một cấu trúc phân cấp: mỗi ô ở mức cao được phân chia thành một số ô ở mức thấp hơn tiếp theo. Thông tin thống kê liên quan tới thuộc tính của mỗi ô như mean, maximum, minimum được tính toán trước và lưu trữ. Những thông tin thông kê này sẽ trợ giúp cho quá trình truy vấn như sau:

Hình 1.9: Ba tầng liên tiếp nhau của cấu trúc STING

Trong hình 1.9 trình bày 3 tầng liên tiếp nhau của cấu trúc STING, mỗi ô ở tầng trên được phân chia thành bốn ô ở tầng tiếp theo. Các tham số thống kê ở mức cao có thể được dễ dàng tính toán bởi các tham số từ các ô ở mức thấp hơn. Các tham số này bao gồm: số lượng đối tượng trong ô: count, giá trị trung bình: mean, độ lệch chuẩn: s, giá trị nhỏ nhất của thuộc tính của các đối tượng trong ô: min, giá trị lớn nhất của thuộc tính của các đối tượng trong ô: max và kiểu phân bố trong các ô. Dữ liệu được đưa vào trong cấu trúc lưới bắt đầu từ mức thấp nhất. Các tham số count, m, s, min, max ở mức này được tính toán trực tiếp từ dữ liệu. Giá trị của phân bố có thể được đặt bởi người sử dụng. Kiểu phân bố ở ô mức cao được tính toán dựa trên các kiểu phân bố ở các ô tương ứng ở mức thấp kề nó theo một ngưỡng cho trước. Nếu các phân bố ở mức thấp giống nhau và bị lỗi khi kiểm tra bởi ngưỡng, kiểu phân bố ở ô mức cao sẽ là không xác định (được đặt là none).

Để thực hiện phân cụm trên cấu trúc lưới, người sử dụng cung cấp mật độ ở các ô như là tham số đầu vào. Sử dụng tham số này, áp dụng tiếp cận Top-down, phương pháp dựa trên lưới tìm các vùng có mật độ chấp nhận được bằng việc thực hiện các thao tác sau:

chắn mà các ô trong đó sẽ trở thành một cụm. Các ô không chắc chắn sẽ bị loại bỏ. Các ô thỏa mãn truy vấn được tinh chỉnh lại bằng cách lặp lại thủ tục tại mức tiếp theo của cấu trúc. Tiến trình này được lặp lại cho đến khi mức cuối cùng được tìm thấy. Tại đó, nếu truy vấn xác định được kết quả, các vùng chứa các ô thích hợp thỏa mãn truy vấn được trả về. Trường hợp khác, dữ liệu rơi vào các ô thiưch hợp được khôi phục lại, và tiến trình tiếp theo được thực hiện cho đến khi chúng gặp các yêu cầu của truy vấn.

1.2.4.2. Thuật toán CLIQUE

Thuật toán CLIQUE tích hợp cả hai phương pháp phân cụm dựa trên mật độ và trên lưới. CLIQUE tìm kiếm các cụm trong không gian con của dữ liệu. Nó được sử dụng rộng rãi để phân cụm dữ liệu đa chiều phân bố thưa thớt và khó nhận ra các cụm trong không gian nhiều chiều này.

Trong thuật toán CLIQUE, không gian dữ liệu được chia thành các khối chữ nhật không chồng nhau lên bằng phân đoạn dọc theo mỗi chiều. Một khối là dày đặc nếu nó nó có số lượng các điểm dữ liệu bao gồm nó vượt quá thông số vào của mô hình. Một cụm được định nghĩa là một tập lớn nhất của các khối dày đặc liên kết với nhau.

CLIQUE thực hiện phân cụm dữ liệu nhiều chiều bằng di chuyển từ không gian ít chiều tới không gian nhiều chiều hơn. Khi tìm các khối có mật độ dày đặc tại vùng k- chiều, CLIQUE sử dụng thông tin phân cụm đạt được từ vùng (k-1)-chiều để làm giảm quá trình tìm kiếm không cần thiết. Điều này được thực hiện bằng cách quan sát thông tin tiên nghiệm được sử dụng trong khám phá luật kết hợp (Argawal & Srikant, 1994). Việc sự dụng thông tin biết trước này nhằm làm giảm quá trình tìm kiếm trong không gian tìm kiếm. Áp dụng tính chất này vào thuật toán QLIQUE có thể phát biểu như sau:

Nếu một khối k-chiều là dày đặc thì đó là các ánh xạ của chúng trong không gian (k-1)-chiều. Điều đó có nghĩa: một khối được xem là mật độ dày đặc trong k-chiều, nếu chúng ta kiểm tra các khối ánh xạ của nó trong không gian (k-1) chiều hình thành các khối và tìm xem nếu có bất kỳ một khối nào thưa thì chúng ta biết rằng khối trong không gian k-chiều sẽ không dày đặc.

Hình 1.10: CLIQUE xác định các vùng tiềm năng dựa trên các đơn vị dày đặc Thuật toán CLIQUE được minh họa trong hình 1.10. Thông thường, kết quả vùng t m kiếm là nhỏ hơn so với vùng ban đầu. Các khối dày đặc đại diện để xác định các cụm. Điều kiện tìm ra các cụm, thuật toán CLIQUE mô tả thông tin tối thiểu về các cụm như sau: Với mỗi cụm, nó xác định vùng lớn nhất phủ các khối liên kết dày đặc. Sau đó nó xác định một phủ tối thiểu cho mỗi cụm.

CLIQUE tự động tìm các không gian con của không gian có số chiều cao nhất thỏa mãn các cụm mật độ cao tồn tại trong các các không gian con. Nó sẽ không nhạy cảm với thứ tự của các điểm dữ liệu và phân bố dữ liệu. Thuật toán phân chia tuyến tính với cỡ của dữ liệu vào và có thang chia tốt theo số chiều khi số lượng dữ liệu tăng. Tuy nhiên, tính chính xác của các cụm kết quả có thể giảm tại tính đơn giản hóa của phương pháp.

CHƢƠNG II. PHÂN CỤM DỮ LIỆU ĐA MỤC TIÊU VÀ MỘT SỐ KỸ THUẬT TỐI ƢU HÓA CỤM

Các phƣơng pháp phân cụm dựa trên lƣới

Giải thuật di truyền (Genetic Algorithm)

Phân cụm các điểm dữ liệu