Phân cụm dựa trên lưới

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM (Trang 61 - 64)

Chương 2. MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU

2.4. Phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, để giải quyết cho đòi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trên lưới. Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để PCDL, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian. Thí dụ như dữ liệu được biểu diễn dưới dạng cấu trúc hình học của đối tượng trong không gian cùng với các quan hệ, các thuộc tính, các hoạt động của chúng. Mục tiêu của phương pháp này là lượng hoá tập dữ liệu thành các ô (Cell), các ô này tạo thành cấu trúc dữ liệu lưới, sau đó các thao tác PCDL làm việc với các đối tượng trong từng ô này. Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô. Trong ngữ cảnh này, phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chỉ có điều chúng không trộn các ô. Do vậy các cụm không dựa trên độ đo khoảng cách (hay còn gọi là độ đo tương tự đối với các dữ liệu không gian) mà nó được quyết định bởi một tham số xác định trước. Ưu điểm của phương pháp PCDL dựa trên lưới là thời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới. Một thí dụ về cấu trúc dữ liệu lưới chứa các ô trong không gian như hình sau:

Hình 2.25. Mô hình cấu trúc dữ liệu lưới

Một số thuật toán PCDL dựa trên cấu trúc lưới điển hình như [13][20]:

STING, WaveCluster, CLIQUE,…

2.4.1 Thuật toán STING

STING (STatistical INformation Grid) do Wang, Yang và Muntz đề xuất năm 1997, nó phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật. Có nhiều mức khác nhau cho các cell trong cấu trúc lưới, các cell này hình thành nên cấu trúc phân cấp như sau: Mỗi cell ở mức cao được phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp.

Giá trị của các tham số thống kê (như các giá trị trung bình, tối thiểu, tối đa) cho các thuộc tính của đối tượng dữ liệu được tính toán và lưu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF).

Các tham số này bao gồm: tham số đếm count, tham số trung bình means, tham số tối đa max tham số tối thiểu min, độ lệch chuẩn s,… .

Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở trên được tính trực tiếp thông qua các đối tượng dữ liệu này. Các truy vấn không gian được thực hiện bằng cách xét các cell thích hợp tại mỗi mức của phân cấp. Một truy vấn không gian được xác định như là một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng

Mức 1 (mức cao nhất ) có thể chỉ chứa một ô

Ô mức i-1 có thể tương ứng với 4 ô của mức i

Tầng 1 . . . . . . Tầng i-1

Tầng i

mở rộng cao, nhưng do sử dụng phương pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác nhau. Khi hoà nhập các cell của cấu trúc lưới để hình thành các cụm, các nút của mức con không được hoà nhập phù hợp (do chúng chỉ tương ứng với các cha của nó) và hình thù của các cụm dữ liệu khám phá được có các biên ngang và dọc, theo biên của các cell. STING sử dụng cấu trúc dữ liệu lưới cho phép khả năng xử lý song song, STING duyệt toàn bộ dữ liệu một lần nên độ phức tạp tính toán để tính toán các đại lượng thống kê cho mỗi cell là O(n), trong đó n là tổng số đối tượng. Sau khi xây dựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các truy vấn là O(g) với g là tổng số cell tại mức thấp nhất (g<<n).

2.4.2 Thuật toán CLIQUE

Thuật toán CLIQUE do Agrawal, Gehrke, Gunopulos, Raghavan đề xuất năm 1998, là thuật toán tự động phân cụm không gian con với số chiều lớn, nó cho phép phân cụm tốt hơn không gian nguyên thủy. Các bước chính của thuật toán như sau:

Bước 1: Phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc (nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giềng cho trước).

Bước 2: Xác định không gian con chứa các cụm được sử dụng nguyên lý Apriori.

Bước 3: Hợp các hình hộp này tạo thành các cụm dữ liệu.

Bước 4: Xác định các cụm: Trước hết nó tìm các cell đặc đơn chiều, tiếp đến chúng tìm các hình chữ nhật 2 chiều, rồi 3 chiều,…, cho đến khi hình hộp chữ nhật đặc k chiều được tìm thấy.

Hình 2.26. Thuật toán CLIQUE

Hình 2.27. Quá trình nhận dạng các ô của CLIQUE

CLIQUE có khả năng áp dụng tốt đối với dữ liệu đa chiều, nhưng nó lại rất nhạy cảm với thứ tự của dữ liệu vào, độ phức tạp tính toán của CLIQUE là O(n).

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB BẰNG KỸ THUẬT PHÂN CỤM (Trang 61 - 64)

Tải bản đầy đủ (PDF)

(110 trang)