Thuật toán STING

Một phần của tài liệu WEB data mining by clustering technique 2 (Trang 62 - 63)

STING (STatistical INformation Grid) do Wang, Yang và Muntz đề xuất năm 1997, nó phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật. Có nhiều mức khác nhau cho các cell trong cấu trúc lưới, các cell này hình thành nên cấu trúc phân cấp như sau: Mỗi cell ở mức cao được phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp.

Giá trị của các tham số thống kê (như các giá trị trung bình, tối thiểu, tối đa) cho các thuộc tính của đối tượng dữ liệu được tính toán và lưu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF).

Các tham số này bao gồm: tham số đếm count, tham số trung bình means, tham số tối đa max tham số tối thiểu min, độ lệch chuẩn s,… .

Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở trên được tính trực tiếp thông qua các đối tượng dữ liệu này. Các truy vấn không gian được thực hiện bằng cách xét các cell thích hợp tại mỗi mức của phân cấp. Một truy vấn không gian được xác định như là một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng

Mức 1 (mức cao nhất ) có thể chỉ chứa một ô Ô mức i-1 có thể tương ứng với 4 ô của mức i Tầng 1 . . . . . . Tầng i-1 Tầng i

mở rộng cao, nhưng do sử dụng phương pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác nhau. Khi hoà nhập các cell của cấu trúc lưới để hình thành các cụm, các nút của mức con không được hoà nhập phù hợp (do chúng chỉ tương ứng với các cha của nó) và hình thù của các cụm dữ liệu khám phá được có các biên ngang và dọc, theo biên của các cell. STING sử dụng cấu trúc dữ liệu lưới cho phép khả năng xử lý song song, STING duyệt toàn bộ dữ liệu một lần nên độ phức tạp tính toán để tính toán các đại lượng thống kê cho mỗi cell là O(n), trong đó n là tổng số đối tượng. Sau khi xây dựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các truy vấn là O(g) với g là tổng số cell tại mức thấp nhất (g<<n).

Một phần của tài liệu WEB data mining by clustering technique 2 (Trang 62 - 63)