Thuật toán STING

Một phần của tài liệu Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm (Trang 57)

STING (STatistical INformation Grid) là thuật toán dựa vào kỹ thuật phân cụm dựa trên lƣới, STING phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật. Có nhiều mức khác nhau cho các cell trong cấu trúc lƣới, các cell này hình thành nên cấu trúc phân cấp nhƣ sau: mỗi cell ở mức cao đƣợc phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp. Giá trị của các tham số thống kê (nhƣ các giá trị trung bình, tối thiểu, tối đa) cho các thuộc tính của đối tƣợng dữ liệu đƣợc tính toán và lƣu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF). Các đại tham số này bao gồm: tham số đếm count, tham số trung bình means, tham số tối đa max, tham số tối thiểu min, độ lệch chuẩn s,… .

Các đối tƣợng dữ liệu lần lƣợt đƣợc chèn vào lƣới và các tham số thống kê ở trên đƣợc tính trực tiếp thông qua các đối tƣợng dữ liệu này. Các truy vấn không gian đƣợc thực hiện bằng cách xét các cell thích hợp tại mỗi mức của phân cấp. Một truy vấn không gian đƣợc xác định nhƣ là một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng mở rộng cao, nhƣng do sử dụng phƣơng pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác nhau. Khi hoà nhập các cell của cấu trúc lƣới để hình thành các cụm, các nút của mức con không đƣợc hoà nhập phù hợp (do chúng chỉ tƣơng ứng với các cha của nó) và hình thù của các cụm dữ liệu khám phá đƣợc có các biên ngang và dọc, theo biên của các cell. STING sử dụng cấu trúc dữ liệu lƣới cho phép khả năng xử lý song song, STING duyệt toàn bộ dữ liệu một lần nên để tính toán các đại lƣợng thống kê

cho mỗi cell nên độ phức tạp tính toán của STING là O(n), trong đó n là tổng số đối tƣợng. Sau khi xây dựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các truy vấn là O(g) với g là tống số cell tại mức thấp nhất (g<<n).

Một phần của tài liệu Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm (Trang 57)