THUẬT TOÁN STING

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 79)

STING (a STatistical INformation Grid) do Wang, Yang and Muntz [1997] là kỹ thuật phõn cụm đa phõn giải dựa trờn lƣới, trong đú vựng khụng gian dữ liệu đƣợc phõn ró thành số hữu hạn ụ hỡnh chữ nhật, điều này cú nghĩa là cỏc ụ lƣới đƣợc hỡnh thành từ cỏc ụ lƣới con để thực hiện phõn cụm. Cú nhiều mức của cỏc ụ chữ nhật tƣơng ứng với cỏc mức khỏc nhau của phõn giải trong cấu trỳc lƣới, cỏc ụ này hỡnh thành cấu trỳc phõn cấp. Mỗi ụ ở mức cao đƣợc phõn hoạch thành một số cỏc ụ ở mức thấp hơn tiếp theo trong cấu trỳc phõn cấp. Cỏc điểm dữ liệu đƣợc nạp từ cơ sở dữ liệu, giỏ trị của cỏc tham số thống kờ ở cỏc ụ mức thấp hơn. Cỏc giỏ trị của cỏc tham số thống kờ là: số trung bỡnh - mean, số tối đa - max, số tối thiểu - min, số đếm - count, độ lệch chuẩn - s,…

Cỏc đối tƣợng dữ liệu lần lƣợt đƣợc chốn vào lƣới và cỏc tham số thống kờ ở trờn đƣợc tớnh trực tiếp thụng qua cỏc đối tƣợng dữ liệu này. Cỏc truy

vấn khụng gian đƣợc thực hiện bằng cỏch xột cỏc ụ thớch hợp tại mỗi mức của phõn cấp. Một truy vấn khụng gian đƣợc xỏc định nhƣ là một thụng tin khụi phục lại của dữ liệu khụng gian và cỏc quan hệ của chỳng. STING cú khả năng mở rộng cao nhƣng do đƣợc sử dụng phƣơng phỏp đa phõn giải nờn nú phụ thuộc chặt chẽ vào trọng tõm của mức thấp nhất. Đa phõn giải là khả năng phõn ró tập dữ liệu thành cỏc mức chi tiết khỏc nhau. Khi hũa nhập cỏc ụ của cấu trỳc lƣới để hỡnh thành cỏc cụm, nú khụng xột quan hệ khụng gian giữa cỏc nỳt của mức con khụng đƣợc hũa nhập phự hợp (do chỳng chỉ tƣơng tỏc với cỏc cha của nú). Tất cả ranh giới của cỏc cụm cú biờn ngang và dọc, theo biờn của cỏc ụ và khụng cú đƣờng biờn chộo đƣợc phỏt hiện ra.

Hỡnh 3.23 Cỏc mức ụ lƣới khỏc nhau trong quỏ trỡnh truy vấn

Thuật toỏn STING gồm cỏc bước sau:

1. Xỏc định tầng để bắt đầu.

2. Với mỗi ụ của tầng này, tớnh toỏn khoảng tin cậy (hoặc ước lượng khoảng) của xỏc suất mà cỏc ụ này liờn quan tới truy vấn.

3. Từ khoảng tin cậy của tớnh toỏn trờn, gỏn nhón cho lỏ cú liờn quan hoặc khụng liờn quan.

4. Nếu lớp này là lớp cuối cựng, chuyển sang bước 6, nếu khụng phải thỡ chuyển sang bước 5.

5. Duyệt xuống dưới của cấu trỳc cõy phõn cấp một mức. Chuyển sang bước 2 cho tất cỏc ụ mà hỡnh thành cỏc ụ liờn quan của lớp cú mức cao hơn.

6. Nếu đặc tả được cõu truy vấn, chuyển sang bước 8, nếu khụng thỡ chuyến sang bước 7.

7. Truy lục dữ liệu trong cỏc ụ liờn quan và thực hiện xử lý. Trả lại kết quả phự hợp của yờu cầu truy vấn. Chuyển sang bước 9.

8. Tỡm thấy cỏc cú cỏc ụ liờn quan. Trả lại miền phự hợp với yờu cầu của truy vấn. Chuyển sang bước 9.

9. Dừng

Cỏc lợi thế của cỏch tiếp cận này so với cỏc phƣơng phỏp phõn cụm khỏc

Tớnh toỏn dựa trờn lƣới là truy vấn độc lập vỡ thụng tin thống kờ đƣợc bảo quản trong mỗi ụ đại diện nờn chỉ cần thụng tin túm tắt của dữ liệu trong ụ lƣới chứ khụng phải là dữ liệu thực tế và khụng phụ thuộc vào cõu truy vấn.

Cấu trỳc dữ liệu lƣới thuận tiện cho quỏ trỡnh xử lý song song và cập nhật liờn tục.

Duyệt toàn bộ cơ sở dữ liệu một lần để tớnh toỏn cỏc đại lƣợng thống kờ cho mỗi ụ nờn nú rất hiệu quả và độ phức tạp thời gian để tạo cỏc cụm xấp xỉ O(n), trong đú n là số cỏc đối tƣợng. Sau khi xõy dựng cấu trỳc phõn cấp, thời gian xử lý cho cỏc truy vấn là O(g), trong đú g là tổng số cỏc ụ lƣới ở mức thấp (g<<n) [3][7].

Cỏc hạn chế của thuật toỏn này

Trong khi sử dụng cỏch tiếp cận đa phõn giải để thực hiện phõn tớch cụm, chất lƣợng của phõn cụm STING hoàn toàn phụ thuộc vào tớnh chất hỗn

hợp ở mức thấp của cấu trỳc lƣới. Nếu tớnh chất hộp là mịn, dẫn đến chi phớ thời gian xử lý tăng, tớnh toỏn trở nờn phức tạp và nếu mức dƣới cựng là quỏ thụ thỡ nú cú thể làm giảm bớt chất lƣợng và độ chớnh xỏc của phõn tớch cụm.

Một phần của tài liệu Một số thuật toán phân cụm dữ liệu (Trang 79)