Thuật toán STING

Một phần của tài liệu Phân cụm dữ liệu trong Dataming (Trang 29 - 31)

STING (STatistical INformation Grid) là thuật toán dựa vào kỹ thuật phân cụm dựa trên lưới, STING phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật. Có nhiều mức khác nhau cho các cell trong cấu trúc lưới, các cell này hình thành nên cấu trúc phân cấp như sau : Mỗi cell ở mức cao được phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp. Giá trị của các tham số thống kê (như các giá trị trung bình, tối thiểu, tối đa) cho các thuộc tính của đối tượng dữ liệu được tính toán và lưu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF). Các đại tham số này bao gổm : tham số đếm

count, tham số trung bình means, tham số tối đa max tham số tối thiểu min, độ lệch chuẩn s,… .

Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở trên được tính trực tiếp thông qua các đối tượng dữ liệu nàỵ Các truy vấn không gian được thực hiện bằng cách xét các cell thích hợp tại mỗi mức của phân cấp. Một truy vấn không gian được xác định như là một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng mở rộng cao, nhưng do sử dụng phương pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác nhaụ Khi hoà nhập các cell của cấu trúc lưới để hình thành các cụm, các nút của mức con không được hoà nhập phù hợp (do chúng chỉ tương ứng với các cha của nó) và hình

thù của các cụm dữ liệu khám phá được có các biên ngang và dọc, theo biên của các cell. STING sử dụng cấu trúc dữ liệu lưới cho phép khả năng xử lý song song, STING duyệt toàn bộ dữ liệu một lần nên để tính toán các đại lượng thống kê cho mỗi cell nên độ phức tạp tính toán của STING là O(n), trong đó n là tổng số đối tượng. Sau khi xây dựng cấu trúc dữ liệu phân cấp, thời gian xử lý cho các truy vấn là O(g) với g là tống số cell tại mức thấp nhất (g<<n).

3.2 Thuật toán CLIQUE

Trong không gian đa chiều, các cụm có thể tồn tại trong tập con của các chiều hay còn gọi là là không gian con. Thuật toán CLIQUE là thuật toán phân cụm không gian con. Nó phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc, nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giềng cho trước. Hợp các hình hộp này tạo thành các cụm dữ liệụ CLIQUE trước hết tìm các cell đặc đơn chiều, tiếp đến chúng tìm các hình chữ nhật 2 chiều, rồi 3 chiều,…, cho đến khi hình hộp chữ nhật đặc k chiều được tìm thấỵ CLIQUE có khả năng áp ụng tốt đối với dữ liệu đa chiều, nhưng nó lại rất nhạy cảm với thứ tự của dữ liệu vào, độ phức tạp tính toán của CLIQUE là O(n).

3.3 Thuật toán EM

Thuật toán EM (Expectation -Maximization) được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán k-means. Thật vậy, EM gán các đối tượng cho các cụm dữ đã cho theo xác suất phân phối thành phần của đối tượng đó. Phân phối xác suất thường được sử dụng là phân phối xác suất Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng hàm tiêu chuẩn là là,f logarit khả năng củ đoói tượng dữ liệu, dây là hàm tốt để mô hình xác suất cho các dối tượng dữ liệụ EM có khả năng khám phá ra nhiều hình dạng cụm khác nhau, tuy nhiên do thời gian lặp của thuật toán khá nhiều nhằm xác định các tham số tốt nên chi phí tính toán của thuật toán là khá cao: có thể nén,có thể sao lưu trong bộ nhớ và có thể hủy bỏ. Trong các của tiến nàym các đối tượng bị hủy bỏ khi biết chắc chắn được nhãn phân cụm của nó, chúng được nén khi không được loại bỏ và thuộc về một cụm quá lớn so với bộ nhớ và chúng sẽ được lưa giữ lại trong các trường hợp còn lạị

Nói tóm lại, do PCDL là một ngành phát triển dựa trên sự kết hợp các khái niệm của nhiều ngành như : thống kê, nhận dạng mẫu, CSDL, học máy,... nên có nhiều các phương pháp cũng như thuật toán PCDL. Bảng dữ liệu sau (bảng 2) cho ta thông tin tổng quan về các đặc tính của các phương pháp và thuật toán PCDL, nhằm làm căn cứ cho việc lựa chọn phương pháp khi phát triển các ứng dụng.

Thuật toán Tham số vào Thích hợp với Cấu trúc

cụm phần tửXử lý ngoại lai

Độ phức tạp tính toán Phương pháp phân cụm phân hoạch

K-means Số các cụm Các cụm tách rời Hình cầu Không O(Ikn) PAM Số các cụm Các cụm tách rời, tập dữ

liệu nhỏ Hình cầu Không O(Ik(n-k)

2)CLARA Số các cụm Tập dữ liệu tương đối lớn Hình cầu Không O(ks2+k(n-k))

Một phần của tài liệu Phân cụm dữ liệu trong Dataming (Trang 29 - 31)

Tải bản đầy đủ (DOC)

(48 trang)
w