Cỏc mứ cụ lưới khỏc nhau trong quỏ trỡnh truy vấn

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 74 - 77)

Thuật toỏn STING gồm cỏc bước sau:

1. Xỏc định tầng để bắt đầu.

2. Với mỗi ụ của tầng này, tớnh toỏn khoảng tin cậy (hoặc ước lượng khoảng) của xỏc suất mà cỏc ụ này liờn quan tới truy vấn.

3. Từ khoảng tin cậy của tớnh toỏn trờn, gỏn nhón cho lỏ cú liờn quan hoặc khụng liờn quan.

4. Nếu lớp này là lớp cuối cựng, chuyển sang bước 6, nếu khụng phải thỡ chuyển sang bước 5.

5. Duyệt xuống dưới của cấu trỳc cõy phõn cấp một mức. Chuyển sang bước 2 cho tất cỏc ụ mà hỡnh thành cỏc ụ liờn quan của lớp cú mức cao hơn.

6. Nếu đặc tả được cõu truy vấn, chuyển sang bước 8, nếu khụng thỡ chuyến sang bước 7.

7. Truy lục dữ liệu trong cỏc ụ liờn quan và thực hiện xử lý. Trả lại kết quả phự hợp của yờu cầu truy vấn. Chuyển sang bước 9.

8. Tỡm thấy cỏc cú cỏc ụ liờn quan. Trả lại miền phự hợp với yờu cầu của truy vấn. Chuyển sang bước 9.

9. Dừng

Cỏc lợi thế của cỏch tiếp cận này so với cỏc phương phỏp phõn cụm khỏc

Tớnh toỏn dựa trờn lưới là truy vấn độc lập vỡ thụng tin thống kờ được bảo quản trong mỗi ụ đại diện nờn chỉ cần thụng tin túm tắt của dữ liệu trong ụ lưới chứ khụng phải là dữ liệu thực tế và khụng phụ thuộc vào cõu truy vấn.

Cấu trỳc dữ liệu lưới thuận tiện cho quỏ trỡnh xử lý song song và cập nhật liờn tục.

Duyệt toàn bộ CSDL một lần để tớnh toỏn cỏc đại lượng thống kờ cho mỗi ụ nờn nú rất hiệu quả và độ phức tạp thời gian để tạo cỏc cụm xấp xỉ O(n), trong đú n là số cỏc đối tượng. Sau khi xõy dựng cấu trỳc phõn cấp, thời gian xử lý cho cỏc truy vấn là O(g), trong đú g là tổng số cỏc ụ lưới ở mức thấp (g<<n) [3][7].

Cỏc hạn chế của thuật toỏn này

Trong khi sử dụng cỏch tiếp cận đa phõn giải để thực hiện phõn tớch cụm, chất lượng của phõn cụm STING hoàn toàn phụ thuộc vào tớnh chất hỗn hợp ở mức thấp của cấu trỳc lưới. Nếu tớnh chất hộp là mịn, dẫn đến chi phớ

thời gian xử lý tăng, tớnh toỏn trở nờn phức tạp và nếu mức dưới cựng là quỏ thụ thỡ nú cú thể làm giảm bớt chất lượng và độ chớnh xỏc của phõn tớch cụm.

3.5.2. Thuật toỏn CLIQUE

Trong khụng gian đa chiều, cỏc cụm cú thể tồn tại trong tập con của cỏc chiều, hay cũn gọi là khụng gian con. Thuật toỏn CLIQUE (CLustering In

QUEst, Agrawal, et al. 1998) là thuật toỏn hữu ớch cho phõn cụm dữ liệu

khụng gian đa chiều trong cỏc CSDL lớn thành khụng gian con. CLIQUE cú thể xem xột trờn cả hai kỹ thuật tiếp cận dựa trờn mật độ và dựa trờn lưới.

Thuật toỏn này gồm cỏc bước sau:

1. Cho n là tập lớn của cỏc điểm dữ liệu đa chiều, khụng gian dữ liệu thường là khụng giống nhau bởi cỏc điểm dữ liệu. Phương phỏp này xỏc định những vựng gần, thưa và đặc trong khụng gian dữ liệu nhất đớnh, bằng cỏch đú phỏt hiện ra toàn bộ mẫu của tập dữ liệu.

2. Một đơn vị là dày đặc nếu phần nhỏ của tất cả cỏc điểm dữ liệu chứa trong nú vượt quỏ tham số mẫu đưa vào. Trong thuật toỏn CLIQUE, cụm được định nghĩa là tối đa liờn thụng cỏc đơn vị dày đặc.

Cỏc đặc trưng của CLIQUE:

- Tự động tỡm kiếm khụng gian con của khụng gian đa chiều, sao cho mật độ đặc của cỏc cụm tồn tại trong khụng gian con.

- Mẫn cảm với thứ tự của dữ liệu vào và khụng phự hợp với bất kỳ quy tắc phõn bổ dữ liệu nào.

- Phương phỏp này tỷ lệ tuyến tớnh với kớch thước vào và cú tớnh biến đổi tốt khi số chiều của dữ liệu tăng.

Nú phõn hoạch tập dữ liệu thành cỏc hỡnh hộp chữ nhật và tỡm cỏc hộp hỡnh chữ nhật đặc, nghĩa là cỏc hộp này chứa một số cỏc đối tượng dữ liệu

trong số cỏc đối tượng lỏng giềng cho trước. Hợp cỏc hỡnh hộp này tạo thành cỏc cụm dữ liệu. Tuy nhiờn, CLIQUE được bắt đầu bằng cỏch tiếp cận đơn giản do đú độ chớnh xỏc của kết quả phõn cụm cú thể bị ảnh hưởng dẫn tới chất lượng cỏc cụm của phương phỏp này cú thể giảm.

Phương phỏp bắt đầu nhận dạng cỏc ụ đặc đơn chiều trong khụng gian dữ liệu và tỡm kiếm phõn bổ của dữ liệu, tiếp đến CLIQUE lần lượt tỡm cỏc hỡnh chữ nhật 2 chiều, 3 chiều,…, cho đến khi hỡnh hộp chữ nhật đặc k chiều được tỡm thấy, độ phức tạp của thuật toỏn CLIQUE là O(n).

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 74 - 77)

Tải bản đầy đủ (PDF)

(118 trang)