Thuật toỏn phõn cụm dữ liệu dựa vào lƣới 1 STING

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 50 - 54)

5.1 STING

STING là kỹ thuật phõn cụm đa phõn giải dựa trờn lưới, trong đú vựng khụng gian dữ liệu được phõn ró thành số hữu hạn cỏc cells chữ nhõt, điều này cú ý nghĩa là cỏc cells lưới được hỡnh thành từ cỏc cells lưới con để thực hiện phõn cụm. Cú nhiều mức của cỏc cells chữ nhật tương ứng với cỏc mức khỏc nhau của phõn giải trong cấu trỳc lưới, và cỏc cells này hỡnh thành cấu trỳc phõn cấp : mỗi cells ở mức cao được phõn hoạch thành cỏc số cỏc cells nhỏ ở mức thấp hơn tiếp theo trong cấu trỳc phõn cấp. Cỏc điểm dữ liệu được nạp từ CSDL, giỏ trị của cỏc tham số thống kờ cho cỏc thuộc tớnh của đối tượng dữ liệu trong mỗi ụ lưới được tớnh toỏn từ dữ liệu và lưu trữ thụng qua cỏc tham số thống kờ ở cỏc cell mức thấp hơn (điều này giống với cõy CF). Cỏc giỏ trị của cỏc tham số thống kờ gồm : số trung bỡnh – mean, số tối đa – max, số tối thiểu – min, số đếm –count , độ lệch chuẩn –s,…

Cỏc đối tượng dữ liệu lần lượt được chốn vào lưới và cỏc tham số thống kờ ở trờn được tớnh trực tiếp thụng qua cỏc đối tượng dữ liệu này. Cỏc truy vấn khụng gian được thực hiện bằng cỏch xột cỏc cells thớch hợp tại mỗi mức

phõn cấp. Một truy vấn khụng gian được xỏc định như là một thụng tin khụi phục lại của dữ liệu khụng gian và cỏc quan hệ của chỳng. STING cú khả năng mở rộng cao , nhưng do sử dụng phương phỏp đa phõn giải nờn nú phụ thuộc chặt chẽ vào trọng tõm của mức thấp nhất. Đa phõn giải là khả năng phõn ró tập dữ liệu thành cỏc mức chi tiết khỏc nhau. Khi hũa nhập cỏc cells của cấu trỳc lưới để hỡnh thành cỏc cụm, nú khụng xem xột quan hệ khụng gian giữa cỏc nỳt của mức con khụng được hũa nhập phự hợp( do chỳng chỉ tương ứng với cỏc cha của nú) và hỡnh dạng của cỏc cụm dữ liệu khỏm phỏ là isothetic, tất cả ranh giới của cỏc cụm cú cỏc biờn ngang và dọc, theo biờn của cỏc cells và khụng cú đường biờn chộo được phỏt hiện ra.

Cỏc lợi thế của cỏch tiếp cận này so với cỏc phương phỏp phõn cụm dữ liờu khỏc :

- Tớnh toỏn dựa trờn lưới là truy vấn độc lập vi thụng tin thống kờ được bảo quản trong mỗi cells đại diện nờn chỉ cần thụng tin túm tắt của dữ liệu trong cells chứ khụng phải là dữ liệu thực tế và khụng phụ thuộc vào cõu truy vấn.

- Cấu trỳc dữ liệu lưới thuận tiện cho quỏ trỡnh xử lý song song và cập nhật liờn tục.

- Duyệt toàn bộ CSDL một lần để tớnh toỏn cỏc đại lượng thống kờ cho mỗi cells, nờn nú hiệu quả và do đú độ phức tạp thời gian để tạo cỏc cụm xấp xỉ O(n), trong đú n là tổng số cỏc đối tượng. Sau khi xõy dựng cấu trỳc phõn cấp, thời gian xử lý cho cỏc truy vấn là O(g), trong đú g là tổng số cells lưới ở mức thấp (g<<n)

Cỏc hạn chế của thuật toỏn này :

- Trong khi sử dụng cỏch tiếp cận đa phõn giải để thực hiện phõn tớch cụm chất lượng của phõn cụm STING hoàn toàn phụ thuộc vào tớnh chất hộp ở mức thấp nhất của cấu trỳc lưới. Nếu tớnh chất hộp là mịn, dẫn đến chi phớ thời gian xử lý tăng, tớnh toỏn trở nờn phức tạp và nếu mức dưới cựng là quỏ thụ thỡ nú cú thể làm giảm bớt chất lượng và độ chớnh xỏc của phõn tớch cụm.

Thuật toỏn STING :

1. Xỏc định tầng để bắt đầu

2. Với mỗi cỏi của tầng này, tớnh toỏn khoảng tin cậy (hoặc ước lượng khoảng) của xỏc suất mà cells này liờn quan tới truy vấn

khụng liờn quan.

4. Nếu lớp này là lớp cuối cựng , chuyển sang Bước 6; nếu khỏc thỡ chuyển sang Bước 5

5. Duyệt xuống dưới của cấu trỳc cõy phõn cấp một mức. Chuyển sang Bước 2 cho cỏc cells mà hỡnh thành cỏc cells liờn quan của lớp cú mức cao hơn.

6. Nếu đặc tả được cõu truy vấn, chuyển sang bước 8; nếu khụng thỡ chuyển sang bước 7.

7. Truy lục lại dữ liệu vào trong cỏc cells liờn quan và thực hiện xử lý. Trả lại kết quả phự hợp yờu cầu của truy vấn. Chuyển sang Bước 9.

8. Tỡm thấy cỏc miền cú cỏc cells liờn quan. Trả lại miền mà phự hợp với yờu cầu của truy vấn. Chuyển sang bước 9

9. Dừng

5.2. Thuật toỏn CLIQUE

Trong khụng gian đa chiều, cỏc cụm cú thể tồn tại trong tập con của cỏc chiều hay cũn gọi là khụng gian con. Thuật toỏn CLIQUE là thuật toỏn hữu ớch cho PCDL khụng gian đa chiều trong cỏc CSDL lớn thành cỏc khụng gian con. Thuật toỏn này bao gồm cỏc bước :

- Cho n là tập lớn của cỏc điểm dữ liệu đa chiều; khụng gian dữ liệu thường là khụng giống nhau bởi cỏc điểm dữ liệu. Phương phỏp này xỏc định những vựng gần, thưa và “đặc” trong khụng gian dữ liệu nhất định, bằng cỏch đú phỏt hiện ra toàn thể phõn bố mẫu của tập dữ liệu.

- Một đơn vị là dày đặc nếu phần nhỏ của tất cả cỏc điểm dữ liệu chứa trong nú vượt quỏ tham số mẫu đưa vào. Trong thuật toỏn CLIQUE, cụm được định nghĩa là tập tối đa liờn thụng cỏc đơn vị dày đặc.

Cỏc đặc trƣng của CLINQUE

- Tự động tỡm kiếm khụng gian con của khụng gian đa chiều, sao cho mật độ đặc của cỏc cụm tồn tại trong khụng gian con.

- Mẫn cảm với thứ tự của dữ liệu vào và khụng phự hợp với bất kỳ quy tắc phõn bố dữ liệu nào.

- Phương phỏp này tỷ lệ tuyến tớnh với kớch thước vào và cú tớnh biến đổi tốt khi số chiều của dữ liệu tăng.

Nú phõn hoạch tập dữ liệu thành cỏc hỡnh hộp chữ nhật và tỡm cỏc hỡnh hộp chữ nhật đặc, nghĩa là cỏc hỡnh hộp này chứa một số cỏc đối tượng dữ liệu trong số cỏc đối tượng lỏng giếng cho trước. Hợp cỏc hỡnh hộp này tạo thành cỏc cụm dữ liệu. Tuy nhiờn , CLINQUE được bắt đầu bằng cỏch tiếp cận đơn giản do đú chớnh xỏc của kết quả phõn cụm cú thể bị ảnh hưởng dẫn tới chất lượng của cỏc phương phỏp này cú thể giảm.

Phương phỏp bắt đầu nhận dạng cỏc cells đặc đơn chiều trong khụng gian dữ liệu và tim kiếm phõn bố của dữ liệu, tiếp đến CLINQUE lần lượt tỡm cỏc hỡnh chữ nhật 2 chiều, 3 chiều,…., cho đến khi hỡnh hộp chữ nhật đặc k chiều được tỡm thấy, độ phức tạp tớnh toỏn của CLIQUE là O(n)

5.3. Thuật toỏn WaveCluster (adsbygoogle = window.adsbygoogle || []).push({});

Thuật toỏn WaveCluster là phương phỏp gần giống với STING, tuy nhiờn thuật toỏn sử dụng phộp biến đổi dạng súng đẻ tỡm ụ đặc trong khụng gian. Đầu tiờn kỹ thuật này túm tắt dữ liệu bằng việc tận dụng cấu trỳc dạng lưới đa chiều lờn trờn khụng gian dữ liệu. Tiếp theo nú sử dụng phộp biến đổi dạng súng để biến đổi khụng gian cú đặc trưng gốc, tỡm kiếm ụ đặc trong khụng gian đó được biến đổi. Phương phỏp này là phức tạp với cỏc phương phỏp khỏc chớnh là ở phộp biến đổi.

Ở đõy, mỗi cells lưới túm tắt thụng tin cỏc điểm của một nhúm ỏnh xạ vào trong cells. Đõy là thụng tin tiờu biểu thớch hợp đưa vào bộ nhớ chớnh để sử dụng phộp biến đổi dạng súng đa phõn giải và tiếp theo là phõn tớch cụm. Một phộp biến đổi dạng súng là kỹ thuật dựa trờn cơ sở xử lý tớn hiệu và xử lý ảnh bằng phõn tớch tớn hiệu với tần số xuất hiện trong bộ nhớ chớnh. Bằng việc thực hiện một loạt cỏc phộp biến đổi ngược phức tạp cho nhúm này,nú cho phộp cỏc cụm trong dữ liệu trở thành rừ ràng hơn. Cỏc cụm này cú thể được xỏc định bằng tỡm kiếm ụ đặc trong vựng mới.

Phương phỏp này phức tạp, nhưng lại cú những lợi thế :

- Cung cấp cụm khụng giỏm sỏt, khử nhiễu cỏc thụng tin bờn ngoài biờn của cụm. Theo cỏch đú, vựng đặc trong khụng gian đặc trưng gốc hỳt cỏc điểm ở gần và ngăn chặn cỏc điểm ở xa. Vỡ vậy, cỏc cụm tự động nổi bật và làm sạch khu vực xung quanh nú, do đú cỏc kết quả tự động loại phần tử ngoại lai.

- Đa phõn giải là thuộc tớnh hỗ trợ dũ tỡm cỏc cụm cú cỏc mức biến đổi chớnh xỏc.

- Thực hiện nhanh với độ phức tạp của thuật toỏn là O(n), trong đú n là số đối tượng trong CSDL. Thuật toỏn cú thể thớch hợp với xử lý song song.

- Xử lý tập dữ liệu lớn cú hiệu quả, khỏm phỏ cỏc cụm cú hỡnh dạng bất kỳ, xử lý phần tử ngoại lai, mẫn cảm với thứ tự vào, và khụng phụ thuộc vào cỏc tham số vào như số cỏc cụm hoặc bỏn kớnh lỏng giềng.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 50 - 54)