CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 1 Thuật toỏn phõn cum dữ liệu dựa vào phõn cụm phõn cấp

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 29 - 31)

7 ij ijijZx Rank

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 1 Thuật toỏn phõn cum dữ liệu dựa vào phõn cụm phõn cấp

1. Thuật toỏn phõn cum dữ liệu dựa vào phõn cụm phõn cấp 1.1 Thuật toỏn BIRCH

Thuật toỏn phõn cụm khỏc cho tập dữ liệu lớn, được gọi là BIRCH. í tưởng của thuật toỏn là khụng cần lưu toàn bộ cỏc đối tượng dữ liệu của cỏc cụm trong bộ nhớ mà chỉ lưu cỏc đại lượng thống kờ. Thuật toỏn đưa ra hai khỏi niệm mới để theo dừi cỏc cụm hỡnh thành , phõn cụm đặc trưng là túm tắt thụng tin về một cụm và cõy phõn cụm đặc trưng(cõy CF) là cõy cõn bằng được sử dụng lưu trữ cụm đặc trưng( được sử dụng để mụ tả cụm túm tắt). Trước tiờn được gọi là cụm đặc trưng, là một bộ ba(n, LS, SS), trong đú n là số cỏc điểm trong phõn hoạch cụm con, LS là tổng số cỏc giỏ trị thuộc tớch và SS là tổng bỡnh phương của cỏc điểm đú. Đặc trưng tiếp theo là cõy CF, mà đơn giản là cõy cõn bằng mà lưu bộ ba này. Cú thể chứng mỡnh rằng, cỏc đại lượng thống kờ chuẩn, như là độ đo khoảng cỏch, cú thể xỏc định từ cõy CF. Hỡnh 4.10 dưới đõy biểu thị một vớ dụ về cõy CF. Cú thể thấy rừng, tất cả cỏc nỳt trong cõy lưu tổng cỏc đặc trưng cụm CF, cỏc nỳt con, trong khi đú cỏc nỳt là lưu trữ cỏc đặc trưng của cỏc cụm dữ liệu.

Cõy CF chứa cỏc nỳt trong và nỳt là, nỳt trong là nỳt chứa cỏc nỳt con và nỳt lỏ thỡ khụng cú con. Nỳt trong lưu trữ cỏc tổng đặc trưng cụm(CF) của cỏc nỳt con của nú. Một cõy (CF) được đặc trưng bởi hai tham số :

- Yếu tố nhỏnh (Braching Factor – B) : Nhằm xỏc định tối đa cỏc nỳt con của một nỳt lỏ trong của cõy

- Ngưỡng(Threshold – T) : khoảng cỏch tối đa giữa bất kỳ một cặp đối tượng trong nỳt lỏ của cõy, khoảng cỏch này cũn gọi là đường kớnh của cỏc cụm con được lưu tại cỏc nỳt lỏ.

Hai tham số này cú ảnh hưởng đến kớch thước của cõy CF. thuật toỏn BIRCH thực hiện gồm hai giai đoạn:

Giai đoạn 1 : BIRCH quột tất cả cỏc đối tượng trong CSDL để xõy dựng cõy CF khởi tọa, mà được lưu trữ trong bộ nhớ. Trong giai đoạn này , cỏc đối tượng lần lượt được chốn vào nỳt lỏ gần nhất của cõy CF(nỳt lỏ của cõy đúng vai trũ là cụm con), sau khi chốn xong thỡ tất cả cỏc nỳt trong cõy CF được cập nhật thụng tin. Nếu đường kớnh của cụm con sau khi chốn là lớn

hơn ngưỡng T, thỡ nỳt lỏ được tỏch. Quỏ trỡnh lặp lại cho đến khi tất cả cỏc đối tượng trong cõy chỉ được đọc một lần, để lưu toàn bộ cõy CF trong bộ nhớ thỡ cần phải điều chỉnh kớch thước của cõy CF thụng qua điều chỉnh ngưỡng T.

Giai đoạn 2 : BIRCH lựa chọn một thuật toỏn phõn cụm(như thuật toỏn phõn cụm phõn hoạch) để thực hiện phõn cụm cho cỏc nỳt lỏ của cõy CF

Hỡnh 4.10 : Cõy CF sử dụng trong BIRCH

Thuật toỏn BIRCH thực hiện qua cỏc bƣớc cơ bản nhƣ sau :

1. Cỏc đối tượng dữ liệu lần lượt được chốn vào cõy C, sau khi chốn hết cỏc đối tượng thỡ thu được cõy CF khởi tạo. Một đối tượng được chốn vào nỳt là gần nhất tạo thành cụm con. Nếu đường kớnh của cụm con này lớn hơn T thỡ nỳt lỏ được tỏch ra. Khi một đối tượng thớch hợp được chốn vào nỳt lỏ, tất cả cỏc nỳt trỏ tới gốc của cõy được cập nhật với thụng tin cần thiết

2. Nếu cõy CF hiện thời khụng cú đủ bộ nhớ trong khi tiến hành xõy dựng một cõy CF nhỏ hơn: Kớch thước của cõy CF được điều khiển bởi tham số F và vỡ vậy việc chọn một giỏ trị lớn hơn cho nú sẽ hũa nhập một số cụm con thành một cụm, điều này làm cho cõy CF nhỏ hơn. Bước này khụng cần yờu cầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cõy dữ liệu nhỏ hơn.

của cỏc cụm con. Trong bước này, BIRCH sử dụng cỏc đại lượng thống kờ này để ỏp dụng một số kỹ thuật phõn cụm, vớ dụ K-means và tạo ra một khởi tạo cho phõn cụm.

4. Phõn phối lại cỏc đối tượng dữ liệu bằng cỏch dựng cỏc đối tượng trọng tõm cho cỏc cụm được khỏm phỏ từ bước 3: Đõy là một bước tựy chọn để duyệt lại tập dữ liệu và gỏn lại nhón cho cỏc đối tượng dữ liệu tới cỏc trọng tõm gần nhất. Bước này nhằm để gỏn nhón cho cỏc dữ liệu khởi tạo và loại bỏ cỏc đối tượng ngoại lai

Với cấu trỳc cõy CF được sử dụng, BIRCH cú tốc độ thực hiện PCDL nhanh và cú thể ỏp dụng đối với tập CDSL lớn, BIRCH cũng cú hiệu quả khi ỏp dụng với tập dữ liệu tăng trưởng theo thời gian. BIRCH thực hiện tớnh toỏn khỏ tốt, độ phức tạp tớnh toỏn của BIRCH là tuyến tớnh tỷ lệ với số cỏc đối tượng, do BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quột thờm tựy chọn( thực hiện phõn cụm lại cỏc nỳt lỏ cõy của CF), cú thể được đo trong thời gian O(n) với n là số đối tượng dữ liệu. thuật toỏn này kết hợp cỏc cụm gần nhau và xõy dựng lại cõy CF, tuy nhiờn mỗi nỳt trong cõy CF cú thể chỉ lưu trữ một số hữu hạn bởi kớch thước của nú. BIRCH vẫn cú một hạn chờ : thuật toỏn này cú thể khụng xử lý tốt nếu cỏc cụm khụng cú hỡnh dạng cầu, bởi vỡ nú sử dụng khỏi niệm bỏn kớnh hoặc đường kớnh để kiểm soỏt ranh giới cỏc cụm và chất lượng của cỏc cụm được khỏm phỏ khụng được tốt. Nếu BIRCH sử dụng khoảng cỏch Eucle, nú thực hiện tốt chỉ với cỏc dữ liệu số, mặt khỏc tham số vào T cú ảnh hưởng rất lớn tới kớch thước tự nhiờn của cụm. Việc ộp cỏc đối tượng dữ lieeujlamf cho cỏc đối tượng của cụm cú thể là đối tượng kết thỳc của cụm khỏc, trong khi cỏc đối tượng gần nhau cú thể bị hỳt bởi cỏc cụm khỏc nếu chỳng được biểu diễn cho thuật toỏn theo một thứ tự khỏc. BIRCH khụng thớch hợp với dữ liệu đa chiều.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 29 - 31)