Giải thuật BIRCH

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 54 - 56)

w Giai đoạn 1: Quột tất cả cỏc đối tượng trong CSDL vào bộ nhớ để xõy

dựng cõy CF. Trong giai đoạn này, cỏc đối tượng lần lượt được chốn vào nỳt lỏ gần nhất của cõy CF (nỳt lỏ đúng vai trũ là cụm con). Sau khi chốn xong thỡ tất cả cỏc nỳt trong cõy CF được cập nhập thụng tin. Quỏ trỡnh này lặp lại khi tất cả cỏc đối tượng được chốn vào trong cõy, khi quỏ trỡnh này kết thỳc thỡ

cõy CF được khởi tạo. Trong quỏ trỡnh chốn đối tượng vào nỳt lỏ để tạo thành

cụm con. Nếu đường kớnh của cụm con này lớn hơn T thỡ nỳt lỏ được tỏch ra. Khi một đối tượng thớch hợp được chốn vào nỳt lỏ, tất cả cỏc nỳt của cõy được cập nhật với cỏc thụng tin cần thiết.

w Giai đoạn 2: Nếu cõy CF hiện thời khụng cú đủ bộ nhớ thỡ tiến hành xõy dựng một cõy CF nhỏ hơn. Kớch thước của cõy CF được điều khiển bởi tham số T, vỡ vậy việc chọn một giỏ trị lớn hơn cho nú sẽ hoà nhập một số cụm con thành một cụm, điều này làm cho cõy CF nhỏ hơn. Bước này khụng cần đọc lại dữ liệu từ đầu nhưng vẫn đảm bảo hiệu chỉnh cõy dữ liệu nhỏ hơn.

w Giai đoạn 3: Thực hiện phõn cụm cỏc nỳt lỏ cõy CF được lưu trữ cỏc

đại lượng thống kờ của cỏc cụm con. Trong bước này, Birch sử dụng cỏc đại lượng thống kờ này để ỏp dụng một số kỹ thuật phõn cụm cú sẵn để phõn cụm cho cỏc cụm con.

w Giai đoạn 4: Phõn phối lại cỏc đối tượng dữ liệu bằng cỏch dựng cỏc đối tượng trọng tõm cho cỏc cụm được khỏm phỏ từ giai đoạn 3. Đõy là một bước tuỳ chọn để duyệt lại tập dữ liệu và gỏn lại nhón cho cỏc đối tượng dữ liệu cho cỏc trọng tõm gần nhất. Bước này nhằm để gỏn nhón cho đối tượng khởi tạo và loại bỏ cỏc đối tượng ngoại lai nhằm tỡm ra cỏc cụm mới tốt hơn. Bước này cũng sử dụng một số thuật toỏn cú sẵn.

Với cấu trỳc cõy CF được sử dụng, Birch cú tốc độ thực hiện phõn cụm nhanh và cú thể ỏp dụng với tập CSDL lớn. Birch cũng hiệu quả khi ỏp dụng cho tập dữ liệu tăng trưởng theo thời gian. Do Birch chỉ duyệt toàn bộ dữ liệu một lần và một lần quột thờm tuỳ chọn (thực hiện phõn cụm lại cỏc nỳt lỏ của cõy CF) nờn độ phức tạp của Birch là O(n2) với n là số đối tượng dữ liệu.

Thuật toỏn này kết hợp cỏc cụm gần nhau và xõy dựng lại cõy CF. Birch vẫn cú hạn chế là khụng xử lý tốt nếu cỏc cụm khụng cú dạng hỡnh cầu, bởi vỡ nú sử dụng khỏi niệm bỏn kớnh hoặc đường kớnh để kiểm soỏt ranh giới cỏc cụm và chất lượng của cỏc cụm khỏm phỏ khụng được tốt. Nếu Birch sử dụng khoảng cỏch Euclidean, nú thực hiện tốt với cỏc dữ liệu số. Mặt khỏc tham số ngưỡng T cú ảnh hưởng rất lớn tới kớch thước và tớnh tự nhiờn của cụm. Việc ộp cỏc đối tượng dữ liệu làm cho cỏc đối tượng của cụm cú thể là đối tượng

kết thỳc của cụm khỏc, trong khi cỏc đối tượng gần nhau cú thể thuộc về cỏc cụm khỏc nếu chỳng được biểu diễn cho thuật toỏn theo thứ tự khỏc. Birch khụng thớch hợp với dữ liệu đa chiều.

í tưởng của thuật toỏn Birch tuõn theo ý tưởng chung của thuật toỏn phõn cụm phõn cấp, cụ thể được minh họa như hỡnh 3.16

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 54 - 56)

Tải bản đầy đủ (PDF)

(118 trang)