Thuật toỏn COBWEB

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 82)

COBWEB (Fisher, Douglas H. (1987)) là cỏch tiếp cận để biểu diễn cỏc đối tượng dữ liệu theo kiểu cặp thuộc tớnh-giỏ trị. COBWEB thực hiện bằng cỏch tạo cõy phõn lớp, tương tự như khỏi niệm của BIRCH, tuy nhiờn

cấu trỳc cõy khỏc nhau. Mỗi nỳt của cõy phõn lớp là đại diện cho khỏi niệm của đối tượng dữ liệu và tất cả cỏc điểm mà ở dưới lớp đú cựng thuộc một nỳt. COBWEB sử dụng cụng cụ phõn loại để quản lý cấu trỳc của cõy. Từ đú cỏc cụm hỡnh thành dựa trờn phộp đo độ tương tự mà phõn loại giữa tương tự và phi tương tự, cả hai cú thể mụ tả phõn chia giỏ trị thuộc tớnh giữa cỏc nỳt trong lớp. Cấu trỳc cõy cũng cú thể được hợp nhất hoặc phõn tỏch khi chốn một nỳt mới vào cõy. Cú hai phương phỏp cải tiến cho COBWEB là CLASSIT (COBWEB+NUMERICAL ATRIBUTES) và AUTO CLASS.

COBWEB xõy dựng một cõy phõn lớp theo thứ tự tăng dần bằng cỏch chốn vào cõy cỏc đối tượng từng bước một. Khi cú một đối tượng được chốn vào cõy phõn lớp, thuật toỏn COBWEB lại duyệt lại toàn bộ cõy từ trờn xuống dưới, bắt đầu từ gốc [10][15].

Thut toỏn COBWEB c th như sau:

1. Khởi tạo cõy bắt đầu là một nỳt trống.

2. Sau đú thờm vào từng nỳt một và cập nhập lại cõy cho phự hợp tại mỗi thời điểm.

3. Cập nhập cõy bắt đầu từ lỏ bờn phải trong mỗi trường hợp, sau đú cấu trỳc lại cõy.

4. Quyết định cập nhập dựa trờn sự phõn hoạch và cỏc hàm tiờu chuẩn phõn loại.

Tại mỗi nỳt, giải thuật COBWEB xem xột 4 khả năng cú thể xảy ra và lựa chọn một khả năng cú hàm giỏ trị CU đạt được tốt nhất của quỏ trỡnh (Insert, Create, Merge, Split).

Một nỳt mới được chốn vào một nỳt con đó tồn tại sẵn, giải thuật COBWEB trong mỗi trường hợp xỏc định hàm giỏ trị CU khi chốn đối tượng mới vào trong nỳt con đó tồn tại trước và lựa chọn ra trường hợp cú giỏ trị cao nhất.

Giải thuật COBWEB cũng xem xột việc to một nỳt con mới cụ thể cho mỗi đối tượng mới.

Giải thuật COBWEB cũng xem xột việc ni hai nỳt con đó cú với giỏ trị cao nhất và nhỡ như hỡnh 3.41.

Hỡnh 3.41. Quỏ trỡnh nối hai nỳt con

Giải thuật COBWEB cũng xem xột việc tỏch một nỳt con cú giỏ trị cao nhất như hỡnh 3.43.

CHƯƠNG 4. PHÂN CỤM DỮ LIỆU WEB

4.1. GIỚI THIỆU

Web chứa thụng tin bao gồm văn bản, hỡnh ảnh, õm thanh và thậm chớ cả video được kết hợp với nhau. Web là kho thụng tin khổng lồ, phong phỳ về nội dung, đa dạng về hỡnh thức, thường xuyờn được cập nhật, đổi mới và phỏt triển khụng ngừng. Do đú, việc xõy dựng và phỏt triển cỏc kỹ thuật phõn cụm cho lớp dữ liệu Web đang là một xu hướng tất yếu và được quan tõm nhiều trong lĩnh vực khai phỏ dữ liệu. Dữ liệu Web bao gồm một số loại như sau:

o Web pages

o Intra-page structures o Inter-page structures o Usage data

o Supplemental data (Profiles, Registration information, Cookies) Dữ liệu Web được phõn chia thành cỏc loại như sau như hỡnh 4.1.

Hỡnh 4.1. Phõn chia dữ liệu Web

Web Data

Content Data

Structure Data

Usage Data

User Profile Data

Free Texts HTML Files XML Files Dynamic Content Multimedia Static Link Dynamic Link

Dựa trờn cỏc loại dữ liệu Web như trờn mà người ta cú thể khỏi quỏt húa sự KPDL Web theo cỏc loại như hỡnh 4.2. [6][9]

Hỡnh 4.2. Phõn cụm dữ liệu Web

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 82)

Tải bản đầy đủ (PDF)

(118 trang)