1. Trang chủ
  2. » Giáo Dục - Đào Tạo

DATA MINING Chameleon 2: Thuật toán phân cụm dựa trên đồ thị được cải tiến

29 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 2,57 MB

Nội dung

DATA MINING Chameleon 2: Thuật toán phân cụm dựa trên đồ thị được cải tiến. B2B DATA MINING Chameleon 2 Thuật toán phân cụm dựa trên đồ thị được cải tiến Thuật toán phân cụm dựa trên đồ thị được cải tiến Giới thiệu Thuật toán Chameleon nguyên bản Giới thiệu thuật toán Chamele.

DATA MINING Chameleon 2: Thuật toán phân cụm dựa đồ thị cải tiến Mục lục Giới thiệu Thuật toán Chameleon nguyên Giới thiệu thuật toán Chameleon Chameleon autopilot Thử nghiệm Giới thiệu • THUẬT TỐN PHÂN CỤM • Phân cụm kỹ thuật nhóm đối tượng tương đồng thành cụm đối tượng khác thành cụm khác • Khơng có định nghĩa chung chính xác cụm gì Các thuật toán khác sử dụng định nghĩa khác cụm • Phân cụm vấn đề (thuật tốn) khơng giám sát Tức gán liệu cho số nhóm khơng xác định trước dựa tương đồng chúng • Các thuật tốn phân cụm thiết kế để nhóm đối tượng theo cách tương tự cách quan sát người • Tuy nhiên, mục tiêu cuối phát cấu trúc có kích thước cao khả mà người nhận Giới thiệu • NHƯỢC ĐIỂM CỦA CÁC THUẬT TOÁN PHÂN CỤM TRUYỀN THỐNG • Nhiều thuật tốn khơng tạo kết phân cụm người • Một số gán nhãn chính xác cho cụm, nhiều thuật toán khác chấp nhận gán mờ cho nhiều cụm khác • Nhược điểm chính phương pháp phân cụm dựa nguyên mẫu gán điểm liệu cho centroid gần nhất, phương pháp phát cụm hình cầu Giới thiệu • GIỚI THIỆU VỀ THUẬT TỐN CHAMELEON NGUN BẢN • Là thuật tốn phân cụm dựa đồ thị, cố gắng khắc phục hạn chế phương pháp phân cụm truyền thống • Hoạt động cách kết nối điểm liệu gần có tính đến thuộc tính cụm bên hợp chúng với • Khơng giống thuật toán khác, Chameleon tạo kết giống người Giới thiệu • GIỚI THIỆU VỀ THUẬT TOÁN CHAMELEON • Thuật toán Chameleon nguyên thường xác định cụm chính, lại sản sinh thêm cụm nhiễu khó để cấu hình • Phiên cải tiến thuật tốn Chameleon có khả tìm thấy cấu trúc phức tạp liệu khác với tỷ lệ lỗi tối thiểu khơng cần điều chỉnh tham số q nhiều • Theo đánh giá, thuật toán Chameleon vượt trội so với thuật toán nguyên tất liệu thử nghiệm cung cấp kết tốt so với thuật toán thường dùng khác Thuật toán Chameleon nguyên •  Hoạt động biểu đồ biểu diễn liệu • Thuật toán Chameleon gồm bước: • • Bước 1: Xây dựng đồ thị kNN cho tập điểm liệu (nếu đồ thị có, bỏ qua bước này) Bước 2: Phân rã đồ thị tạo thành phân vùng nhỏ có kích thước giảm thiểu số lượng cạnh bị cắt (với cạnh bị cắt cạnh có trọng số nhỏ, với đảo ngược khoảng cách điểm) Sau phân vùng, nhiều cụm nhỏ có kết nối cao hình thành (Để phân vùng sử dụng thuật tốn phân vùng siêu đồ thị Hmetis Karypis cộng sự) • Bước 3: Là bước cuối quan trọng hợp cụm nhỏ với sử dụng khung mơ hình động Chameleon Bắt đầu với cặp cụm tương đồng Có n(n-1)/2 tổng số cặp cụm tạo thành (với n số cụm), độ phức tạp O() Cách xác định tương đồng cụm Chameleon dựa liên kết trung bình cụm (average-link) 2.1 Cơng thức tính tốn Chameleon •  Tính tổng trọng số cạnh kết nối cụm con: , (1) , (2) • Trong • • • • w(e) trọng số cạnh định = bisect() tập hợp cạnh nối tổng trọng số cạnh trung bình tổng trọng số cạnh   Hình 1: Tất nút hình thuộc cụm , tập cạnh nối cụm mà việc loại bỏ chia cụm thành phần gần 2.1 Công thức tính tốn Chameleon •  Cơng thức tính gần gũi tương đối (relative closeness): , (3) • Cơng thức tính kết nối tương đối (relative inter-connectivity) , (4) • Trong • • số cạnh cụm tính tổng trọng số trung bình tổng trọng số cạnh nối cụm (tương tự cơng thức tính (1) (2)) 2.1 Cơng thức tính tốn Chameleon •  Trong cơng thức (4), lớn thì cụm nên hợp với so sánh tổng trọng số cạnh nối cụm với tổng trọng số sau tách cụm Do đó, Chameleon hợp cụm có mật độ tương tự • Cuối tương đồng cụm tính cơng thức: , (5) • Trong • α, β tham số người dùng định để kiểm soát cân gần gũi tương đối (cụm nhỏ gọn) tính kết nối tương đối (cụm tách biệt tốt) Mặc định α = 2.0, β = 1.0 3.2 Phân rã đồ thị •  Chameleon sử dụng thuật tốn phân rã siêu đồ thị nhanh (hMETIS), nhiên thuật toán khơng xác định khơng có sẵn mã nguồn • Chameleon thực phương pháp phân rã thay dựa tách rời Fiduccia-Mattheyses đệ quy • Quy trình tách rời đệ quy: • • Yêu cầu tham số , xác định số đối tượng tối đa phân vùng Tách rời Fiduccia-Mattheyses liên tục số đối tượng cụm không giá trị 3.3 Tinh chỉnh phân vùng • Sau phân rã (sử dụng hMETIS dùng phân rã tách đệ quy) đơi tạo cụm bao gồm phần tử cách xa không kết nối cạnh Các cụm cố định giai đoạn hợp làm xấu nghiêm trọng kết cuối • Để khắc phục tình trạng này, áp dụng phương pháp Flood fill mà đệ quy để tìm thấy thành phần kết nối biểu đồ phân rã Nếu cụm bị ngắt kết nối, Flood fill chia thành cụm riêng biệt kết nối • Một ví dụ phân rã cân với số lượng cạnh cắt nhỏ Kết Thuật toán 1: Flood fill ví dụ kết tinh chỉnh trang sau phân làm cụm có số lượng nút gần Tuy nhiên, phần lại cụm (có nút) bị ngắt kết nối 3.3 Tinh chỉnh phân vùng Thuật toán 1: Flood fill Input: Biểu đồ kNN phân rã Output: Các cụm kết nối Tìm đánh dấu đồ thị kết nối Funtion FloodFill(graph) while not marked all nodes in graph foreach node in graph if not marked(node) then cluster = NewCluster() MarkConnectedSubgraph(graph, node, cluster) Thêm đệ quy tất nút kết nối vào cụm Funtion MarkConnectedSubgraph(graph, node, cluster) Mark(node, cluster) foreach neighbor in neighbor(node) if not marked(neighbor) then MarkConnectedSubgraph(graph, node, cluster) 3.4 Hợp • Khơng giống thuật tốn phân cụm phân cấp truyền thống, Chameleon lưu trữ cụm lân cận gần nhất, vì hợp cụm   • Thay vì tính tốn độ phức tạp O() khoảng cách tất cặp cụm có, có cụm với số c lân cận gần hợp Trong lần lặp đầu tiên, có O(n.c) đánh giá 3.5 Biện pháp cải thiện độ tương tự • Chameleon chọn cặp cụm tương tự hợp cụm ghép nối với nhau; bước lặp lại đến khơng cịn cụm   • Sự lựa chọn cặp cụm giống dựa chức gọi thước đo độ tương tự • Thay vì tính tốn dựa vào tách rời Chameleon 1, Chameleon dựa tương đồng tỉ lệ trọng số trung bình tất cạnh cụm tổng trọng số bên cụm đó: , (6) , (7) 3.5 Biện pháp cải thiện độ tương tự • tính theo cách tương tự cách sử dụng trung bình trọng số cạnh liên cụm cụm Do cách tính độ tương tự gần giống cơng thức (3)   , (8) • Kết nối liên kết (inter-connectivity) sửa đổi xem xét tỷ lệ số cạnh, thay vì dựa vào trọng số cạnh , (9) 3.5 Biện pháp cải thiện độ tương tự •  Tham số β để sửa đổi trọng số hệ số ρ: , (10) • Trường hợp có cụm chứa nút riêng lẻ, tính cặp cụm có chứa cụm Sau đó, nhân với số để có tương đồng cụm cuối • Cơng thức tính độ tương tự Chameleon 2: (11) 3.6 Độ phức tạp thuật tốn • Thứ nhất, đồ thị kNN cần phải tính toán cho tồn bộ liệu, có độ phức tạp O() với d độ phức tạp khoảng cách tính toán   phần tử (thường tuyến tính số lượng kích thước liệu) n số điểm liệu • Thời gian cần thiết để phân giác tất đồ thị mức O(n) Độ sâu đệ quy phụ thuộc vào số lượng phân vùng mong muốn Để có m phân vùng, m=n/, cần phân giác đồ thị log(m) lần Do đó, độ phức tạp phân giác đệ quy O(n(log(m))) Phương pháp Flood fill yêu cầu lần quét đồ thị, có độ phức tạp O(n) • Cuối cùng, trình hợp bình thường có độ phức tạp O() Bằng cách ưu tiên hàng đợi, giảm độ phức tạp xuống O(log(m)) với m bước hợp • Do độ phức tạp Chameleon O( + n + (n + )log(m)) 3.7 Cài đặt tham số • Các tham số thuật tốn biểu diễn giá trị mặc định Bảng bên Để thiết lập k, nên sử dụng k = a + c.ln (n), a c số Các số phải số nguyên nhỏ vì k lớn, nút kết nối với nút lân cận xa, dẫn đến kết không chính xác Tham số Mô tả Giá trị mặc định k Số lượng nút lân cận (kNN) 2ln(n) α Độ ưu tiên lân cận 2.0 β Độ kết nối lân cận 1.0 Kích thước phân vùng tối đa Max {5,n/100} Similarity Xác định thứ tự hợp BBK Bisection Thuật toán phân tách Fiduccia–Mattheyses Yếu tố cho cụm nhỏ Chameleon autopilot • Chameleon tạo cấu trúc phân cấp hợp Kết Ch2 hữu ích tìm số nhóm liệu Tuy nhiên, số trường hợp muốn sử dụng phân vùng Để có điều cần tìm hiểu kết phân cấp xác định phân vùng • Autopilot quy trình thiết lập tham số thích ứng chế cắt thông minh để giải số lượng cụm cách tự động biểu đồ dendogram 4.1 Biểu diễn biểu đồ thị Dendogram • Biểu đồ Dendogram thường sử dụng để mô tả cấu trúc phân cấp, kết hợp với đồ nhiệt • Dựa vào hình bên, số thay đổi định so với biểu đồ dendogram truyền thống thực hiện: thay vì hiển thị phần tử riêng lẻ, mức dendrogram thấp đại diện cho cụm nhỏ tạo giai đoạn phân vùng Biểu đồ dendogram Chameleon sử dụng liệu flame sử dụng độ tương đồng Ch1 (a) Ch2(b) Biểu đồ (b) dễ dàng tìm điểm cắt hợp lý so với biểu đồ (a) 4.1 Biểu diễn biểu đồ thị Dendogram •  Cuối cùng, chiều cao nút xác định lại Thông thường, chiều cao nút cấp thứ I (mỗi cấp đại diện cho hợp cụm) định nghĩa khoảng cách cụm , cấp độ x y, sau hợp vào cụm sau: , (12) • Trong d (·, ·) hàm khoảng cách hai cụm Chiều cao dendrogram xác định là: , (13) 4.2 Bước cắt • Bước cắt (First jump cutoff - Ch2-FJ) phương pháp dựa ý tưởng khoảng cách lớn cấp nơi cụm nên chia • Để giữ cho cụm khác tách biệt sau trình phân tách, thuật toán cắt gần gốc biểu đồ dendogram tốt • Thuật tốn Bước cắt biểu diễn trang sau 4.2 Bước cắt Thuật toán 2: First jump cutoff Funtion FirstJump(mult, factor) Dữ liệu: biểu đồ dendogram Function FindBiggerJump(jump) lower←TreeHeightByLevel(treeLevels /2 + 1) for i ←treeLevels /2 to treeLevels Kết quả: Chiều cao đề xuất để cắt upper ← TreeHeightByLevel(i) avg ← ComputeAvgJump() if upper - lower > jump then res ← while mult > res ← FindBiggerJump(mult ·avg) if res then return res else mult ←mult /factor return lower + (upper − lower ) / lower ← upper return ... Giới thiệu Thuật toán Chameleon nguyên Giới thiệu thuật toán Chameleon Chameleon autopilot Thử nghiệm Giới thiệu • THUẬT TỐN PHÂN CỤM • Phân cụm kỹ thuật nhóm đối tượng tương đồng thành cụm đối... Khởi tạo đồ thị • Đồ thị kNN đối xứng thuật toán Chameleon loại bỏ nhiều cạnh kết nối cụm dẫn đến kết phân cụm tốt • Để có phân cụm hợp lý, giá trị k thích hợp cần phải khởi tạo • Thuật tốn... thiệu • GIỚI THIỆU VỀ THUẬT TỐN CHAMELEON • Thuật toán Chameleon nguyên thường xác định cụm chính, lại sản sinh thêm cụm nhiễu khó để cấu hình • Phiên cải tiến thuật tốn Chameleon có khả tìm

Ngày đăng: 08/11/2022, 14:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w