1. Trang chủ
  2. » Thể loại khác

Tìm kiếm trình diễn thơng tin Bài 14 Phân cụm văn (2) IIR C16 Flat clustering Bộ môn Hệ thống thông tin Viện CNTT & TT

22 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

IT4853 Tìm kiếm trình diễn thơng tin Bài 14 Phân cụm văn (2) IIR C16 Flat clustering Bộ môn Hệ thống thông tin Viện CNTT & TT Nội dung   Tính hội tụ K-means Đánh giá kết chia cụm K-means hội tụ    RSS: Residual Sum of Squares; RSS tổng bình phương khoảng cách văn trọng tâm gần nhất; RSS giảm dần sau bước chia cụm   RSS giảm sau bước xác định lại tâm cụm   Vì văn gán với trọng tâm gần nhất; Xem slides Số cách chia cụm hữu hạn; RSS giảm xác định lại tâm cụm Tính tối ưu K-means   Hội tụ không đồng với cách chia cụm tối ưu; Nếu lựa chọn tâm cụm ban đầu khơng tốt, chất lượng chia cụm thấp Hội tụ, cận tối ưu   Kết chia cụm tối ưu cho K = 2? Luôn hội tụ với tập mầm {di, dj} bất kỳ? Khởi tạo K-means   Nhược điểm khởi tạo ngẫu nhiên không ổn định: kết chia cụm khơng tối ưu Hiệu chỉnh:   Lựa chọn tập mầm tốt; V.D., thực nhiều lượt sinh ngẫu nhiên chọn kết tốt Độ phức tạp giải thuật K-means      Tính khoảng cách hai vec-tơ O(M) Gắn văn với trọng tâm: O(KNM) Xác định lại trọng tâm: O(NM) Giả sử giải thuật hội tụ sau I bước Độ phức tạp tổng quát: O(IKNM) Nội dung   Tính hội tụ K-means Đánh giá kết chia cụm Đánh giá kết chia cụm dựa liệu phân lớp  Ý tưởng: Coi kết phân lớp phương án chia cụm tối ưu, đáp ứng tốt tiêu chí chia cụm   Đánh giá kết chia cụm cách so sánh với kết phân lớp mẫu Các độ đo:   Purity Rand Index 10 Độ đo Purity  Ω= {ω1, ω2, , ωK} tập cụm,  C = {c1, c2, , cJ} tập lớp 11 Ví dụ Purity  Tính purity:  maxj |ω1 ∩ cj | = 5; maxj |ω2 ∩ cj | = 4; maxj |ω3 ∩ cj | =  Purity = (1/17) × (5 + + 3) ≈ 0.71 12 Rand Index Cùng lớp  Khác lớp Cùng cụm TP FP Khác cụm FN TN TP+ FN + FP + TN = N tổng số cặp văn 13 Ví dụ Rand Index FP = 40 − 20 = 20, FN TN xác định tương tự 14 Ví dụ Rand Index Cùng lớp Khác lớp Cùng cụm TP = 20 FP = 20 Khác cụm FN = 24 TN = 72 RI = (20 + 72)/136 15 Tổng hợp 16 Bài tập 19.1 Hai điều kiện dừng giải thuận k-means: (i) kết phân cụm không thay đổi; (ii) tâm cụm không thay đổi Từ điều kiện (i) có suy điều kiện (ii) hay khơng? Từ điều kiện (ii) có suy điều kiện (i) hay không? 17 Bài tập 19.2 Thay văn hình vẽ hai văn Sau tính Purity RI Thêm văn trùng lặp có làm q trình chia cụm khó khơng? Đại lượng thay đổi/không thay đổi? 18 Bài tập 19.3 Hãy tính RSS cho kết chia cụm hai trường hợp 19 Bài tập 19.5 Hãy lấy ví dụ tập điểm trọng tâm ban đầu cho kết phân cụm 3-means hội tụ với cụm rỗng (ii) Kết chia cụm với cụm rỗng kết tối ưu tồn cục theo RSS? 20 Bài tập 19.6 Hãy chứng minh RSSmin(K) hàm đơn điệu giảm biến K 21 22

Ngày đăng: 16/06/2023, 11:50