Tiếp tục đến với Bài giảng Tìm kiếm và trình diễn thông tin: Bài 15 - Chia cụm và ứng dụng trong tìm kiếm sẽ giới thiệu tới các bạn tính chất của K-means; K-means luôn hội tụ; RSS giảm khi xác định lại tâm cụm; tính tối ưu của K-means; hội tụ, cận tối ưu;...
(IT4853) Tìm kiếm trình diễn thơng tin Chia cụm ứng dụng tìm kiếm Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Tính chất K-means; Đánh giá phương pháp chia cụm K-means hội tụ RSS: Residual Sum of Squares; RSS tổng bình phương khoảng cách văn trọng tâm gần nhất; RSS giảm dần sau bước chia cụm RSS giảm sau bước xác định lại tâm cụm Vì văn gán với trọng tâm gần nhất; Xem slides Số cách chia cụm hữu hạn; RSS giảm xác định lại tâm cụm 𝑅𝑆𝑆 = 𝑘=1 𝐾 𝑅𝑆𝑆𝑘 𝑅𝑆𝑆𝑘 𝑣 = 𝑅𝑆𝑆𝑘 𝑣 = 𝜕𝑅𝑆𝑆𝑘 (𝑣) 𝜕𝑣𝑚 𝑣𝑚 = = 𝜔𝑘 𝑥∈𝜔𝑘 𝑣−𝑥 𝑥∈𝜔𝑘 𝑚=1 𝑀 𝑥∈𝜔𝑘 2(𝑣𝑚 𝑣𝑚 − 𝑥𝑚 − 𝑥𝑚 ) 𝑥∈𝜔𝑘 𝑥𝑚 RSS đạt cực tiểu 𝑣 tâm cụm Tính tối ưu K-means Hội tụ không đồng với cách chia cụm tối ưu; Nếu lựa chọn tâm cụm ban đầu khơng tốt, chất lượng chia cụm thấp Hội tụ, cận tối ưu Kết chia cụm tối ưu cho K = 2? Luôn hội tụ với tập mầm {di, dj} bất kỳ? Khởi tạo K-means Nhược điểm khởi tạo ngẫu nhiên không ổn định: kết chia cụm khong tối ưu Hiệu chỉnh: Lựa chọn tập mầm tốt; V.D., thực nhiều lượt sinh ngẫu nhiên chọn kết tốt Độ phức tạp giải thuật K-means Tính khoảng cách hai vec-tơ O(M) Gắn văn với trọng tâm: O(KNM) Xác định lại trọng tâm: O(NM) Giả sử giải thuật hội tụ sau I bước Độ phức tạp tổng quát: O(IKNM) Nội dung Tính chất K-means; Đánh giá phương pháp chia cụm 10 Tiêu trí chất lượng chia cụm Tiêu trí nội biên Ví dụ, RSS K-means Tiêu trí ngoại biên Chiếu theo kết phân lớp chuyên gia 11 Đánh giá đối chiếu với phân lớp mẫu Mục tiêu: Mô cách chia lớp mẫu Các độ đo: Purity Rand Index 12 Đánh giá dựa kết mẫu, Purity Ω= {ω1, ω2, , ωK} cụm, C = {c1, c2, , cJ} lớp Trong cụm ωk tìm lớp cj với nhiều văn nhất, ký hiệu số văn nki; Tính tổng nki chia cho số lượng văn 13 Ví dụ, tính Purity Để tính purity: = maxj |ω1 ∩ cj |; = maxj |ω2 ∩ cj |; = maxj |ω3 ∩ cj | Purity = (1/17) × (5 + + 3) ≈ 0.71 14 Đánh giá dựa kết mẫu, Rand Index Cùng cụm Khác cụm Cùng lớp TP FP Khác lớp FN TN TP+ FN + FP + TN = N tổng số cặp văn 15 Ví dụ, tính Rand Index FP = 40 − 20 = 20, FN TN xác định tương tự 16 Ví dụ, tính Rand Index Cùng cụm Khác cụm Cùng lớp TP = 20 FP = 24 Khác lớp FN = 20 TN = 72 RI =… 17 Các độ khác Chuẩn hóa hàm lượng thơng tin (NMI) Cụm có NMI cực đại entropy lớp cụm Độ đo F Trung bình có trọng số độ xác độ đầy đủ 18 Kết đánh giá 19 20 .. .Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Tính chất K-means; Đánh... V.D., thực nhiều lượt sinh ngẫu nhiên chọn kết tốt Độ phức tạp giải thuật K-means Tính khoảng cách hai vec-tơ O(M) Gắn văn với trọng tâm: O(KNM) Xác định lại trọng tâm: O(NM) Giả sử... tổng quát: O(IKNM) Nội dung Tính chất K-means; Đánh giá phương pháp chia cụm 10 Tiêu trí chất lượng chia cụm Tiêu trí nội biên Ví dụ, RSS K-means Tiêu trí ngoại biên Chiếu theo kết