1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 15 - TS.Nguyễn Bá Ngọc

20 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 529,26 KB

Nội dung

Tiếp tục đến với Bài giảng Tìm kiếm và trình diễn thông tin: Bài 15 - Chia cụm và ứng dụng trong tìm kiếm sẽ giới thiệu tới các bạn tính chất của K-means; K-means luôn hội tụ; RSS giảm khi xác định lại tâm cụm; tính tối ưu của K-means; hội tụ, cận tối ưu;...

(IT4853) Tìm kiếm trình diễn thơng tin Chia cụm ứng dụng tìm kiếm Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung   Tính chất K-means; Đánh giá phương pháp chia cụm K-means hội tụ    RSS: Residual Sum of Squares; RSS tổng bình phương khoảng cách văn trọng tâm gần nhất; RSS giảm dần sau bước chia cụm   RSS giảm sau bước xác định lại tâm cụm   Vì văn gán với trọng tâm gần nhất; Xem slides Số cách chia cụm hữu hạn; RSS giảm xác định lại tâm cụm  𝑅𝑆𝑆 = 𝑘=1 𝐾 𝑅𝑆𝑆𝑘  𝑅𝑆𝑆𝑘 𝑣 =  𝑅𝑆𝑆𝑘 𝑣 = 𝜕𝑅𝑆𝑆𝑘 (𝑣)  𝜕𝑣𝑚  𝑣𝑚 = = 𝜔𝑘 𝑥∈𝜔𝑘 𝑣−𝑥 𝑥∈𝜔𝑘 𝑚=1 𝑀 𝑥∈𝜔𝑘 2(𝑣𝑚 𝑣𝑚 − 𝑥𝑚 − 𝑥𝑚 ) 𝑥∈𝜔𝑘 𝑥𝑚 RSS đạt cực tiểu 𝑣 tâm cụm Tính tối ưu K-means   Hội tụ không đồng với cách chia cụm tối ưu; Nếu lựa chọn tâm cụm ban đầu khơng tốt, chất lượng chia cụm thấp Hội tụ, cận tối ưu   Kết chia cụm tối ưu cho K = 2? Luôn hội tụ với tập mầm {di, dj} bất kỳ? Khởi tạo K-means   Nhược điểm khởi tạo ngẫu nhiên không ổn định: kết chia cụm khong tối ưu Hiệu chỉnh:   Lựa chọn tập mầm tốt; V.D., thực nhiều lượt sinh ngẫu nhiên chọn kết tốt Độ phức tạp giải thuật K-means      Tính khoảng cách hai vec-tơ O(M) Gắn văn với trọng tâm: O(KNM) Xác định lại trọng tâm: O(NM) Giả sử giải thuật hội tụ sau I bước Độ phức tạp tổng quát: O(IKNM) Nội dung   Tính chất K-means; Đánh giá phương pháp chia cụm 10 Tiêu trí chất lượng chia cụm  Tiêu trí nội biên   Ví dụ, RSS K-means Tiêu trí ngoại biên  Chiếu theo kết phân lớp chuyên gia 11 Đánh giá đối chiếu với phân lớp mẫu   Mục tiêu: Mô cách chia lớp mẫu Các độ đo:   Purity Rand Index 12 Đánh giá dựa kết mẫu, Purity     Ω= {ω1, ω2, , ωK} cụm, C = {c1, c2, , cJ} lớp Trong cụm ωk tìm lớp cj với nhiều văn nhất, ký hiệu số văn nki; Tính tổng nki chia cho số lượng văn 13 Ví dụ, tính Purity  Để tính purity:    = maxj |ω1 ∩ cj |; = maxj |ω2 ∩ cj |; = maxj |ω3 ∩ cj | Purity = (1/17) × (5 + + 3) ≈ 0.71 14 Đánh giá dựa kết mẫu, Rand Index Cùng cụm  Khác cụm Cùng lớp TP FP Khác lớp FN TN TP+ FN + FP + TN = N tổng số cặp văn 15 Ví dụ, tính Rand Index FP = 40 − 20 = 20, FN TN xác định tương tự 16 Ví dụ, tính Rand Index Cùng cụm Khác cụm Cùng lớp TP = 20 FP = 24 Khác lớp FN = 20 TN = 72 RI =… 17 Các độ khác  Chuẩn hóa hàm lượng thơng tin (NMI)    Cụm có NMI cực đại entropy lớp cụm Độ đo F  Trung bình có trọng số độ xác độ đầy đủ 18 Kết đánh giá 19 20 .. .Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung   Tính chất K-means; Đánh... V.D., thực nhiều lượt sinh ngẫu nhiên chọn kết tốt Độ phức tạp giải thuật K-means      Tính khoảng cách hai vec-tơ O(M) Gắn văn với trọng tâm: O(KNM) Xác định lại trọng tâm: O(NM) Giả sử... tổng quát: O(IKNM) Nội dung   Tính chất K-means; Đánh giá phương pháp chia cụm 10 Tiêu trí chất lượng chia cụm  Tiêu trí nội biên   Ví dụ, RSS K-means Tiêu trí ngoại biên  Chiếu theo kết

Ngày đăng: 08/05/2021, 13:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w