Với bài học Phân lớp và ứng dụng trong tìm kiếm thuộc bài 13 của bộ bài giảng Tìm kiếm và trình diễn thông tin hướng đến trình bày ứng dụng phân lớp trong tìm kiếm; các khái niệm cơ bản; ứng dụng trong công cụ tìm kiếm; phương pháp phân lớp thủ công;...
(IT4853) Tìm kiếm trình diễn thơng tin Phân lớp ứng dụng tìm kiếm Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Ứng dụng phân lớp tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp Các khái niệm Ký hiệu X tập văn bản; C tập lớp (còn gọi tập nhãn); Dữ liệu huấn luyện phân lớp mẫu 𝐷 = < 𝑑, 𝑐 > 𝑑 ∈ 𝑋, 𝑐 ∈ 𝐶 , Qúa trình học phân lớp xác định ánh xạ 𝛾 mô kết phân lớp D 𝛾: 𝑋 → 𝐶 Phân lớp xác định định lớp phù hợp với d X: 𝛾(𝑑) ∈ C Minh họa Ứng dụng cơng cụ tìm kiếm Xác định ngơn ngữ Các lớp: Tiếng Anh, tiếng Việt, v.v Xác định spam Tìm kiếm theo chủ đề Truy vấn cố định (standing queries), v.d., Google Alerts Phân lớp bình luận: Khen, chê, v.v Phương pháp phân lớp thủ công Yahoo, ODP, Pubmed; Rất xác! Đơn giản với liệu nhỏ; Phức tạp & chi phí cao quy mơ lớn Phân lớp tự động? Phương pháp phân lớp dựa luật Ví dụ, Google Alerts; Mơi trường tích hợp hỗ trợ viết luật phân lớp; Nếu thỏa mãn biểu thức Boolean q thuộc lớp c Có thể đạt độ xác cao; Cần chi phí lớn Phương pháp phân lớp tự động Xác suất, thống kê Tiêu biểu: Naïve Bayes, Rocchio, kNN, SVMs Cần thiết lập liệu huấn luyện; Nội dung Ứng dụng phân lớp tìm kiếm Phương pháp Nạve Bayes Đánh giá phương pháp phân lớp 10 Naïve Bayes Phân lớp dựa xác suất; Xác suất d thuộc c tính sau: 𝑝 𝑐𝑑 ∝𝑝 𝑐 𝑝 𝑡𝑘 𝑐 , 1≤𝑘≤𝑛𝑑 Trong đó: nd độ dài văn bản; p(tk|c) xác suất tk thuộc c; p(c) xác suất tiền nghiệm lớp c 11 Tiêu trí xác suất cực đại Văn phân vào lớp với xác suất cực đại 𝛾 𝑑 = 𝑎𝑟𝑔 max 𝑝(𝑐) 𝑐∈𝐶 𝑝(𝑡𝑘 |𝑐) 1≤𝑘≤𝑛𝑑 12 Lấy log Lấy tích nhiều đại lượng xác suất nhỏ gây tràn số; Lớp với xác suất lớn không đổi sử dụng logarithm Trong thực tế sử dụng công thức sau: 𝛾 𝑑 = 𝑎𝑟𝑔 max log 𝑝(𝑐) + 𝑐∈𝐶 log 𝑝(𝑡𝑘 |𝑐) 1≤𝑘≤𝑛𝑑 13 Giải thuật Naïve Bayes Xác định p(c) p(tk|c) dựa liệu luyện: 𝑁𝑐 𝑝 𝑐 = 𝑁 Trong Nc số văn lớp c, N số văn liệu luyện Xác suất có điều kiện: 𝑇𝑐𝑡𝑘 𝑝 𝑡𝑘 𝑐 = 𝑡∈𝑉 𝑇𝑐𝑡 Trong Tct số lần từ t xuất lớp c 14 Giá trị Nếu có từ t thuộc d không xuất văn lớp c thì: p(t|c) = Kéo theo p(c|d)=0 15 Làm mịn Làm mịn cách cộng thêm 1: 𝑇𝑐𝑡𝑘 + 𝑇𝑐𝑡𝑘 + 𝑝 𝑡𝑘 𝑐 = = 𝑡∈𝑉(𝑇𝑐𝑡 +1) 𝑡∈𝑉 𝑇𝑐𝑡 + 𝑉 16 Giải thuật Naïve Bayes: Huấn luyện 17 Giải thuật Naïve Bayes: Phân lớp 18 Nội dung Ứng dụng phân lớp tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp 19 Khái quát Đánh giá phải thực liệu kiểm thử độc lập với liệu huấn luyện; Đánh giá kết phân lớp theo tiêu trí: Độ xác (P), Độ đầy đủ (R), F1 20 Các độ đo Thống kê đại lượng sau lớp: Dự đốn thuộc lớp Dự đốn khơng thuộc lớp |A| TP P | A B | TP FP 2PR F1 PR Thuộc lớp A (TP) C (FN) Không thuộc lớp B (FP) D (TN) |A| TP R | A C | TP FN 21 Lấy trung bình Macro Tính F1 cho lớp; Lấy trung bình giá trị F1 Micro: Thống kê TP, TN, FP, FN cho lớp; Lấy tổng đại lượng thống kê tất lớp; Tính F1 giá trị tổng hợp 22 Naïve Bayes phân lớp khác Bộ phân loại Nạve Bayes hoạt động tương đối tốt, nhiên có nhiều phân loại khác có kết cao hơn, ví dụ, SVM 23 24 .. .Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Ứng dụng phân lớp tìm kiếm. ..