Phân lớp và ứng dụng trong tìm kiếm thuộc bài 16 nằm trong bộ bài giảng Tìm kiếm và trình diễn thông tin do TS.Nguyễn Bá Ngọc biên soạn sẽ gửi tới các bạn các giải thuật Naïve Bayes; Multinomial Naïve Bayes: Huấn luyện; Multinomial Naïve Bayes: Phân lớp; Bernoulli Naïve Bayes: Huấn luyện; Bernoulli Naïve Bayes: Phân lớp;...
(IT4853) Tìm kiếm trình diễn thơng tin Phân lớp ứng dụng tìm kiếm Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Các giải thuật Nạve Bayes; Trích chọn đặc trưng Multinomial Naïve Bayes: Huấn luyện Multinomial Naïve Bayes: Phân lớp Bernoulli Naïve Bayes: Huấn luyện Bernoulli Nạve Bayes: Phân lớp Nội dung Các giải thuật Nạve Bayes; Trích chọn đặc trưng Trích chọn đặc trưng Trong phân lớp, văn thường biểu diễn không gian đa chiều; Các từ gây lỗi phân lớp; chiều ~ trục; từ ~ đặc trưng Từ gây lỗi phân lợp gọi đặc trưng nhiễu Loại đặc trưng nhiễu làm tăng hiệu hiệu phân lớp; Quá trình loại bỏ đặc trưng nhiễu gọi trích chọn đặc trưng; Đặc trưng nhiễu Giả sử từ t không chứa thông tin liên quan đến lớp c xuất văn lớp c Vì t từ nên phân lớp sau huấn luyện coi t tín hiệu mạnh thuộc lớp c Hiện tượng gọi overfitting Trích chọn đặc trưng làm giảm overfitting cải thiện tính xác phân lớp 10 Giải thuật trích chọn đặc trưng 11 Các phương pháp Phương pháp trích chọn đặc trưng xác định chủ yếu cách đo độ hữu ích đặc trưng Độ hữu ích đặc trưng: Tần suất – lựa chọn từ xuất thường xuyên Mutual information – lựa chọn từ với mutual information cao nhất; Còn gọi Information Gain Chi-square 12 Các phương pháp Phương pháp trích chọn đặc trưng xác định chủ yếu cách đo độ hữu ích đặc trưng Độ hữu ích đặc trưng: Tần suất – lựa chọn từ xuất thường xuyên Hàm lượng thông tin – lựa chọn từ với Hàm lượng thông tin cao nhất; Chi-square 13 Hàm lượng thông tin Mutual information Information Gain N11 số văn thuộc lớp c chứa t; N10 số văn thuộc lớp c không chứa t; N01 không thuộc lớp c, chứa t; N00 không thuộc lớp c không chứa t N = N11 + N10 + N01 + N00 tổng số văn 14 Ví dụ tính MI, poultry/EXPORT 15 Kết trích chọn đặc trưng Reuters 16 (multinomial = multinomial Naive Bayes, binomial = Bernoulli Naive Bayes) 17 Nạve Bayes Trong trường hợp tổng qt, trích chọn đặc trưng cần thiết để đạt kết cao Cần trích chọn đặc trưng để đạt hiệu tối đa! 18 Bài tập Tính ma trận nhầm lẫn tương tự poultry/EXPORT cho cặp “Kyoto/JAPAN” Hãy thiết lập ma trận nhầm lẫn mà MI = 19 20 .. .Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B 1-6 03 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb... chọn từ xuất thường xuyên Hàm lượng thông tin – lựa chọn từ với Hàm lượng thông tin cao nhất; Chi-square 13 Hàm lượng thông tin Mutual information Information Gain N11 số văn thuộc lớp c chứa... Chi-square 12 Các phương pháp Phương pháp trích chọn đặc trưng xác định chủ yếu cách đo độ hữu ích đặc trưng Độ hữu ích đặc trưng: Tần suất – lựa chọn từ xuất thường xuyên Hàm lượng thông