Phân loại các trang web tiếng việt(naïve bayes classification)
PHÂN LOẠI CÁC TRANG WEB TIẾNG VIỆT(NAÏVE BAYES CLASSIFICATION) TS Nguyễn Nhật Quang Nhóm NỘI DUNG CHÍNH I Tổng quan II Giải thuật học máy III IV Bài toán phân loại văn ứng dựng Giới thiệu Định lý Bayes Tập liệu sử dụng Các kết thí nghiệm Các phương pháp đánh giá hiệu học máy Các kết NỘI DUNG CHÍNH V Chức hệ thống VI Cấu trúc mã nguồn chương trình VII Các khó khăn gặp phải q trình thực cơng việc cách thức dùng để giải VIII Kết Luận I TỔNG QUAN Bà toán phân loại văn Phân loại văn coi trình phân loại văn vào hay nhiều lớp cho trước: Xây dựng tập liệu huấn luyện (Training dataset) Bao gồm tập văn phân lớp tương ứng chúng Phân lớp cho văn (chưa phân loại) Sử dụng bước Mục tiêu: nhằm xây dựng mô hình có khả gán nhãn cho văn với độ xác cao ỨNG DỤNG - - Áp dụng vào toán phân loại hay lọc nội dung Lọc nội dung: Văn phân loại vào nhóm có ích hay khơng có ích Nhóm khơng có ích bị loại bỏ VD:lọc thư giác, lọc trang web phản động Xây dựng phân lớp sau tìm kiếm Định vị nội dung thơng tin cần tìm kiếm nhanh dễ dàng II GIẢI THUẬT HỌC MÁY - - - - Giới thiệu Giải thuật Naïve Bayes Là phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực học máy Được sử dụng phổ biến nhiều lĩnh vực tìm kiếm, lọc email Giải thuật phân loại theo xác xuất đơn giản dựa lý thuyết Bayes vơi giả thiết độc lập Ưu điểm: Dễ cài đặt Áp dụng phổ biến thực tế Nhanh, xác Nhược điểm: giả thiết độc lập, làm giảm độ xác ĐỊNH LÝ BAYES Cơng thức: P(h): Xác xuất trước (tiên nghiệm) giả thiết (phân loại) h P(D): Xác xuất trước (tiên nghiệm) việc quan sát liệu D P(D|h): Xác xuất (có điều kiện) việc quan sát liệu D, giả thiết (phân loại) h P(h|D): Xác xuất (có điều kiện ) giả thiết (phân loại) h đúng, quan sát liệu D Phân loại Naïve Bayes toán phân loại trang web Biểu diễn toán phân loại: Một tập học D_train, ví dụ học x biểu diễn vectơ n chiều: (x1, x2, …., xn) Các xj từ khóa rút làm đặc trưng Một tập xác định nhãn lớp: C={c1, c2,…., cm} Với ví dụ z cần xác định xem z phân vào lớp Mục tiêu: Xác định phân lớp phù hợp với z PHÂN LOẠI NẠVE BAYES TRONG BÀI TỐN PHÂN LOẠI TRANG WEB Vì xác xuất Là phân lớp cần tìm nên: Các thuộc tính độc lập có điều kiện nên: Phân loại văn phương pháp Naïve Bayes Giai đoạn học Từ tập văn D_train(đã gắn nhãn lớp (d k ,Ci)), ta trích tập từ khóa T = {t j} đặc trưng dùng để biểu diễn văn Gọi D_ci (thuộc D_train) tập văn D_train có nhãn lớp ci Đối với phân lớp ci: Tính giá trị xác xuất trước phân lớp ci Đối với từ khóa tj, tính xác xuất từ khóa tj xuất lớp ci theo cơng thức: 10 PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP NAÏVE BAYES Giai đoạn phân lớp cho văn d: Từ văn d, trích tập T_d gồm từ khóa định nghĩa tập T Giả sử rằng, xác xuất xuất từ khóa t j phân lớp ci độc lập vị trí từ khóa văn Đối với phân lớp ci, ta tính giá trị likehood văn d lớp ci Văn d phân vào lớp C* có giá trị likehood lớn C* = 11 III TẬP DỮ LIỆU SỬ DỤNG Sử dụng liệu để thực nghiệm Cả lưu trữ dạng CSDL lưu MySQL với cấu trúc giống Cấu trúc CSDL lưu trữ văn bản: 12 III TẬP DỮ LIỆU SỬ DỤNG 13 III TẬP DỮ LIỆU SỬ DỤNG 14 IV CÁC KẾT QUẢ THÍ NGHIỆM Đánh giá hiệu hệ thống P(Ci) = (Precision) R(Ci) = (Recall) Trong đó, :số lượng ví dụ thuộc lớp Ci phân loại xác vào lớp Ci số lượng ví dụ khơng thuộc lớp Ci bị phân loại nhầm vào lớp Ci số lượng ví dụ thuộc lớp Ci bị phân loại nhầm vào lớp khác Độ đo F-measure 15 CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI QUA PHẢI 12, 10, CỤM) 16 CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI QUA PHẢI 12, 10, CỤM) 17 CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI QUA PHẢI 12, 10, CỤM) 18 V CHỨC NĂNG CHÍNH CỦA HỆ THỐNG 19 TỪ DỪNG 20 VI CẤU TRÚC MÃ NGUỒN CHƯƠNG TRÌNH 21 CÁC KHĨ KHĂN GẶP PHẢI TRONG Q TRÌNH THỰC HIỆN CÔNG VIỆC VÀ CÁCH THỨC ĐƯỢC DÙNG ĐỂ GIẢI QUYẾT Việc phân chia liệu D ban đầu thành 70% liệu làm tập train, 30% liệu làm tập test cho D_train D_test =, đầy đủ label tập D => Đã khắc phục: tự xây dựng chương chương trình thực việc phân chia Chương trình viết PHP Chưa tìm số lượng từ biểu diễn đặc trưng số phần trăm liệu dùng để huấn luyện cho có độ xác cao => Thực thực nghiệm với nhiều kịch khác Với liệu lớn nhiều thể loại, độ xác lại giảm 22 KẾT LUẬN Với liệu lớn hơn, gồm nhiều văn số loại thể loại hơn, độ xác bị giảm Lý phần số lượng văn với thể thoại chưa nhau, gây phân hố Ranh giới thể loại khơng rõ ràng, dễ nhầm lẫn Đề xuất cải tiến: thu thập nhiều liệu thể loại hơn, tăng cường khả học cho hệ thống Ý tưởng: xây dựng hệ thống học tự động: tự động thu thập liệu học Về mặt kỹ thuật: lưu trữ MySql Điều không thực phù hợp với liệu vừa lớn, gây ảnh hưởng đến tốc độ xử lý toán 23 KẾT LUẬN Đề xuất nhóm sử dụng NoSQL (ví dụ MongoDB) để tăng tốc độ Nghiên cứu tìm hiểu thuật toán phân loại khác để áp dụng linh hoạt, xác vào tốn phân loại văn 24 THANK YOU FOR LISTENING 25 ... (phân loại) h đúng, quan sát liệu D Phân loại Nạve Bayes tốn phân loại trang web Biểu diễn toán phân loại: Một tập học D_train, ví dụ học x biểu diễn vectơ n chiều: (x1, x2, …., xn) Các. .. z cần xác định xem z phân vào lớp Mục tiêu: Xác định phân lớp phù hợp với z PHÂN LOẠI NAÏVE BAYES TRONG BÀI TỐN PHÂN LOẠI TRANG WEB Vì xác xuất Là phân lớp cần tìm nên: Các thuộc tính độc lập... nguồn chương trình VII Các khó khăn gặp phải q trình thực cơng việc cách thức dùng để giải VIII Kết Luận I TỔNG QUAN Bà toán phân loại văn Phân loại văn coi trình phân loại văn vào hay nhiều