1. Trang chủ
  2. » Công Nghệ Thông Tin

PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ

32 735 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,29 MB

Nội dung

ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ Giảng viên hướng dẫn : TS. Nguyễn Thị Thu Hà BÁO CÁO MÔN: MÁY HỌC Sinh viên thực hiện : Phương Văn Cảnh : Đỗ Anh Đức : Trần Văn Hải : Khổng Huy Thịnh Hà Nội - 2012 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN TỔNG QUAN  Chương 1: Các hướng tiếp cận phân loại văn bản.  Chương 2: Các hướng tiếp cận tách từ.  Chương 3: Phân loại văn bản Tiếng Việt.  Chương 4: Sử dụng thuật toán Navie Bayes để phân loại văn bản.  Chương 5: Phân loại văn bản dựa vào thuật toán Logic Mờ.  Chương 6: Phân tích thiết kế hệ thống.  Chương 7: Kết luận 2 Các phương pháp phân loại văn bản:  Phương pháp SVM – Support Vector Machine.  Phương pháp K – Nearest Neighbor.  Phương pháp Naïve Bayes.  Phương pháp Linear Least Square Fit – LLSF.  Phương pháp Centroid – based vector.  Phương pháp Logic Mờ. 3 CHƯƠNG 1: CÁC HƯỚNG TIẾP CẬN PHÂN LOẠI VĂN BẢN CHƯƠNG 2: CÁC HƯỚNG TIẾP CẬN TÁCH TỪ 2.1. Các hướng tiếp cận dựa trên từ:  Hướng tiếp cận dựa trên thống kê.  Hướng tiếp cận dựa trên từ điển.  Hướng tiếp cận theo Hybrid. 2.2. Các hướng tiếp cận dựa trên kí tự. 4 CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 3.1. Tách từ trong văn bản  Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC gồm:  Online Extractor : Lấy thông tin về tần số xuất hiện của các từ trong văn bản.  Sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau: 5 CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 3.1. Tách từ trong văn bản  Online Extractor: 6  Trong đó: MAX = 4 * 10 9 count(w): số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng chứa w1 và w2 đối với count(w1&w2).  Tính xác suất độ phụ thuộc của một từ lên một từ khác: 7  Thông tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi n tiếng ( cw = w 1 w 2 …w n ) CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 3.2. Phương pháp trích rút đặc trưng văn bản  Phương pháp truyền thống trích rút đặc trưng văn bản.  Phương pháp trích rút đặc trưng đề nghị sử dụng. 8 CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN 4.1. Lý do chọn Naïve Bayes:  Phân loại dựa vào xác suất.  Tính toán NB hiệu quả và nhanh chóng.  Cài đặt đơn giản, tốc độ thực hiện thuật toán nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập huấn luyện. 9 4.2. Áp dụng cho bài toán phân loại văn bản  A. Huấn luyện: tính và  Công thức tính đã làm trơn Laplace  Trong đó:  |docs i |: số văn bản của tập huấn luyện thuộc phân lớp i.  |total docs|: số văn bản trong tập huấn luyện.  m: số phân lớp   10 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN [...]... 14 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN Docs Var Bit Class Doc1 1 0 Math Doc2 0 1 Comp Doc3 1 1 Comp Doc4 1 0 Math Doc5 0 1 Math Doc6 0 1 Comp 15 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN Doc new = (1,0) => Vậy văn bản mới thuộc lớp Math 16 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ 5.1 Mô hình chung * Mô hình chung của các thuật toán gồm các... LOGIC MỜ  Phân loại dựa trên độ đo tương tự mờ 20 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ  Tính: Độ đo tương tự mờ :  Trường hợp đặc biệt của độ đo tương tự mờ : 21 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ    Trường hợp đặc biệt của độ đo tương tự mờ : sim(d,cj) = Card[R(t,cj)] Trong đó t∈d và m là số lượng các thuật ngữ riêng biệt trong văn bản d 22 CHƯƠNG 6: PHÂN... tập văn bản mẫu để huấn luyện  Xây dựng các hàm để phân loại hoặc tóm tắt trên cơ sở ứng dụng công cụ logic mờ 17 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ Huấn luyện:  Giá trị µR(ti, cj) được tính bằng tổng số thuật ngữ ti trong loại cj chia cho tổng số tần suất ti trong tất cả các loại Tiến trình này được mô tả bằng công thức sau : 18 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC. .. 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN  Công thức tính đã làm trơn Laplace:    Trong đó:  Số văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị x k (hay số văn bản trong lớp i, có xuất hiện/không xuất hiện đặc trưng k)  Số văn bản của tập huấn luyện thuộc phân lớp i  Số giá trị có thể có của đặc trưng thứ k 11 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN... DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN B Phân lớp:  Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X: 12 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN VÍ DỤ: Docs Var Bit Class Doc1 1 0 Math Doc2 0 1 Comp Doc3 1 1 Comp Doc4 1 0 Math Doc5 0 1 Math Doc6 0 1 Comp 13 CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN Docs Var Bit Class Doc1 1 0 Math Doc2... MỜ Ví dụ: Với văn bản trainning có số lượng từ thuật ngữ như sau: Văn bản Thuật ngữ Lĩnh vực t1 t2 t3 t4 t5 t6 d1 2 1 2       c1 d2 3 2       1 c1 d3     1 2 3   c2 d4       3 1 1 c2 Bảng thống kê Xác suất Lĩnh vực Thuật ngữ Lĩnh vực c1 c2 t1 5 0 t2 3 t3 Thuật ngữ c1 c2 t1 1 0 0 t2 1 0 2 1 t3 0.67 0.33 t4 0 5 t4 0 1 t5 0 4 t5 0 1 t6 1 1 t6 0.5 0.5 19 CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC. .. CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Biểu đồ hoạt động của UserCase huấn luyện: 24 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Biểu đồ hoạt động của UserCase phân loại: 25 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Cơ sở dữ liệu:  Bảng tbl_tudung ( Stopword): 26 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Cơ sở dữ liệu:  Bảng tbl_tranning (Huấn luyện): 27 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Cơ sở dữ liệu:  Bảng tbl_TL (Tỉ lệ): 28 CHƯƠNG 6: PHÂN TÍCH... Bảng tbl_TL (Tỉ lệ): 28 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Cơ sở dữ liệu:  Bảng tbl_file: 29 CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ  Cơ sở dữ liệu:  Bảng kết nối Diagram: 30 CHƯƠNG 7: KẾT LUẬN  Hướng phát triển:  Xây dựng thêm modum về tách từ tự động, tách câu, xử lý tóm tắt, chuẩn hóa văn bản  Xây dựng một kho dữ liệu văn bản lớn  Phân loại các lĩnh vực một cách bao quát, rõ ràng hơn  Thực nghiệm trên dữ

Ngày đăng: 03/07/2015, 14:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w