ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ Giảng viên hướng dẫn : TS.. TỔNG QUAN Chương 1: Các hướng tiếp cận phân loại văn bản.. Chương 4: Sử dụng thuật toá
Trang 1ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC
MỜ
Giảng viên hướng dẫn : TS Nguyễn Thị Thu Hà
BÁO CÁO MÔN: MÁY HỌC
Sinh viên thực hiện : Phương Văn Cảnh
: Đỗ Anh Đức : Trần Văn Hải : Khổng Huy Thịnh
Trang 2TỔNG QUAN
Chương 1: Các hướng tiếp cận phân loại văn bản.
Chương 2: Các hướng tiếp cận tách từ.
Chương 3: Phân loại văn bản Tiếng Việt.
Chương 4: Sử dụng thuật toán Navie Bayes để phân loại văn bản.
Chương 5: Phân loại văn bản dựa vào thuật toán Logic Mờ.
Chương 6: Phân tích thiết kế hệ thống.
Chương 7: Kết luận
Trang 3Các phương pháp phân loại văn bản:
Phương pháp SVM – Support Vector Machine
Phương pháp K – Nearest Neighbor
Phương pháp Nạve Bayes
Phương pháp Linear Least Square Fit – LLSF
Phương pháp Centroid – based vector
Phương pháp Logic Mờ
Trang 4CHƯƠNG 2: CÁC HƯỚNG TIẾP CẬN TÁCH TỪ
2.1 Các hướng tiếp cận dựa trên từ:
Hướng tiếp cận dựa trên thống kê
Hướng tiếp cận dựa trên từ điển
Hướng tiếp cận theo Hybrid
2.2 Các hướng tiếp cận dựa trên kí tự.
Trang 53.1 Tách từ trong văn bản
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC gồm:
Online Extractor : Lấy thông tin về tần số xuất hiện của các từ trong văn bản.
Sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau:
Trang 6CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
3.1 Tách từ trong văn bản
Online Extractor:
Trang 7 Tính xác suất độ phụ thuộc của một từ lên một từ khác:
Thông tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi n tiếng ( cw = w1w2…wn)
Trang 83.2 Phương pháp trích rút đặc trưng văn bản
Phương pháp truyền thống trích rút đặc trưng văn bản
Phương pháp trích rút đặc trưng đề nghị sử dụng
CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
Trang 94.1 Lý do chọn Nạve Bayes:
Phân loại dựa vào xác suất
Tính tốn NB hiệu quả và nhanh chĩng
Cài đặt đơn giản, tốc độ thực hiện thuật tốn nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và cĩ tính độc lập cao với tập huấn luyện
Trang 104.2 Áp dụng cho bài toán phân loại văn bản
A Huấn luyện: tính và
Công thức tính đã làm trơn Laplace
Trong đó:
|docsi|: số văn bản của tập huấn luyện thuộc phân lớp i.
|total docs|: số văn bản trong tập huấn luyện
m: số phân lớp
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Trang 11 Công thức tính đã làm trơn Laplace:
Trong đó:
Số văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số văn bản trong lớp i, có
xuất hiện/không xuất hiện đặc trưng k)
Số văn bản của tập huấn luyện thuộc phân lớp i
Số giá trị có thể có của đặc trưng thứ k
Trang 12B Phân lớp:
Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X:
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Trang 14CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Trang 15Docs Var Bit Class
Trang 16CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Docnew = (1,0)
Trang 175.1 Mô hình chung.
* Mô hình chung của các thuật toán gồm các phần :
Xây dựng tập từ điển
Xây dựng tập các từ dừng (stopword)
Chọn lựa tập văn bản mẫu để huấn luyện
Xây dựng các hàm để phân loại hoặc tóm tắt trên cơ sở ứng dụng công cụ logic mờ
Trang 20 Phân loại dựa trên độ đo tương tự mờ.
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ
Trang 21 Tính: Độ đo tương tự mờ :
Trường hợp đặc biệt của độ đo tương tự mờ :
Trang 22 Trường hợp đặc biệt của độ đo tương tự mờ :
Trang 23 Biểu đồ UserCase tổng quát hệ thống:
Trang 24 Biểu đồ hoạt động của UserCase huấn luyện:
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ
Trang 25 Biểu đồ hoạt động của UserCase phân loại:
Trang 26 Cơ sở dữ liệu:
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ
Bảng tbl_tudung ( Stopword):
Trang 27 Cơ sở dữ liệu:
Bảng tbl_tranning (Huấn luyện):
Trang 28 Cơ sở dữ liệu:
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ
Bảng tbl_TL (Tỉ lệ):
Trang 29 Cơ sở dữ liệu:
Bảng tbl_file:
Trang 30 Cơ sở dữ liệu:
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ
Bảng kết nối Diagram:
Trang 31 Hướng phát triển:
Xây dựng thêm modum về tách từ tự động, tách câu, xử lý tóm tắt, chuẩn hóa văn bản.
Xây dựng một kho dữ liệu văn bản lớn.
Phân loại các lĩnh vực một cách bao quát, rõ ràng hơn.
Thực nghiệm trên dữ liệu lớn hơn.
Trang 32XIN CHÂN THÀNH CẢM ƠN!