1. Trang chủ
  2. » Công Nghệ Thông Tin

PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ

32 735 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,29 MB

Nội dung

ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ Giảng viên hướng dẫn : TS.. TỔNG QUAN Chương 1: Các hướng tiếp cận phân loại văn bản..  Chương 4: Sử dụng thuật toá

Trang 1

ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC

MỜ

Giảng viên hướng dẫn : TS Nguyễn Thị Thu Hà

BÁO CÁO MÔN: MÁY HỌC

Sinh viên thực hiện : Phương Văn Cảnh

: Đỗ Anh Đức : Trần Văn Hải : Khổng Huy Thịnh

Trang 2

TỔNG QUAN

 Chương 1: Các hướng tiếp cận phân loại văn bản.

 Chương 2: Các hướng tiếp cận tách từ.

 Chương 3: Phân loại văn bản Tiếng Việt.

 Chương 4: Sử dụng thuật toán Navie Bayes để phân loại văn bản.

 Chương 5: Phân loại văn bản dựa vào thuật toán Logic Mờ.

 Chương 6: Phân tích thiết kế hệ thống.

 Chương 7: Kết luận

Trang 3

Các phương pháp phân loại văn bản:

 Phương pháp SVM – Support Vector Machine

 Phương pháp K – Nearest Neighbor

 Phương pháp Nạve Bayes

 Phương pháp Linear Least Square Fit – LLSF

 Phương pháp Centroid – based vector

 Phương pháp Logic Mờ

Trang 4

CHƯƠNG 2: CÁC HƯỚNG TIẾP CẬN TÁCH TỪ

2.1 Các hướng tiếp cận dựa trên từ:

 Hướng tiếp cận dựa trên thống kê

 Hướng tiếp cận dựa trên từ điển

 Hướng tiếp cận theo Hybrid

2.2 Các hướng tiếp cận dựa trên kí tự.

Trang 5

3.1 Tách từ trong văn bản

 Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC gồm:

Online Extractor : Lấy thông tin về tần số xuất hiện của các từ trong văn bản.

 Sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau:

Trang 6

CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

3.1 Tách từ trong văn bản

Online Extractor:

Trang 7

Tính xác suất độ phụ thuộc của một từ lên một từ khác:

 Thông tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi n tiếng ( cw = w1w2…wn)

Trang 8

3.2 Phương pháp trích rút đặc trưng văn bản

 Phương pháp truyền thống trích rút đặc trưng văn bản

 Phương pháp trích rút đặc trưng đề nghị sử dụng

CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Trang 9

4.1 Lý do chọn Nạve Bayes:

 Phân loại dựa vào xác suất

 Tính tốn NB hiệu quả và nhanh chĩng

 Cài đặt đơn giản, tốc độ thực hiện thuật tốn nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và cĩ tính độc lập cao với tập huấn luyện

Trang 10

4.2 Áp dụng cho bài toán phân loại văn bản

A Huấn luyện: tính và

 Công thức tính đã làm trơn Laplace

 Trong đó:

 |docsi|: số văn bản của tập huấn luyện thuộc phân lớp i.

 |total docs|: số văn bản trong tập huấn luyện

 m: số phân lớp

  

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

Trang 11

 Công thức tính đã làm trơn Laplace:

 Trong đó:

 Số văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số văn bản trong lớp i, có

xuất hiện/không xuất hiện đặc trưng k)

 Số văn bản của tập huấn luyện thuộc phân lớp i

 Số giá trị có thể có của đặc trưng thứ k

  

Trang 12

B Phân lớp:

 Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X:

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

Trang 14

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

Trang 15

Docs Var Bit Class

Trang 16

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

Docnew = (1,0)

Trang 17

5.1 Mô hình chung.

* Mô hình chung của các thuật toán gồm các phần :

 Xây dựng tập từ điển

 Xây dựng tập các từ dừng (stopword)

 Chọn lựa tập văn bản mẫu để huấn luyện

 Xây dựng các hàm để phân loại hoặc tóm tắt trên cơ sở ứng dụng công cụ logic mờ

Trang 20

 Phân loại dựa trên độ đo tương tự mờ.

CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ

Trang 21

Tính: Độ đo tương tự mờ :

Trường hợp đặc biệt của độ đo tương tự mờ :

Trang 22

Trường hợp đặc biệt của độ đo tương tự mờ :

Trang 23

Biểu đồ UserCase tổng quát hệ thống:

Trang 24

Biểu đồ hoạt động của UserCase huấn luyện:

CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

Trang 25

Biểu đồ hoạt động của UserCase phân loại:

Trang 26

Cơ sở dữ liệu:

CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

Bảng tbl_tudung ( Stopword):

Trang 27

Cơ sở dữ liệu:

Bảng tbl_tranning (Huấn luyện):

Trang 28

Cơ sở dữ liệu:

CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

Bảng tbl_TL (Tỉ lệ):

Trang 29

Cơ sở dữ liệu:

 Bảng tbl_file:

Trang 30

Cơ sở dữ liệu:

CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

 Bảng kết nối Diagram:

Trang 31

Hướng phát triển:

 Xây dựng thêm modum về tách từ tự động, tách câu, xử lý tóm tắt, chuẩn hóa văn bản.

 Xây dựng một kho dữ liệu văn bản lớn.

 Phân loại các lĩnh vực một cách bao quát, rõ ràng hơn.

 Thực nghiệm trên dữ liệu lớn hơn.

Trang 32

XIN CHÂN THÀNH CẢM ƠN!

Ngày đăng: 03/07/2015, 14:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w