Phân loại văn bản tiếng Việt bằng phương pháp Naive Bayes

MỤC LỤC

Phương pháp nghiên cứu

- Tổng hợp các thông tin liên quan, lựa chọn các cách tiếp cận đã đƣợc áp dụng. - Các tƣ liệu và thông tin liên quan chủ yếu đƣợc thu thập, tổng hợp từ các nguồn: Các tạp chí khoa học chuyên ngành trong và ngoài nước, Internet,.Trao đổi với thầy hướng dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu.

Ý nghĩa khoa học của đề tài

PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES

Bộ phân loại Naive Bayes

Kết qủa có thể rất xấu nếu dữ liệu huấn luyện nghèo nàn và các tham số dự đoán (nhƣ không gian đặc trƣng) có chất lƣợng kém. Nhìn chung đây là một thuật toán phân loại tuyến tính thích hợp trong phân loại văn bản nhiều chủ đề. NB có ƣu điểm là cài đặt đơn giản, tốc độ thực hiện thuật toán nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập huấn luyện. Ta áp dụng phương pháp Naive Bayes vào chương trình phân loại với cách tiếp cận trực tiếp cận Naive Bayes là sử dụng xác suất có điều kiện giữa từ cà chủ đề dự đoán xác suát chủ đề của một văn bản cần phân loại. Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nha. Giả định đó là cho việc tính toán Naive Bayes hiệu quả và nhanh chóng hơn các phương pháp khác vì không sử dụng việc kết hợp các từ để đƣa ta phán đoán chủ đề. Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/. Thuật toán Naive Bayes dựa trên nguyên lý Bayes đƣợc phát biểu nhƣ sau:. Áp dụng trong bài toán phân loại, các dữ kiện gồm có:. - Các thuộc tính độc lập điều kiện đôi một với nhau. Theo định lý Bayes:. Theo tính chất độc lập điều kiện:. Các bước thực hiện thuật toán Naive Bayes. , phân lớp khi đã biết trước Xnew.Xnewđƣợc. theo công thức. ), ta cần tính xác suất thuộc từng. Trong máy học và thống kê, giảm chiều hoặc giảm chiều là quá trình làm giảm số lƣợng các biến ngẫu nhiên đƣợc xem xét, và có thể đƣợc chia thành hai phần chính: lựa chọn đặc trƣng (Feature selection) và trích rút đặc trƣng (Feature extraction). LSI dựa trên giả định rằng có một số cấu trúc ngữ nghĩa tiềm ẩn cơ bản trong ma trận tần suất từ văn bản, nó quy định một số lƣợng các từ sử dụng trong văn bản và các câu truy vấn, hay còn đƣợc gọi là đồng nghĩa hoặc đa nghĩa.

Ý tưởng chính là nếu hai tài liệu có véc tơ đại diện cho cùng một chủ đề, chúng sẽ chia sẻ với nhau nhiều từ kết hợp với một từ khóa, và ta có thể có những cấu trúc ngữ nghĩa rất gần sau khi đã giảm chiều qua SVD (Singular Value Decomposition). Một mô hình chủ đề sử dụng mô hình toán học, cho phép kiểm tra một tập tài liệu và phát hiện, dựa trên số liệu thống kê của các từ trong mỗi tài liệu, dựa vào đó có thể dự đoán đƣợc chủ đề của văn bản là gì [11]. Cột bên phải là vấn đề gán văn bản vào chủ đề phù hợp dựa trên tỉ lệ, trong bước này có thể sử dụng các thuật toán so khớp (match) hoặc mô hình học để phân vào đúng lớp chủ đề dựa trên giá trị các từ đã đƣợc tính toán tại cột phía trái.

Mô hình chủ đề cho tiếng Việt hiện nay vẫn chƣa đƣợc xây dựng, các nghiên cứu cho tiếng Việt chủ yếu tập trung vào các vấn đề tách từ (word. Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/. segmentation), nhận dạng từ loại (Pos tagging), phân tích cú pháp (syntax analysic),. Một khó khăn khác nữa trong cách xử lý phân loại tự động đối với các văn bản tiếng Việt, là độ khó trong xử lý ngôn ngữ, bởi ngôn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), các từ trong tiếng Việt có thể là từ đơn hoặc từ ghép, do vậy khó khăn trong việc tách từ. Bởi thế, trong luận văn đã tiếp cận bài toán theo hai bước: xử lý giảm đặc trưng và áp dụng lý thuyết Naive Bayes trong phân loại. Xử lý giảm số chiều của đặc trƣng bằng cách sử dụng mô hình chủ đề, do đó số lƣợng thuật ngữ trong mỗi văn bản sẽ giảm hơn nhiều so với số các từ trong một văn bản, mặt khác sẽ giải quyết bài toán tách từ tiếng Việt nhờ đó làm tăng độ chính xác của hệ thống, tiếp theo áp dụng lý thuyết Naive Bayes để phân loại các văn bản theo đúng chủ đề đã chọn [11]. Văn bản Văn bản. cần phân cần phâ lớp. Công Tách từ Mo hình. cụ tách chủ đề. Huấn luyện Huấn luyện. Tập văn bản Mô hình Tập văn bản Mô hình. Gán vào Gán vào. Thuật đúng lớp Thuật. a) Các phương pháp đã có b) Phương pháp cải tiến.

Hình 2.1. Mô tả bước xây dựng bộ phân lớp
Hình 2.1. Mô tả bước xây dựng bộ phân lớp

Đánh giá thuật toán phân loại văn bản tiếng Việt dựa trên Naive Bayes

Trong đó B’ là tổng số tất cả các từ chủ đề, Tct là số lần xuất hiện của thuật ngữ t trong các văn bản huấn luyện thuộc lớp c. Nghệ sĩ Bóng chày Tablet Thực phẩm Ngân hàng Nhà đất Showbiz Cầu thủ Điện thoại Chứng khoán Lãi suất Lãi suất Người mẫu Thủ môn Smartphone Chỉ số Tỉ lệ Biệt thự. Cách đánh giá phân loại văn bản tập trung vào đánh giá thực nghiệm chứ không sử dụng cách đánh giá dựa trên phân tích lý thuyết.

Ngoài ra, tính toán dựa trên số đặc trƣng thô trung bình của n văn bản thử nghiệm so sánh với phương pháp đã được giảm bớt số đặc trưng thông qua việc xây dựng mô hình chủ đề. Trong đánh giá thực nghiệm, phương pháp của luận văn được so sánh với phương pháp truyền thống là cách thức chỉ loại đi các từ dừng, các từ vô nghĩa trong văn bản và phương pháp dựa trên mô hình chủ đề. Dựa trên cách đánh giá sử dụng độ đo chính xác và cách so sánh với phương phỏp truyền thống thấy cú sự giảm chiều rừ rệt cỏc đặc trưng, số lƣợng các đặc trƣng sau khi xây dựng mô hình chủ đề giảm còn 40.9% so với số lƣợng đặc trƣng ban đầu trên tổng số 220 văn bản thực nghiệm (6 chủ đề khác nhau).

Bảng 2.2. Danh sách một số chủ đề đã được xây dựng
Bảng 2.2. Danh sách một số chủ đề đã được xây dựng

PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES

Mô hình tổng quát của hệ thống

Người quản trị có các quyền thêm dữ liệu, sửa dữ liệu, xóa dữ liệu,phân loại, huấn luyện, xem thông tin, tra cứu và các quyền thêm, sửa, xóa dữ liệu khác. Nguồn thông tin đƣợc sử dụng chủ yếu từ các trang webhttp://dantri.com.vn, http://www.24h.com.vn, http://vnexpress.netkho dữ liệu này bao gồm 450 văn bản. Khi nhập bằng tay, chúng ta sẽ nhập những từ khóa đặc trƣng do vậy việc nhập bằng tay sẽ làm cho chương trình phân loại chính xác hơn so với nhập từ file, tuy vậy nó lại có nhƣợc điểm là mất công và lâu.

Phân loại tin tức là việc phân loại tin tức mà thu thập đƣợc ở chức năng thu thập tin tức trực tuyến vào thành các thể loại, trong chương trình này chúng Phân loại ta chỉ phân làm 6 loại là Công nghệ, Giáo dục, Thế. Ngoài ra, sau khi tin tức đƣợc phân loại, việc phân loại không hoàn toàn chính xác, người dùng có thể cập nhật lại các thể loại của tin tức sao cho việc hiển thị lên trang chủ chính xác nhất. Tập văn bản đầu vào là văn bản dạng thô, để đơn giản cho việc xử lý dữ liệu, với mỗi văn bản đầu vào, ta sẽ thực hiệc qua bước tiền xử lý ký tự để đƣa văn bản về dạng xâu chuẩn.

Hình 3.2. Biểu đồ Use case tổng quát
Hình 3.2. Biểu đồ Use case tổng quát

Môi trường cài đặt

Để huấn luyện tin trước hết người dùng cần chọn thể loại huấn luyện (những thể loại đã định nghĩa sẵn), sau đó chọn đường dẫn là các trang web. Để chỉnh sửa nội dung các tin huấn luyện tại mục Chi tiết kích chọn để hiển thị chi tiết tin tức, người dùng có thể chỉnh sửa nội dung, hình ảnh,. Ngoài từ khóa đã định nghĩa sẵn, người dùng có thể định nghĩa thêm các từ khóa khác , bằng cách nhấn nút Thêm từ khóa để thêm từ khóa mới,bên cạnh đó người dung thực hiện các thao tác như: Thêm từ tệp tin, Xóa dữ liệu HL, Xóa hết từ khóa.

Chương trình này đã xây dựng phân loại cho 4 chủ đề: Xã hội , CNTT, Thể thao, Giáo dục.Số lƣợng 220 văn bản dùng cho đánh giá. Kết quả đánh giá tại bảng 3.3 cho thấy rằng, phương pháp của luận văn đưa ra so với phương pháp truyền thống có số lượng đặc trưng giảm 60%, và độ chính xác cao hơn so với phương pháp truyền thống đối với các chủ đề khi phân loại. Do số lƣợng đặc trƣng giảm, các đặc trƣng nhiễu với mỗi chủ đề sẽ ít hơn, tốc độ tính toán nhanh hơn và độ chính xác cao hơn.

Hình 3.6. Giao diện tin huấn luyện
Hình 3.6. Giao diện tin huấn luyện