Chức năng phân loại văn bản

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 46 - 47)

`

Module tiền xử lý văn bản

Bộ xử lý phân loại SVMs Giao diện Người-Máy

Văn bản phân loại bằng tay (tập mẫu)

Văn bản cần phân loại

Vector biểu diễn văn bản

Kho dữ liệu

Tên nhóm của văn bản (gán nhãn nhóm)

PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG

Hình 3-2: Sơ đồ minh hoạ chức năng Phân loại văn bản. Chức năng phân loại văn bản được thực hiện bởi các bộ:

Bộ tiền xử lý văn bản: các văn bản đưa vào, gồm tập văn bản mẫu đã được

gán nhãn và văn bản cần phân loại, sẽ được biểu diễn thành các vector văn bản trước khi đi vào kho dữ liệubộ xử lý phân loại.

Kho dữ liệu: là nơi chứa các thông tin về văn bản mẫu được biểu diễn dưới

dạng vector.

Bộ xử lý phân loại SVMs: là nơi thực hiện phép xử lý phân loại dựa trên

các tham số siêu phẳng phân tách đã qua huấn luyện. Các bước thực hiện:

Nhập tập dữ liệu huấn luyện: thao tác này được thực hiện bởi người dùng, các văn bản được nhập dưới dạng tệp tin TXT.

Nhập văn bản cần phân loại: thao tác này cũng được người dùng nhập vào dưới dạng tệp tin TXT.

Vector hoá văn bản: đây là bước tiền xử lý văn bản, văn bản thô sẽ được đi qua bộ phận vector hoá văn bản, bộ phận này có nhiệm vụ chuyển từ văn bản thô sang dạng có cấu trúc (dạng vector).

Thực hiện huấn luyện SVMs: người dùng cần lựa chọn các thông số huấn luyện SVMs, sau đó chương trình sẽ thực hiện quá trình học để tìm ra các

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 35/67

tham số siêu phẳng phân tách tối ưu. Các kết quả tham số sẽ được lưu lại dùng để thực hiện trong bước phân loại.

Phân loại văn bản: từ văn bản mới cần phân loại sau khi được vector hoá, hệ thống sẽ sử dụng các tham số của các siêu phẳng phân tách tối ưu (sau quá trình huấn luyện) để thực hiện gán nhãn cho văn bản.

Đƣa ra thông tin phản hồi: sau khi có được quyết định phân loại, hệ thống trả lại kết quả gán nhãn về phía người dùng.

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 46 - 47)