`
Module tiền xử lý văn bản
Bộ xử lý phân loại SVMs Giao diện Người-Máy
Văn bản phân loại bằng tay (tập mẫu)
Văn bản cần phân loại
Vector biểu diễn văn bản
Kho dữ liệu
Tên nhóm của văn bản (gán nhãn nhóm)
PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG
Hình 3-2: Sơ đồ minh hoạ chức năng Phân loại văn bản. Chức năng phân loại văn bản được thực hiện bởi các bộ:
Bộ tiền xử lý văn bản: các văn bản đưa vào, gồm tập văn bản mẫu đã được
gán nhãn và văn bản cần phân loại, sẽ được biểu diễn thành các vector văn bản trước khi đi vào kho dữ liệu và bộ xử lý phân loại.
Kho dữ liệu: là nơi chứa các thông tin về văn bản mẫu được biểu diễn dưới
dạng vector.
Bộ xử lý phân loại SVMs: là nơi thực hiện phép xử lý phân loại dựa trên
các tham số siêu phẳng phân tách đã qua huấn luyện. Các bước thực hiện:
Nhập tập dữ liệu huấn luyện: thao tác này được thực hiện bởi người dùng, các văn bản được nhập dưới dạng tệp tin TXT.
Nhập văn bản cần phân loại: thao tác này cũng được người dùng nhập vào dưới dạng tệp tin TXT.
Vector hoá văn bản: đây là bước tiền xử lý văn bản, văn bản thô sẽ được đi qua bộ phận vector hoá văn bản, bộ phận này có nhiệm vụ chuyển từ văn bản thô sang dạng có cấu trúc (dạng vector).
Thực hiện huấn luyện SVMs: người dùng cần lựa chọn các thông số huấn luyện SVMs, sau đó chương trình sẽ thực hiện quá trình học để tìm ra các
Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 35/67
tham số siêu phẳng phân tách tối ưu. Các kết quả tham số sẽ được lưu lại dùng để thực hiện trong bước phân loại.
Phân loại văn bản: từ văn bản mới cần phân loại sau khi được vector hoá, hệ thống sẽ sử dụng các tham số của các siêu phẳng phân tách tối ưu (sau quá trình huấn luyện) để thực hiện gán nhãn cho văn bản.
Đƣa ra thông tin phản hồi: sau khi có được quyết định phân loại, hệ thống trả lại kết quả gán nhãn về phía người dùng.