Dựa trên các công trình liên quan và kết quả nghiên cứu bài toán phân loại văn bản tiếng Việt, luận án đề xuất qui trình phân loại văn bản sử dụng biểu diễn đồ thị kết hợp kỹ thuật khai thác đồ thị. Hình 3.1 là sơ đồ giai đoạn huấn luyện hệ thống và Hình 3.2 là giai đoạn phân loại văn bản nói chung và email nói riêng. Qui trình phân loại đề xuất tận dụng được các ưu điểm của mô hình biểu diễn văn bản bằng đồ thị cho phép lưu trữ được thông tin về thứ tự, vị trí của thuật ngữ trong văn bản. Thuật toán khai thác đồ thị con phổ biến cải tiến gSpan thực hiện rút trích đặc trưng hiệu quả từ tập đồ thị làm tăng tốc độ xử lý của bài toán phân loại do tập đặc trưng này nhỏ hơn rất nhiều lần so với tập đăc trưng của mô hình không gian vectơ. Với bộ phân loại dựa trên độ đo Dice phù hợp cho việc xác định khoảng cách giữa các vectơ nhị phân, thời gian phân loại trung bình văn bản mới nhỏ hơn nhiều so với phương pháp sử dụng mô hình không gian vectơ mặc dù phải mất thêm chi phí biểu diễn văn bản bằng đồ thị.
Chi tiết của từng thành phần như sau.
Hình 3.1. Sơ đồ giai đoạn huấn luyện Tiền xử lý văn bản Tập văn bản huấn luyện Tổng hợp tập đặc trƣng - đồ thị con phổ biến Mô hình hóa văn bản thành đồ thị Rút trích đặc trƣng đồ thị từ các lớp Xây dựng tập vectơ đại diện
lớp Tập vectơ đại diện lớp
R1=(1,0,1,…1) R2=(1,1,0,…0)
… Rm=(0,0,1,…1)
Hình 3.2. Sơ đồ giai đoạn phân loại