Hình 3. 1 Mơ hình xử lý và cài đặt thuật tốn
Mơ hình trên mơ tả 2 giai đoạn của phân lớp một văn bản bao gồm các bước sau:
Giai đoạn huấn luyện:
- Tập văn bản: là dữ liệu đầu vào của thuật tốn, tập văn bản này bao gồm tập các bài báo trên mạng Internet bằng tiếng Việt được thu thập lại. Tồn bộ nguồn dữ liệu dùng để kiểm thử đã được xử lý thơ bằng tay. Tồn bộ dữ liệu được lưu lại dưới định dạng .txt để làm đầu vào cho chương trình.
- Tiền xử lý: đây là giai đoạn xử lý dữ liệu thơ đầu vào. Văn bản trước khi được Vector hố, tức là trước khi sử dụng, cần phải được tiền xử lý. Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật tốn.
- Trích trọng đặc trưng: đây là giai đoạn tìm ra các từ đặc trưng cho một văn bản, văn bản lúc này chỉ cịn các từ mang ý nghĩa và đã được loại bỏ các từ khơng cĩ ý nghĩa.
- Nhãn: đây là tập dữ liệu nhãn đầu vào của thuật tốn phân loại văn bản dựa trên từ đại diện, trong luận văn này, các nhãn là từ bao gồm nội dung của bài báo, hoặc các từ khĩa liên quan đến chủ đề đĩ.
- Thuật tốn phân loại: Thuật tốn đã được mơ tả chi tiết tại chương 2 của luận văn này.
Giai đoạn phân loại:
- Văn bản: đây là bài báo cần phân loại văn bản, người dùng sẽ phải đọc qua bài báo này để xác địch các từ khĩa để gán cho nội dung của bài báo đối với thuật tốn phân loại dựa trên từ đại diện. Cịn với thuật tốn Naive Bayes và thuật tốn LSTM thì nội dung văn bản là đầu vào của thuật tốn.
- Chọn N từ khĩa: Đây là bước mà người dùng sẽ cần phải nhập các từ khĩa liên quan đến nội dung của bài báo cần phân loại. (thuật tốn phân loại văn bản dựa trên từ khĩa)
- Bộ phân loại: Đây là bước áp dụng thuật tốn phân loại để tìm ra chủ đề của văn bản.
Hai giai đoạn trên đều được áp dụng khi tiến hành cài đặt đối với cả 3 thuật tốn được mơ tả trong luận văn này.