Đầu vào: Xâu dữ liệu nội dung bài báo và file danh sách từ dừng1
Đầu ra: Xâu dữ liệu đã được gán nhãn
“Xâu dữ liệu nội dung bài báo” là phần nội dung từ bắt đầu đến kết thúc bài báo dưới mã HTML đã được chuẩn hóa Unicode (là phần dữ liệu được trích xuất từ mã HTML của bài báo tương ứng).
Đường đi của mô hình hệ thống
Từ xâu dữ liệu vào, xóa bỏ các thẻ HTML để thu được tài liệu dạng văn bản phi cấu trúc thông thường. Sử dụng công cụ vnTokenizer phân tích dữ liệu thu được ra dạng từ đơn, từ ghép. Xóa bỏ các ký tự đặc biệt như dấu chấm, dấu phẩy, chấm phẩy, hai chấm, ba chấm,… thu được xâu dữ liệu chỉ bao gồm các từ đơn từ ghép ngoài ra không còn ký hiệu đặc biệt hay nào khác. Loại bỏ từ dừng ở xâu thu được bằng phương pháp khớp biểu thức chính quy. Từ file danh sách từ dừng sinh ra một mẫu biểu thức chính quy, cho phép khớp tất cả các từ dừng có trong danh sách. Sau khi loại bỏ từ dừng, chuẩn hóa xâu thu
được, xóa bỏ các dấu trống đầu và cuối, thay tất cả các ký tự trống (ký tự tab, cuối dòng) bằng dấu khoảng cách, giữa hai từ bất kỳ chỉ giữ một dấu khoảng cách duy nhất. Thu
được xâu đã được chuẩn hóa, thực hiện gán nhãn và trả ra xâu đã được gán nhãn.
Ởđây, đối với mô hình huấn luyện, nhãn của dữ liệu đã được biết trước, thực hiện gán nhãn trên xâu đã được chuẩn hóa. Còn với mô hình kiểm tra, nhãn ở đây được gán theo dạng câu hỏi (dấu chấm hỏi “?”).
3.2.3. Module phân lớp Mô tả bài toán Mô tả bài toán
Đầu vào: File huấn luyện và xâu cần phân lớp đã được chuẩn hóa
Đầu ra: Xâu được phân lớp và gán nhãn
File huấn luyện được tạo bởi “module sinh file huấn luyện” và xâu cần được phân lớp được sinh bởi “module chuẩn hóa dữ liệu huấn luyện/kiểm tra mô hình”.
Từ file huấn luyện, sử dụng công cụ maxent cho việc học mô hình. Sau quá trình học, mô hình thu được được sử dụng để kiểm tra mô hình trên “xâu vào đã được chuẩn hóa” (sử dụng công cụ maxent) thu được xâu được gán nhãn.