Bộ phân lớp có nhiệm vụ phát hiện một bài báo có chứa sự kiện hay không. Bộ phân lớp sẽ phân ra thành hai lớp: lớp có chứa sự kiện vụ tai nạn nhãn là EVENT và lớp không chứa sự kiện vụ tai nạn nhãn là NOT_EVENT. Quá trình kháo sát cho thấy rằng phần tiêu đề và tóm tắt của bản tin đã chứa đầy đủ nội dung chính của cả bản tin. Nên, tác giả dùng thông tin này để xây dựng véctơ đặc trƣng biểu diễn văn bản. Các đặc trƣng đƣợc sử dụng trong quá trình huấn
29
luyện là 2-grams, 3-grams, 4-grams. Tác giả xây dựng một tập huấn luyện và dùng tập dữ liệu huấn luyện này để xác định văn bản chứa sự kiện.
Trong phần này tác giả sẽ dùng mô hình Maximum Entropy (ME) vì: (1) dữ liệu trong quá trình huấn luyện là văn bản, do vậy, khi biểu diễn dƣới dạng vector đặc trƣng thì đây là dữ liệu thƣa mà ME tốt khi dữ liệu đƣợc biểu diễn dƣới dạng thƣa: (2) tốc độ huấn luyện của ME khá tốt và thực nghiệm cho thấy phƣơng pháp này cho kết quả tốt với dữ liệu văn bản; (3) có thể tuỳ biến mã nguồn của ME do đây là mã nguồn mở. Mô hình ME dựa trên xác suất có điều kiện cho phép tích hợp sự đa dạng của các đặc trƣng từ tập huấn luyện cho bài toán phân lớp.Ý tƣởng của ME là mô hình phải xác định một phân phối đều thoả mãn các ràng buộc từ tập dữ liệu huấn luyện mà không thêm bớt bất kỳ một giả định nào. Điều này có nghĩa sự phân bố của mô hình phải thoả mãn các ràng buộc của dữ liệu quan sát và càng gần với phân bố càng tốt.
Sau quá trình huấn luyện, toàn bộ dữ liệu đã qua bộ lọc sẽ đƣợc đƣa vào mô hình. Tai đây, những văn bản có nhãn EVENT sẽ là đầu vào cho quá trình trích chọn; ngƣợc lại văn bản có nhãn NOT_EVENT mô hình sẽ bỏ qua.