3.4.1.2. Xây dựng tập luật
Nhƣ trong phần 3.4.1.1 đã trình bày, pha phát hiện dự kiện gồm hai chức năng, chức năng lọc dữ liệu (là các bản tin thuộc miền tai nạn giao thông), sau đó chức năng phân lớp sẽ kiểm tra dữ liệu có chứa sự kiện vụ tai nạn hay không. Trong phần này tác giả sẽ trình bày chi tiết chức năng thứ nhất - lọc dữ liệu thuộc miền tai nạn giao thông.
Qua khảo sát dữ liệu, ta thấy tiêu đề của bản tin thƣờng nói lên khá đầy đủ nội dung của bản tin. Nên tác giả thay vì lọc dữ liệu qua nội dung thì lọc dữ liệu qua tiêu đề của bản tin.
Hoạt động của bộ lọc dữ liệu đƣợc mô tả nhƣ sau: (1) xây dựng tập luật dựa trên khảo sát miền dữ liệu, các từ khoá liên quan đến miền dữ liệu tai nạn giao
thông. (2) bộ lọc dữ liệu sẽ dùng các luật này so khớp với tiêu đề bản tin, nếu tiêu đề bản tin chứa các tập luật này thì điều đó bản tin thuộc miền tai nạn giao thông, ngƣợc lại thì không thuộc.
Qua khảo sát dữ liệu hầu hết các tiêu để bài bài thuộc miền tai nạn giao thông thƣờng có các từ liên quan đến phƣơng tiện giao thông. Ví dụ nhƣ,
“Tp.HCM: Xe khách kéo lê xe máy trên đường”, “Xe bus rơi xuống hẻm núi, 56 người thương vong”, “Ô tô đi trái đường, 1 người thiệt mạng”, “TP.HCM: Nam thanh niên tử vong dưới gầm xe ben” và một số ít các bản tin vụ tai nạn tiêu đề không chứa phƣơng tiện giao thông, ví dụ nhƣ: “Nghệ An: Hai thí sinh không thể thi tốt nghiệp vì TNGT” thì nó lại chứa các từ nhƣ tai nạn, tai nạn giao thông, TNGT, tai nạn bi thảm,… Ví dụ các bản tin trong hình 3.3. và hình 3.4.