Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 91 5 4 95% 96% 95% vovgiaothong.vn 93 4 2 96% 98% 97% Trung bình 184 9 6 95% 97% 96% 4.4.3. Nhận xét
Từ thực nghiệm đƣợc chi tiết trong bảng 4.6 (dữ liệu không qua bộ phân lớp) và bảng 4.7 (dữ liệu đƣợc xử lý qua bộ phân lớp). Kết quả cho thấy dữ liệu đƣợc xử lý qua bộ phân lớp cho kết quả cao hơn. Điều đó chứng tỏ tầm quan trọng của bộ phân lớp trong mô hình.
4.5 PHÂN TÍCH LỖI
4.5.1. Phân tích lỗi quá trình phát hiện sự kiện
Quá khảo sát và thống kê dữ liệu sau thực nghiệm, phát hiện lỗi khi tiêu đề có từ nhắc đến phương tiện giao thông nhƣng bản tin đó lại không thuộc miền
tai nạn giao thông: Ví dụ, ở hình 4.1 tiêu đề bản tin “khổ vì mua xe trả góp”, có chứa phƣơng tiện giao thông là “xe” nhƣng thực chất bản tin này thuộc miền dữ liệu thƣơng mai không phải miền tai nạn giao thông. Tuy thế, bộ lọc vẫn phát hiện dữ liệu đó thuộc miền dữ liệu tai nạn giao thông.
Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông
4.5.2. Phân tích lỗi quá trình trích chọn sự kiện
Trong pha trích chọn thông tin thì khả năng trích chọn thông tin còn thấp, tác giả đã tìm hiểu nguyên nhân và thấy rằng thƣờng xảy ra ở các lỗi nhƣ: trích chọn địa điểm, đôi khi trong các bản tin chỉ nhắc đến tên đƣờng không nhắc đến tên địa phƣơng (xã/huyện/ tỉnh) trƣờng hợp này không thể xác định đƣợc địa điểm chính xác hoặc cho giá trị Null. Trong số ít các trƣờng hợp các thông tin đƣợc viết tắt là không trích chọn đƣợc.Trích chọn thông tin phƣơng tiện gây tai nạn trong một số trƣờng hợp trích chọn ra thông tin sai nhƣ: “xe máy bị đâm, nạn nhân chết tại chỗ”, thông tin đƣợc trích ra “xe máy” là phƣơng tiện gây tai nạn kết quả này là sai. Hay trong trƣờng hợp về trích chọn số nạn nhận nhƣ
“Nạn nhân đã được người dân đưa đi cấp cứu”, thì không trích chọn đƣợc ra số nạn nhân vì không có tiền tố về số lƣợng. Chi tiết hơn về các lỗi đƣợc trình bày trong bảng 4.8.