Bài toán trích chọn sự kiện trong văn bản bản tin Tiếng Việt. Trong luận văn, tác giả sẻ tập trung vào giải quyết bài toán trích chọn sự kiện trong bản tin vụ tai nạn giao thông (từ nay sẽ đƣợc gọi là trích chọn sự kiện vụ tai nạn). Tác giả muốn nhấn mạnh là sự kiện vụ tai nạn để phân biệt với các thông tin về tai nạn giao thông nhƣng không phải bản tin vụ tai nạn giao thông (ví dụ, bản tin
20
về buổi thảo luận làm thế nào để giảm thiểu tai nạn giao thông). Trong chƣơng này, tác giả tập trung vào giải quyết bài toán trích chọn thông tin vụ tai nạn giao thông từ văn bản tin tức tiếng Việt, lấy từ các trang báo điện tử Việt Nam. Trích ra thông tin về sự kiện vụ tai nạn nhƣ thời gian xảy ra vụ tai nạn, địa điểm xảy ra tai nạn, số thƣơng vong (số tử vong và số bị thƣơng), phƣơng tiện gây tai nạn, độ tuổi của ngƣời gây tai nạn, địa hình gây tai nạn, nguyên nhân của vụ tai nạn… từ các văn bản phi cấu trúc. Bài toán đƣợc phát biểu nhƣ sau:
Đầu vào: một bản tin trên báo điện tử
Đầu ra: bản tin ở đầu vào có phải sự kiện vụ tai nạn giao thông không, nếu có thì trích chọn ra thông tin về vụ tai nạn giao thông.
Thông tin trong một bản tin vụ tai nạn giao thông (từ nay gọi là bản tin vụ tai nạn) đƣợc định nghĩa là một bộ E gồm bốn thành phần, đó là: Thời gian, địa điểm, số thiệt hại, phƣơng tiện gây tai nạn. Một cách hình thức E đƣợc định nghĩa nhƣ sau:
E=<thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn> (3.1)
Thời gian: là thời gian xảy ra vụ tai nạn
Địa điểm: là địa điểm xảy ra vụ tai nạn
Số thương vong: là số nạn tử vong, số ngƣời bị thƣơng. Số thiệt hại có thể là danh sách gồm có 2 trƣờng là số thƣơng vong và số tử vong. Ví dụ, “ xế hộp do say rượu đã đâm trực tiếp vào nhà người dân, làm cho 2 người bị thương nặng, tài xế chết ngay tại chỗ”. Thông tin số thƣơng vong đƣợc trích ra dƣới dạng danh sách:
số tử vong số thƣơng vong
2 1
Ví dụ khác, “xe khách đâm thẳng vào xe tải đỗ bên đường, làm 3 hành khách bị thương”. Thông tin đƣợc trích ra dƣới dạng danh sách:
21
số tử vong số thƣơng vong
0 2
Phương tiện gây tai nạn: chỉ trích ra loại phƣơng tiện gây ra tai nạn.
Ví dụ, thông tin về sự kiện vụ tai nạn E nhƣ sau: E=<12/7/2013, Quốc lộ 1A, 3 người bị thương, xe máy>. Qua bốn thông tin tai nạn cơ bản này, chúng ta có thể dễ ràng suy luận ra rằng: “vào ngày 12 tháng 7 năm 2013 một vụ tai nạn xảy ra trên Quốc lộ 1A đã làm 3 người đi xe máy bị thương”.
Bài toán định nghĩa, đầu vào của mô hình là các bản tin trên báo điện tử. Tác giả chọn dữ liệu đầu vào là các trang báo điện tử vì ba lý do sau. Thứ nhất, thông tin trên các trang rất phong phú; Thứ hai, thông tin có độ tin cậy cao và tính cập nhật cao; Thứ ba, quá trình thu thập dữ liệu từ trên các trang báo điện tử cũng khá dễ ràng. Nên dữ liệu luôn bảo đảm tính đa dạng và tính cập nhật.
Mô hình trong phần định nghĩa bài toán đƣợc chia thành hai bài toán nhƣ sau: bài toán thứ nhất đƣợc gọi là pha 1- phát hiện sự kiện vụ tai nạn, bài toán giải quyết vấn đề phát hiện một bài báo có chứa thông tin vụ tai nạn hay không, bài toán thứ hai đƣợc gọi là pha 2 - trích chọn sự kiện vụ tai nạn, bài toán này sẽ giải quyết vấn đề sau khi pha 1 kiểm tra dữ liệu là sự kiện vụ tai nạn, pha 2 sẽ trích chọn thông tin về sự kiện vụ tai nạn.