Giải quyết bài toán trích chọn sự kiện vụ tai nạn (Pha 2)

Một phần của tài liệu Trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng việt (Trang 41 - 47)

Chương 3. LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG

3.2. Lựa chọn phương pháp giải quyết bài toán trích chọn sự kiện tai nạn giao thông

3.2.5. Giải quyết bài toán trích chọn sự kiện vụ tai nạn (Pha 2)

Bộ trích chọn sự kiện có thể coi là thành phần trọng tâm nhất của mô hình. Nơi mà các thông tin của một sự kiện vụ tai nạn giao thông được trích

36

chọn. Một cách hình thức, có thể phát biểu bài toán trích chọn sự kiện như sau:

Đầu vào: bản tin chứa sự kiện vụ tai nạn

Đầu ra: các thông tin của một vụ tai nạn gồm: thời gian, địa điểm, số thương vong, phương tiện gây tai nạn. Ở đây số thương vong bao gồm số nạn nhân tử vong và số nạn nhân bị thương. Số thương vong được liệt kêt dưới dạng danh sách gồm hai trường (số tử vong, số bị thương), và một bản ghi tương ứng ghi ra số tử vong và số bị thương.

Hình 3.4. Thành phần trích chọn sự kiện

Bộ trích chọn gồm 4 đặc trưng: trích chọn thời gian, trích chọn địa điểm, trích chọn số thương vong, và trích chọn phương tiện gây tai nạn. Đặc trưng thứ nhất sử dụng các luật để lấy về thông tin thời gian xảy ra vụ tai nạn (thông tin về thời gian là ngày xảy ra tai nạn - không phải là giờ trong ngày xảy ra vụ tai nạn). Đặc trưng thứ hai dùng một từ điển chứa các địa điểm để lấy về địa điểm. Đặc trưng thứ ba và thứ tư tác giả sử dụng các luật để lấy ra

Dữ liệu

Trích chọn thời gian

Luật

Trích chọn địa điểm

Từ điển

Trích chọn số thương vong

Luật

Trích chọn phương tiện

gây tai nạn

Luật

Thông tin

37

thông tin về số thương vong và trích ra phương tiện gây tai nạn.

Thuật toán: Trích chọn sự kiện trong miền dữ liệu tai nạn giao thông Đầu vào: Tập tài liệu D dạng thô (text) chứa thông tin về miền tai nạn giao thông.

Đầu ra: Dữ liệu về thời gian, địa điểm, số thương vong và phương tiện gây tai nạn.

Phương pháp:

For each file in D {

1. Thông tin về vụ tai nạn = Dùng luật để lấy ra các thông tin gồm: thời gian, địa điểm, số thương vong, phương tiện gây tai nạn.

2. Ghi thông tin vào CSDL.

}

3.2.5.2. Trích chọn thời gian

Qua khảo sát trên tập dữ liệu, kết quả cho thấy thông tin về thời gian thường được biểu diễn dưới hai dạng: tuyệt đối, tương đối. Thời gian tuyệt đối thường được biểu diễn dưới dạng DD/MM/YYYY hoặc dạng DD/MM (với DD là chỉ ngày, MM là chỉ tháng, và YYYY là chỉ năm xảy ra tai nạn).

Ví dụ, “vào ngày 9/8 trên quốc lộ 2 xe tải va trạm với xe khách ”, “ vào ngày 09/11/2015, xe container làm xiếc trên cầu Phú Mỹ”. Tuy nhiên trong nhiều trường hợp thông tin về thời gian được đề cập mật mờ và không trực tiếp. Ví dụ, “Chiều ngày 16/12, tại km219+600 khu vực cầu nước mặn địa phận xã Đông Hải, giáp ranh giữa địa phận huyện Tiên Yên và Đầm Hà đã xảy ra một vụ tai nạn giao thông nghiêm trọng khiến ít nhất 6 người chết, 8 người bị thương nặng”. Trong trường hợp này, thông tin về thời điểm xảy ra vụ tai nạn không rõ ràng, nó chỉ là buổi chiều. Như vậy, cần kết hợp cụm từ “chiều” và ngày chính xác để đưa ra thông tin về thời gian.

38

Từ thực tế thời gian được biểu diễn bằng hai cách, nên tác giả đã dùng các luật được xây dựng sẵn để lấy ra thông tin về thời gian. Trong trường hợp thời gian được biểu diễn dưới dạng tuyệt đối, thời gian có thể dễ ràng được trích ra bằng cách sử dụng biểu thức chính quy (Regular Expression - RE).

Trường hợp thứ hai, thời gian dưới dạng tương đối, có thể nhận thấy nó chứa hai thành phần: thành phần tiền tố và thời gian. Thành phần tiền tố là tập các từ chỉ thời gian tương đối (rạng sáng, nửa đêm, chiều,…) và thành phần thời gian được biểu diễn dưới dạng DD/MM/YYYY. Luật trích chọn thời gian được minh hoạ trong công thức:

Thời gian = <Tiền tố> + <Ngày tháng> (3.4) Trong đó, Tiền tố gồm các từ: vào, ngày, sáng, trưa, chiều, tối, nửa đêm, trưa nay, sáng nay, chiều nay, vào giờ tan tầm, hôm qua, hôm nay, tối qua, đêm qua, rạng sáng nay, tháng.

Ngày tháng, có định dạng DD/MM/YYYY hoặc DD/MM hoặc DD-MM Trong trường hợp bản tin không đề cập đến ngày tháng, thì thời gian mặc định sẽ được lấy là thời gian đăng bản tin.

Một số ví vụ minh hoạ việc sử dụng biểu thức chính quy và luật để trích chọn thời gian của sự kiên.

Ví dụ 1: Ngày 22/10, nguồn tin từ Công an huyện Tư Nghĩa (tỉnh Quảng Ngãi) cho biết trên địa bàn huyện vừa xảy ra vụ tai nạn giao thông, khiến 2 người bị thương nặng.

Ví dụ 2: Tối Ngày 19/10 trên QL20 đoạn qua địa bàn thôn Tân Phú 1 (Đinh Lạc, Di Linh, Lâm Đồng) do vượt ô tô cùng chiều, xe tải đâm phải xe máy khiến tài xế ngã xuống đường, chấn thương nặng.

Trong ví dụ 1, thời gian được trích chọn bằng cách sử dụng biểu thức chính quy, còn trong ví dụ 2 lại sử dụng luật thời gian để trích chọn. Kết quả của ví dụ 1 là “22/10”, kết quả của ví dụ 2 là “tối ngày 24/8”.

39 3.2.5.3. Trích chọn địa điểm

Trong trích chọn địa điểm, sử dụng NER và từ điển địa điểm.

Bước 1: Áp dụng NER

Bước 2: Lấy về các thực thể được gán thẻ <loc>

Bước 3: Kiểm tra ngược lại với từ điển địa điểm để tìm các địa điểm (location) chính xác.

3.2.5.4. Trích chọn số thương vong

Để trích chọn thông tin số thương vong tác giả sử dụng luật. Luật trích chọn số thương vong được minh hoạ trong công thức (3.3)

Số nạn nhân = <số> + <hậu tố> (3.5) Số: chính là số nạn nhân. Có thể là số hoặc chữ

số={"một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín",

"mười"}; và các số [1..9]

Hậu tố: là các từ tử vong, bị thương, thiệt mạng, chết, nhập viện....

hậu tố={"bị thương", "chết", "tử vong", "thiệt mạng", "chết thảm",

“thương nặng ”, “thương nhẹ ”, “cấp cứu ”,”bệnh viện”}

Kết quả được ghi lại dưới dạng danh sách gồm hai trường và một bản ghi: trường số tử vong và trường số thương vong; tương ứng với mỗi trường là số liệu được ghi dưới bản ghi.

Ví dụ 3:vào khoảng 21 giờ 30 phút ngày 27/11/2015 tại thôn Đại An 1, xã Ia Khươl huyện Chư Pẳh xảy ra vụ tai nạn giao thông đặc biệt nghiêm trọng giữa xe ô tô mang biển kiểm soát 81M – 5781 do Cao Đại Trọng sinh năm 1986 trú tại tổ dân phố 6 thị trấn Chư Ty, huyện Đức Cơ lưu thông hướng Gia Lai – Kon Tum tông vào xe công nông đi cùng chiều, trên xe công nông chở 15 người đồng bào dân tộc tiểu số trú tại làng Tơ Vơn 2 xã Ia Khươl huyện Chư Pẳh đang đi làm rẫy về. 5 nạn nhân trong vụ tai nạn thảm khốc xảy ra tại xã Ia Khươi ( H. Chư Păh, tỉnh Gia Lai) đã chết trước khi đến

40

bệnh viện. 8 bệnh nhân còn lại bị thương, không ai trong tình trạng nguy kịch và sức khỏe tiến triển tốt.

Kết quả của ví dụ 3, số nạn nhân tử vong là 5, số bị thương là 8 Số tử vong Số bị thương

5 8

Ví dụ 4: Vụ tai nạn xảy ra vào khoảng 10h sáng ngày 9/10 trên tuyến đường tránh TP. Vinh, đoạn qua xã Nghi Hoa, Nghi Lộc (Nghệ An). Chiếc xe máy bị xe giường nằm tông ngã rồi kéo lê hàng chục mét trên mặt đường.

Vụ tai nạn khiến 2 phụ nữ tử vong tại chỗ.

Kết quả của ví dụ 4: số nhạn nhân tử vong là 1, số bị thương là 1 Số tử vong Số bị thương

2 0

3.2.5.5. Trích chọn phương tiện gây tai nạn

Để trích chọn thông tin phương tiện gây tai nạn, tác giả sử dụng luật để trích chọn. Luật được minh hoạ trong công thức sau:

Phương tiện gây tai nạn = <danh từ> + <động từ> (3.6) Trong đó:

Danh từ: gồm các từ phương tiên giao thông trong từ điển như: xe khách, xe tải, xe đầu kéo,... Chi tiết của tập các phương tiện giao thông được liệt kê trong bảng 3.1.

Động từ: gồm các từ như, đối đầu, đâm xe, gây tại nạn, đụng xe, đâm nhau...

Chi tiết của tập các động từ như sau, verbs={“va chạm”,"đâm nát đầu",

41

"đâm xe", "đấu đầu", "xe đối đầu", "đụng xe", "đâm nhau","tai nạn giao thông", "gây tai nạn", "gặp tai nạn", "húc nhau", "lao xuống gầm", "chui vào gầm”, "bị tông", "tông mạnh", "cán chết", "cán qua", "húc", "đâm", "chui gầm", "lật tàu", "trật bánh", "tàu trật bánh", "đắm thuyền", "chìm thuyền",

"lật thuyền", "lật ngửa", "cán chết"};

Ví dụ 5: Vào khoảng 14h30 ngày 14/10 gần trường tiểu học Quảng Cư (Quảng Cư, Sầm Sơn, Thanh Hóa). Tin ban đầu từ cơ quan chức năng cho hay, vào khoảng thời gian trên, một nam sinh lớp 9 trường THCS Quảng Cư khi đi đến trường bằng xe đạp điện thì bị va chạm với xe tải cùng chiều.

Kết quả của ví dụ 5: phương tiên gây tai nạn là xe đạp điện.

Một phần của tài liệu Trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng việt (Trang 41 - 47)

Tải bản đầy đủ (PDF)

(72 trang)