Chương 3. LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG
3.2. Lựa chọn phương pháp giải quyết bài toán trích chọn sự kiện tai nạn giao thông
3.2.4. Giải quyết bài toán phát hiện sự kiện vụ tai nạn (pha 1)
Nhiệm vụ của bài toán phát hiện sự kiện vụ tai nạn, từ dữ liệu thô (text) ở bước tiền xử lý dùng luật để lọc lấy dữ liệu trong miền thông tin vụ tai nạn giao thông.
3.2.4.1. Phát biểu bài toán
Mục tiêu của bài toán phát hiện sự kiện vụ tai nạn, dữ liệu cần giải quyết được lấy từ bước tiền xử lý dữ liệu (dữ liệu ở dạng thô - text), dữ liệu đầu ra có chứa sự kiện vụ tai nạn hay không. Một cách hình thức, bài toán được phát biểu như sau:
Đầu vào: một bản tin trên các trang báo có dạng thô.
Đầu ra: bản tin đó có chứa sự kiện tai nạn hay không?
Trong pha 1, có chức năng là: bộ lọc dữ liệu. Bộ lọc có chức năng lọc dữ liệu từ bước tiền xử lý (dữ liệu dạng thô sau khi được lọc thẻ HTML từ bản tin được lấy trên các trang báo) các bản tin trong miền tai nạn giao thông;
Luận văn sử dụng thư viện JsoupParser và xây dựng một bộ lọc để thực hiện công việc này. Các bản tin được lựa chọn sẽ được ghi vào vùng lưu trữ để làm đầu vào cho bước xử lý sau. Quá trình phát hiện sự kiện vụ tai nạn được trình bày trong hình 3.3
Các bản tin trong website
Địa chỉ website
Phần mềm tải dữ liệu
32
Hình 3.3. Thành phần phát hiện sự kiện 3.2.4.2. Xây dựng tập luật
Pha phát hiện dự kiện có chức năng lọc dữ liệu (là các bản tin thuộc miền tai nạn giao thông). Trong phần này tác giả sẽ trình bày chi tiết lọc dữ liệu thuộc miền tai nạn giao thông.
Qua khảo sát dữ liệu, ta thấy tiêu đề của bản tin thường nói lên khá đầy đủ nội dung của bản tin. Nên tác giả thay vì lọc dữ liệu qua nội dung thì lọc dữ liệu qua tiêu đề của bản tin.
Hoạt động của bộ lọc dữ liệu được mô tả như sau: (1) xây dựng tập luật dựa trên khảo sát miền dữ liệu, các từ khoá liên quan đến miền dữ liệu tai nạn giao thông. (2) bộ lọc dữ liệu sẽ dùng các luật này so khớp với tiêu đề bản tin, nếu tiêu đề bản tin chứa các tập luật này thì điều đó bản tin thuộc miền tai nạn giao thông, ngược lại thì không thuộc.
Qua khảo sát dữ liệu hầu hết các tiêu để bản tin thuộc miền tai nạn giao thông thường có các từ liên quan đến phương tiện giao thông. Ví dụ như, “Xe cẩu tông 6 người: xe chở quá tải hơn 20 tấn”, “Phú Thọ: Xe khách đấu đầu xe tải, 7 người nguy kịch”, “2 xe máy kẹp 3 cùng tông xe đầu kéo, 2 người tử vong”, “Nữ sinh viên bị se buýt đâm chết”, và một số ít các bản tin vụ tai nạn tiêu đề không chứa phương tiện giao thông, ví dụ như: “Tai nạn thảm khốc ở Gia Lai: 5 người chết, 9 người nguy kịch” thì nó lại chứa các từ như tai nạn, tai nạn giao thông, TNGT, tai nạn bi thảm,. Ví dụ các bản tin trong hình 3.3.
Bộ lọc dữ liệu
Vùng lưu trữ chứa các bản tin về tai
nạn giao thông Dữ liệu
Luật
33 và hình 3.4.
Qua khảo sát dữ liệu và thực tế, tác giả đã xây dựng được một tập các phương tiện giao thông gọi là từ điển các phương tiện giao thông. Chi tiết tên các loại phương tiện được liệt kê dưới bảng 3.1.
Bảng 3.1. Phương tiện giao thông
Stt Tên phương tiện Stt Tên phương tiện
1 Xe 31 Xe lu
2 ô tô 32 Máy tuốt
3 Mô tô 33 Xe bồn
4 Xe máy 34 Máy súc
5 Xe khách 35 Tăc-xi
6 Xe buýt 36 Xe Camry
7 Xe hơi 37 Xe hàng
8 Xe bốn chỗ 38 Tàu lửa
9 Xế hộp 39 Xe bò
10 Xe trâu 40 Xe ngựa
11 Xe điên 41 Công-te-nơ
12 Tàu hoả 42 Cần cẩu
13 Máy bay 43 Xe ba gác
14 Tàu lửa 44 Xe đua
15 Xe tải 45 Xe phân khối lớn
16 Xe ôm 46 Xe ga
17 Xe đạp 47 Xích-lô
34
Stt Tên phương tiện Stt Tên phương tiện
18 Xe đạp điện 48 Trực thăng
19 Công nông 49 Xe bus
20 Máy kéo 50 Xe ben
21 Xe lu 51 Xe 3 bánh
22 ô tô 4 chỗ 52 Xe ba bánh
23 Xe đâu kéo 53 Xe 3 gác
24 Xe 7 chỗ 54 Thuyền
25 ô tô 7 chỗ 55 Đò
26 Xe 16 chỗ 56 Xuồng máy
27 Xe 24 chỗ 57 Tàu
28 Xe 29 chỗ 58 Ghe
29 Xe 45 chỗ 59 Xe cẩu
30 Xe giường nằm 60 Xe container
Từ đó xây dựng luật cho hai trường hợp, trường hợp thứ nhất dùng mẫu 1, các tiêu đề bản tin so khớp với từ điển các phương tiện giao thông nếu
Mẫu 1 = “phương tiện giao thông” (3.2) Ví dụ minh hoạ cho mẫu 1:
Tìm thấy từ “xe cẩu” trong tiêu đề bản tin: “Xe cẩu tông 6 người: xe chở quá tải hơn 20 tấn”
Tìm thấy từ “xe khách” trong tiêu đề bản tin: “Phú Thọ: Xe khách đấu đầu xe tải, 7 người nguy kịch”
Một ví dụ khác, “Bình Định: Tai nạn giao thông nghiêm trọng, 2 người chết”, trong tiêu đề bản tin này không chứa phương tiện giao thông nên mẫu 1
35
được bỏ qua mà sẽ chuyển sang sử dụng mẫu 2.
Mẫu 2= “động từ” # “danh từ” (3.3)
Trong đó:
Đông từ gồm các từ: Tai nạn, tông nhau, húc nhau,….
Danh từ gồm các từ: thảm khốc, giao thông, thương tâm, ...
Ví dụ minh hoạ cho mẫu 2:
"tai nạn” # "giao thông”
"tai nạn” # "thảm khốc”
Thuật toán thực hiện cho bộ lọc dữ liệu được xây dựng như sau:
Thuật toán: Lọc các bản tin chứa thông tin về tai nạn giao thông.
Đầu vào: Tập bản tin D dạng HTML
Đầu ra: Các bản tin chứa thông tin về tai nạn giao thông cần trích chọn.
Phương pháp:
For each file in Folder {
1. Làm sạch dữ liệu: Loại bỏ các thẻ HTML, quảng cáo => lấy dữ liệu dạng thô (text)
2. Dùng các luật trong tập luật để kiểm tra 2.1. Mẫu 1 = “phương tiện giao thông” 2.2. Mẫu 2= “động từ” # “danh từ”
3. Nếu thỏa mãn thì ghi vào CSDL các bản tin chứa thông tin về tai nạn giao thông;
}