Chương 3. LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG
3.1. Bài toán trích chọn sự kiện các vụ tai nạn giao thông
Trong quá trình kháo sát trên miền dữ liệu là thông tin vụ tai nạn chỉ ra rằng trong quá trình phát hiện sự kiện vụ tai nạn cần phải phân biệt rõ đâu là thông tin vụ tai nạn giao thông, đâu là thông tin tai nạn giao thông. Thông tin vụ tai nạn giao thông là cái mà luận văn quan tâm trong bài toán trích chọn sự kiện vụ tai nạn, ví dụ như “ Khoảng 7h sáng nay (25.12), xe đầu kéo BKS 51C - 255.12 chở bồn gas lưu thông trên xa lộ Hà Nội, hướng từ Suối Tiên về cầu Sài Gòn. Khi vừa đổ hết dốc cầu Rạch Chiếc (quận 2) bị mất lái tông hàng loạt dải phân cách bằng bê tông rồi lao sang làn đường xe hai bánh tông và cuốn nhiều xe máy đang chờ đèn đỏ vào gầm”; còn thông tin tai nạn giao thông như tiêu đề bài báo “Giải pháp để giảm thiểu số vụ tai nạn giao thông ”, hay “kinh hoàng về con số thiệt mạng do tai nạn trong 6 tháng đầu năm 2015”
thì đây không phải thông tin vụ tai nạn giao thông mà chỉ là thông tin tai nạn giao thông.
Một sự kiện vụ tai nạn có thể chứa thời gian xảy ra tai nạn, địa điểm, số thương vong, phương tiện gây tai nạn, nguyên nhân của vụ tai nạn, độ tuổi của người điều khiển phương tiện, vụ tai nạn xảy ra vào thời gian nào trong ngày. Trong số các thông tin đó thì thông tin về thời gian, địa điểm, số thương vong, phương tiện gây tai nạn được đặc biệt quan tâm và cũng là các thông tin sẽ được trích chọn trong sự kiện vụ tai nạn
25 3.1.1. Phát biểu bài toán
Bài toán trích chọn sự kiện các vụ tai nạn giao thông trong văn bản tin tức Tiếng Việt. Trong luận văn, tác giả sẻ tập trung vào giải quyết bài toán trích chọn sự kiện trong bản tin vụ tai nạn giao thông (gọi tắt là trích chọn sự kiện vụ tai nạn). Tác giả muốn nhấn mạnh là sự kiện vụ tai nạn để phân biệt với các thông tin về tai nạn giao thông nhưng không phải bản tin vụ tai nạn giao thông. Tác giả tập trung vào giải quyết bài toán trích chọn thông tin vụ tai nạn giao thông trong văn bản tin tức Tiếng Việt, lấy từ các trang báo điện tử Việt Nam trên Internet. Trích ra thông tin về sự kiện vụ tai nạn như thời gian xảy ra vụ tai nạn, địa điểm xảy ra tai nạn, số thương vong (số tử vong và số bị thương), phương tiện gây tai nạn... từ các văn bản phi cấu trúc. Bài toán được phát biểu như sau:
Đầu vào: một bản tin trên báo điện tử
Đầu ra: bản tin ở đầu vào có phải sự kiện vụ tai nạn giao thông không, nếu có thì trích chọn ra thông tin về vụ tai nạn giao thông.
Thông tin trong một bản tin vụ tai nạn giao thông (gọi tắt là bản tin vụ tai nạn) được định nghĩa là một bộ E gồm bốn thành phần, đó là: Thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn. Một cách hình thức E được định nghĩa như sau:
E=<thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn> (3.1) Thời gian: là thời gian xảy ra vụ tai nạn
Địa điểm: là địa điểm xảy ra vụ tai nạn
Số thiệt hại: là số người tử vong, số người bị thương. Số thiệt hại có thể là danh sách gồm có 2 trường là số thương vong và số tử vong.
Ví dụ, “Tai nạn xảy ra trên Quốc lộ 1 ( quận Thủ Đức, TP HCM) giữa xe container, ô tô 4 chỗ và xe khách vào rạng sáng 31- 5 làm 4 người trong chiếc xe bị biến dạng đã chết tại chỗ và 1 người thương vong”. Thông tin số
26
thương vong được trích ra dưới dạng danh sách:
Ví dụ khác, “xe tắc-xi đâm thẳng vào xe máy chờ đèn đỏ, làm 4 người bị thương”. Thông tin được trích ra dưới dạng danh sách:
Số tử vong Số thương vong
0 4
Phương tiện gây tai nạn: chỉ trích ra loại phương tiện gây ra tai nạn.
Ví dụ, thông tin về sự kiện vụ tai nạn E như sau: E=<25/8/2015, Quốc lộ 2A, 2 người bị thương, ô tô>. Qua bốn thông tin tai nạn cơ bản này, chúng ta có thể dễ ràng suy luận ra rằng: “vào ngày 25 tháng 8 năm 2015 một vụ tai nạn xảy ra trên Quốc lộ 2A đã làm 2 người bị thương và phương tiện gây tai nạn là ô tô".
Bài toán định nghĩa, đầu vào của mô hình là các bản tin trên báo điện tử.
Tác giả chọn dữ liệu đầu vào là các trang báo điện tử vì ba lý do sau. Thứ nhất, thông tin trên các trang rất phong phú; Thứ hai, thông tin có độ tin cậy cao và tính cập nhật cao; Thứ ba, quá trình thu thập dữ liệu từ trên các trang báo điện tử cũng khá dễ ràng. Nên dữ liệu luôn bảo đảm tính đa dạng và tính cập nhật.
Mô hình trong phần phát biểu bài toán được chia thành hai bài toán như sau: bài toán thứ nhất được gọi là pha 1- phát hiện sự kiện vụ tai nạn, bài toán giải quyết vấn đề phát hiện một bài báo có chứa thông tin vụ tai nạn hay không, bài toán thứ hai được gọi là pha 2 - trích chọn sự kiện vụ tai nạn, bài toán này sẽ giải quyết vấn đề sau khi pha 1 kiểm tra dữ liệu là sự kiện vụ tai
Số tử vong Số thương vong
4 1
27
nạn, pha 2 sẽ trích chọn thông tin về sự kiện vụ tai nạn.
3.1.2. Phát hiện sự kiện
Bài toán phát hiện sự kiện trả lời câu hỏi “làm thể nào để phát hiện được một văn bản có chứa sự kiện vụ tai nạn ". Tức là, cho trước đầu vào là văn bản, làm thế nào để phát hiện văn bản đó có chứa sự kiện vụ tai nạn? theo Grishman và cộng sự [5], phát hiện sự kiện là quá trình học không giám sát, tác giả sử dụng các từ khoá để quyết định một văn bản có chứa sự kiện dịch bệnh hay không. Hai từ khoá được tác giả sử dụng là "outbreak of.” và “died from.". Theo Doan và cộng sự [20], bài toán phát hiện sự kiện có thể coi như quá trình học có giám sát. Trong nghiên cứu của mình, tác giả sử dụng phương pháp để phân lớp các tài liệu. Bộ phân lớp này dựa trên một tập các dữ liệu đã được gán nhãn. Qua quá trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sự kiện dịch bệnh hay không.
Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch bệnh. Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện vụ tai nạn giao thông cùng với việc xây dựng bộ từ khoá hoặc xây dựng một tập các dữ liệu đã được gán nhãn phù hợp cho sự kiện vụ tai nạn giao thông.
3.1.3. Trích chọn sự kiện
Nhiệm vụ của bài toán trích chọn sự kiện phải trả lời câu hỏi “làm thế nào để trích chọn các thuộc tính của một sự kiện ". Có nhiều phương pháp cho việc trích chọn sự kiên; trong đó phải kể đến phương pháp sử dụng luật (học không giám sát) được sử dụng từ rất sớm để giải quyết bài toán này [5].
Quá trình trích chọn bằng phương pháp này thường được sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện.
Phương pháp sử dụng học máy và các kỹ thuật NLP để giải quyết bài toán trích chọn sự kiện. Quá trình này thường sử dụng Named Entity
28
Recognition (NER) để lấy ra các thuộc tính cơ bản của sự kiện: thời gian, địa điểm, tên người,. sau đó kết hợp các thuộc tính này thành một sự kiện. [20]
Như vậy, bài toán trích chọn sự kiện nói chung hay bài toán trích chọn sự kiện vụ tai nạn nói riêng có thể được chia thành hai bài toán con, đó là:
phát hiện sự kiện và trích chọn sự kiện.