Phƣơng pháp này đôi khi còn đƣợc gọi với tên là tiếp cận dựa trên dữ liệu (data-driven). Phƣơng pháp tiếp cận dựa trên học máy thƣờng đƣợc sử dụng cho các ứng dụng xử lý ngôn ngữ tự nhiên và tập dữ liệu huấn luyện lớn để huấn luyện cho phù hợp với các hiện tƣợng ngôn ngữ [9]. Phƣơng pháp này thƣờng dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin (information theory), và đại số tuyến tính (linear algebra). Một số cách tiếp cận cơ bản thƣờng đƣợc sử dụng là Term Frequency - Inverse Document Frequency (TF-IDF), n-grams hay phân cụm.
Có rất nhiều ví dụ về áp dụng phƣơng pháp tiếp cận dựa trên dữ liệu để trích chọn thông tin trong các sự kiện. Năm 2009, Okamoto và cộng sự [9]
16
dựng một khung (frameword) để phát hiện các sự kiện cục bộ (loacal events). Trong nghiên cứu tác giả sử dụng các kỹ thuật phân cụm phân cấp. Trong khi đó, phân cụm có thể sinh ra các kết quả tốt cho trích chọn sự kiện, Liu M và các cộng sự [10] kết hợp các đồ thị có trọng số vô hƣớng chia đôi (weighted undirected bipartite graphs) và phân cụm để trích chọn các thực thể chính và các sự kiện có ý nghĩa từ các thông tin hàng ngày. Các kỹ thuật phân cụm cũng đƣợc sử dụng bởi Tanev và cộng sự [13] để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát.
Cách tiếp cận dựa trên dữ liệu (data - driven) không đòi hỏi ngƣời xây dựng cần đến các kiến thức về ngôn ngữ và chuyên gia miền. Nhƣng phƣơng pháp này lại đòi hỏi một lƣợng dữ liệu lớn để làm tập huấn luyện. Phƣơng pháp tiếp cận dựa trên dữ liệu cần xây dựng xác suất để xấp sỉ mô hình huấn luyện với dữ liệu. Phƣơng pháp này có những ƣu điểm. Ƣu thứ nhất, cách tiếp cận này không cần có sự tham gia của các chuyên gia về ngôn ngữ và chuyên gia miền. Ƣu thứ hai, các mô hình sau khi huấn luyện có thể sử dụng với các miền dữ liệu khác nhau.
Tuy thế, cách tiếp cận dựa trên dữ liệu cũng có những nhƣợc điểm. Thứ nhất, trong các bài toán trích chọn sự kiện, phƣơng pháp tiếp cận dựa trên dữ liệu không giải quyết đƣợc các vấn đề có liên quan đến ngữ nghĩa (ví dụ, phƣơng pháp này chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết đƣợc các vấn đề ngữ nghĩa). Thứ hai, phƣơng pháp này cần một lƣợng dữ liệu lớn để huấn luyện mô hình. Trong một số trƣờng hợp, việc gán nhãn dữ liệu tốn thời gian và chi phí. Thứ ba, do phƣơng pháp tiếp cận dựa trên dữ liệu đƣợc xây dựng trên các mô hình xác suất thống kê, do đó, trong một số trƣờng hợp nếu quá trình làm dữ liệu huấn luyện không tốt dẫn đến kết quả của quá trình trích chọn không cao.
17 2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY
Phƣơng pháp tiếp cận kết hợp luật và học máy (lai - hybrid) thƣờng đƣợc sử dụng trong các bài toán trích chọn sự kiện. Hầu hết các hệ thống dựa trên tri thức (knowledge - driven) đƣợc bổ sung bởi các phƣơng thức dựa trên dữ liệu (data - driven), do vậy nó có thể giải quyết đƣợc các khuyết điểm của phƣơng pháp dựa trên tri thức. Ví dụ, Piskorski và cộng sự [12] đã sử dụng các kỹ thuật bootstrapping cho hệ thống trích chọn các sự kiện liên quan tới bạo lực từ các bản tin trực tuyên với độ chính xác và độ hồi tƣởng cao.
Morik [8] kết hợp các luật ngữ nghĩa với Conditional Random Fields (CRFs) đƣợc biểu diễn nhƣ đồ thị vô hƣớng để trích chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức. Ở đây, tác giả đã giải quyết hạn chế của thuật toán học có giám sát với các cụm. Lee và cộng sự [8] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự kiện từ các bản tin tiếng Trung Quốc. Tác giả đã sử dụng thống kê dựa trên ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech tagging). Chun và cộng sự [3] trích chọn các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với đồng tham chiếu(co- occurrences). Nhƣ vậy phƣơng pháp này có thể đƣợc coi là phƣơng pháp lai.
Trong luận văn, tác giả sử dụng phƣơng pháp kết hợp luật và học máy vì các lý do sau: Thứ nhất, để phân lớp dữ liệu thuộc miền tai nạn giao thông với dữ liệu đầu vào lớn, cách thích hợp hơn cả là dùng luật cú pháp để lọc, bƣớc làm này giảm đáng kể số lƣợng dữ liệu đầu vào cho quá phát hiện sự kiện. Thứ hai, trong bốn thông tin của sự kiện vụ tai nạn: thời gian, địa điểm, số thƣơng vong, và loại phƣơng tiện gây tai nạn. Đặc biệt thông tin về thời gian, số thƣơng vong, và loại phƣơng tiện gây tai nạn. Đôi khi những thông tin này đƣợc đề cập không rõ ràng thiếu chi tiết ví dụ “vào giữa trưa”, “đúng lúc tan tầm” hay “2 người thiệt mạng”, “làm chết 1 người” hay “xe khách đâm vào xe tải”; do đó tác giả sử dụng luật ngữ nghĩa để trích chọn ra các thông tin này. Lý do thứ 3, tác giả sử dụng phƣơng pháp lai đó là trong hệ thông có chức năng phân lớp và nhận dạng
18
thực thể mà các yêu cầu này đƣợc thực hiện tốt bởi phƣơng pháp xác suất thống kê dựa trên dữ liệu.
2.5. TỔNG KẾT
Trong chƣơng này, tác giả đã trình bày một số phƣơng pháp tiếp cận bài toán và đã chỉ ra một số ƣu nhƣợc điểm của từng phƣơng pháp. Cuối cùng, tác giả nhận ra rằng sử dụng phƣơng tiếp cận kết hợp luật và học máy để giải quyết bài toán trích chọn sự kiện vụ tai nạn là phù hợp. Phát biểu bài toán, mô hình, phƣơng pháp giải quyết bài toán sẽ đƣợc trình bày chi tiết trong chƣơng 3.
19 Chƣơng 3. ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN
Trong chƣơng này, tác giả tập trung phân tích làm rõ bài toán trích chọn sự kiện vụ tai nạn. Tìm hiểu các đặc tính của sự kiện vụ tai nạn; pháp biểu bài toán, đề xuất mô hình, cách giải quyết chi tiết hai bài toán quan trọng trong luận văn là bài toán phát hiện sự kiện vụ tai nạn và bài toán trích chọn sự kiện vụ tai nạn.
3.1. CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN
Quá trình kháo sát trên miền dữ liệu là thông tin vụ tai nạn chỉ ra rằng trong quá trình phát hiện sự kiện vụ tai nạn cần phải phân biệt rõ đâu là thông tin vụ tai nạn giao thông, đâu là thông tin tai nạn giao thông. Thông tin vụ tai nạn giao thông là cái mà luận văn quan tâm trong bài toán trích chọn sự kiện vụ tai nạn, ví dụ nhƣ “sáng ngày 25/5 một vụ tai nạn thảm khốc đã xảy ra trên quốc lộ 1A”; còn thông tin tai nạn giao thông nhƣ tiêu đề bài báo “làm thế nào để giảm thiểu số vụ tai nạn giao thông”, hay “sốc về con số thiệt mạng do tai nạn trong nửa đầu năm 2014” thì đây không phải thông tin vụ tai nạn giao thông mà chỉ là thông tin tai nạn giao thông.
Cũng qua khảo sát trên miền dữ liệu thông tin vụ tai nạn chỉ ra rằng một sự kiện vụ tai nạn có thể chứa thời gian xảy ra tai nạn, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn, nguyên nhân của vụ tai nạn, độ tuổi của ngƣời điều khiển phƣơng tiện, vụ tai nạn xảy ra vào thời gian nào trong ngày… Trong số các thông tin đó thì thông tin về thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn đƣợc đặc biệt quan tâm và cũng là các thông tin sẽ đƣợc trích chọn trong sự kiện vụ tai nạn.
3.2. PHÁT BIỂU BÀI TOÁN
Bài toán trích chọn sự kiện trong văn bản bản tin Tiếng Việt. Trong luận văn, tác giả sẻ tập trung vào giải quyết bài toán trích chọn sự kiện trong bản tin vụ tai nạn giao thông (từ nay sẽ đƣợc gọi là trích chọn sự kiện vụ tai nạn). Tác giả muốn nhấn mạnh là sự kiện vụ tai nạn để phân biệt với các thông tin về tai nạn giao thông nhƣng không phải bản tin vụ tai nạn giao thông (ví dụ, bản tin
20
về buổi thảo luận làm thế nào để giảm thiểu tai nạn giao thông). Trong chƣơng này, tác giả tập trung vào giải quyết bài toán trích chọn thông tin vụ tai nạn giao thông từ văn bản tin tức tiếng Việt, lấy từ các trang báo điện tử Việt Nam. Trích ra thông tin về sự kiện vụ tai nạn nhƣ thời gian xảy ra vụ tai nạn, địa điểm xảy ra tai nạn, số thƣơng vong (số tử vong và số bị thƣơng), phƣơng tiện gây tai nạn, độ tuổi của ngƣời gây tai nạn, địa hình gây tai nạn, nguyên nhân của vụ tai nạn… từ các văn bản phi cấu trúc. Bài toán đƣợc phát biểu nhƣ sau:
Đầu vào: một bản tin trên báo điện tử
Đầu ra: bản tin ở đầu vào có phải sự kiện vụ tai nạn giao thông không, nếu có thì trích chọn ra thông tin về vụ tai nạn giao thông.
Thông tin trong một bản tin vụ tai nạn giao thông (từ nay gọi là bản tin vụ tai nạn) đƣợc định nghĩa là một bộ E gồm bốn thành phần, đó là: Thời gian, địa điểm, số thiệt hại, phƣơng tiện gây tai nạn. Một cách hình thức E đƣợc định nghĩa nhƣ sau:
E=<thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn> (3.1)
Thời gian: là thời gian xảy ra vụ tai nạn
Địa điểm: là địa điểm xảy ra vụ tai nạn
Số thương vong: là số nạn tử vong, số ngƣời bị thƣơng. Số thiệt hại có thể là danh sách gồm có 2 trƣờng là số thƣơng vong và số tử vong. Ví dụ, “ xế hộp do say rượu đã đâm trực tiếp vào nhà người dân, làm cho 2 người bị thương nặng, tài xế chết ngay tại chỗ”. Thông tin số thƣơng vong đƣợc trích ra dƣới dạng danh sách:
số tử vong số thƣơng vong
2 1
Ví dụ khác, “xe khách đâm thẳng vào xe tải đỗ bên đường, làm 3 hành khách bị thương”. Thông tin đƣợc trích ra dƣới dạng danh sách:
21
số tử vong số thƣơng vong
0 2
Phương tiện gây tai nạn: chỉ trích ra loại phƣơng tiện gây ra tai nạn.
Ví dụ, thông tin về sự kiện vụ tai nạn E nhƣ sau: E=<12/7/2013, Quốc lộ 1A, 3 người bị thương, xe máy>. Qua bốn thông tin tai nạn cơ bản này, chúng ta có thể dễ ràng suy luận ra rằng: “vào ngày 12 tháng 7 năm 2013 một vụ tai nạn xảy ra trên Quốc lộ 1A đã làm 3 người đi xe máy bị thương”.
Bài toán định nghĩa, đầu vào của mô hình là các bản tin trên báo điện tử. Tác giả chọn dữ liệu đầu vào là các trang báo điện tử vì ba lý do sau. Thứ nhất, thông tin trên các trang rất phong phú; Thứ hai, thông tin có độ tin cậy cao và tính cập nhật cao; Thứ ba, quá trình thu thập dữ liệu từ trên các trang báo điện tử cũng khá dễ ràng. Nên dữ liệu luôn bảo đảm tính đa dạng và tính cập nhật.
Mô hình trong phần định nghĩa bài toán đƣợc chia thành hai bài toán nhƣ sau: bài toán thứ nhất đƣợc gọi là pha 1- phát hiện sự kiện vụ tai nạn, bài toán giải quyết vấn đề phát hiện một bài báo có chứa thông tin vụ tai nạn hay không, bài toán thứ hai đƣợc gọi là pha 2 - trích chọn sự kiện vụ tai nạn, bài toán này sẽ giải quyết vấn đề sau khi pha 1 kiểm tra dữ liệu là sự kiện vụ tai nạn, pha 2 sẽ trích chọn thông tin về sự kiện vụ tai nạn.
3.3. MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 3.3.1. Phƣơng pháp đề xuất 3.3.1. Phƣơng pháp đề xuất
Trong chƣơng 2, luận văn đã tập trung trình bày các phƣơng pháp tiếp cận: phƣơng pháp tiếp cận dựa trên luật (rule-based), phƣơng pháp học máy, và phƣơng pháp kết hợp luật và học máy (phƣơng pháp lai). Trong phần này, luận văn tiếp tục phát triển ý tƣởng của việc kết hợp giữa luật và học máy cho bài toán trích chọn sự kiện vụ tai nạn.
22
Pha 1- Phát hiện sự kiện vụ tai nạn: Dữ liệu đầu vào của pha này là các bản tin trên các trang báo điện tử, số lƣợng các bài rất nhiều và của rất nhiều các lĩnh vực khác nhau. Nên tôi chia bài toán này thành hai bƣớc; bƣớc 1 - dùng luật để lọc ra dữ liệu trong miền tai nạn giao thông, bƣớc 2 - dùng bộ lọc để nhận diện các bản tin có chứa sự kiện vụ tai nạn. Nhƣ vậy, để giải quyết bài toán phát hiện sự kiện vụ tai nạn là kết hợp giữa luật và học máy.
Pha 2- Trích chọn sự kiện vụ tai nạn: Trong pha này ta phải trích chọn ra các thông tin về thời gian xầy ra vụ tai nạn, địa điểm ở đâu, số thƣơng vong, và phƣơng tiên gây tai nạn. Trích chọn thông tin về địa điểm xảy ra vụ tai nạn dùng nhận dạng thực thể (NER) và ontology hoặc dùng từ điển; thông tin về thời gian có thể ở dạng chuẩn (dd/mm/yyyy) hoặc không chuẩn (“giữa trưa”, “nửa đêm”, “giờ tan tầm” …), nên ta dùng luật để trích chọn ra thông tin; Trích chọn thông tin số thƣơng vong (số tử vong và số bị thƣơng) sử dụng nhận dạng thực thể và luật để lọc ra thông tin; Trích chọn thông tin phƣơng tiện gây tai nạn, tác giả xây dựng một bộ từ điển các phƣơng tiện giao thông sau đó dùng luật để so khớp với bộ từ điển.
Nhƣ vậy, để giải quyết đƣợc các vấn đề trong hai pha ta kết hợp cả luật và học máy (ở đây là phân lớp và nhận dạng thực thể). Mô hình của cả hai pha sẽ đƣợc trình bầy chi tiết trong phần 3.3.2 và cách giải quyết chi tiết hai bài toán trong phần 3.4.
3.3.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn
Để giải quyết các vấn đề ở cả hai pha phần 3.3.1, tác giả đề xuất mô hình phát hiện và trích chọn sự kiện vụ tai nạn gồm có bốn thành phần chính nhƣ sau:
23
Thu thập dữ liệu: phần này có nhiệm vụ thu thập dữ liệu tự động từ các bản tin từ các trang báo điện tử trên Internet sau đó chuyển cho bƣớc tiền xử lý dữ liệu.
Tiền xử lý dữ liệu: thành phần này có nhiệm vụ xử lý dữ liệu sau khi đã thu thập đƣợc ở phần trên, ta loại bỏ các thẻ HTML, lấy dữ liệu dạng thô (text). Sau đó chuyển nó sang bƣớc phát hiện sự kiện vụ tai nạn.
Phát hiện sự kiện: là phát hiện sự kiện vụ tai nạn, dữ liệu đƣợc lấy từ thành phần tiền xử lý dữ liệu, ta dùng luật để lấy các dữ liệu thuộc miền thông tin tai nạn giao thông, sau đó ta dùng học máy để phân lớp dữ liệu, kiểm tra dữ liệu đó có phải bản tin vụ tai nạn giao thông hay không, nếu không phải thì loại, nếu đúng thì lấy và chuyển dữ liệu đó cho bƣớc trích chọn sự kiện vụ tai nạn.
Trích chọn sự kiện: là bƣớc trích chọn sự kiện vụ tai nạn; Ở bƣớc này ta trích chọn những thông tin đặc trƣng của vụ tai nạn nhƣ: thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn giao thông.
3.4. GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN
Nhiệm vụ của bài toán 1, từ dữ liệu thô (text) ở bƣớc tiền xử lý dùng luật để lọc lấy dữ liệu trong miền thông tin tai nạn giao thông, từ đó dùng bộ phân lớp để kiểm tra dữ liệu có phải là bản tin vụ tai nạn hay không, nếu dữ liệu là bản tin vụ tai nạn thì dữ liệu đó đƣợc chuyển sang bài toán 2 - Trích chọn sự kiện vụ tai nạn. Mô hình và các giải quyết chi tiết của hai bài toán sẽ đƣợc trình bầy trong mục 3.4.1 và 3.4.2.
3.4.1. Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1)
3.4.1.1. Phát biểu bài toán
Mục tiêu của bài toán 1- Phát hiện sự kiện vụ tai nạn, dữ liệu cần giải quyết đƣợc lấy từ bƣớc tiền xử lý dữ liệu (dữ liệu ở dạng thô - text), dữ liệu đầu ra có
24
chứa sự kiện vụ tai nạn hay không. Một các hình thức, bài toán đƣợc phát biểu