Trích chọn sự kiện trong văn bản tin tức tiếng Việt : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

61 17 0
Trích chọn sự kiện trong văn bản tin tức tiếng Việt : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH HÀ NỘI - 2014 LỜI CẢM ƠN Trƣớc tiên, xin đƣợc gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Trí Thành tận tình bảo; hƣớng dẫn; động viên giúp đỡ suốt q trình thực luận văn tốt nghiệp Tơi xin gửi lời cảm ơn tới Thầy giáo, PGS TS Hà Quang Thuỵ ngƣời tận tình giúp đỡ, cổ vũ, góp ý cho tơi suốt thời gian tơi nghiên cứu làm việc phịng thí nghiệm Công nghệ Tri thức (Knowledge Technology Laboratory - KTLab) Tôi xin gửi lời cảm ơn tới anh chị, bạn sinh viên phịng thí nghiệm Cơng nghệ Tri thức (KTLab) – Trƣờng Đại học Công nghệ hỗ trợ tơi nhiều q trình thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân u ln bên cạnh: quan tâm; động viên suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng năm 2014 Học viên Phan Thị Thuận i LỜI CAM ĐOAN Tôi xin cam đoan giải pháp trích chọn kiện văn tin tức tiếng Việt đƣợc trình bày luận văn tơi thực dƣới hƣớng dẫn TS Nguyễn Trí Thành Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nƣớc quốc tê Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng năm 2014 Tác giả luận văn Phan Thị Thuận ii MỤC LỤC DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vi MỞ ĐẦU .vii Chƣơng GIỚI THIỆU ĐỀ TÀI 1.1 BÀI TỐN TRÍCH CHỌN THƠNG TIN TRONG VĂN BẢN 1.2 TỔNG QUAN VỀ SỰ KIỆN 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 1.3.1 Bài tốn trích chọn kiện vụ tai nạn 1.3.2 Phát kiện 1.3.3 Trích chọn kiện 1.4 Ý NGHĨA CỦA BÀI TỐN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn 1.5 KẾT LUẬN Chƣơng MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN 2.1 PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 2.1.1 Luật cú pháp (lexico-syntactic patterns) 10 2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 11 2.1.3 Hình dạng biểu diễn tập luật (Form and Representation of Rules) 11 iii 2.2 PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY 15 2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY 17 2.5 TỔNG KẾT 18 Chƣơng ĐỀ XUẤT MƠ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 19 3.1 CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN 19 3.2 PHÁT BIỂU BÀI TOÁN 19 3.3 MƠ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 21 3.3.1 Phƣơng pháp đề xuất 21 3.3.2 Mơ hình phát trích chọn kiện vụ tai nạn 22 3.4 GIẢI QUYẾT BÀI TỐN PHÁT HIỆN SỰ KIỆN VÀ BÀI TỐN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 23 3.4.1 Bài toán 1- Pháp kiện vụ tai nạn (pha 1) 23 3.4.1.1 Phát biểu toán 23 3.4.1.2 Xây dựng tập luật 24 3.4.1.3 Xây dựng mơ hình phân lớp 28 3.4.2 Bài tốn 2- Trích chọn kiện vụ tai nạn (pha 2) 29 3.4.2.1 Phát biểu toán 29 3.4.2.2 Trích chọn thời gian 30 3.4.2.3 Trích chọn địa điểm 32 3.4.2.4 Trích chọn số thương vong 32 3.4.2.5 Trích chọn phương tiện gây tai nạn 33 3.5 TỔNG KẾT 34 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 iv 4.1 MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM 36 4.2 XÂY DỰNG TẬP DỮ LIỆU 37 4.2.1 Thu thập liệu 37 4.2.2 Tiền xử lý liệu 37 4.3 ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 37 4.3.1 Đánh giá lọc liệu 37 4.3.2 Đánh giá trình phân lớp 38 4.4 ĐÁNH GIÁ Q TRÌNH TRÍCH CHỌN SỰ KIỆN 39 4.4.1 Thực nghiệm không qua phân lớp 39 4.4.2 Thực nghiệm qua phân lớp 41 4.4.3 Nhận xét 41 4.5 PHÂN TÍCH LỖI 41 4.5.1 Phân tích lỗi q trình phát kiện 41 4.5.2 Phân tích lỗi q trình trích chọn kiện 42 4.6 MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN 43 Biểu đồ 4.3 Thống kê số vụ tai nạn theo tỉnh 44 4.7 TỔNG KẾT 45 TÀI LIỆU THAM KHẢO 48 v DANH MỤC CÁC HÌNH Hình 3.1: Q trình phát trích chọn kiện vụ tai nạn 22 Hình 3.2 Thành phần phát kiện 24 Hình 3.3 Tiêu đề tin có chứa từ liên quan phương tiện giao thông 25 Hình 3.4 Tiêu đề khơng chứa từ liên quan đến phương tiện giao thơng 26 Hình 3.5 Thành phần trích chọn kiện 30 Hình 4.1 Lỗi lọc liệu không thuộc miền tai nạn giao thông 42 DANH MỤC CÁC BẢNG Bảng 3.1Phương tiện giao thông 26 Bảng 4.1 Cấu hình phần cứng 36 Bảng 4.2 Công cụ phần mềm sử dụng 36 Bảng 4.3 Các thành phần tin 37 Bảng 4.4 Tỷ lệ lỗi trình lọc liệu 38 Bảng 4.5 Đánh giá kết phân lớp 39 Bảng 4.6 Đánh giá q trình trích chọn - liệu không qua phân lớp 41 Bảng 4.7 Đánh giá q trình trích chọn - liệu qua phân lớp 41 Bảng 4.8 Một số lỗi - q trình trích chọn 43 vi MỞ ĐẦU Trích chọn thông tin (Information Extraction - IE), đặc biệt trích chọn kiện (Event Extraction - EE) lĩnh vực khai phá liệu (Data Mining - DM) Những năm gần đây, trích chọn kiện thu hút nhiều quan tâm từ nhà khoa học giới thu đƣợc nhiều kết thực tế Trích chọn kiện áp dụng vào nhiều miền liệu khác nhƣ kinh tế, văn hóa, y tế, xã hội (chẳng hạn nhƣ thông tin vụ tai nạn giao thơng), trị, Theo số thống kê trang báo điện tử số tai nạn hàng năm, nhƣ: thông tin đăng báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự an tồn giao thơng năm 2012 triển khai nhiệm vụ năm 2013” Phó Thủ tƣớng Chính phủ Nguyễn Xuân Phúc chủ trì Trong hội nghị, Ủy ban An tồn giao thơng ATGT Quốc gia thống kê: năm 2012, nước xảy 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người Cũng theo báo điện tử http://hanoimoi.com.vn, ngày 31-12-2013, Phó Thủ tƣớng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc chủ trì hội nghị trực tuyến với bộ, ngành, địa phƣơng nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 triển khai nhiệm vụ năm 2014 Theo thống kê Ủy ban ATGT Quốc gia, năm 2013 nước xảy 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người Từ số thống kê tai nạn giao thông hàng năm, thấy số vụ tai nạn cao, với số tử vong số thƣơng vong lớn Mặt khác, tin vụ tai nạn đƣợc cập nhật đầy đủ mang tính thời báo điện tử Hơn nữa, trích chọn kiện phát triển, sử dụng trích chọn kiện để trích chọn thơng tin hữu ích từ tin vụ tai nạn, kết trình đƣợc thống kê thành số hữu ích giúp nhà quản lý ngƣời dân tham gia giao thông cách Đó lý do, tác giả chọn nghiên cứu đề tài“Trích chọn kiện văn tin tức vii tiếng Việt” miền liệu khai thác kiện vụ tai nạn Chi tiết luận văn đƣợc chia thành chƣơng: Chƣơng Giới thiệu đề tài Chƣơng trình bày tốn trích chọn kiện bối cảnh bùng nổ thông tin Internet Hơn nêu lên đƣợc ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng đề tài trích chọn kiện vụ tai nạn giao thơng miền văn tiếng Việt Chƣơng 2.Một số phƣơng pháp tiếp cận Chƣơng tập trung trình bày phƣơng pháp tiếp cận cho tốn trích chọn kiện là, phƣơng pháp tiếp cận dựa tâp luật, phƣơng pháp tiếp cận dựa học máy, phƣơng pháp tiếp cận kết hợp luật học máy, phƣơng pháp có nhận xét hữu ích Từ đó, luận văn phƣơng pháp phù hợp cho tốn trích chọn kiện vụ tai nạn Chƣơng Đề xuất mơ hình trích chọn kiện vụ tai nạn Chƣơng này, phát biểu mô tả mô hình tổng thể cho tốn trích chọn kiện vụ tai nạn Sau đó, phát biểu, mơ tả mơ hình chi tiết cách giải cho hai tốn: phát kiện trích chọn kiện Chƣơng Thực nghiệm đánh giá Chƣơng này, luận văn mơ tả q trình thực nghiệm đánh giả kết đề xuất dựa hai tốn, là: toán phát kiện toán trích chọn kiện Ba độ đo đƣợc sử dụng pha phát kiện độ xác (P - Precision), độ hồi tƣởng (R - Recall), độ đo F1 (F1-score) so sánh với kết đánh giá thủ cơng (bằng tay) cho pha trích chọn kiện Thống kê đánh giá (biểu đồ) thuộc tính đƣợc trích chọn Phần kết luận: trình bày kết đạt đƣợc luận văn, hạn chế hƣớng phát triển luận văn tƣơng lai viii 4.2 XÂY DỰNG TẬP DỮ LIỆU 4.2.1 Thu thập liệu Dữ liệu đƣợc thu thập trang http://vovgiaothong.vn/giao-thongtrong-nuoc/ (kênh VOV Giao thông Quốc gia – Đài Tiếng nói Việt Nam) trang http://antoangiaothong.gov.vn/tai-nan-giao-thong/ (của Uỷ ban An tồn giao thơng Quốc gia) Tác giả chọn trang trang ln cập nhật nhanh đầy đủ vụ tai nạn nƣớc Việc thu thập liệu đƣợc thực phần mềm Teleport Pro, phần mềm lấy 500 tin từ website trên, nhƣ sau thu thập liệu ta có 3000 tin 4.2.2 Tiền xử lý liệu Dữ liệu đƣợc lƣu dƣới dạng JSON, tác giả tiến hành đƣa liệu dạng HTML, sau tách thẻ HTML để thu văn dạng thơ (text) Sau q trình sử lý, tác giả thu đƣợc 3000 tin Các thành phần tin đƣợc minh hoạ bảng 4.3 Bảng 4.3 Các thành phần tin Stt Tên thành phần Mô tả Tiêu đề Tiêu đề tin Tóm tắt Phần tóm tắt tin Ngày đăng tin Ngày mà tin đƣợc đăng Nội dung Nội dung tin 4.3 ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 4.3.1 Đánh giá lọc liệu Mơ tả thực nghiệm: mục đích thực nghiệm đánh giá khả lọc liệu Phát biểu thực nghiệm 37 - Đầu vào: tập tin đƣợc thu thập từ trang http://vovgiaothong.vn/giao-thong-trong-nuoc/ trang http://antoangiaothong.gov.vn/tai-nan-giao-thong/ - Đầu ra: báo liên quan tới miền liệu tai nạn giao thông Dữ liệu thực nghiệm: 3.000 tin Sau q trình lọc liệu thu đƣợc tổng sơ 919 tin thuộc miền tai nạn giao thơng, số tin không liên quan đến tai nạn giao thơng ít, tính tỷ lệ lỗi theo cơng thức 4.1 Chi tiết đƣợc trình bảng 4.4 Bảng 4.4 Tỷ lệ lỗi trình lọc liệu Tổng số tin số tin không liên quan Tỷ lệ lỗi 919 19 3.9% Công thức tính tỷ lệ lỗi q trình lọc liệu: Trong đó: Tổng số: tổng số tin thu đƣợc sau q trình lọc Số khơng liên quan: số tin không thuộc miền tai nạn giao thơng Kết q trình này, đƣợc trình bày bảng 4.4, thu đƣợc kết độ xác cao 4.3.2 Đánh giá trình phân lớp Mơ tả thực nghiệm: mục đích phần đánh giá trình phân lớp thực nghiệm Pháp biểu thực nghiệm Đầu vào: tập tin đƣợc lọc Đầu ra: tin đƣợc gán nhãn EVENT NOT_EVENT 38 Dữ liệu thực nghiệm: liệu lần đánh giá 100 tin đƣợc lấy ngẫu nhiên từ tin đƣợc lọc liệu Kết trình đánh giá đƣợc trình bày bảng 4.5 Bảng 4.5 Đánh giá kết phân lớp Số tin Stt xác Số tin Số tin khơng khơng tìm thấy Precision Recall độ đo F-1 xác 85 12 88% 97% 92% 81 16 84% 96% 90% 83 15 85% 98% 91% 85 11 89% 96% 92% 80 17 82% 96% 89% 82.8 14.2 85% 97% 91% Trung binh Kết thực nghiệm bảng 4.5, cho thấy q trình phân lớp cho thấy độ xác (P-Precision) đạt 85%, độ đo hồi tƣởng (R-Recall) đạt 97%, độ đo F-1 đạt 91% 4.4 ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN 4.4.1 Thực nghiệm khơng qua phân lớp Mơ tả thực nghiệm: mục đích phần đánh giá khả trích chọn Phát biểu thực nghiệm Đầu vào: tin miền tai nạn giao thông Đầu ra: thông tin kiện vụ tai nạn gồm: thời gian xảy vụ tai nạn, địa điểm xảy vụ tai nạn, số thƣơng vong (số tử vong, số bị thƣơng), phƣơng tiện gây tai nạn 39 Dữ liệu thực nghiệm: liệu 200 tin lấy ngâu nghiên từ tin niềm tai nạn tai nạn giao thông chƣa qua phân lớp Một kiện E đƣợc định nghĩa gồm thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn đƣợc trình bày công thức 3.1 Nhƣ kiện nên chứa bốn thành phần Nếu kiện không bao gồm phƣơng tiện gây tai nạn thời gian gây tai nạn đƣợc xem kiện sai Để đánh giá khả trích chọn kiện, tác giả sử dụng ba độ đo: độ xác (P - Precision), độ hồi tƣởng (R - Recall), độ đo F1 (F-score) Các độ đo đƣợc biểu diễn công thức (4.2), (4.3), (4.4) Số kiện Độ xác (P) = (4.2) Số kiện + Số kiện sai Trong đó: - Số kiện đúng: số kiện đƣợc mơ hình trích chọn xác - Số kiện sai: số kiện mà mơ hình trích chọn sai Số kiện (4.3) Độ hồi tưởng (R) = Số kiện đúng+số kiện không trích chọn Trong đó: - Số kiện đúng: số kiện đƣợc mơ hình trích chọn xác - Số kiện khơng trích chọn: số kiện mà mơ hình khơng trích chọn 2xPxR F1 = (4.4) (P + R) 40 Dựa vào công thức (4.2), (4.3), (4.4), tác giả đƣa bảng đánh giá mơ hình trích chọn, chi tiết đƣợc trình bày bảng4.6 Bảng 4.6 Đánh giá q trình trích chọn - liệu không qua phân lớp Số kiện Số Số kiện kiện sai khơng tìm thấy antoangiaothong.gov.vn 160 34 vovgiaothong.vn 154 Trung bình 314 Tên website P R F1 82% 96% 89% 37 81% 94% 87% 71 15 82% 95% 88% 4.4.2 Thực nghiệm qua phân lớp Dữ liệu thực nghiệm: liệu 100 tin đƣợc lấy từ tin chứa kiện vụ tai nạn (gán nhãn EVENT) Kết q trình trích chọn kiện, tác giả sử dùng công thức (4.2), (4.3), (4.4) để đánh giá thực nghiệm Kết đƣợc mô tả chi tiết bảng 4.7 Bảng 4.7 Đánh giá trình trích chọn - liệu qua phân lớp Số kiện Số Số kiện kiện sai khơng tìm thấy antoangiaothong.gov.vn 91 vovgiaothong.vn 93 Trung bình 184 Tên website P R F1 95% 96% 95% 96% 98% 97% 95% 97% 96% 4.4.3 Nhận xét Từ thực nghiệm đƣợc chi tiết bảng 4.6 (dữ liệu không qua phân lớp) bảng 4.7 (dữ liệu đƣợc xử lý qua phân lớp) Kết cho thấy liệu đƣợc xử lý qua phân lớp cho kết cao Điều chứng tỏ tầm quan trọng phân lớp mơ hình 4.5 PHÂN TÍCH LỖI 4.5.1 Phân tích lỗi trình phát kiện Quá khảo sát thống kê liệu sau thực nghiệm, phát lỗi tiêu đề có từ nhắc đến phương tiện giao thơng nhƣng tin lại khơng thuộc miền 41 tai nạn giao thơng: Ví dụ, hình 4.1 tiêu đề tin “khổ mua xe trả góp”, có chứa phƣơng tiện giao thơng “xe” nhƣng thực chất tin thuộc miền liệu thƣơng mai miền tai nạn giao thông Tuy thế, lọc phát liệu thuộc miền liệu tai nạn giao thơng Hình 4.1 Lỗi lọc liệu không thuộc miền tai nạn giao thông 4.5.2 Phân tích lỗi q trình trích chọn kiện Trong pha trích chọn thơng tin khả trích chọn thơng tin cịn thấp, tác giả tìm hiểu nguyên nhân thấy thƣờng xảy lỗi nhƣ: trích chọn địa điểm, đơi tin nhắc đến tên đƣờng không nhắc đến tên địa phƣơng (xã/huyện/ tỉnh) trƣờng hợp xác định đƣợc địa điểm xác cho giá trị Null Trong số trƣờng hợp thơng tin đƣợc viết tắt khơng trích chọn đƣợc.Trích chọn thông tin phƣơng tiện gây tai nạn số trƣờng hợp trích chọn thơng tin sai nhƣ: “xe máy bị đâm, nạn nhân chết chỗ”, thông tin đƣợc trích “xe máy” phƣơng tiện gây tai nạn kết sai Hay trƣờng hợp trích chọn số nạn nhận nhƣ “Nạn nhân người dân đưa cấp cứu”, khơng trích chọn đƣợc số nạn nhân khơng có tiền tố số lƣợng Chi tiết lỗi đƣợc trình bày bảng 4.8 42 Bảng 4.8 Một số lỗi - q trình trích chọn Stt Thơng tin Thơng tin trích chọn Phƣờng 4, Quận 1, Phƣơng 9, TP Hồ Chí Minh Quận 5, Phƣờng 7, Quận Bình Thạch Tỉnh Pray Veng Null Huyện Xuân trƣờng, Nam Định Nam Định Quốc lộ 1A Null xe máy bị đâm Xe máy Nạn nhân đƣợc ngƣời dân Null 4.6 MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN Kết q trình trích chọn đƣợc sử dụng để thống kê nhƣ thống kê số vụ tai nạn theo Tuần, theo Thứ Tuần, theo Tỉnh, thống kê số vụ tai nạn theo Phương tiện tham gia giao thông 1./ Thống kê số vụ tai nạn theo tuần hai tháng (tháng tháng năm 2014) Dữ liệu đƣợc tập trung vào tháng tháng năm 2014, thống kê cho thấy ngày nghỉ lễ 30/4 1/5 số vụ tai nạn tăng lên đáng kình ngạc, nƣớc xảy 191 vụ tai nạn làm thiệt nạng 109 ngƣời Chi tiết đƣợc mô tả biểu đồ 4.1 Biểu đổ 4.1 Thống kê số vụ tai nạn theo Tuần tháng tháng 43 2./ Thống kê số vụ tai nạn theo Thứ Tuần, kết cho thấy vào cuối tuần số vụ tai nạn tăng lên đáng kể Chi tiết số vụ tai nạn Thứ Tuần đƣợc thể biểu đồ 4.2 Biểu đồ 4.2 Thống kê số vụ tai nạn theo Thứ Tuần 3./ Thống kê số vụ tai nạn theo tỉnh (thống kê tỉnh điển hình) nƣớc Kết cho thấy Thành phố Hồ Chí Minh có mức độ tai nạn cao Chi tiết xem biểu đồ 4.3 Biểu đồ 4.3 Thống kê số vụ tai nạn theo Tỉnh 44 4./ Thống kê phƣơng tiện có tần suất gây tai nạn cao tham gia giao thông (thống kê phƣơng tiện có mức độ tai nạn cao hơn) Chi tiết loại phƣơng tiện đƣợc hiển thị biểu đồ 4.4 Biểu đồ 4.4 Thống kê số vụ tai nạn theo loại phƣơng tiện giao thông Qua thống kê vụ tai nạn giao thông tác giả rút nhận xét sau: Đối với ngƣời dân tham gia giao thông vào ngày nghỉ lễ, ngày cuối tuần, thành phố lớn, tham gia giao thông phƣơng tiện nhƣ xe máy, xe buýt, xe khách, xe công – te- nơ đặc biệt xe tải phải cẩn thận đặc biệt ngƣời điều khiển phƣơng tiện giao thông, để tránh tai nạn đáng tiếc cho thân cho ngƣời đƣờng Đối với nhà quản lý nên có biệm pháp hiệu để ngăn ngừa tai nạn giao thông đặc biệt vào ngày nghỉ lễ dài 4.7 TỔNG KẾT Trong chƣơng này, tác giả tiến hành thực nghiệm, xem xét đánh giá kết mơ hình trích chọn thơng tin văn du lịch đƣợc xây dựng chƣơng ba Kết thực nghiệm cho thấy tính khả thi mơ hình giải tốn trích chọn kiện vụ tai nạn 45 KẾT LUẬN 1/ Kết đạt đƣợc luận văn Trong luận văn này, tác giả tìm hiểu phƣơng pháp trích chọn kiện, phƣơng pháp kết hợp luật học máy đƣợc sử dụng cho tốn phát kiện tốn trích chọn kiện Trên sở đó, xây dựng mơ hình phƣơng pháp giải chi tiết cho toán phát kiện vụ tan nạn tốn trích chọn kiện vụ tai nạn Kết thực nghiệm q trình trích chọn kiện miền liệu vụ tai nạn với độ đo P đạt 95%, độ đo R đạt 97 %, độ đo F1 đạt 96%, điều chứng tỏ tính khả thi mơ hình 2./ Hạn chế - Kết phân lớp chƣa cao nhập nhằng tin có chứa kiện vụ tai nạn tin chứa thông tin tai nạn giao thông khác - Xây dựng tập luật tay, khó bao phủ tồn liệu Điều dẫn đến tập luật bỏ sót liệu liên quan tới miền liệu - Trích chọn địa điểm dựa từ điển số trƣờng hợp bị nhập nhằng liệu cung cấp không đủ thông tin địa điểm - Trong số trƣờng hợp viết tắt, trích chọn thơng tin cịn chƣa xác 3/ Định hƣớng tƣơng lai Định hƣớng nghiên cứu luận văn tiếp tục hồn thiện phát triển mơ hình trích chọn kiện văn tin tức tiếng Việt Phát triển trích chọn thêm thuộc tính quan trọng nhƣ: giờ/ngày (giờ ngày xảy vụ tai nạn), độ tuổi ngƣời điều kiển phƣơng tiện gây tai nạn, ngành nghề ngƣời điều khiển phƣơng tiện gây tai nạn, địa hình gây tai nạn, … Kết q trình trích chọn đƣợc thống kê nhƣ: tai nạn hay xảy vào giờ/ngày (giờ ngày hay xảy tai nạn vào ban đêm, đến công sở, tan tầm…), thứ/tuần (tai nạn thƣờng xảy vào thứ tuần, nhƣ ngày làm hay ngày 46 cuối tuần,… ), mùa/năm (vào mùa lễ hội, mùa thi Đại học, mùa mƣa, hay vào kỳ nghỉ mát mùa hè,…), địa hình gây tai nạn (đƣờng dốc, đƣờng vịng cua, hay đƣờng có nhiều ngã rẽ ), ngành nghề ngƣời điều khiển phƣơng tiện giao thơng… Từ thống kê tìm nguyên nhân xảy vụ tai nạn, so sánh quy mô mức độ nghiêm trọng vụ tai nạn khoảng thời gian với nhau, từ đƣa đánh giá trung phát triển vụ tai nạn theo chiều hƣớng Mặt khác, kết trình thống kê đƣợc trực quan hoá đồ Việt Nam điểm hay xảy tai nạn cảnh báo, biển báo, ghi 47 TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, [2] Douglas E Appelt Introduction to information extraction technology In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 [3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science SpringerVerlag Berlin Heidelberg, vol 3248:777 786, 2004 [4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong An overview of event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48 57, 2011.10 [5] M.A Hearst Automatic acquisition of hyponyms from large text corpora In: 14th Conference on Computational Linguistics (COLING 1992), vol 2:539 545, 1992 [6] M.A Hearst Wordnet: An electronic lexical database and some of its applications In Automated Discovery of WordNet Relations, pp 131 151 MIT Press, 1998 [7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115 140, 2010 48 [8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431 447, 2003 [9] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181 192, 2009 [10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201 209, 2008 [11] L Peshkin and A Pfeffer Bayesian information extraction network In Proc.of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003 [12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287 300, 2007 [13] Silja Huttunen Ralph Grishman and Roman Yangaber Information extraction for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236 246, 2002 [14] Ai Kawazoe Son Doan and Nigel Collier Global health monitor - a webbased system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp 951 956, 2008 49 [15] William H Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru Animal disease event recognition and classification 2010 [16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from biomedical papers using a full parser In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp 408 419, 2001 [17] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50 58 Association for Computational Linguistics, 2009 [18] S Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol 34, 1999 [19] H Cunningham, D Maynard, K Bontcheva, and V Tablan, “Gate: A framework and graphical development environment for robust nlp tools and applications,” in Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002 [20] W Shen, A Doan, J F Naughton, and R Ramakrishnan, “Declarative information extraction using datalog with embedded extraction predicates,” in VLDB, pp 1033–1044, 2007 [21] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466 471, 1996 [22] Doddington George R The automatic content extraction (ace) program tasks, data, and evaluation In LREC, 2004 [23] Keita Sato Nishihara, Yoko and Wataru Sunayama Event extraction and visualization for obtaining personal experiences from blogs In: Symposiumon Human Interface 2009 on Human Interface and the Management of Information Information and Interaction Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 5618:315 324, 2009 50 [24] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76 83 Association for Computational Linguistics, 2000 [25] Huanye Sheng Li Fang and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35 49, 2002 [26] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615 618 , 2004 [27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 229, 2008 51

Ngày đăng: 23/09/2020, 22:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan