Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,64 MB
Nội dung
i LỜI CAM ĐOAN Tác giả Phùng Chí Quốc xin cam đoan giải pháp trích chọn kiện văn tin tức tiếng Việt trình bày luận văn thực hướng dẫn TS Nguyễn Long Giang Tác giả trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tê Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc ii LỜI CẢM ƠN Trước tiên, em xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Long Giang tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn đến thầy cô trường Trường Đại học Công nghệ thông tin & Truyền thông – Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức làm tảng để nghiên cứu hoàn thành luận văn tốt nghiệp giúp em ứng dụng kiến thức công việc Em xin gởi lời cảm ơn tới người bạn thân yêu, đặc biệt bạn lớp K13E đoàn kết, động viên, giúp đỡ em hoàn thành luận văn tốt nghiệp vượt qua khó khăn học tập Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh: quan tâm; động viên suốt trình học tập thực luận văn tốt nghiệp Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy cô để luận văn em hoàn thiện Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC BIỂU ĐỒ vi DANH MỤC CÁC HÌNH .vii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN 1.1 Bài toán trích chọn thông tin văn (IE) 1.2 Các khái niệm kiện trích chọn kiện (EE) 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 Ý nghĩa khoa học thực tiễn toán trích chọn kiện tai nạn giao thông 1.3.1 Ý nghĩa khoa học 1.3.2 Ý nghĩa thực tiễn 1.4 Kết luận 10 Chương CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN 12 2.1 Các phương pháp dựa tập luật (rule-based) 13 2.1.1 Luật cú pháp (lexico-syntactic patterns) 13 2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 14 2.1.3 Hình dạng biểu diễn tập luật (Form and Representation of Rules) 15 2.2 Phương pháp tiếp cận dựa học máy 19 2.3 Các phương pháp kết hợp luật học máy 20 iv 2.4 Tiêu chuẩn đánh giá thuật toán 21 2.5 Kết luận 23 Chương LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG .24 3.1 Bài toán trích chọn kiện vụ tai nạn giao thông 24 3.1.1 Phát biểu toán 25 3.1.2 Phát kiện 27 3.1.3 Trích chọn kiện 27 3.2 Lựa chọn phương pháp giải toán trích chọn kiện tai nạn giao thông 28 3.2.1 Lựa chọn phương pháp giải toán 28 3.2.2 Mô hình phát trích chọn kiện vụ tai nạn 29 3.2.4 Giải toán phát kiện vụ tai nạn (pha 1) 31 3.2.5 Giải toán trích chọn kiện vụ tai nạn (Pha 2) 35 3.3 Đánh giá thuật toán 41 3.4 Kết luận 42 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Bài toán trích chọn kiện 43 4.2 Môi trường công cụ thự nghiệm: 43 4.2.1 Về phần cứng: 43 4.2.2 Về công cụ phần mềm sử dụng để thử nghiệm: 44 4.3 Xây dựng sở liệu 45 4.3.1 Bảng liệu lưu trữ website 45 4.3.2 Bảng liệu lưu trữ tin chứa thông tin kiện vụ tai nạn giao thông sau qua lọc liệu 45 4.3.3 Bảng liệu lưu trữ chi tiết thuộc tính vụ tai nạn 45 4.4 Các bước thử nghiệm toán 46 4.5 Thử nghiệm quy trình trích chọn thông tin 46 4.5.1 Thu thập liệu: 46 4.5.2 Lọc liệu: 48 4.5.3 Trích chọn thông tin kiện tai nạn giao thông 49 v 4.6 Đánh giá kết thực nghiệm 51 4.6.1 Đánh giá trình lọc liệu: 51 Kết cho thấy độ xác chức lọc liệu 81.4% Tuy nhiên có tin chứa kiện tai nạn giao thông bị bỏ qua Nguyên nhân trình trình bày mục 4.6 phân tích lỗi 51 4.6.2 Đánh giá trình trích chọn kiện 51 4.7 Phân tích lỗi: 52 4.7.1 Phân tích lỗi pha phát kiện – trình lọc liệu 52 4.7.2 Phân tích lỗi trình trích chọn kiện 54 4.8 Một số ứng dụng kết trích chọn thông tin: 55 4.8.1 Thống kê số vụ tai nạn giao thông theo địa điểm 55 4.8.2 Thống kế số vụ tai nạn giao thông theo Tháng 57 4.8.3 Thống kê số vụ tai nạn giao thông theo phương tiện 58 4.8.4 Đánh giá chung 59 4.9 Kết luận 60 KẾT LUẬN 61 Những kết luận văn 61 Một số hạn chế 61 Định hướng tương lai 62 TÀI LIỆU THAM KHẢO .63 vi DANH MỤC CÁC BẢNG Bảng 3.1 Phương tiện giao thông 33 Bảng 4.1 Cấu hình hệ thống phần cứng thực nghiệm 44 Bảng 4.2 Công cụ phần mềm sử dụng có sẵn 44 Bảng 4.3 Độ xác chức lọc liệu 51 Bảng 4.4 Đánh giá trình trích chọn thông tin vụ tai nạn giao thông 52 Bảng 4.5 Một số lỗi trình trích chọn 555 Bảng 4.6 Thống kê số vụ tai nạn giao thông theo tỉnh 566 DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 4.1 Thống kê số vụ tai nạn theo địa điểm 56 Biểu đồ 4.2 Biểu đồ thống kê số vụ tai nạn giao thống kê theo Tháng 57 Biểu đồ 4.3 Thống kê theo phương tiện gây tai nạn giao thông 599 vii DANH MỤC CÁC HÌNH Hình 3.1 Quá trình phát trích chọn kiện vụ tai nạn 30 Hình 3.2 Mô hình làm việc thu thập liệu 31 Hình 3.3 Thành phần phát kiện 32 Hình 3.4 Thành phần trích chọn kiện 36 Hình 4.1 Thu thập liệu từ http://www.24h.com.vn/tai-nan-giao-thong/ 47 Hình 4.2 Thu thập liệu từ http://antoangiaothong.gov.vn/ 47 Hình 4.3 Kết lọc tin có chứa thông tin tai nạn giao thông 49 Hình 4.4 Kết phát kiện tai nạn 50 Hình 4.5 Giao diện trích chọn thông tin kiện tai nạn 50 Hình 4.6 Lỗi lọc liệu không thuộc miền tai nạn giao thông 53 Hình 4.7 Lỗi lọc liệu thuộc miền tai nạn giao thông bị loại 53 MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Trích chọn thông tin (Information Extraction - IE) lĩnh vực quan trọng khai phá liệu học máy (Data mining and machine learning) có nhiều ứng dụng thực tiễn với mục tiêu trích lọc thông tin có định dạng hữu ích từ nguồn liệu lớn Internet [1, 2] Trích chọn kiện (Event Extraction – EE) toán trích chọn thông tin với mục tiêu trích lọc kiện từ nguồn số liệu Đầu vào trích chọn kiện văn lấy từ nhiều nguồn số liệu khác văn tin tức, mạng xã hội đầu tri thức biểu diễn dạng thông tin có cấu trúc Những thông tin hữu ích cho việc khai thác liệu thống kê, giám sát, hỗ trợ định Trích chọn kiện áp dụng cho miền liệu cụ thể vụ tai nạn giao thông, dịch bệnh, tour du lịch có nhiều ứng dụng lĩnh vực khác đời sống xã hội kinh tế, văn hóa, y tế, giáo dục…[3, 4, 5, 6, 7, 8] Một ứng dụng quan trọng trích chọn kiện trích chọn kiện vụ tai nạn giao thông trang báo điện tử Internet Theo số thống kê trang báo điện tử số vụ tai nạn giao thông hàng năm (http://binhduong.gov.vn, http://hanoimoi.com.vn), năm 2012 nước xảy 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người; năm 2013 nước xảy 29.385 vụ tai nạn giao thông, làm chết 9.369 người, bị thương 29.500 người Từ số thống kê tai nạn giao thông hàng năm, thấy số vụ tai nạn cao, với số tử vong số thương vong lớn Mặt khác, tin vụ tai nạn cập nhật đầy đủ mang tính thời báo điện tử, nguồn thông tin đa dạng, phong phú Việc ứng dụng phương pháp trích chọn kiện để trích chọn thông tin vụ tai nạn giao thông nhu cầu cấp thiết nhằm trích chọn thông tin hữu ích từ tin vụ tai nạn Kết trình phân tích, thống kê thành số hữu ích giúp nhà quản lý điều hành, sách giao thông hợp lý nhằm giảm thiểu tai nạn giao thông góp phần nâng cao ý thức người dân việc tham gia giao thông Do đó, học viên chọn đề tài luận văn thạc sỹ “Trích chọn kiện tai nạn giao thông văn tin tức tiếng Việt” 1.2 Mục tiêu đề tài Tìm hiểu phương phương pháp trích chọn thông tin xây dựng mô hình giải toán trích chọn kiện tai nạn giao thông văn tin tức tiếng Việt 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phương pháp tiếp cận giải toán trích chọn thông tin văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet kiện vụ tai nạn giao thông Phạm vi nghiên cứu đề tài toán trích chọn kiện tai nạn giao thông văn tin tức tiếng Việt 1.4 Phương pháp nghiên cứu Nghiên cứu kết công bố lĩnh vực trích chọn thông tin (IE) trích chọn kiện (EE), toán trích chọn kiện tai nạn giao thông Phân tích, tổng hợp, đánh giá kết Phân tích lý thuyết xây dựng chương trình để thử nghiệm toán trích chọn kiện tai nạn giao thông 1.5 Cấu trúc luận văn Cấu trúc luận văn gồm: mở đầu, bốn chương chính, kết luận tài liệu tham khảo Phần mở đầu: Lý chọn đề tài bố cục luận văn Chương 1: Giới thiệu tổng quan toán trích chọn thông tin số lĩnh vực nghiên cứu liên quan Chương 2: Trình bày số phương pháp tiếp cận toán số ưu nhược điểm phương pháp Chương 3: Tập trung vào toán trích chọn kiện vụ tai nạn giao thông: tìm hiểu đặc tính kiện vụ tai nạn; pháp biểu toán, đề xuất mô hình, cách giải chi tiết hai toán quan trọng luận văn toán phát kiện vụ tai nạn toán trích chọn kiện vụ tai nạn Chương 4: Trình bày môi trường, công cụ, gói tác giả xây dựng cài đặt, thử nghiệm mô hình trích chọn kiện tai nạn giao thông số trang web đăng tin tai nạn giao thông tiếng Việt mạng Internet Phần kết luận: Tóm tắt kết đạt hướng phát triển tiếp đề tài 52 Dữ liệu thực nghiệm: Dữ liệu 200 tin lấy ngẫu nhiên từ tin miền tai nạn giao thông chưa qua phân lớp Để tiến hành thực nghiệm, với website, tác giả lấy ngẫu nhiên 200 tin chứa thông tin tai nạn giao thông qua lọc để thực nghiệm công cụ trích chọn thông tin vụ tai nạn Tác giả sử dụng công thức để đánh giá độ đo (3.7)(3.8)(3.9) kết mô tả Bảng 4.4 sau đây: Bảng 4.4 Đánh giá trình trích chọn thông tin vụ tai nạn giao thông STT 24h.com.vn antoangiaothong gov.vn Trung bình Số kiện Số kiện sai 156 39 162 159 Số kiện không tìm P R F1 80.41 96.29 87.63 28 10 85.26 93.02 89.97 33 82.81 95.2 88.57 thấy Kết thử nghiệm cho thấy, trình trích chọn thông tin có trung bình độ đo là: độ xác (P-Precision) đạt 82.81%, độ đo hồi tưởng (RRecall) đạt 95.2%, độ đo F1 đạt 88.57% Một kiện E định nghĩa gồm thời gian, địa điểm, số thương vong phương tiện gây tai nạn Như kiện nên chứa bốn thành phần Nếu kiện không bao gồm phương tiện gây tai nạn thời gian gây tai nạn xem kiện sai Nguyên nhân lỗi, lọc liệu, luật chưa bao hết trường hợp Vấn đề lỗi phân tích mục sau 4.7 Phân tích lỗi: 4.7.1 Phân tích lỗi pha phát kiện – trình lọc liệu Trong pha phát kiện thông tin vụ tai nạn giao thông, kết trình lọc liệu hoạt động không tốt số trường hợp 53 Sau tiến hành kiểm tra thủ công tin lựa chọn mục 4.4.2 Kết phân tích cho thấy trường hợp lọc liệu hoạt động chưa xác luật lọc liệu Ví dụ: Hình 4.6 Lỗi lọc liệu không thuộc miền tai nạn giao thông Ở hình 4.6 tiêu đề tin “Kiến nghị cho chạy tàu lửa chặng ngắn Sài Gòn – Đồng Nai” có chứa phương tiện giao thông “tàu lửa” lọc đưa vào miền liệu tai nan giao thông Thực chất tin thuộc miền liệu khác không thuộc miền liệu tai nan giao thông Ví dụ: Hình 4.7 Lỗi lọc liệu thuộc miền tai nạn giao thông bị loại 54 Ở hình 4.7 tiêu đề tin “Giải cứu tài xế mắc kẹt cabin biến đạng” không chứa phương tiện giao thông nên lọc không đưa tin vào miền liêu tai nạn giao thông Nhưng thực chất xét đến nội dung tin thuộc miền liệu tai nạn giao thông trích chọn thông tin 4.7.2 Phân tích lỗi trình trích chọn kiện Trong pha trích chọn thông tin khả trích chọn thông tin thấp, tác giả tìm hiểu nguyên nhân thấy thường xảy lỗi sau: Ví dụ: Trích chọn địa điểm Trích chọn địa điểm, “Hai xe tải đâm quốc lộ 2” tin nhắc đến tên đường không nhắc đến tên địa phương (tỉnh) trường hợp xác định địa điểm xác cho giá trị Null Trong số trường hợp thông tin viết tắt không trích chọn Ví dụ: Trích chọn thông tin phương tiện gây tai nạn Phương tiện gây tai nạn = + 55 Trích chọn thông tin phương tiện gây tai nạn số trường hợp trích chọn thông tin sai như: “xe đạp bị đâm, nạn nhân bị thương”, thông tin trích “xe đạp” phương tiện gây tai nạn kết sai Ví dụ: Trích chọn số nạn nhân: Số nạn nhân = + Hay trường hợp trích chọn số nạn nhận “Nạn nhân người dân sơ cứu chỗ sau đưa cấp cứu ”, không trích chọn số nạn nhân tiền tố số lượng Chi tiết lỗi trình bày bảng 4.5 Bảng 4.5 Một số lỗi trình trích chọn Thông tin tin STT Quốc lộ 2 Xe đạp bị đâm 4.8 Thông tin trích chọn Nạn nhân người dân sơ cứu chỗ sau đưa cấp cứu Quốc lô 1A Null Xe đạp Null Null Một số ứng dụng kết trích chọn thông tin: Để có báo cáo tổng hợp tương đối đầy đủ số liệu 02 website tai nạn giao thông nêu trên, với website luận văn thực thu thập liệu 2000 tin, sau thu thập liệu ta có 4.000 tin từ 02 website đưa tin tình hình tai nạn giao thông Kết thúc trình thu thập, lọc liệu, trích chọn thông tin kiện vụ tai nạn giao thông ta thu các thuộc thông tin lưu trữ sở liệu phục vụ thống kê, báo cáo 4.8.1 Thống kê số vụ tai nạn giao thông theo địa điểm 56 Sau trình trích chọn thông tin từ website, ta thống kê số địa điểm (địa phương) thường xuyên xảy tai nạn Từ kết thống kê ta có vài nhận xét như: Địa điểm có số vụ tai nạn cao Do số lượng địa điểm nhiều nên tác giả lựa chọn số địa điểm điển hình Bảng 4.6 Thống kê số vụ tai nạn giao thông theo tỉnh Website Hà Nội 24h.com.vn TP Hồ An Bắc Chí Yên Bái Giang Ninh Minh Lai Châu Phú Thọ Bà Rịa – Vũng Tàu 19 27 12 16 11 17 12 antoangiaothong.gov 28 28 14 17 14 17 Tổng cộng 47 55 26 33 18 21 17 29 Biểu đồ 4.1 Thống kê số vụ tai nạn theo địa điểm 57 Vovgiaothong.vn THỐNG KÊ THEO ĐỊA ĐIỂM Antoangiaothong.gov.vn Tổng 60 50 55 47 40 33 30 29 26 18 20 21 17 10 Hà Nội TP Hồ An Giang Yên Bái Chí Minh Bắc Ninh Lai Châu Phú Thọ Bà Rịa Vũng Tàu Nhận xét: Theo biểu đồ 4.8 cho thấy địa phương nước có số vụ tai nạn giao thông xảy nhiều TP Hồ Chí Minh (tổng số vụ tai nạn 55), Hà Nội (tổng số vụ tai nạn 47), Yên Bái (tổng số vụ tai nạn 33) Các thành phố lơn Hà Nội, TP Hồ Chí Minh có nhiều tuyến đường với mật độ dân cư đông đúc, người phương tiện tham gia giao thông đa dạng với mật độ cao, đặc điểm đường giao cắt nhiều, phương tiện lưu thông hỗn hợp dễ xảy va chạm, phức tạp bảo đảm trật tự an toàn giao thông 4.8.2 Thống kế số vụ tai nạn giao thông theo Tháng Sau trích chọn thông tin kiện vụ tai nạn giao thông, ta thống kê số vụ tai nạn giao thông theo tháng Chi tiết số vụ tai nạn Tháng thể biểu đồ 4.2 Biểu đồ 4.2 Biểu đồ thống kê số vụ tai nạn giao thống kê theo Tháng 58 THỐNG KÊ THEO THÁNG 180 160 161 152 140 121 120 100 90 124 115 137 131 146 112 91 98 80 60 40 20 Nhận xét: Theo biểu đồ 4.2 ta thấy số vụ tai nạn giao thông tăng cao vào tháng 1, tháng 2, tháng 4, tháng 5, tháng 11, tháng 12 Điều cho thấy tháng có ngày nghỉ lễ số vụ tai nạn gia tăng cao Đặc biệt vào tháng 1(số vụ tai nạn: 152) tháng (số vụ tai nạn: 161) có số ngày nghỉ tết Nguyên đán kéo dài, thêm vào số người có nồng độ cồn tham gia giao thông tăng kéo theo số vụ tai nạn giao thông gia tăng 4.8.3 Thống kê số vụ tai nạn giao thông theo phương tiện Từ kết trình trích chọn thông tin, ta thống kê phương tiện có tần suất gây tai nạn cao tham gia giao thông, danh mục phương tiện tham gia giao thông tương đối nhiều, tác giả lựa chọn thống kê phương 59 tiện có mức độ tai nạn cao phương tiện khác Chi tiết loại phương tiện hiển thị biểu đồ 4.3 Biểu đồ 4.3 Thống kê theo phương tiện gây tai nạn giao thông THỐNG KÊ PHƯƠNG TIỆN GÂY TAI NẠN 100 90 80 70 60 50 98 40 30 60 45 20 10 15 21 Xe buýt Xe Công te nơ Xe máy Xe tải Xe khách Nhận xét: Từ biểu đồ 4.3 ta thấy xe máy loại phương tiện chủ yếu gây tai nạn (chiếm tỷ lện cao số 05 phương tiện thống kê) Điều cho thấy nhiều xe máy cũ không đảm bảo yêu cầu kỹ thuật an toàn Hiện nay, số lượng mô tô, xe máy chiếm 85% tổng số phương tiện giao thông hoạt động nước nhiều ưu điểm tính động cao, linh hoạt giá thành rẻ phù hợp điều kiện kinh tế đa phần người dân Bên cạnh đó, ý thức phận người tham gia giao thông phương tiện xe máy chưa cao Vì vấn đề tai nạn liên quan đến xe máy vấn đề báo động 4.8.4 Đánh giá chung Từ số liệu thống kê ta rút vài đánh giá chung sau: Đối với người tham gia giao thông trước hết cần tuân thủ quy định an toàn giao thông Đặc biệt tham gia giao thông vào ngày nghỉ, ngày lễ tết phải lưu ý thường 60 ngày mật độ phương tiện tham gia giao thông tăng Khi lưu thông đường phải nhường đường theo hiệu lệnh người điều khiển giao thông, gặp đèn giao thông, biển báo, vạch kẻ đương mà phải bắt buộc tuân theo quy tắc nhường đường chuyển hướng xe Bên cạnh phải ý tới phương tiện có nguy gây tai nạn giao thông cao như: xe máy, xe tải, xe buýt, xe khách, xe công te nơ… Đối với nhà quản lý: Xử lý triệt để lỗi mà người điều khiển phương tiện tham gia giao thông mắc phải Đưa giải pháp nhằm giảm thiểu, ngăn ngừa tai nạn giao thông xảy ngày nghỉ, ngày lễ, tết thành phố có mật độ phương tiện lưu thông cao Bên cạnh đẩy mạnh việc tuyên truyền, phổ biết quy định đảm bảo an toàn giao thông tới người dân, đặc biệt tầng lớp học sinh, sinh viên 4.9 Kết luận Trong chương này, tác giả trình bày kết thử nghiệm mô hình trích chọn thông tin kiện vụ tai nạn giao thông 02 website Bao gồm công việc sau: Sử dụng công cụ thu thập (Crawler web) tin chứa tin tai nạn giao thông từ 02 website Lọc tin chứa thông tin tai nạn giao thông Trích chọn thông tin tin thuộc miền tai nạn giao thông theo tập luật định nghĩa trước Lưu kết trích chọn vào sở liệu Lập số báo cáo, thống kê phục vụ công tác quản lý 61 KẾT LUẬN Những kết luận văn Luận văn đạt mục tiêu đề ban đầu: Tìm hiểu tổng quan phương pháp trích chọn thông tin, tìm hiểu toán trích chọn thông tin văn tiếng Việt, từ đưa phương pháp, mô hình giải toán trích chọn kiện vụ tai nạn giao thông văn tiếng Việt Thử nghiệm mô hình trích chọn kiện tai nạn giao thông 02 website, lập số báo cáo, thống kê phục vụ công tác quản lý, điều hành Một số hạn chế Luận văn số hạn chế sau: Không tự động trích chọn thông tin đưa vào tin thuộc website Xây dựng tập luật thủ công, chưa bao phủ tới toàn miền liệu Điều dẫn tới tập luật bỏ sót liệu có liên quan tới miền liệu tai nạn giao thông chưa xác Kết lọc liệu chưa cao, bỏ qua nhiều tin chứa thông tin tai nạn giao thông Trong số trường hợp thông tin viết tắt không trích chọn Trích chọn địa điểm dựa từ điển số trường hợp bị nhập nhằng liệu cung cấp không đủ thông tin địa điểm 62 Định hướng tương lai Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu nên luận văn chưa sử dụng phương pháp tự động Định hướng nghiên cứu luận văn tiếp tục hoàn thiện phát triển mô hình trích chọn kiện văn tin tức tiếng Việt Phát triển trích chọn thêm thuộc tính quan trọng như: giờ/ngày (giờ ngày xảy vụ tai nạn), tuyến đường thường xuyên xảy tai nạn (đường quốc lộ, tỉnh lộ, nội thị, nông thôn ), phân tích lỗi vụ tai nạn giao thông (chạy tốc độ, vượt xe sai quy định, sai đường, không nhường đường, say rượu bia ), ngành nghề người điều khiển phương tiện gây tai nạn, địa hình gây tai nạn, Kết trình trích chọn thống kê như: tai nạn hay xảy vào giờ/ngày (giờ ngày hay xảy tai nạn vào ban đêm, đến công sở, tan tầm.), tuyến đường thường xuyên xảy tai nạn, lỗi vụ tai nạn, địa hình gây tai nạn (đường dốc, đường vòng cua, hay đường có nhiều ngã rẽ ), ngành nghề người điều khiển phương tiện giao thông Từ thống kê tìm nguyên nhân xảy vụ tai nạn, so sánh quy mô mức độ nghiêm trọng vụ tai nạn khoảng thời gian với nhau, từ đưa đánh giá trung nguyên nhân làm gia tăng vụ tai nạn theo chiều hướng Mặt khác, kết trình thống kê trực quan hoá đồ Việt Nam điểm hay xảy tai nạn cảnh báo, biển báo, ghi Vì vậy, nghiên cứu tập trung vào việc sử dụng phương pháp tự động trích chọn, mở rộng phát triển ứng dụng 63 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh [1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India [2] Douglas E Appelt Introduction to information extraction technology, In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 [3] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong, An overview of event extraction from text, Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779: pp 48-57,2011 [4] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, and Qing Yang Extracting key entities and significant events from online daily news, In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008), LNCS, Springer-Verlag Berlin Heidelberg, vol 5326, pp 201-209, 2008 [5] Silja Huttunen Ralph Grishman and Roman Yangaber, Information extraction for enhenced access to disease outbreak reports, Journal of Biomedical Informastic, 35(4), pp 236-246, 2002 [6] William H Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru, Animal disease event recognition and classification, 2010 [7] Huanye Sheng Li Fang and Dongmo Zhang, Event pattern discovery from the stock market bulletin, In: 5th International Conference on Discovery Science (DS 2002), LNCS, Springer-Verlag Berlin Heidelberg, vol 2534, pp 35-49, 2002 [8] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi, A risk assessment system with 64 automatic extraction of event types, Intelligent Information Processing IV, IFIP International Federation for Information Processing, Springer Boston, vol 288, pp 220-229, 2008 [9] L Peshkin and A Pfeffer Bayesian information extraction network In Proc.of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003 [10] Yoko Nishihara, Keita Sato, and Wataru Sunayama “Event extraction and visualization for obtaining personal experiences from blogs”, in Proceedings of the Symposium on Human Interface 2009 on Human Interface and the Management of Information Information and Interaction Part II: Held as part of HCI International 2009, pp 315–324 [11] Hong-woo Chun, Young-sook Hwang, and Hae-Chang Rim “Unsupervised event extraction from biomedical literature using cooccurrence informationand basic patterns”, in Proceedings of the First international joint conference on Natural Language Processing, 2005, pp 777-786 [12] K Bretonnel Cohen, Karin Verspoor, Helen L Johnson, Chris Roeder, Philip V Ogren, William A Baumgartner, Jr., Elizabeth White, Hannah Tipney, and Lawrence Hunter “High-precision biological event extraction with a concept recognizer”, in Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task, 2009, pp 50-58 [13] David McClosky, Mihai Surdeanu, and Christopher D Manning Event Extraction as Dependency Parsing In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011 [14] S Soderland, “Learning information extraction rules for semi- 65 structured and free text,” Machine Learning, vol 34, 1999 [15] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181 □ 192, 2009 [16] Hristo Tanev, Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287^300, 2007 [17] H Cunningham, D Maynard, K Bontcheva, and V Tablan, “Gate: A framework and graphical development environment for robust nlp tools and applications,” In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002 [18] Y.H Kuo, C.S Lee, S-M Guo, and F.T Tu, “Apply FNN Model to Construct Ontology-based Q&A System,” WSEAS Transactions on Communications, vol 3, Issue 1, pp 328-335, Jan 2004 [19] James Allan, Ron Papka, and Victor Lavrenko “On-line new event detection and tracking”, in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998, pp 37-45 [20] W Shen, A Doan, J F Naughton, and R Ramakrishnan, “Declarative information extraction using datalog with embedded extraction predicates,” in VLDB, pp 1033-1044, 2007 [21] Yusuke Miyao, Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from biomedical papers using a full parser in: 6th Pacific 66 Symposium on Biocomputing (PSB 2001), pp 408 - 419, 2001 Tài liệu Internet [22] http://www.aclweb.org/anthology/A92-1024 [23] http://www-nlpir.nist.gov/related_projects/muc/ [24] http://ciir.cs.umass.edu/tdt [25] https://www.ldc.upenn.edu/collaborations/past-projects/ace [26] http://bioinformatics.oxfordjournals.org/content/26/12/i382.full [27] https://en.wikipedia.org/wiki/PubMed ... trích chọn thông tin văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet kiện vụ tai nạn giao thông Phạm vi nghiên cứu đề tài toán trích chọn kiện tai nạn giao thông văn tin tức tiếng. .. toán trích chọn kiện vụ tai nạn giao thông văn tin tức Tiếng Việt Trong luận văn, tác giả sẻ tập trung vào giải toán trích chọn kiện tin vụ tai nạn giao thông (gọi tắt trích chọn kiện vụ tai nạn) ... mạnh kiện vụ tai nạn để phân biệt với thông tin tai nạn giao thông tin vụ tai nạn giao thông Tác giả tập trung vào giải toán trích chọn thông tin vụ tai nạn giao thông văn tin tức Tiếng Việt,