Trích chọn sự kiện trong văn bản tin tức tiếng việt 04

65 8 0
Trích chọn sự kiện trong văn bản tin tức tiếng việt   04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH HÀ NỘI - 2014 LỜI CẢM ƠN Trƣớc tiên, xin đƣợc gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Trí Thành tận tình bảo; hƣớng dẫn; động viên giúp đỡ suốt trình thực luận văn tốt nghiệp Tơi xin gửi lời cảm ơn tới Thầy giáo, PGS TS Hà Quang Thuỵ ngƣời tận tình giúp đỡ, cổ vũ, góp ý cho tơi suốt thời gian tơi nghiên cứu làm việc phịng thí nghiệm Cơng nghệ Tri thức (Knowledge Technology Laboratory - KTLab) Tôi xin gửi lời cảm ơn tới anh chị, bạn sinh viên phịng thí nghiệm Cơng nghệ Tri thức (KTLab) – Trƣờng Đại học Công nghệ hỗ trợ nhiều trình thực luận văn Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân yêu bên cạnh: quan tâm; động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng năm 2014 Học viên Phan Thị Thuận i LỜI CAM ĐOAN Tơi xin cam đoan giải pháp trích chọn kiện văn tin tức tiếng Việt đƣợc trình bày luận văn tơi thực dƣới hƣớng dẫn TS Nguyễn Trí Thành Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nƣớc quốc tê Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng năm 2014 Tác giả luận văn Phan Thị Thuận ii MỤC LỤC DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vi MỞ ĐẦU vii Chƣơng GIỚI THIỆU ĐỀ TÀI 1.1 BÀI TỐN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 1.2 TỔNG QUAN VỀ SỰ KIỆN .1 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 1.3.1 Bài tốn trích chọn kiện vụ tai nạn 1.3.2 Phát kiện 1.3.3 Trích chọn kiện 1.4 Ý NGHĨA CỦA BÀI TỐN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN .7 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn 1.5 KẾT LUẬN Chƣơng MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN 2.1 PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 2.1.1 Luật cú pháp (lexico-syntactic patterns) .10 2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 11 2.1.3 Hình dạng biểu diễn tập luật (Form and Representation of Rules) 11 iii 2.2 PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY 15 2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY 17 2.5 TỔNG KẾT 18 Chƣơng ĐỀ XUẤT MƠ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN .19 3.1 CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN 19 3.2 PHÁT BIỂU BÀI TOÁN 19 3.3 MƠ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 21 3.3.1 Phƣơng pháp đề xuất 21 3.3.2 Mơ hình phát trích chọn kiện vụ tai nạn 22 3.4 GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TỐN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN .23 3.4.1 Bài toán 1- Pháp kiện vụ tai nạn (pha 1) 23 3.4.1.1 Phát biểu toán 23 3.4.1.2 Xây dựng tập luật 24 3.4.1.3 Xây dựng mơ hình phân lớp 28 3.4.2 Bài tốn 2- Trích chọn kiện vụ tai nạn (pha 2) .29 3.4.2.1 Phát biểu toán 29 3.4.2.2 Trích chọn thời gian 30 3.4.2.3 Trích chọn địa điểm 32 3.4.2.4 Trích chọn số thương vong 32 3.4.2.5 Trích chọn phương tiện gây tai nạn 33 3.5 TỔNG KẾT 34 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 iv 4.1 MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM .36 4.2 XÂY DỰNG TẬP DỮ LIỆU 37 4.2.1 Thu thập liệu 37 4.2.2 Tiền xử lý liệu 37 4.3 ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 37 4.3.1 Đánh giá lọc liệu .37 4.3.2 Đánh giá trình phân lớp 38 4.4 ĐÁNH GIÁ Q TRÌNH TRÍCH CHỌN SỰ KIỆN 39 4.4.1 Thực nghiệm không qua phân lớp 39 4.4.2 Thực nghiệm qua phân lớp .41 4.4.3 Nhận xét 41 4.5 PHÂN TÍCH LỖI 41 4.5.1 Phân tích lỗi q trình phát kiện .41 4.5.2 Phân tích lỗi q trình trích chọn kiện 42 4.6 MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN 43 Biểu đồ 4.3 Thống kê số vụ tai nạn theo tỉnh 44 4.7 TỔNG KẾT 45 TÀI LIỆU THAM KHẢO 48 v DANH MỤC CÁC HÌNH Hình 3.1: Q trình phát trích chọn kiện vụ tai nạn 22 Hình 3.2 Thành phần phát kiện 24 Hình 3.3 Tiêu đề tin có chứa từ liên quan phương tiện giao thơng 25 Hình 3.4 Tiêu đề không chứa từ liên quan đến phương tiện giao thơng 26 Hình 3.5 Thành phần trích chọn kiện 30 Hình 4.1 Lỗi lọc liệu không thuộc miền tai nạn giao thông 42 DANH MỤC CÁC BẢNG Bảng 3.1Phương tiện giao thông 26 Bảng 4.1 Cấu hình phần cứng 36 Bảng 4.2 Công cụ phần mềm sử dụng 36 Bảng 4.3 Các thành phần tin .37 Bảng 4.4 Tỷ lệ lỗi trình lọc liệu 38 Bảng 4.5 Đánh giá kết phân lớp 39 Bảng 4.6 Đánh giá q trình trích chọn - liệu không qua phân lớp 41 Bảng 4.7 Đánh giá q trình trích chọn - liệu qua phân lớp 41 Bảng 4.8 Một số lỗi - q trình trích chọn 43 vi MỞ ĐẦU Trích chọn thơng tin (Information Extraction - IE), đặc biệt trích chọn kiện (Event Extraction - EE) lĩnh vực khai phá liệu (Data Mining - DM) Những năm gần đây, trích chọn kiện thu hút nhiều quan tâm từ nhà khoa học giới thu đƣợc nhiều kết thực tế Trích chọn kiện áp dụng vào nhiều miền liệu khác nhƣ kinh tế, văn hóa, y tế, xã hội (chẳng hạn nhƣ thông tin vụ tai nạn giao thơng), trị, Theo số thống kê trang báo điện tử số tai nạn hàng năm, nhƣ: thông tin đăng báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết cơng tác trật tự an tồn giao thơng năm 2012 triển khai nhiệm vụ năm 2013” Phó Thủ tƣớng Chính phủ Nguyễn Xn Phúc chủ trì Trong hội nghị, Ủy ban An tồn giao thơng ATGT Quốc gia thống kê: năm 2012, nước xảy 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người Cũng theo báo điện tử http://hanoimoi.com.vn, ngày 31-12-2013, Phó Thủ tƣớng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc chủ trì hội nghị trực tuyến với bộ, ngành, địa phƣơng nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 triển khai nhiệm vụ năm 2014 Theo thống kê Ủy ban ATGT Quốc gia, năm 2013 nước xảy 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người Từ số thống kê tai nạn giao thông hàng năm, thấy số vụ tai nạn cao, với số tử vong số thƣơng vong lớn Mặt khác, tin vụ tai nạn đƣợc cập nhật đầy đủ mang tính thời báo điện tử Hơn nữa, trích chọn kiện phát triển, sử dụng trích chọn kiện để trích chọn thơng tin hữu ích từ tin vụ tai nạn, kết trình đƣợc thống kê thành số hữu ích giúp nhà quản lý ngƣời dân tham gia giao thơng cách Đó lý do, tác giả chọn nghiên cứu đề tài“Trích chọn kiện văn tin tức vii tiếng Việt” miền liệu khai thác kiện vụ tai nạn Chi tiết luận văn đƣợc chia thành chƣơng: Chƣơng Giới thiệu đề tài Chƣơng trình bày tốn trích chọn kiện bối cảnh bùng nổ thông tin Internet Hơn nêu lên đƣợc ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng đề tài trích chọn kiện vụ tai nạn giao thông miền văn tiếng Việt Chƣơng 2.Một số phƣơng pháp tiếp cận Chƣơng tập trung trình bày phƣơng pháp tiếp cận cho tốn trích chọn kiện là, phƣơng pháp tiếp cận dựa tâp luật, phƣơng pháp tiếp cận dựa học máy, phƣơng pháp tiếp cận kết hợp luật học máy, phƣơng pháp có nhận xét hữu ích Từ đó, luận văn phƣơng pháp phù hợp cho tốn trích chọn kiện vụ tai nạn Chƣơng Đề xuất mơ hình trích chọn kiện vụ tai nạn Chƣơng này, phát biểu mơ tả mơ hình tổng thể cho tốn trích chọn kiện vụ tai nạn Sau đó, phát biểu, mơ tả mơ hình chi tiết cách giải cho hai toán: phát kiện trích chọn kiện Chƣơng Thực nghiệm đánh giá Chƣơng này, luận văn mơ tả q trình thực nghiệm đánh giả kết đề xuất dựa hai tốn, là: tốn phát kiện tốn trích chọn kiện Ba độ đo đƣợc sử dụng pha phát kiện độ xác (P - Precision), độ hồi tƣởng (R - Recall), độ đo F1 (F1-score) so sánh với kết đánh giá thủ công (bằng tay) cho pha trích chọn kiện Thống kê đánh giá (biểu đồ) thuộc tính đƣợc trích chọn Phần kết luận: trình bày kết đạt đƣợc luận văn, hạn chế hƣớng phát triển luận văn tƣơng lai viii Dữ liệu thực nghiệm: liệu lần đánh giá 100 tin đƣợc lấy ngẫu nhiên từ tin đƣợc lọc liệu Kết trình đánh giá đƣợc trình bày bảng 4.5 Bảng 4.5 Đánh giá kết phân lớp Số tin Stt xác Trung binh Kết thực nghiệm bảng 4.5, cho thấy q trình phân lớp cho thấy độ xác (P-Precision) đạt 85%, độ đo hồi tƣởng (R-Recall) đạt 97%, độ đo F-1 đạt 91% 4.4 ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN 4.4.1 Thực nghiệm khơng qua phân lớp Mơ tả thực nghiệm: mục đích phần đánh giá khả trích chọn Phát biểu thực nghiệm Đầu vào: tin miền tai nạn giao thông Đầu ra: thông tin kiện vụ tai nạn gồm: thời gian xảy vụ tai nạn, địa điểm xảy vụ tai nạn, số thƣơng vong (số tử vong, số bị thƣơng), phƣơng tiện gây tai nạn 39 Dữ liệu thực nghiệm: liệu 200 tin lấy ngâu nghiên từ tin niềm tai nạn tai nạn giao thông chƣa qua phân lớp Một kiện E đƣợc định nghĩa gồm thời gian, địa điểm, số thƣơng vong, phƣơng tiện gây tai nạn đƣợc trình bày cơng thức 3.1 Nhƣ kiện nên chứa bốn thành phần Nếu kiện không bao gồm phƣơng tiện gây tai nạn thời gian gây tai nạn đƣợc xem kiện sai Để đánh giá khả trích chọn kiện, tác giả sử dụng ba độ đo: độ xác (P - Precision), độ hồi tƣởng (R - Recall), độ đo F1 (F-score) Các độ đo đƣợc biểu diễn công thức (4.2), (4.3), (4.4) Số kiện Độ xác (P) = Số kiện + Số kiện sai Trong đó: - Số kiện đúng: số kiện đƣợc mơ hình trích chọn xác - Số kiện sai: số kiện mà mơ hình trích chọn sai Số kiện Độ hồi tưởng (R) = Số kiện đúng+số kiện khơng trích chọn Trong đó: - Số kiện đúng: số kiện đƣợc mơ hình trích chọn xác - Số kiện khơng trích chọn: số kiện mà mơ hình khơng trích chọn 2xPxR F1 = (P+R 40 Dựa vào công thức (4.2), (4.3), (4.4), tác giả đƣa bảng đánh giá mơ hình trích chọn, chi tiết đƣợc trình bày bảng4.6 Bảng 4.6 Đánh giá q trình trích chọn - liệu khơng qua phân lớp Tên website antoangiaothong.gov vovgiaothong.vn Trung bình 4.4.2 Thực nghiệm qua phân lớp Dữ liệu thực nghiệm: liệu 100 tin đƣợc lấy từ tin chứa kiện vụ tai nạn (gán nhãn EVENT) Kết q trình trích chọn kiện, tác giả sử dùng công thức (4.2), (4.3), (4.4) để đánh giá thực nghiệm Kết đƣợc mô tả chi tiết bảng 4.7 Bảng 4.7 Đánh giá trình trích chọn - liệu qua phân lớp Tên website antoangiaothong.gov vovgiaothong.vn Trung bình 4.4.3 Nhận xét Từ thực nghiệm đƣợc chi tiết bảng 4.6 (dữ liệu không qua phân lớp) bảng 4.7 (dữ liệu đƣợc xử lý qua phân lớp) Kết cho thấy liệu đƣợc xử lý qua phân lớp cho kết cao Điều chứng tỏ tầm quan trọng phân lớp mơ hình 4.5 PHÂN TÍCH LỖI 4.5.1 Phân tích lỗi q trình phát kiện Quá khảo sát thống kê liệu sau thực nghiệm, phát lỗi tiêu đề có từ nhắc đến phương tiện giao thơng nhƣng tin lại khơng thuộc miền 41 tai nạn giao thơng: Ví dụ, hình 4.1 tiêu đề tin “khổ mua xe trả góp”, có chứa phƣơng tiện giao thông “xe” nhƣng thực chất tin thuộc miền liệu thƣơng mai miền tai nạn giao thông Tuy thế, lọc phát liệu thuộc miền liệu tai nạn giao thơng Hình 4.1 Lỗi lọc liệu khơng thuộc miền tai nạn giao thơng 4.5.2 Phân tích lỗi q trình trích chọn kiện Trong pha trích chọn thơng tin khả trích chọn thơng tin cịn thấp, tác giả tìm hiểu nguyên nhân thấy thƣờng xảy lỗi nhƣ: trích chọn địa điểm, tin nhắc đến tên đƣờng không nhắc đến tên địa phƣơng (xã/huyện/ tỉnh) trƣờng hợp xác định đƣợc địa điểm xác cho giá trị Null Trong số trƣờng hợp thông tin đƣợc viết tắt khơng trích chọn đƣợc.Trích chọn thơng tin phƣơng tiện gây tai nạn số trƣờng hợp trích chọn thông tin sai nhƣ: “xe máy bị đâm, nạn nhân chết chỗ”, thơng tin đƣợc trích “xe máy” phƣơng tiện gây tai nạn kết sai Hay trƣờng hợp trích chọn số nạn nhận nhƣ “Nạn nhân người dân đưa cấp cứu”, khơng trích chọn đƣợc số nạn nhân khơng có tiền tố số lƣợng Chi tiết lỗi đƣợc trình bày bảng 4.8 42 Bảng 4.8 Một số lỗi - q trình trích chọn Stt Thơng tin Phƣờng 4, Quận 1, Phƣơng 9, TP Hồ Chí Minh Tỉnh Pray Veng Huyện Xuân trƣờng, Nam Định Quốc lộ 1A xe máy bị đâm Nạn nhân đƣợc ngƣời dân 4.6 MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN Kết q trình trích chọn đƣợc sử dụng để thống kê nhƣ thống kê số vụ tai nạn theo Tuần, theo Thứ Tuần, theo Tỉnh, thống kê số vụ tai nạn theo Phương tiện tham gia giao thông 1./ Thống kê số vụ tai nạn theo tuần hai tháng (tháng tháng năm 2014) Dữ liệu đƣợc tập trung vào tháng tháng năm 2014, thống kê cho thấy ngày nghỉ lễ 30/4 1/5 số vụ tai nạn tăng lên đáng kình ngạc, nƣớc xảy 191 vụ tai nạn làm thiệt nạng 109 ngƣời Chi tiết đƣợc mô tả biểu đồ 4.1 Biểu đổ 4.1 Thống kê số vụ tai nạn theo Tuần tháng tháng 43 2./ Thống kê số vụ tai nạn theo Thứ Tuần, kết cho thấy vào cuối tuần số vụ tai nạn tăng lên đáng kể Chi tiết số vụ tai nạn Thứ Tuần đƣợc thể biểu đồ 4.2 Biểu đồ 4.2 Thống kê số vụ tai nạn theo Thứ Tuần 3./ Thống kê số vụ tai nạn theo tỉnh (thống kê tỉnh điển hình) nƣớc Kết cho thấy Thành phố Hồ Chí Minh có mức độ tai nạn cao Chi tiết xem biểu đồ 4.3 Biểu đồ 4.3 Thống kê số vụ tai nạn theo Tỉnh 44 4./ Thống kê phƣơng tiện có tần suất gây tai nạn cao tham gia giao thơng (thống kê phƣơng tiện có mức độ tai nạn cao hơn) Chi tiết loại phƣơng tiện đƣợc hiển thị biểu đồ 4.4 Biểu đồ 4.4 Thống kê số vụ tai nạn theo loại phƣơng tiện giao thông Qua thống kê vụ tai nạn giao thông tác giả rút nhận xét sau: Đối với ngƣời dân tham gia giao thông vào ngày nghỉ lễ, ngày cuối tuần, thành phố lớn, tham gia giao thông phƣơng tiện nhƣ xe máy, xe buýt, xe khách, xe công – te- nơ đặc biệt xe tải phải cẩn thận đặc biệt ngƣời điều khiển phƣơng tiện giao thông, để tránh tai nạn đáng tiếc cho thân cho ngƣời đƣờng Đối với nhà quản lý nên có biệm pháp hiệu để ngăn ngừa tai nạn giao thông đặc biệt vào ngày nghỉ lễ dài 4.7 TỔNG KẾT Trong chƣơng này, tác giả tiến hành thực nghiệm, xem xét đánh giá kết mô hình trích chọn thơng tin văn du lịch đƣợc xây dựng chƣơng ba Kết thực nghiệm cho thấy tính khả thi mơ hình giải tốn trích chọn kiện vụ tai nạn 45 KẾT LUẬN 1/ Kết đạt đƣợc luận văn Trong luận văn này, tác giả tìm hiểu phƣơng pháp trích chọn kiện, phƣơng pháp kết hợp luật học máy đƣợc sử dụng cho toán phát kiện tốn trích chọn kiện Trên sở đó, xây dựng mơ hình phƣơng pháp giải chi tiết cho toán phát kiện vụ tan nạn tốn trích chọn kiện vụ tai nạn Kết thực nghiệm q trình trích chọn kiện miền liệu vụ tai nạn với độ đo P đạt 95%, độ đo R đạt 97 %, độ đo F1 đạt 96%, điều chứng tỏ tính khả thi mơ hình 2./ Hạn chế - Kết phân lớp chƣa cao nhập nhằng tin có chứa kiện vụ tai nạn tin chứa thông tin tai nạn giao thông khác - Xây dựng tập luật tay, khó bao phủ toàn liệu Điều dẫn đến tập luật bỏ sót liệu liên quan tới miền liệu - Trích chọn địa điểm dựa từ điển số trƣờng hợp bị nhập nhằng liệu cung cấp không đủ thông tin địa điểm - Trong số trƣờng hợp viết tắt, trích chọn thơng tin cịn chƣa xác 3/ Định hƣớng tƣơng lai Định hƣớng nghiên cứu luận văn tiếp tục hoàn thiện phát triển mơ hình trích chọn kiện văn tin tức tiếng Việt Phát triển trích chọn thêm thuộc tính quan trọng nhƣ: giờ/ngày (giờ ngày xảy vụ tai nạn), độ tuổi ngƣời điều kiển phƣơng tiện gây tai nạn, ngành nghề ngƣời điều khiển phƣơng tiện gây tai nạn, địa hình gây tai nạn, … Kết trình trích chọn đƣợc thống kê nhƣ: tai nạn hay xảy vào giờ/ngày (giờ ngày hay xảy tai nạn vào ban đêm, đến công sở, tan tầm…), thứ/tuần (tai nạn thƣờng xảy vào thứ tuần, nhƣ ngày làm hay ngày cuối tuần,… ), mùa/năm (vào mùa lễ hội, mùa thi Đại học, mùa mƣa, hay vào kỳ nghỉ mát mùa hè,…), địa hình gây tai nạn (đƣờng dốc, đƣờng vịng cua, hay đƣờng có nhiều ngã rẽ ), ngành nghề ngƣời điều khiển phƣơng tiện giao thơng… Từ thống kê tìm nguyên nhân xảy vụ tai nạn, so sánh quy mô mức độ nghiêm trọng vụ tai nạn khoảng thời gian với nhau, từ đƣa đánh giá trung phát triển vụ tai nạn theo chiều hƣớng Mặt khác, kết trình thống kê đƣợc trực quan hoá đồ Việt Nam điểm hay xảy tai nạn cảnh báo, biển báo, ghi 47 TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, [2] Douglas E Appelt Introduction to information extraction technology In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 [3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science SpringerVerlag Berlin Heidelberg, vol 3248:777 786, 2004 [4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong An overview of event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48 57, 2011.10 [5] M.A Hearst Automatic acquisition of hyponyms from large text corpora In: 14th Conference on Computational Linguistics (COLING 1992), vol 2:539 545, 1992 [6] M.A Hearst Wordnet: An electronic lexical database and some of its applications In Automated Discovery of WordNet Relations, pp 131 151 MIT Press, 1998 [7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115 140, 2010 [8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431 447, 2003 [9] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181 192, 2009 [10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201 209, 2008 [11] L Peshkin and A Pfeffer Bayesian information extraction network In Proc.of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003 [12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287 300, 2007 [13] Silja Huttunen Ralph Grishman and Roman Yangaber Information extraction for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236 246, 2002 [14] Ai Kawazoe Son Doan and Nigel Collier Global health monitor - a web- based system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp 951 956, 2008 49 [15] William H Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru Animal disease event recognition and classification 2010 [16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from biomedical papers using a full parser In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp 408 419, 2001 [17] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50 58 Association for Computational Linguistics, 2009 [18] S Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol 34, 1999 [19] H Cunningham, D Maynard, K Bontcheva, and V Tablan, “Gate: A framework and graphical development environment for robust nlp tools and applications,” in Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002 [20] W Shen, A Doan, J F Naughton, and R Ramakrishnan, “Declarative information extraction using datalog with embedded extraction predicates,” in VLDB, pp 1033–1044, 2007 [21] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466 471, 1996 [22] Doddington George R The automatic content extraction (ace) program tasks, data, and evaluation In LREC, 2004 [23] Keita Sato Nishihara, Yoko and Wataru Sunayama Event extraction and visualization for obtaining personal experiences from blogs In: Symposiumon Human Interface 2009 on Human Interface and the Management of Information Information and Interaction Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 5618:315 324, 2009 [24] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76 83 Association for Computational Linguistics, 2000 [25] Huanye Sheng Li Fang and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35 49, 2002 [26] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615 618 , 2004 [27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 229, 2008 51 ... TỐN TRÍCH CHỌN THƠNG TIN TRONG VĂN BẢN 1.2 TỔNG QUAN VỀ SỰ KIỆN .1 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT... vào trích chọn kiện đa dạng nên ảnh hƣởng tới tính hiệu trình trích chọn 1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 1.3.1 Bài tốn trích chọn kiện vụ tai nạn Trích chọn thơng tin. .. ứng thuộc tính 1.2.2 Trích chọn kiện Trích chọn kiện trích chọn thơng tin có điểm chung? Có thể nói trích chọn kiện lĩnh vực trích chọn thơng tin Nếu nhƣ trích chọn thơng tin quan tâm liệu rời

Ngày đăng: 11/11/2020, 22:25

Tài liệu cùng người dùng

Tài liệu liên quan