Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
1,47 MB
Nội dung
1 LỜI CAM ĐOAN Tác giả Phạm Xuân Hà xin cam kết nội dung Luận văn chưa nộp cho chương trình cấp cao học chương trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngoài phần trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, ngày 10 tháng năm 2016 Tác Giả Phạm Xuân Hà LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo, Tổ chuyên môn Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian em theo học trường Các kiến thức, kinh nghiệm quý báu Quý thầy cô giáo không giúp cá nhân em hoàn thiện hệ thống kiến thức học tập mà giúp em ứng dụng kiến thức công tác tại đơn vị Đặc biệt, em xin chân thành cảm ơn GS TS Vũ Đức Thi nhiệt tình tâm huyết việc định hướng giúp đỡ em hoàn thành luận văn Em xin bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè tạo điều kiện để cá nhân em dành thời gian cho khóa học Xin chân thành cảm ơn người bạn lớp cao học CK13, năm qua luôn động viên, khích lệ hỗ trợ em trình học tập Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy cô để luận văn em hoàn thiện Thái Nguyên, ngày 10 tháng năm 2016 Tác Giả Phạm Xuân Hà MỤC LỤC Danh mục bảng Danh sách hình vẽ MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài .8 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN 10 1.1 Tổng quan trích chọn thông tin .10 1.1.1 Bài toán trích chọn thông tin 10 1.1.2 Cơ hội thách thức cho toán trích chọn thông tin 11 1.2 Tổng quan trích chọn kiện 15 1.2.1 Định nghĩa kiện 17 1.2.2 Trích chọn kiện 19 1.3 Khó khăn thách thức trích chọn kiện 20 1.4 Một số phương pháp tiếp cận cho toán trích chọn kiện .21 1.4.1 Phương pháp tiếp cận dựa tập luật 21 1.4.2 Phương pháp tiếp cận dựa học máy 24 1.4.3 Phương pháp kết hợp luật học máy 25 1.4.4 Một số nhận xét 26 1.5 Kết luận chương 28 Chương BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN TIẾNG VIỆT .29 2.1 Tổng quan toán trích chọn kiện dịch bệnh văn tiếng Việt 29 2.1.1 Tầm quan trọng ý nghĩa trích chọn kiện dịch bệnh 29 2.1.2 Các đặc tính kiện dịch bệnh 32 2.1.3 Phát biểu toán 33 2.2 Mô hình trích chọn kiện dịch bệnh .34 2.2.1 Phương pháp sử dụng 34 2.2.2 Mô hình phát trích chọn kiện dịch bệnh .35 2.3 Phương pháp giải toán phát kiện dịch bệnh 37 2.3.1 Phát biểu toán 37 2.3.2 Xây dựng tập luật 38 2.3.3 Xây dựng mô hình phân lớp 40 2.4 Phương pháp giải toán trích chọn kiện dịch bệnh 41 2.4.1 Phát biểu toán 41 2.4.2 Trích chọn thời gian .42 2.4.3 Trích chọn tên bệnh 43 2.4.4 Trích chọn địa điểm .45 2.5 Tổng kết chương 47 Chương THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRÊN MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ .48 3.1 Bài toán 48 3.2 Môi trường công cụ thử nghiệm 49 3.3 Thử nghiệm quy trình trích chọn dịch .52 3.3.1 Thu thập liệu (Web Crawler) 52 3.3.2 Phát kiện dịch bệnh 53 3.3.3 Trích chọn kiện dịch bệnh 53 3.4 Thống kê báo cáo 57 3.5 Tổng kết chương…………………………………………………………… 60 KẾT LUẬN 61 Tài liệu tham khảo 62 DANH MỤC CÁC BẢNG Bảng 1.1 Thống kê liệu Twitter…………………………………….12 Bảng 2.1 Danh sách từ/cụm từ thường xuyên………………………….39 Bảng 3.1 Cấu hình thử nghiệm…………………………………………… 48 Bảng 3.2 Công cụ phần mềm có sẵn……………………………………….49 Bảng 3.3 Kết lọc viết có chứa thông tin dịch bệnh .53 Bảng 3.4 Kết trích chọn 55 Bảng 3.5 Thống kê theo địa điểm………………………………………….57 Bảng 3.6 Thống kê theo thời gian………………………………………….58 Bảng 3.7 Thống kê theo tên dịch bệnh 59 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sự tăng trưởng liệu từ năm 2004 đến năm 2020…………… 12 Hình 1.2 Dữ liêu Internet 60 giây………………………………13 Hình 1.2 Các bước trình khám phá tri thức sở liệu 14 Hình 2.1 Quá trình phát trích chọn kiện……………………… 36 Hình 2.2 Thành phần phát kiện……………………………………37 Hình 2.3 Thành phần trích chọn kiện………………………………… 41 Hình 2.4 Biểu diễn phân cấp địa điểm…………………………….46 Hình 3.1 Giao diện phần mềm crawler thu thập liệu………………… 52 Hình 3.2 Kết thử nghiệm trích chọn kiện dịch bệnh……………….56 Hình 3.3 Biểu đồ thống kê theo địa điểm………………………………….57 Hình 3.4 Biểu đồ thống kê theo thời gian………………………………….58 Hình 3.5 Biều đồ thống kê theo tên dịch bệnh…………………………….59 MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Sự phát triển nhanh chóng ứng dụng công nghệ thông tin Internet vào nhiều lĩnh vực khác đời sống xã hội năm gần tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin sở liệu khổng lồ nhằm mục đích dự báo, hỗ trợ định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu sử dụng công cụ máy tính điện tử để phát triển phương pháp, kỹ thuật hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin Lĩnh vực gọi khai phá liệu khám phá tri thức (Data Mining and Knowledge Discovery) mà hạt nhân kỹ thuật phân tích liệu (Data Analysis), phương pháp trích chọn thông tin, trích chọn kiện mảng nghiên cứu quan trọng có ứng dụng rộng rãi thực tiễn Trích chọn kiện (Event Extraction - EE) toán trích chọn thông tin (Information Extraction - IE) lĩnh vực nghiên cứu quan trọng khai phá liệu học máy, có nhiều ứng dụng quan trọng thực tiễn Kết trình trích chọn đầu vào cho kỹ thuật khai phá liệu học máy nhằm trích lọc tri thức, quy luật có ích liệu, phục vụ công tác điều hành, dự báo, định Những năm gần đây, trích chọn kiện thu hút nhiều quan tâm từ nhà khoa học lĩnh vực khai phá liệu nói chung trích chọn thông tin nói riêng Trích chọn kiện đề xuất lần hội thảo Message Understanding Conference năm 1987 [19] Trong hội nghị này, kiện định nghĩa sau: kiện bắt buộc phải có tác nhân, thời gian xảy kiện, địa điểm tác động tới môi trường xung quanh Bên cạnh đó, chương trình Automatic Content Extraction (ACE) đưa định nghĩa: Sự kiện hành động tạo người tham gia chia thành tám loại: Cuộc sống, di chuyển, chuyển, kinh doanh, xung đột, liên hệ, người luật pháp Còn theo định nghĩa Allen cộng [1], kiện bao gồm bốn thuộc tính: phương thức, phân cực, mức độ, thời điểm Để tìm hiểu sâu mô hình phương pháp giải toán trích chọn kiện dịch bệnh, em chọn đề tài “Nghiên cứu phương pháp trích chọn kiện ứng dụng vào toán trích chọn kiện dịch bệnh” để làm luận văn thạc sĩ 1.2 Mục tiêu đề tài Tìm hiểu tổng quan toán trích chọn kiện phương pháp giải toán trích chọn kiện, sở xây dựng mô hình giải toán trích chọn kiện dịch bệnh từ liệu văn tiếng Việt Cài đặt thử nghiệm mô hình trích chọn kiện dịch bệnh từ số trang thông tin điện tử tiếng Việt mạng Internet 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phương pháp, công cụ giải toán trích chọn kiện văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet dịch bệnh Phạm vi nghiên cứu đề tài toán trích chọn kiện dịch bệnh số trang thôn tin điện tử tiếng Việt (website) mạng Internet 1.4 Phương pháp nghiên cứu Phương pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết, đề tài tổng hợp kết nghiên cứu phương pháp trích chọn kiện từ văn tiếng Việt phục vụ phân tích, thống kê, báo cáo, định Về nghiên cứu thực nghiệm, đề tài xây dựng cài đặt, thử nghiệm mô hình trích chọn kiện dịch bệnh từ số trang thông tin điện tử (website) tiếng Việt mạng Internet 1.5 Cấu trúc luận văn Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận tài liệu tham khảo Phần mở đầu: Lý chọn đề tài bố cục luận văn Chương 1: Giới thiệu tổng quan toán trích chọn kiện số phương pháp tiếp cận giải toán trích chọn kiện Chương 2: Trình bày toán trích chọn kiện dịch bệnh từ liệu văn tiếng Việt, bao gồm phát biểu toán, phương pháp đề xuất, mô hình phát trích chọn kiện, ý nghĩa khoa học thực tiễn toán trích chọn kiện dịch bệnh Chương 3: Trình bày kết thực nghiệm mô hình trích chọn kiện dịch bệnh số trang thông tin điện tử (website) tiếng Việt mạng Internet Phần kết luận: Tóm tắt kết đạt hướng phát triển tiếp đề tài 10 Chương TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN Chương giới thiệu tổng quan trích chọn kiện phương pháp tiếp cận giải toán trích chọn kiện 1.1 Tổng quan trích chọn thông tin 1.1.1 Bài toán trích chọn thông tin Trích chọn thông tin lĩnh vực quan trọng khai phá liệu văn bản, định nghĩa sau: Trích chọn thông tin (IE - Information Extraction) trình lấy thông tin từ nguồn định dạng không đồng chí định dạng cụ thể dạng văn diễn đạt ngôn ngữ tự nhiên, sau chuyển thành dạng đồng Dữ liệu sau trích chọn sử dụng, trình bày trực tiếp cho người dùng, lưu vào sở liệu để xử lý sau hay sử dụng cho hệ thống tìm kiếm thông tin liệu qua bước tiền xử lý Trích chọn thông tin (IE) coi nằm thu hồi thông tin (Information Retrieval - IR) hiểu văn (Text Understanding) [3] Không giống với thu hồi thông tin tập trung vào mẩu thông tin có liên quan văn bản, trích xuất thông tin quan tâm tới kiện có liên quan văn biểu diễn chúng dạng khuôn mẫu (template) Bên cạnh đó, khác với hiểu văn tập trung phần nhỏ văn (câu, đoạn văn), trích xuất thông tin quan tâm tới toàn nội dung văn Theo Peshkin Pfeffer, trích chọn thông tin định nghĩa công việc điền thông tin vào mẫu từ liệu trước miền định nghĩa trước Mục tiêu trích chọn thông tin lấy từ văn thông tin bật kiện, thực thể, mối quan hệ Như vậy, coi trích chọn thông tin kỹ nghệ lấy biểu diễn tri 52 Cấu trúc STT Tên trường Kiểu liệu Mô tả ID C(05) Mã dịch bệnh DichBenh TEXT Tên dịch bệnh MoTa TEXT Mô tả chi tiết dịch bệnh ThoiGian DATE Thời gian xảy dịch bệnh DiaDiem TEXT Vùng dịch bệnh 3.3 Thử nghiệm quy trình trích chọn dịch bệnh 3.3.1 Thu thập liệu (Web Crawler) Dữ liệu luận văn thu thập từ website: + http://nihe.org.vn/ Viện vệ sinh dịch tễ trung ương + http://yteduphong.com.vn/ Trung tâm y tế dự phòng trung ương + http://www.ytdphanoi.gov.vn/ Trung tâm y tế dự phòng Hà Nội + http://bvdktinhthaibinh.vn Bệnh viện đa khoa Thái Bình + http://www.bvdktuthainguyen.gov.vn/Bệnh viện đa khoa Thái Nguyên + http://www.bvdktinhbacgiang.vn/ Bệnh viện đa khoa Bắc Giang + http://dakhoavinhphuc.com/ Bệnh viện đa khoa Vĩnh phúc Luận văn lựa chọn website để đảm bảo tính toàn diện liệu, có wedsite, thông tin chi tiết dịch bệnh chứa đầy đủ thông tin như: tên dịch, tình hình dịch bệnh, vùng dịch bệnh, mô tả dịch bệnh, thời gian, địa điểm dịch bệnh Còn có wedsite chứa thông tin đặc trưng như: tên dịch bệnh, kiểm soát dịch bệnh, phân vùng dịch, thời gian Việc thu thập liệu (web crawler) thực hệ thống Crawler System Phần mềm lấy 500 viết từ website 53 Ví dụ, sau thu thập liệu ta có 3500 viết từ website y tế, dịch bệnh Hình 3.1 Giao diện phần mềm crawler thu thập liệu từ trang http://yteduphong.com.vn/ 3.3.2 Lọc liệu Tác giả sử dụng luật cú pháp (từ khoá) để loại bỏ bớt liệu dư thừa Trong ba thông tin kiện gồm: thời gian, tên bệnh, địa điểm bùng phát có thông tin thời gian đặc biệt Đôi thông tin đề cập không rõ ràng thiếu chi tiết thời gian Do đó, tác giả sử dụng luật ngữ nghĩa để trích chọn thông tin Dữ liệu sau thu thập dạng HTML đưa qua lọc liệu để lấy viết liên quan tới kiện dịch bệnh Bộ lọc liệu chức trình trích chọn kiện dịch bệnh, làm nhiệm vụ lọc viết lấy từ thu thập liệu Như trình bày chương 2, chức thực dựa luật sau: 54 1) Những viết mà thẻ title khóa “dịch bệnh” 2) Những viết mà thẻ div chứa tiền tố “Thời gian”, “Vùng dịch ”, “Tình hình dịch”; "Ổ dịch" Kết thực cho thấy, đầu vào lọc liệu viết thu thập từ 07 website (mỗi website lấy 500 viết), đầu 1832 viết có chứa thông tin dịch bệnh Kết chi tiết Bảng sau: STT Tên website Số viết thu Số viết chứa thông thập crawler tin dịch bệnh http://nihe.org.vn/ 500 197 http://yteduphong.com.vn 500 351 500 293 500 217 500 226 500 292 500 256 3500 1832 http://www.ytdphanoi.gov.v n/ http://bvdktinhthaibinh.vn http://www.bvdktuthainguy en.gov.vn/ http://www.bvdktinhbacgian g.vn/ http://dakhoavinhphuc.com/ Tổng số Bảng 3.3 Kết lọc viết có chứa thông tin dịch bệnh 3.3.3 Trích chọn kiện dịch bệnh thuộc tính Đầu vào: Các báo chứa kiện dịch bệnh 55 Đầu ra: Thông tin kiện dịch bệnh bao gồm: tên bệnh, thời gian địa điểm bùng phát dịch bệnh Do kiện E định nghĩa gồm tên bệnh, thời gian, địa điểm bùng phát dịch bệnh công thức (2.1), kiện nên chứa đầy đủ ba thành phần Khi yếu tố thời gian kiện không đề cập rõ ràng, tác giả sử dụng ngày xuất báo thời gian kiện Trong trường hợp khác, kiện không bao gồm tên bệnh địa điểm bùng phát xem kiện sai Sau lọc viết chứa thông tin dịch bệnh website, chức trích chọn dịch bệnh có nhiệm vụ trích chọn từ khóa dịch bệnh để lưu trữ vào bảng DichBenh sở liệu Bảng gồm thông tin: Id, dichbenh, Mota, ThoiGian, DiaDiem Sau trích chọn dịch bệnh, công việc trích chọn thuộc tính dịch bệnh lưu trữ vào bảng sở liệu bao gồm thông tin: Mã dịch bệnh, tên dịch bệnh, thời gian, vùng dịch, tình hình dịch bệnh Như trình bày, với dịch bệnh thuộc tính đầy đủ liệu phụ thuộc vào website Để tiến hành thực nghiệm, với website Bảng 3.3, tác giả lấy ngẫu nhiên 50 viết chứa thông tin dịch bệnh lọc để thực công cụ trích chọn dịch bệnh trích chọn thuộc tính dịch bệnh Số viết STT Tên website chứa thông tin dịch bệnh http://nihe.org.vn/ http://yteduphong.co m.vn Số dịch bệnh trích chọn Số dịch bệnh có thuộc tính trích chọn 50 10 50 56 http://www.ytdphanoi gov.vn/ http://bvdktinhthaibin h.vn http://www.bvdktutha inguyen.gov.vn/ http://www.bvdktinhb acgiang.vn/ http://dakhoavinhphu c.com/ 50 11 10 50 14 13 50 12 11 50 50 10 Bảng 3.4 Kết trích chọn Kết thử nghiệm cho thấy, số dịch bệnh trích chọn nhỏ số viết chứa thông tin dịch bệnh số dịch bệnh có thuộc tính trích chọn nhỏ số dịch bệnh trích chọn, nghĩa số dịch bệnh trích chọn không trích chọn thuộc tính Nguyên nhân lỗi, luật chưa bao hết trường hợp, website Hơn nữa, ta thấy có khác số lượng dịch bệnh trích chọn website thiết kế website Có website thiết kế theo kiểu List Page, có website thiết kế theo kiểu Detail Page Kết thực nghiệm tác giả không huấn luyện mô hình chương này, tác giả sử dụng Luật để trích chọn từ khóa Trong đó: List Page: trang chứa vài danh sách đối tượng Có hai dạng trang list, trang list bố trí theo chiều ngang chiều dọc Detail Page: trang giới thiệu đối tượng đơn 57 Hình 3.2 Kết thử nghiệm trích chọn kiện dịch bệnh 3.4 Thống kê báo cáo 3.4.1 Thống kê theo địa điểm Sau trình trích chọn thông tin từ website, ta thống kê số lượng từ khóa liên quan vùng nhiễm dịch Từ kết thống kê ta có nhận xét vùng dịch nguy hiểm 58 WEBSITE Hà Nội Thái Bình Bắc Giang Thái nguyên Vĩnh Phúc http://nihe.org.vn/ 998 66 190 118 219 http://yteduphong.com.vn 3112 652 1104 390 375 56 69 41 40 37 24 10 10 12 81 15 16 312 38 6 58 16 11 15 4641 855 1377 596 662 http://www.ytdphanoi.gov vn/ http://bvdktinhthaibinh.vn http://www.bvdktuthaingu yen.gov.vn/ http://www.bvdktinhbacgi ang.vn/ http://dakhoavinhphuc.co m/ Tổng số Bảng 3.5 Thống kê theo địa điểm Hình 3.3 Biều đồ thống kê theo dịch địa điểm 59 3.4.2 Thống kê theo thời gian Từ kết trình trích chọn thông tin, ta thống kê dịch bệnh xảy vùng khoảng thời gian sau: Vùng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 12 10 dịch 11 Hà Nội 570 Thái Bình Bắc Giang Thái Nguyên ênên Vĩnh 424 521 642 524 224 442 242 236 342 221 521 621 442 532 323 321 121 278 224 424 222 973 232 412 521 221 330 224 123 312 612 121 312 232 423 133 442 332 121 61 443 312 421 141 234 142 221 444 714 Phúc Bảng 3.6 Thống kê theo thời gian Hình 3.4 Biểu đồ thống kê theo thời gian 254 612 543 232 214 454 212 321 612 124 60 3.4.3 Thống kê theo tên dịch bệnh Sau trình trích chọn thông tin từ viết, ta thống kê số lượng từ khóa dịch bệnh địa điểm Từ kết thống kê ta có nhận xét khả dịch bệnh hay xảy địa điểm Hà Nội Thái Bình Bắc Giang Thái Nguyên Vĩnh Phúc Virut Zika 998 467 210 321 320 Tiêu chảy 3112 1236 114 1104 412 Sốt xuất huyết 210 265 210 241 754 Sốt rét 365 320 945 614 652 Tay chân miệng 1254 2010 561 354 842 Tên dịch bệnh Bảng 3.7 Thống kê theo tên dịch bệnh Hình 3.5 Biều đồ thống kế theo tên dịch bệnh 61 3.5 Tổng kết chương Chương trình bày kết thử nghiệm mô hình trích chọn kiện dịch bệnh 07 website dịch bệnh chọn Bao gồm công việc sau: 1) Sử dụng công cụ (web crawler) thu thập viết chứa thông tin dịch bệnh từ 07 website 2) Lọc viết chứa thông tin dịch bệnh 3) Trích chọn dịch bệnh từ viết theo tập luật định nghĩa trước 4) Trích chọn thuộc tính dịch bệnh theo tập luật định nghĩa trước 5) Lưu kết trích chọn vào sở liệu 6) Lập số báo cáo, thống kê phục vụ công tác quản lý 62 KẾT LUẬN Những kết luận văn Luận văn đạt mục tiêu đề ban đầu: 1) Tìm hiểu tổng quan phương pháp trích chọn thông tin, tìm hiểu toán trích chọn thông tin dịch bệnh từ website tiếng Việt, đưa phương pháp, mô hình giải toán 2) Thử nghiệm mô hình trích chọn thông tin dịch bệnh 07 website y tế, lập số báo cáo, thống kê phục vụ công tác quản lý, điều hành Một số hạn chế Luận văn số hạn chế sau: 1) Không tự động trích chọn thông tin đưa vào viết thuộc website 2) Tập luật xây dựng thủ công, khó bao phủ tới toàn miền liệu Điều dẫn tới tập luật bỏ sót liệu có liên quan tới miền liệu 3) Kết lọc liệu chưa cao, bỏ qua nhiều viết chứa thông tin dịch bệnh Định hướng tương lai Định hướng nghiên cứu thời gian tới luận văn tiếp tục hoàn thiện phát triển mô hình trích chọn thông tin dịch bệnh văn tiếng Việt, tập trung vào phương pháp trích chọn tự động, từ thông tin trích chọn xây dựng hệ thống tư vấn y tế dự đoán dịch bệnh Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu nên luận văn chưa sử dụng phương pháp tự động Vì vậy, nghiên cứu tập trung vào việc sử dụng phương pháp tự động trích chọn phát triển ứng dụng 63 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh [2] Alexander Yates Information Extraction from the Web: Techniques and Applications Phd thesis, University of Washington, 2007 [3] Adam Berger The Improved Iterative Scaling Algorithm: A gentle Introduction School of Computer Science, Carnegie Mellon University [4] A McCallum, D Freitag, and F Pereia Maximum entropy markov models for information extraction and segmentation In Proc Interational Conference on Machine Learning, 2000 [5] A Rauber, D Merkl, and M Dittenbach: The Growing Hierarchical SelfOrganizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol 13, No 6, pp 1331-1341, IEEE, November 2002 [6] Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, 2006 [7] F Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI2001), 2001 [8]Nigel Collier, Reiko Matsuda Goodwin, John McCrae, Son Doan, Ai Kawa- zoe, Mike Conway, Asanee Kawtrakul, Koichi Takeuchi, and Dinh Dien An ontology-driven system for detecting global health events In Proceedings of the 23rd International Conference on 64 Computational Linguistics Association for Computational Linguistics, 2010 [9] H Cunningham, D Maynard, K Bontcheva, and V Tablan Gate: A framework and graphical development environment for robust nlp tools and applications In In: 40th Anniversary Meeting of the Association for Computational Lin- guistics (ACL 2002) pp 168-175 Association for Computational Linguistics, 2002 [10] Hamish Cunningham Gate, a general architecture for text engineering In Computers and the Humanities 36(2), 223-254, 2002 [11] Son Doan, Ai Kawazoe, and Nigel Collier Global health monitor - a web-based system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume, Hyderabad, India:pp 951-956, 2008 [12] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel The automatic content extraction (ace) program - tasks, data, and evaluation In LREC, 2004 [13] Li Fang, Huanye Sheng, and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35-49, 2002 [14] Usama M Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From data mining to knowledge discovery in databases In AI Magazine (AIM) 17(3):37-54, 1996 [15] Jungermann Felix and Katharina Morik Enhanced Services for targeted infor- mation retrieval by event extraction and data mining In: 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems 65 (NLDB 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5039:335-336, 2008 [16] Ralph Grishman, Silja Huttunen, and Roman Yangaber Information extrac- tion for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236-246, 2002 [17] Ralph Grishman, Silja Huttunen, and Roman Yangarber Real-time event extraction for infectious disease outbreaks Proceeding HLT ’02 Proceedings of [18] Ralph Grishman and Beth Sundheim Message understanding conference6: a brief history Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466-471, 1996 [19] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak, and Franciska de Jong An overview of event extraction from text Workshop on Detection, Represen- tation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp 48-57, 2011 [20] Chun Hong-Woo, Young-Sook Hwang, and Hae-Chang Rim Unsupervised event extraction from biomedical literature using cooccurrence informa- tion and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 3248:777-786, 2004 [21] John Lafferty, Kamal Nigam, and Andrew McCallum Using maximum en- tropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, Vol.1:61-67, 1999 [22] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, and Qing Yang 66 Extracting key entities and significant events from online daily news In: 9th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201-209, 2008 [23] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615-618, 2004 [24] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181192, 2009 [25] John Naisbitt Megatrends: Ten new directions transforming our lives In Grand Central Publishing, 1998 [26] Minh-Tien Nguyen and Tri-Thanh Nguyen Extraction of disease events for a real-time monitoring System In SoICT, Danang, Vietnam, 2013 [...]... về bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt, bao gồm phát biểu bài toán, ý nghĩa của bài toán 2) Mô hình phát hiện sự kiện và trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 3) Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh trong văn bản tiếng Việt 4) Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 2.1 Tổng quan bài toán trích. .. trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 2.1.1 Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh 2.1.1.1 Tầm quan trọng của trích chọn sự kiện dịch bệnh Trích chọn sự kiện dịch bệnh có thể coi là một lĩnh vực con trong trích chọn sự kiện Nếu như trích chọn sự kiện có thể áp dụng cho cả miền dữ liệu đóng (close domain) hoặc miền dữ liệu mở (open domain) thì trích chọn sự kiện dịch bệnh. .. 2.1.3 Phát biểu bài toán Cũng giống với bài toán trích chọn thông tin nói chung, bài toán trích chọn sự kiện dịch bệnh tập trung vào việc trích chọn các thông tin cơ bản của một sự kiện dịch bệnh từ các văn bản không có cấu trúc Một cách hình thức, bài toán có thể phát biểu như sau: Đầu vào: Một bài báo điện tử Đầu ra: Mô hình sẽ phải kiểm tra xem bài báo ở đầu vào có chứa sự kiện dịch bệnh hay không?... cho bài toán trích chọn sự kiện dịch bệnh ở Chương 2 1.4.1 Phương pháp tiếp cận dựa trên tập luật Trong nghiên cứu của mình, Hogenboom F và cộng sự [20] cung cấp một khảo sát để lựa chọn phương pháp phù hợp cho bài toán trích chọn sự kiện trên văn bản Bài báo đã chỉ ra rằng có ba phương pháp cơ bản để giải quyết bài toán trích chọn sự kiện, đó là: phương pháp dựa trên dữ liệu (datadriven), phương pháp. .. về sự kiện, một sự kiện dịch bệnh có thể coi như một mẫu (template) chứa các thuộc tính của sự kiện Trích chọn sự kiện dịch bệnh chỉ quan tâm tới những dữ liệu liên quan tới dịch bệnh (con người hoặc động vật) 2.1.1.2 Ý nghĩa khoa học Về mặt khoa học, trích chọn sự kiện nói chung và trích chọn sự kiện dịch bệnh nói riêng là một trong những bài toán cơ bản của trích chọn thông tin Giải quyết tốt bài toán. .. trọng trong việc đối phó với sự lây lan của chúng Bài toán phát hiện và trích chọn sự kiện dịch bệnh được đề cập từ khá sớm và nhận được nhiều sự quan tâm từ phía các nhà khoa học Grishman và cộng sự [17] sử dụng các mẫu sự kiện (event patterns) để phân tích các câu đầu vào và trích chọn ra các sự kiện dịch bệnh Các mẫu sự kiện này được xây dựng dựa trên mối quan hệ giữa các từ Ví dụ, mẫu “np (DISEASE)... Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện Trong phần này, luận văn trình bày một số phương pháp tiếp cận cho bài toán trích chọn sự kiện Các phương pháp này bao gồm: phương pháp dựa trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật và học máy Phần cuối cùng, luận văn đưa ra một số bàn luận về các phương pháp Dựa trên cơ sở này, luận sẽ lựa chọn phương pháp phù... giá mức độ phù hợp của các phương pháp với đặc điểm của miền dữ liệu là sự kiện dịch bệnh, luận văn lựa chọn phương pháp sử dụng hệ luật Trong chương tiếp theo, luận văn sẽ trình bày chi tiết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt và mô hình giải quyết bài toán 29 Chương 2 BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN TIẾNG VIỆT Chương này trình bày các nội dung chính như... giao thông, và tội phạm [38] với nguồn dữ liệu từ các trang web 2.1.2 Các đặc tính của sự kiện dịch bệnh Quá trình khảo sát trên miền dữ liệu chứa sự kiện dịch bệnh chỉ ra rằng một sự kiện dịch bệnh có thể chứa tên bệnh, thời gian bùng phát dịch bệnh, các địa điểm mà dịch bệnh bùng phát, và thông tin về các nạn nhân của dịch bệnh Trong một số trường hợp, một sự kiện dịch bệnh có thể chứa thêm các thông... là sử dụng các luật để trích chọn ra yếu tố thời gian Như vậy, trong cả hai pha, tác giả sử dụng hệ luật (ở đây là phân lớp và nhận dạng thực thể) để giải quyết bài toán nhận dạng và trích chọn sự kiện Chi tiết của mô hình và hai bài toán sẽ được trình bày trong phần tiếp theo 2.2.2 Mô hình phát hiện và trích chọn sự kiện dịch bệnh Tác giả xây dựng mô hình phát hiện và trích chọn sự kiện dịch bệnh được ... tính: phương thức, phân cực, mức độ, thời điểm Để tìm hiểu sâu mô hình phương pháp giải toán trích chọn kiện dịch bệnh, em chọn đề tài Nghiên cứu phương pháp trích chọn kiện ứng dụng vào toán trích. .. Internet 1.4 Phương pháp nghiên cứu Phương pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết, đề tài tổng hợp kết nghiên cứu phương pháp trích chọn kiện từ... VỀ TRÍCH CHỌN SỰ KIỆN Chương giới thiệu tổng quan trích chọn kiện phương pháp tiếp cận giải toán trích chọn kiện 1.1 Tổng quan trích chọn thông tin 1.1.1 Bài toán trích chọn thông tin Trích chọn