Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
0,94 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Mạnh Cường XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: công nghệ thông tin HÀ NỘI – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Mạnh Cường XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: công nghệ thông tin Cán hướng dẫn: TS Phan Xuân Hiếu Cán đồng hướng dẫn: ThS Trần Mai Vũ VIETNAM NATIONNAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Cuong Le Manh EVENT – ORIENTED DOCUMENT GROUPING Major: Information Technology Supervisor: Dr Hieu Phan Xuan Co-Supervisor: M.s Vu Tran Mai HA NOI – 2013 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn sâu sắc đến PGS.TS Hà Quang Thụy, TS Phan Xuân Hiếu, ThS Trần Mai Vũ cử nhân Nguyễn Minh Tiến, người tận tình hướng dẫn trình thực khóa luận tốt nghiệp Tôi cảm ơn thầy, cô trường Đại học Công nghệ tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin cảm ơn anh chị bạn phòng thí nghiệm Công nghệ Tri thức KT-Lab hỗ trợ mặt kiến thức chuyên môn thực nghiệm để hoàn thành khóa luận tốt Tôi xin cảm ơn bạn lớp K54CD K54C–CLC ủng hộ, giúp đỡ thời gian học tập trường Cuối cùng, muốn gửi lời cảm ơn đến gia đình bạn bè, người khích lệ, động viên giúp vượt qua khó khăn Tôi xin chân thành cảm ơn Hà Nội, ngày 15 tháng năm 2013 Lê Mạnh Cường XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN Lê Mạnh Cường Khóa QH-2009-I/CQ, ngành Công nghệ thông tin Tóm tắt khóa luận tốt nghiệp Dữ liệu bùng nổ cách chóng mặt, nhu cầu trích chọn thông tin người ngày tăng Bài toán xâu chuỗi văn vấn đề lớn quan tâm Với mục tiêu giúp người nắm tranh toàn cảnh nguồn văn mạng hay cụ thể văn dạng tin tức dựa chuỗi kiện xảy đời toán xâu chuỗi văn theo kiện Trong phạm vi khóa luận tìm hiểu số tiếp cận phát kiện văn mốt số tiếp cận dùng để xâu chuỗi kiện văn Với mục tiêu phát kiện văn tìm hiểu hướng tiếp cận sử dụng độ đo TF – IDF, với mục tiêu phát chuỗi kiện dùng để xâu chuỗi văn bản, tìm hiểu hai tiếp cận Tiếp cận sử dụng độ đo TF – IDF tiếp cận thứ hai sử dụng độ tương đồng thông tin thời gian – địa điểm kiện Về phần phương pháp đề xuất cho loại văn tin tức sử dụng phương pháp xâu chuỗi dựa tiêu đề trang tin tức thực tế hầu hết tiêu đề tin tức nêu rõ nội dung kiện Tác giả xây dựng từ điển danh từ, động từ, thực thể luật để bắt kiện sau dùng độ tương đồng cô-sin từ/cụm từ để gom nhóm kiện Cuối sử dụng yếu tố thời gian để xâu chuỗi kiên Từ chuỗi kiện phát tiêu đề ta tiến hành xâu chuỗi văn tương ứng với tiêu đề Từ khóa: xâu chuỗi văn bản, kiện, chuỗi kiện EVENT – ORIENTED DOCUMENT GROUPING Cuong Le Manh QH-2009-I/CQ, Information Technology Abstract Nowadays data is booming, the development of information extraction is necessary Document grouping is the one of the major problems and it has become a hot trend of academy community To help people know clearly the background of on-line information is motivation of event-oriented document grouping It can divide into two stages: event detection and event sequence detection In this thesis the author have learned about three approaches to deal with that problem The first approach what uses TF – IDF measures aims to detect events in a document The second approach also uses TF – IDF measures but it aims to group documents The last approach uses time and place information to detect event sequence In this thesis, the author proposes a method for on-line news documents The method uses title of these documents to group them Firstly, the author builds a dictionary which consists of noun phrases, verb phrases and entity names Then author uses the dictionary and rules to detect event Afterwards the method uses cosine similar measure and time feature to group documents by grouping their titles Keywords: document grouping, event, event sequence Lời cam đoan Tôi xin cam đoan phương pháp sử dụng để Xâu chuỗi văn theo kiện công trình nghiên cứu tôi, có giúp đỡ từ hai người thầy hướng dẫn TS Phan Xuân Hiếu Th.S Trần Mai Vũ Các nội dung kết đề tài tác giả thực hiện, không chép từ nguồn có sẵn Tất tham khảo từ nghiên cứu liên quan trích dẫn rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 15 tháng năm 2013 Lê Mạnh Cường Mục lục Lời nói đầu Chương 1: Tổng quan toán xâu chuỗi văn theo kiện 1.1 Trích chọn thông tin 1.1.1 Bùng nổ liệu 1.1.2 Trích chọn thông tin 1.2 Sự kiện trích chọn kiện 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 Bài toán xâu chuỗi văn theo kiện 1.3.1 Tổng quan 1.3.2 Định nghĩa chuỗi kiện 1.3.3 Bài toán xâu chuỗi văn theo kiện 1.3.4 Phát kiện khởi đầu định chuỗi 1.4 Ý nghĩa toán xâu chuỗi văn theo kiện 1.5 Khó khăn thách thức 1.6 Tóm tắt chương 10 Chương 2: Một số cách tiếp cận xâu chuỗi văn theo kiện 11 2.1 Hướng tiếp cận độ đo TF – IDF để phát kiện 11 2.2 Hướng tiếp cận độ đo TF – IDF để xâu chuỗi kiện 12 2.3 Hướng tiếp cận sử dụng độ tương đồng thông tin địa điểm để xâu chuỗi kiện 13 2.3.1 Thông tin thời gian kiện 13 2.3.2 Thông tin địa điểm kiện 13 2.4 Nhận xét đánh giá 15 2.5 Tóm tắt chương 15 Chương 3: Phương pháp xâu chuỗi văn dựa độ tương đồng cụm ngôn ngữ tiếng Việt 16 3.1 Mô tả toán 16 3.2 Phương pháp đề xuất 16 3.2.1 Giai đoạn phát kiện 16 3.2.2 Giai đoạn xâu chuỗi kiện 17 3.3 Mô hình đề xuất để giải toán 19 3.4 Một số đánh giá phương pháp giải 21 3.5 Tóm tắt chương 22 Chương Thực nghiệm đánh giá 23 4.1 Môi trường thực nghiệm 23 4.1.1 Cấu hình phần cứng 23 4.1.2 Môi trường phần mềm 23 4.2 Xây dựng từ điển luật nhận biết kiện 24 4.2.1 Xây dựng từ điển 24 4.2.2 Xây dựng luật 25 4.3 Thực nghiệm 25 4.3.1 Dữ liệu thực nghiệm 25 4.3.2 Quá trình thực nghiệm 26 4.4 Kết nhận xét kết 27 4.4.1 Phần phát kiện 27 4.4.2 Phần xâu chuỗi kiện 28 4.5 Đánh giá 32 4.5.1 Phương pháp đánh giá 32 4.5.2 Đánh giá 33 4.6 Tóm tắt chương 35 Tổng kết 36 Định hướng tương lai 37 Tài liệu tham khảo 38 Phụ lục 41 4.4 Kết nhận xét kết 4.4.1 Phần phát kiện Tác giả tiến hành thực nghiệm với 20,176 báo khoảng thời gian từ 6/3/2013 đến 7/5/2013 hai luật nêu phần trước Với luật thứ nhất, rõ chủ đề kiện kết thu 4,524 kiện bắt thuộc 10 chủ đề chọn Hình minh họa chi tiết kết chạy luật thứ Với luật thứ hai, không rõ chủ đề mà bắt tiêu đề chứa kiện thuộc 10 chủ đề Kết thu 10,534 kiện Bộ luật thứ hai không chặt chẽ luật thứ nên kết bắt nhiều gấp đôi so với luật thứ độ xác chủ đề lại không Về kết thu luật thứ nhất, chủ đề nóng bắt nhiều kiện chủ đề (chiến tranh quân sự), so sánh với thực tiễn với khoảng thời gian từ 6/3 đến 7/5 diễn nhiều kiện quân liên quan đến Syria, Triều Tiên, … Chủ đề (tham nhũng) bắt kiện nhất, so sánh với thực tiễn khoảng thời gian nêu có vụ bê bối tham nhũng Chủ đề (bầu cử) bắt kiện (chỉ có 159) thực tế giai đoạn vừa qua có bầu cử Venezuela Malaysia quan tâm Một hướng đặt cho tương lai tác giả nên bỏ chủ đề tin tặc hay bầu cử mà nên nghiên cứu kĩ liệu để tìm chủ đề phù hợp với khoảng thời gian 27 1600 1400 1200 1000 800 Sự kiện 600 400 200 Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 Hình Thống kê số kiện phát chủ đề từ 6/3 đến 7/5 Các chủ đề hình 10 chủ đề tác giả quan tâm, theo thứ tự trình bày tương ứng hình bầu cử (Topic1), chiến tranh – quân (Topic2), hàng không – vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế (Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) tranh chấp chủ quyền (Topic10) Kết thu thứ hai không xác chủ đề so với luật thứ xét tổng thể kết khả quan Các kiện bắt phần làm đầu vào cho phần xâu chuỗi kiện 4.4.2 Phần xâu chuỗi kiện Ở phần tác giả thực việc xâu chuỗi kiện trích chọn từ phần phát kiện Với chiến lược thực với hai kiện luật thứ luật thứ hai đồng thời sử dụng lúc ba độ đo tương đồng (độ tương đồng cụm từ bắt được, độ tương đồng từ kết hợp hai) Sử dụng kết từ luật thứ nhất: Đầu tiên tác giả xét với luật thứ Để quan sát rõ phần này, tác giả thống kê kết kiện bắt vòng tháng (từ 8/4 đến 7/5 – cột ngày) 10 chủ đề Hình minh họa chi tiết phần thống kê 28 350 300 250 200 Sự kiện 150 100 50 8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5 Hình Thống kê kiện phát từ 8/4 đến 7/5 Sau tác giả tiến hành thực ba độ đo tương đồng khoảng thời gian nêu (từ 8/4 đến 7/5 – cột ngày) (tác giả lấy ngưỡng tương đồng 0.2) Kết thu minh họa hình 100 90 80 70 60 Độ đo 50 Độ đo 40 Độ đo 30 20 10 8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5 Hình Số cụm phát sử dụng ba độ đo tương đồng 29 Số cụm bắt dùng độ đo thứ (độ tương đồng cụm từ bắt được) 10 khoảng thời gian cho kết bé sử dụng độ đo thứ hai (sử dụng độ tương đồng từ) lại cho kết lớn Sử dụng độ đo thứ ba (kết hợp hai độ đo) kết thu mức trung bình Ở độ đo thứ nhất, phải trích chọn cụm từ từ điển so sánh độ tương đồng giai đoạn bắt kiện chọn tiêu đề chứa cụm nên dễ dàng thực Mặt khác, độ đo tác giả bỏ qua tất từ không thuộc từ điển nên kết nhiều kiện vào cụm khiến cho số cụm Ví dụ, “Nga tập trận rầm rộ với tên lửa chiến lược” độ đo thứ sử dụng cụm từ từ điển mà bỏ qua từ “rầm rộ” Số lượng đặc trưng giảm khiến kết tương đồng tăng Trường hợp độ đo thứ hai, với việc tác giả thử nghiệm để so sánh với độ đo thứ độ đo thứ ba, kết thu nhiều cụm Lý tất từ sử dụng khiến tập đặc trưng tăng lên khiến độ tương đồng giảm Có thể lấy ví dụ sau, hai tiêu đề “Nhật Bản triển khai tên lửa Patriot Tokyo chống Triều Tiên” “Nhật triển khai chắn tên lửa đề phòng Triều Tiên” Về trực quan ta thấy hai tiêu đề chưa thông tin tương đồng việc sử dụng độ tương đồng từ riêng lẻ khiến độ tương đồng hai tin giảm xuống mức thấp (theo độ đo thứ hai kết 0.26) dùng độ đo thứ kết cao (theo độ đo thứ kết 0.89) Độ đo thứ ba kết hợp hai độ đo giải trường hợp rút gọn từ Các trang tin tức thông thường hay rút gọn đảm bảo cung cấp đủ thông tin Ví dụ người ta thường dùng Trung, Ấn, Nhật thay cho Trung Quốc, Ấn Độ Nhật Bản… Tác giả sử dụng kết xâu chuỗi độ đo thứ ba để xem xét kiện quan tâm vòng 30 ngày (từ 8/4 đến 7/5) Hình mô tả số lượng cụm số kiện lớn cụm 30 180 160 140 120 100 80 Số cụm 60 Số kiện lớn cụm 40 20 8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5 Hình Số cụm số kiện lớn cụm từ 8/4 đến 7/5 Kết từ 8-10/4 kiện quan tâm nhiều vấn đề Triều Tiên, từ 11-13/4 vấn đề Triều Tiên Tuy nhiên sang đến ngày 14-16/4 vấn đề lại vụ khủng bố Boston So sánh kết với thực tế ta thấy điều hoàn toàn phù hợp Ngoài lấy thử nghiệm từ ngày 2-4/5, kiện nhắc đến nhiều vụ máy bay Mỹ rơi Kyrgyzstan, hay chiến Syria… Kết xâu chuỗi kiện có ý nghĩa thực tế lớn, tìm kiện nóng khoảng thời gian ngắn Bảng minh họa so sánh với thực tế kiện nóng hệ thống thực tế Bảng So sánh kiện nóng hệ thống với thực tế Ngày 8-10/4 14-16/4 2-4/5 Sự kiện nóng hệ Sự kiện nóng thực tế thống Triều Tiên đe dọa công Triều Tiên đe dọa công số số nước Nhật Bản, Hoa Kỳ nước Nhật Bản, Hoa Kỳ Vụ công khủng bố Vụ công khủng bố Boston – Boston – Hoa Kỳ Hoa Kỳ Máy bay Mỹ rơi Kyrgyzstan Máy bay Mỹ rơi Kyrgyzstan Sử dụng kết từ luật thứ hai: 31 Do số lượng kiện bắt luật nhiều nên tác giả lấy đầu vào kiện vòng 10 ngày (từ 15/4 đến 24/4) Ở tác giả thử nghiệm độ đo thứ ba (độ tương đồng kết hợp) Tác giả thống kê số lượng kiện bắt phạm vi thời gian xét Phần thống kê minh họa hình 10 350 300 250 200 Số kiện 150 Số cụm 100 Số kiện lớn cụm 50 15/4 16/4 17/4 18/4 19/4 20/4 21/4 22/4 23/4 24/4 Hình 10 Thống kê luật thứ hai Kết thu lẫn cho thấy tính phù hợp với thực tế diễn Các vấn đề nóng vụ khủng bố Boston – Hoa Kỳ hay vấn đề Triều Tiên, Syria… xuất cụm có số kiện lớn 4.5 Đánh giá 4.5.1 Phương pháp đánh giá Trong phần thực nghiệm, tác giả thực hai phần phát kiện xâu chuỗi kiện nên đánh giá kết hai phần Do tác giả liệu chuẩn chia liệu để học để kiểm tra thông thường nên tác giả dùng hệ số lỗi Tác giả sử dụng công thức hệ số lỗi sau: Trong 32 n số trường hợp sai N số trường hợp xét ngẫu nhiên Bên cạnh đó, tác giả sử dụng công thức hệ số lỗi micro macro công thức 4.2 4.3: Trong đó: tỉ lệ lỗi cụm M số cụm xét ngẫu nhiên Trong đó: sô ví dụ lỗi cụm thứ i số lượng trường hợp cụm M số cụm xét 4.5.2 Đánh giá Với giai đoạn phát kiện, tác giả lấy ngẫu nhiên thu kết hình 11 (tỉ lệ lỗi trung bình 37 %) 33 80 70 60 50 40 Tỉ lệ lỗi 30 20 10 Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 Hình 11 Tỉ lệ lỗi chủ đề (theo tập luật thứ nhất) Các chủ đề hình 11 10 chủ đề tác giả quan tâm, theo thứ tự trình bày tương ứng hình bầu cử (Topic1), chiến tranh – quân (Topic2), hàng không – vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế (Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) tranh chấp chủ quyền (Topic10) Tác giả lấy ngẫu nhiên 100 kiện phát luật để đo tỉ lệ lỗi Kết tỉ lệ lỗi đạt 10% Kết tập luật thứ tỉ lệ lỗi cao nhiên hầu hết trường hợp lỗi nhập nhằng gây Trong tập luật thứ hai không bị ảnh hưởng nhiều nhập nhằng nên kết thu cao Với giai đoạn xâu chuỗi kiện, tác giả chọn ngẫu nhiên 10 cụm để đánh giá tỉ lệ lỗi với kết phát kiện từ luật thứ hai Kết minh họa bảng 34 Bảng Kết xâu chuỗi kiện Số kiện cụm Số kiện sai Tỉ lệ lỗi 11 33 11 20 37 40 27 202 3 5 29 0.091 0.061 0.272 0.375 0.2 0.135 0.135 0.11 0.25 0.143 Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm 10 Tổng Tỉ lệ lỗi micro là: Tỉ lệ lỗi macro là: Có thể thấy tỉ lệ lỗi micro macro cho giai đoạn xâu chuỗi kiện thấp 4.6 Tóm tắt chương Trong chương tác giả mô tả cụ thể cách thức xây dựng từ điển luật Tiếp theo, tác giả thể hướng thực nghiệm cách rõ ràng Các kết nhận xét kết cho thấy mức độ thực tiễn toán Cuối phần đánh giá theo tỉ lệ lỗi cho hệ thống 35 Tổng kết Khóa luận nêu lên toán Xâu chuỗi văn theo kiện, đồng thời khóa luận xem xét số tiếp cận để phát xâu chuỗi kiện mức độ văn Các phương pháp sử dụng trọng số TF – IDF thông tin thời gian – địa điểm thích hợp với toàn văn Đối với đối tượng tiêu đề phương pháp trở nên không phù hợp Tác giả đề xuất thử nghiệm phương pháp phát xâu chuỗi kiện dựa việc xây dựng từ điển, luật sử dụng độ tương đồng cô-sin ba mức cụm từ, từ kết hợp cụm từ từ Tác giả trình bày số ưu điểm hướng sử dụng tiêu đề văn Việc thực tiêu đề khiến thời gian để phát xâu chuỗi kiện trở nên ngắn đi, nhanh chóng nắm số kiện nóng hổi mang tính thời Thực nghiệm cho thấy kết hoàn toàn phù hợp với thực tế diễn Việc tỉ lệ lỗi cao điều khó tránh khỏi Xử lý ngôn ngữ tự nhiên toán khó, bên cạnh trích chọn thống tin toán khó khăn không Do thời gian có hạn nên liệu tác giả xây dựng chưa nhiều, luật đưa lỏng lẻo 36 Định hướng tương lai Như tác giả đề cập phần trước, tác giả gặp nhiều khó khăn Nếu xây dựng hoàn thiện tiếp, tác giả dự định thực số công việc sau: Thứ nhất, tác giả xây dựng liệu đầy đủ hơn, mang tính thời Thứ hai, tác giả thiết lập luật chặt chẽ hơn, tránh nhiều nhập nhằng tốt Thứ ba, tác giả tìm cách giải vấn đề đồng tham chiếu Cuối cùng, sở liệu luật mới, tác giả thử nghiệm để tìm ngưỡng tương đồng phù hợp (hiện lấy 0.2) với độ tương đồng thích hợp 37 Tài liệu tham khảo Tiếng Anh [1] David Ahn “The stages of event extraction”, in Proceedings of the Workshop on Annotating and Reasoning about Time and Events, 2006, pp 1-8 [2] J Allan, J Carbonell, G Doddington, J Yamron, and Y Yang “Topic detection and tracking pilot study: Final report”, in Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998, pp 194-218 [3] James Allan, Ron Papka, and Victor Lavrenko “On-line new event detection and tracking”, in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998, pp 37-45 [4] Thorsten Brants, Francine Chen, Ayman Farahat “A system for new event detection”, in Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, 2003, pp 330-337 [5] Hong-woo Chun, Young-sook Hwang, and Hae-Chang Rim “Unsupervised event extraction from biomedical literature using co-occurrence informationand basic patterns”, in Proceedings of the First international joint conference on Natural Language Processing, 2005, pp 777-786 [6] K Bretonnel Cohen, Karin Verspoor, Helen L Johnson, Chris Roeder, Philip V Ogren, William A Baumgartner, Jr., Elizabeth White, Hannah Tipney, and Lawrence Hunter “High-precision biological event extraction with a concept recognizer”, in Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task, 2009, pp 50-58 [7] Baoli Li, Wenjie Li, and Qin Lu “Enhancing topic tracking with temporal information”, in Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006, pp 667-668 [8] Yun Jin, Sung Hyon Myaeng, Yuchul Jung “Use of place information for improved event tracking” in Journal Information Processing and Management: an International Journal - Special issue: AIRS2005: Information retrieval research in Asia, volume 43 issue 2, 2007, pp 365-378 [9] Juha Makkonen, Helena Ahonen-Myka, and Marko Salmenkivi “Topic detection and tracking with spatio-temporal evidence”, in Proceedings of the 25th European conference on IR research, 2003, pp 251-265 38 [10] Heikki Mannila, Hannu Toivonen, and A Inkeri Verkamo “Discovery of frequent episodes in event sequences”, in Data Mining and Knowledge Discovery, 1997, pp 259-289 [11] John Naisbitt “Megatrends: Ten New Directions Transforming Our Lives”, Grand Central Publishing, 1988 [12] Ramesh Nallapati “Semantic language models for topic detection and tracking”, in Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, volume 3, 1998, pp 1-6 [13] Yoko Nishihara, Keita Sato, and Wataru Sunayama “Event extraction and visualization for obtaining personal experiences from blogs”, in Proceedings ofthe Symposium on Human Interface 2009 on Human Interface and the Management of Information Information and Interaction Part II: Held as part of HCI International 2009, pp 315–324 [14] Ron Papka, James Allan “On-Line New Event Detection using Single Pass Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp 110 [15] Sunita Sarawagi “Information extraction”, in Journal Foundations and Trends in Databases, Volume issue 3, 2008, pp 261–377 [16] J M Schultz and M Liberman “Topic detection and tracking using idfweighted cosine coefficient”, in Proceedings of the DARPA Broadcast News Workshop, 1999, pp 189–192 [17] Hristo Tanev, Jakub Piskorski, and Martin Atkinson “Real-Time News Event Extraction for Global Crisis Monitoring”, in Proceedings of the 13th international conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems, 2008, pp 207-218 [18] Yiming Yang, Jaime G Carbonell, Ralf D Brown, Thomas Pierce, Brian T.Archibald, and Xin Liu “Learning approaches for detecting and tracking news events”, in Journal IEEE Intelligent Systems, volume 14 issue 4, 1999, pp 32-43 [19] Yiming Yang, Tom Pierce, and Jaime Carbonell “A study of retrospective and online event detection”, in Proceedings of the 21st annual international ACM 39 SIGIR conference on Research and development in information retrieval, 1998, pp 28-36 40 Phụ lục Một số ví dụ luật xây dựng số tiêu đề phát Bộ luật thứ nhất: BAUCU [NP_BAUCU][NER_LOC][VP_BAUCU]: Tân tổng thống Venezuela nhậm chức HANGKHONG [NER_LOC][VP_HANGKHONG][NP_HANGKHONG]: Iran thử thành công tên lửa tầm ngắn QUANSU [NER_LOC][VP_QUANSU][NER_LOC]: Israel không kích Syria TINTAC [OBN_TINTAC][VP_TINTAC][NP_TINTAC][NER_LOC]: Anonymous đánh sập trang web Triều Tiên KHUNGBO [NER_ORG][VP_KHUNGBO][NP_KHUNGBO][OBN_KHUNGBO]: FBI mở rộng điều tra vụ đánh bom Boston … Bộ luật thứ hai: [NP][NER][VP][NP]: Thủ tướng Ai Cập thoát chết sau vụ công [NP][NER][VP][NER]: Ngoại trưởng Mỹ thăm Nga [NP][NER][NER][VP]: Đại sứ quán Pháp Libya bị đánh bom [NER][NER][VP][VP]: Mỹ: Thành phố Boston bị đánh bom khủng bố [NER][VP][NER][VP]: Mỹ phản đối Trung Quốc dọa dẫm láng giềng [NER][VP][NP][NER]: Ông Tập Cận Bình hội đàm với Tổng thống Palestine [NP][NER][VP][NER][NER]: Tổng thống Hàn Quốc tới thăm Mỹ vấn đề Triều Tiên [NP][NER][VP][NER][VP][NER] Thủ tướng Thổ Nhĩ Kỳ phản đối Israel không kích Syria … 41