Sau đó, chúng tôitrình bày sơ lược về bài toán phát hiện sự kiện từ dữ liệu văn bản cùng sự cầnthiết của nó trong nghiên cứu khoa học cũng như trong thực tiễn.. GIỚI THIỆUChương đầu tiên
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
Trang 3Người hướng dẫn: TS Lê Quang Hùng
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do tôi thực hiện dưới sự hướng dẫn của
TS Lê Quang Hùng Các nội dung trích dẫn từ các nghiên cứu của các tác giảkhác mà tôi trình bày trong luận văn này đã được ghi rõ nguồn trong phần tàiliệu tham khảo
Bình Định, tháng 07 năm 2017
Đỗ Đình Lân
Trang 5LỜI CẢM ƠN
Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới
TS Lê Quang Hùng đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôitrong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi cũng cảm ơn các Thầy/Cô ở Trường Đại học Quy Nhơn đã tạo điềukiện thuận lợi cho tôi học tập và nghiên cứu tại đây
Tôi xin gửi lời cảm ơn tới các anh chị, các bạn học viên lớp Cao họcKhoa học máy tính K18 - Trường Đại học Quy Nhơn đã hỗ trợ tôi rất nhiềutrong quá trình thực hiện luận văn
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngườithân yêu luôn bên cạnh: quan tâm, động viên tôi trong suốt quá trình học tập
và thực hiện luận văn tốt nghiệp này
Tôi xin chân thành cảm ơn!
Bình Định, tháng 07 năm 2017
Đỗ Đình Lân
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH vii
LỜI MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục tiêu nghiên cứu 1
3 Bố cục của luận văn 2
Chương 1 GIỚI THIỆU 3
1.1 Tổng quan về sự kiện 3
1.2 Định nghĩa sự kiện 4
1.3 Bài toán phát hiện sự kiện từ dữ liệu văn bản 6
1.4 Khó khăn và thách thức 7
1.5 Kết luận chương 7
Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN 8
2.1 Cách tiếp cận dựa trên luật 8
2.1.1 Luật cú pháp 8
2.1.2 Luật ngữ nghĩa 9
2.1.3 Biểu diễn tập luật 10
2.1.3.1 Các thuộc tính của các thẻ 11
2.1.3.2 Các luật đánh dấu ranh giới thực thể 13
2.1.3.3 Các luật cho đa thực thể 14
2.2 Cách tiếp cận dựa trên học máy 14
2.2.1 Phương pháp k láng giềng gần nhất 15
Trang 72.2.2 Phương pháp lai kNN-SVM 16
2.2.3 Phương pháp sử dụng trọng số TF – IDF 16
2.2.4 Phương pháp sử dụng thông tin thời gian – địa điểm 18
2.2.4.1 Thông tin thời gian 18
2.2.4.2 Thông tin địa điểm 19
2.3 Cách tiếp cận kết hợp luật và học máy 19
2.4 Nhận xét 20
2.5 Kết luận chương 22
Chương 3: MÔ HÌNH PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN 23
3.1 Mô hình phát hiện sự kiện 23
3.1.1 Lọc dữ liệu 25
3.1.2 Phát hiện sự kiện 28
3.2 Thực nghiệm 35
3.2.1 Dữ liệu thực nghiệm 35
3.2.2 Môi trường và các công cụ 35
3.2.3 Cài đặt 36
3.3 Đánh giá 37
3.3.1 Đánh giá quá trình phân lớp dựa trên tiêu đề bản tin 37
3.3.2 Đánh giá quá trình phân lớp dựa trên nội dung bản tin 38
3.3.3 So sánh 38
3.4 Nhận xét 39
3.5 Kết luận chương 39
KẾT LUẬN 41
TÀI LIỆU THAM KHẢO 43
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
ACE Automatic Content Extraction Trích chọn nội dung tự độngIDF Inverse Document Frequency Tần số tài liệu đảo ngượck-NN k Nearest Neighbours K láng giềng gần nhất
NER Name Entity Recognition Nhận dạng thực thể tên
SVM Support Vector Machine Máy véc-tơ hỗ trợ
TDT Topic Detection and Tracking Phát hiện và theo dõi chủ đề
Trang 9DANH MỤC CÁC BẢNG
Bảng 3.1 Các thành phần của một bản tin 30
Bảng 3.2 Cấu hình phần cứng 36
Bảng 3.3 Công cụ phần mềm sử dụng 36
Bảng 3.4 Đánh giá kết quả phân lớp dựa trên tiêu đề bản tin 37
Bảng 3.5 Đánh giá kết quả phân lớp dựa trên nội dung bản tin 38
Bảng 3.6 So sánh kết quả phân lớp dựa trên tiêu đề và nội dung bản tin 38
Trang 10DANH MỤC CÁC HÌNH
Hình 3.1 Mô hình tổng quát phát hiện sự kiện 24
Hình 3.2 Mô hình lọc dữ liệu miền thể thao 25
Hình 3.3 Minh họa từ điển thể thao 27
Hình 3.4 Mô hình phát hiện sự kiện thể thao 28
Hình 3.5 Ví dụ kết quả tách từ trong câu 30
Hình 3.6 Minh họa tập đặc trưng 31
Hình 3.7 Véc-tơ hóa tập đặc trưng trong tiêu đề bản bản tin 33
Hình 3.8 Tiến trình phân lớp các bản tin 34
Hình 3.9 Minh họa phân lớp bằng công cụ SVMLight 35
Hình 3.10 So sánh kết quả phân lớp dựa trên tiêu đề và nội dung bản tin 39
Trang 11Tin tức, thông tin, sự kiện sẽ có giá trị cao khi nó được truyền tải đếnngười dùng nhanh và chính xác, đặc biệt các thông tin, sự kiện liên quan đến
an ninh - chính trị, kinh tế, đời sống, giáo dục, pháp luật, thể thao,… Vậy làmthế nào để phát hiện, tập hợp nhanh các sự kiện đó từ các văn bản, các trangtin tức và trả lời được các câu hỏi “sự kiện gì? xảy ra ở đâu? thời gian nào?diễn biến sự kiện như thế nào ” cho người dùng?
Xuất phát từ nhu cầu thực tiễn đó, chúng tôi lựa chọn thực hiện đề tài
“Phát hiện sự kiện từ dữ liệu văn bản”
1 Mục tiêu nghiên cứu
Trong luận văn này, chúng tôi đặt ra mục tiêu: tìm hiểu về bài toán pháthiện sự kiện từ dữ liệu văn bản và lựa chọn cách tiếp cận phù hợp để cài đặtthực nghiệm trên dữ liệu văn bản tiếng Việt
Trang 121 Bố cục của luận văn
Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 3 chươngvới bố cục như sau:
Chương 1 GIỚI THIỆU Chương đầu tiên của luận văn, chúng tôi giới
thiệu tổng quan về lĩnh vực phát hiện và trích chọn sự kiện Sau đó, chúng tôitrình bày sơ lược về bài toán phát hiện sự kiện từ dữ liệu văn bản cùng sự cầnthiết của nó trong nghiên cứu khoa học cũng như trong thực tiễn
Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN Trong chương
này, chúng tôi trình bày một số cách tiếp cận bài toán phát hiện sự kiện từ dữliệu văn bản bao gồm: cách tiếp cận dựa trên luật, cách tiếp cận dựa trên họcmáy và cách tiếp cận kết hợp luật và học máy
Chương 3: MÔ HÌNH PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN
BẢN Trong chương cuối, chúng tôi tập trung phân tích làm rõ bài toán phát
hiện sự kiện Trình bày mô hình và phương pháp giải quyết bài toán phát hiện
sự kiện từ dữ liệu văn bản Cuối chương, chúng tôi trình bày phần thựcnghiệm và đánh giá kết quả
Trang 13Chương 1 GIỚI THIỆU
Chương đầu tiên của luận văn, chúng tôi giới thiệu tổng quan về bàitoán phát hiện sự kiện như: tổng quan về sự kiện; định nghĩa sự kiện; phátbiểu bài toán phát hiện sự kiện từ dữ liệu văn bản Cuối chương, chúng tôitrình bày một số khó khăn và thách thức khi giải quyết bài toán
1.1 Tổng quan về sự kiện
Phát hiện và trích chọn sự kiện với vai trò phát hiện và trích chọn ra cácthông tin có ý nghĩa từ tập dữ liệu được cộng đồng khoa học rất quan tâm vàđầu tư nghiên cứu Năm 1987, hội nghị MUC (Message UnderstandingConferences) được tổ chức với sự hỗ trợ của quỹ nghiên cứu Bộ quốc phòngHoa Kỳ và lần đầu tiên khái niệm “event” (sự kiện) được đề cập Sau đó,nhiều hội nghị được tổ chức tạo thành dãy hội nghị MUC Các chủ đề nghiêncứu trong hội nghị là các chủ đề về: tội phạm, khủng bố, đánh bom,… mộttrong những đóng góp lớn của MUC là đưa ra việc trích chọn thông tin dựatrên mẫu Các mẫu được ban tổ chức quy định và các đội tham gia cần điềnthông tin vào các mẫu này một cách tự động Cuối cùng, các sự kiện đượctrích chọn gồm các thông tin: tổ chức, đối tượng tham gia (người, sự vật, sựviệc), thời gian, địa điểm, số lượng,… Độ chính xác và độ bao phủ của cácnghiên cứu tham dự MUC nằm trong khoảng 50% đến 60% [12]
Chương trình Phát hiện và theo dõi chủ đề TDT (Topic Detection and
Tracking) được tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các
trường đại học tham gia Chương trình này được phối hợp bởi Viện công nghệ
và chuẩn hoá quốc gia Hoa Kỳ (NIST) nhằm giải quyết bài toán phát hiện,theo dõi và xâu chuỗi sự kiện Một số nhóm nghiên cứu tham gia chươngtrình như: nhóm CMU của Đại học Carnegie Mellon, nhóm BBN từ công ty
Trang 14BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN củaTrường Đại học Pennsylvania (UPENN) Các bài toán quan trọng của TDTgồm: theo dõi chủ đề, phát hiện chủ đề, phát hiện sự kiện khởi đầu và pháthiện liên kết.
Chương trình Trích chọn nội dung tự động của Đại học Pennsylvania
cũng thu hút được nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọnthông tin cũng như trích chọn sự kiện Chương trình này tập trung vào cácngôn ngữ như tiếng Anh, Trung Quốc và Ả Rập Các thông tin được tríchchọn gồm các thực thể, quan hệ giữa các thực thể và các sự kiện chúng thamgia vào
1.2 Định nghĩa sự kiện
Tùy theo từng lĩnh vực và dữ liệu, các nhà nghiên cứu có nhiều cáchđịnh nghĩa sự kiện khác nhau Trên miền tin tức, Allan và cộng sự (1998)định nghĩa tin tức có chứa sự kiện nếu nó có bốn yếu tố sau: hành vi, chủ thể,thời gian, địa điểm [7] Hành vi là các hoạt động hay hành động gây ra sựkiện Chủ thể là con người, sự vật hoặc sự việc Thời gian là thời gian xảy ra
sự kiện Địa điểm là nơi diễn ra sự kiện
Ví dụ: “Chiều ngày 20/06/2017 đã xảy ra một vụ tai nạn trên đường Quốc lộ 19 làm cho 4 người chết và 3 người bị thương”
Cũng theo nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một
sự kiện rất khó bởi sự đa dạng của ngôn ngữ, tính nhập nhằng liên quan tớingữ cảnh và sự phức tạp về văn hóa của mỗi cộng đồng Ví dụ sau đây có đủ
bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo thống kê, trong 3 tháng cuối năm, số người tử vong do cháy nổ trên địa bàn Tỉnh Bình Định đã tăng
Trang 15lên con số 19” Trong phạm vi giải quyết bài toán phát hiện sự kiện, việc địnhnghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên.
Tại hội nghị MUC (1987) cũng đã định nghĩa sự kiện như sau: “một sựkiện có tác nhân, thời gian, địa điểm và tác động tới môi trường xung quanh”.Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng cóliên quan đến người tham gia Sự kiện được đề cập đến được mô tả bởi mộtcụm từ hoặc một câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phầnliên quan Mỗi sự kiện chỉ có một và chỉ một nguyên nhân và có thể có sốlượng tùy ý các thành phần liên quan Các thành phần liên quan ở đây có thể
là các thực thể được đề cập đến có quan hệ với sự kiện và mối quan hệ củacác thực thể với nhau trong sự kiện Ví dụ, sự kiện “bầu cử” thì phải có ngườitham gia là “người bầu cử” hoặc “ứng cử viên”, còn các thành phần liên quan
có thể là “thời gian diễn ra” và “địa điểm diễn ra” Hoặc, sự kiện có thể coinhư một mẫu (template) gồm nhiều thuộc tính
Ví dụ: “Vào ngày 20/06/2017 một vụ tai nạn xảy ra trên Quốc lộ 1A đã
làm 3 người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi
ngược chiều” Các thuộc tính biểu diễn cho sự kiện {20/8/2015, Quốc lộ
1A, 3 người bị thương, xe máy}.
Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnhvực khác nhau Vì vậy, việc định nghĩa thế nào là sự kiện cũng được xem xét,quyết định Mỗi lĩnh vực khác nhau thì sự kiện được định nghĩa bởi các thuộctính có thể khác nhau, sự ưu tiên của các thuộc tính về sự kiện này cũng khácnhau Một sự kiện khi được đề cập đến không nhất thiết phải có đầy đủ cácthuộc tính như trong định nghĩa
Trang 161.3 Bài toán phát hiện sự kiện từ dữ liệu văn bản
Phát hiện sự kiện là bài toán quan trọng trong lĩnh vực phát hiện vàtrích chọn thông tin Kết quả của bước phát hiện sự kiện là đầu vào cho quátrình trích chọn sự kiện Nếu kết quả của quá trình phát hiện sự kiện đạt kếtquả tốt sẽ nâng cao hiệu quả của quá trình trích chọn sự kiện
Bài toán phát hiện sự kiện trả lời câu hỏi“làm thể nào để phát hiện
được một văn bản có chứa sự kiện?”
Đầu vào: Văn bản T (ví dụ: bản tin trên các
trang báo điện tử)
không?
Tức là, cho trước đầu vào là văn bản, làm thế nào để phát hiện văn bản
đó có chứa sự kiện? Theo Grishman và cộng sự [15], phát hiện sự kiện là quátrình học không giám sát, tác giả sử dụng các từ, cụm từ để quyết định mộtvăn bản có chứa sự kiện dịch bệnh hay không Hai cụm từ được tác giả sửdụng là “outbreak of…” và “died from…” Theo Doan và cộng sự [1], bàitoán phát hiện sự kiện có thể coi như quá trình học có giám sát Trong nghiêncứu của mình, tác giả sử dụng phương pháp học máy để phân lớp các tài liệu
Bộ phân lớp này dựa trên một tập các dữ liệu đã được gán nhãn Qua quátrình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sựkiện dịch bệnh hay không
Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan vàcộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịchbệnh Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện từ
Bộ phân lớp
Trang 17dữ liệu văn bản cùng với việc xây dựng bộ từ điển hoặc xây dựng một tập dữliệu đã được gán nhãn phù hợp cho từng loại sự kiện.
1.4 Khó khăn và thách thức
Bài toán phát hiện sự kiện thực sự là một bài toán khó Về giai đoạnphân loại sự kiện thuộc miền dữ liệu nào, chúng tôi gặp khó khăn trong việcxây dựng bộ từ điển cho từng loại sự kiện, việc này cần có một lượng lớn dữliệu Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng nhưcông sức
Về giai đoạn phát hiện sự kiện, chúng tôi gặp những khó khăn chungcủa lĩnh vực xử lý ngôn ngữ tự nhiên trên tiếng Việt Bên cạnh đó, bài toánđối mặt với các khó khăn về nhập nhằng ngữ cảnh, tính đa tham chiếu cũngnhư tính đa hình cấu trúc ngữ pháp của văn bản tiếng Việt
1.5 Kết luận chương
Trong Chương này, chúng tôi đã trình bày tổng quan bài toán phát hiện
sự kiện từ dữ liệu văn Trọng tâm của Chương 1 là làm rõ bài toán phát hiện
sự kiện với các định nghĩa sự kiện, phát hiện sự kiện Bên cạnh đó, chươngnày cũng nêu lên những khó khăn, thách thức mà chúng tôi gặp phải trongquá trình nghiên cứu và triển khai các cách tiếp cận phát hiện sự kiện, chi tiết
về các cách tiếp cận trong phát hiện sự kiện sẽ được chúng tôi đề cập trong
Chương 2.
Trang 18Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN
Trong chương này, chúng tôi trình bày một số cách tiếp cận bài toánphát hiện sự kiện từ dữ liệu văn bản, bao gồm: (i) cách tiếp cận dựa trên luật,(ii) cách tiếp cận dựa trên học máy và (iii) cách tiếp cận kết hợp luật và họcmáy
2.1 Cách tiếp cận dựa trên luật
1.1.1 Luật cú pháp
Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntacticpatterns) có thể coi là phương pháp được sử dụng sớm nhất để giải quyết bàitoán phát hiện và trích chọn sự kiện Các mẫu này được xây dựng bởi chuyêngia dưới dạng tập luật Điển hình cho phương pháp này là các luật được biểudiễn dưới dạng biểu thức chính quy
Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin
cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy đã đượcxây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầuvào để phát hiện và trích chọn ra các thông tin tương ứng của các thuộc tính.Đôi khi, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá
Tập luật cú pháp được sử dụng trong phát hiện và trích chọn sự kiện,[9], [10] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng các mẫuvề: địa điểm (place), đối tượng (object) và hành vi (action) để biểu diễn một
sự kiện được phát hiện và trích chọn từ blogs [3] Trong lĩnh vực y sinh,
Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xácđịnh mối quan hệ và các sự kiện [23] Còn trong lĩnh vực tiền và chính trịAone và cộng sự đã dùng luật cú pháp để phát hiện và trích chọn thông tin
Trang 19của sự kiện [2] Luật cú pháp xác định các tham số bên trong văn bản khôngxác định ý nghĩa văn bản.
Ví dụ về luật cú pháp:
[NP][NER][VP]: Cử tri Việt Nam đi bầu cử
[NP][NER][NER][VP]: Đại sứ quán Pháp ở Libya bị đánh bom
[NP][NER][VP][NER][VP][NER]: Thủ tướng Việt Nam lên án
IS tấn công khủng bố tại Anh
2.1.2 Luật ngữ nghĩa
Đôi khi phát hiện và trích chọn sự kiện phải trích chọn các khái niệm
có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn
Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong luật
là sử dụng luật ngữ nghĩa
Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạngbiểu thức chính quy mà là các từ và mối quan hệ giữa chúng
Ví dụ về luật ngữ nghĩa:
Trong câu: “Hội Lim được tổ chức ở Bắc Ninh”.
(Hội Lim, Bắc Ninh) có mối quan hệ là “tổ chức”.
Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vựckhác nhau Ví dụ: Li Fang và cộng sự đã sử dụng luật nghữ nghĩa để phát hiện
và trích chọn thông tin từ sàn chứng khoán [6]; Cohen và cộng sự [4] sử dụngkhái niệm bộ nhận dạng trên miền dữ liệu y sinh để phát hiện và trích chọnthông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử dụng mẫu ngữ nghĩa
Trang 20đề phát hiện sự kiện cho hệ thống cảnh báo sớm [17]; còn Vargas -Vera vàCeljuska đề xuất một bộ khung cho việc phát hiện các sự kiện tập trung trênbáo Knowledge Media Institute (KMI) [18] Phát hiện và trích chọn sự kiệntrong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như:giáo dục, tài chính, chứng khoán, y sinh, hình sự, cháy nổ, pháp luật,…
2.1.3 Biểu diễn tập luật
Theo Sunita Sarawagi [16], một luật cơ bản có dạng:
"mẫu theo ngữ cảnh → hành động"
Ví dụ: Mẫu biểu diễn cho sự kiện {thời gian, địa điểm, tác nhân, hành động}.
“Vào ngày 20/8/2015 một vụ tai nạn xảy ra trên Quốc lộ 1A đã làm 3
người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi ngược chiều”.
Một mẫu theo ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn ghi lạithuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản.Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác địnhqua các tính năng của thẻ trong văn bản và một nhãn tùy chọn Các thuộc tính
có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trongcác thẻ xuất hiện
Hầu hết các hệ thống dựa trên luật được liên tầng, luật được áp dụngtrong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với mộtchú thích như là tính năng đầu vào cho các giai đoạn tiếp theo
Trang 21Ví dụ, phát hiện các địa chỉ liên lạc của người được tạo ra trong hai giaiđoạn của luật: giai đoạn thứ nhất, nhãn thẻ cùng với nhãn thực thể như: tênngười, vị trí địa lý như tên đường, tên thành phố và địa chỉ thư điện tử Giaiđoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như
là thuộc tính bổ sung
2.1.3.1 Các thuộc tính của các thẻ
Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộctính thu được thông qua một hoặc nhiều các tiêu chí sau:
Các chuỗi đại diện cho thẻ
Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗnhợp, số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, …
Nhãn từ loại (Part of speech)
Danh sách xuất hiện các thẻ của từ điển Thông thường, điều này cóthể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắtđầu, kết thúc, hoặc từ giữa của từ điển Ví dụ, một thẻ như " New "phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ đượcliên kết với một thuộc tính "Dictionary - Lookup = start of city"
Chú thích kèm theo các bước xử lý trước đó
Luật để xác định một thực thể đơn: Luật để nhận ra một thực thể đơnđầy đủ bao gồm ba loại mẫu
Mẫu thứ nhất tùy chọn ghi lại bối cảnh trước khi bắt đầu của mộtthực thể
Mẫu thứ hai mẫu kết hợp các thẻ trong các thực thể
Mẫu thứ ba tùy chọn để ghi lại bối cảnh sau khi kết thúc của thựcthể
Trang 22Ví dụ về một mẫu để xác định tên người có dạng "GS Vũ Khiêu" baogồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa cácmục như: “GS”, “PGS”, “PGS.TS”, “TS”, “ThS”,…), một dấu chấm và hai từviết hoa là:
({Dictionary - Lookup = Titles}
Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The ABC Corp.” or
“XYZ Ltd.” được tạo bởi:
Trang 23({String=“The”}?
{Orthography type = All capitalized}
{Orthography type = Capitalized word, DictionaryType =Company end})
→Company name
2.1.3.2 Các luật đánh dấu ranh giới thực thể
Đối với một số loại thực thể, đặc biệt như tiêu đề cuốn sách hay tiêu đềcác bài báo có số đơn vị từ quá dài, các luật đánh dấu ranh giới thực thể sẽ rấthiệu quả để xác định sự bắt đầu và kết thúc một ranh giới thực thể Đó là loại
bỏ một cách độc lập và tất cả các thẻ ở trong giữa hai thẻ đánh dấu đầu vàcuối được gọi là thực thể Nhìn nhận vấn đề theo một cách khác, mỗi luật cơbản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này cóthể là một thẻ bắt đầu hoặc một thẻ kết thúc Để giải quyết sự không nhấtquán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấukết thúc, điều này cần có một cách giải quyết đặc biệt
Ví dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầucủa một tên tạp chí trong một bản trích dẫn:
({String=“to”}
{String=“appear”}
{String=“in”}):jstart
({Orthography type = Capitalized word}{2-5})
→insert <journal> after:jstart
Trang 242.1.3.3 Các luật cho đa thực thể
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại
diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận củanhiều đối tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bảnghi dữ liệu theo định hướng
Ví dụ, hệ thống dựa trên luật WHISK [14] đã được nhắm tới cho việckhai thác từ hồ sơ có cấu trúc như hồ sơ y tế, các bản ghi bảo trì thiết bị, vàphân loại quảng cáo Các luật này được viết lại từ [14], để trích chọn hai thựcthể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ
({Orthography type = Digit}):Bedrooms
({String =“BR”}) ({}*)
({String =“$”})
({Orthography type = Number}):Price
→Number of Bedrooms =:Bedroom, Rent =: Price
2.2 Cách tiếp cận dựa trên học máy
Cách tiếp cận dựa trên học máy đôi khi còn được gọi với tên là tiếp cậndựa trên dữ liệu Cách tiếp cận này thường được sử dụng cho các ứng dụng xử
lý ngôn ngữ tự nhiên và tập dữ liệu đủ lớn để huấn luyện cho phù hợp với cáchiện tượng ngôn ngữ [11] Cách này thường dựa trên mô hình xác suất, lýthuyết thông tin và đại số tuyến tính Một số phương pháp cơ bản thườngđược sử dụng là tần số xuất hiện của một từ trong văn bản và tần số nghịchđảo của một từ trong tập văn bản(TF-IDF), n-grams hay phân cụm.
Trang 25Có nhiều nghiên cứu áp dụng cách tiếp cận dựa trên dữ liệu để pháthiện và trích chọn thông tin các sự kiện Năm 2009, Okamoto và cộng sự [11]dựng một khung để phát hiện các sự kiện cục bộ Trong nghiên cứu tác giả sửdụng các kỹ thuật phân cụm phân cấp Trong khi đó, phân cụm có thể sinh racác kết quả tốt cho việc phát hiện và trích chọn sự kiện, Liu và cộng sự [8] kếthợp các đồ thị có trọng số vô hướng chia đôi (weighted undirected bipartitegraphs) và phân cụm để phát hiện, trích chọn các thực thể chính cùng các sựkiện có ý nghĩa từ các thông tin hàng ngày Các kỹ thuật phân cụm cũng được
sử dụng bởi Tanev và cộng sự [5] để phát hiện và trích chọn các sự kiện: bạolực, thảm họa cho hệ thống giám sát
Cách tiếp cận học máy không đòi hỏi người xây dựng cần đến các kiếnthức về ngôn ngữ và chuyên gia Nhưng cách tiếp cận này lại đòi hỏi mộtlượng dữ liệu lớn để làm tập huấn luyện Cách tiếp cận dựa trên dữ liệu cầnxây dựng xác suất để xấp xỉ mô hình huấn luyện với dữ liệu
2.2.1 Phương pháp k láng giềng gần nhất
Có nhiều phương pháp học máy được áp dụng vào bài toán phát hiện vàtrích chọn sự kiện, trong đó k-NN là một trong những thuật toán được sửdụng sớm nhất Với học máy có giám sát, k-NN được biết đến là một phươngpháp phân lớp rất tốt trong việc nhận dạng các mẫu và phân loại văn bản
Trong công bố của Yiming Yang và các cộng sự [20], nhóm đã tiếnhành áp dụng k-NN vào bài toán theo phát hiện và theo dõi chuỗi sự kiện, ưuđiểm của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết vềcác sự kiện
Trang 26Bộ phân lớp sẽ tiến hành học trên từng sự kiện riêng biệt, khi một sựkiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một véc-tơ đặc trưng và
so sánh với các sự kiện đã có trong tập huấn luyện
2.2.2 Phương pháp lai kNN-SVM
Máy véc-tơ hỗ trợ SVM (Support Vector Machine) được đánh giá làmột thuật toán có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt
là những bài toán với dữ liệu có số chiều lớn như véc-tơ biểu diễn văn bản
Để tận dụng điều này, Zhen Lei và cộng sự đã đưa ra hướng giải quyếtbài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết hợp hai thuật toán SVM
và k-NN [24]
2.2.3 Phương pháp sử dụng trọng số TF – IDF
Phương pháp sử dụng các độ đo TF – IDF là một trong những phươngpháp thường được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sựkiện
Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng
w i là độ liên quan của đặc trưng q i
d i là độ tin cậy được thể hiện ở công thức (2.2)
Trang 27Độ tin cậy d i được tính bởi công thức sau:
d i=belief(q i , d , c)=α+(1−α )× tf ×idf (2.2)Trong đó:
tf được thể hiện ở công thức (2.3).
idf được thể hiện ở công thức (2.4).
t là số lần xuất hiện của đặc trưng trong văn bản.
dl là độ dài của văn bản tính theo đơn vị từ.
avg_dl là số lượng trung bình đặc trưng trong một văn bản.
Độ đo idf được tính bởi công thức (2.4):
C là số văn bản trong bộ ngữ liệu đã được chuẩn hóa.
df là số lượng văn bản có ít nhất một đặc trưng xuất hiện.
2.2.4 Phương pháp sử dụng thông tin thời gian – địa điểm
Trong bài toán phát hiện sự kiện, các thông tin thời gian và địa điểm
Trang 28luôn là thuộc tính chính để biểu diễn một sự kiện do vậy sử dụng các thuộctính này vào việc phát hiện sự kiện là phù hợp với bài toán.
2.2.4.1 Thông tin thời gian
Thông tin về thời gian được sử dụng vào hai việc Thứ nhất, xâu chuỗicác sự kiện xảy ra Thứ hai, xâu chuỗi các sự kiện xảy ra vào chuỗi đã cótrước Thông tin thời gian thường có ba dạng:
Dạng rõ ràng: ngày 02 tháng 02 năm 2017;
Dạng không rõ ràng: ngày hôm kia;
Dạng ước lượng: cách đây chừng 5 năm
Trong [21], khái niệm tham chiếu sự kiện được đưa ra để chỉ những cụm
từ mang nghĩa tham chiếu từ tin tức này qua tin tức khác để thể hiện tínhchuỗi của sự kiện Ví dụ, “ ngay sau đó, ngày 02/09” là một cụm tham chiếu
sự kiện Đây là cơ sở để tính độ tương đồng giữa các tin tức chứa cụm thamchiếu sự kiện với các tin tức chứa sự kiện đã xảy ra
Tin tức chứa cụm tham chiếu sự kiện sẽ được quyết định sự kiện cóthuộc chuỗi nào trong số những chuỗi đã tồn tại hay không Một số phươngpháp tính độ tương đồng đã được đưa ra Điển hình là:
¿x(X , Y )=cover t(X t , Y t)∗RW S '
Trong công thức (2.5), X t , Y t là các cụm tham chiếu sự kiện tương ứng
của sự kiện X, Y và RWS’(X t ,Y t ) là trọng số xếp hạng.
2.2.4.2 Thông tin địa điểm
Cũng giống như đặc trưng thời gian, địa điểm là một thuộc tính quantrọng đối với sự kiện Tuy nhiên, trong rất nhiều trường hợp, thông tin thời