1. Trang chủ
  2. » Công Nghệ Thông Tin

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH: NGHIÊN CỨU PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN

57 1,5K 11

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 316,84 KB

Nội dung

Sau đó, chúng tôitrình bày sơ lược về bài toán phát hiện sự kiện từ dữ liệu văn bản cùng sự cầnthiết của nó trong nghiên cứu khoa học cũng như trong thực tiễn.. GIỚI THIỆUChương đầu tiên

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

Trang 3

Người hướng dẫn: TS Lê Quang Hùng

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này do tôi thực hiện dưới sự hướng dẫn của

TS Lê Quang Hùng Các nội dung trích dẫn từ các nghiên cứu của các tác giảkhác mà tôi trình bày trong luận văn này đã được ghi rõ nguồn trong phần tàiliệu tham khảo

Bình Định, tháng 07 năm 2017

Đỗ Đình Lân

Trang 5

LỜI CẢM ƠN

Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới

TS Lê Quang Hùng đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôitrong suốt quá trình thực hiện luận văn tốt nghiệp

Tôi cũng cảm ơn các Thầy/Cô ở Trường Đại học Quy Nhơn đã tạo điềukiện thuận lợi cho tôi học tập và nghiên cứu tại đây

Tôi xin gửi lời cảm ơn tới các anh chị, các bạn học viên lớp Cao họcKhoa học máy tính K18 - Trường Đại học Quy Nhơn đã hỗ trợ tôi rất nhiềutrong quá trình thực hiện luận văn

Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngườithân yêu luôn bên cạnh: quan tâm, động viên tôi trong suốt quá trình học tập

và thực hiện luận văn tốt nghiệp này

Tôi xin chân thành cảm ơn!

Bình Định, tháng 07 năm 2017

Đỗ Đình Lân

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH vii

LỜI MỞ ĐẦU 1

1 Lí do chọn đề tài 1

2 Mục tiêu nghiên cứu 1

3 Bố cục của luận văn 2

Chương 1 GIỚI THIỆU 3

1.1 Tổng quan về sự kiện 3

1.2 Định nghĩa sự kiện 4

1.3 Bài toán phát hiện sự kiện từ dữ liệu văn bản 6

1.4 Khó khăn và thách thức 7

1.5 Kết luận chương 7

Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN 8

2.1 Cách tiếp cận dựa trên luật 8

2.1.1 Luật cú pháp 8

2.1.2 Luật ngữ nghĩa 9

2.1.3 Biểu diễn tập luật 10

2.1.3.1 Các thuộc tính của các thẻ 11

2.1.3.2 Các luật đánh dấu ranh giới thực thể 13

2.1.3.3 Các luật cho đa thực thể 14

2.2 Cách tiếp cận dựa trên học máy 14

2.2.1 Phương pháp k láng giềng gần nhất 15

Trang 7

2.2.2 Phương pháp lai kNN-SVM 16

2.2.3 Phương pháp sử dụng trọng số TF – IDF 16

2.2.4 Phương pháp sử dụng thông tin thời gian – địa điểm 18

2.2.4.1 Thông tin thời gian 18

2.2.4.2 Thông tin địa điểm 19

2.3 Cách tiếp cận kết hợp luật và học máy 19

2.4 Nhận xét 20

2.5 Kết luận chương 22

Chương 3: MÔ HÌNH PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN 23

3.1 Mô hình phát hiện sự kiện 23

3.1.1 Lọc dữ liệu 25

3.1.2 Phát hiện sự kiện 28

3.2 Thực nghiệm 35

3.2.1 Dữ liệu thực nghiệm 35

3.2.2 Môi trường và các công cụ 35

3.2.3 Cài đặt 36

3.3 Đánh giá 37

3.3.1 Đánh giá quá trình phân lớp dựa trên tiêu đề bản tin 37

3.3.2 Đánh giá quá trình phân lớp dựa trên nội dung bản tin 38

3.3.3 So sánh 38

3.4 Nhận xét 39

3.5 Kết luận chương 39

KẾT LUẬN 41

TÀI LIỆU THAM KHẢO 43

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

ACE Automatic Content Extraction Trích chọn nội dung tự độngIDF Inverse Document Frequency Tần số tài liệu đảo ngượck-NN k Nearest Neighbours K láng giềng gần nhất

NER Name Entity Recognition Nhận dạng thực thể tên

SVM Support Vector Machine Máy véc-tơ hỗ trợ

TDT Topic Detection and Tracking Phát hiện và theo dõi chủ đề

Trang 9

DANH MỤC CÁC BẢNG

Bảng 3.1 Các thành phần của một bản tin 30

Bảng 3.2 Cấu hình phần cứng 36

Bảng 3.3 Công cụ phần mềm sử dụng 36

Bảng 3.4 Đánh giá kết quả phân lớp dựa trên tiêu đề bản tin 37

Bảng 3.5 Đánh giá kết quả phân lớp dựa trên nội dung bản tin 38

Bảng 3.6 So sánh kết quả phân lớp dựa trên tiêu đề và nội dung bản tin 38

Trang 10

DANH MỤC CÁC HÌNH

Hình 3.1 Mô hình tổng quát phát hiện sự kiện 24

Hình 3.2 Mô hình lọc dữ liệu miền thể thao 25

Hình 3.3 Minh họa từ điển thể thao 27

Hình 3.4 Mô hình phát hiện sự kiện thể thao 28

Hình 3.5 Ví dụ kết quả tách từ trong câu 30

Hình 3.6 Minh họa tập đặc trưng 31

Hình 3.7 Véc-tơ hóa tập đặc trưng trong tiêu đề bản bản tin 33

Hình 3.8 Tiến trình phân lớp các bản tin 34

Hình 3.9 Minh họa phân lớp bằng công cụ SVMLight 35

Hình 3.10 So sánh kết quả phân lớp dựa trên tiêu đề và nội dung bản tin 39

Trang 11

Tin tức, thông tin, sự kiện sẽ có giá trị cao khi nó được truyền tải đếnngười dùng nhanh và chính xác, đặc biệt các thông tin, sự kiện liên quan đến

an ninh - chính trị, kinh tế, đời sống, giáo dục, pháp luật, thể thao,… Vậy làmthế nào để phát hiện, tập hợp nhanh các sự kiện đó từ các văn bản, các trangtin tức và trả lời được các câu hỏi “sự kiện gì? xảy ra ở đâu? thời gian nào?diễn biến sự kiện như thế nào ” cho người dùng?

Xuất phát từ nhu cầu thực tiễn đó, chúng tôi lựa chọn thực hiện đề tài

“Phát hiện sự kiện từ dữ liệu văn bản”

1 Mục tiêu nghiên cứu

Trong luận văn này, chúng tôi đặt ra mục tiêu: tìm hiểu về bài toán pháthiện sự kiện từ dữ liệu văn bản và lựa chọn cách tiếp cận phù hợp để cài đặtthực nghiệm trên dữ liệu văn bản tiếng Việt

Trang 12

1 Bố cục của luận văn

Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 3 chươngvới bố cục như sau:

Chương 1 GIỚI THIỆU Chương đầu tiên của luận văn, chúng tôi giới

thiệu tổng quan về lĩnh vực phát hiện và trích chọn sự kiện Sau đó, chúng tôitrình bày sơ lược về bài toán phát hiện sự kiện từ dữ liệu văn bản cùng sự cầnthiết của nó trong nghiên cứu khoa học cũng như trong thực tiễn

Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN Trong chương

này, chúng tôi trình bày một số cách tiếp cận bài toán phát hiện sự kiện từ dữliệu văn bản bao gồm: cách tiếp cận dựa trên luật, cách tiếp cận dựa trên họcmáy và cách tiếp cận kết hợp luật và học máy

Chương 3: MÔ HÌNH PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN

BẢN Trong chương cuối, chúng tôi tập trung phân tích làm rõ bài toán phát

hiện sự kiện Trình bày mô hình và phương pháp giải quyết bài toán phát hiện

sự kiện từ dữ liệu văn bản Cuối chương, chúng tôi trình bày phần thựcnghiệm và đánh giá kết quả

Trang 13

Chương 1 GIỚI THIỆU

Chương đầu tiên của luận văn, chúng tôi giới thiệu tổng quan về bàitoán phát hiện sự kiện như: tổng quan về sự kiện; định nghĩa sự kiện; phátbiểu bài toán phát hiện sự kiện từ dữ liệu văn bản Cuối chương, chúng tôitrình bày một số khó khăn và thách thức khi giải quyết bài toán

1.1 Tổng quan về sự kiện

Phát hiện và trích chọn sự kiện với vai trò phát hiện và trích chọn ra cácthông tin có ý nghĩa từ tập dữ liệu được cộng đồng khoa học rất quan tâm vàđầu tư nghiên cứu Năm 1987, hội nghị MUC (Message UnderstandingConferences) được tổ chức với sự hỗ trợ của quỹ nghiên cứu Bộ quốc phòngHoa Kỳ và lần đầu tiên khái niệm “event” (sự kiện) được đề cập Sau đó,nhiều hội nghị được tổ chức tạo thành dãy hội nghị MUC Các chủ đề nghiêncứu trong hội nghị là các chủ đề về: tội phạm, khủng bố, đánh bom,… mộttrong những đóng góp lớn của MUC là đưa ra việc trích chọn thông tin dựatrên mẫu Các mẫu được ban tổ chức quy định và các đội tham gia cần điềnthông tin vào các mẫu này một cách tự động Cuối cùng, các sự kiện đượctrích chọn gồm các thông tin: tổ chức, đối tượng tham gia (người, sự vật, sựviệc), thời gian, địa điểm, số lượng,… Độ chính xác và độ bao phủ của cácnghiên cứu tham dự MUC nằm trong khoảng 50% đến 60% [12]

Chương trình Phát hiện và theo dõi chủ đề TDT (Topic Detection and

Tracking) được tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các

trường đại học tham gia Chương trình này được phối hợp bởi Viện công nghệ

và chuẩn hoá quốc gia Hoa Kỳ (NIST) nhằm giải quyết bài toán phát hiện,theo dõi và xâu chuỗi sự kiện Một số nhóm nghiên cứu tham gia chươngtrình như: nhóm CMU của Đại học Carnegie Mellon, nhóm BBN từ công ty

Trang 14

BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN củaTrường Đại học Pennsylvania (UPENN) Các bài toán quan trọng của TDTgồm: theo dõi chủ đề, phát hiện chủ đề, phát hiện sự kiện khởi đầu và pháthiện liên kết.

Chương trình Trích chọn nội dung tự động của Đại học Pennsylvania

cũng thu hút được nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọnthông tin cũng như trích chọn sự kiện Chương trình này tập trung vào cácngôn ngữ như tiếng Anh, Trung Quốc và Ả Rập Các thông tin được tríchchọn gồm các thực thể, quan hệ giữa các thực thể và các sự kiện chúng thamgia vào

1.2 Định nghĩa sự kiện

Tùy theo từng lĩnh vực và dữ liệu, các nhà nghiên cứu có nhiều cáchđịnh nghĩa sự kiện khác nhau Trên miền tin tức, Allan và cộng sự (1998)định nghĩa tin tức có chứa sự kiện nếu nó có bốn yếu tố sau: hành vi, chủ thể,thời gian, địa điểm [7] Hành vi là các hoạt động hay hành động gây ra sựkiện Chủ thể là con người, sự vật hoặc sự việc Thời gian là thời gian xảy ra

sự kiện Địa điểm là nơi diễn ra sự kiện

Ví dụ: “Chiều ngày 20/06/2017 đã xảy ra một vụ tai nạn trên đường Quốc lộ 19 làm cho 4 người chết và 3 người bị thương”

Cũng theo nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một

sự kiện rất khó bởi sự đa dạng của ngôn ngữ, tính nhập nhằng liên quan tớingữ cảnh và sự phức tạp về văn hóa của mỗi cộng đồng Ví dụ sau đây có đủ

bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo thống kê, trong 3 tháng cuối năm, số người tử vong do cháy nổ trên địa bàn Tỉnh Bình Định đã tăng

Trang 15

lên con số 19” Trong phạm vi giải quyết bài toán phát hiện sự kiện, việc địnhnghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên.

Tại hội nghị MUC (1987) cũng đã định nghĩa sự kiện như sau: “một sựkiện có tác nhân, thời gian, địa điểm và tác động tới môi trường xung quanh”.Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng cóliên quan đến người tham gia Sự kiện được đề cập đến được mô tả bởi mộtcụm từ hoặc một câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phầnliên quan Mỗi sự kiện chỉ có một và chỉ một nguyên nhân và có thể có sốlượng tùy ý các thành phần liên quan Các thành phần liên quan ở đây có thể

là các thực thể được đề cập đến có quan hệ với sự kiện và mối quan hệ củacác thực thể với nhau trong sự kiện Ví dụ, sự kiện “bầu cử” thì phải có ngườitham gia là “người bầu cử” hoặc “ứng cử viên”, còn các thành phần liên quan

có thể là “thời gian diễn ra” và “địa điểm diễn ra” Hoặc, sự kiện có thể coinhư một mẫu (template) gồm nhiều thuộc tính

Ví dụ: “Vào ngày 20/06/2017 một vụ tai nạn xảy ra trên Quốc lộ 1A đã

làm 3 người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi

ngược chiều”  Các thuộc tính biểu diễn cho sự kiện {20/8/2015, Quốc lộ

1A, 3 người bị thương, xe máy}.

Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnhvực khác nhau Vì vậy, việc định nghĩa thế nào là sự kiện cũng được xem xét,quyết định Mỗi lĩnh vực khác nhau thì sự kiện được định nghĩa bởi các thuộctính có thể khác nhau, sự ưu tiên của các thuộc tính về sự kiện này cũng khácnhau Một sự kiện khi được đề cập đến không nhất thiết phải có đầy đủ cácthuộc tính như trong định nghĩa

Trang 16

1.3 Bài toán phát hiện sự kiện từ dữ liệu văn bản

Phát hiện sự kiện là bài toán quan trọng trong lĩnh vực phát hiện vàtrích chọn thông tin Kết quả của bước phát hiện sự kiện là đầu vào cho quátrình trích chọn sự kiện Nếu kết quả của quá trình phát hiện sự kiện đạt kếtquả tốt sẽ nâng cao hiệu quả của quá trình trích chọn sự kiện

Bài toán phát hiện sự kiện trả lời câu hỏi“làm thể nào để phát hiện

được một văn bản có chứa sự kiện?”

Đầu vào: Văn bản T (ví dụ: bản tin trên các

trang báo điện tử)

không?

Tức là, cho trước đầu vào là văn bản, làm thế nào để phát hiện văn bản

đó có chứa sự kiện? Theo Grishman và cộng sự [15], phát hiện sự kiện là quátrình học không giám sát, tác giả sử dụng các từ, cụm từ để quyết định mộtvăn bản có chứa sự kiện dịch bệnh hay không Hai cụm từ được tác giả sửdụng là “outbreak of…” và “died from…” Theo Doan và cộng sự [1], bàitoán phát hiện sự kiện có thể coi như quá trình học có giám sát Trong nghiêncứu của mình, tác giả sử dụng phương pháp học máy để phân lớp các tài liệu

Bộ phân lớp này dựa trên một tập các dữ liệu đã được gán nhãn Qua quátrình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sựkiện dịch bệnh hay không

Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan vàcộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịchbệnh Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện từ

Bộ phân lớp

Trang 17

dữ liệu văn bản cùng với việc xây dựng bộ từ điển hoặc xây dựng một tập dữliệu đã được gán nhãn phù hợp cho từng loại sự kiện.

1.4 Khó khăn và thách thức

Bài toán phát hiện sự kiện thực sự là một bài toán khó Về giai đoạnphân loại sự kiện thuộc miền dữ liệu nào, chúng tôi gặp khó khăn trong việcxây dựng bộ từ điển cho từng loại sự kiện, việc này cần có một lượng lớn dữliệu Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng nhưcông sức

Về giai đoạn phát hiện sự kiện, chúng tôi gặp những khó khăn chungcủa lĩnh vực xử lý ngôn ngữ tự nhiên trên tiếng Việt Bên cạnh đó, bài toánđối mặt với các khó khăn về nhập nhằng ngữ cảnh, tính đa tham chiếu cũngnhư tính đa hình cấu trúc ngữ pháp của văn bản tiếng Việt

1.5 Kết luận chương

Trong Chương này, chúng tôi đã trình bày tổng quan bài toán phát hiện

sự kiện từ dữ liệu văn Trọng tâm của Chương 1 là làm rõ bài toán phát hiện

sự kiện với các định nghĩa sự kiện, phát hiện sự kiện Bên cạnh đó, chươngnày cũng nêu lên những khó khăn, thách thức mà chúng tôi gặp phải trongquá trình nghiên cứu và triển khai các cách tiếp cận phát hiện sự kiện, chi tiết

về các cách tiếp cận trong phát hiện sự kiện sẽ được chúng tôi đề cập trong

Chương 2.

Trang 18

Chương 2 MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN

Trong chương này, chúng tôi trình bày một số cách tiếp cận bài toánphát hiện sự kiện từ dữ liệu văn bản, bao gồm: (i) cách tiếp cận dựa trên luật,(ii) cách tiếp cận dựa trên học máy và (iii) cách tiếp cận kết hợp luật và họcmáy

2.1 Cách tiếp cận dựa trên luật

1.1.1 Luật cú pháp

Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntacticpatterns) có thể coi là phương pháp được sử dụng sớm nhất để giải quyết bàitoán phát hiện và trích chọn sự kiện Các mẫu này được xây dựng bởi chuyêngia dưới dạng tập luật Điển hình cho phương pháp này là các luật được biểudiễn dưới dạng biểu thức chính quy

Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin

cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy đã đượcxây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầuvào để phát hiện và trích chọn ra các thông tin tương ứng của các thuộc tính.Đôi khi, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá

Tập luật cú pháp được sử dụng trong phát hiện và trích chọn sự kiện,[9], [10] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng các mẫuvề: địa điểm (place), đối tượng (object) và hành vi (action) để biểu diễn một

sự kiện được phát hiện và trích chọn từ blogs [3] Trong lĩnh vực y sinh,

Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xácđịnh mối quan hệ và các sự kiện [23] Còn trong lĩnh vực tiền và chính trịAone và cộng sự đã dùng luật cú pháp để phát hiện và trích chọn thông tin

Trang 19

của sự kiện [2] Luật cú pháp xác định các tham số bên trong văn bản khôngxác định ý nghĩa văn bản.

Ví dụ về luật cú pháp:

 [NP][NER][VP]: Cử tri Việt Nam đi bầu cử

 [NP][NER][NER][VP]: Đại sứ quán Pháp ở Libya bị đánh bom

 [NP][NER][VP][NER][VP][NER]: Thủ tướng Việt Nam lên án

IS tấn công khủng bố tại Anh

2.1.2 Luật ngữ nghĩa

Đôi khi phát hiện và trích chọn sự kiện phải trích chọn các khái niệm

có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn

Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong luật

là sử dụng luật ngữ nghĩa

Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạngbiểu thức chính quy mà là các từ và mối quan hệ giữa chúng

Ví dụ về luật ngữ nghĩa:

Trong câu: “Hội Lim được tổ chức ở Bắc Ninh”.

(Hội Lim, Bắc Ninh) có mối quan hệ là “tổ chức”.

Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vựckhác nhau Ví dụ: Li Fang và cộng sự đã sử dụng luật nghữ nghĩa để phát hiện

và trích chọn thông tin từ sàn chứng khoán [6]; Cohen và cộng sự [4] sử dụngkhái niệm bộ nhận dạng trên miền dữ liệu y sinh để phát hiện và trích chọnthông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử dụng mẫu ngữ nghĩa

Trang 20

đề phát hiện sự kiện cho hệ thống cảnh báo sớm [17]; còn Vargas -Vera vàCeljuska đề xuất một bộ khung cho việc phát hiện các sự kiện tập trung trênbáo Knowledge Media Institute (KMI) [18] Phát hiện và trích chọn sự kiệntrong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như:giáo dục, tài chính, chứng khoán, y sinh, hình sự, cháy nổ, pháp luật,…

2.1.3 Biểu diễn tập luật

Theo Sunita Sarawagi [16], một luật cơ bản có dạng:

"mẫu theo ngữ cảnh → hành động"

Ví dụ: Mẫu biểu diễn cho sự kiện {thời gian, địa điểm, tác nhân, hành động}.

“Vào ngày 20/8/2015 một vụ tai nạn xảy ra trên Quốc lộ 1A đã làm 3

người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi ngược chiều”.

Một mẫu theo ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn ghi lạithuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản.Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác địnhqua các tính năng của thẻ trong văn bản và một nhãn tùy chọn Các thuộc tính

có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trongcác thẻ xuất hiện

Hầu hết các hệ thống dựa trên luật được liên tầng, luật được áp dụngtrong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với mộtchú thích như là tính năng đầu vào cho các giai đoạn tiếp theo

Trang 21

Ví dụ, phát hiện các địa chỉ liên lạc của người được tạo ra trong hai giaiđoạn của luật: giai đoạn thứ nhất, nhãn thẻ cùng với nhãn thực thể như: tênngười, vị trí địa lý như tên đường, tên thành phố và địa chỉ thư điện tử Giaiđoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như

là thuộc tính bổ sung

2.1.3.1 Các thuộc tính của các thẻ

Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộctính thu được thông qua một hoặc nhiều các tiêu chí sau:

 Các chuỗi đại diện cho thẻ

 Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗnhợp, số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, …

 Nhãn từ loại (Part of speech)

 Danh sách xuất hiện các thẻ của từ điển Thông thường, điều này cóthể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắtđầu, kết thúc, hoặc từ giữa của từ điển Ví dụ, một thẻ như " New "phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ đượcliên kết với một thuộc tính "Dictionary - Lookup = start of city"

 Chú thích kèm theo các bước xử lý trước đó

Luật để xác định một thực thể đơn: Luật để nhận ra một thực thể đơnđầy đủ bao gồm ba loại mẫu

 Mẫu thứ nhất tùy chọn ghi lại bối cảnh trước khi bắt đầu của mộtthực thể

 Mẫu thứ hai mẫu kết hợp các thẻ trong các thực thể

 Mẫu thứ ba tùy chọn để ghi lại bối cảnh sau khi kết thúc của thựcthể

Trang 22

Ví dụ về một mẫu để xác định tên người có dạng "GS Vũ Khiêu" baogồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa cácmục như: “GS”, “PGS”, “PGS.TS”, “TS”, “ThS”,…), một dấu chấm và hai từviết hoa là:

({Dictionary - Lookup = Titles}

Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The ABC Corp.” or

“XYZ Ltd.” được tạo bởi:

Trang 23

({String=“The”}?

{Orthography type = All capitalized}

{Orthography type = Capitalized word, DictionaryType =Company end})

→Company name

2.1.3.2 Các luật đánh dấu ranh giới thực thể

Đối với một số loại thực thể, đặc biệt như tiêu đề cuốn sách hay tiêu đềcác bài báo có số đơn vị từ quá dài, các luật đánh dấu ranh giới thực thể sẽ rấthiệu quả để xác định sự bắt đầu và kết thúc một ranh giới thực thể Đó là loại

bỏ một cách độc lập và tất cả các thẻ ở trong giữa hai thẻ đánh dấu đầu vàcuối được gọi là thực thể Nhìn nhận vấn đề theo một cách khác, mỗi luật cơbản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này cóthể là một thẻ bắt đầu hoặc một thẻ kết thúc Để giải quyết sự không nhấtquán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấukết thúc, điều này cần có một cách giải quyết đặc biệt

Ví dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầucủa một tên tạp chí trong một bản trích dẫn:

({String=“to”}

{String=“appear”}

{String=“in”}):jstart

({Orthography type = Capitalized word}{2-5})

→insert <journal> after:jstart

Trang 24

2.1.3.3 Các luật cho đa thực thể

Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại

diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận củanhiều đối tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bảnghi dữ liệu theo định hướng

Ví dụ, hệ thống dựa trên luật WHISK [14] đã được nhắm tới cho việckhai thác từ hồ sơ có cấu trúc như hồ sơ y tế, các bản ghi bảo trì thiết bị, vàphân loại quảng cáo Các luật này được viết lại từ [14], để trích chọn hai thựcthể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ

({Orthography type = Digit}):Bedrooms

({String =“BR”}) ({}*)

({String =“$”})

({Orthography type = Number}):Price

→Number of Bedrooms =:Bedroom, Rent =: Price

2.2 Cách tiếp cận dựa trên học máy

Cách tiếp cận dựa trên học máy đôi khi còn được gọi với tên là tiếp cậndựa trên dữ liệu Cách tiếp cận này thường được sử dụng cho các ứng dụng xử

lý ngôn ngữ tự nhiên và tập dữ liệu đủ lớn để huấn luyện cho phù hợp với cáchiện tượng ngôn ngữ [11] Cách này thường dựa trên mô hình xác suất, lýthuyết thông tin và đại số tuyến tính Một số phương pháp cơ bản thườngđược sử dụng là tần số xuất hiện của một từ trong văn bản và tần số nghịchđảo của một từ trong tập văn bản(TF-IDF), n-grams hay phân cụm.

Trang 25

Có nhiều nghiên cứu áp dụng cách tiếp cận dựa trên dữ liệu để pháthiện và trích chọn thông tin các sự kiện Năm 2009, Okamoto và cộng sự [11]dựng một khung để phát hiện các sự kiện cục bộ Trong nghiên cứu tác giả sửdụng các kỹ thuật phân cụm phân cấp Trong khi đó, phân cụm có thể sinh racác kết quả tốt cho việc phát hiện và trích chọn sự kiện, Liu và cộng sự [8] kếthợp các đồ thị có trọng số vô hướng chia đôi (weighted undirected bipartitegraphs) và phân cụm để phát hiện, trích chọn các thực thể chính cùng các sựkiện có ý nghĩa từ các thông tin hàng ngày Các kỹ thuật phân cụm cũng được

sử dụng bởi Tanev và cộng sự [5] để phát hiện và trích chọn các sự kiện: bạolực, thảm họa cho hệ thống giám sát

Cách tiếp cận học máy không đòi hỏi người xây dựng cần đến các kiếnthức về ngôn ngữ và chuyên gia Nhưng cách tiếp cận này lại đòi hỏi mộtlượng dữ liệu lớn để làm tập huấn luyện Cách tiếp cận dựa trên dữ liệu cầnxây dựng xác suất để xấp xỉ mô hình huấn luyện với dữ liệu

2.2.1 Phương pháp k láng giềng gần nhất

Có nhiều phương pháp học máy được áp dụng vào bài toán phát hiện vàtrích chọn sự kiện, trong đó k-NN là một trong những thuật toán được sửdụng sớm nhất Với học máy có giám sát, k-NN được biết đến là một phươngpháp phân lớp rất tốt trong việc nhận dạng các mẫu và phân loại văn bản

Trong công bố của Yiming Yang và các cộng sự [20], nhóm đã tiếnhành áp dụng k-NN vào bài toán theo phát hiện và theo dõi chuỗi sự kiện, ưuđiểm của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết vềcác sự kiện

Trang 26

Bộ phân lớp sẽ tiến hành học trên từng sự kiện riêng biệt, khi một sựkiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một véc-tơ đặc trưng và

so sánh với các sự kiện đã có trong tập huấn luyện

2.2.2 Phương pháp lai kNN-SVM

Máy véc-tơ hỗ trợ SVM (Support Vector Machine) được đánh giá làmột thuật toán có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt

là những bài toán với dữ liệu có số chiều lớn như véc-tơ biểu diễn văn bản

Để tận dụng điều này, Zhen Lei và cộng sự đã đưa ra hướng giải quyếtbài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết hợp hai thuật toán SVM

và k-NN [24]

2.2.3 Phương pháp sử dụng trọng số TF – IDF

Phương pháp sử dụng các độ đo TF – IDF là một trong những phươngpháp thường được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sựkiện

Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng

w i là độ liên quan của đặc trưng q i

d i là độ tin cậy được thể hiện ở công thức (2.2)

Trang 27

Độ tin cậy d i được tính bởi công thức sau:

d i=belief(q i , d , c)=α+(1−α )× tf ×idf (2.2)Trong đó:

tf được thể hiện ở công thức (2.3).

idf được thể hiện ở công thức (2.4).

t là số lần xuất hiện của đặc trưng trong văn bản.

dl là độ dài của văn bản tính theo đơn vị từ.

avg_dl là số lượng trung bình đặc trưng trong một văn bản.

Độ đo idf được tính bởi công thức (2.4):

C là số văn bản trong bộ ngữ liệu đã được chuẩn hóa.

df là số lượng văn bản có ít nhất một đặc trưng xuất hiện.

2.2.4 Phương pháp sử dụng thông tin thời gian – địa điểm

Trong bài toán phát hiện sự kiện, các thông tin thời gian và địa điểm

Trang 28

luôn là thuộc tính chính để biểu diễn một sự kiện do vậy sử dụng các thuộctính này vào việc phát hiện sự kiện là phù hợp với bài toán.

2.2.4.1 Thông tin thời gian

Thông tin về thời gian được sử dụng vào hai việc Thứ nhất, xâu chuỗicác sự kiện xảy ra Thứ hai, xâu chuỗi các sự kiện xảy ra vào chuỗi đã cótrước Thông tin thời gian thường có ba dạng:

 Dạng rõ ràng: ngày 02 tháng 02 năm 2017;

 Dạng không rõ ràng: ngày hôm kia;

 Dạng ước lượng: cách đây chừng 5 năm

Trong [21], khái niệm tham chiếu sự kiện được đưa ra để chỉ những cụm

từ mang nghĩa tham chiếu từ tin tức này qua tin tức khác để thể hiện tínhchuỗi của sự kiện Ví dụ, “ ngay sau đó, ngày 02/09” là một cụm tham chiếu

sự kiện Đây là cơ sở để tính độ tương đồng giữa các tin tức chứa cụm thamchiếu sự kiện với các tin tức chứa sự kiện đã xảy ra

Tin tức chứa cụm tham chiếu sự kiện sẽ được quyết định sự kiện cóthuộc chuỗi nào trong số những chuỗi đã tồn tại hay không Một số phươngpháp tính độ tương đồng đã được đưa ra Điển hình là:

¿x(X , Y )=cover t(X t , Y t)∗RW S '

Trong công thức (2.5), X t , Y t là các cụm tham chiếu sự kiện tương ứng

của sự kiện X, Y và RWS’(X t ,Y t ) là trọng số xếp hạng.

2.2.4.2 Thông tin địa điểm

Cũng giống như đặc trưng thời gian, địa điểm là một thuộc tính quantrọng đối với sự kiện Tuy nhiên, trong rất nhiều trường hợp, thông tin thời

Ngày đăng: 07/09/2017, 18:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ai Kawazoe Son Doan and Nigel Collier. Global health monitor - a webbased system for detecting and mapping infectious diseases. Proc.International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India: pp. 951 - 956, 2008 Sách, tạp chí
Tiêu đề: International Joint Conference on Natural Language Processing(IJCNLP), Companion Volume,Hyderabad, India
[2] Chinatsu Aone and Mila Ramos-Santacruz. Rees: A large-scale relation and event extraction system. In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp. 76-83. Association for Computational Linguistics, 2000 Sách, tạp chí
Tiêu đề: In: 6th Applied Natural LanguageProcessing Conference (ANLP 2000):pp. 76-83. Association forComputational Linguistics
[3] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic financial events discovery based on lexico-semantic patterns.International Journal of Web Engineering and Technology, 6(2):115 - 140, 2010 Sách, tạp chí
Tiêu đề: International Journal of Web Engineering and Technology
[5] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg. Extracting violent events from on-line news for ontology population. In: 10th International Conference on Business Information Systems (BIS 2007).Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 4439:287 - 300, 2007 Sách, tạp chí
Tiêu đề: In: 10thInternational Conference on Business Information Systems (BIS 2007)."Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg
[6] Huanye Sheng Li Fang and Dongmo Zhang. Event pattern discovery from the stock market bulletin. In: 5th International Conference on Discovery Science (DS 2002). Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol. 2534: 35 - 49, 2002 Sách, tạp chí
Tiêu đề: 5th International Conference on DiscoveryScience (DS 2002). Lecture Notes in Computer Science, Springer-VerlagBerlin Heidelberg
[7] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and tracking," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 1998 Sách, tạp chí
Tiêu đề: On-line new eventdetection and tracking
[8] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang.Extracting key entities and significant events from online daily news. In:9 th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008). Lecture Notes in Computer Science.Springer-Verlag Berlin Heidelberg, vol. 5326:201 - 209, 2008 Sách, tạp chí
Tiêu đề: In:"9"th International Conference on Intel- ligent Data Engineering andAutomated Learning (IDEAL 2008). Lecture Notes in Computer Science."Springer-Verlag Berlin Heidelberg
[9] M.A Hearst. Automatic acquisition of hyponyms from large text corpora.In: 14th Conference on Computational Linguistics (COLING 1992), vol.2:539 - 545, 1992 Sách, tạp chí
Tiêu đề: In: 14th Conference on Computational Linguistics (COLING 1992)
[10] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated Discovery of WordNet Relations, pp. 131- 151. MITPress, 1998 Sách, tạp chí
Tiêu đề: In Automated Discovery of WordNet Relations, pp. 131-151. MITPress
[11] Okamoto Masayuki and Masaaki Kikuchi. Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries. In:5th Asia Information Retrieval Symposium (AIRS 2009). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 5839:181- 192, 2009 Sách, tạp chí
Tiêu đề: In:"5th Asia Information Retrieval Symposium (AIRS 2009). Lecture Notesin Computer Science. Springer-Verlag Berlin Heidelberg
[12] Ralph Grishman, Beth Sundheim, "Message understanding conference-6:a brief history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp.466-471, 1996 Sách, tạp chí
Tiêu đề: Message understanding conference-6:a brief history
[13] Ron Papka, James Allan. “On-Line New Event Detection using Single Pass Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp. 1 - 10 Sách, tạp chí
Tiêu đề: On-Line New Event Detection using SinglePass Clustering”, in "Technical Report at University of MassachusettsAmherst
[14] S. Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol. 34, 1999 Sách, tạp chí
Tiêu đề: Learning information extraction rules for semi-structuredand free text,” "Machine Learning
[15] Silja Huttunen Ralph Grishman and Roman Yangaber. Information extraction for enhenced access to disease outbreak reports. Journal of Biomedical Informastic, 35(4):pp. 236 - 246, 2002 Sách, tạp chí
Tiêu đề: Informationextraction for enhenced access to disease outbreak reports. Journal ofBiomedical Informastic
[16] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India Sách, tạp chí
Tiêu đề: Information Extraction
Tác giả: Sunita Sarawagi
Năm: 2008
[17] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi. A risk assessment system with automatic extraction of event types. Intelligent Information Processing IV, IFIP International Federation for Information Processing. Springer Boston, vol. 288:220 - 229, 2008 Sách, tạp chí
Tiêu đề: Intelligent InformationProcessing IV, IFIP International Federation for InformationProcessing. Springer Boston
[18] Vargas-Vera Maria and David Celjuska. Event recognition on news stories and semi-automatic population of an ontology. In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004). pp. 615-618 , 2004 Sách, tạp chí
Tiêu đề: In: 3rdIEEE/WIC/ACM International Conference on Web Intelligence (WI2004)
[19] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian. Ontology-based fuzzy event extraction agent for chinese e-news summarization. In Expert Systems with Applications 25(3), 431 - 447, 2003 Sách, tạp chí
Tiêu đề: InExpert Systems with Applications
[4] Helen L. Johnson Chris Roeder Philip V. Ogren-William A. Baumgartner Jr. Elizabeth White Hannah Tipney K. Bretonnel Cohen, Karin Verspoor and Lawrence Hunter. High-precision biological event extraction with a concept recognizer. In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting. pp. 50-58. Association for Computational Linguistics, 2009 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w