Kết quả trích rút thông tin

Kết quả thực nghiệm tốt nhất đối với quá trình trích rút thực thể như sau:

Bảng 4-7: Đánh giá mức nhãn – Lần thực nghiệm cho kết quả tốt nh t Label Manual Model Match Pre.(%) Rec.(%) F1-Measure(%)

B-per 62 63 56 88.89 90.32 89.6 O 1790 1782 1759 98.71 98.27 98.49 B-time 39 39 37 94.87 94.87 94.87 I-time 54 51 50 98.04 92.59 95.24 B-loc 34 38 31 81.58 91.18 86.11 B-org 83 83 71 85.54 85.54 85.54 I-org 95 96 83 86.46 87.37 86.91 I-loc 30 34 27 79.41 90 84.38 I-per 5 6 5 83.33 100 90.91 Avg1. 88.54 92.24 90.35 Avg2. 2192 2192 2119 96.67 96.67 96.67

Bảng 4-8: Đánh giá mức cụm từ – Lần thực nghiệm cho kết quả tốt nh t

Nguyễn Cao Cường 60 Luận văn Thạc sỹ Time 39 39 36 92.31 92.31 92.31 Per 62 63 56 88.89 90.32 89.6 Loc 34 38 29 76.32 85.29 80.56 Org 83 83 70 84.34 84.34 84.34 Avg1. 85.46 88.07 86.74 Avg2. 218 223 191 85.65 87.61 86.62

Kết quả trích rút quan hệ như sau:

Bảng 4-9: Kết quả trích rút quan hệ Tổng số kết quả Số kết quả trả về Số kết quả đúng Pre (%) Rec (%) F-Measure (%) H tên 35 34 34 100 97.14 98.55 Ngày sinh 35 34 32 94.12 91.43 92.75 Ngày mất 23 20 18 90 78.26 83.72 Nơi sinh 48 44 39 88.64 81.25 84.78 QH gia đình 68 52 46 88.46 67.64 76.67 Công việc 388 243 187 70.05 50.05 58.86 4.8.3 Nhận xét

Các thông tin về ngày sinh, ngày mất và nơi sinh là thông tin dễ trích rút và đạt độ chính xác cao do trong các văn bản về tiểu sử, cấu trúc câu chứa các thông tin này theo một mẫu nhất định và ít có sự biến đổi. Các thông tin còn lại như làm việc cho, quan hệ gia đình… được viết theo cấu trúc câu phức tạp hơn, đòi hỏi bước nhận dạng thực thể phải chính xác và các luật trích rút linh hoạt. Với những câu phức, có nhiều thực thể đan xen thì việc nhận dạng quan hệ chưa đạt được chính xác cao. Để cải thiện hiệu quả của phương pháp trích rút quan hệ, cần thể tăng cường các luật trích rút quan hệ để đưa ra các biểu thức chính qui ph hợp.

Nguyễn Cao Cường 61 Luận văn Thạc sỹ

CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

5.1 Các kết quả đạt đƣợc trong luận văn

Mục tiêu của luận văn là nghiên cứu các phương pháp trích rút thông tin, ch n phương pháp ph hợp cho bài toán trích rút thông tin cá nhân. Từ đó, xây dựng hệ thống trích rút thông tin cá nhân từ văn bản tiếng Việt lấy từ trang web wikipedia.

Thông qua nội dung của luận văn từ chương 1 tới chương 4, luận văn đã trình bày toàn bộ nghiên cứu về hệ thống trích rút thông tin, khái niệm trong lý thuyết trích rút cũng như nghiên cứu bài toán trích rút thông tin cá nhân trong văn bản tiếng Việt áp dụng trên các văn bản lấy từ trang web tiếng Việt wikipeida. Trên cơ sở phân tích các ưu nhược điểm của các phương pháp trích rút thực thể và trích rút quan hệ, luận văn đã đã lựa ch n và áp dụng phương pháp ph hợp với bài toán đề ra.

5.1.1 Về lý thuyết

1. Tìm hiểu các phương pháp trích rút thông tin, từ đó lựa ch n và tìm hiểu phương pháp CRF để trích rút thực thể, sử dụng biểu thức chính qui để trích rút quan hệ.

2. Hậu xử lý kết quả nhận dạng thực thể bằng cách sử dụng các luật đồng tham chiếu về tên và luật nhận dạng thực thể để nâng cao độ chính xác.

5.1.2 Về thực nghiệm

Xây dựng thệ thống trích rút thông tin cá nhân từ văn bản tiếng Việt lấy từ trang web wikipedia dựa trên sự kết hợp của phương pháp CRF và biểu thức chính qui.

5.1.3 Nhận xét

Trích rút thực thể sử dụng mô hình CRF giám sát đạt hiệu quả cao khi tập dữ liệu huấn luyện đủ lớn. Đối với bài toán này, tập dữ liệu chứa nhiều thành phần đồng tham chiếu nên việc sử dụng phương pháp CRF kết hợp các tập luật nhận dạng đồng tham chiếu cho kết quả tốt.

Nguyễn Cao Cường 62 Luận văn Thạc sỹ

Với giả định là các thông tin về tài liệu tập trung nói về thông tin của một cá nhân nên việc d ng biểu thức chính qui để trích rút quan hệ của thực thể khi văn bản đã gán nhãn thực thể là tương đối khả thi. Việc nhận dạng đúng thực thể và các từ xung quanh thực thể đóng vai trò quyết định đến độ chính xác của bài toán trích rút quan hệ giữa các thực thể. Quá trình hậu xử lý sau khi nhận dạng thực thể cũng góp phần nâng cao đáng kể tính chính xác của bài toán. Trong các trường thông tin cá nhân được trích rút thì các thông tin về ngày sinh, ngày mất là dễ nhất và có độ chính xác cao nhất. Các thông tin khác như công việc, quan hệ gia đình khó trích rút hơn, phụ thuộc nhiều vào độ phức tạp của từng câu.

Không giống như các hệ thống trích rút lược sử tập trung vào phân loại câu, hệ thông trích rút thông tin cá nhân tập trung vào các thông tin cụ thể về tiểu sử cá nhân. Hệ thống trích này cung cấp những kết quả khả quan và có thể được sử dụng cho các ứng dụng khác c ng loại.

5.2 Hƣớng phát triển

Hiện nay luận văn mới chỉ áp dụng trích rút trên trang web wikepedia tiếng Việt với các hệ luật trích rút đơn giản. Trong tương lai tác giả sẽ mở rộng nghiên cứu trích rút thông tin ở các trang web khác, bổ sung thêm các hệ luật mới cũng như áp dụng phương pháp đánh giá trích rút quan hệ hiệu quả hơn để nâng cao tính chính xác của hệ thống trích rút thông tin cá nhân. Ngoài ra, mở rộng nghiên cứu trích rút cá nhân theo dạng 1 ( xác định và trích rút các câu chứa thông tin cá nhân và xử lý chúng như là một hệ thống tóm tắt ) cũng là một hướng đi tiếp theo của luận văn.

Nguyễn Cao Cường 63 Luận văn Thạc sỹ

PHỤ LỤC 1: TẬP DỮ LIỆU

Ví dụ 01 văn bản d ng hu n luyện trong bài toán gán nhãn thực thể nhƣ sau :

<per> [Lê Công Vinh] </per> ( [sinh] [ngày] <time> [10] [tháng] [12] [năm] [1985] </time> ) [tại] <loc> [Quỳnh Lâm] </loc> , <loc> [Quỳnh Lưu] </loc> , <loc> [Nghệ An] </loc> , [là] [một] [cầu thủ] <org> [bóng đá] [Việt Nam] </org> [hiện] [đang] [thi đấu] [cho] <org> [câu lạc bộ] [Sông Lam Nghệ An] </org> [và] <org> [đội tuyển] [bóng đá] [quốc gia] [Việt Nam] </org> [ở] [vị trí] [tiền đạo] .

[Anh] [từng] [3] [lần] [nhận] [danh hiệu] [Quả] [bóng] [vàng] <loc> [Việt Nam] </loc> [vào] [các] [năm] <time> [2004] </time> , <time> [2006] </time> , <time> [2007] </time> , [chỉ] [có] <per> [Lê Huỳnh Đức] </per> [c ng] [có] [3] [lần] [giành] [được] [giải thưởng] [này] [và] <per> [Vinh] </per> [được] [xem] [là] [một] [trong] [số] [những] [cầu thủ] [xuất sắc] [nhất] <loc> [Việt Nam] </loc> .

<per> [Công Vinh] </per> [được] [trang web] [Goal.com] [bình ch n] [là] [một] [trong] [mười] [cầu thủ] [châu] [ ] [đáng] [xem] [nhất] [năm] <time> [2009] </time> [sau] [khi] [anh] [c ng] <org> [ĐT] [Việt Nam] </org> [giành] [chức] [vô địch] [AFF] [Cup] <time> [2008] </time> .

[Bố] <per> [Công Vinh] </per> [là] <per> [Lê Công Duệ] </per> . [Em gái] <per> [Công Vinh] </per> [là] <per> [Lê Khánh Chi] </per> . [Lúc] [chị em] <per> [Vinh] </per> [còn] [nhỏ] , [vì] [gia cảnh] [khó khăn] , [mẹ] [đi] [làm ăn] [xa] [nhà] [nên] [chủ yếu] [nhờ] [bàn tay] [bố] [chăm sóc] [cả] [gia đình] .

[Nhưng] [tai h a] [đột ngột] [ập] [tới] , [một] [lần] [đi] [trên] [đường] ,[bố] <per> [Vinh] </per> [bị] [xe khách] [đâm] [làm] [bị thương] [nặng] , [tiền] [thuốc thang] , [viện phí] [cho] [ông] [khiến] [gia đình] [gần như] [khánh kiệt] .

[Sau] [khi] [bình phục] , [cũng] [vì] [muốn] [cho] [các] [con] [bớt] [đói khổ] , [bố] <per> [Vinh] </per> [đã] [có] [quyết định] [liều lĩnh] [và] [sai lầm] [là] [đi] [buôn] [ma túy] [với] [khát v ng] [“] [đổi đời] [”] .

Nguyễn Cao Cường 64 Luận văn Thạc sỹ

[Tuy nhiên] , [chị em] <per> [Vinh] </per> [lại] [phải] [đối mặt] [với] [một] [nỗi buồn] [nữa] [khi] [bố mẹ] [chia tay] [nhau] .

[Thế rồi] [sau] [8] [năm] [cải tạo] [tốt] , [bố] <per> [Vinh] </per> [được] [tự do] [trước] [thời hạn] . [14] [tuổi] , <per> [Vinh] </per> [bắt đầu] [tập luyện] [bóng đá] . [So] [với] [những] [cầu thủ] [c ng] [lứa] , [sự] [khởi đầu] [của] <per> [Vinh] </per> [khá] [muộn] [và] [cũng] [không] [suôn s ] . [Thậm chí] , [khi] [thi tuyển] [vào] <org> [đội] [tr ] [của] [Nghệ An] </org> , <per> [Vinh] </per> [đứng] [gần] [“] [đội sổ] [”] , [bị] [đánh giá] [là] [không] [có] [nhiều] [triển v ng] , [cả] [kỹ thuật] [và] [tâm lý] [đều] [chưa] [vững] . [C ng] [lứa] [với] <per> [Công Vinh] </per> [có] <per> [Phạm Văn Quyến] </per> . [Với] [sự] [xuất sắc] [đó] , <per> [Công Vinh] </per> [bắt đầu] [nhận] [được] [những] [lời] [chào mời] [từ] [những] [đội] [bóng] [khác] , [thậm chí] [là] [những] [đội] [bóng] [từ] <loc> [Nhật Bản] </loc> [và] <loc> [Arab Saudi] </loc> [với] [mức] [lương] [cao] [ngất ngưởng] [là] [8000] [tới] [10000] [USD] [một] [tháng] .

[Vào] [ngày] <time> [26] [tháng] [10] [năm] [2008] </time> , [bất chấp] [những] [tin đồn] [anh] [sẽ] [chuyển] [sang] [chơi] [cho] <org> [Thể Công Viettel] </org> , <per> [Công Vinh] </per> [chính thức] [kí] [hợp đồng] [với] <org> [T&] [T Hà Nội] </org> [với] [khoản] [tiền] [kỉ lục] [8 tỉ] [đồng] [c ng] [mức] [lương] [không] [dưới] [40 triệu] [đồng] [một] [tháng] .

[Thêm] [vào] [đó] , <org> [T&T] [Hà Nội] </org> [còn] [phải] [trả] [cho] <org> [Sông Lam Nghệ An] </org> [số] [tiền] [500 triệu] [đồng] [phí] [đào tạo] .

<per> [Công Vinh] </per> [có] [trận] [ra mắt] [trong] [màu] [áo] <org> [T&] [T] </org> [ở] [V-League] [vào] [ngày] <time> [2] [tháng] [7] [năm 2009] </time> [tại] [vòng] [1] [gặp] <org> [Thể Công] </org> .

Nguyễn Cao Cường 65 Luận văn Thạc sỹ

PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƢƠNG TRÌNH

1. Giao diện trích rút thông tin

Bảng chú thích các màu

Loại thực thể Ý nghĩa+màu sắc

PER Tên người

LOC Tên địa điểm

ORG Tên tổ chức

TIME Thời gian

Nguyễn Cao Cường 66 Luận văn Thạc sỹ

3. Giao diện tìm kiếm thông tin cá nhân

Nguyễn Cao Cường 67 Luận văn Thạc sỹ

Nguyễn Cao Cường 68 Luận văn Thạc sỹ

TÀI LIỆU THAM KHẢO

[1] Benajiba, Y. and Rosso, P. (2008) Arabic Named Entity Recognition using Conditional Random Fields. In: Proc. Workshop on HLT & NLP within the Arabic world. Arabic Language and local languagesprocessing: Status Updates and Prospects.

[2] Culotta, A. & Sorensen, J. (2004) “Dependency tree kernels for relation extraction,” in Proceedings of the 42nd Meeting of the Association for Computational Linguistics (ACL‟04), Main Volume, pp. 423–429, Barcelona, Spain, July 2004.

[3] Dong, C. L. and Nocedal, J. (1989). On the Limited Memory BFGS Method for Large Scale Optimization. Mathematical Programming 45, pages 503-528. [4] F. Biadsy, J. Hirschberg, and E. Filatova. An unsupervised approach to

biography production using wikipedia. In Proceedings of the Conference of Human Language Technologies of the Association for Computational Linguistics, 2008.

[5] GuoDong, Z. and Jian, S. 2002. Named Entity Recognition using an HMM- based Chunk Tagger. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.

[6] Hammersley, J. and Clifford, P. 1971. Markov Fields on Finite Graphs and Lattices. Unpublished Manuscript.

[7] Information about the seventh message understanding conference.

[8] Lafferty, J., McCallum, A. and Pereira, F. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc.

ICML, pages 282-290.

[9] J. Cowie, S. Nirenburg, and H. Molino-Salgado. Generating personal profiles. Number Technical report, 2001.

[10] L. Karttunen, J-P. Chanod, G. Grefenstette, A. Schiller, “Regular expressions for language engineering”, Natural Language Engineering,1996

[11] L. Zhou, T. M, and E. Hovy. Multi-document biographical summarization. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2004.

[12] Le, P. H. vnTagger: http://www.loria.fr/~lehong/tools/vnTagger.php

[13] Malouf, R. (2002). A comparison of algorithms for maximum entropy parameter estimation. In Sixth Workshop on Computational Language Learning (CoNLL-2002).

Nguyễn Cao Cường 69 Luận văn Thạc sỹ

[14] McCallum, A., Li, W. (2003). Early results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-enhanced Lexicons. In Proceedings of CoNLL, pages 188.191, Canada.

[15] McCallum, A., Freitag, D. and Pereira, F. 2000. Maximum Entropy Markov Models for Information Extraction and Segmentation. In Proc. International Conference on Machine Learning, pages 591-598.

[16] Moore, A. Hidden Markov Models Tutorial Slides.

[17] N. Garera and D. Yarowsky. Structural, transitive and latent models for biographic fact extraction. In Proceedings of the 12th Conference of the European Chapter of the Association for computational Linguistics, 2009. [18] Nguyen, T.H., Cao, H.T. (2008). An Approach to Entity Coreference and

Ambiguity Resolution in Vietnamese Texts. Vietnamese Journal of Post and Telecommunication, 19, 74-83.

[19] Oren Etzioni, Michael Cafarela, Doug Downey, Ana Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Unsupervised named-entity extraction from the web: An experimental study. Artif. Intell.

[20] P.X.Hieu, N.L.Minh. http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.html [21] Peng, F., and McCallum, A. (2004). “Accurate information extraction from

research papers using conditional random fields,” in HLT-NAACL, pp. 329– 336.

[22] Rabiner. L. R. 1989. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Proc. the IEEE, 77(2), pages 257-286. [23] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, and Thien Huu Nguyen (2011) Combining Proper Name-Coreference with Conditional Random Fields for Semi-supervised Named Entity Recognition in Vietnamese Text. In:: PAKDD'11 Proceedings of the 15th Pacific-Asia conference on Advances in knowledge discovery and data mining - Volume Part I Pages 512-524

[24] Sérgio Filipe da Costa Dias Soares (2011), Extraction of Biographical Information from Wikipedia Texts, Master in Information Systems and Computer

[25] S. Levithan, J. Goyvaerts, Regular Expressions Cookbook, O‟Reilly Media , 2003-2009

[26] SILVA, J. (2009). QA+ML@Wikipedia&google. Master‟s thesis, Instituto Superior T´ecnico.

Nguyễn Cao Cường 70 Luận văn Thạc sỹ

[27] Turk J Elec Eng & Comp Sci, Vol.19, No.1, 2011. Automatic knowledge extraction for filling in biography forms from Turkish texts.

[28] Wallach, H. (2002). Efficient Training of Conditional Random Fields. Master Thesis, University of Edinburgh.

[29] Zelenko, D., Aone, A., and Richardella, A. (2003). Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106.

Cài đặt, thử nghiệm và đánh giá