Hƣớng phát triển

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 62 - 70)

Hiện nay luận văn mới chỉ áp dụng trích rút trên trang web wikepedia tiếng Việt với các hệ luật trích rút đơn giản. Trong tương lai tác giả sẽ mở rộng nghiên cứu trích rút thông tin ở các trang web khác, bổ sung thêm các hệ luật mới cũng như áp dụng phương pháp đánh giá trích rút quan hệ hiệu quả hơn để nâng cao tính chính xác của hệ thống trích rút thông tin cá nhân. Ngoài ra, mở rộng nghiên cứu trích rút cá nhân theo dạng 1 ( xác định và trích rút các câu chứa thông tin cá nhân và xử lý chúng như là một hệ thống tóm tắt ) cũng là một hướng đi tiếp theo của luận văn.

Nguyễn Cao Cường 63 Luận văn Thạc sỹ

PHỤ LỤC 1: TẬP DỮ LIỆU

Ví dụ 01 văn bản d ng hu n luyện trong bài toán gán nhãn thực thể nhƣ sau :

<per> [Lê Công Vinh] </per> ( [sinh] [ngày] <time> [10] [tháng] [12] [năm] [1985] </time> ) [tại] <loc> [Quỳnh Lâm] </loc> , <loc> [Quỳnh Lưu] </loc> , <loc> [Nghệ An] </loc> , [là] [một] [cầu thủ] <org> [bóng đá] [Việt Nam] </org> [hiện] [đang] [thi đấu] [cho] <org> [câu lạc bộ] [Sông Lam Nghệ An] </org> [và] <org> [đội tuyển] [bóng đá] [quốc gia] [Việt Nam] </org> [ở] [vị trí] [tiền đạo] .

[Anh] [từng] [3] [lần] [nhận] [danh hiệu] [Quả] [bóng] [vàng] <loc> [Việt Nam] </loc> [vào] [các] [năm] <time> [2004] </time> , <time> [2006] </time> , <time> [2007] </time> , [chỉ] [có] <per> [Lê Huỳnh Đức] </per> [c ng] [có] [3] [lần] [giành] [được] [giải thưởng] [này] [và] <per> [Vinh] </per> [được] [xem] [là] [một] [trong] [số] [những] [cầu thủ] [xuất sắc] [nhất] <loc> [Việt Nam] </loc> .

<per> [Công Vinh] </per> [được] [trang web] [Goal.com] [bình ch n] [là] [một] [trong] [mười] [cầu thủ] [châu] [ ] [đáng] [xem] [nhất] [năm] <time> [2009] </time> [sau] [khi] [anh] [c ng] <org> [ĐT] [Việt Nam] </org> [giành] [chức] [vô địch] [AFF] [Cup] <time> [2008] </time> .

[Bố] <per> [Công Vinh] </per> [là] <per> [Lê Công Duệ] </per> . [Em gái] <per> [Công Vinh] </per> [là] <per> [Lê Khánh Chi] </per> . [Lúc] [chị em] <per> [Vinh] </per> [còn] [nhỏ] , [vì] [gia cảnh] [khó khăn] , [mẹ] [đi] [làm ăn] [xa] [nhà] [nên] [chủ yếu] [nhờ] [bàn tay] [bố] [chăm sóc] [cả] [gia đình] .

[Nhưng] [tai h a] [đột ngột] [ập] [tới] , [một] [lần] [đi] [trên] [đường] ,[bố] <per> [Vinh] </per> [bị] [xe khách] [đâm] [làm] [bị thương] [nặng] , [tiền] [thuốc thang] , [viện phí] [cho] [ông] [khiến] [gia đình] [gần như] [khánh kiệt] .

[Sau] [khi] [bình phục] , [cũng] [vì] [muốn] [cho] [các] [con] [bớt] [đói khổ] , [bố] <per> [Vinh] </per> [đã] [có] [quyết định] [liều lĩnh] [và] [sai lầm] [là] [đi] [buôn] [ma túy] [với] [khát v ng] [“] [đổi đời] [”] .

Nguyễn Cao Cường 64 Luận văn Thạc sỹ

[Tuy nhiên] , [chị em] <per> [Vinh] </per> [lại] [phải] [đối mặt] [với] [một] [nỗi buồn] [nữa] [khi] [bố mẹ] [chia tay] [nhau] .

[Thế rồi] [sau] [8] [năm] [cải tạo] [tốt] , [bố] <per> [Vinh] </per> [được] [tự do] [trước] [thời hạn] . [14] [tuổi] , <per> [Vinh] </per> [bắt đầu] [tập luyện] [bóng đá] . [So] [với] [những] [cầu thủ] [c ng] [lứa] , [sự] [khởi đầu] [của] <per> [Vinh] </per> [khá] [muộn] [và] [cũng] [không] [suôn s ] . [Thậm chí] , [khi] [thi tuyển] [vào] <org> [đội] [tr ] [của] [Nghệ An] </org> , <per> [Vinh] </per> [đứng] [gần] [“] [đội sổ] [”] , [bị] [đánh giá] [là] [không] [có] [nhiều] [triển v ng] , [cả] [kỹ thuật] [và] [tâm lý] [đều] [chưa] [vững] . [C ng] [lứa] [với] <per> [Công Vinh] </per> [có] <per> [Phạm Văn Quyến] </per> . [Với] [sự] [xuất sắc] [đó] , <per> [Công Vinh] </per> [bắt đầu] [nhận] [được] [những] [lời] [chào mời] [từ] [những] [đội] [bóng] [khác] , [thậm chí] [là] [những] [đội] [bóng] [từ] <loc> [Nhật Bản] </loc> [và] <loc> [Arab Saudi] </loc> [với] [mức] [lương] [cao] [ngất ngưởng] [là] [8000] [tới] [10000] [USD] [một] [tháng] .

[Vào] [ngày] <time> [26] [tháng] [10] [năm] [2008] </time> , [bất chấp] [những] [tin đồn] [anh] [sẽ] [chuyển] [sang] [chơi] [cho] <org> [Thể Công Viettel] </org> , <per> [Công Vinh] </per> [chính thức] [kí] [hợp đồng] [với] <org> [T&] [T Hà Nội] </org> [với] [khoản] [tiền] [kỉ lục] [8 tỉ] [đồng] [c ng] [mức] [lương] [không] [dưới] [40 triệu] [đồng] [một] [tháng] .

[Thêm] [vào] [đó] , <org> [T&T] [Hà Nội] </org> [còn] [phải] [trả] [cho] <org> [Sông Lam Nghệ An] </org> [số] [tiền] [500 triệu] [đồng] [phí] [đào tạo] .

<per> [Công Vinh] </per> [có] [trận] [ra mắt] [trong] [màu] [áo] <org> [T&] [T] </org> [ở] [V-League] [vào] [ngày] <time> [2] [tháng] [7] [năm 2009] </time> [tại] [vòng] [1] [gặp] <org> [Thể Công] </org> .

Nguyễn Cao Cường 65 Luận văn Thạc sỹ

PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƢƠNG TRÌNH

1. Giao diện trích rút thông tin

Bảng chú thích các màu

Loại thực thể Ý nghĩa+màu sắc

PER Tên người

LOC Tên địa điểm

ORG Tên tổ chức

TIME Thời gian

Nguyễn Cao Cường 66 Luận văn Thạc sỹ

3. Giao diện tìm kiếm thông tin cá nhân

Nguyễn Cao Cường 67 Luận văn Thạc sỹ

Nguyễn Cao Cường 68 Luận văn Thạc sỹ

TÀI LIỆU THAM KHẢO

[1] Benajiba, Y. and Rosso, P. (2008) Arabic Named Entity Recognition using Conditional Random Fields. In: Proc. Workshop on HLT & NLP within the Arabic world. Arabic Language and local languagesprocessing: Status Updates and Prospects.

[2] Culotta, A. & Sorensen, J. (2004) “Dependency tree kernels for relation extraction,” in Proceedings of the 42nd Meeting of the Association for Computational Linguistics (ACL‟04), Main Volume, pp. 423–429, Barcelona, Spain, July 2004.

[3] Dong, C. L. and Nocedal, J. (1989). On the Limited Memory BFGS Method for Large Scale Optimization. Mathematical Programming 45, pages 503-528. [4] F. Biadsy, J. Hirschberg, and E. Filatova. An unsupervised approach to

biography production using wikipedia. In Proceedings of the Conference of Human Language Technologies of the Association for Computational Linguistics, 2008.

[5] GuoDong, Z. and Jian, S. 2002. Named Entity Recognition using an HMM- based Chunk Tagger. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.

[6] Hammersley, J. and Clifford, P. 1971. Markov Fields on Finite Graphs and Lattices. Unpublished Manuscript.

[7] Information about the seventh message understanding conference.

[8] Lafferty, J., McCallum, A. and Pereira, F. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc.

ICML, pages 282-290.

[9] J. Cowie, S. Nirenburg, and H. Molino-Salgado. Generating personal profiles. Number Technical report, 2001.

[10] L. Karttunen, J-P. Chanod, G. Grefenstette, A. Schiller, “Regular expressions for language engineering”, Natural Language Engineering,1996

[11] L. Zhou, T. M, and E. Hovy. Multi-document biographical summarization. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2004.

[12] Le, P. H. vnTagger: http://www.loria.fr/~lehong/tools/vnTagger.php

[13] Malouf, R. (2002). A comparison of algorithms for maximum entropy parameter estimation. In Sixth Workshop on Computational Language Learning (CoNLL-2002).

Nguyễn Cao Cường 69 Luận văn Thạc sỹ

[14] McCallum, A., Li, W. (2003). Early results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-enhanced Lexicons. In Proceedings of CoNLL, pages 188.191, Canada.

[15] McCallum, A., Freitag, D. and Pereira, F. 2000. Maximum Entropy Markov Models for Information Extraction and Segmentation. In Proc. International Conference on Machine Learning, pages 591-598.

[16] Moore, A. Hidden Markov Models Tutorial Slides.

[17] N. Garera and D. Yarowsky. Structural, transitive and latent models for biographic fact extraction. In Proceedings of the 12th Conference of the European Chapter of the Association for computational Linguistics, 2009. [18] Nguyen, T.H., Cao, H.T. (2008). An Approach to Entity Coreference and

Ambiguity Resolution in Vietnamese Texts. Vietnamese Journal of Post and Telecommunication, 19, 74-83.

[19] Oren Etzioni, Michael Cafarela, Doug Downey, Ana Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Unsupervised named-entity extraction from the web: An experimental study. Artif. Intell.

[20] P.X.Hieu, N.L.Minh. http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.html [21] Peng, F., and McCallum, A. (2004). “Accurate information extraction from

research papers using conditional random fields,” in HLT-NAACL, pp. 329– 336.

[22] Rabiner. L. R. 1989. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Proc. the IEEE, 77(2), pages 257-286. [23] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, and Thien Huu Nguyen (2011) Combining Proper Name-Coreference with Conditional Random Fields for Semi-supervised Named Entity Recognition in Vietnamese Text. In:: PAKDD'11 Proceedings of the 15th Pacific-Asia conference on Advances in knowledge discovery and data mining - Volume Part I Pages 512-524

[24] Sérgio Filipe da Costa Dias Soares (2011), Extraction of Biographical Information from Wikipedia Texts, Master in Information Systems and Computer

[25] S. Levithan, J. Goyvaerts, Regular Expressions Cookbook, O‟Reilly Media , 2003-2009

[26] SILVA, J. (2009). QA+ML@Wikipedia&google. Master‟s thesis, Instituto Superior T´ecnico.

Nguyễn Cao Cường 70 Luận văn Thạc sỹ

[27] Turk J Elec Eng & Comp Sci, Vol.19, No.1, 2011. Automatic knowledge extraction for filling in biography forms from Turkish texts.

[28] Wallach, H. (2002). Efficient Training of Conditional Random Fields. Master Thesis, University of Edinburgh.

[29] Zelenko, D., Aone, A., and Richardella, A. (2003). Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106.

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 62 - 70)

Tải bản đầy đủ (PDF)

(70 trang)