FlexCRFs là một công cụ được xây dựng trên lý thuyết về CRFs để giải quyết các bài toán gán nhãn dữ liệu dữ liệu dạng chuỗi như POS tagger, Noun Phrase Chunking,... Đây là một công cụ mã nguồn mở được phát triển bởi các tác giả Phan Xuân Hiếu và Nguyễn Lê Minh [20]. Hệ thống trích rút thông tin cá nhân được xây dựng trên bộ công cụ này, cụ thể là trong quá trình huấn luyện trích rút thực thể. Quá nhận dạng thực thể, hậu xử lý và trích rút quan hệ thực thể cũng như quản lý thông tin cá nhân được phát triển trên ngôn ngữ Java. Dữ liệu sau khi trích rút được lưu trên hệ quản trị cơ sở dữ liệu mySQL.
Dữ liệu cho thực nghiệm gồm 50 bài báo thu thập trên trang web tiếng Việt wikepedia, vnexpress.net và dantri.com thuộc nhiều lĩnh vực như thể thao, kinh tế, xã hội… trong đó phần chính là tập trung vào thể thao. Do việc xử lý trong văn bản tiếng Việt (tách câu, tách từ, gán nhãn từ loại, phân cụm) đã đạt được độ chính xác khá cao (> 93%), nên luận văn sử dụng lại các công cụ sẵn là vnTagger của tác giả Lê Hồng Phương [12] để tiền xử lý các dữ liệu đầu vào.
4.8.1 Một số t y chọn trong bộ công cụ FlexCRFs
Một số t y ch n trong bộ công cụ FlexCRF cho quá trình huấn luyện nhận dạng thực thể như sau:
Bảng 4-6: Các tham số trong quá trình hu n luyện nhận dạng thực thể
Nguyễn Cao Cường 59 Luận văn Thạc sỹ
init_lamda_val 0.05 Giá trị khởi tạo cho các tham số trong mô hình num_iterations 50 Số bước lặp huấn luyện
f_rare_threshold 1 Chỉ có các thuộc tính có tần số xuất hiện lớn hơn giá trị này thì mới được tích hợp vào mô hình CRF
cp_rare_threshold 1
Chỉ có các mẫu vị từ ngữ cảnh có tần số xuất hiện lớn hơn giá trị này mới được tích hợp vào mô hình CRF
eps_log_likelihood 0.01
FlexCRF sử dụng phương pháp L-BFGs để ước lượng tham số mô hình. Giá trị này cho ta điều kiện dừng của vòng lặp huấn luyện, nếu như |log- likelihood(t)-log-likelihood(t-1)|<0.01 thì dừng quá trình huấn luyện .Ở đây t và t-1 là bước lặp thứ t và t-1.
4.8.2 Kết quả trích rút thông tin
Kết quả thực nghiệm tốt nhất đối với quá trình trích rút thực thể như sau:
Bảng 4-7: Đánh giá mức nhãn – Lần thực nghiệm cho kết quả tốt nh t Label Manual Model Match Pre.(%) Rec.(%) F1-Measure(%)
B-per 62 63 56 88.89 90.32 89.6 O 1790 1782 1759 98.71 98.27 98.49 B-time 39 39 37 94.87 94.87 94.87 I-time 54 51 50 98.04 92.59 95.24 B-loc 34 38 31 81.58 91.18 86.11 B-org 83 83 71 85.54 85.54 85.54 I-org 95 96 83 86.46 87.37 86.91 I-loc 30 34 27 79.41 90 84.38 I-per 5 6 5 83.33 100 90.91 Avg1. 88.54 92.24 90.35 Avg2. 2192 2192 2119 96.67 96.67 96.67
Bảng 4-8: Đánh giá mức cụm từ – Lần thực nghiệm cho kết quả tốt nh t
Nguyễn Cao Cường 60 Luận văn Thạc sỹ Time 39 39 36 92.31 92.31 92.31 Per 62 63 56 88.89 90.32 89.6 Loc 34 38 29 76.32 85.29 80.56 Org 83 83 70 84.34 84.34 84.34 Avg1. 85.46 88.07 86.74 Avg2. 218 223 191 85.65 87.61 86.62
Kết quả trích rút quan hệ như sau:
Bảng 4-9: Kết quả trích rút quan hệ Tổng số kết quả Số kết quả trả về Số kết quả đúng Pre (%) Rec (%) F-Measure (%) H tên 35 34 34 100 97.14 98.55 Ngày sinh 35 34 32 94.12 91.43 92.75 Ngày mất 23 20 18 90 78.26 83.72 Nơi sinh 48 44 39 88.64 81.25 84.78 QH gia đình 68 52 46 88.46 67.64 76.67 Công việc 388 243 187 70.05 50.05 58.86 4.8.3 Nhận xét
Các thông tin về ngày sinh, ngày mất và nơi sinh là thông tin dễ trích rút và đạt độ chính xác cao do trong các văn bản về tiểu sử, cấu trúc câu chứa các thông tin này theo một mẫu nhất định và ít có sự biến đổi. Các thông tin còn lại như làm việc cho, quan hệ gia đình… được viết theo cấu trúc câu phức tạp hơn, đòi hỏi bước nhận dạng thực thể phải chính xác và các luật trích rút linh hoạt. Với những câu phức, có nhiều thực thể đan xen thì việc nhận dạng quan hệ chưa đạt được chính xác cao. Để cải thiện hiệu quả của phương pháp trích rút quan hệ, cần thể tăng cường các luật trích rút quan hệ để đưa ra các biểu thức chính qui ph hợp.
Nguyễn Cao Cường 61 Luận văn Thạc sỹ
CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
5.1 Các kết quả đạt đƣợc trong luận văn
Mục tiêu của luận văn là nghiên cứu các phương pháp trích rút thông tin, ch n phương pháp ph hợp cho bài toán trích rút thông tin cá nhân. Từ đó, xây dựng hệ thống trích rút thông tin cá nhân từ văn bản tiếng Việt lấy từ trang web wikipedia.
Thông qua nội dung của luận văn từ chương 1 tới chương 4, luận văn đã trình bày toàn bộ nghiên cứu về hệ thống trích rút thông tin, khái niệm trong lý thuyết trích rút cũng như nghiên cứu bài toán trích rút thông tin cá nhân trong văn bản tiếng Việt áp dụng trên các văn bản lấy từ trang web tiếng Việt wikipeida. Trên cơ sở phân tích các ưu nhược điểm của các phương pháp trích rút thực thể và trích rút quan hệ, luận văn đã đã lựa ch n và áp dụng phương pháp ph hợp với bài toán đề ra.
5.1.1 Về lý thuyết
1. Tìm hiểu các phương pháp trích rút thông tin, từ đó lựa ch n và tìm hiểu phương pháp CRF để trích rút thực thể, sử dụng biểu thức chính qui để trích rút quan hệ.
2. Hậu xử lý kết quả nhận dạng thực thể bằng cách sử dụng các luật đồng tham chiếu về tên và luật nhận dạng thực thể để nâng cao độ chính xác.
5.1.2 Về thực nghiệm
Xây dựng thệ thống trích rút thông tin cá nhân từ văn bản tiếng Việt lấy từ trang web wikipedia dựa trên sự kết hợp của phương pháp CRF và biểu thức chính qui.
5.1.3 Nhận xét
Trích rút thực thể sử dụng mô hình CRF giám sát đạt hiệu quả cao khi tập dữ liệu huấn luyện đủ lớn. Đối với bài toán này, tập dữ liệu chứa nhiều thành phần đồng tham chiếu nên việc sử dụng phương pháp CRF kết hợp các tập luật nhận dạng đồng tham chiếu cho kết quả tốt.
Nguyễn Cao Cường 62 Luận văn Thạc sỹ
Với giả định là các thông tin về tài liệu tập trung nói về thông tin của một cá nhân nên việc d ng biểu thức chính qui để trích rút quan hệ của thực thể khi văn bản đã gán nhãn thực thể là tương đối khả thi. Việc nhận dạng đúng thực thể và các từ xung quanh thực thể đóng vai trò quyết định đến độ chính xác của bài toán trích rút quan hệ giữa các thực thể. Quá trình hậu xử lý sau khi nhận dạng thực thể cũng góp phần nâng cao đáng kể tính chính xác của bài toán. Trong các trường thông tin cá nhân được trích rút thì các thông tin về ngày sinh, ngày mất là dễ nhất và có độ chính xác cao nhất. Các thông tin khác như công việc, quan hệ gia đình khó trích rút hơn, phụ thuộc nhiều vào độ phức tạp của từng câu.
Không giống như các hệ thống trích rút lược sử tập trung vào phân loại câu, hệ thông trích rút thông tin cá nhân tập trung vào các thông tin cụ thể về tiểu sử cá nhân. Hệ thống trích này cung cấp những kết quả khả quan và có thể được sử dụng cho các ứng dụng khác c ng loại.
5.2 Hƣớng phát triển
Hiện nay luận văn mới chỉ áp dụng trích rút trên trang web wikepedia tiếng Việt với các hệ luật trích rút đơn giản. Trong tương lai tác giả sẽ mở rộng nghiên cứu trích rút thông tin ở các trang web khác, bổ sung thêm các hệ luật mới cũng như áp dụng phương pháp đánh giá trích rút quan hệ hiệu quả hơn để nâng cao tính chính xác của hệ thống trích rút thông tin cá nhân. Ngoài ra, mở rộng nghiên cứu trích rút cá nhân theo dạng 1 ( xác định và trích rút các câu chứa thông tin cá nhân và xử lý chúng như là một hệ thống tóm tắt ) cũng là một hướng đi tiếp theo của luận văn.
Nguyễn Cao Cường 63 Luận văn Thạc sỹ
PHỤ LỤC 1: TẬP DỮ LIỆU
Ví dụ 01 văn bản d ng hu n luyện trong bài toán gán nhãn thực thể nhƣ sau :
<per> [Lê Công Vinh] </per> ( [sinh] [ngày] <time> [10] [tháng] [12] [năm] [1985] </time> ) [tại] <loc> [Quỳnh Lâm] </loc> , <loc> [Quỳnh Lưu] </loc> , <loc> [Nghệ An] </loc> , [là] [một] [cầu thủ] <org> [bóng đá] [Việt Nam] </org> [hiện] [đang] [thi đấu] [cho] <org> [câu lạc bộ] [Sông Lam Nghệ An] </org> [và] <org> [đội tuyển] [bóng đá] [quốc gia] [Việt Nam] </org> [ở] [vị trí] [tiền đạo] .
[Anh] [từng] [3] [lần] [nhận] [danh hiệu] [Quả] [bóng] [vàng] <loc> [Việt Nam] </loc> [vào] [các] [năm] <time> [2004] </time> , <time> [2006] </time> , <time> [2007] </time> , [chỉ] [có] <per> [Lê Huỳnh Đức] </per> [c ng] [có] [3] [lần] [giành] [được] [giải thưởng] [này] [và] <per> [Vinh] </per> [được] [xem] [là] [một] [trong] [số] [những] [cầu thủ] [xuất sắc] [nhất] <loc> [Việt Nam] </loc> .
<per> [Công Vinh] </per> [được] [trang web] [Goal.com] [bình ch n] [là] [một] [trong] [mười] [cầu thủ] [châu] [ ] [đáng] [xem] [nhất] [năm] <time> [2009] </time> [sau] [khi] [anh] [c ng] <org> [ĐT] [Việt Nam] </org> [giành] [chức] [vô địch] [AFF] [Cup] <time> [2008] </time> .
[Bố] <per> [Công Vinh] </per> [là] <per> [Lê Công Duệ] </per> . [Em gái] <per> [Công Vinh] </per> [là] <per> [Lê Khánh Chi] </per> . [Lúc] [chị em] <per> [Vinh] </per> [còn] [nhỏ] , [vì] [gia cảnh] [khó khăn] , [mẹ] [đi] [làm ăn] [xa] [nhà] [nên] [chủ yếu] [nhờ] [bàn tay] [bố] [chăm sóc] [cả] [gia đình] .
[Nhưng] [tai h a] [đột ngột] [ập] [tới] , [một] [lần] [đi] [trên] [đường] ,[bố] <per> [Vinh] </per> [bị] [xe khách] [đâm] [làm] [bị thương] [nặng] , [tiền] [thuốc thang] , [viện phí] [cho] [ông] [khiến] [gia đình] [gần như] [khánh kiệt] .
[Sau] [khi] [bình phục] , [cũng] [vì] [muốn] [cho] [các] [con] [bớt] [đói khổ] , [bố] <per> [Vinh] </per> [đã] [có] [quyết định] [liều lĩnh] [và] [sai lầm] [là] [đi] [buôn] [ma túy] [với] [khát v ng] [“] [đổi đời] [”] .
Nguyễn Cao Cường 64 Luận văn Thạc sỹ
[Tuy nhiên] , [chị em] <per> [Vinh] </per> [lại] [phải] [đối mặt] [với] [một] [nỗi buồn] [nữa] [khi] [bố mẹ] [chia tay] [nhau] .
[Thế rồi] [sau] [8] [năm] [cải tạo] [tốt] , [bố] <per> [Vinh] </per> [được] [tự do] [trước] [thời hạn] . [14] [tuổi] , <per> [Vinh] </per> [bắt đầu] [tập luyện] [bóng đá] . [So] [với] [những] [cầu thủ] [c ng] [lứa] , [sự] [khởi đầu] [của] <per> [Vinh] </per> [khá] [muộn] [và] [cũng] [không] [suôn s ] . [Thậm chí] , [khi] [thi tuyển] [vào] <org> [đội] [tr ] [của] [Nghệ An] </org> , <per> [Vinh] </per> [đứng] [gần] [“] [đội sổ] [”] , [bị] [đánh giá] [là] [không] [có] [nhiều] [triển v ng] , [cả] [kỹ thuật] [và] [tâm lý] [đều] [chưa] [vững] . [C ng] [lứa] [với] <per> [Công Vinh] </per> [có] <per> [Phạm Văn Quyến] </per> . [Với] [sự] [xuất sắc] [đó] , <per> [Công Vinh] </per> [bắt đầu] [nhận] [được] [những] [lời] [chào mời] [từ] [những] [đội] [bóng] [khác] , [thậm chí] [là] [những] [đội] [bóng] [từ] <loc> [Nhật Bản] </loc> [và] <loc> [Arab Saudi] </loc> [với] [mức] [lương] [cao] [ngất ngưởng] [là] [8000] [tới] [10000] [USD] [một] [tháng] .
[Vào] [ngày] <time> [26] [tháng] [10] [năm] [2008] </time> , [bất chấp] [những] [tin đồn] [anh] [sẽ] [chuyển] [sang] [chơi] [cho] <org> [Thể Công Viettel] </org> , <per> [Công Vinh] </per> [chính thức] [kí] [hợp đồng] [với] <org> [T&] [T Hà Nội] </org> [với] [khoản] [tiền] [kỉ lục] [8 tỉ] [đồng] [c ng] [mức] [lương] [không] [dưới] [40 triệu] [đồng] [một] [tháng] .
[Thêm] [vào] [đó] , <org> [T&T] [Hà Nội] </org> [còn] [phải] [trả] [cho] <org> [Sông Lam Nghệ An] </org> [số] [tiền] [500 triệu] [đồng] [phí] [đào tạo] .
<per> [Công Vinh] </per> [có] [trận] [ra mắt] [trong] [màu] [áo] <org> [T&] [T] </org> [ở] [V-League] [vào] [ngày] <time> [2] [tháng] [7] [năm 2009] </time> [tại] [vòng] [1] [gặp] <org> [Thể Công] </org> .
Nguyễn Cao Cường 65 Luận văn Thạc sỹ
PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƢƠNG TRÌNH
1. Giao diện trích rút thông tin
Bảng chú thích các màu
Loại thực thể Ý nghĩa+màu sắc
PER Tên người
LOC Tên địa điểm
ORG Tên tổ chức
TIME Thời gian
Nguyễn Cao Cường 66 Luận văn Thạc sỹ
3. Giao diện tìm kiếm thông tin cá nhân
Nguyễn Cao Cường 67 Luận văn Thạc sỹ
Nguyễn Cao Cường 68 Luận văn Thạc sỹ
TÀI LIỆU THAM KHẢO
[1] Benajiba, Y. and Rosso, P. (2008) Arabic Named Entity Recognition using Conditional Random Fields. In: Proc. Workshop on HLT & NLP within the Arabic world. Arabic Language and local languagesprocessing: Status Updates and Prospects.
[2] Culotta, A. & Sorensen, J. (2004) “Dependency tree kernels for relation extraction,” in Proceedings of the 42nd Meeting of the Association for Computational Linguistics (ACL‟04), Main Volume, pp. 423–429, Barcelona, Spain, July 2004.
[3] Dong, C. L. and Nocedal, J. (1989). On the Limited Memory BFGS Method for Large Scale Optimization. Mathematical Programming 45, pages 503-528. [4] F. Biadsy, J. Hirschberg, and E. Filatova. An unsupervised approach to
biography production using wikipedia. In Proceedings of the Conference of Human Language Technologies of the Association for Computational Linguistics, 2008.
[5] GuoDong, Z. and Jian, S. 2002. Named Entity Recognition using an HMM- based Chunk Tagger. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.
[6] Hammersley, J. and Clifford, P. 1971. Markov Fields on Finite Graphs and Lattices. Unpublished Manuscript.
[7] Information about the seventh message understanding conference.
[8] Lafferty, J., McCallum, A. and Pereira, F. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc.
ICML, pages 282-290.
[9] J. Cowie, S. Nirenburg, and H. Molino-Salgado. Generating personal profiles. Number Technical report, 2001.
[10] L. Karttunen, J-P. Chanod, G. Grefenstette, A. Schiller, “Regular expressions for language engineering”, Natural Language Engineering,1996
[11] L. Zhou, T. M, and E. Hovy. Multi-document biographical summarization. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2004.
[12] Le, P. H. vnTagger: http://www.loria.fr/~lehong/tools/vnTagger.php
[13] Malouf, R. (2002). A comparison of algorithms for maximum entropy parameter estimation. In Sixth Workshop on Computational Language Learning (CoNLL-2002).
Nguyễn Cao Cường 69 Luận văn Thạc sỹ
[14] McCallum, A., Li, W. (2003). Early results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-enhanced Lexicons. In Proceedings of CoNLL, pages 188.191, Canada.
[15] McCallum, A., Freitag, D. and Pereira, F. 2000. Maximum Entropy Markov Models for Information Extraction and Segmentation. In Proc. International Conference on Machine Learning, pages 591-598.
[16] Moore, A. Hidden Markov Models Tutorial Slides.
[17] N. Garera and D. Yarowsky. Structural, transitive and latent models for biographic fact extraction. In Proceedings of the 12th Conference of the European Chapter of the Association for computational Linguistics, 2009. [18] Nguyen, T.H., Cao, H.T. (2008). An Approach to Entity Coreference and
Ambiguity Resolution in Vietnamese Texts. Vietnamese Journal of Post and Telecommunication, 19, 74-83.
[19] Oren Etzioni, Michael Cafarela, Doug Downey, Ana Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Unsupervised named-entity extraction from the web: An experimental study. Artif. Intell.
[20] P.X.Hieu, N.L.Minh. http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.html [21] Peng, F., and McCallum, A. (2004). “Accurate information extraction from
research papers using conditional random fields,” in HLT-NAACL, pp. 329– 336.
[22] Rabiner. L. R. 1989. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Proc. the IEEE, 77(2), pages 257-286. [23] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, and Thien Huu Nguyen (2011) Combining Proper Name-Coreference with Conditional Random Fields for Semi-supervised Named Entity Recognition in Vietnamese Text. In:: PAKDD'11 Proceedings of the 15th Pacific-Asia conference on Advances in knowledge discovery and data mining - Volume Part I Pages 512-524
[24] Sérgio Filipe da Costa Dias Soares (2011), Extraction of Biographical Information from Wikipedia Texts, Master in Information Systems and Computer
[25] S. Levithan, J. Goyvaerts, Regular Expressions Cookbook, O‟Reilly Media , 2003-2009
[26] SILVA, J. (2009). QA+ML@Wikipedia&google. Master‟s thesis, Instituto Superior T´ecnico.
Nguyễn Cao Cường 70 Luận văn Thạc sỹ
[27] Turk J Elec Eng & Comp Sci, Vol.19, No.1, 2011. Automatic knowledge extraction for filling in biography forms from Turkish texts.
[28] Wallach, H. (2002). Efficient Training of Conditional Random Fields. Master Thesis, University of Edinburgh.
[29] Zelenko, D., Aone, A., and Richardella, A. (2003). Kernel methods for relation extraction. Journal of Machine Learning Research, 3:1083–1106.