Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 121 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
121
Dung lượng
1,77 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -***** SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CÓ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CĨ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT Chuyên ngành: Hệ thống Thông tin Mã số : 62.48.05.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Nguyễn Thanh Thủy PGS.TS Lê Thanh Hương HÀ NỘI - 2012 LỜI CẢM ƠN Luận án hoàn thành trường Đại học Bách khoa Hà Nội Để hoàn thành luận án này, tác giả nhận bảo tận tình, yêu cầu nghiêm khắc GS TS Nguyễn Thanh Thủy, PGS.TS Lê Thanh Hương Thầy, Cô truyền đạt nhiều kiến thức quí báu kinh nghiệm nghiên cứu khoa học suốt thời gian tác giả làm nghiên cứu sinh Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng biết ơn sâu sắc tới Thầy Cô Tác giả xin chân thành gửi lời biết ơn đến: Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Bộ môn Hệ thống Thông tin, Viện Đào tạo Sau đại học, Trung tâm Tính tốn Hiệu cao, thuộc trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi trình học tập, nghiên cứu hoàn thành luận án Tác giả cảm ơn Thầy giáo, Cô giáo Bộ môn Hệ thống Thông tin-Viện Công nghệ Thông tin Truyền thông, trường Đại học Bách khoa Hà Nội động viên trao đổi kinh nghiệm để tác giả hoàn thiện luận án Tác giả cảm ơn TS Nguyễn Hữu Đức cán anh chị em Trung tâm Tính tốn Hiệu cao, tạo điều kiện, nhiệt tình giúp đỡ trao đổi học hỏi trình làm luận án Sự quan tâm, mong mỏi thành viên gia đình động để tác giả nỗ lực học tập, nghiên cứu Luận án quà tinh thần, xin đáp lại niềm quan tâm, mong mỏi Cuối cùng, tác giả xin bày tỏ lịng biết ơn tới người thân bạn bè ưu ái, giúp đỡ, động viên, khích lệ để tác giả hoàn thành luận án LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết luận án trung thực chưa cơng bố cơng trình khác Tác giả luận án Sam Chanrathany MỤC LỤC Trang bìa phụ Lời cảm ơn i ii Lời cam đoan iii Mục lục v Danh mục chữ viết tắt x Danh mục bảng xi Danh mục hình xii CHƯƠNG MỞ ĐẦU .1 1.1 Động nghiên cứu luận án 1.2 Mục tiêu phạm vi nghiên cứu luận án 1.2.1 Mục tiêu nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Đóng góp luận án 1.4 Cấu trúc luận án 1.5 Các thuật ngữ sử dụng luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 10 2.1 Bài tốn trích rút thơng tin 10 2.2 Bài tốn trích rút thực thể 12 2.2.1 Các đặc trưng sử dụng toán NER 13 2.2.2 Tình hình nghiên cứu ngồi nước toán NER sử dụng học máy 14 2.2.3 Tình hình nghiên cứu nước tốn NER 17 2.3 Bài tốn trích rút mối quan hệ thực thể (RE) 18 2.3.1 Các đặc trưng sử dụng toán RE 18 2.3.2 Tình hình nghiên cứu ngồi nước toán RE 19 2.3.3 Tình hình nghiên cứu nước tốn RE 23 2.4 Một số phương pháp học bán giám sát khác 25 2.5 Các phương pháp đánh giá kết trích rút 26 2.5.1 Cách đánh giá dựa độ trùng khớp 27 2.5.2 Cách đánh giá MUC 28 2.6 Kết luận chương 28 CHƯƠNG CÁC PHƯƠNG PHÁP HỌC MÁY DÙNG TRONG LUẬN ÁN .29 3.1 Mơ hình trường ngẫu nhiên có điều kiện 29 3.1.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện CRF 29 3.1.2 Huấn luyện CRF 31 3.1.3 Gán nhãn cho liệu dạng chuỗi 33 3.2 Mô hình máy vectơ hỗ trợ 33 3.3 Mơ hình Dirichlet ẩn 37 3.4 Các phương pháp học bán giám sát 40 3.4.1 Phương pháp lan truyền nhãn 40 3.4.2 Phương pháp bootstrapping 42 3.5 Kết luận chương 43 CHƯƠNG TRÍCH RÚT THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 45 4.1 Một số đặc điểm tiếng Việt ảnh hưởng đến việc trích rút thực thể 45 4.2 Trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện 50 4.2.1 Mơ hình học bán giám sát dựa kết hợp luật đồng tham chiếu tên với CRF 50 4.2.2 Mơ hình học bán giám sát sử dụng CRF theo dạng Bagging 56 4.3 Trích rút thực thể sử dụng phương pháp lan truyền nhãn 57 4.3.1 Phương pháp đo mức độ tương đồng từ 58 4.3.2 Điểm yếu giải thuật lan truyền nhãn cách cải tiến 61 4.4 Thử nghiệm đánh giá 61 4.4.1 Tập liệu phương pháp thử nghiệm 61 4.4.2 Kết thực nghiệm 62 4.5 Kết luận chương 65 CHƯƠNG TRÍCH RÚT MỐI QUAN HỆ TỪ VĂN BẢN TIẾNG VIỆT 67 5.1 Tính chất quan hệ thực thể văn tiếng Việt 67 5.2 Trích rút mối quan hệ dựa máy vectơ hỗ trợ SVM 69 5.2.1 Mơ hình học có giám sát dựa phương pháp ngôn ngữ mức nông 70 5.2.2 Mơ hình học bán giám sát dựa phương pháp ngôn ngữ mức nông theo kiểu Bagging Bootstrapping 73 5.3 Trích rút mối quan hệ dựa phương pháp lan truyền nhãn 74 5.3.1 Đo độ tương đồng hai câu dựa phương pháp so trùng thuộc tính từ 75 5.3.2 Đo độ tương đồng hai câu dựa phương pháp LDA 79 5.4 Thử nghiệm đánh giá 80 5.4.1 Tập liệu phương pháp thử nghiệm 80 5.4.2 Kết thực nghiệm 82 5.5 Kết luận chương 84 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 86 6.1 Các kết đạt được…………………………………………………… 86 6.1.1 Kết thuật giải……………………………………………………….86 6.1.2 Kết thử nghiệm……………………………………………………… 87 6.2 Hướng phát triển…………………………………………………………… 88 TÀI LIỆU THAM KHẢO………………………………………………………………90 CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ……………………………… 99 PHỤ LỤC Phụ lục TẬP D LIỆU……………………………………………… .100 Phụ lục GIAO DIỆN CHƯƠNG TRÌNH HỖ TRỢ GÁN NHÃN………… 109 DANH MỤC CH VIẾT TẮT ACE Automatic Context Extraction BIO Begin Inside Outside CRFs Conditional Random Fields CONLL Computational Natural Language Learning EM Expectation Maximization GLK Global Context Kernel HMM Hidden Markov Model IE Information Extraction JSRE Java Simple Relation Extraction MEMM Maximum Entropy Markov Model NP Noun Phrase LCK Local Context Kernel LDA Latent Direchlet Alocattion MUC Message Understanding Conference NER Named Entity Regconition RE Relaiton Extraction SLK Shallow Linguistic Kernel SVM Support Vector Machine DANH MỤC CÁC BẢNG Bảng 2.1 Định dạng từ 13 Bảng 2.2 Đặc trưng từ điển 14 Bảng 2.3 Bảng so sánh nhãn hệ thống so với nhãn gán tay, kèm theo mô tả lỗi tương ứng 27 Bảng 4.1 Định dạng tên thực thể 45 Bảng 4.2 Nhóm luật nhận dạng thực thể (Nhóm luật ) 47 Bảng 4.3 Kết thực nghiệm hệ thống NER sử dụng phương pháp học bán giám sát 63 Bảng 4.4 So sánh kết lần lặp thứ phương pháp nói 63 Bảng 4.5 So sánh kết trích rút thực thể CRF có giám sát với lan truyền nhãn 64 Bảng 5.1 So sánh hệ thống RE có giám sát hàm nhân ngữ cảnh tổng hợp .82 Bảng 5.2 So sánh kết hệ thống bán giám sát với hệ thống có giám sát .82 Bảng 5.3 So sánh kết chưa chuẩn hoá sau chuẩn hoá ma trận 83 Bảng 5.4 So sánh kết phương pháp so trùng thuộc tính từ với LDA 83 Bảng 5.5 So sánh độ đo F ba phương pháp lan truyền nhãn sử dụng so trùng thuộc tính từ, SVM, SVM kết hợp Bootstrapping………………………………………….84 96 Conference on Artificial Intelligence (AI2007); LNCS (LNAI), vol.4830, ISBN 9783-540-76926-2, Springer-Verlag, pp.619-624 [71] Nguyen, T.H & Cao, H.T (2008), Named Entity Disambiguation: A Hybrid Statistical and Rule-Based Incremental Approach, in: John Domingue and Chutiporn Anutariya Eds, The Semantic Web, 3rd Asian Semantic Web Conference, ASWC 2008 LNCS, Vol 5367, pp 420-433 [72] Nguyen, T.H & Cao, H.T (2010), Exploring Wikipedia and Text Features for Named Entity Disambiguation, In Proceedings of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science (LNCS), Springer-Verlag Vol 5991, pp 11-20 [73] Nguyen, T.H and Cao, H.T (2010) Enriching Ontologies for Named Entity Disambiguation In Proc of The Fourth International Conference on Advances in Semantic Processing (SEMAPRO 2010), IARIA, pp 37-42 (Best Paper Award) [74] Nguyen, T.H &Cao, H.T (2007) VN-KIM IE: Automatic Extraction of Vietnamese Named-Entities on the Web Journal of new Generation Computing, 25(3):277-292 [75] NIST Automatic Content Extraction (ACE) program 1998–present [76] Nguyen, C.T., Tran, T.O., Phan, X.H., Ha, Q.T (2005) Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Vietnam [77] Nguyen, Q.C., Phan, T.T., and Cao, H.T (2006) Vietnamese Proper Noun Recognition In Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, Ho Chi Minh City, Vietnam, pp.145-152 [78] Nguyen, T.H., and Cao, H.T (2008) Named Entity Disambiguation on an Ontology Enriched by Wikipedia In Proceedings of RIVF, pp 247-254 [79] Niu, C., Li, W., Ding, J., Rohini, K.S (2003) A Bootstrapping Approach to Named Entity Classification Using Successive Learner In Proceedings of the 41st Annual Meeting of the ACL, pages 335-342 [80] Peng, F., and McCallum, A (2004) “Accurate Information Extraction from Research Papers Using Conditional Random Fields,” in HLT-NAACL, pp 329– 336 97 [81] Razvan, C.B and Raymond J M (2005a) A Shortest Path Dependency Kernel for Relation Extraction In Proceedings of HLT/EMNLP [82] Rabiner L R 1989 A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition In Proc the IEEE, 77(2), pages 257-286 [83] Suzuki, J., Isozaki, H.Semi-Supervised Sequential Labeling and Segmentation Using Giga-word Scale Unlabeled Data Proceeding of ACL-08:HLT [84] Sogaard, A Semi-Supervised Condensed Nearest Neighbor for Part-of-Speech Tagging ACL (Short Papers)2011:48-53 [85] Stitson, M.O., Weston, J.A.E., Gammerman, A., Vovk, V., Vapnik.V (1996) Theory of Support Vector Machines, Technical Report CSD-TR-96-17 [86] Sarawagi, S (2008) Information extraction FnT Databases, 1(3):261-277 [87] Shan, H., and Daniel, G (2006) Self-training and Co-training for Semantic Role Labeling: Primary Report, Technical Report, 2006 [88] Tran, M.V., Nguyen, V.V., Pham, T.U., Tran, T.O., Ha, Q.T (2009) An Experimental Study of Vietnamese Question Answering System In Proceedings of the International Conference on Asian Language Processing, pp 152–155 [89] Tran, Q.T, Pham, T.X.T., Ngo, Q.H., Dinh, D and COLLIER, N (2007) Named Entity Recognition in Vietnamese Using Classifier Voting In ACM Transactions on Asian Language Information Processing (TALIP) [90] Tjong, K.S.E F., and De Meulder, F (2003) Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition Proc Conference on Natural Language Learning [91] Tjong, K.S E.F (2002): Introduction to the CoNLL-2002 shared task: LanguageIndependent Named Entity Recognition In Proc Of Sixth Conference on Natural Language Learning (CoNLL-2002), pp.155-158 [92] Takeuchi, K and Collier, N (2002) “Use of Support Vector Machines in Extended Named Entity Recognition,” in Proceedings of the 6th Conference on Natural Language Learning (CoNLL-2002), pp 119–125 [93] Vapnik, V.N (1998) Staticstical Learning Theory, the United States of America [94] Wallach, H (2002) Efficient Training of Conditional Random Fields Master Thesis, University of Edinburgh 98 [95] Wang, M (2008) “A Re-examination of Dependency Path Kernels for Relation Extraction,”in Proceedings of IJCNLP2008 [96] Xiaojin, Z and Zoubin, G 2002 Learning from Labeled and Unlabeled Data with Label Propagation CMU CALD tech report CMU-CALD-02-107 [97] Yarowsky, D (1995) Unsupervised Word Sense Disambiguation rivaling Supervised Methods In Meeting of the Association for Computational Linguistics, pages 189–196 [98] Zhao, S and Grishman, R (2005) Extracting Relations with Integrated Information Using Kernel Methods In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005), Ann Arbor, Michigan, June [99] Zhu, X Semi-Supervised Learning Literature Survey (2008) Technical Report 1530, University of Wisconsin Madison, 2008 [100] Zhang, Z (2004) Weakly Supervised Relation Classification for Information Extraction In Proc of CIKM’2004 [101] hang, M., hang, J., Su, J & hou, G (2006) “A Composite Kernel to Extract Relations Between Entities with Both Flat and Structured Features,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp 825– 832, Sydney, Australia: Association for Computational Linguistics, July 2006 [102] Zelenko, D., Aone, A., and Richardella, A (2003) Kernel Methods for Relation Extraction Journal of Machine Learning Research, 3:1083–1106 [103] Web site: http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html Information about the sixth Message Understanding Conference [104] Website:http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_ 7_toc.html Information about the seventh Message Understanding Conference [105] http://vlsp.vietlp.org:8080/demo/?page=resources [106] http://hlt.fbk.eu/en/technology/jSRE 99 CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The Minh Trinh 2010 Relation Extraction in Vietnamese Text using Conditional Random Fields.The Sixth Asia Information Retrieval Societies Conference (AIRS), Dec.1-3, 2010, Taipei, Taiwan Huong Thanh Le, Rathany Chan Sam and Phuc Trong Nguyen 2010 Extracting Phrases in Vietnamese Document for Summary Generation The International Conference on Asian Language Processing (IALP), Dec 28-30, 2010, Harbin, China Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, Thien Huu Nguyen 2011 Combining Proper Name-Coreference with Conditional Random Fields for Semi-supervised Named Entity Recognition in Vietnamese Text The 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2011, Shenchen, China, pp 512-525 Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, Dung Anh Le and Ngoc Minh Thi Nguyen 2011 Semi-Supervised Learning for Relation Extraction in Vietnamese Text In SoICT'2011, 2011, Hanoi, Vietnam Sam Chanrathany, Lê Thanh Hương, Nguyễn Thanh Thuỷ, Nguyễn Hữu Thiện Trích rút thơng tin tự động từ văn tiếng Việt Tạp chí Tin học Điều khiển học, tập 28, số 2, năm 2012 100 PHỤ LỤC Phụ lục 1: TẬP DỮ LIỆU Cách xây dựng Tập liệu thử nghiệm luận án thu thập thủ công từ trang web tiếng việt bao gồm: trang web cá nhân trang web (vnexpress.net, dantri.com, wikipedia) thuộc lĩnh vực thể thảo, khoa học, văn hoa, giáo dục, kinh tế Đối với tốn trích rút thực thể, luận án thu thập 950 văn văn có khoảng 750 chữ Các văn có chứa thông tin tên người, tên tổ chức tên địa điểm, tổ chức Đối với tốn trích rút mối quan hệ, luận án thử nghiệm quan hệ sống (giữa thực thể tên người, tên địa diểm), làm việc cho (giữa thực thể tên người, tên tổ chức) chức vụ ( thực thể tên người, chức vụ) Vì vậy, luận án trích chọn câu có chứa hai thực thể thực thể phải tên người, tên địa điểm, tên tổ chức, chức vụ từ văn Tất 1200 câu Ví dụ 1: - Gặp Stephen Hawking - nhà vật lý thiên văn số giới Stephen Hawking không thắng bệnh tật, khơng quật ngã ông Vì câu chứa hai thực thể tên người (per) nên khơng chọn Ví dụ 2: - Vài ngày trước đó, Paris luận án gặp anh Christophe Galfard , nghiên cứu sinh Hawking Câu chọn chứa thực thể tên người (per) tên địa điểm (loc) Câu dù có chứa thực thể tên người thực thể tên địa điểm quan hệ sống ở, gán nhãn “0” làm mẫu âm cho trình huấn luyện Trong trình gán nhãn thủ công, để tiện việc gán nhãn, luận án xây dựng công cụ hỗ trợ gán nhãn thực thể quan hệ thực thể (xem phụ lục 2) Mỗi văn có hai người gán nhãn (một người gán, người kiểm tra lại) Tập liệu huấn luyện toán NER Văn 1: [Gặp] [Stephen Hawking] - [nhà vật lý] [thiên văn] [số] [1] [thế giới] [Stephen Hawking] [đã] [không] [thắng] [được] [bệnh tật], [nhưng] [nó] [cũng] 101 [khơng] [quật ngã] [được] [ông] [Chàng] [sinh viên] [trẻ] [chán chường] [bỗng] [phát hiện] [ra] [rằng] [cuộc sống] [thật] [đáng] [sống] [Nhân dịp] [phát hành] [phiên bản] [đơn giản hóa] [của] [cuốn] [Lược sử] [thời gian] [với] [tựa đề] [Một] [lược sử] [ngắn] [hơn] [của] [thời gian] ( [được] [dịch] [ra] [33] [thứ] [tiếng] , [NXB] [Trẻ] [cũng] [sắp] [phát hành] ) , [tác giả] - [nhà vật lý] [thiên văn] [nổi tiếng] [nhất] [hành tinh] [Stephen Hawking] , [đã] [đồng ý] [tiếp] [một] [đồn] [phóng viên] [của] [tạp chí] [phổ biến] [khoa học] [Science] [et] [Vie] ( [Pháp] ) [tại] [Cambridge] [Dưới] [đây] [là] [bài viết] [về] [cuộc] [gặp gỡ] [đó] [và] [bài] [phỏng vấn] [Nếu] [sự] [nổi tiếng] [được] [đánh giá] [theo] [thước đo] [là] [tần suất] [xuất hiện] [trên] [Internet] [thì] [Stephen Hawking] [có] [thứ hạng] [rất] [cao] [Chỉ] [cần] [bạn] [gõ] " [Stephen Hawking] " [vào] [Google] [ngay lập tức] [bạn] [sẽ] [nhận] [được] [1.670.000] [mục] , [cao] [hơn] [cả] [tuyển thủ] [ inedine Zidane] ( [1.010.000] ) [hay] [ca sĩ] [Lady Di] ( [540.000] ) [Luận án] [đã] [may mắn] [có] [một] [cơ hội] [gặp gỡ] [nhà vật lý] [thiên văn] [nổi tiếng] [nhất] [thế giới] [hiện nay].[Chuyện] [này] [xảy ra] [vào] [tháng] [8] [năm ngoái] [Cuộc] [gặp gỡ] [được] [Judith Croasdell] - [trợ lý] [của] [Stephen Hawking] [từ] [2] [năm] [nay] , [ấn định] [vào] [hồi] [15] [giờ] [30] , [giờ] [địa phương].[Đó] [là] [một] [người] [đàn bà] [cứng rắn] , [khoảng] [ngoài] [50] [tuổi] , [với] [giọng] [nói] [đầy] [quyền uy] [nhưng] [vẫn] [để lộ] [một] [trái tim] [nhân hậu] [Ngay lập tức] [bà] [đã] [đe] [trước] : " [Stephen] [chỉ] [cho] [phỏng vấn] [một cách] [nhỏ giọt] [Hiện tại] [ông] [cực kỳ] [bận] [và] [có] [rất] [ít] [thời gian], [nên] [chỉ] [có thể] [dành] [cho] [các] [vị] [1] [giờ] [thơi] " [Vài] [ngày] [trước đó] , [ở] [Paris] [luận án] [đã] [gặp] [anh] [Christophe Galfard] , [một] [trong] [6] [nghiên cứu sinh] [của] [Hawking] [Anh] [đã] [5] [năm] [nghiên cứu] [về] [lỗ đen] [ở] [Cambridge] [Anh] [khuyên] [luận án] : [Nên] [chuẩn bị] [các] [câu hỏi] [khác] [mà] [ông] [chỉ] [cần] [trả lời] [có] [hoặc] [khơng] [Từ] [những] [điều] [luận án] [biết] [về] [ơng] , [thì] [có nghĩa là] [luận án] [sắp sửa] [được] [gặp] [một] [con người] [cực kỳ] [phi thường].[Một] [con người] [kiên cường] [dường như] [không] [biết] [sợ] [một] [cái] [gì] [hết] [Trước hết] [là] [khơng] [sợ] [sống] [Và] [với] [cái] [chết] [có lẽ] [ơng] [cịn] [ít] [sợ] [hơn] [Khi] [các] [bác sĩ] [chẩn đốn] [ơng] [bị] [bệnh] [tê liệt] [thần kinh] , [họ] [cho] [rằng] [ông] [may] [lắm] [chỉ] [sống] [được] [vài] [ba] [năm] [nữa] [Đó] [là] [vào] [năm] [1963] [Khi] [đó] [ơng] [mới] [21] [tuổi] , [và] [mặc dù] [ông] [khoe] [rằng] [chỉ] [làm việc] [1] [giờ] [mỗi] [ngày] , [nhưng] [thành tích] [học tập] [của] [ông] [đặc biệt] [xuất sắc] [về] [khoa học] [tự nhiên] [tại] [Đại học] [Oxford] , [nơi] [cha ông] [cũng] [đã] [từng] [theo] [học] [về] [sinh học] [và] [y học] [Vào] [năm] [1993] , [trong] [cuốn] [Lỗ đen] [và] [các] [vũ trụ] [sơ sinh] , [ông] [có] [kể] [rằng] [ngay] [từ] [lúc] [13] [tuổi] , [ơng] [đã] [biết] [mình] [sẽ] [làm gì] : " [Vật lý] [và] [thiên văn] [sẽ] [mang] [lại] [hy vọng] [hiểu] [được] [chúng ta] [tới] [từ] [đâu] [và] [tại sao] [chúng ta] [lại] [có mặt] [trên] [đời] [này] [Tơi] [muốn] [thăm dò] [vào] [chiều] [sâu] [của] [vũ trụ] " [Stephen Hawking] [đã] [không] [thắng] [được] [bệnh tật] , [nhưng] [nó] [cũng] [khơng] [quật ngã] [được] [ơng] [Chàng] [sinh viên] [trẻ] [chán chường] [bỗng] [phát hiện] [ra] [rằng] [cuộc sống] [thật] [đáng] [sống] [Ngày] [hôm nay] , [ơng] [đã] [65] [tuổi] , [có] [3] [con] [và] [một] [cháu] [gái] [Hawking] [đã] [li dị] [với] [Jane] , [vợ] [cũ] [của] [ông] , [và] [cưới] [người] [vợ] [thứ hai] [là] [bà] [Elaine Mason] , [một] [trong] [số] [y tá] [của] [ông] [Ông] [đã] [từng] [là] [khách] [của] [nhiều] [nhân vật] [vĩ đại] [trên] [thế giới] [Căn bệnh] [đã] [cầm tù] [ông] [trong] [sự] 102 [bất động] [và] [câm lặng] [Ơng] [đã] [cứu] [thốt] [mình] [bằng] [cách] [chạy] [trốn] [vào] [ước mơ] [tuổi thơ] [của] [mình] [Trong] [cuốn] [Vũ trụ] [trong] [vỏ] [hạt dẻ] [xuất bản] [năm] [2001] , [ông] [đã] [mượn] [lời] [tuyên bố] [của] [Hămlet] - [vị] [hồng tử] [bất bình] [vì] [sự] [tầm thường] [của] [thế giới] [quanh] [mình] : " [Dù] [có] [bị] [giam hãm] [trong] [vỏ] [hạt dẻ] , [ta] [vẫn] [tự] [coi] [mình] [là] [chúa tể] [của] [khơng gian] [vơ tận] " [Từ] [hành trình] [nhằm] [phát hiện] [bản chất] [đích thực] [của] [vũ trụ] , [Hawking] [đã] [tìm] [ra] [những] [viên ngọc] [q] [Ví dụ] , [theo] [thuyết tương đối] [rộng] [của] [nhà bác học] [Einstein] [thì] [bắt buộc] [phải] [có] [những] [điểm] [kỳ dị] , [tức là] [các] [lỗ đen] , [tại] [đó] [lực] [hấp dẫn] [làm] [biến dạng] [không - thời gian] [mạnh] [tới] [mức] [chúng] [trở nên] [không] [xác định] ( [1970] ) [Cũng như] [trong] [cuộc chiến] [cam go] [với] [bệnh tật] , [ơng] [đã] [tìm] [ra] [sức mạnh] [khác thường] [để] [tiếp tục] [sống] [và] [suy luận] [Sinh] [ngày] [8] [tháng] [giêng] , [chính xác] [ba] [thế kỷ] [sau] [ngày] [mất] [của] [Galileo] , [ông] [đã] [được] [phong] [giáo sư] [Luca] [về] [toán] [của] [Đại học] [Cambridge] [vào] [năm] [1970] [Chức] [này] [do] [mục sư] [Henry Lucas] [của] [trường] [đại học] [này] [lập] [ra vào] [năm] [1663] , [một] [chức vụ] [rất] [có] [uy tín] [mà] [nhà bác học] [Newton] [đã] [giữ] [3] [thế kỷ] [trước] [Cũng như] [nhiều] [nhà vật lý] [khác] , [Hawking] [cũng] [tìm kiếm] [một] [lý thuyết] [của] [vạn vật] [có thể] [thống nhất] [lý thuyết] [hấp dẫn] [của] [Einstein] [với] [vật lý] [lượng tử] [Nhưng] [điều] [mà] [ơng] [thích] [nhất] , [đó] [là] [chứng minh] [vũ trụ] [xuất hiện] [từ] [hư vô] , [một cách] [tự phát] , [khơng] [có] [sự] [can thiệp] [của] [một] [đấng] " [sáng] [thế] " [nào] , [thậm chí] [khơng] [cần] [một] [điều kiện] [ban đầu] [đặc thù] [nào] [Theo] [Galfard] , [nghiên cứu sinh] [người] [Pháp] [của] [ơng] : " [Người ta] [có] [thói quen] [xem] [rằng] [Thượng đế] [đã] [tước] [đi] [câu hỏi] " [tại sao] " , [nhưng] [Stephen] [muốn] [trả lời] [câu hỏi] [đó] [Cách] [tiếp cận] [vật lý] [của] [ông] [là] [triết học] " [Ý định] [thơi thúc] [ơng] [vươn] [tới] [đó] [nhất] , [đó] [là] [mơ hình] [vũ trụ] " [khơng] [có] [biên] " , [được] [ông] [xây dựng] [vào] [những] [năm] [1980] , [một] [mơ hình] [đã] [chạm] [vào] [thơ ca] [Những] [người] [hâm mộ] [cuồng nhiệt] [của] [ông] [không] [ngần ngại] [so sánh] [ông] [với] [Einstein] [Cuối cùng] [rồi] [luận án] [cũng] [được] [phép] [vào] [trong] [phịng] [của] [ơng] [Ngồi] [chiếc] [máy] [lọc] [khơng khí] [lạ mắt] [ra] , [căn phòng] [rộng] [và] [sáng] [cũng] [chẳng] [khác] [mấy] [phòng] [làm việc] [của] [các] [nhà khoa học] [khác] [Trên] [tường] [treo] [một] [tấm] [bảng đen] [viết] [đầy] [các] [phương trình] [Trên] [giá sách] [đặt] [ảnh] [các] [con] , [cuốn] [Các] [nguyên lý] [của] [Newton] , [các] [tác phẩm] [của] [nhà khoa học] [Carl Sagan] , [và] [các] [bản] [dịch] [ra] [những] [thứ] [tiếng] [khác nhau] [của] [cuốn] [Lược sử] [thời gian] [và] [những] [cuốn sách] [vật lý] [khác] [Trên] [tường] [còn] [treo] [các] [bức chân dung] [của] [Einstein] , [Newton] , [chân dung] [của] [các] [đạo diễn] [điện ảnh] [nổi tiếng], [đạo diễn] [Simpson] [và] [đạo diễn] [Steven Spielberg] , [và] [đặc biệt] [còn] [có] [một] [bức ảnh] [lớn] [của] [nữ] [diễn viên] [điện ảnh] [nổi tiếng] , [diễn viên] [Marilyn Monroe] [Stephen] [mặc] [quần] [đen] , [đi] [giày] [đen] , [áo] [vest] [màu] [ghi] , [sơ mi] [kẻ] [carô] [ngồi] [bất động] [trong] [chiếc] [xe đẩy] [công nghệ cao] , [đầu] [ngoẹo] [về] [một] [bên] [và] [nhìn] [luận án] [bằng] [đôi mắt] [xanh] [đậm] [dường như] [trong suốt] " [Hello] " , [đáp] [lại] [ngay] [lời] [chào] [của] [luận án] [là] [một] [giọng] [kim] [phát] [ra] [từ] [chiếc] [máy] [tổng hợp] [tiếng nói] [Judith] [mời] [luận án] [ngồi] [xuống] [cạnh] [nhà 103 vật lý] [Stephen] [và] [bắt đầu] [cuộc] [phỏng vấn] " [Các] [độc giả] [luận án] [thường] [đặt] [2] [câu hỏi] : [Cái] [gì] [ở] [bên] [ngồi] [vũ trụ] [và] [cái] [gì] [có] [trước] [Big Bang] ? [Và] [luận án] [luôn luôn] [cho] [cùng] [một] [câu] [trả lời] [là] [không] [có] [gì] [hết] [Điều] [đó] [đã] [làm] [cho] [họ] [hết sức] [thất vọng] [Ơng] [có] [câu] [trả lời] [nào] [hay] [hơn] [cho] [họ] [không] ? " [Trên] [gương mặt] [Stephen] [bỗng] [nở] [một] [nụ cười] [rất] [lạ] [Hay] [đúng] [hơn] [là] [sự] [động đậy] [nhẹ] [của] [môi] [trên] , [một] [trong] [những] [động tác] [hiếm hoi] [mà] [cơ thể] [ơng] [cịn] [muốn] [tn] [theo] [Liệu] [câu hỏi] [này] [khiến] [cho] [ông] [vui] [hay] [ông] [thấy] [buồn cười] ? [Chắc chắn] [là] [ông] [đã] [suy nghĩ] [nung nấu] [về] [nó] [và] [biết] [rằng] [hiện] [chưa thể] [có] [câu] [trả lời] [thỏa đáng] [Nhưng] [ơng] [sẽ] [trả lời] [nó] [bằng] [giá] [của] [những] [nỗ lực] [phi thường] [Với] [một] [sự] [kiên nhẫn] [vô hạn] , [trong] [sự] [tĩnh lặng] [và] [lạnh lẽo] [của] [căn] [phịng] , [ơng] [nhìn] [đăm đăm] [vào] [một] [chữ cái] [trên] [màn hình] [rồi] [chớp mắt] Văn 2: [Vinamilk] [là] [tên gọi] [tắt] [của] [Công ty] [Cổ phần] [Sữa] [Việt Nam] - [một] [công ty] [sản xuất] , [kinh doanh] [sữa] [và] [các] [sản phẩm] [từ] [sữa] [cũng như] [thiết bị] [máy móc] [liên quan] [tại] [Việt Nam] [Theo] [thống kê] [của] [Chương trình] [Phát triển] [Liên Hiệp Quốc] , [đây] [là] [công ty] [lớn] [thứ] [15] [tại] [Việt Nam] [vào] [năm] [2007] [Mã] [giao dịch] [trên] [sàn] [giao dịch] [chứng khốn] [Thành phố] [Hồ Chí Minh] [là] [VNM] [Công ty] [là] [doanh nghiệp] [hàng đầu] [của] [ngành] [công nghiệp] [chế biến] [sữa] , [hiện] [chiếm lĩnh] [75%] [thị phần] [sữa] [tại] [Việt Nam] [Ngoài] [việc] [phân phối] [mạnh] [trong] [nước] [với] [mạng lưới] [183] [nhà] [phân phối] [và] [gần] [94.000] [điểm] [bán] [hàng] [phủ] [đều] [64] [tỉnh] [thành] , [sản phẩm] [của] [cơng ty] [Vinamilk] [cịn] [được] [xuất khẩu] [sang] [nhiều] [nước] [như] [Mỹ] , [Pháp] , [Canada] , [Ba Lan] , [Đức] , [Đông Nam Á] , [khu vực] [Trung Đông] [Sau] [hơn] [30] [năm] [ra mắt] [người] [tiêu dùng] , [đến] [nay] [Vinamilk] [đã] [xây dựng] [được] [8] [nhà máy] , [1] [xí nghiệp] [và] [đang] [xây dựng] [thêm] [3] [nhà máy] [mới] , [với] [sự] [đa dạng] [về] [sản phẩm] , [Vinamilk] [hiện] [có] [trên] [200] [mặt hàng] [sữa] [tiệt trùng] , [thanh trùng] [và] [các] [sản phẩm] [được] [làm] [từ] [sữa] [Khu vực] [hoạt động] : [Việt Nam] [và] [Iraq] [Thành viên] [chủ chốt] : [Mai Kiều Liên] , [Chủ tịch] [Hội đồng] [Quản trị] [kiêm] [Tổng Giám Đốc][Ngành nghề] : [Sữa] [và] [các] [chế phẩm] [từ] [sữa][Dịch vụ] : [Sữa] , [phòng khám] [đa khoa] , [bia] , [nước] [trái cây] , [đầu tư] [tài chính][Năm] [1976] , [lúc] [mới] [thành lập] , [Công ty] [Sữa] [Việt Nam] ( [Vinamilk] ) [có] [tên] [là] [Cơng ty] [Sữa] – [Cà Phê] [Miền Nam] , [trực thuộc] [Tổng cục] [Thực phẩm] , [sau khi] [chính phủ] [quốc hữu hóa] [ba] [xí nghiệp] [tư nhân] [tại] [miền] [Nam] [Việt Nam] : [xí nghiệp] [Thống Nhất] ( [Trung Quốc] ) , [xí nghiệp] [Trường Thọ] ( [Friesland] ) , [và] [xí nghiệp] [Dielac] ( [Nestle] ) [Năm] [1982], [công ty] [Sữa] – [Cà phê] [Miền Nam] [được] [chuyển giao] [về] [bộ] [công nghiệp] [thực phẩm] [và] [đổi] [tên] [thành] [xí nghiệp] [liên hiệp] [Sữa] - [Cà phê] – [Bánh kẹo] [I] [Lúc này] , [xí nghiệp] [đã] [có] [thêm] [hai] [nhà máy] [trực thuộc] , [đó] [là] : [Nhà máy] [bánh kẹo] [Lubico] , [Nhà máy] [bột] [dinh dưỡng] [Bích Chi] ( [Đồng Tháp] ) [Tháng] [3] [năm] [1992] , [Xí nghiệp] [Liên hiệp] 104 [Sữa] – [Cà phê] – [Bánh kẹo] [I] [chính thức] [đổi] [tên] [thành] [Cơng ty] [Sữa] [Việt Nam] ( [Vinamilk] ) - [trực thuộc] [Bộ] [Công nghiệp] [nhẹ] , [chuyên] [sản xuất] , [chế biến] [sữa] [và] [các] [sản phẩm] [từ] [sữa] [Năm] [1994] , [Vinamilk] ) [đã] [xây dựng] [thêm] [một] [nhà máy] [sữa] [ở] [Hà Nội] [để] [phát triển] [thị trường] [tại] [miền] [Bắc] , [nâng] [tổng số] [nhà máy] [trực thuộc] [lên] [4] [nhà máy] [Việc] [xây dựng] [nhà máy] [là] [nằm] [trong] [chiến lược] [mở rộng] , [phát triển] [và] [đáp ứng] [nhu cầu] [thị trường] [ở] [miền] [Bắc] [Việt Nam] [1996] : [Liên doanh] [với] [Công ty] [Cổ phần] [Đông lạnh] [Quy Nhơn] [để] [thành lập] [Xí Nghiệp] [Liên Doanh] [Sữa] [Bình Định] [Liên doanh] [này] [tạo] [điều kiện] [cho] [Công ty] [thâm nhập] [thành công] [vào] [thị trường] [miền] [Trung] [Việt Nam] [2000] : [Nhà máy] [sữa] [Cần Thơ] [được] [xây dựng] [tại] [Khu] [Cơng Nghiệp] [Trà Nóc] , [Thành phố] [Cần Thơ] , [nhằm] [mục đích] [đáp ứng] [nhu cầu] [tốt] [hơn] [của] [người] [tiêu dùng] [tại] [đồng bằng] [sông] [Cửu Long] [Cũng] [trong] [thời gian] [này] , [Cơng ty] [cũng] [xây dựng] [Xí nghiệp] [Kho Vận] [có] [địa chỉ] [tọa lạc] [tại] : [số] [32] [Đặng Văn Bi] , [Thành phố] [Hồ Chí Minh] Tập liệu huấn luyện sử dụng toán RE Văn chưa gán nhãn mối quan hệ: [Tin] [người] [khổng lồ] [của] [tập đoàn] [PepsiCo] , [ông] [Steve Reinemund] [rút lui] [khỏi] [vị trí] [Chủ tịch] [kiêm] [Tổng giám đốc] [đã] [gây][sốc] [cho][nhiều][người] [Bất ngờ] [hơn nữa] [với] [giới] [truyền thông] [là] [người] [được] [bầu] [kế nhiệm] [Reinemund] [là] [bà] [Indra Nooyi] , [một] [phụ nữ] [người] [Ấn Độ] [chính] [gốc] [Khơng] [ít] [người] [cho] [rằng] [cái] [bóng] [và] [những] [gì] [Reinemund] [để] [lại] [là] [quá] [lớn] [và] [Indra Nooyi] [không thể] [so sánh] [với] [người] [tiền nhiệm] [Thế nhưng] , [sự thực] [không] [phải] [thế] [Từ] [trước] [đến] [nay] [trong] [nội bộ] [của] [tập đoàn] [PepsiCo] , [Indra Nooyi] [được] [đánh giá] [là] [một] [nhà] [quản lý] [và] [điều hành] [tầm cỡ] [Chính] [Indra Nooyi] [là] [kiến trúc sư] trưởng] [của] [những] [cải cách] [thành công] [của] [PepsiCo] [trong] [5] [năm] [qua] [Như vậy] [lần] [đầu tiên] [trong] [lịch sử] [của] [mình] , [Tập đồn] [Pepsico] [có] [một] [nữ] [chủ tịch] [kiêm] [Tổng giám đốc] [điều hành] 105 [Giới] [báo chí] [cịn] [thơng tin] [thêm] , [cùng] [tập đoàn] [Archer Daniels Midland] [do] [bà] [Patricia Woetz] [làm] [Tổng giám đốc] , [tập đoàn] [PepsiCo] [của] [Indra Nooyi] [đang] [là] [một] [trong] [hai] [tập đoàn] [lớn] [nhất] [ở] [nước] [Mỹ] [do] [một] [phụ nữ] [điều hành] [Cái] [tin] [nhà quản lý] [tài ba] [Reinemund] [đang] [ở] [đỉnh cao] [phong độ] [rút lui] [để] [Indra Nooyi] [lên] [nắm] [toàn quyền] [điều hành] [PepsiCo] [đã] [không] [hề] [làm] [biến động] [giá] [cổ phiếu] [của] [PepsiCo] [trên] [thị trường] [chứng khốn] [Thậm chí] [khi] [thông tin] [Indra Nooyi] [lên] [làm] [Chủ tịch] [kiêm] [Tổng giám đốc] [mới] [của] [PepsiCo] [thì] [giá] [của] [cổ phiếu] [này] [cịn] [tăng] [nhẹ] [chút ít] [Mỗi] [cổ phiêu] [tăng] [thêm] [62] [cent] [lên] [63,95] [USD] [Chỉ] [cần] [chừng] [đó] [thơng tin] [thơi] [cũng] [đã] [đủ] [để] [khẳng định] [Indra Nooyi] [không] [hề] [là] [một] [nhân vật] [mới lạ] [đối với] [giới] [đầu tư] [Trên] [thực tế], [Indra Nooyi] [đã] [được] [thừa nhận] [là] [một] [nhà] [quản lý], [điều hành] [xuất sắc], [không] [hề] [kém] [người] [tiền nhiệm] [nổi danh] [của] [mình] [Tập đồn] [PepsiCo] [đã] [tăng trưởng] [vượt bậc] [trong] [5] [năm] [20012005] [với] [tổng] [doanh thu] [tăng] [70%] [Tổng] [giá trị] [của] [tập đoàn] [PepsiCo] [với] [105,4 tỉ] [USD] [đã] [vượt] [lên] [trên] [đối thủ] [truyền kiếp] [là] [tập đoàn] [CocaCola] [với] [giá trị] [chỉ] [có] [103] [tỉ] [USD] [Riêng] [q] [II] [năm] [2006] , [PepsiCo] [đã] [tăng trưởng] [13%] [so với] [cùng] [kỳ] [năm] [trước] [và] [đã] [đạt] [lợi nhuận] [kỷ lục] [là] [gần] [1,36] [tỉ] [USD] [Tất cả] [những] [thành cơng] [đó] [đều] [có] [cơng] [đóng góp] [rất] [lớn] [của] [Indra Nooyi] [với] [tư cách] [là] [Phó] [tổng giám đốc] [kiêm] [Giám đốc] [tài chính] [của] [PepsiCo] , [vị trí] [mà] [bà] [đang] [đảm nhận] [trước khi] [được] [bầu] [làm] [Chủ tịch] [kiêm] [Tổng giám đốc] [của] [PepsiCo] Văn gán nhãn mối quan hệ: Văn gán nhãn thực thể, sau đưa qua công cụ trợ giúp gán nhãn quan hệ (xem phụ lục 2), nhận văn gán nhãn quan hệ dạng đặc trưng (xem ví dụ 3,4,5) Tức câu đưa dạng [nhãn quan hệ]/[vị trí từ&&từ&&từ loại&&kiểu thực thể&&nhãn thực thể] Trong đó: Vị trí từ: vị trí từ câu 106 Kiểu thực thể nhận giá trị: A thực thể tác nhân, T thực thể đích, O thực thể khơng xét mối quan hệ: Nhãn thực thể là: Per(tên người), Loc(địa điểm), Org(tổ chức), O Nhãn quan hệ: “1” nghĩa có mối quan hệ, “0” nghĩa khơng thuộc mối quan hệ xét Ví dụ 3: quan hệ “sống ở” ( Per-Loc) 0&&Từ&&Từ&&E&&O&&O 1&&vị_trí&&vị_trí&&N&&O&&O 2&&một&&một&&M&&O&&O 3&&công_nhân&&công_nhân&&N&&O&&O 4&&sản_xuất&&sản_xuất&&V&&O&&O 5&&da&&da&&N&&O&&O 6&&giày&&giày&&N&&O&&O 7&&,&&,&&,&&O&&O 8&&Otto&&Otto&&Np&&PER&&A 9&&chuyển&&chuyển&&V&&O&&O 10&&sang&&sang&&V&&O&&O 11&&kinh_doanh&&kinh_doanh&&V&&O&&O 12&&và&&và&&CC&&O&&O 13&&từng&&từng&&R&&O&&O 14&&giữ&&giữ&&V&&O&&O 15&&nhiều&&nhiều&&A&&O&&O 16&&chức_vụ&&chức_vụ&&N&&O&&O 17&&khác_nhau&&khác_nhau&&A&&O&&O 18&&tại&&tại&&E&&O&&O 19&&một_số&&một_số&&L&&O&&O 20&&công_ty&&công_ty&&N&&O&&O 21&&da&&da&&N&&O&&O 22&&giày&&giày&&N&&O&&O 23&&của&&của&&E&&O&&O 24&&Đức&&Đức&&Np&&LOC&&T 25&&vào&&vào&&E&&O&&O 26&&thời_điểm&&thời_điểm&&N&&O&&O 27&&đó&&đó&&P&&O&&O 28&&.&&.&&.&&O&&O 0&&Nicolas_Anelka&&Nicolas_Anelka&&Np&&PER&&A 1&&(&&(&&V&&O&&O 2&&sinh&&sinh&&V&&O&&O 3&&ngày&&ngày&&N&&O&&O 4&&14&&14&&M&&O&&O 5&&tháng&&tháng&&N&&O&&O 6&&3&&3&&M&&O&&O 7&&năm&&năm&&N&&O&&O 8&&1979&&1979&&M&&O&&O 9&&tại&&tại&&E&&O&&O 10&&Versailles_,_Pháp&&Versailles_,_Pháp&&Np&&LOC&&T 11&&)&&)&&A&&O&&O 12&&là&&là&&V&&O&&O 13&&cầu_thủ&&cầu_thủ&&N&&O&&O 14&&bóng_đá&&bóng_đá&&N&&O&&O 15&&đang&&đang&&R&&O&&O 16&&chơi&&chơi&&V&&O&&O 17&&cho&&cho&&E&&O&&O 18&&Câu_lạc_bộ_Chelsea&&Câu_lạc_bộ_Chelsea&&Np&&ORG&&O 19&&.&&.&&.&&O&&O Ví dụ 4: quan hệ “làm việc cho” (Per-Org) 0&&Năm&&Năm&&N&&O&&O 1&&1964&&1964&&M&&O&&O 2&&,&&,&&,&&O&&O 3&&ở&&ở&&E&&O&&O 4&&tuổi&&tuổi&&N&&O&&O 5&&40&&40&&M&&O&&O 6&&tuổi&&tuổi&&N&&O&&O 7&&,&&,&&,&&O&&O 8&&khi&&khi&&N&&O&&O 9&&đang&&đang&&R&&O&&O 10&&là&&là&&V&&O&&O 107 11&&giám_đốc_kinh_doanh&&giám_đốc_kinh_doanh&&Np&&POS&&O 12&&của&&của&&E&&O&&O 13&&công_ty_Hasef&&công_ty_Hasef&&Np&&ORG&&T 14&&chuyên&&chuyên&&A&&O&&O 15&&cung_cấp&&cung_cấp&&V&&O&&O 16&&các&&các&&L&&O&&O 17&&sản_phẩm&&sản_phẩm&&N&&O&&O 18&&điện&&điện&&N&&O&&O 19&&gia_dụng&&gia_dụng&&N&&O&&O 20&&,&&,&&,&&O&&O 21&&Otto&&Otto&&Np&&PER&&O 22&&nảy_ra&&nảy_ra&&V&&O&&O 23&&một&&một&&M&&O&&O 24&&quyết_định&&quyết_định&&N&&O&&O 25&&táo_bạo&&táo_bạo&&A&&O&&O 26&&:&&:&&:&&O&&O 27&&cùng&&cùng&&C&&O&&O 28&&hai&&hai&&M&&O&&O 29&&người_bạn&&người_bạn&&N&&O&&O 30&&Schmidt&&Schmidt&&Np&&PER&&A 31&&và&&và&&CC&&O&&O 32&&Ruthenbeck&&Ruthenbeck&&Np&&PER&&O 33&&của&&của&&E&&O&&O 34&&mình&&mình&&P&&O&&O 35&&thành_lập&&thành_lập&&V&&O&&O 36&&và&&và&&CC&&O&&O 37&&điều_hành&&điều_hành&&V&&O&&O 38&&cơng_ty&&cơng_ty&&N&&O&&O 39&&riêng&&riêng&&A&&O&&O 40&&.&&.&&.&&O&&O 0&&Ơng&&Ơng&&N&&O&&O 1&&chính&&chính&&T&&O&&O 2&&là&&là&&V&&O&&O 3&&Otto_Beisheim&&Otto_Beisheim&&Np&&PER&&A 4&&,&&,&&,&&O&&O 5&&chủ_tịch&&chủ_tịch&&Np&&POS&&O 6&&kiêm&&kiêm&&V&&O&&O 7&&giám_đốc_điều_hành&&giám_đốc_điều_hành&&Np&&POS&&O 8&&của&&của&&E&&O&&O 9&&tập_đồn_Metro_Cash_&_Carry&&tập_đồn_Metro_Cash_&_Carry&&Np&&ORG&&T 10&&.&&.&&.&&O&&O Ví dụ 5: quan hệ “chức vụ” (Per-Pos) 0&&Năm&&Năm&&N&&O&&O 1&&1964&&1964&&M&&O&&O 2&&,&&,&&,&&O&&O 3&&ở&&ở&&E&&O&&O 4&&tuổi&&tuổi&&N&&O&&O 5&&40&&40&&M&&O&&O 6&&tuổi&&tuổi&&N&&O&&O 7&&,&&,&&,&&O&&O 8&&khi&&khi&&N&&O&&O 9&&đang&&đang&&R&&O&&O 10&&là&&là&&V&&O&&O 11&&giám_đốc_kinh_doanh&&giám_đốc_kinh_doanh&&Np&&POS&&T 12&&của&&của&&E&&O&&O 13&&công_ty_Hasef&&công_ty_Hasef&&Np&&ORG&&O 14&&chuyên&&chuyên&&A&&O&&O 15&&cung_cấp&&cung_cấp&&V&&O&&O 16&&các&&các&&L&&O&&O 17&&sản_phẩm&&sản_phẩm&&N&&O&&O 18&&điện&&điện&&N&&O&&O 19&&gia_dụng&&gia_dụng&&N&&O&&O 20&&,&&,&&,&&O&&O 21&&Otto&&Otto&&Np&&PER&&O 22&&nảy_ra&&nảy_ra&&V&&O&&O 23&&một&&một&&M&&O&&O 24&&quyết_định&&quyết_định&&N&&O&&O 25&&táo_bạo&&táo_bạo&&A&&O&&O 26&&:&&:&&:&&O&&O 27&&cùng&&cùng&&C&&O&&O 28&&hai&&hai&&M&&O&&O 108 29&&người_bạn&&người_bạn&&N&&O&&O 30&&Schmidt&&Schmidt&&Np&&PER&&A 31&&và&&và&&CC&&O&&O 32&&Ruthenbeck&&Ruthenbeck&&Np&&PER&&O 33&&của&&của&&E&&O&&O 34&&mình&&mình&&P&&O&&O 35&&thành_lập&&thành_lập&&V&&O&&O 36&&và&&và&&CC&&O&&O 37&&điều_hành&&điều_hành&&V&&O&&O 38&&cơng_ty&&cơng_ty&&N&&O&&O 39&&riêng&&riêng&&A&&O&&O 40&&.&&.&&.&&O&&O 0&&Ơng&&Ơng&&N&&O&&O 1&&chính&&chính&&T&&O&&O 2&&là&&là&&V&&O&&O 3&&Otto_Beisheim&&Otto_Beisheim&&Np&&PER&&A 4&&,&&,&&,&&O&&O 5&&chủ_tịch&&chủ_tịch&&Np&&POS&&T 6&&kiêm&&kiêm&&V&&O&&O 7&&giám_đốc_điều_hành&&giám_đốc_điều_hành&&Np&&POS&&O 8&&của&&của&&E&&O&&O 9&&tập_đoàn_Metro_Cash_&_Carry&&tập_đoàn_Metro_Cash_&_Carry&&Np&&ORG&&O 10&&.&&.&&.&&O&&O 109 Phụ lục 2: GIAO DIỆN CỘNG CỤ HỖ TRỢ GÁN NHÃN 1) Giao diện hỗ trợ gán nhãn thực thể thủ công - Bước 1: chọn văn dạng text chưa có nhãn - Bước 2: muốn gán nhãn thực thể tên người (per) cần qt lên từ bấm nút hình người Làm tương tự thực thể khác 110 2) Giao diện hỗ trợ gán nhãn quan hệ thủ công - Bước 1: cho văn gán nhãn thực thể, chưa gán nhãn quan hệ Bước 2: chọn câu ứng cử viên Bước 3: đánh dấu kiểu thực thể (A,T), nhãn quan hệ Bước 4: Biến đổi thành đặc trưng quan hệ ... thực thể văn Ví dụ, có quan hệ sống hai thực thể “ tên người” ? ?tên địa điểm”, quan hệ họ hàng hai thực thể ? ?tên người” ? ?tên người” Bài toán trích rút mối quan hệ thực thể khác với tốn trích rút. .. tốn trích rút mối quan hệ thực thể tốn trích rút mối quan hệ thực thể không gán nhãn cho chuỗi từ mà quan tâm đến xác định mối quan hệ thực thể, cụ thể xác định xem câu có thuộc mối quan hệ xét... Kết thực nghiệm 62 4.5 Kết luận chương 65 CHƯƠNG TRÍCH RÚT MỐI QUAN HỆ TỪ VĂN BẢN TIẾNG VIỆT 67 5.1 Tính chất quan hệ thực thể văn tiếng Việt 67 5.2 Trích rút mối quan hệ