Luận văn đề xuất phương pháp giải quyết một bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information Extraction), và xây dựng hệ tri thức (Knowledge Base Construction), đó là phân loại thực thể có tên trên miền Wikipedia tiếng Việt. Luận văn đề xuất phương pháp giải quyết một bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information Extraction), và xây dựng hệ tri thức (Knowledge Base Construction), đó là phân loại thực thể có tên trên miền Wikipedia tiếng Việt.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán hướng dẫn: PGS TS Phạm Bảo Sơn HÀ NỘI - 2019 LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo: Phó giáo sư - Tiến sĩ Phạm Bảo Sơn thầy giáo: Tiến sĩ Nguyễn Bá Đạt, tận tình hướng dẫn tơi suốt trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức cho thời gian qua, với anh chị em Công ty cổ phần NERD, hỗ trợ cho suốt thời gian thực luận văn Tôi cảm ơn lãnh đạo Tập đồn Cơng nghiệp Viễn thơng Qn đội Viettel đồng nghiệp tạo điều kiện để tơi hồn thành việc học cao học bảo vệ luận văn thạc sĩ Cuối cùng, xin cảm ơn tất gia đình, bạn bè ln động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định thời gian trình độ có hạn nên luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận góp ý q thầy bạn LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn thực hướng dẫn Phó giáo sư - Tiến sĩ Phạm Bảo Sơn Tiến sĩ Nguyễn Bá Đạt, thực q trình hợp tác nghiên cứu Đại học Cơng Nghệ Công ty cổ phần NERD Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà MỤC LỤC Lời cảm ơn i Lời cam đoan .ii Danh sách bảng v Danh sách hình vẽ vi Lời mở đầu Chương Giới thiệu 1.1.Phạm vi toán mục tiêu nghiên cứu .2 1.2.Đóng góp luận văn 1.3.Cấu trúc luận văn Chương Hệ thống kiểu thực thể có tên 2.1.Khái niệm .6 2.1.1 Hệ tri thức 2.1.2 Thực thể 2.1.3 Thực thể có tên 2.1.4 Kiểu thực thể 2.2.Các hệ thống kiểu thực thể 2.2.1 Các hệ thống kiểu chi tiết cho Tiếng Anh .10 2.2.2 Hệ thống kiểu thực thể NERD-TS 12 2.2.3 Điểm khác biệt NERD-TS với hệ thống kiểu toán NER truyền thống 13 Chương Phân loại thực thể có tên Wikipedia tiếng Việt 16 3.1.Học máy 16 3.1.1 Tổng quan học máy 16 3.1.2 Phân nhóm thuật tốn học máy dựa phương thức học 17 3.2.Mơ hình SVM .22 3.2.1 Tổng quan .22 3.2.2 Mơ hình SVM với nhân tuyến tính 25 3.2.3 Phân loại đa lớp (Multiclass classification) 27 3.3.Bộ công cụ Sklearn .28 3.3.1 Thư viện Sklearn Linear SVC (Linear Support Vector Classification) 29 3.3.2 Trích chọn đặc trưng (Feature extraction) 32 3.3.3 Lựa chọn đặc trưng (Feature selection) 33 3.3.4 Kiểm định chéo (Cross-validation) 35 3.4.Tiền xử lý liệu 37 3.4.1 Giới thiệu VnCoreNLP 40 3.4.2 Phân tách từ 40 3.4.3 Gán nhãn từ loại (POS tagging) .42 3.5.Tập đặc trưng 44 Chương Thực nghiệm 46 4.1.Tập liệu 46 4.2.Tiến hành thực nghiệm .47 4.3.Độ đo 49 4.4.Kết 49 4.5.Phân tích đóng góp loại đặc trưng .51 Kết luận hướng phát triển 54 Tham khảo .56 Phụ lục .59 Phụ lục Một số ví dụ tập liệu 10,000 trang Wikipedia gán nhãn thủ công 59 Phụ lục Một số luật gán kiểu thực thể dựa infobox template 63 Phụ lục 3: Mô tả nội dung tệp liệu sau tiền xử lý 66 DANH SÁCH BẢNG Bảng 2.1: Một vài ví dụ thực thể có tên Bảng 2.2: Các kiểu sử dụng hệ thống FIGER [9] 11 Bảng 3.1: Cách biểu diễn cụ thể cho loại đặc trưng 45 Bảng 4.1: Thống kê số lượng thực thể theo loại tập liệu thực nghiệm .47 Bảng 4.2: Kết chi tiết phương pháp sở 49 Bảng 4.3: Kết mơ hình học máy đề xuất so với phương pháp sở .50 Bảng 4.4: Kết chi tiết mơ hình học máy với loại thực thể 50 Bảng 4.5: Kết mơ hình học máy thử loại bỏ loại đặc trưng 51 Bảng 4.6: Kết chi tiết với việc loại bỏ đặc trưng F1 51 Bảng 4.7: Kết chi tiết với việc loại bỏ đặc trưng F2 51 Bảng 4.8: Kết chi tiết với việc loại bỏ đặc trưng F3 52 Bảng 4.9: Kết chi tiết với việc loại bỏ đặc trưng F4 52 Bảng 4.10: Kết chi tiết với việc loại bỏ đặc trưng F5 .52 DANH SÁCH HÌNH VẼ Hình 1.1: Trang Wikipedia tiếng Việt Đại học Quốc Gia Hà Nội Hình 2.1 Kiến trúc hệ tri thức .6 Hình 2.2 Biểu diễn liệu hệ tri thức dạng knowledge graph Hình 2.3: Các ý nghĩa khác từ “đá” .8 Hình 2.4 Kiến trúc hệ thống kiểu hệ tri thức Dbpedia 11 Hình 2.5: Cơng cụ nhận dạng thực thể Đại học Stanford 14 Hình 2.6: Trang Wikipedia tiếng Việt Tơn Ngộ Khơng 15 Hình 3.1: Mối quan hệ AI, Machine Learning Deep Learning .17 Hình 3.2: MNIST – sở liệu chữ số viết tay 19 Hình 3.3: AlphaGo chơi cờ vây với Lee Sedol 21 Hình 3.4: Ví dụ phân loại SVM với lề cực đại (đường H3) 23 Hình 3.5: Sử dụng kernel trick để ánh xạ liệu lên không gian nhiều chiều 24 Hình 3.6 Ví dụ lề phân lớp cực đại .26 Hình 3.7: Ví dụ Linear SVC thư viện Sklearn 30 Hình 3.8: Biểu điễn hành vi kiển định chéo 3-fold Stratified CV .37 Hình 3.9 Các bước tiền xử lý liệu 38 Hình 3.10 Một trang wikipedia điển hình 39 Hình 3.11: Kiến trúc tổng thể VNCoreNLP [23] 40 Hình 3.12: Phân loại phương pháp tiếp cận Phân tách từ 42 Hình 3.13: Ví dụ tương ứng toán tách từ toán gán nhãn chuỗi [28] 42 Hình 3.14: Các đặc trưng trích xuất từ thực thể có tên Wikipedia 45 Hình 4.1: Phương pháp tiến hành thực nghiệm 48 LỜI MỞ ĐẦU Phân loại thực thể có tên tốn quan trọng lĩnh vực trích xuất thơng tin (Information Extraction), xây dựng hệ tri thức (Knowledge Base Construction) Cùng với nhu cầu ngày nhiều ứng dụng trí tuệ nhân tạo, đặc biệt ứng dụng trợ lý ảo Google, Apple, Amazon, nhu cầu xây dựng hệ tri thức ngày lớn cấp thiết Theo đó, tầm quan trọng toán phân loại thực thể ngày nâng cao Trong luận văn này, học viên giới thiệu phương pháp hiệu để giải toán phân loại thực thể có tên phiên Wikipedia tiếng Việt dựa máy véc-tơ hỗ trợ (Support Vector Machine) Đặc biệt, luận văn hoàn thành xây dựng cơng cụ để thực thi tốn với độ xác cao 94% Bên cạnh đó, luận văn đóng góp cho cộng đồng nghiên cứu tập liệu lớn gồm 10,000 thực thể gán nhãn thủ công công cụ để thực tiền xử lý liệu, tái sử dụng để phục vụ cho tốn có nội dung liên quan Học viên tin tưởng đóng góp luận văn đẩy nhanh trình xây dựng hệ tri thức tiếng Việt giàu có thơng tin Qua đó, học viên trực tiếp gián tiếp đóng góp vào nghiên cứu lĩnh vực xử lý ngơn ngữ tự nhiên (Natural Language Processing) trí tuệ nhân tạo (Artificial Intelligence) hỏi đáp tự động (Question Answering), tổng hợp trích xuất thơng tin (Information Extraction) liệu kiểu cịn mẫu Event, Creative Work, Character Đồng thời, học viên tiến hành thực nghiệm thêm với phương pháp học máy khác nhằm tìm phương pháp học máy phù hợp với mục tiêu tốn Thậm chí, có đủ liệu, học viên thử với phương pháp học sâu để tăng hiệu công cụ 55 THAM KHẢO [1] Apostolidis-Afentoulis, V., & Lioufi, K.-I (2015) SVM Classification with Linear and RBF Kernels [2] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z (2007) DBpedia: A Nucleus for a Web of Open Data Proceedings of the 6th International The Semantic Web and 2Nd Asian Conference on Asian Semantic Web Conference (pp 722 - 735) Springer [3] Finkel, J R., Grenager, T., & Manning, C D (2005) Incorporating Nonlocal Information into Information Extraction Systems by Gibbs Sampling Proceedings of the 43rd Annual Meeting of the Association for Computational (pp 363 - 370) ACL [4] Ghaddar, A., & Langlais, P (2018) Transforming Wikipedia into a LargeScale Fine-Grained Entity Type Corpus Proceedings of the Eleventh International Conference on Language Resources and Evaluation ELRA [5] Grishman, R., & Sundheim, B (1995) Design of the MUC-6 Evaluation Proceedings of the 6th Conference on Message Understanding (pp 11) ACL [6] Grishman, R., & Sundheim, B (1996) Message Understanding Conference-6: A Brief History Proceedings of the 16th Conference on Computational Linguistics (pp 466 - 471) ACL [7] Hsu, C.-W., Chang, C.-C., & Lin, C.-J (2003) A Practical Guide to Support Vector Classification Department of Computer Science, National Taiwan University [8] Keerthi, S S., & Lin, C.-J (2003) Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel Neural Computation, 1667 1689 [9] Ling, X., & Weld, D S (2012) Fine-grained Entity Recognition Proceedings of the 26th AAAI Conference on Artificial Intelligence (pp 94 - 100) AAAI Press [10] Moro, A., Cecconi, F., & Navigli, R (2014) Multilingual Word Sense Disambiguation and Entity Linking for Everybody Proceedings of the 13th International Semantic Web Conference, Posters and Demonstrations (pp 25 - 28) Springer 56 [11] Moro, A., Raganato, A., & Navigli, R (2014) Entity Linking meets Word Sense Disambiguation: a Unified Transactions of the Association for Computational Linguistics, 231 - 244 [12] Nguyen, T N., Cao, D., & Nguyen, A (2018) Automatically Mapping Wikipedia Infobox Attributes to DBpedia Properties for Fast Deployment of Vietnamese DBpedia Chapter Proceedings of the 10th Asian Conference on Intelligent Information and Database Systems (pp 127 136) Springer [13] Nguyen, T N., Takeda, H., Nguyen, K., Ichise, R., & Cao, T D (2018) A Novel Method to Predict Type for DBpedia Entity Proceedings of the 10th Asian Conference on Modern Approaches for Intelligent Information and Database Systems (pp 125 - 134) Springer [14] Oussalah, M., & Mohamed, M (2014) Identifying and Extracting Named Entities from Wikipedia Database Using Entity Infoboxes International Journal of Advanced Computer Science and Applications, 164 - 169 [15] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, et al (2011) Scikit-learn: Machine Learning in Python Journal of Machine Learning Research, 2825 - 2830 [16] Ringland, N., Nothman, J., Murphy, T., & Curran, J R (2009) Classifying articles in English and German Wikipedia Proceedings of the Australasian Language Technology Association Workshop (ALTA) (pp 20 - 28) ACL [17] Shimaoka, S., Stenetorp, P., Inui, K., & Riedel, S (2016) An Attentive Neural Architecture for Fine-grained Entity Type Classification Proceedings of the 5th Workshop on Automated Knowledge Base Construction (pp 69 - 74) ACL [18] Suchanek, F M., Kasneci, G., & Weikum, G (2007) Yago: A Core of Semantic Knowledge Proceedings of the 16th International Conference on World Wide Web (pp 697 - 706) ACM [19] Suzuki, M., Matsuda, K., Sekine, S., Okazaki, N., & Inui, K (2016) Neural Joint Learning for Classifying Wikipedia Articles into Finegrained Named Entity Types Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation (PACLIC) ACL [20] Vrandečić, D., & Krötzsch, M (2014) Wikidata: A Free Collaborative Knowledgebase Communication ACM, 78 - 85 [21] Yadav, V., & Bethard, S (2018) A Survey on Recent Advances in Named Entity Recognition from Deep Learning Models Proceedings of the 27th 57 International Conference on Computational Linguistics (pp 2145 - 2158) ACL [22] Dang Duc Pham, Giang Binh Tran, Son Bao Pham (2009) A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags Proceeding KSE '09 Proceedings of the 2009 International Conference on Knowledge and Systems Engineering (pp.154-161) ACM [23] Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson (2018) A Fast and Accurate Vietnamese Word Segmenter In Proceedings of the 11th International Conference on Language Resources and Evaluation, LREC 2018 (pp.2582-2587) ACL [24] Tran Thi Oanh (2008) Luận văn thạc sĩ CNTT Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Trường Đại học Công nghệ, ĐHQG Hà Nội [25] Swain M (2013) Knowledge-based System In: Dubitzky W., Wolkenhauer O., Cho KH., Yokota H (eds) Encyclopedia of Systems Biology Springer, New York, NY [26] D B Nguyen, A Abujabal, N K Tran, M Theobald, and G Weikum Query-Driven On-The-Fly Knowledge Base Construc- tion PVLDB, 11 (1): 66-79, 2017 [27] Nguyen, Dat & Theobald, Martin & Weikum, Gerhard (2016) J-NERD: Joint Named Entity Recognition and Disambiguation with Rich Linguistic Features Transactions of the Association for Computational Linguistics 215-229 10.1162/tacl_a_00094 [28] Lưu Tuấn Anh, Yamamoto Kazuhide Natural Language Processing Laboratory Department of Electrical Engineering Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan Ứng dụng phương pháp Pointwise vào toán tách từ cho tiếng Việt 58 Phụ lục Phụ lục Một số ví dụ tập liệu 10,000 trang Wikipedia gán nhãn thủ cơng Thực thể có tên Hera Aphrodite James Bond Siêu anh hùng Horus Di-lặc Albus Dumbledore Âu Dương Phong Thiên Hoàng Người Dơi Chúa tể Voldemort Phân loại Character Character Character Character Character Character Character Character Character Character Character Osiris Quán Thế Âm A-di-đà Thần Nông Thần Ra Apollo Dương Quá Character Character Character Character Character Character Character CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk ITunes Store Đĩa Blu-ray PlayStation Vita Trống Xe tăng T-34 Mikoyan-Gurevich MiG-15 59 Thực thể có tên Độ Celsius Hội đồng quản trị Sóng thần Diễn viên Araneidae Oligia Zodarion Khí Trái Đất Pháp thuộc Chi Na Chuồn chuồn Người Khmer (Việt Nam) Hòa ước Versailles Echinops telfairi Kinh tế Phút Ăn chay Bộ Sếu Xylocopinae McCune–Reischauer Hugo Chávez Đạo Quang Alicia Keys Meryl Streep Phân loại Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Perso n Perso n Perso n Perso n America's Next Top CreativeWo rk Model CreativeWo rk Internet Archive CreativeWo rk Sách Đỏ IUCN CreativeWo rk Thriller (album) CreativeWo rk Tư trị thông giám CreativeWo rk Le Monde CreativeWo rk M Countdown CreativeWo rk Thiên long bát CreativeWo rk EP CreativeWo rk Billie Jean CreativeWo rk Pitchfork Media CreativeWo Sách Kỷ lục Guinness rk CreativeWo rk Avatar (phim 2009) CreativeWo rk DOS CreativeWo rk The World Factbook Perso Hómēros n Perso An Dương Vương n Perso Fidel Castro n Perso Cao Xuân Dục n Perso Đường Túc Tông n Perso Elina Svitolina n Perso Randy Orton n Perso Septimius Severus n Perso Minh Tuyết n Perso Trịnh Giang n Perso George W Bush n Perso Sawa Homare n Perso Samuel Eto'o n Perso Hậu Lương Thái Tổ n Perso Trấn Thành n Perso Hoa hậu Quốc tế Cúp bóng đá châu Phi 2010 Giải vơ địch bóng đá Đông Nam Á Liên Xô tan rã Nội chiến Syria Cúp bóng đá liên lục địa Event John Edward Gray Event Nhà hát Lớn Hà Nội Place Event Event Event Athni Cẩm Xuyên Udupi (huyện) Place Place Place Event Bình Sơn Place 60 n Chiến dịch Điện Biên Event Phủ Event Indian Wells Masters Giải vơ địch bóng đá Event châu Âu 2016 Event Thống nước Đức Event Phong trào Đơng Du Chiến dịch Hồ Chí Event Minh Event Trận Midway Sự kiện năm 1956 Event Hungary Giải Video âm nhạc Event MTV Event Trận Stalingrad Sự kiện 30 tháng Event năm 1975 Event Loạn An Sử Trận Vòng cung Kursk Event Phong trào Nghĩa Hòa Event Đoàn Event Lễ Phục Sinh Event J2 League Event Hoa hậu Hồn vũ Cúp bóng đá Nam Mỹ Event Event Trận Iwo Jima Organizati Quân Giải phóng miền on Nam Việt Nam Organizati Ủy ban Olympic quốc on gia Organizati on Singapore Airlines Organizati on Hertha BSC Organizati on Norwich City F.C Trường Đảng Trung Organizati ương Đảng Cộng sản on Trung Quốc Organizati Câu lạc bóng đá 61 Windhoek Morbihan Sân bay quốc tế Đà Nẵng Karnataka Yorkshire Place Place Donetsk (tỉnh) Alaşehir Place Place Visayas Place Shimoga (huyện) Tân Lạc Place Place Béziers (quận) Bouches-du-Rhône Adana (tỉnh) Place Place Place Kırklareli (tỉnh) Shahpur Zagreb Vaucluse Salerno Sparta Place Place Place Place Place Place Abkhazia Place Serik Place Kavak Place Tizi Ouzou (tỉnh) Place Dar es Salaam Place Mainz Simferopol Place Place Place Place Place on Organizati Đội bóng đá Thể Cơng on Organizati on Sega Organizati on Toei Company Organizati Hiệp hội bóng đá on Hồng gia Hà Lan Organizati on Wonder Girls Organizati Quốc hội Việt Nam on khóa X Organizati on Super Junior-M Organizati on Vegalta Sendai Organizati on Ipswich Town F.C Organizati on Giáo hội Anh Organizati on Viện phim Mỹ Organizati BirdLife International on Tây Ninh 62 Quần đảo Cayman Place Phụ lục Một số luật gán kiểu thực thể dựa infobox template Infobox template hpcharacter infoboxcomicscharacter infoboxdeity infoboxgreekdeity infoboxwuxiafictioncharacter thôngtinnhânvậthưcấu thôngtinnhânvậttamquốc thôngtinnhânvậtthủyhử thôngtinthánh Kiểu Character Character Character Character Character Character Character Character Character CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk bảngtómtắtvềphim báochí googlebooks hộpthơngtinhđh hộpthơngtinhệđiềuhành infoboxmediafranchise infobox_newspaper thơngtinphầnmềm thơngtinphim thơngtinsách thơngtintácphẩmvănhọc thơngtintạpchí thơngtinthànhphầnđiệntử 63 CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk Event Event Event Event Event Event Event Event Event Event Event Event Person Person Person Person Person Person Person Person Person Person Person Person Person Place Place Place Place Place Place Place Place Place thơngtintrìnhduyệt thơngtintrìnhduyệtweb thơngtintrịchơi thơngtintruyềnhình grandslamtournaments hộpthơngtingiảiđấubóngđá infoboxcivilconflict infoboxhurricane infoboxuprising thơngtinchiếntranh thơngtingiảiđấubóngđáquốctế thơngtinsựkiện thơngtinsựkiệnlịchsử thơngtinthếvậnhội thơngtintổchứcsựkiệnthểthao tómtắtchiếntranh cựutayđuacơngthức1 infoboxcomedian thơngtindiễnviên thơngtindiễnviênvàcasĩhoangữ thơngtinthốngđốc thơngtintiểusửbóngđá thủtướng tiểusửqnnhân usebritishenglish vậnđộngviênquầnvợt viênchức bảngtómtắttriếtgia casĩviệtnam hộpthơngtincăncứqnsự hộpthơngtinquốcgia hộpthơngtinsânvậnđộng infoboxprotectedarea1 infoboxprovince tómtắtvềbangtựdođức tómtắtvềđườnghàngkhơng tómtắtvềhồ tómtắtvềquốcgia 64 tómtắtvềtỉnhcanada useaustralianenglish bộviệtnam đơnvịqnđội hộpthơngtinđộituyểnbóngchuyềnquốcgia hộpthơngtinđộituyểnbóngđáquốcgia hộpthơngtinliênđồnbóngđá infobox_australian_political_party infobox_company infoboxairline infoboxjapaneseclan infoboxlawenforcementagency infoboxlegislature infoboxmaterial infoboxmilitaryunit infoboxnationalfootballteam infoboxnationalmilitary infoboxnetwork infoboxnewspaper infoboxnon-profit infoboxorganisation 65 Place Place Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Other Other Other Other Other Other Other Other Other Other Other Other infoboxorganization thơngtingiáohội thơngtinhãngghiâm chúthíchbáchkhoatồnthư chúthíchbáo chúthíchsách chúthíchtạpchí infoboxprogramminglanguage pp-move pp-move-indef pp-protected thơngtinhiệpước thơngtinhóachất thơngtinkhốngvật thơngtinloạinhạc 66 Phụ lục 3: Mô tả nội dung tệp liệu sau tiền xử lý Organization BBC _CATEGORY _truyền hình vương quốc liên hiệp anh, _CATEGORY _bbc, _INFOBOX _người sáng lập, _SECTION _tài chính, _SECTION _hoạt động thương mại, _INFOBOX _dịch vụ, _SECTION _trụ sở văn phòng, _DIFF_FEATURE _[6], _SECTION _các dịch vụ, _DIFF_FEATURE _[8], _INFOBOX _nhân viên chủ chốt, _FIRST_NOUN _thơng_tấn_xã, _SECTION _liên kết ngồi, _FIRST_NOUN _đài_truyền_hình, _DIFF_FEATURE _thơng xã, _DIFF_FEATURE _[3], _SECTION _lịch sử, _DIFF_FEATURE _phát thanh, _CATEGORY _nhãn hiệu anh, _SECTION _sự quản lý phủ cấu trúc đồn thể, _INFOBOX _số nhân viên, _INFOBOX _thành lập, _DIFF_FEATURE _[5], _DIFF_FEATURE _[7], _INFOBOX _s ản phẩm, _DIFF_FEATURE _[9], _INFOBOX _ngành nghề, _SECTION _tham khảo, _INFOBOX _chủ sở hữu, _INFOBOX _doanh thu, _DIFF_FEATURE _[2], _FIRST_NOUN _truyền_thơng, _CATE GORY _đài phát sóng cơng cộng, _DIFF_FEATURE _[4], _INFOBOX _trụ sở chính, _CATEGORY _hãng truyền thơng anh, _CATEGORY _đài truyền hình anh, _INFOBOX _loại hình, _SECTION _logo, _INFOBOX _british broadcasting corporation, _INFOBOX _website, _INFOBOX _logo sử dụng từ tháng 10 năm 1997 Place Vườn quốc gia Cúc Phương _INFOBOX _rừng cúc phương, _SECTION _các điểm du lịch, _SECTION _đa dạng sinh học, _INFOBOX _diện tích, _CATEGORY _du lịch hịa bình, _INFOBOX _vị trí, _SECTION _địa hình thủy văn, _INFOBOX _cơ quan quản lý, _SECTION _liên kết ngồi, _CATEGORY _ninh bình, _DIFF_FEATURE _[1], _INFOBOX _tọa độ, _FIRST_NOUN _vườn_quốc_gia, _CATEGORY _iucn loại ii, _DIFF_FEATURE _hệ động thực vật, _DIFF_FEATURE _khu bảo tồn thiên nhiên, _DIFF_FEATURE _rừng mưa nhiệt đới, _INFOBOX _thành lập, _SECTION _lịch sử địa 67 lý, _CATEGORY _rừng đặc dụng, _CATEGORY _vườn quốc gia việt nam, _INFOBOX _iucn ii, _SECTION _các vấn đề bảo tồn, _INFOBOX _vườn quốc gia cúc phương, _INFOBOX _vị trí việt nam, _INFOBOX _thành phố gần nhất, _FIRST_NOUN _khu, _CATEGORY _du lịch ninh bình, _CATEGORY _du lịch hóa, _CATEGORY _khu du lịch việt nam, _SECTION _chú thích CreativeWork USS Enterprise (CV-6) _INFOBOX _đặt lườn, _DIFF_FEATURE _tàu sân bay, _INFOBOX _đặt hàng, _INFOBOX _vũ trang, _SECTION _các hoạt động sau chiến tranh, _FIRST_NOUN _cuộc, _DIFF_FEATURE _ngôi chiến đấu, _INFOBOX _lớp kiểu, _INFOBOX _tốc độ, _SECTION _liên kết ngoài, _SECTION _phần thưởng danh hiệu, _INFOBOX _thủy thủ đoàn, _CATEGORY _trận chiến biển philippines, _INFOBOX _trọng tải choán nước, _INFOBOX _tầm xa, _FIRST_NOUN _saratoga, _INFOBOX _sườn ngang, _INFOBOX _độ dài, _FIRST_NOUN _tàu_chiến, _INFOBOX _hoạt động, _DIFF_FEATURE _tên này, _INFOBOX _phục vụ, _INFOBOX _đặc điểm khái quát, _INFOBOX _số phận, _INFOBOX _hệ thống cảm biến xử lý, _INFOBOX _hạ thủy, _SECTION _các hoạt động ban đầu, _FIRST_NOUN _số, _INFOBOX _biệt danh, _INFOBOX _mớn nước, _FIRST_NOUN _tàu, _INFOBOX _xóa đăng bạ, _FIRST_NOUN _tàu_sân_bay, _INFOBOX _danh hiệu phong tặng, _SECTION _xem thêm, _INFOBOX _bọc giáp, _CATEGORY _tàu sân bay chiến ii, _SECTION _thế chiến ii, _SECTION _tham khảo, _CATEGORY _tàu sân bay hải quân hoa kỳ, _CATEGORY _trận midway, _INFOBOX _hãng đóng tàu, _INFOBOX _tàu sân bay uss enterprise tháng năm 1939, _INFOBOX _thiết bị bay, _INFOBOX _đỡ đầu bởi, _INFOBOX _động đẩy, _INFOBOX _máy bay mang theo, _CATEGORY _trận chiến vịnh leyte Person Stevie Wonder _INFOBOX _nghệ danh, _INFOBOX _thông tin nghệ sĩ, _CATEGORY _sinh 1950, _CATEGORY _ca sĩ nhạc r&b 68 mỹ, _DIFF_FEATURE _[8], _DIFF_FEATURE _13 tháng 5, _SECTION _sự nghiệp âm nhạc, _FIRST_NOUN _nhân_vật, _CATEGORY _người ghi danh đại sảnh danh vọng rock and roll, _SECTION _liên kết ngoài, _CATEGORY _người mù, _INFOBOX _stevie wonder, _DIFF_FEATURE _[3], _CATEGORY _người đoạt giải grammy, _CATEGORY _nhà sản xuất thu âm mỹ, _INFOBOX _hãng đĩa, _DIFF_FEATURE _[11], _SECTION _đầu đời, _CATEGORY _người đoạt huy chương tự tổng thống, _CATEGORY _nhạc sĩ giành giải oscar cho ca khúc phim hay nhất, _CATEGORY _ca sĩ thiếu nhi mỹ, _CATEGORY _nhân vật sống, _CATEGORY _sơ khai ca sĩ mỹ, _INFOBOX _sinh, _INFOBOX _nghề nghiệp, _DIFF_FEATURE _[7], _FIRST_NOUN _bản, _DIFF_FEAT URE _nhạc sĩ, _INFOBOX _nguyên quán, _CATEGORY _nhạc sĩ nhạc pop thiếu nhi, _CATEGORY _nhà sản xuất thu âm người mỹ gốc phi, _FIRST_NOUN _sĩnhạc, _DIFF_FEATURE _[2], _INFOBOX _stevie wonder biểu diễn vào năm 1973, _CATEGORY _nhà soạn nhạc mỹ, _CATEGORY _người vinh danh trung tâm kennedy, _INFOBOX _nhạc cụ, _INFOBOX _website, _DIFF_FEATURE _[12], _CATEGORY _ ca sĩ mỹ kỷ 21, _SECTION _danh sách đĩa nhạc, _CATEGORY _người michigan, _CATEGORY _nam ca sĩ tự sáng tác mỹ, _CATEGORY _ca sĩ mỹ kỷ 20, _DIFF_FEATURE _[6], _CATEGORY _người đoạt giải grammy thành tựu trọn đời, _INFOBOX _tên khai sinh, _DIFF_FEATURE _[1], _DIFF_FEATURE _ca sĩ, _FIRST_NOUN _stevland, _CATEGORY _nghệ sĩ motown records, _CATEGORY _nghệ sĩ đa nhạc cụ người mỹ, _INFOBOX _thể loại, _CATEGORY _nam ca sĩ mỹ, _DIFF_FEATURE _[5], _DIFF_FEATURE _[9], _CATEGORY _người ghi danh đại sảnh danh vọng nhạc sĩ, _CATEGORY _sứ giả hịa bình liên hiệp quốc, _DIFF_FEATURE _[4], _INFOBOX _năm hoạt động, _DIFF_FEATURE _nhà sản xuất âm nhạc, _DIFF_FEATURE _[10], _SECTION _chú thích 69 ... cầu xây dựng hệ tri thức để phục vụ cho ứng dụng ngày cấp thiết yếu Trong việc xây dựng hệ tri thức việc xây dựng sở liệu thực thể có tên phân loại thực thể có tên bước quan trọng Bài tốn phân loại. .. tốn phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức tốn sử dụng thơng tin từ nguồn liệu để trích lọc thực thể có tên, từ phân loại thực thể có tên thành kiểu thực thể người (Person),... sau thực phân loại tiếp thực thể kiểu phổ biến thành kiểu chi tiết Chương PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA TIẾNG VIỆT Bài tốn phân loại thực thể có tên Wikipedia tiếng Việt để phục vụ cho