Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
4,28 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán hướng dẫn: PGS TS Phạm Bảo Sơn HÀ NỘI - 2019 i Lời cảm ơn Trước tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo: Phó giáo sư - Tiến sĩ Phạm Bảo Sơn thầy giáo: Tiến sĩ Nguyễn Bá Đạt, tận tình hướng dẫn tơi suốt trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ - ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức cho thời gian qua, với anh chị em Công ty cổ phần NERD, hỗ trợ cho suốt thời gian thực luận văn Tôi cảm ơn lãnh đạo Tập đồn Cơng nghiệp Viễn thơng Qn đội Viettel đồng nghiệp tạo điều kiện để hoàn thành việc học cao học bảo vệ luận văn thạc sĩ Cuối cùng, xin cảm ơn tất gia đình, bạn bè ln động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định thời gian trình độ có hạn nên luận văn nhiều thiếu sót hạn chế Kính mong nhận góp ý q thầy bạn ii Lời cam đoan Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn thực hướng dẫn Phó giáo sư - Tiến sĩ Phạm Bảo Sơn Tiến sĩ Nguyễn Bá Đạt, thực trình hợp tác nghiên cứu Đại học Công Nghệ Công ty cổ phần NERD Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà iii Mục lục Lời cảm ơn i Lời cam đoan ii Danh sách bảng v Danh sách hình vẽ vi Lời mở đầu Chương Giới thiệu 1.1 Phạm vi toán mục tiêu nghiên cứu 1.2 Đóng góp luận văn 1.3 Cấu trúc luận văn Chương Hệ thống kiểu thực thể có tên 2.1 Khái niệm 2.1.1 Hệ tri thức 2.1.2 Thực thể 2.1.3 Thực thể có tên 10 2.1.4 Kiểu thực thể 10 2.2 Các hệ thống kiểu thực thể 11 2.2.1 Các hệ thống kiểu chi tiết cho Tiếng Anh 11 2.2.2 Hệ thống kiểu thực thể NERD-TS 13 2.2.3 Điểm khác biệt NERD-TS với hệ thống kiểu toán NER truyền thống 14 Chương Phân loại thực thể có tên Wikipedia tiếng Việt 18 3.1 Học máy 18 3.1.1 Tổng quan học máy 18 iv 3.1.2 3.2 Phân nhóm thuật tốn học máy dựa phương thức học 20 Mơ hình SVM 25 3.2.1 Tổng quan 25 3.2.2 Mơ hình SVM với nhân tuyến tính 27 3.2.3 Phân loại đa lớp (Multiclass classification) 29 3.3 Bộ công cụ Sklearn 31 3.3.1 Thư viện Sklearn Linear SVC (Linear Support Vector Classification) 32 3.3.2 Trích chọn đặc trưng (Feature extraction) 34 3.3.3 Lựa chọn đặc trưng (Feature selection) 36 3.3.4 Kiểm định chéo (Cross-validation) 38 3.4 Tiền xử lý liệu 41 3.4.1 Giới thiệu VnCoreNLP 43 3.4.2 Phân tách từ 43 3.4.3 Gán nhãn từ loại (POS tagging) 46 3.5 Tập đặc trưng 47 Chương Thực nghiệm 49 4.1 Tập liệu 49 4.2 Tiến hành thực nghiệm 50 4.3 Độ đo 52 4.4 Kết 52 4.5 Phân tích đóng góp loại đặc trưng 54 Kết luận hướng phát triển 57 Tham khảo 59 Phụ lục 62 Phụ lục Một số ví dụ tập liệu 10,000 trang Wikipedia gán nhãn thủ công 62 Phụ lục Một số luật gán kiểu thực thể dựa infobox template 66 Phụ lục 3: Mô tả nội dung tệp liệu sau tiền xử lý 69 v Danh sách bảng Bảng 2.1: Một vài ví dụ thực thể có tên 10 Bảng 2.2: Các kiểu sử dụng hệ thống FIGER [9] 12 Bảng 3.1: Cách biểu diễn cụ thể cho loại đặc trưng 48 Bảng 4.1: Thống kê số lượng thực thể theo loại tập liệu thực nghiệm 50 Bảng 4.2: Kết chi tiết phương pháp sở 53 Bảng 4.3: Kết mơ hình học máy đề xuất so với phương pháp sở 53 Bảng 4.4: Kết chi tiết mơ hình học máy với loại thực thể 53 Bảng 4.5: Kết mơ hình học máy thử loại bỏ loại đặc trưng 54 Bảng 4.6: Kết chi tiết với việc loại bỏ đặc trưng F1 54 Bảng 4.7: Kết chi tiết với việc loại bỏ đặc trưng F2 55 Bảng 4.8: Kết chi tiết với việc loại bỏ đặc trưng F3 55 Bảng 4.9: Kết chi tiết với việc loại bỏ đặc trưng F4 55 Bảng 4.10: Kết chi tiết với việc loại bỏ đặc trưng F5 56 vi Danh sách hình vẽ Hình 1.1: Trang Wikipedia tiếng Việt Đại học Quốc Gia Hà Nội Hình 2.1 Kiến trúc hệ tri thức Hình 2.2 Biểu diễn liệu hệ tri thức dạng knowledge graph Hình 2.3: Các ý nghĩa khác từ “đá” Hình 2.4 Kiến trúc hệ thống kiểu hệ tri thức Dbpedia 12 Hình 2.5: Cơng cụ nhận dạng thực thể Đại học Stanford 15 Hình 2.6: Trang Wikipedia tiếng Việt Tôn Ngộ Không 16 Hình 3.1: Mối quan hệ AI, Machine Learning Deep Learning 19 Hình 3.2: MNIST – sở liệu chữ số viết tay 21 Hình 3.3: AlphaGo chơi cờ vây với Lee Sedol 24 Hình 3.4: Ví dụ phân loại SVM với lề cực đại (đường H3) 26 Hình 3.5: Sử dụng kernel trick để ánh xạ liệu lên không gian nhiều chiều 27 Hình 3.6 Ví dụ lề phân lớp cực đại 𝑤 𝑥 = 𝑏 28 Hình 3.7: Ví dụ Linear SVC thư viện Sklearn 32 Hình 3.8: Biểu điễn hành vi kiển định chéo 3-fold Stratified CV 40 Hình 3.9 Các bước tiền xử lý liệu 41 Hình 3.10 Một trang wikipedia điển hình 42 Hình 3.11: Kiến trúc tổng thể VNCoreNLP [23] 43 Hình 3.12: Phân loại phương pháp tiếp cận Phân tách từ 45 Hình 3.13: Ví dụ tương ứng toán tách từ toán gán nhãn chuỗi [28] 45 Hình 3.14: Các đặc trưng trích xuất từ thực thể có tên Wikipedia 48 Hình 4.1: Phương pháp tiến hành thực nghiệm 51 Lời mở đầu Phân loại thực thể có tên tốn quan trọng lĩnh vực trích xuất thơng tin (Information Extraction), xây dựng hệ tri thức (Knowledge Base Construction) Cùng với nhu cầu ngày nhiều ứng dụng trí tuệ nhân tạo, đặc biệt ứng dụng trợ lý ảo Google, Apple, Amazon, nhu cầu xây dựng hệ tri thức ngày lớn cấp thiết Theo đó, tầm quan trọng toán phân loại thực thể ngày nâng cao Trong luận văn này, học viên giới thiệu phương pháp hiệu để giải toán phân loại thực thể có tên phiên Wikipedia tiếng Việt dựa máy véc-tơ hỗ trợ (Support Vector Machine) Đặc biệt, luận văn hoàn thành xây dựng cơng cụ để thực thi tốn với độ xác cao 94% Bên cạnh đó, luận văn đóng góp cho cộng đồng nghiên cứu tập liệu lớn gồm 10,000 thực thể gán nhãn thủ công công cụ để thực tiền xử lý liệu, tái sử dụng để phục vụ cho tốn có nội dung liên quan Học viên tin tưởng đóng góp luận văn đẩy nhanh trình xây dựng hệ tri thức tiếng Việt giàu có thơng tin Qua đó, học viên trực tiếp gián tiếp đóng góp vào nghiên cứu lĩnh vực xử lý ngơn ngữ tự nhiên (Natural Language Processing) trí tuệ nhân tạo (Artificial Intelligence) hỏi đáp tự động (Question Answering), tổng hợp trích xuất thơng tin (Information Extraction) Chương Giới thiệu 1.1 Phạm vi toán mục tiêu nghiên cứu Hiện nay, với nhu cầu ngày nhiều ứng dụng trí tuệ nhân tạo, đặc biệt ứng dụng trợ lý ảo Google Assistant (Google), Alexa (Amazon), Siri (Apple), v.v nhu cầu xây dựng hệ tri thức để phục vụ cho ứng dụng ngày cấp thiết yếu Trong việc xây dựng hệ tri thức việc xây dựng sở liệu thực thể có tên phân loại thực thể có tên bước quan trọng Bài tốn phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức toán sử dụng thơng tin từ nguồn liệu để trích lọc thực thể có tên, từ phân loại thực thể có tên thành kiểu thực thể người (Person), tổ chức (Organization), Địa điểm (Place), Sự kiện (Event), v.v kiểu chi tiết kiểu FIGER [9], NERD, v.v để phục vụ cho việc xây dựng hệ tri thức Đây tốn quan trọng lĩnh vực trích xuất thơng tin (Information Extraction), xây dựng hệ tri thức (Knowledge Base Construction), phân loại thực thể có tên miền Wikipedia thu hút quan tâm lớn giới học thuật giới [14], [16], [19] Tại Việt Nam, bối cảnh nhiều công ty công nghệ FPT1, NERD2, v.v tổ chức phi lợi nhuận Đề án hệ tri thức Việt số hóa3 nỗ lực xây dựng hệ tri thức lớn cho thị trường Việt, việc xây dựng nghiên cứu cơng cụ phân loại thực thể có tên cho tiếng Việt cần thiết Một số nghiên cứu liên quan kể đến cơng cụ dự đốn kiểu thực thể hệ tri thức Dbpedia tác giả Nguyễn Thị Như cộng [12], [13] Đây coi bước khởi đầu cho toán tiếng Việt Tuy nhiên, kết thu chưa thực tốt liệu Dbpedia phiên tiếng Việt khiêm tốn Hơn nữa, cơng cụ trích xuất thơng tin hệ tri thức Dbpdia https://fpt.ai/ https://www.nerd.vn/ https://itrithuc.vn/ 57 Kết luận hướng phát triển Kết đạt luận văn Trong khuôn khổ luận văn này, học viên hồn thành xây dựng cơng cụ phân loại thực thể miền Wikipedia tiếng Việt giải thành cơng tốn tốn quan trọng lĩnh vực trích xuất thơng tin xây dựng hệ tri thức Luận văn đóng góp cho cộng đồng nghiên cứu: • cơng cụ có khả phân loại thực thể có tên miền Wikipedia tiếng Việt đạt độ xác 𝐹'.( = 94% • liệu với 10,000 thực thể gán nhãn thủ cơng • cơng cụ tiền xử lý liệu tái sử dụng cho toán nghiên cứu liên quan Theo hiểu biết tìm kiếm thơng tin học viên, chưa có nhiều nghiên cứu, cơng cụ tương tự cho tiếng Việt Nghiên cứu dự đoán kiểu thực thể hệ tri thức Dbpedia phiên tiếng Việt tác giả Nguyễn Thị Như cộng [12], [13] coi bước khởi đầu cho nhóm tốn liên quan Tuy nhiên, kết thu chưa thực tốt nhiều nguyên nhân như: • liệu Dbpedia phiên tiếng Việt khiêm tốn, • số lượng lớn nhiễu tồn phiên Dbpedia tiếng Việt cơng cụ trích xuất thông tin hệ tri thức Dbpdia tập trung vào ngôn ngữ phổ biến giới tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, v.v., mà không tối ưu cho tiếng Việt Các điểm hạn chế luận văn Cho đến thời điểm tại, công cụ học viên xây dựng hỗ trợ sáu kiểu thực thể phổ biến hệ thống kiểu NERD-TS Lý chủ yếu công việc gán nhãn tập liệu thủ công với số lượng lớn kiểu thực thể đòi hỏi thời gian dài, không phù hợp với khuôn khổ luận văn Tuy nhiên, phương pháp làm luận văn hoàn toàn dễ dàng mở rộng tương lai 58 Hướng phát triển Trong tương lai, học viên mở rộng nghiên cứu luận văn cho hệ thống kiểu thực thể NERD-TS với hệ thống kiểu chi tiết hơn, giúp cho kết phân loại có giá trị cao việc sử dụng vào hệ tri thức Học viên bổ sung thêm tập liệu để sử dụng cho giai đoạn nghiên cứu tiếp theo, đặc biệt liệu kiểu mẫu Event, Creative Work, Character Đồng thời, học viên tiến hành thực nghiệm thêm với phương pháp học máy khác nhằm tìm phương pháp học máy phù hợp với mục tiêu tốn Thậm chí, có đủ liệu, học viên thử với phương pháp học sâu để tăng hiệu công cụ 59 Tham khảo [1] Apostolidis-Afentoulis, V., & Lioufi, K.-I (2015) SVM Classification with Linear and RBF Kernels [2] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z (2007) DBpedia: A Nucleus for a Web of Open Data Proceedings of the 6th International The Semantic Web and 2Nd Asian Conference on Asian Semantic Web Conference (pp 722 - 735) Springer [3] Finkel, J R., Grenager, T., & Manning, C D (2005) Incorporating Nonlocal Information into Information Extraction Systems by Gibbs Sampling Proceedings of the 43rd Annual Meeting of the Association for Computational (pp 363 - 370) ACL [4] Ghaddar, A., & Langlais, P (2018) Transforming Wikipedia into a LargeScale Fine-Grained Entity Type Corpus Proceedings of the Eleventh International Conference on Language Resources and Evaluation ELRA [5] Grishman, R., & Sundheim, B (1995) Design of the MUC-6 Evaluation Proceedings of the 6th Conference on Message Understanding (pp - 11) ACL [6] Grishman, R., & Sundheim, B (1996) Message Understanding Conference-6: A Brief History Proceedings of the 16th Conference on Computational Linguistics (pp 466 - 471) ACL [7] Hsu, C.-W., Chang, C.-C., & Lin, C.-J (2003) A Practical Guide to Support Vector Classification Department of Computer Science, National Taiwan University [8] Keerthi, S S., & Lin, C.-J (2003) Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel Neural Computation, 1667 - 1689 [9] Ling, X., & Weld, D S (2012) Fine-grained Entity Recognition Proceedings of the 26th AAAI Conference on Artificial Intelligence (pp 94 - 100) AAAI Press [10] Moro, A., Cecconi, F., & Navigli, R (2014) Multilingual Word Sense Disambiguation and Entity Linking for Everybody Proceedings of the 13th 60 [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] International Semantic Web Conference, Posters and Demonstrations (pp 25 - 28) Springer Moro, A., Raganato, A., & Navigli, R (2014) Entity Linking meets Word Sense Disambiguation: a Unified Transactions of the Association for Computational Linguistics, 231 - 244 Nguyen, T N., Cao, D., & Nguyen, A (2018) Automatically Mapping Wikipedia Infobox Attributes to DBpedia Properties for Fast Deployment of Vietnamese DBpedia Chapter Proceedings of the 10th Asian Conference on Intelligent Information and Database Systems (pp 127 136) Springer Nguyen, T N., Takeda, H., Nguyen, K., Ichise, R., & Cao, T D (2018) A Novel Method to Predict Type for DBpedia Entity Proceedings of the 10th Asian Conference on Modern Approaches for Intelligent Information and Database Systems (pp 125 - 134) Springer Oussalah, M., & Mohamed, M (2014) Identifying and Extracting Named Entities from Wikipedia Database Using Entity Infoboxes International Journal of Advanced Computer Science and Applications, 164 - 169 Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, et al (2011) Scikit-learn: Machine Learning in Python Journal of Machine Learning Research, 2825 - 2830 Ringland, N., Nothman, J., Murphy, T., & Curran, J R (2009) Classifying articles in English and German Wikipedia Proceedings of the Australasian Language Technology Association Workshop (ALTA) (pp 20 - 28) ACL Shimaoka, S., Stenetorp, P., Inui, K., & Riedel, S (2016) An Attentive Neural Architecture for Fine-grained Entity Type Classification Proceedings of the 5th Workshop on Automated Knowledge Base Construction (pp 69 - 74) ACL Suchanek, F M., Kasneci, G., & Weikum, G (2007) Yago: A Core of Semantic Knowledge Proceedings of the 16th International Conference on World Wide Web (pp 697 - 706) ACM Suzuki, M., Matsuda, K., Sekine, S., Okazaki, N., & Inui, K (2016) Neural Joint Learning for Classifying Wikipedia Articles into Fine-grained Named Entity Types Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation (PACLIC) ACL Vrandečić, D., & Krötzsch, M (2014) Wikidata: A Free Collaborative Knowledgebase Communication ACM, 78 - 85 61 [21] Yadav, V., & Bethard, S (2018) A Survey on Recent Advances in Named Entity Recognition from Deep Learning Models Proceedings of the 27th International Conference on Computational Linguistics (pp 2145 - 2158) ACL [22] Dang Duc Pham, Giang Binh Tran, Son Bao Pham (2009) A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags Proceeding KSE '09 Proceedings of the 2009 International Conference on Knowledge and Systems Engineering (pp.154-161) ACM [23] Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson (2018) A Fast and Accurate Vietnamese Word Segmenter In Proceedings of the 11th International Conference on Language Resources and Evaluation, LREC 2018 (pp.2582-2587) ACL [24] Tran Thi Oanh (2008) Luận văn thạc sĩ CNTT Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Trường Đại học Công nghệ, ĐHQG Hà Nội [25] Swain M (2013) Knowledge-based System In: Dubitzky W., Wolkenhauer O., Cho KH., Yokota H (eds) Encyclopedia of Systems Biology Springer, New York, NY [26] D B Nguyen, A Abujabal, N K Tran, M Theobald, and G Weikum Query-Driven On-The-Fly Knowledge Base Construc- tion PVLDB, 11 (1): 66-79, 2017 [27] Nguyen, Dat & Theobald, Martin & Weikum, Gerhard (2016) J-NERD: Joint Named Entity Recognition and Disambiguation with Rich Linguistic Features Transactions of the Association for Computational Linguistics 215-229 10.1162/tacl_a_00094 [28] Lưu Tuấn Anh, Yamamoto Kazuhide Natural Language Processing Laboratory Department of Electrical Engineering Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan Ứng dụng phương pháp Pointwise vào toán tách từ cho tiếng Việt 62 Phụ lục Phụ lục Một số ví dụ tập liệu 10,000 trang Wikipedia gán nhãn thủ cơng Thực thể có tên Hera Aphrodite Phân loại Character Thực thể có tên Phân loại Other Character Độ Celsius Hội đồng quản trị James Bond Character Sóng thần Other Siêu anh hùng Horus Character Other Character Diễn viên Araneidae Di-lặc Albus Dumbledore Character Character Oligia Zodarion Other Other Âu Dương Phong Thiên Hồng Character Character Khí Trái Đất Pháp thuộc Other Other Người Dơi Chúa tể Voldemort Character Character Other Other Osiris Character Chi Na Chuồn chuồn Người Khmer (Việt Nam) Quán Thế Âm A-di-đà Character Character Hòa ước Versailles Echinops telfairi Other Other Thần Nông Thần Ra Character Character Kinh tế Phút Other Other Apollo Character Ăn chay Other Dương Quá Character Bộ Sếu Other ITunes Store CreativeWork Xylocopinae Other Đĩa Blu-ray CreativeWork McCune–Reischauer Other PlayStation Vita CreativeWork Hugo Chávez Person Other Other Other 63 Trống CreativeWork Đạo Quang Person Xe tăng T-34 CreativeWork Alicia Keys Person Mikoyan-Gurevich MiG-15 CreativeWork Meryl Streep Person CreativeWork Hómēros Person Internet Archive CreativeWork An Dương Vương Person Sách Đỏ IUCN CreativeWork Fidel Castro Person Thriller (album) CreativeWork Cao Xuân Dục Person Tư trị thông giám CreativeWork Đường Túc Tông Person Le Monde CreativeWork Elina Svitolina Person M Countdown CreativeWork Randy Orton Person Thiên long bát CreativeWork Septimius Severus Person EP CreativeWork Minh Tuyết Person Billie Jean CreativeWork Trịnh Giang Person Pitchfork Media CreativeWork George W Bush Person Sách Kỷ lục Guinness CreativeWork Sawa Homare Person Avatar (phim 2009) CreativeWork Samuel Eto'o Person DOS CreativeWork Hậu Lương Thái Tổ Person America's Model Next Top 64 The World Factbook CreativeWork Trấn Thành Person Hoa hậu Quốc tế Cúp bóng đá châu Phi 2010 Giải vơ địch bóng đá Đơng Nam Á Liên Xô tan rã Event John Edward Gray Person Event Nhà hát Lớn Hà Nội Place Event Event Athni Cẩm Xuyên Place Place Nội chiến Syria Cúp bóng đá liên lục địa Chiến dịch Điện Biên Phủ Event Event Udupi (huyện) Bình Sơn Place Place Event Windhoek Place Indian Wells Masters Giải vơ địch bóng đá châu Âu 2016 Event Place Event Morbihan Sân bay quốc tế Đà Nẵng Thống nước Đức Phong trào Đông Du Event Event Karnataka Yorkshire Place Place Chiến dịch Hồ Chí Minh Trận Midway Sự kiện năm 1956 Hungary Giải Video âm nhạc MTV Event Event Donetsk (tỉnh) Alaşehir Place Place Event Visayas Place Event Shimoga (huyện) Place Trận Stalingrad Sự kiện 30 tháng năm 1975 Loạn An Sử Event Tân Lạc Place Event Event Béziers (quận) Bouches-du-Rhône Place Place Trận Vòng cung Kursk Phong trào Nghĩa Hòa Đồn Event Adana (tỉnh) Place Event Kırklareli (tỉnh) Place Lễ Phục Sinh J2 League Event Event Shahpur Zagreb Place Place Hoa hậu Hồn vũ Cúp bóng đá Nam Mỹ Event Event Vaucluse Salerno Place Place Place 65 Event Sparta Place Organization Abkhazia Place Organization Organization Serik Place Place Organization Organization Tizi Ouzou (tỉnh) Dar es Salaam Place Place Organization Mainz Place Organization Simferopol Place Đội bóng đá Thể Cơng Organization Quần đảo Cayman Place Sega Organization Toei Company Hiệp hội bóng đá Hoàng gia Hà Lan Wonder Girls Quốc hội Việt Nam khóa X Organization Super Junior-M Vegalta Sendai Organization Organization Ipswich Town F.C Organization Giáo hội Anh Organization Viện phim Mỹ Organization BirdLife International Organization Trận Iwo Jima Quân Giải phóng miền Nam Việt Nam Ủy ban Olympic quốc gia Singapore Airlines Hertha BSC Norwich City F.C Trường Đảng Trung ương Đảng Cộng sản Trung Quốc Câu lạc bóng đá Tây Ninh Organization Organization Organization Kavak 66 Phụ lục Một số luật gán kiểu thực thể dựa infobox template Infobox template hpcharacter infoboxcomicscharacter Kiểu Character Character infoboxdeity infoboxgreekdeity Character Character infoboxwuxiafictioncharacter thôngtinnhânvậthưcấu Character Character thôngtinnhânvậttamquốc thôngtinnhânvậtthủyhử Character Character thơngtinthánh bảngtómtắtvềphim Character CreativeWork báochí googlebooks CreativeWork CreativeWork hộpthơngtinhđh CreativeWork hộpthôngtinhệđiềuhành infoboxmediafranchise CreativeWork CreativeWork infobox_newspaper thôngtinphầnmềm CreativeWork CreativeWork thôngtinphim thơngtinsách CreativeWork CreativeWork thơngtintácphẩmvănhọc thơngtintạpchí CreativeWork CreativeWork thơngtinthànhphầnđiệntử thơngtintrìnhduyệt CreativeWork CreativeWork thơngtintrìnhduyệtweb thơngtintròchơi CreativeWork CreativeWork thơngtintruyềnhình grandslamtournaments CreativeWork Event hộpthơngtingiảiđấubóngđá infoboxcivilconflict Event Event infoboxhurricane Event 67 infoboxuprising Event thôngtinchiếntranh Event thơngtingiảiđấubóngđáquốctế thơngtinsựkiện Event Event thơngtinsựkiệnlịchsử thơngtinthếvậnhội Event thơngtintổchứcsựkiệnthểthao tómtắtchiếntranh Event Event cựutayđuacôngthức1 infoboxcomedian Person Person thôngtindiễnviên Person thôngtindiễnviênvàcasĩhoangữ thôngtinthốngđốc Person Person thơngtintiểusửbóngđá thủtướng Person Person tiểusửqnnhân usebritishenglish Person Person vậnđộngviênquầnvợt viênchức Person Person bảngtómtắttriếtgia casĩviệtnam Person Person hộpthơngtincăncứqnsự hộpthơngtinquốcgia Place Place hộpthơngtinsânvậnđộng infoboxprotectedarea1 Place Event infoboxprovince Place Place tómtắtvềbangtựdođức tómtắtvềđườnghàngkhơng Place Place tómtắtvềhồ tómtắtvềquốcgia Place Place tómtắtvềtỉnhcanada useaustralianenglish Place Place bộviệtnam Organization 68 đơnvịqnđội Organization hộpthơngtinđộituyểnbóngchuyềnquốcgia Organization hộpthơngtinđộituyểnbóngđáquốcgia hộpthơngtinliênđồnbóngđá Organization Organization infobox_australian_political_party infobox_company Organization infoboxairline infoboxjapaneseclan Organization Organization infoboxlawenforcementagency infoboxlegislature Organization Organization infoboxmaterial Organization infoboxmilitaryunit infoboxnationalfootballteam Organization Organization infoboxnationalmilitary infoboxnetwork Organization Organization infoboxnewspaper infoboxnon-profit Organization Organization infoboxorganisation infoboxorganization Organization Organization thơngtingiáohội thơngtinhãngghiâm Organization Organization chúthíchbáchkhoatồnthư chúthíchbáo Other chúthíchsách chúthíchtạpchí Other infoboxprogramminglanguage pp-move Other Organization Other Other pp-move-indef Other Other pp-protected thơngtinhiệpước Other Other thơngtinhóachất thơngtinkhốngvật Other Other thơngtinloạinhạc Other 69 Phụ lục 3: Mô tả nội dung tệp liệu sau tiền xử lý Organization BBC _CATEGORY _truyền hình vương quốc liên hiệp anh, _CATEGORY _bbc, _INFOBOX _người sáng lập, _SECTION _tài chính, _SECTION _hoạt động thương mại, _INFOBOX _dịch vụ, _SECTION _trụ sở văn phòng, _DIFF_FEATURE _[6], _SECTION _các dịch vụ, _DIFF_FEATURE _[8], _INFOBOX _nhân viên chủ chốt, _FIRST_NOUN _thơng_tấn_xã, _SECTION _liên kết ngồi, _FIRST_NOUN _đài_truyền_hình, _DIFF_FEATURE _thông xã, _DIFF_FEATURE _[3], _SECTION _lịch sử, _DIFF_FEATURE _phát thanh, _CATEGORY _nhãn hiệu anh, _SECTION _sự quản lý phủ cấu trúc đồn thể, _INFOBOX _số nhân viên, _INFOBOX _thành lập, _DIFF_FEATURE _[5], _DIFF_FEATURE _[7], _INFOBOX _ sản phẩm, _DIFF_FEATURE _[9], _INFOBOX _ngành nghề, _SECTION _tham khảo, _INFOBOX _chủ sở hữu, _INFOBOX _doanh thu, _DIFF_FEATURE _[2], _FIRST_NOUN _truyền_thơng, _CATE GORY _đài phát sóng cơng cộng, _DIFF_FEATURE _[4], _INFOBOX _trụ sở chính, _CATEGORY _hãng truyền thơng anh, _CATEGORY _đài truyền hình anh, _INFOBOX _loại hình, _SECTION _logo, _INFOBOX _british broadcasting corporation, _INFOBOX _website, _INFOBOX _logo sử dụng từ tháng 10 năm 1997 Place Vườn quốc gia Cúc Phương _INFOBOX _rừng cúc phương, _SECTION _các điểm du lịch, _SECTION _đa dạng sinh học, _INFOBOX _diện tích, _CATEGORY _du lịch hòa bình, _INFOBOX _vị trí, _SECTION _địa hình thủy văn, _INFOBOX _cơ quan quản lý, _SECTION _liên kết ngồi, _CATEGORY _ninh bình, _DIFF_FEATURE _[1], _INFOBOX _tọa độ, _FIRST_NOUN _vườn_quốc_gia, _CATEGORY _iucn loại ii, _DIFF_FEATURE _hệ động thực vật, _DIFF_FEATURE _khu bảo tồn thiên nhiên, _DIFF_FEATURE _rừng mưa nhiệt đới, _INFOBOX _thành lập, _SECTION _lịch sử địa 70 lý, _CATEGORY _rừng đặc dụng, _CATEGORY _vườn quốc gia việt nam, _INFOBOX _iucn ii, _SECTION _các vấn đề bảo tồn, _INFOBOX _vườn quốc gia cúc phương, _INFOBOX _vị trí việt nam, _INFOBOX _thành phố gần nhất, _FIRST_NOUN _khu, _CATEGORY _du lịch ninh bình, _CATEGORY _du lịch hóa, _CATEGORY _khu du lịch việt nam, _SECTION _chú thích CreativeWork USS Enterprise (CV-6) _INFOBOX _đặt lườn, _DIFF_FEATURE _tàu sân bay, _INFOBOX _đặt hàng, _INFOBOX _vũ trang, _SECTION _các hoạt động sau chiến tranh, _FIRST_NOUN _cuộc, _DIFF_FEATURE _ngôi chiến đấu, _INFOBOX _lớp kiểu, _INFOBOX _tốc độ, _SECTION _liên kết ngoài, _SECTION _phần thưởng danh hiệu, _INFOBOX _thủy thủ đoàn, _CATEGORY _trận chiến biển philippines, _INFOBOX _trọng tải choán nước, _INFOBOX _tầm xa, _FIRST_NOUN _saratoga, _INFOBOX _sườn ngang, _INFOBOX _độ dài, _FIRST_NOUN _tàu_chiến, _INFOBOX _hoạt động, _DIFF_FEATURE _tên này, _INFOBOX _phục vụ, _INFOBOX _đặc điểm khái quát, _INFOBOX _số phận, _INFOBOX _hệ thống cảm biến xử lý, _INFOBOX _hạ thủy, _SECTION _các hoạt động ban đầu, _FIRST_NOUN _số, _INFOBOX _biệt danh, _INFOBOX _mớn nước, _FIRST_NOUN _tàu, _INFOBOX _xóa đăng bạ, _FIRST_NOUN _tàu_sân_bay, _INFOBOX _danh hiệu phong tặng, _SECTION _xem thêm, _INFOBOX _bọc giáp, _CATEGORY _tàu sân bay chiến ii, _SECTION _thế chiến ii, _SECTION _tham khảo, _CATEGORY _tàu sân bay hải quân hoa kỳ, _CATEGORY _trận midway, _INFOBOX _hãng đóng tàu, _INFOBOX _tàu sân bay uss enterprise tháng năm 1939, _INFOBOX _thiết bị bay, _INFOBOX _đỡ đầu bởi, _INFOBOX _động đẩy, _INFOBOX _máy bay mang theo, _CATEGORY _trận chiến vịnh leyte Person Stevie Wonder _INFOBOX _nghệ danh, _INFOBOX _thông tin nghệ sĩ, _CATEGORY _sinh 71 1950, _CATEGORY _ca sĩ nhạc r&b mỹ, _DIFF_FEATURE _[8], _DIFF_FEATURE _13 tháng 5, _SECTION _sự nghiệp âm nhạc, _FIRST_NOUN _nhân_vật, _CATEGORY _người ghi danh đại sảnh danh vọng rock and roll, _SECTION _liên kết ngoài, _CATEGORY _người mù, _INFOBOX _stevie wonder, _DIFF_FEATURE _[3], _CATEGORY _người đoạt giải grammy, _CATEGORY _nhà sản xuất thu âm mỹ, _INFOBOX _hãng đĩa, _DIFF_FEATURE _[11], _SECTION _đầu đời, _CATEGORY _người đoạt huy chương tự tổng thống, _CATEGORY _nhạc sĩ giành giải oscar cho ca khúc phim hay nhất, _CATEGORY _ca sĩ thiếu nhi mỹ, _CATEGORY _nhân vật sống, _CATEGORY _sơ khai ca sĩ mỹ, _INFOBOX _sinh, _INFOBOX _nghề nghiệp, _DIFF_FEATURE _[7], _FIRST_NOUN _bản, _DIFF_FEAT URE _nhạc sĩ, _INFOBOX _nguyên quán, _CATEGORY _nhạc sĩ nhạc pop thiếu nhi, _CATEGORY _nhà sản xuất thu âm người mỹ gốc phi, _FIRST_NOUN _sĩnhạc, _DIFF_FEATURE _[2], _INFOBOX _stevie wonder biểu diễn vào năm 1973, _CATEGORY _nhà soạn nhạc mỹ, _CATEGORY _người vinh danh trung tâm kennedy, _INFOBOX _nhạc cụ, _INFOBOX _website, _DIFF_FEATURE _[12], _CATEGORY _ca sĩ mỹ kỷ 21, _SECTION _danh sách đĩa nhạc, _CATEGORY _người michigan, _CATEGORY _nam ca sĩ tự sáng tác mỹ, _CATEGORY _ca sĩ mỹ kỷ 20, _DIFF_FEATURE _[6], _CATEGORY _người đoạt giải grammy thành tựu trọn đời, _INFOBOX _tên khai sinh, _DIFF_FEATURE _[1], _DIFF_FEATURE _ca sĩ, _FIRST_NOUN _stevland, _CATEGORY _nghệ sĩ motown records, _CATEGORY _nghệ sĩ đa nhạc cụ người mỹ, _INFOBOX _thể loại, _CATEGORY _nam ca sĩ mỹ, _DIFF_FEATURE _[5], _DIFF_FEATURE _[9], _CATEGORY_ người ghi danh đại sảnh danh vọng nhạc sĩ, _CATEGORY _sứ giả hòa bình liên hiệp quốc, _DIFF_FEATURE _[4], _INFOBOX _năm hoạt động, _DIFF_FEATURE _nhà sản xuất âm nhạc, _DIFF_FEATURE _[10], _SECTION _chú thích ... chứng minh cho độ ưu việt giải pháp • Đồng thời, học viên đưa đề xuất để phát tri n tiếp công cụ tương lai Lý luận văn lựa chọn Wikipedia tảng tri thức đa ngơn ngữ, có cộng đồng phát tri n đông... xây dựng hệ tri thức lớn giới Dbpedia [2], Wikidata [20], Yago [18], v.v Hiện nay, phiên Wikipedia có 52 tri u viết 309 ngơn ngữ, riêng tiếng Việt5 có khoảng 1.24 tri u viết với 1.7 tri u thực... Cụ thể, NERD-TS thiết kế cho toán xây dựng hệ tri thức tiếng Việt toán khai phá liệu (Text Mining) tảng hệ tri thức Hệ thống kiểu NERD-TS phát tri n dựa hệ thống kiểu Wikipedia1 1, chứa sáu kiểu