1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

76 37 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 5,67 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 2 LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán hướng dẫn: PGS TS Phạm Bảo Sơn HÀ NỘI - 2019 3 LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo: Phó giáo sư - Tiến sĩ Phạm Bảo Sơn thầy giáo: Tiến sĩ Nguyễn Bá Đạt, tận tình hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ ĐHQG Hà Nội thầy cô giáo giảng dạy, truyền thụ kiến thức cho thời gian qua, với anh chị em Công ty cổ phần NERD, hỗ trợ cho suốt thời gian thực luận văn Tôi cảm ơn lãnh đạo Tập đồn Cơng nghiệp Viễn thông Quân đội Viettel đồng nghiệp tạo điều kiện để tơi hồn thành việc học cao học bảo vệ luận văn thạc sĩ Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè động viên giúp đỡ thời gian nghiên cứu đề tài Tuy có cố gắng định thời gian trình độ có hạn nên luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận góp ý q thầy cô bạn 4 LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn tơi thực hướng dẫn Phó giáo sư - Tiến sĩ Phạm Bảo Sơn Tiến sĩ Nguyễn Bá Đạt, thực trình hợp tác nghiên cứu Đại học Cơng Nghệ Công ty cổ phần NERD Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà 5 MỤC LỤC 6 DANH SÁCH BẢNG 7 DANH SÁCH HÌNH VẼ LỜI MỞ ĐẦU Phân loại thực thể có tên tốn quan trọng lĩnh vực trích xuất thơng tin (Information Extraction), xây dựng hệ tri thức (Knowledge Base Construction) Cùng với nhu cầu ngày nhiều ứng dụng trí tuệ nhân tạo, đặc biệt ứng dụng trợ lý ảo Google, Apple, Amazon, nhu cầu xây dựng hệ tri thức ngày lớn cấp thiết Theo đó, tầm quan trọng toán phân loại thực thể ngày nâng cao Trong luận văn này, học viên giới thiệu phương pháp hiệu để giải tốn phân loại thực thể có tên phiên Wikipedia tiếng Việt dựa máy véc-tơ hỗ trợ (Support Vector Machine) Đặc biệt, luận văn hoàn thành xây dựng công cụ để thực thi tốn với độ xác cao 94% Bên cạnh đó, luận văn đóng góp cho cộng đồng nghiên cứu tập liệu lớn gồm 10,000 thực thể gán nhãn thủ công công cụ để thực tiền xử lý liệu, tái sử dụng để phục vụ cho tốn có nội dung liên quan Học viên tin tưởng đóng góp luận văn đẩy nhanh trình xây dựng hệ tri thức tiếng Việt giàu có thơng tin Qua đó, học viên trực tiếp gián tiếp đóng góp vào nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) trí tuệ nhân tạo (Artificial Intelligence) hỏi đáp tự động (Question Answering), tổng hợp trích xuất thông tin (Information Extraction) Chương Giới thiệu 1.1 Phạm vi toán mục tiêu nghiên cứu Hiện nay, với nhu cầu ngày nhiều ứng dụng trí tuệ nhân tạo, đặc biệt ứng dụng trợ lý ảo Google Assistant (Google), Alexa (Amazon), Siri (Apple), v.v nhu cầu xây dựng hệ tri thức để phục vụ cho ứng dụng ngày cấp thiết yếu Trong việc xây dựng hệ tri thức việc xây dựng sở liệu thực thể có tên phân loại thực thể có tên bước quan trọng Bài tốn phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức tốn sử dụng thơng tin từ nguồn liệu để trích lọc thực thể có tên, từ phân loại thực thể có tên thành kiểu thực thể người (Person), tổ chức (Organization), Địa điểm (Place), Sự kiện (Event), v.v kiểu chi tiết kiểu FIGER [9]., NERD, v.v để phục vụ cho việc xây dựng hệ tri thức Đây tốn quan trọng lĩnh vực trích xuất thông tin (Information Extraction), xây dựng hệ tri thức (Knowledge Base Construction), phân loại thực thể có tên miền Wikipedia thu hút quan tâm lớn giới học thuật giới [14]., [16]., [19] Tại Việt Nam, bối cảnh nhiều công ty công nghệ FPT1, NERD2, v.v tổ chức phi lợi nhuận Đề án hệ tri thức Việt số hóa3 nỗ lực xây dựng hệ tri thức lớn cho thị trường Việt, việc xây dựng nghiên cứu công cụ phân loại thực thể có tên cho tiếng Việt cần thiết Một số nghiên cứu liên quan kể đến cơng cụ dự đoán kiểu thực thể hệ tri thức Dbpedia tác giả Nguyễn Thị Như cộng [12]., [13] Đây coi bước khởi đầu cho toán tiếng Việt Tuy nhiên, kết thu chưa thực tốt liệu Dbpedia phiên tiếng Việt khiêm tốn Hơn nữa, cơng cụ trích xuất thơng tin hệ tri thức Dbpdia không tối ưu cho tiếng Việt, số lượng lớn nhiễu cịn tồn https://fpt.ai/ https://www.nerd.vn/ https://itrithuc.vn/ Trong khuôn khổ luận văn này, học viên nghiên cứu xây dựng công cụ dự đốn kiểu thực thể có tên sử dụng liệu lấy từ trang Wikipedia tiếng Việt4 Nhờ đó, cơng cụ có khả tận dụng nhiều kiểu đặc trưng hữu ích khác từ trang Wikipedia như: • kiểu đặc trưng có cấu trúc, ví dụ: hộp thơng tin (infobox properties), tiêu đề (heading); • kiểu đặc trưng phi cấu trúc, ví dụ: từ khóa bao gồm thể loại (categories) cụm danh từ quan trọng thường xuất đầu trang, v.v Theo hiểu biết tìm kiếm thơng tin học viên, chưa có nghiên cứu tương tự cho tiếng Việt Để đạt mục tiêu trên, luận văn tập trung triển khai nội dung nghiên cứu sau: • Tải liệu từ Wikipedia tiếng Việt tiền xử lý, lọc bỏ nhiễu (html, redirect pages, template pages, v.v.) • Lựa chọn ngẫu nhiên 10,000 viết gán nhãn thủ công cho 10,000 viết Đồng thời luận văn xây dựng luật từ thông tin Infobox template thực thủ cơng • Xây dựng cơng cụ để trích chọn đặc trưng từ trang Wikipedia để phục vụ cho tốn Trong đó, luận văn có tái sử dụng lại cơng cụ VNCoreNLP, công cụ phổ biến việc phân tách từ gán nhãn từ loại tiếng Việt • Tiếp theo, luận văn xây dựng mơ hình học máy, lựa chọn phương pháp Máy véc tơ hỗ trợ (SVM) để phân loại thực thể sau thử nghiệm với vài phương pháp khác dựa tập liệu nhỏ Trong phần học viên sử dụng thư viện Sklearn để thực thi tốn học máy cụ thể Mơ hình nhận liệu đầu vào thực thể có tên đặc trưng trích chọn từ trang Wikipedia tiếng Việt tiền xử trên, ví dụ: Đại học Quốc Gia Hà Nội, cho kết kiểu thực thể danh sách kiểu định nghĩa trước, ví dụ: tổ chức (Organization) • Cuối cùng, luận văn đánh giá kết phương pháp so sánh với phương pháp sơ sở (baseline) để chứng minh cho độ ưu việt giải pháp • Đồng thời, học viên đưa đề xuất để phát triển tiếp công cụ tương lai Luận văn thực trình hợp tác nghiên cứu Đại học Công Nghệ Công ty cổ phần NERD 10 liệu kiểu cịn mẫu Event, Creative Work, Character Đồng thời, học viên tiến hành thực nghiệm thêm với phương pháp học máy khác nhằm tìm phương pháp học máy phù hợp với mục tiêu tốn Thậm chí, có đủ liệu, học viên thử với phương pháp học sâu để tăng hiệu công cụ 62 THAM KHẢO [1] Apostolidis-Afentoulis, V., & Lioufi, K.-I (2015) SVM Classification with Linear and RBF Kernels [2] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z (2007) DBpedia: A Nucleus for a Web of Open Data Proceedings of the 6th International The Semantic Web and 2Nd Asian Conference on Asian Semantic Web Conference (pp 722 - 735) Springer [3] Finkel, J R., Grenager, T., & Manning, C D (2005) Incorporating Nonlocal Information into Information Extraction Systems by Gibbs Sampling Proceedings of the 43rd Annual Meeting of the Association for Computational (pp 363 - 370) ACL [4] Ghaddar, A., & Langlais, P (2018) Transforming Wikipedia into a LargeScale Fine-Grained Entity Type Corpus Proceedings of the Eleventh International Conference on Language Resources and Evaluation ELRA [5] Grishman, R., & Sundheim, B (1995) Design of the MUC-6 Evaluation Proceedings of the 6th Conference on Message Understanding (pp 11) ACL [6] Grishman, R., & Sundheim, B (1996) Message Understanding Conference-6: A Brief History Proceedings of the 16th Conference on Computational Linguistics (pp 466 - 471) ACL [7] Hsu, C.-W., Chang, C.-C., & Lin, C.-J (2003) A Practical Guide to Support Vector Classification Department of Computer Science, National Taiwan University [8] Keerthi, S S., & Lin, C.-J (2003) Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel Neural Computation, 1667 1689 [9] Ling, X., & Weld, D S (2012) Fine-grained Entity Recognition Proceedings of the 26th AAAI Conference on Artificial Intelligence (pp 94 - 100) AAAI Press [10] Moro, A., Cecconi, F., & Navigli, R (2014) Multilingual Word Sense Disambiguation and Entity Linking for Everybody Proceedings of the 13th International Semantic Web Conference, Posters and Demonstrations (pp 25 - 28) Springer 63 [11] Moro, A., Raganato, A., & Navigli, R (2014) Entity Linking meets Word Sense Disambiguation: a Unified Transactions of the Association for Computational Linguistics, 231 - 244 [12] Nguyen, T N., Cao, D., & Nguyen, A (2018) Automatically Mapping Wikipedia Infobox Attributes to DBpedia Properties for Fast Deployment of Vietnamese DBpedia Chapter Proceedings of the 10th Asian Conference on Intelligent Information and Database Systems (pp 127 136) Springer [13] Nguyen, T N., Takeda, H., Nguyen, K., Ichise, R., & Cao, T D (2018) A Novel Method to Predict Type for DBpedia Entity Proceedings of the 10th Asian Conference on Modern Approaches for Intelligent Information and Database Systems (pp 125 - 134) Springer [14] Oussalah, M., & Mohamed, M (2014) Identifying and Extracting Named Entities from Wikipedia Database Using Entity Infoboxes International Journal of Advanced Computer Science and Applications, 164 - 169 [15] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, et al (2011) Scikit-learn: Machine Learning in Python Journal of Machine Learning Research, 2825 - 2830 [16] Ringland, N., Nothman, J., Murphy, T., & Curran, J R (2009) Classifying articles in English and German Wikipedia Proceedings of the Australasian Language Technology Association Workshop (ALTA) (pp 20 - 28) ACL [17] Shimaoka, S., Stenetorp, P., Inui, K., & Riedel, S (2016) An Attentive Neural Architecture for Fine-grained Entity Type Classification Proceedings of the 5th Workshop on Automated Knowledge Base Construction (pp 69 - 74) ACL [18] Suchanek, F M., Kasneci, G., & Weikum, G (2007) Yago: A Core of Semantic Knowledge Proceedings of the 16th International Conference on World Wide Web (pp 697 - 706) ACM [19] Suzuki, M., Matsuda, K., Sekine, S., Okazaki, N., & Inui, K (2016) Neural Joint Learning for Classifying Wikipedia Articles into Finegrained Named Entity Types Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation (PACLIC) ACL [20] Vrandečić, D., & Krötzsch, M (2014) Wikidata: A Free Collaborative Knowledgebase Communication ACM, 78 - 85 [21] Yadav, V., & Bethard, S (2018) A Survey on Recent Advances in Named Entity Recognition from Deep Learning Models Proceedings of the 27th 64 International Conference on Computational Linguistics (pp 2145 - 2158) ACL [22] Dang Duc Pham, Giang Binh Tran, Son Bao Pham (2009) A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags Proceeding KSE '09 Proceedings of the 2009 International Conference on Knowledge and Systems Engineering (pp.154-161) ACM [23] Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson (2018) A Fast and Accurate Vietnamese Word Segmenter In Proceedings of the 11th International Conference on Language Resources and Evaluation, LREC 2018 (pp.2582-2587) ACL [24] Tran Thi Oanh (2008) Luận văn thạc sĩ CNTT Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Trường Đại học Công nghệ, ĐHQG Hà Nội [25] Swain M (2013) Knowledge-based System In: Dubitzky W., Wolkenhauer O., Cho KH., Yokota H (eds) Encyclopedia of Systems Biology Springer, New York, NY [26] D B Nguyen, A Abujabal, N K Tran, M Theobald, and G Weikum Query-Driven On-The-Fly Knowledge Base Construc- tion PVLDB, 11 (1): 66-79, 2017 [27] Nguyen, Dat & Theobald, Martin & Weikum, Gerhard (2016) J-NERD: Joint Named Entity Recognition and Disambiguation with Rich Linguistic Features Transactions of the Association for Computational Linguistics 215-229 10.1162/tacl_a_00094 [28] Lưu Tuấn Anh, Yamamoto Kazuhide Natural Language Processing Laboratory Department of Electrical Engineering Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan Ứng dụng phương pháp Pointwise vào toán tách từ cho tiếng Việt 65 Phụ lục Phụ lục Một số ví dụ tập liệu 10,000 trang Wikipedia gán nhãn thủ cơng Thực thể có tên Hera Aphrodite James Bond Siêu anh hùng Horus Di-lặc Albus Dumbledore Âu Dương Phong Thiên Hoàng Người Dơi Chúa tể Voldemort Phân loại Character Character Character Character Character Character Character Character Character Character Character Osiris Quán Thế Âm A-di-đà Thần Nông Thần Ra Apollo Dương Quá Character Character Character Character Character Character Character CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk ITunes Store Đĩa Blu-ray PlayStation Vita Trống Xe tăng T-34 Mikoyan-Gurevich MiG-15 66 Thực thể có tên Độ Celsius Hội đồng quản trị Sóng thần Diễn viên Araneidae Oligia Zodarion Khí Trái Đất Pháp thuộc Chi Na Chuồn chuồn Người Khmer (Việt Nam) Hòa ước Versailles Echinops telfairi Kinh tế Phút Ăn chay Bộ Sếu Xylocopinae McCune–Reischauer Hugo Chávez Đạo Quang Alicia Keys Meryl Streep Phân loại Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Other Perso n Perso n Perso n Perso n America's Next Top CreativeWo rk Model CreativeWo rk Internet Archive CreativeWo rk Sách Đỏ IUCN CreativeWo rk Thriller (album) CreativeWo rk Tư trị thông giám CreativeWo rk Le Monde CreativeWo rk M Countdown CreativeWo rk Thiên long bát CreativeWo rk EP CreativeWo rk Billie Jean CreativeWo rk Pitchfork Media CreativeWo Sách Kỷ lục Guinness rk CreativeWo rk Avatar (phim 2009) CreativeWo rk DOS CreativeWo rk The World Factbook Perso Hómēros n Perso An Dương Vương n Perso Fidel Castro n Perso Cao Xuân Dục n Perso Đường Túc Tông n Perso Elina Svitolina n Perso Randy Orton n Perso Septimius Severus n Perso Minh Tuyết n Perso Trịnh Giang n Perso George W Bush n Perso Sawa Homare n Perso Samuel Eto'o n Perso Hậu Lương Thái Tổ n Perso Trấn Thành n Perso Hoa hậu Quốc tế Cúp bóng đá châu Phi 2010 Giải vơ địch bóng đá Đơng Nam Á Liên Xơ tan rã Nội chiến Syria Cúp bóng đá liên lục địa Event John Edward Gray Event Nhà hát Lớn Hà Nội Place Event Event Event Athni Cẩm Xuyên Udupi (huyện) Place Place Place Event Bình Sơn Place 67 n Chiến dịch Điện Biên Event Phủ Event Indian Wells Masters Giải vơ địch bóng đá Event châu Âu 2016 Event Thống nước Đức Event Phong trào Đông Du Chiến dịch Hồ Chí Event Minh Event Trận Midway Sự kiện năm 1956 Event Hungary Giải Video âm nhạc Event MTV Event Trận Stalingrad Sự kiện 30 tháng Event năm 1975 Event Loạn An Sử Trận Vịng cung Kursk Event Phong trào Nghĩa Hịa Event Đồn Event Lễ Phục Sinh Event J2 League Event Hoa hậu Hồn vũ Cúp bóng đá Nam Mỹ Event Event Trận Iwo Jima Organizati Quân Giải phóng miền on Nam Việt Nam Organizati Ủy ban Olympic quốc on gia Organizati on Singapore Airlines Organizati on Hertha BSC Organizati on Norwich City F.C Trường Đảng Trung Organizati ương Đảng Cộng sản on Trung Quốc Organizati Câu lạc bóng đá 68 Windhoek Morbihan Sân bay quốc tế Đà Nẵng Karnataka Yorkshire Place Place Donetsk (tỉnh) Alaşehir Place Place Visayas Place Shimoga (huyện) Tân Lạc Place Place Béziers (quận) Bouches-du-Rhône Adana (tỉnh) Place Place Place Kırklareli (tỉnh) Shahpur Zagreb Vaucluse Salerno Sparta Place Place Place Place Place Place Abkhazia Place Serik Place Kavak Place Tizi Ouzou (tỉnh) Place Dar es Salaam Place Mainz Simferopol Place Place Place Place Place on Organizati Đội bóng đá Thể Công on Organizati on Sega Organizati on Toei Company Organizati Hiệp hội bóng đá on Hồng gia Hà Lan Organizati on Wonder Girls Organizati Quốc hội Việt Nam on khóa X Organizati on Super Junior-M Organizati on Vegalta Sendai Organizati on Ipswich Town F.C Organizati on Giáo hội Anh Organizati on Viện phim Mỹ Organizati BirdLife International on Tây Ninh 69 Quần đảo Cayman Place Phụ lục Một số luật gán kiểu thực thể dựa infobox template Infobox template hpcharacter infoboxcomicscharacter infoboxdeity infoboxgreekdeity infoboxwuxiafictioncharacter thôngtinnhânvậthưcấu thôngtinnhânvậttamquốc thôngtinnhânvậtthủyhử thôngtinthánh Kiểu Character Character Character Character Character Character Character Character Character CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk bảngtómtắtvềphim báochí googlebooks hộpthơngtinhđh hộpthơngtinhệđiềuhành infoboxmediafranchise infobox_newspaper thơngtinphầnmềm thơngtinphim thơngtinsách thơngtintácphẩmvănhọc thơngtintạpchí thôngtinthànhphầnđiệntử 70 CreativeWo rk CreativeWo rk CreativeWo rk CreativeWo rk Event Event Event Event Event Event Event Event Event Event Event Event Person Person Person Person Person Person Person Person Person Person Person Person Person Place Place Place Place Place Place Place Place Place thơngtintrìnhduyệt thơngtintrìnhduyệtweb thơngtintrịchơi thơngtintruyềnhình grandslamtournaments hộpthơngtingiảiđấubóngđá infoboxcivilconflict infoboxhurricane infoboxuprising thơngtinchiếntranh thơngtingiảiđấubóngđáquốctế thơngtinsựkiện thơngtinsựkiệnlịchsử thơngtinthếvậnhội thơngtintổchứcsựkiệnthểthao tómtắtchiếntranh cựutayđuacơngthức1 infoboxcomedian thơngtindiễnviên thơngtindiễnviênvàcasĩhoangữ thơngtinthốngđốc thơngtintiểusửbóngđá thủtướng tiểusửqnnhân usebritishenglish vậnđộngviênquầnvợt viênchức bảngtómtắttriếtgia casĩviệtnam hộpthơngtincăncứqnsự hộpthơngtinquốcgia hộpthơngtinsânvậnđộng infoboxprotectedarea1 infoboxprovince tómtắtvềbangtựdođức tómtắtvềđườnghàngkhơng tómtắtvềhồ tómtắtvềquốcgia 71 tómtắtvềtỉnhcanada useaustralianenglish bộviệtnam đơnvịqnđội hộpthơngtinđộituyểnbóngchuyềnquốcgia hộpthơngtinđộituyểnbóngđáquốcgia hộpthơngtinliênđồnbóngđá infobox_australian_political_party infobox_company infoboxairline infoboxjapaneseclan infoboxlawenforcementagency infoboxlegislature infoboxmaterial infoboxmilitaryunit infoboxnationalfootballteam infoboxnationalmilitary infoboxnetwork infoboxnewspaper infoboxnon-profit infoboxorganisation 72 Place Place Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Organizatio n Other Other Other Other Other Other Other Other Other Other Other Other infoboxorganization thơngtingiáohội thơngtinhãngghiâm chúthíchbáchkhoatồnthư chúthíchbáo chúthíchsách chúthíchtạpchí infoboxprogramminglanguage pp-move pp-move-indef pp-protected thơngtinhiệpước thơngtinhóachất thơngtinkhốngvật thơngtinloạinhạc 73 Phụ lục 3: Mô tả nội dung tệp liệu sau tiền xử lý Organization BBC _CATEGORY _truyền hình vương quốc liên hiệp anh, _CATEGORY _bbc, _INFOBOX _người sáng lập, _SECTION _tài chính, _SECTION _hoạt động thương mại, _INFOBOX _dịch vụ, _SECTION _trụ sở văn phòng, _DIFF_FEATURE _[6], _SECTION _các dịch vụ, _DIFF_FEATURE _[8], _INFOBOX _nhân viên chủ chốt, _FIRST_NOUN _thơng_tấn_xã, _SECTION _liên kết ngồi, _FIRST_NOUN _đài_truyền_hình, _DIFF_FEATURE _thông xã, _DIFF_FEATURE _[3], _SECTION _lịch sử, _DIFF_FEATURE _phát thanh, _CATEGORY _nhãn hiệu anh, _SECTION _sự quản lý phủ cấu trúc đồn thể, _INFOBOX _số nhân viên, _INFOBOX _thành lập, _DIFF_FEATURE _[5], _DIFF_FEATURE _[7], _INFOBOX _s ản phẩm, _DIFF_FEATURE _[9], _INFOBOX _ngành nghề, _SECTION _tham khảo, _INFOBOX _chủ sở hữu, _INFOBOX _doanh thu, _DIFF_FEATURE _[2], _FIRST_NOUN _truyền_thơng, _CATE GORY _đài phát sóng cơng cộng, _DIFF_FEATURE _[4], _INFOBOX _trụ sở chính, _CATEGORY _hãng truyền thơng anh, _CATEGORY _đài truyền hình anh, _INFOBOX _loại hình, _SECTION _logo, _INFOBOX _british broadcasting corporation, _INFOBOX _website, _INFOBOX _logo sử dụng từ tháng 10 năm 1997 Place Vườn quốc gia Cúc Phương _INFOBOX _rừng cúc phương, _SECTION _các điểm du lịch, _SECTION _đa dạng sinh học, _INFOBOX _diện tích, _CATEGORY _du lịch hịa bình, _INFOBOX _vị trí, _SECTION _địa hình thủy văn, _INFOBOX _cơ quan quản lý, _SECTION _liên kết ngồi, _CATEGORY _ninh bình, _DIFF_FEATURE _[1], _INFOBOX _tọa độ, _FIRST_NOUN _vườn_quốc_gia, _CATEGORY _iucn loại ii, _DIFF_FEATURE _hệ động thực vật, _DIFF_FEATURE _khu bảo tồn thiên nhiên, _DIFF_FEATURE _rừng mưa nhiệt đới, _INFOBOX _thành lập, _SECTION _lịch sử địa 74 lý, _CATEGORY _rừng đặc dụng, _CATEGORY _vườn quốc gia việt nam, _INFOBOX _iucn ii, _SECTION _các vấn đề bảo tồn, _INFOBOX _vườn quốc gia cúc phương, _INFOBOX _vị trí việt nam, _INFOBOX _thành phố gần nhất, _FIRST_NOUN _khu, _CATEGORY _du lịch ninh bình, _CATEGORY _du lịch hóa, _CATEGORY _khu du lịch việt nam, _SECTION _chú thích CreativeWork USS Enterprise (CV-6) _INFOBOX _đặt lườn, _DIFF_FEATURE _tàu sân bay, _INFOBOX _đặt hàng, _INFOBOX _vũ trang, _SECTION _các hoạt động sau chiến tranh, _FIRST_NOUN _cuộc, _DIFF_FEATURE _ngôi chiến đấu, _INFOBOX _lớp kiểu, _INFOBOX _tốc độ, _SECTION _liên kết ngoài, _SECTION _phần thưởng danh hiệu, _INFOBOX _thủy thủ đồn, _CATEGORY _trận chiến biển philippines, _INFOBOX _trọng tải chốn nước, _INFOBOX _tầm xa, _FIRST_NOUN _saratoga, _INFOBOX _sườn ngang, _INFOBOX _độ dài, _FIRST_NOUN _tàu_chiến, _INFOBOX _hoạt động, _DIFF_FEATURE _tên này, _INFOBOX _phục vụ, _INFOBOX _đặc điểm khái quát, _INFOBOX _số phận, _INFOBOX _hệ thống cảm biến xử lý, _INFOBOX _hạ thủy, _SECTION _các hoạt động ban đầu, _FIRST_NOUN _số, _INFOBOX _biệt danh, _INFOBOX _mớn nước, _FIRST_NOUN _tàu, _INFOBOX _xóa đăng bạ, _FIRST_NOUN _tàu_sân_bay, _INFOBOX _danh hiệu phong tặng, _SECTION _xem thêm, _INFOBOX _bọc giáp, _CATEGORY _tàu sân bay chiến ii, _SECTION _thế chiến ii, _SECTION _tham khảo, _CATEGORY _tàu sân bay hải quân hoa kỳ, _CATEGORY _trận midway, _INFOBOX _hãng đóng tàu, _INFOBOX _tàu sân bay uss enterprise tháng năm 1939, _INFOBOX _thiết bị bay, _INFOBOX _đỡ đầu bởi, _INFOBOX _động đẩy, _INFOBOX _máy bay mang theo, _CATEGORY _trận chiến vịnh leyte Person Stevie Wonder _INFOBOX _nghệ danh, _INFOBOX _thông tin nghệ sĩ, _CATEGORY _sinh 1950, _CATEGORY _ca sĩ nhạc r&b 75 mỹ, _DIFF_FEATURE _[8], _DIFF_FEATURE _13 tháng 5, _SECTION _sự nghiệp âm nhạc, _FIRST_NOUN _nhân_vật, _CATEGORY _người ghi danh đại sảnh danh vọng rock and roll, _SECTION _liên kết ngoài, _CATEGORY _người mù, _INFOBOX _stevie wonder, _DIFF_FEATURE _[3], _CATEGORY _người đoạt giải grammy, _CATEGORY _nhà sản xuất thu âm mỹ, _INFOBOX _hãng đĩa, _DIFF_FEATURE _[11], _SECTION _đầu đời, _CATEGORY _người đoạt huy chương tự tổng thống, _CATEGORY _nhạc sĩ giành giải oscar cho ca khúc phim hay nhất, _CATEGORY _ca sĩ thiếu nhi mỹ, _CATEGORY _nhân vật sống, _CATEGORY _sơ khai ca sĩ mỹ, _INFOBOX _sinh, _INFOBOX _nghề nghiệp, _DIFF_FEATURE _[7], _FIRST_NOUN _bản, _DIFF_FEAT URE _nhạc sĩ, _INFOBOX _nguyên quán, _CATEGORY _nhạc sĩ nhạc pop thiếu nhi, _CATEGORY _nhà sản xuất thu âm người mỹ gốc phi, _FIRST_NOUN _sĩnhạc, _DIFF_FEATURE _[2], _INFOBOX _stevie wonder biểu diễn vào năm 1973, _CATEGORY _nhà soạn nhạc mỹ, _CATEGORY _người vinh danh trung tâm kennedy, _INFOBOX _nhạc cụ, _INFOBOX _website, _DIFF_FEATURE _[12], _CATEGORY _ ca sĩ mỹ kỷ 21, _SECTION _danh sách đĩa nhạc, _CATEGORY _người michigan, _CATEGORY _nam ca sĩ tự sáng tác mỹ, _CATEGORY _ca sĩ mỹ kỷ 20, _DIFF_FEATURE _[6], _CATEGORY _người đoạt giải grammy thành tựu trọn đời, _INFOBOX _tên khai sinh, _DIFF_FEATURE _[1], _DIFF_FEATURE _ca sĩ, _FIRST_NOUN _stevland, _CATEGORY _nghệ sĩ motown records, _CATEGORY _nghệ sĩ đa nhạc cụ người mỹ, _INFOBOX _thể loại, _CATEGORY _nam ca sĩ mỹ, _DIFF_FEATURE _[5], _DIFF_FEATURE _[9], _CATEGORY _người ghi danh đại sảnh danh vọng nhạc sĩ, _CATEGORY _sứ giả hòa bình liên hiệp quốc, _DIFF_FEATURE _[4], _INFOBOX _năm hoạt động, _DIFF_FEATURE _nhà sản xuất âm nhạc, _DIFF_FEATURE _[10], _SECTION _chú thích 76 ... xây dựng hệ tri thức để phục vụ cho ứng dụng ngày cấp thiết yếu Trong việc xây dựng hệ tri thức việc xây dựng sở liệu thực thể có tên phân loại thực thể có tên bước quan trọng Bài toán phân loại. .. toán phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức tốn sử dụng thơng tin từ nguồn liệu để trích lọc thực thể có tên, từ phân loại thực thể có tên thành kiểu thực thể người (Person),... thực cách phân loại cho lớp theo thứ tự Với lớp, có mơ hình xây dựng riêng để thực phân loại cho lớp với tất lớp cịn lại Nếu có n lớp cần xây dựng n phân loại nhị phân Bộ phân loại thứ giúp phân

Ngày đăng: 28/02/2021, 08:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w