BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN HỒNG SƠN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH LUẬN ÁN TIẾN SĨ HÀ NỘI –2020 BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN HỒNG SƠN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH Chuyên ngành: Cơ sở toán học cho tin học Mã số: 46 01 10 LUẬN ÁN TIẾN SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Dương Trọng Hải TS Hoa Tất Thắng HÀ NỘI –2020 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực hướng dẫn tập thể cán hướng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thông tin trích dẫn ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hoàn toàn trung thực, chưa cơng bố tác giả hay cơng trình khác Nghiên cứu sinh Nguyễn Hồng Sơn LỜI CẢM ƠN Luận án hoàn thành Bộ môn Hệ thống thông tin thuộc Khoa Công nghệ thông tin - Học viện Kỹ thuật Quân với hướng dẫn khoa học TS Dương Trọng Hải TS Hoa Tất Thắng Tác giả xin bày tỏ lòng biết ơn sâu sắc đến thầy tận tình hướng dẫn, động viên tạo điều kiện tốt cho NCS hồn thành luận án Trong suốt q trình làm luận án, tác giả ln nhận động viên, giúp đỡ góp ý tận tình thầy Bộ mơn Hệ thống thông tin thầy cô Học viện Kỹ thuật Qn Bên cạnh NCS tạo điều kiện hỗ trợ anh chị chuyên viên Phòng Đào tạo Sau đại học Học viện Kỹ thuật Quân Tác giả xin chân thành cảm ơn giúp đỡ q báu NCS hỗ trợ, tạo điều kiện Phòng Đào tạo, Phòng Tổ chức- Hành lãnh đạo Trường Đại học Luật, Đại học Huế; thầy cô, đồng nghiệp nơi công tác Tác giả xin bày tỏ lòng biết ơn đến thầy cơ, đồng nghiệp q Phòng Ban Trường Đại họcLuật, Đại học Huế Trong trình làm luận án, NCS nhận giúp đỡ, đóng góp ý kiến từ nhiều nhà khoa học PGS.TS Trần Nguyên Ngọc, PGS.TS Bùi Thu Lâm, PGS.TS Ngô Thành Long, TS Tống Minh Đức, TS Nguyễn Văn Giang, TS Nguyễn Mạnh Hùng, PGS.TS Nguyễn Long Giang, PGS.TS Đoàn Văn Ban, PGS.TS Đặng Văn Đức, PGS.TS Nguyễn Ngọc Hóa nhiều cá nhân khác Tác giả xin chân thành cảm ơn giúp đỡ quí báu nhà khoa học, cá nhân Để hoàn thành luận án mình, NCS nhận hỗ trợ vơ to lớn gia đình, NCS xin phép dành lời cảm ơn đặc biệt cho gia đình MỤC LỤC Trang DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Trang DANH MỤC CÁC BẢNG BIỂU Trang DANH MỤC THUẬT NGỮ CHUYÊN NGÀNH Ký hiệu Diễn giải Semantic search Tìm kiếm ngữ nghĩa Interactive search Tìm kiếm tương tác Faceted search Tìm kiếm đa diện Search click graph Tìm kiếm cách nhấn chuột chọn lựa biểu đồ Large - scale context embedded vocabulary tree Cây từ vựng ngữ cảnh nhúng cỡ lớn Ontology Bản thể học DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Tên đầy đủ DO (Disease Ontology) Ontology bệnh DD (Disease Database) Cơ sở liệu bệnh TF (Term frequency) Tần suất xuất từ IDF (Inverse document frequency) Tần suất tài liệu ngược NER (Name Entity Recoginition) Nhận diện thực thể định danh OpenIE (Open Information Extraction) Khai thác thông tin mở IE (Information Extraction) Trích rút thơng tin IR (Information Retrieval) Truy xuất thông tin CSTT-PLB Cơ sở tri thức phân loại bệnh YHTT Y học thường thức OWL (Web Ontology Language) Ngôn ngữ ontology web XML (Extensible Markup Language) Ngôn ngữ đánh dấu văn mở rộng W3C (World Wide Web Consortium) Hiệp hội web toàn cầu ICD (International Statistical Classification of Diseases and Related Health Problems) Phân loại thống kê quốc tế bệnh vấn đề sức khỏe liên quan CSDL Cơ sở liệu 10 MỞ ĐẦU Tính cấp thiết đề tài luận án Sự bùng nổ lượng thông tin người dùng Internet, phát triển liệu lớn (Big data) đưa đến hội thách thức cho tốn tìm kiếm thơng tin Khi tìm kiếm thơng tin, người dùng có nhu cầu muốn có kết xác, nhiều thơng tin liên quan đến từ khóa đầu vào Người dùng cần máy tính hỗ trợ đưa từ khóa, thơng tin liên quan để tiếp tục trình tìm kiếm, họ chưa thực rõ nội dung tìm kiếm Ví dụ, làm việc với hệ thống hỗ trợ tìm kiếm thông tin bệnh, ban đầu người sử dụng có vài triệu chứng bệnh ban đầu muốn biết xem triệu chứng bệnh gì, họ cần hệ thống khuyến nghị triệu chứng bệnh liên quan để chọn xác nhận, làm rõ trình tìm kiếm tìm câu trả lời cuối Cách tìm kiếm thơng tin phổ biến tìm kiếm tài liệu số tài liệu lưu sở liệu (CSDL), tài liệu có nội dung phù hợp với nhu cầu thơng tin cần tìm kiếm Hiện nay, hệ thống tìm kiếm văn phần lớn dựa cách sử dụng từ khóa Khi người dùng phải diễn đạt nội dung cần tìm kiếm dạng từ khố tổng qt phải đảm bảo mối quan hệ ngữ nghĩa từ khóa (cụm từ khố) với nội dung cần tìm Do vậy, vấn đề khó khăn người dùng tìm kiếm thơng tin dựa từ khóa khả họ mô tả thông tin cần tìm dạng từ khóa cách xác chuyển nhu cầu tìm kiếm thành dạng thức truy vấn, phù hợp với hệ thống Đặc biệt,khi người dùng kinh nghiệm khơng thể đặc tả từ khóa có liên quan đến nội dung cần tìm kiếm Nếu người dùng khơng hiểu chun mơn họ khó tìm tài liệu mong muốn Điều thể rõ người dùng tìm kiếm bệnh dựa 98 University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006 [44] Henrik Eriksso, The semantic-document approach to combining documents and ontologies, International Journal of HumanComputer Studies Volume 65, Issue 7, July 2007, Pages 624-639 [45] Henriksen, A.D and A.J Traynor, A practical R&D projectselection scoring tool IEEE Transactions on Engineering Management, 1999 46(2): p.158-170 [46] Ho Chung Wu, Robert Wing Pong Luk, Kam Fai Wong, and Kui Lam Kwok 2008 Interpreting TF-IDF term weights as making relevance decisions ACM Trans Inf Syst 26, 3, Article 13 (June 2008), 37 pages DOI=http://dx.doi.org/10.1145/1361684.1361686 [47] Holsapple C.W (2002), K.D Joshi, Collaborative Approach in Ontology Design, Communications of the ACM, 45, 42 – 47 [48] Homma, Y., et al., A Hierarchical Neural Network for Information Extraction of Product Attribute and Condition Sentences OKBQA 2016, 2016: p 21 [49] Hung, C and S Wermter, Neural network based document clustering using wordnet ontologies International Journal of Hybrid Intelligent Systems, 2004 1(3, 4): p 127-142 [50] Huynh, A.L., H.S Nguyen, and T.H Duong, Triple Extraction Using Lexical Pattern-based Syntax Model, in Advanced Computational Methods for Knowledge Engineering 2016, Springer p 265-279 [51] Huynh, M.C., P.D.T Le, and T.H Duong, Improved Vector Space Model TF/IDF Using Lexical Relations International Journal of Advanced Computer Research, 2015 5(21): p 334 99 [52] Jacso, P., Columns and News-Internet Insights-Thoughts About Federated Searching-Peter Jacso discusses the consolidated retrieval of results in response to a query sent to several databases Information Today, 2004 21(9): p 17-27 [53] Jan Paralic and Ivan Kostial, Ontology-based Information Retrieval, Proc of the 14th International Conference on Information and Intelligent systems, IIS 2003, p 23-28 [54] Jaynes, E.T., Bayesian methods: General background, 1986 [55] Kalchbrenner, N., E Grefenstette, and P Blunsom, A convolutional neural network for modelling sentences arXiv preprint arXiv:1404.2188, 2014 [56] Karapiperis, S and D Apostolou, Consensus building in collaborative ontology engineering processes Journal of Universal Knowledge Management, 2006 1(3): p 199-216 [57] Kim, J.-T and D.I Moldovan,Acquisition of semantic patterns for information extraction from corpora in Artificial Intelligence for Applications, 1993, Proceedings, Ninth Conference on 1993, IEEE [58] Konys Agnieszka Ontology-Based Approaches to Big Data Analytics International Multi-Conference on Advanced Computer Systems, ACS 2016, pp 355-365 [59] Lamma E., F Riguzzi, and S Storari, Exploiting Association and Correlation Rules-Parameters for Improving the K2 Algorithm in ECAI, 2004 [60] Lawrence, Steve, et al,Face recognition: A convolutional neural-network approach networks 8.1 (1997): 98-113 IEEE transactions on neural 100 [61] Leskovec, J., M Grobelnik, and N Milic-Frayling,Learning substructures of document semantic graphs for document summarization in LinkKDD Workshop, 2004 [62] Lin, C.-Y Automatic question generation from queries in Workshop on the question generation shared task, 2008 [63] Loni, B., et al Bayesian Personalized Ranking with Multi-Channel User Feedback in Proceedings of the 10th ACM Conference on Recommender Systems, 2016 ACM [64] Lytvyn, V., et al., Classification Methods of Text Documents Using Ontology Based Approach, in Advances in Intelligent Systems and Computing 2017, Springer p 229-240 [65] M A Bramer, Knowledge Discovery and Data Mining, Institution of Electrical Engineers Stevenage, ISBN:0-85296-767-5, UK ©1999 [66] Ma, J., et al., An ontology-based text-mining method to cluster proposals for research project selection IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2012 42(3): p 784-790 [67] McDonald, G.C., Applications of subset selection procedures and Bayesian ranking methods in analysis of traffic fatality data Wiley Interdisciplinary Reviews: Computational Statistics, 2016, 8(6): p.222-237 [68] Michael C Daconta, Leo J Obrst and Kevin T Smith (2003),The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management, John Wiley & Sons Inc 101 [69] Milias-Argeitis, A., et al., Elucidation of Genetic Interactions in the Yeast GATA-Factor Network Using Bayesian Model Selection PLoS Comput Biol, 2016 12(3): p e1004784 [70] Mohammad Hossein Namaki, Yinghui Wu, Qi Song, Peng Lin, and Tingjian Ge 2017 Discovering Graph Temporal Association Rules In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17) ACM, New York, NY, USA, 1697-1706 DOI: https://doi.org/10.1145/3132847.3133014 [71] Nadeau, D and S Sekine, A survey of named entity recognition and classification Lingvisticae Investigationes, 2007 30(1): p 3-26 [72] Noy, N.F and D.L McGuinness, Ontology development 101: A guide to creating your first ontology 2001, Stanford knowledge systems laboratory technical report KSL-01-05 and Stanford medical informatics technical report SMI-2001-0880, Stanford, CA [73] Ontology triệu chứng http://bioportal.bioontology.org/ontologies/SYMP? p=classes&conceptid=http%3A%2F%2Fpurl.obolibrary.org%2Fobo %2FSYMP_0000375 [74] Pan, W., et al., Adaptive Bayesian personalized ranking for heterogeneous implicit feedbacks Knowledge-Based Systems, 2015 73: p 173-180 [75] Patil, N., A.S Patil, and B Pawar, Survey of Named Entity Recognition Systems with respect to Indian and Foreign Languages International Journal of Computer Applications, 2016 134(16) [76] Ranga Chandra Gudivadaa, Xiaoyan A Qua, Jing Chena, Anil G Jeggab, Eric K Neumannd, Bruce J Aronow, Identifying diseasecausal genes using Semantic Web-based representation of integrated genomic and phenomic knowledge, Journal of 102 Biomedical Informatics, Volume 41, Issue 5, October 2008, Pages 717–729 [77] Recknagel, Friedrich, et al Artificial neural network approach for modelling and prediction of algal blooms Ecological Modelling 96.1 (1997): 11-28 [78] Ricardo Usbeck, Michael Röder, Peter Haase, Artem Kozlov, Muhammad Saleem, Axel-Cyrille, Ngonga Ngomo Requirements to Modern Semantic Search Engine International Conference on Knowledge Engineering and the Semantic Web KESW 2016: Knowledge Engineering and Semantic Web, pp 328-343 [79] Riloff, E Automatically generating extraction patterns from untagged text in Proceedings of Thenational conference on AI, 1996 [80] Rose, D.E and D Levinson Understanding user goals in web search in Proceedings of the 13th international conference on World Wide Web, 2004 ACM [81] Ruiz, P.P., B.K Foguem, and B Grabot, Generating knowledge in maintenance from Experience Feedback Knowledge-Based Systems, 2014, 68: p.4-20 [82] Salton, G and C Buckley, Term-weighting approaches in automatic text retrieval Information processing & management, 1988, 24(5), p.513-523 [83] Schmitz, M., et al Open language learning for information extraction in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning 2012 Association for Computational Linguistics 103 [84] Sharma, Sujeet Kumar, et al Predicting mobile banking adoption: A neural network approach Journal of Enterprise Information Management 29.1, 2016 [85] Soderland, S., Learning information extraction rules for semistructured and free text Machine learning, 1999 34(1-3): p 233272 [86] Suchanek, F.M., G Kasneci, and G Weikum Yago: a core of semantic knowledge in Proceedings of the 16th international conference on World Wide Web, 2007, ACM [87] Suresh Pokharel, Mohamed Ahmed Sherif,Jens Lehmann Ontology Based Data Access and Integration for Improving the Effectiveness of Farming in Nepal WI-IAT '14 Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT) – Vol.02, P.319-326 [88] T.H Duong, G S Jo, J.J Jung, and N.T Nguyen, Complexity Analysis of Ontology Integration Methodologies: A Comparative Study, Journal of Universal Computer Science, vol 15, no 4, 2009, pp.877-897 [89] T.H Duong, N.T Nguyen, and G S Jo, A Hybrid Method for Integrating Multiple Ontologies, Cybernetics and Systems, vol 40, no 2, 2009, pp.123-145 [90] T.H Duong, Jo G.S, Collaborative Ontology Building by Reaching Consensus among Participants Information-An International Interdisciplinary Journal, 2010, 1557-1569 104 [91] T.H Duong, Nguyen N.T., Jo G.S,Constructing and Mining: A Semantic-Based Academic Social Network Journal of Intelligent & Fuzzy Systems21(3), 2010, 197-207 [92] T.H Duong, Jo G.S., Enhancing performance and accuracy of ontology integration by propagating priorly matchable concepts, Neurocomputing, 88(1), 2012, pp 3-12 [93] T.H Duong, Ngoc Thanh Nguyen, Cuong Duc Nguyen, Thi Phuong Trang Nguyen, Ali Selamat: Trust-Based Consensus for Collaborative Ontology Building Cybernetics and Systems 45(2), 2014, 146-164 [94] Tang, D., B Qin, and T Liu Document modeling with gated recurrent neural network for sentiment classification in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015 [95] Thomee, B and M.S Lew, Interactive search in image retrieval: a survey International Journal of Multimedia Information Retrieval, 2012 1(2): p 71-86 [96] Tian Q., et al., An organizational decision support system for effective R&D project selection Decision Support Systems, 2005, 39(3): p 403-413 [97] Trappey AJ, Trappey CV, Chiang TA, Huang YH Ontology-based neural network for patent knowledge management in design collaboration International Journal of Production Research, 2013 Apr 1;51(7):1992-2005 [98] Utama, R., J Piekarewicz, and H B Prosper,Nuclear mass predictions for the crustal composition of neutron stars: A Bayesian neural network approach Physical Review C 93.1: 014311, 2016 105 [99] Vogrinčič S, Bosnić Z Ontology-based multi-label classification of economic articles Computer Science and Information Systems, 2011, 8(1):101-19 [100] Wang, H and W.H Huang, Bayesian ranking responses in multipleresponse questions Journal of the Royal Statistical Society: Series A (Statistics in Society), 2014 177(1): p 191-208 [101] Wang, H., D Dou, and D Lowd Ontology-Based Deep Restricted Boltzmann Machine in International Conference on Database and Expert Systems Applications, 2016 Springer [102] Willner A, Giatili M, Grosso P, Papagianni C, Morsey M, Baldin I Using Semantic Web Technologies to Query and Manage Information within Federated Cyber-Infrastructures Data, 2017; 2(3):21 [103] Xavier, C.C., V.L.S de Lima, and M Souza, Open information extraction based on lexical semantics Journal of the Brazilian Computer Society, 2015 21(1): p.1 [104] Xiao, S., et al., Bayesian Networks-based Association Rules and Knowledge Reuse in Maintenance Decision-Making of Industrial Product-Service Systems Procedia CIRP, 2016 47: p 198-203 [105] Yan Guo, Minxi Wang, Xin Li, (2017),Application of an improved Apriori algorithm in a mobile e-commerce recommendation system, Industrial Management & Data Systems, Vol 117 Issue: 2, pp.287303, https://doi.org/10.1108/IMDS-03-2016-0094 [106] Yang Chen, Xiaofeng Ren, Guo-Qiang Zhangz and Rong Xuz, Ontology-guided Approach to Retrieving Disease Manifestation Images for Health Image Base Construction, 2012 IEEE Second Conference on Healthcare Informatics, Imaging and Systems Biology 106 [107] Yang, Z., et al Hierarchical attention networks for document classification in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016 [108] Yun-tao, Z., Ling, G & Yong-cheng, W J Zheijang An improved TF-IDF approach for text classification Journal of Zhejiang University-SCIENCE, August 2005, Volume 6, Issue 1, pp 49–55 [109] Zhang, C., et al AdaWIRL: A Novel Bayesian Ranking Approach for Personal Big-Hit Paper Prediction in International Conference on Web-Age Information Management 2016 Springer [110] Zhang, N., et al., TapTell: Interactive visual search for mobile task recommendation Journal of Visual Communication and Image Representation, 2015 29: p 114-124 [111] Zhang, Q and Y Song, Moment Matching Based Conjugacy Approximation for Bayesian Ranking and Selection arXiv preprint arXiv:1610.09400, 2016 [112] Zhou, S., S Zhang, and G Karypis, Advanced Data Mining and Applications, 8th International Conference, ADMA 2012, Nanjing, China, December 15-18, 2012, Proceedings Vol 7713 2012: Springer Science & Business Media ******************** 107 PHỤ LỤC CÁC HÌNH ẢNH CỦA HỆ THỐNG TƯƠNG TÁC NGỮ NGHĨA TRONG TRA CỨU/TÌM KIẾM THƠNG TIN BỆNH * Phụ lục 1:Ontology bệnh – Bệnh “Lao kế” Các hình sau (Hình PL1.1 đến Hình PL1.8) thể ví dụ bệnh “Lao kế” Hình PL1.1 Mơ tả bệnh Giải phẫu bệnh: 108 Hình PL1.2 Giải phẩu bệnh Hình PL1.3 Dịch tễ học 109 Hình PL1.4 Yếu tố nguy Hình PL1.5 Bệnh sử 110 Hình PL1.6 Lâm sàng - cận lâm sàng Hình PL1.7 Chuẩn đốn 111 Hình PL1.8 Điều trị * Phụ lục 2:Ontology DO phiên tiếng Việt - Bệnh “Bệnh nấm da chân” từ DO phiên tiếng Việt tinh chỉnh Bệnh “Bệnh nấm da chân” từ Ontology DO phiên tiếng Việt tinh chỉnh (Hình PL2.1 đến Hình PL2.4) Hình PL2.1 Xét nghiệm 112 Hình PL2.2 Khái niệm bệnh, có đầy đủ thơng tin nguyên nhân, triệu chứng, lưu trú, vật gây bệnh Hình PL2.3 Các sở liệu bệnh khác tham chiếu Hình PL2.4 Tên bệnh tương đồng thường dùng ... thuật tìm kiếm ngữ nghĩa để hỗ trợ người dùng xác định câu truy vấn mong muốn Đề tài Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng Ontology ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn mẫu. .. lý thuyết xây dựng ontology; Phương pháp xây dựng làm giàu Ontology bệnh tiếng Việt; 14 Phương pháp xây dựng hệ thống kiếm ngữ nghĩa có tương tác áp dụng xây dựng hệ thống tìm kiếm ngữ nghĩa có... VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN HỒNG SƠN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH Chuyên ngành: Cơ sở toán học cho