Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
170,65 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TẠ DUY CÔNG CHIẾN XÂYDỰNGMÔHÌNHRÚTTRÍCHTHÔNGTINVĂNBẢNTHEOCHỦĐỀ TRONG MIỀNCHUYÊNBIỆT(TINHỌC)Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2016 Công trình hoàn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn khoa học 1: GS.TS PHAN THỊ TƯƠI Người hướng dẫn khoa học 2: Phản biện độc lập 1: Phản biện độc lập 2: Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ Tạp chí [CT1] [CT2] [CT3] [CT4] Chien Ta Duy Cong, Tuoi Phan Thi, “Building Ontology Basedon Heterogeneous Data”, Journal of Computer Science and Cybernetics, vol 31, no.2 , 2015, ISSN: 1813-9663 Chien Ta Duy Cong, Tuoi Phan Thi, Thanh Nguyen Chanh, “A Subject-Oriented Ontology Development for Information Retrieval Application”, Journal on Information and Communications, vol E3, no.8(12), 2015, ISSN: 1859-3534 Chien Ta Duy Cong, Tuoi Phan Thi, “An Information Extraction Approach for Building Vocabulary and Domain Specific Ontology in Information Technology”, Journal on Information and Communications, vol E-3, no.7(11), 2014, ISSN: 1859-3534 Chien Ta Duy Cong, Tuoi Phan Thi, “Information Extraction from Heterogeneous Sources Based on Domain Specific Ontology”, Journal of Science and Technology, vol 52, issue 4A, 2014 Hội nghị khoa học [CT5] [CT6] [CT7] [CT8] [CT9] Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying The Queries’ Topic Based- On Computing Domain Ontology”, In Proc of the 2nd International Conference on Computing, Management and Telecommunications (ComManTel 2015), IEEE, Dec 2015, Danang, Vietnam Chien Ta Duy Cong, Tuoi Phan Thi, “ An Approach for Searching Semantic-based Keywords over Relational Database”, In Proc of the 6nd International Conference on Information and Communication Technology (SoICT 2015), ACM, Dec 2015, Hue, Vietnam, ACM ISBN 978-1-4503-3843-1 Chien Ta Duy Cong, Tuoi Phan Thi, “Automatic Evaluation of The Computing Domain Ontology”, In Proc of the nd International Conference on Future Data and Security Engineering (FDSE 2015), Springer Verlag, LNCS, vol 9446, Nov 2015, HoChiMinh City, Vietnam, ISBN 978-3-319-26134-8 Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Algorithm for Mapping of OWL to Relational Database Schema”, In Proc of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015), Springer-Verlag, LNCS, vol 9166, July 2015, Hamburg, Germany, ISBN 978-3-319-21023-0 Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying Semantic and [CT10 ] [CT11] [CT12 ] syntactic relation from text documents “, In Proc of the 11th IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF 2015), Jan 2015, CanTho, Vietnam, ISBN (Print): 978-1-4799-8043-7, ISBN (Xplore compliant: 978-1-4799-8044-4 Chien Ta Duy Cong, Tuoi Phan Thi, “Building Information Extraction System Based on Computing Domain Ontology”, In Proc of the 16th International Conference on Information Integration and Web-based Applications & Services (iiWAS 2014), IEEE, ACM, Dec 2014, Hanoi, Vietnam, ACM ISBN: 978-1-45033001-5 Chien Ta Duy Cong, Tuoi Phan Thi, “Building and Enriching Computing Domain Ontology”, In Proc of the Third ASIAN conference On Information Systems (ACIS), Dec 2014, NhaTrang, Vietnam, ISBN: 978-4-88686-089-7 Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Formal Concept Analysis Algorithm to Construct Domain Ontology”, In Proc of the fifth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, Sep 2012, Danang, Vietnam, ISBN 978-1-4673-2171-6 CHƯƠNG 1.1 GIỚI THIỆU Động nghiên cứu Bài toán rúttríchthôngtin áp dụng nhiều thực tiễn từ hệ thốngrúttríchthôngtinmiềnchuyênbiệt Sinh học, Y học, phòng chống tội phạm hệ thống phục vụ việc học tập, giảng dạy (ELearning) Từ nghiên cứu phân tích công trình khoa học rúttríchthôngtinmiềnchuyênbiệt dựa vào ontology giới, tác giả nhận thấy tồn số hạn chế sau − Các hệ thốngrúttríchthôngtin áp dụng nhiều giải thuật khác liên quan đến Xử lý ngôn ngữ tự nhiên, Học máy, Xác suất thông kê, nhiên chưa có giải thuật mang lại hiệu cao rúttríchthôngtin − Khi xử lý câu truy vấn hệ thốngrúttríchthôngtin hay hệ thống hỏi đáp, phải cần thời gian thay từ viết tắt câu truy vấn có từ hay cụm từ viết tắt Một số phương pháp sử dụngdùng từ điển, WordNet − Chưa sử dụng phân tích cú pháp phù hợp nên không cung cấp mối quan hệ phụ thuộc từ câu, dẫn đến trình xử lý ngữ nghĩa câu gặp nhiều khó khăn − Sự phân lớp ontology đơn giản; số lớp khái niệm nên ontology chưa hỗ trợ rúttríchthôngtin cho nhiều vấnđề khác lĩnh vực, ví dụ ontology lĩnh vực Xâydựng bao gồm ba chủđề − Các quan hệ ngữ nghĩa đối tượng ontology bao gồm quan hệ nhị phân R(C i, Cj), quan hệ IS-A, bao gồm hai quan hệ ngữ nghĩa IS-A, PART-OF 1.2 Mục tiêu phạm vi nghiên cứu Mục tiêu luận án xâydựngmôhìnhrúttríchthôngtinvăntheochủđềmiềnchuyênbiệt(Tinhọc) nhằm khắc phục hạn chế số công trình nghiên cứu nêu thực cải tiến sau: i Ontology miềnchuyênbiệtTin học (Computing Domain Ontology - CDO) luận án đề xuất có 170 lớp chủđề khác nhau, lớp có nhiều lớp con, với triệu đối tượng thuộc lớp khác nhau, đáp ứng yêu cầu rúttríchthôngtin thuộc nhiều chủđềTin học ii Các quan hệ ngữ nghĩa đối tượng thuộc CDO ISA, PART-OF mà mở rộng thêm quan hệ: INCLUDE, MADE-OF, quan hệ thượng danh, hạ danh đồng nghĩa, để bổ sung ngữ nghĩa cho đối tượng liên quan đến lĩnh vực Tin học Qua thôngtinrúttrích giàu tính ngữ nghĩa Quan hệ ngữ nghĩa CDO không quan hệ nhị phân mà quan hệ nhiều hai đối tượng, biểu diễn R (C1, …, Ci) với i ≥ iii Ngoài CDO có quan hệ đồng nghĩa nên tránh giai đoạn thay từ viết tắt câu truy vấn người dùng có xuất hiện, tiết kiệm thời gian truy xuất thôngtin iv Việc xác định chủđề dựa CDO trình rúttríchthôngtin cho người dùng thực lớp chủđề CDO, nên tránh nhập nhằng chủđềrúttríchthôngtin 1.3 Các kết quả đạt được luận án 1) Kết quả thứ nhất: Đề xuất môhình cho việc xâydựng làm giàu Computing Domain Ontology (CDO) Công bố công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11] [CT12] 2) Kết quả thứ hai: Đề xuất phương pháp xác định chủđề dựa ontology có xét đến quan hệ ngữ nghĩa từ câu Công bố công trình [CT5] 3) Kết quả thứ ba: Xác định rúttrích mối quan hệ ngữ nghĩa cú pháp tập tinvăn thuộc ACM Digital Library từ nguồn tài nguyên có sẵn Wikipedia, WordNet Công bố công trình [CT9] 4) Kết quả thứ tư: Đề xuất môhình hỏi đáp, rúttríchthôngtin dựa từ khóa, chủđề câu hỏi từ CDO Công bố công trình [CT6], [CT8], [CT10] 1.4 Cấu trúc luận án Luận án chia thành chương, phần tổng kết phụ lục Chương trình bày mục tiêu, phạm vi đóng góp luận án; giới thiệu cấu trúc luận án Chương trình bày nghiên cứu nước nước liên quan đến vấnđề mà luận án quan tâm Chương trình bày môhình lý thuyết liên quan đến việc xâydựngrúttríchthôngtinmiềnchuyênbiệt Chương trình bày mô hình, giải thuật liên quan đến việc xâydựng làm giàu ontology miềnchuyênbiệtTin học Nội dung công bố công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], [CT11], [CT12] Chương trình bày môhình giải thuật xác định chủđề câu truy vấn từ người dùng Nội dung công bố công trình [CT5] Chương trình bày hệ thốngrúttríchthôngtin trả lời câu truy vấn từ người dùng Nội dung công bố công trình [CT6], [CT8], [CT10] Tổng kết trình bày kết đạt luận án dự định nghiên cứu tương lai luận án Các kết luận án công bố công trình [CT2], [CT7], [CT8], [CT9] [CT10] Hai phụ lục liên quan đến kết thực nghiệm mà luận án đạt CHƯƠNG 2.1 CÁC NGHIÊN CỨU LIÊN QUAN Giới thiệu Mục tiêu luận án xâydựng làm giàu ontology miềnTin học bao gồm nhiều chủđề khác dựa nguồn ngữ liệu văn Sau luận án xâydựng hệ thốngrúttríchthôngtin dựa ontology để trả lời câu truy vấn 2.2 Các nghiên cứu xâydựng Ontology Công trình Vo Xuan Vinh, đề xuất phương pháp xâydụng ontology chuyênbiệt dựa đồ thị nhúng (Graph-embedded Tree – GeT) Công trình Thinh D Bui nghiên cứu xâydựng ontology LKIF (Legal Knowledge Interchange Format) miềnchuyênbiệt liên quan đến luật pháp Việt Nam Công trình Nguyen Chanh Thanh nghiên cứu, phát triển cấu trúc chế làm giàu ontology OOMP (Ontology of Object-MemberProperty) Công trình P Luksch đề xuất phương pháp cải tiến việc xâydựng ontology từ văn cách sử dụng liệu liên kết từ nhiều nguồn khác như: DBpedia, Yago, Freebase, UMBEL 2.3 Các công trình liên quan đến rúttrích liệu dựa ontology Công trình Lame cộng giới thiệu phương pháp xác định thành phần ontology dựa vào tập tinvănđểrúttrích khái niệm mối quan hệ chúng đểxâydựng ontology chuyêndụng lĩnh vực luật pháp phục vụ cho toán truy xuất thôngtin Công trình S.Peroni đề xuất giải pháp nhận dạng khái niệm ontology Công trình E Chieze L Zhang xâydựngmôhình tự động rúttríchthôngtin tóm lược văn dựa ontology Công trình R.J Kate giới thiệu hệ thống PAPITS Hệ thống tiến hành phân loại chủđề sử dụng kỹ thuật độ lợi (Information Gain) kết hợp với phương pháp thống kê để nhận dạng Công trình Y Xiudan đề xuất xâydựng hệ thốngrúttríchthôngtin dựa ontology chuyênbiệt liên quan đến sản phẩm mua bán Internet CHƯƠNG XÂYDỰNGMÔHÌNHRÚTTRÍCHTHÔNGTINTHEOCHỦĐỀ TRONG MIỀNCHUYÊNBIỆT(TINHỌC) 3.1 Giới thiệu Một hệ thốngrúttríchthôngtin thường bao gồm phần sau − Nhận dạng phân loại thực thể − Xác định mối quan hệ thành phần câu − Chọn lọc thôngtin sau rúttrích 3.2 Giới thiệu số môhìnhrúttríchthôngtin Môhìnhrúttríchthôngtin từ trang Web C Feilmayr cộng trình bày môhìnhrúttrích ICT, 2010 Trong môhình này, hệ thốngrúttrích gồm có ba mô-đun là: mô-đun gọi web crawler, mô-đun có chức nhận dạng token, câu tách câu trang web, mô-đun hiển thị kết rúttrích cho người dùngtheo định dạng HTML hay XML Môhìnhrúttríchthôngtin từ văn Công trình S Jonnalagadda cộng xâydựng hệ thốngrúttríchthôngtin từ hồ sơ bệnh án miềnchuyênbiệt Y khoa Công trình Batcha đề xuất môhìnhrúttríchthôngtinmiềnchuyênbiệt Một môhìnhrúttríchthôngtin khác dựa ontology miềnchuyênbiệt bóng đá P Buitelaar cộng xâydựng 3.3 Môhìnhrúttríchthôngtin luận án đề xuất Đểxâydựngmôhìnhrúttríchthôngtintheochủđềmiềnchuyênbiệt(Tin học), khắc phục hạn chế công trình nghiên cứu trước đây, luận án cần giải công việc − Nhận dạng từ, cụm từ đặc trưng xác định tính đắn chúng đểxâydựng làm giàu ontology 10 4.3.3 Bước – Xâydựng lớp Synset (Synset layer) Lớp bao gồm quan hệ đồng nghĩa, thượng danh hạ danh với đối tượng thuộc lớp thành phần CDO rúttrích từ WordNet 4.3.4 Bước – Xâydựng lớp Câu (Sentence layer) Lớp bao gồm quan hệ ngữ nghĩa IS-A, PART-OF, INCLUDE, MADE-OF, ATTRIBUTE-OF, RESULT-OF với đối tượng thuộc lớp thành phần CDO rúttrích từ tập tinvăn thuộc tập thư viện điện tử ACM hay từ Wikipedia Bên cạnh bao gồm số quan hệ cú pháp với đối tượng thuộc lớp Thành phần CDO Định nghĩa 4.3 Quan hệ ngữ nghĩa biểu diễn mối quan hệ mặt ngữ nghĩa từ hay cụm từ, chúng bổ sung cho để làm rõ nghĩa khái niệm hay vấnđề Một số quan hệ ngữ nghĩa thường gặp lĩnh vực truy xuất rúttríchthôngtin quan hệ đồng nghĩa, thượng danh, hạ danh Định nghĩa 4.4 Quan hệ cú pháp thể mối quan hệ mặt cú pháp đối tượng hay từ câu Để xác định mối quan hệ cú pháp đối tượng hay từ câu, luận án sử dụng công cụ Stanford Lexical Dependency Parser (SLDP) Các bước trung gian trình xâydựng làm giàu CDO Tiền xử lý Các công việc giai đoạn tiền xử lý bao gồm: loại bỏ stopword, chuyển toàn nội dungvăn sang chữ thường, nhận dạng câu, gán nhãn từ loại Phân tích từ vựng cú pháp câu Để phân tích cú pháp từ vựng câu, tiến hành gán nhãn từ loại câu, luận án sử dụng công cụ SLDP SLDP phân tích cú pháp cho văn phạm tiếng Anh trường Đại học Stanford, thể mối quan hệ văn phạm từ câu 16 Rúttrích mối quan hệ từ câu Để nhận dạng mối quan hệ từ câu bao gồm quan hệ ngữ nghĩa cú pháp câu, luận án sử dụng công cụ SLDP Như phân tích chức phân tích cú pháp, SLDP thể mối quan hệ văn phạm từ cụm từ câu Độ lợi (Information Gain) Tương tự TF-IDF, độ lợi tiêu chí để đánh giá tần suất xuất đối tượng chủđề Độ lợi tính theo công thức sau: IG(a) = E (B – a) – E (a) E(a) = (4.2) (4.3) Trong E(a): Entropy đối tượng “a” B ; E (B – a): Entropy tất đối tượng B sau xóa “a” B; P j: Xác xuất phân bố đối tượng “a” B; C: số lượng phần tử B Tuy nhiên để giải toán phân lớp CDO, luận án đề nghị công thức tính độ lợi sau: IG(a|Ci) = E (X|Ci) – E(a) (4.4) Trong đó: IG(a|Ci): độ lợi “a” chủđề C i E(X|Ci): Entropy tất đối tượng (X) chủđề Ci sau xóa “a” khỏi tập Ci Giải thuật 4.3 xâydựng làm giàu CDO từ tập thư viện điện tử ACM Wikipedia Giải thuật 4.3 Xâydựng CDO từ tập thư viện điện tử ACM Wikipedia Đầu vào: Các tập tinvăn gom nhóm theochủ đề/XML Đầu ra: CDO.Ingredient – Lớp thành phần thuộc CDO Sentences[] ∅ ;Temp[] ∅ ; Object[] ∅ /* Lưu trữ tạm đối tượng để tính toán */ 17 Buffer[] ∅ Loop until không tập tinvăn gom nhóm theochủđề hay XML Buffer[]ReadFile(XML/van_ban) /* Đọc tập tinvăn / XML */ Topic getTopic(XML/Van_ban) /* Lấy tên chủđề */ Loop until tập tin không nội dung /* Dùng OpenNLP để nhận dạng rúttrích câu đưa vào mảng để xử lý */ Sentences[] Extract_Sentence(Buffer[]) End Loop For each câu C mảng Senteces[] C= Remove(StopWord) /*Loại bỏ StopWord ví dụ a, an, the,.*/ OpenNLP gán nhãn từ loại cho câu C End For /* Rúttrích danh từ (có nhãn NN) cụm danh từ (có nhãn NP, NNP) C */ For each danh_từ/Cụm_danh_từ C WordN danh_từ/cụm_danh_từ Temp[] WordN /* Lưu trữ đối tượng mảng tạm để xử lý rúttrích câu */ For each câu C mảng Sentences[] Tính số lần xuất WordN End For Object[] WordN, số lần xuất xuất WordN End For Extract_Sentence(C,temp[]) /*Rút trích quan hệ ngữ nghĩa câu C */ /* Thêm phần tử từ Object[] vào lớp thành phần */ SearchTopic(CDO.Topic=Topic) /* Tìm chủđề lớp topic CDO */ For each phần tử O thuộc mảng Object[] If (O chưa tồn lớp chủđề này) then CDO.Ingredient O /* thêm O vào lớp thành phần */ End if End For 18 Sentences[] ∅ Object[] ∅ End Loop 4.4 Biểu diễn lưu trữ CDO Luận án áp dụng giải thuật E Vysniauskas đểchuyển đổi từ OWL sang RDBMS (Relational database management system) Theo giải thuật E Vysniauskas Mỗi lớp (class) lớp (sub class) OWL chuyển thành bảng (table) RDBMS; Tạo quan hệ 1-1 bảng (sub class) bảng cha (parent class); Thuộc tính đối tượng (Object properties) ontology chuyển qua RDBMS, tùy thuộc vào quan hệ lớp mà xuất quan hệ 1:n hay n:n bảng RDBMS, n:n xuất bảng trung gian RDBMS; Các thuộc tính kiểu liệu (Datatype properties) có ánh xạ thành cột (columns) RDBMS; Các ràng buộc ontology (Ontology constraints) có ánh xạ thành bảng siêu liệu (metadata tables) Luận án áp dụng giải thuật E.Vysniauskas với số cải tiến sau Tất lớp ánh xạ thành bảng RDBMS (Categories); Mối quan hệ lớp lớp cha thể qua thuộc tính Belong_to vị trí lớp cha; Các đối tượng (individual) ánh xạ thành bảng RDBMS (Ingredient); Đối với thuộc tính đối tượng, tùy thuộc vào đặc điểm thuộc tinh mà ánh xạ thành bảng riêng biệt RDBMS Ví dụ thuộc tính đồng nghĩa, thượng danh, hạ danh ánh xạ thành bảng riêng biệt RDBMS; Các quan hệ ngữ nghĩa khác ánh xạ thành bảng Sentence RDBMS Kết quả đạt được 19 Từ 170 bảng rút gọn thành bảng; đảm bảo thứ tự phân cấp lớp; đảm bảo quan hệ ngữ nghĩa đối tượng lớp khác nhau; Tính hiệu quả Giảm không gian lưu trữ RDBMS; thời gian truy xuất liệu nhanh xác định chủđề câu truy vấn (trung bình 15ms – 17ms) so với sử dụng OWL để biểu diễn CDO 4.5 Kết quả thực nghiệm đánh giá CDO Xâydựng làm giàu ontology − Trong lớp Chủđề có 170 chủđề phân thành lớp khác thuộc lĩnh vực Tin học − Trong lớp Thành phần có 407.250 đối tượng thuộc chủđề khác Chi tiết thể bảng 4.4 Bảng 4.4 Tỷ lệ đối tượng rúttrích từ nguồn tài nguyên Wikipedia Số lượng đối tượng 17.910 (4,5%) WordNet 342.000 (83,98%) Babelnet 47.340 (11,62%) Trong lớp Synset có 701.200 đối tượng, quan hệ đồng nghĩa có tổng cộng 200.400 đối tượng; quan hệ thượng danh có tổng cộng 270.750 đối tượng; quan hệ hạ danh có tổng cộng 230.250 đối tượng; lớp câu có tổng cộng 306.500 câu − Đánh giá kết xâydựng làm giàu CDO Kết thực nghiệm đánh giá thông qua ba độ đo: độ xác (Precision-P), độ truy hồi (Recall-R), trung bình điều hòa F (F-Measurre) (4.4) (4.5) (4.6) 20 Trong đó: Ci: biểu diễn cho chủđề thứ i thuộc lớp Thành phần CDO; Correct (Ci): số đối tượng xác chủđề thứ i; Wrong (C i): số đối tượng sai chủđề thứ i; Missing (Ci): số đối tượng chủđề thứ i Để nhận dạng đối tượng sai (wrong) hay (missing), luận án sử dụng ba cách: thứ dùng hai từ điển, IBM (liên quan nhiều đến chủđề hardware) lại Microsoft (liên quan nhiều chủđề software); thứ hai sử dụng phương pháp xác suất thống kê thứ ba dùng công cụ AIChemyAPI Nội dung liên quan công bố [CT7] CHƯƠNG 5.1 XÁC ĐỊNH CHỦĐỀ CÂU TRUY VẤN Các môhình xác định chủđề câu truy vấnĐề cập Hui Yang đưa giải thuật gọi Belief Augmented Frames (BAF) để phân loại văntheochủđề G.Ercan cộng thuộc khoa Máy tính trường Đại học Bikent đề xuất môhìnhrúttrích từ khóa dựa chuỗi từ vựng K Wen cộng xâydựng hệ thống Smartch cho phép người dùng truy tìm từ khóa, khái niệm mối quan hệ khái niệm dựa ontology miềnchuyênbiệt 5.2 Rúttrích từ, cụm từ đặc trưng để xác định chủđề câu truy vấnĐể xác định chủđề câu truy vấn, luận án sử dụng công cụ xử lý ngôn ngữ tự nhiên OpenNLP SLDP Công cụ AIchemyAPI dùngđể so sánh kết rúttrích từ đặc trưng Môhìnhđề xuất, có ba mô-đun sau − Bộ phân tích câu truy vấn Mô-đun có chức tách câu, phân tích câu truy vấn, thực gán nhãn từ loại (POS-Tag) cho từ, cho câu, xác định từ, cụm từ đặc trưng − Xác định từ khóa quan hệ ngữ nghĩa Từ phụ thuộc câu SLDP tạo ra, mô-đun xác định từ khóa đặc trưng, mối quan hệ ngữ nghĩa từ câu truy vấn giúp cho việc xác định chủđề câu xác 21 − So trùng ontology Mô-đun tiến hành so trùng từ, cụm từ khóa với đối tượng thuộc lớp Thành phần CDO, để xác định chủđề câu truy vấn Giải thuật rúttrích từ, cụm từ đặc trưng để xác định chủđề câu truy vấn thể giải thuật 5.1 Giải thuật 5.1 Rúttrích từ/cụm từ đặc trưng từ quan hệ phụ thuộc Đầu vào: T[] – Tập quan hệ phụ thuộc tạo công cụ SLDP Đầu ra: D[] – Tập từ/cụm từ khóa For each i ∈ T[] If (T[i] ∉ D[]) then /* Nếu D[] chưa có từ khóa T[i] */ If (T[i] quan hệ chủ ngữ câu) then /* Có quan hệ phụ thuộc nsubj, csubj, nsubjpass */ D[] T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ else /* Câu chủ ngữ */ If (T[i] quan hệ danh từ/cụm danh từ câu) /* Có quan hệ phụ thuộc nn, dobj, idobj */ D[] T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ End if; End if ; End if For each j ∈ T[] If(T[i] ≠ T[j] T[i] có quan hệ phụ thuộc với T[j]) then If (T[j] ∉ D[]) then /* Nếu D[] chưa có từ khóa T[j] */ D[] T[j] /* Lưu nội dung, nhãn, vai trò T[j] câu */ End if; End If End For End For Return D[] 22 Ví dụ: Cho câu truy vấn nhập vào: “Robot is told a lot in this conference” − Dùng OpenNLP phân tích xác định câu câu đơn − Cây phụ thuộc câu ví dụ mô tả qua hình 5.9 Hình 5.9 Cây phụ thuộc SLDP tạo cho ví dụ − Tập từ khóa dự tuyển chọn dựa vào phụ thuộc hình 5.1 là: “Robot” “a lot” Khi hệ thống tiến hành so trùng tập dự tuyển từ khóa “Robot’ tương ứng với hai chủđề CDO là: − Artificial Intelligent (độ lợi IG : 0.63) − Information system (độ lợi IG: 0.48) 5.3 Kết quả thực nghiệm đánh giá − Thực nghiệm Luận án tiến hành thực nghiệm hai nguồn ngữ liệu khác nhau: − 900 tập tinvăn bao gồm phần tóm tắt (abstract) lấy từ tập thư viện điện tử ACM, chủđề bao gồm 50 tập tin khác − 320 câu truy vấn ngẫu nhiên người dùng nhập vào thuộc chủđề khác Kết đánh giá thực nghiệm tập văn gồm phần tóm tắt thể bảng 5.2 (xem thêm luận án) Bảng 5.3 kết đánh giá 320 câu truy vấn nhập vào người dùng Bảng 5.2 Kết đánh giá việc xác định chủđề tập văn 23 ST Tên ChủĐề T Độ Độ xác truy Độ hồi bình điều hòa trung Assembly language 94,03% 56,62% 70,68% Software architecture 97,52% 62,81% 76,41% Image display 91,04% 63,26% 74,65% Database system 96,91% 76,63% 85,59% Bảng 5.3 Kết xác định chủđề dạng câu truy vấn khác danh Câu đơn có chủ ngữ + vị ngữ Câu đơn có chủ ngữ + vị ngữ + bổ ngữ Các dạng khác Số lượng câu truy vấn nhập 80 80 80 80 Kết xác định chủđề 98% 92% 87% 72% Dạng câu Thông số − Cụm từ So sánh với công cụ khác (AIchemyAPI) Kết thực nghiệm tiến hành 100 tập tinvăn có phần tóm tắt lấy từ thư viện điện tử ACM dựa hai chủđề Trí tuệ nhân tạo (AI) Hệ điều hành (OS) Việc đánh giá dựa tiêu chí: độ xác, độ truy hồi trung bình điều hòa Bảng 5.4 5.5 thể kết sử dụng công cụ AIchemyAPI áp dụngmôhình mà luận án đề xuất Bảng 5.4 Kết đánh giá sử dụng AIchemyAPI tập ngữ liệu ACM Chủđề Độ xác (%) Độ truy hồi (%) Trung bình điều hòa (%) AI 88,92 85,61 87,24 OS 81,14 74,21 24 77,53 Bảng 5.5 Kết áp dụngmôhình luận án đề xuất tập ngữ liệu ACM Chủđề Độ xác (%) Độ truy (%) hồi Trung bình điều hòa (%) AI 97,03 88,62 92,64 OS 84,47 81,37 82,90 Dựa vào kết thể bảng 5.3 bảng 5.4, cho thấy việc rúttrích từ, cụm từ đặc trưng theomôhình mà luận án đề xuất cho kết cao so với việc sử dụng công cụ AIchemyAPI 25 CHƯƠNG 6.1 RÚTTRÍCHTHÔNGTINTHEOCHỦĐỀMôhìnhrúttríchthôngtintheochủđề Rúttríchthôngtin từ nguồn tài nguyên khác Đã trình bày chương Rúttríchthôngtin dựa CDO phục vụ câu truy vấn Bao gồm thành phần sau: nhập câu truy vấn; nhận dạng câu; phân tích câu; nhận dạng từ khóa xác định chủđề câu truy vấn; tìm kiếm rúttríchthôngtintheochủđề câu truy vấn dựa ontology Môhình ánh xạ câu truy vấn sang dạng biểu diễn ngôn ngữ trung gian Định nghĩa 6.1 – Tập từ vựng sở liệu: Cho sở liệu D hệ sở liệu quan hệ, D tập hợp bảng có quan hệ với Một bảng ký hiệu R(A1, A2, A3,…, An), R tên bảng, A 1, A2,…, An cột bảng R, X mẩu tin R, tập từ vựng tồn sở liệu ký hiệu V D, ta có VD = {X | ∃ R(A1, A2, A3,…, An) ∈ D} Nói cách khác tập từ vựng sở liệu D tập hợp bao gồm quan hệ, thuộc tính Định nghĩa 6.2 – Câu thông dịch: Một câu thông dịch F tương ứng với danh sách từ khóa K = {k1, k2, …, kn} sở liệu D câu lệnh truy vấn dạng select như: “Select column 1, column2, … columnn from table1 JOIN table2 on table1.key=table2.key where column1=k1 and column2=k2, … and columnn=kn”, K danh sách từ khóa xếp theo thứ tự ưu tiên k1, k2, …, kn từ khóa rúttrích từ câu truy vấnban đầu Q, sau loại bỏ từ không cần thiết câu truy vấn Giải thuật 6.1 Giải thuật ánh xạ từ, cụm từ khóa vào bảng CDO Đầu vào: Danh sách từ/cụm từ khóa xếp thứ tự theo trật tự từ câu từ giải thuật 5.1 chương 26 Đầu ra: ngôn ngữ trung gian ánh xạ từ/cụm từ khóa tương ứng với thuộc tính quan hệ Command ∅ /* Câu lệnh biểu diễn ngôn ngữ trung gian */ For each keyword ki danh sách từ/cụm từ khóa If ki abbreviation, then /* Từ viết tắt */ /* Truy vấn bảng Synonym tìm đối tượng ki */ Command Select Synonym where Synonym.content=ki else If ki có hay nhiều giới từ i=1 then /* Truy vấn bảng Sentence tìm đối tượng ki */ Command Select Sentence where Sentence.content=ki else If i=1 then /* Truy vấn bảng Ingredient tìm đối tượng ki */ Command Select Ingredient where Ingredient.content=ki else /* Truy vấn bảng Sentence tìm đối tượng ki */ Command Select Sentence where Sentence.content=ki End if ; End if ; End If End for Return Command Để đánh giá kết môhình ánh xạ từ khóa sang dạng biểu diễn trung gian câu truy vấn, luận án sử dụng 320 câu truy vấn nhập vào từ người dùng thuộc nhiều chủđề với dạng câu truy vấn khác Kết đánh giá dựa vào thôngtinrúttrích từ CDO Tỷ lệ rúttríchthôngtin thành công dựa vào ontology cho 320 câu truy vấn với nhiều chủđề dạng câu khác thể hình 6.6 21 27 Hình 6.6 Tỷ lệ rúttríchthôngtin thành công dựa vào CDO dựa vào dạng biểu diễn trung gian câu truy vấn 6.2 Phương pháp xử lý môhìnhrúttríchthôngtintheochủđề Luận án lấy số ví dụ để minh họa phương pháp xử lý hệ thốngrúttríchthôngtintheochủđề cho câu truy vấn Ví dụ: Người dùng nhập vào cụm từ truy vấn “oracle databse”, hệ thống thực bước Bước 1: OpenNLP nhận dạng câu tách câu Truy vấn ví dụ cụm từ nên OpenNLP trả cụm từ giống với ban đầu “oracle databse” Bước 2: Phân tích câu SLDP SLDP thực gán nhãn từ, cụm từ, phân tích mối quan hệ cú pháp ngữ nghĩa từ câu SLDP trả kết phụ thuộc từ câu, thể hình 6.7 Hình 6.7 Cây phụ thuộc cho cụm từ “oracle database” Bước 3: Nhận dạng từ khóa mối quan hệ ngữ nghĩa câu thông qua giải thuật 5.1 22 Dựa vào phụ thuộc hình 6.7 mối quan hệ cú pháp từ, trường hợp hệ thống xác định tập từ khóa bao gồm “oracle” “database” Bước 4: Xác định chủđề câu truy vấn 28 Áp dụng giải thuật 5.2 (trình bày luận án), với tập từ khóa bước 3, hệ thống trả danh sách chủđề bao gồm: Relational database, Software Engineering, Computer System Organization Dựa vào giá trị “Độ lợi”, hệ thống chọn chủđề “Relational Database’ có giá trị cao Bước 5: Rúttríchthôngtin dựa vào CDO Dựa vào tập từ khóa “oracle”, “database” chủđề “Relational Database”, hệ thống trả kết rúttrích thể bảng 6.2 (xem thêm luận án) Bảng 6.2 Kết rúttríchthôngtin cho câu truy vấn “oracle database” Số thứ tự Nội dung Online database Computer database Electronic database Database management system 6.3 Phân tích đánh giá môhìnhrúttríchthôngtinvăn bản theochủđềThôngtinrúttrích từ nguồn tài nguyên khác tập tinvăn ACM, Wikipedia WordNet; bên cạnh môhình có chức trả lời câu truy vấn từ người dùng; môhìnhrúttrích khai thác nhiều quan hệ ngữ nghĩa đồng nghĩa, thượng danh, hạ danh, IS-A, PART-OF 6.4 Thực nghiệm đánh giá kết quả rúttríchthôngtin dựa CDO Luận án tiến hành thực nghiệm so sánh kết câu thông dịch trung gian có chủđềchủđề biểu diễn qua hình 6.9 6.10 (trong luận án) KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Những khó khăn thực luận án: − Dữ liệu rúttrích từ Wikipedia không tiếng Anh mà tiếng Hoa, nên phải xử lý thủ công để chọn liệu tiếng Anh 29 − Rúttrích mối quan hệ ngữ nghĩa xử lý trọn vẹn danh sách động từ tương ứng với mối quan hệ không bao phủ − Việc loại bỏ liệu trùng khớp nhiều thời gian − Tuy nhiên luận án đạt kết khả quan đánh giá qua nhiều thực nghiệm khác Hướng phát triển tương lai Trong tương lai, số vấnđề luận án cần quan tâm nghiên cứu: 1) Vấnđề 1: Làm giàu ontology − Hiện hệ thống làm giàu ontology với tập tinvăn bản, XML có chủđề trùng với 170 chủđề ontology phải biết trước chủđề tập tin Trong tương lai, hệ thốngmở rộng cho phép làm giàu ontology tập tin trước chủđề − Cho phép cập nhật tự động từ báo khoa học hay trang Web liên quan đến lĩnh vực Tin học, định kỳ theo tuần, theo tháng − Cho phép thêm chủđề tên chuyên gia Tin học vào ontology 2) Vấnđề 2: Bổ sung quan hệ ngữ nghĩa đối tượng Ngoài quan hệ ngữ nghĩa có, việc tìm quan hệ ngữ nghĩa để bổ sung vào CDO công việc cần quan tâm nghiên cứu 3) Vấnđề 3: Tối ưu hóa giải thuật Khi CDO có nhiều đối tượng (từ ba triệu trở lên) cần phải tối ưu hóa giải thuật để cải thiện tốc độ truy xuất CDO giải pháp sở liệu đồ thị (Graph Database) xét đến 30 ... ontology miền chuyên biệt bóng đá P Buitelaar cộng xây dựng 3.3 Mô hình rút trích thông tin luận án đề xuất Để xây dựng mô hình rút trích thông tin theo chủ đề miền chuyên biệt (Tin học), khắc... thị thông tin rút trích Các thông tin sau rút trích từ mô- dun E, định dạng để hiển thị Mô hình rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) luận án đề xuất thể qua hình 3.6 Hình. .. Jonnalagadda cộng xây dựng hệ thống rút trích thông tin từ hồ sơ bệnh án miền chuyên biệt Y khoa Công trình Batcha đề xuất mô hình rút trích thông tin miền chuyên biệt Một mô hình rút trích thông tin khác