Mục tiêu nghiên cứu của Luận án này nhằm xây dựng mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (Tin học) nhằm khắc phục những hạn chế của một số công trình nghiên cứu nêu trên. Mời các bạn cùng tham khảo!
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA Kết luận Những khó khăn thực luận án: Dữ liệu rút trích từ Wikipedia khơng tiếng Anh mà tiếng Hoa, nên phải xử lý thủ công để chọn liệu tiếng Anh Rút trích mối quan hệ ngữ nghĩa khơng thể xử lý trọn vẹn danh TẠ DUY CƠNG CHIẾN sách động từ tương ứng với mối quan hệ không bao phủ Việc loại bỏ liệu trùng khớp nhiều thời gian Tuy nhiên luận án đạt kết khả quan đánh giá qua nhiều thực nghiệm khác Hướng phát triển tương lai XÂY DỰNG MƠ HÌNH RÚT TRÍCH THƠNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) Trong tương lai, số vấn đề luận án cần quan tâm nghiên cứu: 1) Vấn đề 1: Làm giàu ontology Hiện hệ thống làm giàu ontology với tập tin văn bản, XML có chủ đề trùng với 170 chủ đề ontology phải biết trước chủ đề tập tin Trong tương lai, hệ thống mở rộng cho Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 62.48.01.01 phép làm giàu ontology tập tin trước chủ đề Cho phép cập nhật tự động từ báo khoa học hay trang Web liên quan đến lĩnh vực Tin học, định kỳ theo tuần, theo tháng Cho phép thêm chủ đề tên chuyên gia Tin học vào ontology 2) Vấn đề 2: Bổ sung quan hệ ngữ nghĩa đối tượng TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Ngồi quan hệ ngữ nghĩa có, việc tìm quan hệ ngữ nghĩa để bổ sung vào CDO công việc cần quan tâm nghiên cứu 3) Vấn đề 3: Tối ưu hóa giải thuật Khi CDO có nhiều đối tượng (từ ba triệu trở lên) cần phải tối ưu hóa giải thuật để cải thiện tốc độ truy xuất CDO giải pháp sở liệu đồ thị (Graph Database) xét đến 24 TP HỒ CHÍ MINH NĂM 2016 Cơng trình hồn thành Trường Đại học Bách Khoa – ĐHQG-HCM Dựa vào phụ thuộc hình 6.7 mối quan hệ cú pháp từ, trường hợp hệ thống xác định tập từ khóa bao gồm “oracle” “database” Bước 4: Xác định chủ đề câu truy vấn Người hướng dẫn khoa học 1: GS.TS PHAN THỊ TƯƠI Người hướng dẫn khoa học 2: Áp dụng giải thuật 5.2 (trình bày luận án), với tập từ khóa bước 3, hệ thống trả danh sách chủ đề bao gồm: Relational database, Software Engineering, Computer System Organization Dựa vào giá trị “Độ lợi”, hệ thống chọn chủ đề “Relational Database’ có giá trị cao Phản biện độc lập 1: Phản biện độc lập 2: Bước 5: Rút trích thơng tin dựa vào CDO Dựa vào tập từ khóa “oracle”, “database” chủ đề “Relational Database”, hệ thống trả kết rút trích thể bảng 6.2 (xem thêm luận án) Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Bảng 6.2 Kết rút trích thơng tin cho câu truy vấn “oracle database” Số thứ tự Nội dung Online database Computer database Electronic database Database management system 6.3 Phân tích đánh giá mơ hình rút trích thơng tin văn theo chủ đề Thơng tin rút trích từ nguồn tài nguyên khác tập tin văn ACM, Wikipedia WordNet; bên cạnh mơ hình cịn có chức trả lời câu truy vấn từ người dùng; mơ hình rút trích cịn khai thác nhiều quan hệ ngữ nghĩa đồng nghĩa, thượng danh, hạ danh, IS-A, PART-OF 6.4 Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM Thực nghiệm đánh giá kết rút trích thông tin dựa CDO Luận án tiến hành thực nghiệm so sánh kết câu thông dịch trung gian có chủ đề khơng có chủ đề biểu diễn qua hình 6.9 6.10 (trong luận án) 23 95 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ 90 85 Tạp chí Assembl… Operatin… Software… Informat… Database… Applicati… Program… Natural… Compute… Network… Data… Program… Input/Ou… Informat… Computi… Hardware Artificial… Software 80 Hình 6.6 Tỷ lệ rút trích thơng tin thành công dựa vào CDO dựa vào dạng biểu diễn trung gian câu truy vấn 6.2 [CT1] Chien Ta Duy Cong, Tuoi Phan Thi, “Building Ontology Based-on Heterogeneous Data”, Journal of Computer Science and Cybernetics, vol 31, no.2 , 2015, ISSN: 1813-9663 [CT2] Chien Ta Duy Cong, Tuoi Phan Thi, Thanh Nguyen Chanh, “A Subject-Oriented Ontology Development for Information Retrieval Application”, Journal on Information and Communications, vol E3, no.8(12), 2015, ISSN: 1859-3534 [CT3] Chien Ta Duy Cong, Tuoi Phan Thi, “An Information Extraction Approach for Building Vocabulary and Domain Specific Ontology in Information Technology”, Journal on Information and Communications, vol E-3, no.7(11), 2014, ISSN: 1859-3534 [CT4] Chien Ta Duy Cong, Tuoi Phan Thi, “Information Extraction from Heterogeneous Sources Based on Domain Specific Ontology”, Journal of Science and Technology, vol 52, issue 4A, 2014 Phương pháp xử lý mô hình rút trích thơng tin theo chủ đề Luận án lấy số ví dụ để minh họa phương pháp xử lý hệ thống rút trích thơng tin theo chủ đề cho câu truy vấn Ví dụ: Người dùng nhập vào cụm từ truy vấn “oracle databse”, hệ thống thực bước Bước 1: OpenNLP nhận dạng câu tách câu Truy vấn ví dụ cụm từ nên OpenNLP trả cụm từ giống với ban đầu “oracle databse” Hội nghị khoa học Bước 2: Phân tích câu SLDP [CT5] Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying The Queries’ Topic Based- On Computing Domain Ontology”, In Proc of the 2nd International Conference on Computing, Management and Telecommunications (ComManTel 2015), IEEE, Dec 2015, Danang, Vietnam [CT6] Chien Ta Duy Cong, Tuoi Phan Thi, “ An Approach for Searching Semantic-based Keywords over Relational Database”, In Proc of the 6nd International Conference on Information and Communication Technology (SoICT 2015), ACM, Dec 2015, Hue, Vietnam, ACM ISBN 978-1-4503-3843-1 SLDP thực gán nhãn từ, cụm từ, phân tích mối quan hệ cú pháp ngữ nghĩa từ câu SLDP trả kết phụ thuộc từ câu, thể hình 6.7 Hình 6.7 Cây phụ thuộc cho cụm từ “oracle database” Bước 3: Nhận dạng từ khóa mối quan hệ ngữ nghĩa câu thông qua giải thuật 5.1 22 22 [CT7] [CT8] [CT9] Chien Ta Duy Cong, Tuoi Phan Thi, “Automatic Evaluation of The Computing Domain Ontology”, In Proc of the 2nd International Conference on Future Data and Security Engineering (FDSE 2015), Springer Verlag, LNCS, vol 9446, Nov 2015, HoChiMinh City, Vietnam, ISBN 978-3-319-26134-8 Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Algorithm for Mapping of OWL to Relational Database Schema”, In Proc of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015), Springer-Verlag, LNCS, vol 9166, July 2015, Hamburg, Germany, ISBN 978-3-319-21023-0 Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying Semantic and syntactic relation from text documents “, In Proc of the 11th IEEERIVF International Conference on Computing and Communication Technologies (RIVF 2015), Jan 2015, CanTho, Vietnam, ISBN (Print): 978-1-4799-8043-7, ISBN (Xplore compliant: 978-1-47998044-4 [CT10] Chien Ta Duy Cong, Tuoi Phan Thi, “Building Information Extraction System Based on Computing Domain Ontology”, In Proc of the 16th International Conference on Information Integration and Web-based Applications & Services (iiWAS 2014), IEEE, ACM, Dec 2014, Hanoi, Vietnam, ACM ISBN: 978-1-45033001-5 [CT11] Chien Ta Duy Cong, Tuoi Phan Thi, “Building and Enriching Computing Domain Ontology”, In Proc of the Third ASIAN conference On Information Systems (ACIS), Dec 2014, NhaTrang, Vietnam, ISBN: 978-4-88686-089-7 [CT12] Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Formal Concept Analysis Algorithm to Construct Domain Ontology”, In Proc of the fifth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, Sep 2012, Danang, Vietnam, ISBN 978-1-4673-2171-6 Command /* Câu lệnh biểu diễn ngôn ngữ trung gian */ For each keyword ki danh sách từ/cụm từ khóa If ki abbreviation, then /* Từ viết tắt */ /* Truy vấn bảng Synonym tìm đối tượng ki */ Command Select Synonym where Synonym.content=ki else If ki có hay nhiều giới từ i=1 then /* Truy vấn bảng Sentence tìm đối tượng ki */ Command Select Sentence where Sentence.content=ki else If i=1 then /* Truy vấn bảng Ingredient tìm đối tượng ki */ Command Select Ingredient where Ingredient.content=ki else /* Truy vấn bảng Sentence tìm đối tượng ki */ Command Select Sentence where Sentence.content=ki End if ; End if ; End If End for Return Command Để đánh giá kết mơ hình ánh xạ từ khóa sang dạng biểu diễn trung gian câu truy vấn, luận án sử dụng 320 câu truy vấn nhập vào từ người dùng thuộc nhiều chủ đề với dạng câu truy vấn khác Kết đánh giá dựa vào thông tin rút trích từ CDO Tỷ lệ rút trích thơng tin thành công dựa vào ontology cho 320 câu truy vấn với nhiều chủ đề dạng câu khác thể hình 6.6 21 21 CHƯƠNG RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ CHƯƠNG 6.1 GIỚI THIỆU Mơ hình rút trích thơng tin theo chủ đề Rút trích thơng tin từ nguồn tài ngun khác Đã trình bày 1.1 Động nghiên cứu Bài tốn rút trích thơng tin áp dụng nhiều thực tiễn từ hệ chương thống rút trích thơng tin miền chuyên biệt Sinh học, Y học, phòng Rút trích thơng tin dựa CDO phục vụ câu truy vấn Bao gồm thành phần sau: nhập câu truy vấn; nhận dạng câu; phân tích câu; nhận chống tội phạm hệ thống phục vụ việc học tập, giảng dạy (ELearning) dạng từ khóa xác định chủ đề câu truy vấn; tìm kiếm rút trích thơng tin theo chủ đề câu truy vấn dựa ontology Từ nghiên cứu phân tích cơng trình khoa học rút trích thơng tin miền chuyên biệt dựa vào ontology giới, tác giả nhận thấy cịn Mơ hình ánh xạ câu truy vấn sang dạng biểu diễn ngôn ngữ trung gian Định nghĩa 6.1 – Tập từ vựng sở liệu: Cho sở liệu D tồn số hạn chế sau hệ sở liệu quan hệ, D tập hợp bảng có quan hệ với Một Các hệ thống rút trích thơng tin áp dụng nhiều giải thuật khác liên quan đến Xử lý ngôn ngữ tự nhiên, Học máy, Xác suất thông kê, bảng ký hiệu R(A1, A2, A3,…, An), R tên bảng, A1, A2,…, An cột nhiên chưa có giải thuật mang lại hiệu cao rút trích thơng tin bảng R, X mẩu tin R, tập từ vựng tồn sở liệu ký hiệu VD, ta có VD = {X | R(A1, A2, A3,…, An) D} Nói cách khác tập từ Khi xử lý câu truy vấn hệ thống rút trích thông tin hay hệ thống hỏi đáp, phải cần thời gian thay từ viết tắt câu vựng sở liệu D tập hợp bao gồm quan hệ, thuộc tính truy vấn có từ hay cụm từ viết tắt Một số phương pháp sử Định nghĩa 6.2 – Câu thông dịch: Một câu thông dịch F tương ứng với danh dụng dùng từ điển, WordNet sách từ khóa K = {k1, k2, …, kn} sở liệu D câu lệnh truy vấn dạng select như: “Select column1, column2, … columnn from table1 JOIN table2 Chưa sử dụng phân tích cú pháp phù hợp nên không cung cấp on table1.key=table2.key where column1=k1 and column2=k2, … and mối quan hệ phụ thuộc từ câu, dẫn đến trình xử lý ngữ columnn=kn”, K danh sách từ khóa xếp theo thứ tự ưu nghĩa câu gặp nhiều khó khăn tiên k1, k2, …, kn từ khóa rút trích từ câu truy vấn ban đầu Q, sau Sự phân lớp ontology đơn giản; số lớp khái niệm cịn nên loại bỏ từ không cần thiết câu truy vấn ontology chưa hỗ trợ rút trích thơng tin cho nhiều vấn đề khác Giải thuật 6.1 Giải thuật ánh xạ từ, cụm từ khóa vào bảng lĩnh vực, ví dụ ontology lĩnh vực Xây dựng bao CDO gồm ba chủ đề Đầu vào: Danh sách từ/cụm từ khóa xếp thứ tự theo trật tự từ câu Các quan hệ ngữ nghĩa đối tượng ontology bao từ giải thuật 5.1 chương gồm quan hệ nhị phân R(Ci, Cj), quan hệ IS-A, bao gồm Đầu ra: ngôn ngữ trung gian ánh xạ từ/cụm từ khóa tương ứng với thuộc tính hai quan hệ ngữ nghĩa IS-A, PART-OF quan hệ 20 1.2 Mục tiêu phạm vi nghiên cứu Bảng 5.3 Kết xác định chủ đề dạng câu truy vấn khác Mục tiêu luận án xây dựng mơ hình rút trích thơng tin văn theo chủ đề miền chuyên biệt (Tin học) nhằm khắc phục hạn chế số cơng trình nghiên cứu nêu thực cải tiến sau: i Dạng câu Cụm danh Câu đơn có Câu đơn có Các dạng từ Thơng số chủ ngữ + vị chủ ngữ + vị khác ngữ Ontology miền chuyên biệt Tin học (Computing Domain Ontology Số lượng câu - CDO) luận án đề xuất có 170 lớp chủ đề khác nhau, lớp có nhiều truy vấn nhập ngữ + bổ ngữ 80 80 80 80 98% 92% 87% 72% lớp con, với triệu đối tượng thuộc lớp khác nhau, đáp ứng u cầu rút trích thơng tin thuộc nhiều chủ đề Tin học Kết xác định chủ đề ii Các quan hệ ngữ nghĩa đối tượng thuộc CDO khơng có IS A, PART-OF mà mở rộng thêm quan hệ: INCLUDE, MADE-OF, iii quan hệ thượng danh, hạ danh đồng nghĩa, để bổ sung ngữ nghĩa cho Kết thực nghiệm tiến hành 100 tập tin văn có phần tóm tắt đối tượng liên quan đến lĩnh vực Tin học Qua thơng tin rút trích lấy từ thư viện điện tử ACM dựa hai chủ đề Trí tuệ nhân tạo (AI) giàu tính ngữ nghĩa Quan hệ ngữ nghĩa CDO không Hệ điều hành (OS) Việc đánh giá dựa tiêu chí: độ xác, độ truy hồi quan hệ nhị phân mà cịn quan hệ nhiều hai đối tượng, trung bình điều hịa Bảng 5.4 5.5 thể kết sử dụng công cụ biểu diễn R (C1, …, Ci) với i ≥ AIchemyAPI áp dụng mơ hình mà luận án đề xuất Ngồi CDO cịn có quan hệ đồng nghĩa nên tránh Bảng 5.4 Kết đánh giá sử dụng AIchemyAPI tập ngữ liệu ACM giai đoạn thay từ viết tắt câu truy vấn người dùng có xuất hiện, tiết kiệm thời gian truy xuất thơng tin iv Việc xác định chủ đề dựa CDO q trình rút trích thơng tin cho người dùng thực lớp chủ đề CDO, nên tránh nhập nhằng chủ đề rút trích thơng tin 1.3 So sánh với cơng cụ khác (AIchemyAPI) Các kết đạt luận án 1) Kết thứ nhất: Đề xuất mơ hình cho việc xây dựng làm giàu Computing Domain Ontology (CDO) Cơng bố cơng trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11] [CT12] Chủ đề Độ xác (%) Độ truy hồi (%) Trung bình điều hịa (%) AI 88,92 85,61 87,24 OS 81,14 74,21 77,53 Bảng 5.5 Kết áp dụng mơ hình luận án đề xuất tập ngữ liệu ACM Chủ đề Độ xác (%) Độ truy hồi (%) Trung bình điều hịa (%) AI 97,03 88,62 92,64 OS 84,47 81,37 82,90 2) Kết thứ hai: Đề xuất phương pháp xác định chủ đề dựa Dựa vào kết thể bảng 5.3 bảng 5.4, cho thấy việc rút trích ontology có xét đến quan hệ ngữ nghĩa từ câu Công bố từ, cụm từ đặc trưng theo mơ hình mà luận án đề xuất cho kết cao so với cơng trình [CT5] việc sử dụng cơng cụ AIchemyAPI 19 Tập từ khóa dự tuyển chọn dựa vào phụ thuộc hình 5.1 là: “Robot” “a lot” 3) Kết thứ ba: Xác định rút trích mối quan hệ ngữ nghĩa cú pháp tập tin văn thuộc ACM Digital Library từ Khi hệ thống tiến hành so trùng tập dự tuyển từ khóa “Robot’ nguồn tài nguyên có sẵn Wikipedia, WordNet Cơng bố cơng trình [CT9] tương ứng với hai chủ đề CDO là: Artificial Intelligent (độ lợi IG : 0.63) Information system (độ lợi IG: 0.48) 4) Kết thứ tư: Đề xuất mơ hình hỏi đáp, rút trích thơng tin dựa từ khóa, chủ đề câu hỏi từ CDO Cơng bố cơng 5.3 trình [CT6], [CT8], [CT10] Kết thực nghiệm đánh giá 1.4 Cấu trúc luận án Thực nghiệm Luận án chia thành chương, phần tổng kết phụ lục Luận án tiến hành thực nghiệm hai nguồn ngữ liệu khác nhau: Chương trình bày mục tiêu, phạm vi đóng góp luận án; 900 tập tin văn bao gồm phần tóm tắt (abstract) lấy từ tập thư viện điện tử ACM, chủ đề bao gồm 50 tập tin khác 320 câu truy vấn ngẫu nhiên người dùng nhập vào thuộc chủ đề khác giới thiệu cấu trúc luận án Chương trình bày nghiên cứu nước nước liên quan đến vấn đề mà luận án quan tâm Chương trình bày mơ hình lý thuyết liên quan đến việc xây dựng rút Kết đánh giá thực nghiệm tập văn gồm phần tóm tắt thể bảng 5.2 (xem thêm luận án) Bảng 5.3 kết đánh giá 320 câu truy vấn nhập vào người dùng trích thơng tin miền chun biệt Chương trình bày mơ hình, giải thuật liên quan đến việc xây dựng làm giàu ontology miền chuyên biệt Tin học Nội dung công bố Bảng 5.2 Kết đánh giá việc xác định chủ đề tập văn cơng trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], [CT11], [CT12] Chương trình bày mơ hình giải thuật xác định chủ đề câu truy vấn từ người Độ STT Tên Chủ Đề xác Độ truy Độ trung bình hồi điều hịa dùng Nội dung cơng bố cơng trình [CT5] Chương trình bày hệ thống rút trích thơng tin trả lời câu truy vấn từ người dùng Nội dung công bố công trình [CT6], [CT8], [CT10] Assembly language 94,03% 56,62% 70,68% Software architecture 97,52% 62,81% 76,41% tương lai luận án Các kết luận án công bố Image display 91,04% 63,26% 74,65% cơng trình [CT2], [CT7], [CT8], [CT9] [CT10] Database system 96,91% 76,63% 85,59% Hai phụ lục liên quan đến kết thực nghiệm mà luận án đạt 18 Tổng kết trình bày kết đạt luận án dự định nghiên cứu CHƯƠNG 2.1 CÁC NGHIÊN CỨU LIÊN QUAN Đầu ra: D[] – Tập từ/cụm từ khóa Giới thiệu Mục tiêu luận án xây dựng làm giàu ontology miền Tin học bao gồm nhiều chủ đề khác dựa nguồn ngữ liệu văn Sau luận án xây dựng hệ thống rút trích thơng tin dựa ontology để trả lời câu truy vấn 2.2 Đầu vào: T[] – Tập quan hệ phụ thuộc tạo công cụ SLDP Các nghiên cứu xây dựng Ontology Cơng trình Vo Xuan Vinh, đề xuất phương pháp xây dụng ontology chuyên biệt dựa đồ thị nhúng (Graph-embedded Tree – GeT) Công trình Thinh D Bui nghiên cứu xây dựng ontology LKIF (Legal Knowledge Interchange Format) miền chuyên biệt liên quan đến luật pháp Việt Nam For each i T[] If (T[i] D[]) then /* Nếu D[] chưa có từ khóa T[i] */ If (T[i] quan hệ chủ ngữ câu) then /* Có quan hệ phụ thuộc nsubj, csubj, nsubjpass */ D[] T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ else /* Câu khơng có chủ ngữ */ If (T[i] quan hệ danh từ/cụm danh từ câu) /* Có quan hệ phụ thuộc nn, dobj, idobj */ D[] T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ End if; End if ; End if Cơng trình Nguyen Chanh Thanh nghiên cứu, phát triển cấu trúc chế làm giàu ontology OOMP (Ontology of Object-Member-Property) Cơng trình P Luksch đề xuất phương pháp cải tiến việc xây dựng ontology từ văn cách sử dụng liệu liên kết từ nhiều nguồn khác For each j T[] If(T[i] ≠ T[j] T[i] có quan hệ phụ thuộc với T[j]) then If (T[j] D[]) then /* Nếu D[] chưa có từ khóa T[j] */ như: DBpedia, Yago, Freebase, UMBEL 2.3 Các cơng trình liên quan đến rút trích liệu dựa ontology Cơng trình Lame cộng giới thiệu phương pháp xác định thành phần ontology dựa vào tập tin văn để rút trích khái niệm mối quan hệ chúng để xây dựng ontology chuyên dụng lĩnh vực luật pháp phục vụ cho tốn truy xuất thơng tin Cơng trình S.Peroni đề xuất giải pháp nhận dạng khái niệm ontology Cơng trình E Chieze L Zhang xây dựng mơ hình tự động rút trích thơng tin tóm lược văn dựa ontology Cơng trình R.J Kate giới thiệu hệ thống PAPITS Hệ thống tiến hành phân loại chủ đề sử dụng kỹ thuật độ lợi D[] T[j] /* Lưu nội dung, nhãn, vai trò T[j] câu */ End if; End If End For End For Return D[] Ví dụ: Cho câu truy vấn nhập vào: “Robot is told a lot in this conference” Dùng OpenNLP phân tích xác định câu câu đơn Cây phụ thuộc câu ví dụ mơ tả qua hình 5.9 (Information Gain) kết hợp với phương pháp thống kê để nhận dạng Cơng trình Y Xiudan đề xuất xây dựng hệ thống rút trích thơng tin dựa ontology chuyên biệt liên quan đến sản phẩm mua bán Internet Hình 5.9 Cây phụ thuộc SLDP tạo cho ví dụ 17 thứ hai sử dụng phương pháp xác suất thống kê thứ ba dùng công cụ AIChemyAPI Nội dung liên quan công bố [CT7] CHƯƠNG XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN CHƯƠNG XÂY DỰNG MƠ HÌNH RÚT TRÍCH THƠNG TIN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) 3.1 Giới thiệu Một hệ thống rút trích thơng tin thường bao gồm phần sau 5.1 Các mơ hình xác định chủ đề câu truy vấn Nhận dạng phân loại thực thể phân loại văn theo chủ đề G.Ercan cộng thuộc khoa Máy tính Xác định mối quan hệ thành phần câu trường Đại học Bikent đề xuất mơ hình rút trích từ khóa dựa chuỗi Chọn lọc thơng tin sau rút trích Đề cập Hui Yang đưa giải thuật gọi Belief Augmented Frames (BAF) để từ vựng K Wen cộng xây dựng hệ thống Smartch cho phép người 3.2 dùng truy tìm từ khóa, khái niệm mối quan hệ khái Mô hình rút trích thơng tin từ trang Web niệm dựa ontology miền chuyên biệt 5.2 Rút trích từ, cụm từ đặc trưng để xác định chủ đề câu truy vấn Để xác định chủ đề câu truy vấn, luận án sử dụng công cụ xử lý ngôn ngữ tự nhiên OpenNLP SLDP Công cụ AIchemyAPI dùng để so sánh kết rút trích từ đặc trưng Mơ hình đề xuất, có ba mơ-đun sau C Feilmayr cộng trình bày mơ hình rút trích ICT, 2010 Trong mơ hình này, hệ thống rút trích gồm có ba mơ-đun là: mơ-đun gọi web crawler, mơ-đun có chức nhận dạng token, câu tách câu trang web, mô-đun hiển thị kết rút trích cho người dùng theo định dạng HTML hay XML Bộ phân tích câu truy vấn Mơ-đun có chức tách câu, phân tích Mơ hình rút trích thơng tin từ văn câu truy vấn, thực gán nhãn từ loại (POS-Tag) cho từ, cho câu, xác định từ, cụm từ đặc trưng Xác định từ khóa quan hệ ngữ nghĩa Từ phụ thuộc câu SLDP tạo ra, mô-đun xác định từ khóa đặc trưng, mối quan hệ ngữ nghĩa từ câu truy vấn giúp cho việc xác định chủ đề câu xác Giới thiệu số mơ hình rút trích thơng tin Cơng trình S Jonnalagadda cộng xây dựng hệ thống rút trích thơng tin từ hồ sơ bệnh án miền chuyên biệt Y khoa Cơng trình Batcha đề xuất mơ hình rút trích thơng tin miền chun biệt Một mơ hình rút trích thơng tin khác dựa ontology miền chun biệt bóng đá P Buitelaar cộng xây dựng 3.3 So trùng ontology Mô-đun tiến hành so trùng từ, cụm từ khóa với đối tượng thuộc lớp Thành phần CDO, để xác định chủ đề câu truy vấn Giải thuật rút trích từ, cụm từ đặc trưng để xác định chủ đề câu truy vấn thể giải thuật 5.1 Giải thuật 5.1 Rút trích từ/cụm từ đặc trưng từ quan hệ phụ thuộc 16 Mô hình rút trích thơng tin luận án đề xuất Để xây dựng mơ hình rút trích thơng tin theo chủ đề miền chuyên biệt (Tin học), khắc phục hạn chế cơng trình nghiên cứu trước đây, luận án cần giải công việc Nhận dạng từ, cụm từ đặc trưng xác định tính đắn chúng để xây dựng làm giàu ontology Xây dựng ontology có nhiều tầng nhiều lớp để cải thiện độ truy hồi (Recall) hệ thống Trong lớp Chủ đề có 170 chủ đề phân thành lớp khác thuộc lĩnh vực Tin học Rút trích mối quan hệ thành phần câu (Relation Extraction) dựa vào mối quan hệ phụ thuộc từ câu để bổ Chi tiết thể bảng 4.4 sung ý nghĩa cho khái niệm lĩnh vực Tin học Phân tích câu truy vấn người dùng để xác định chủ đề Rút trích hiển thị thông tin theo truy vấn người dùng Mơ hình rút trích thơng tin luận án bao gồm mô-đun sau Mô-đun A: Nhận dạng, rút trích danh từ, cụm danh từ để xây dựng ontology Trong lớp Thành phần có 407.250 đối tượng thuộc chủ đề khác Bảng 4.4 Tỷ lệ đối tượng rút trích từ nguồn tài nguyên Số lượng đối tượng Wikipedia WordNet Babelnet 17.910 (4,5%) 342.000 (83,98%) 47.340 (11,62%) Trong lớp Synset có 701.200 đối tượng, quan hệ đồng nghĩa có tổng cộng 200.400 đối tượng; quan hệ thượng danh có tổng cộng 270.750 đối tượng; quan hệ hạ danh có tổng cộng 230.250 đối tượng; lớp câu có Mơ-đun thực cơng việc phân tích câu, gán nhãn từ loại nhằm nhận dạng rút trích danh từ, cụm danh từ văn hay từ nguồn ngữ liệu để xây dựng ontology Mô-đun B: Làm giàu ontology tổng cộng 306.500 câu Đánh giá kết xây dựng làm giàu CDO Kết thực nghiệm đánh giá thơng qua ba độ đo: độ xác (PrecisionP), độ truy hồi (Recall-R), trung bình điều hịa F (F-Measurre) Để bổ sung tri thức cho ontology nhằm phục vụ cho q trình rút trích, đối tượng thuộc lớp khác ontology cập nhật từ báo cơng trình nghiên cứu khoa học Q trình cập nhật diễn định kỳ theo ( )= tuần, tháng Ngồi ra, ontology cịn làm giàu từ ontology có sẵn như: WordNet, Babelnet ( ) ( )= - ( )=2 ( ) ( ) ( ) ( ) ( ) ∗ Mơ-đun C: Nhận dạng, rút trích từ khóa đặc trưng câu truy vấn Trong đó: Ci: biểu diễn cho chủ đề thứ i thuộc lớp Thành phần CDO; Correct Tương tự mô-đun A, mô-đun thực cơng việc phân tích câu, (Ci): số đối tượng xác chủ đề thứ i; Wrong (Ci): số đối tượng sai gán nhãn từ loại nhằm nhận dạng rút trích từ, cụm từ khóa đặc trưng chủ đề thứ i; Missing (Ci): số đối tượng khơng có chủ đề thứ i Để nhận câu truy vấn theo thứ tự ưu tiên để qua xác định chủ đề câu truy vấn dạng đối tượng sai (wrong) hay khơng có (missing), luận án sử dụng ba cách: Mô-đun D: Xác định chủ đề câu truy vấn dựa vào từ khóa đặc trưng thứ dùng hai từ điển, IBM (liên quan nhiều đến chủ đề hardware) lại Microsoft (liên quan nhiều chủ đề software); 15 Mỗi lớp (class) lớp (sub class) OWL chuyển thành Mô-đun D xác định chủ đề câu truy vấn dựa từ khóa đặc trưng nhận bảng (table) RDBMS; Tạo quan hệ 1-1 bảng (sub class) dạng từ mô-dun C Dựa vào lớp Chủ đề CDO số giải thuật xử lý ngôn bảng cha (parent class); Thuộc tính đối tượng (Object properties) ngữ tự nhiên mà chủ đề câu truy vấn xác định ontology chuyển qua RDBMS, tùy thuộc vào quan hệ lớp mà Mơ-đun E: Rút trích thơng tin theo chủ đề dựa vào từ khóa đặc trưng xuất quan hệ 1:n hay n:n bảng RDBMS, câu truy vấn n:n xuất bảng trung gian RDBMS; Các thuộc tính kiểu liệu (Datatype properties) có ánh xạ thành cột (columns) Quá trình rút trích thơng tin rút trích đối tượng, thuộc tính, mối quan RDBMS; Các ràng buộc ontology (Ontology constraints) có ánh hệ đối tượng dựa ontology luận án chủ đề xác định xạ thành bảng siêu liệu (metadata tables) mô-dun D Mô-đun F: Hiển thị thơng tin rút trích Luận án áp dụng giải thuật E.Vysniauskas với số cải tiến sau Tất lớp ánh xạ thành bảng RDBMS Các thông tin sau rút trích từ mơ-dun E, định dạng để hiển thị (Categories); Mối quan hệ lớp lớp cha thể qua thuộc tính Mơ hình rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) Belong_to vị trí lớp cha; Các đối tượng (individual) ánh xạ thành luận án đề xuất thể qua hình 3.6 bảng RDBMS (Ingredient); Đối với thuộc tính đối tượng, tùy thuộc vào đặc điểm thuộc tinh mà ánh xạ thành bảng riêng biệt RDBMS Ví dụ thuộc tính đồng nghĩa, thượng danh, hạ danh ánh xạ thành bảng riêng biệt RDBMS; Các quan hệ ngữ nghĩa khác ánh xạ thành bảng Sentence RDBMS Kết đạt Từ 170 bảng rút gọn thành bảng; đảm bảo thứ tự phân cấp lớp; đảm bảo quan hệ ngữ nghĩa đối tượng lớp khác nhau; Tính hiệu Giảm khơng gian lưu trữ RDBMS; thời gian truy xuất liệu nhanh xác định chủ đề câu truy vấn (trung bình 15ms – 17ms) so với Hình 3.6 Mơ hình rút trích thơng tin theo chủ đề miền chuyên biệt (Tin học) sử dụng OWL để biểu diễn CDO 3.4 4.5 Để thực mục tiêu nghiên cứu, luận án cần giải toán sau Kết thực nghiệm đánh giá CDO Xây dựng làm giàu ontology 14 Phương pháp nghiên cứu hướng tiếp cận Bài toán - Xây dựng làm giàu ontology miền Tin học (CDO), thực mơ-đun A B Bài tốn tập trung vào việc rút trích đối tượng lĩnh vực Tin học từ tập tin văn bản, End Loop Wikipedia WordNet Các cơng trình cơng bố liên quan đến For each câu C mảng Senteces[] C= Remove(StopWord) /*Loại bỏ StopWord ví dụ a, an, the,.*/ toán bao gồm [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], OpenNLP gán nhãn từ loại cho câu C [CT11], [CT12] End For Bài toán – Xác định chủ đề câu truy vấn thực mơ-đun C /* Rút trích danh từ (có nhãn NN) cụm danh từ (có nhãn NP, NNP) C */ D Bài toán tập trung vào phân tích câu truy vấn để xác định chủ For each danh_từ/Cụm_danh_từ C đề thông qua cụm từ đặc trưng mối quan hệ ngữ nghĩa chúng WordN danh_từ/cụm_danh_từ Luận án giải vấn đề dựa phân tích cú pháp văn phạm Temp[] WordN /* Lưu trữ đối tượng mảng tạm để xử lý rút trích câu */ phụ thuộc để xác định cụm từ đặc trưng mối quan hệ ngữ For each câu C mảng Sentences[] nghĩa chúng dựa CDO Cơng trình cơng bố liên Tính số lần xuất WordN quan đến toán bao gồm [CT5] End For Object[] WordN, số lần xuất xuất WordN Bài toán – Rút trích hiển thị thơng tin theo câu truy vấn thực mô-đun E F Sau xác định chủ đề, hệ thống chuyển đổi End For câu truy vấn thành ngôn ngữ trung gian để truy vấn thơng tin từ CDO Extract_Sentence(C,temp[]) /*Rút trích quan hệ ngữ nghĩa câu C */ /* Thêm phần tử từ Object[] vào lớp thành phần */ dựa theo chủ đề từ khóa câu truy vấn Kết sau rút trích 3.5 xếp trước hiển thị cho người dùng Các cơng trình SearchTopic(CDO.Topic=Topic) /* Tìm chủ đề lớp topic CDO */ công bố liên quan đến toán bao gồm [CT6], [CT8], [CT10] For each phần tử O thuộc mảng Object[] If (O chưa tồn lớp chủ đề này) then So sánh mơ hình rút trích đề xuất với mơ hình rút trích khác đề cập CDO.Ingredient O /* thêm O vào lớp thành phần */ End if So với mơ hình rút trích cơng trình nghiên cứu trước đây, mơ hình End For rút trích thơng tin theo chủ đề luận án đề xuất có số điểm khác biệt Sentences[] Không sử dụng công cụ để tự động sinh ontology Mơ hình đề xuất tích hợp liệu khơng từ tập tin văn End Loop mà từ ontology có sẵn như: Wikipedia, WordNet 4.4 Ontology đề xuất luận án có cấu trúc phức tạp, giải cho Luận án áp dụng giải thuật E Vysniauskas để chuyển đổi từ OWL sang tốn có nhiều chủ đề miền chuyên biệt RDBMS (Relational database management system) Theo giải thuật E Mơ hình đề xuất ngồi chức rút trích thơng tin theo chủ đề, cịn có chức hệ thống hỏi đáp, truy vấn thông tin Object[] Biểu diễn lưu trữ CDO Vysniauskas 13 Tương tự TF-IDF, độ lợi tiêu chí để đánh giá tần suất xuất 3.6 đối tượng chủ đề Độ lợi tính theo cơng thức sau: IG(a) = E (B – a) – E (a) E(a) = – ∑ - P log Tập tin thư viện điện tử ACM, Wikipedia, WordNet, Babelnet (từ điển đa ngôn ngữ) (4.2) (4.3) Các nguồn ngữ liệu phục vụ cho hệ thống rút trích luận án CHƯƠNG XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRONG MIỀN TIN HỌC (COMPUTING DOMAIN ONTOLOGY) Trong 4.1 Giới thiệu ontology E(a): Entropy đối tượng “a” B; E (B – a): Entropy tất đối tượng B sau xóa “a” B; Pj: Xác xuất phân bố Ontology ngày trở thành thành phần hệ thống truy vấn đối tượng “a” B; C: số lượng phần tử B thơng tin, rút trích thơng tin, hệ thống hỏi đáp phương pháp hướng đến tri thức Các thành phần ontology bao gồm: Khái niệm (concepts), Đối tượng Tuy nhiên để giải toán phân lớp CDO, luận án đề nghị cơng thức tính độ lợi sau: (instances), Thuộc tính (attributes), Quan hệ (relations) 4.2 IG(a|Ci) = E (X|Ci) – E(a) (4.4) Trong đó: Giới thiệu số ontology liên quan đến Tin học Computing Ontology Được xây dựng nhóm thuộc tổ chức ACM vào năm 2005 nhằm biểu diễn IG(a|Ci): độ lợi “a” chủ đề Ci E(X|Ci): Entropy tất tri thức liên quan đến Tin học Computing ontology bao gồm nhiều chủ đề đối tượng (X) chủ đề Ci sau xóa “a” khỏi tập Ci chủ đề liên quan đến Khoa học máy tính Một số thuộc tính định Giải thuật 4.3 xây dựng làm giàu CDO từ tập thư viện điện tử ACM nghĩa ontology như: Is a, Used, Used by, Is part of Wikipedia SwetoDblp Ontology Giải thuật 4.3 Xây dựng CDO từ tập thư viện điện tử ACM Wikipedia Đầu vào: Các tập tin văn gom nhóm theo chủ đề/XML Đầu ra: CDO.Ingredient – Lớp thành phần thuộc CDO Sentences[] ;Temp[] ; Object[] /* Lưu trữ tạm đối tượng để tính tốn */ SwetoDblp Ontology xây dựng nhóm nghiên cứu thuộc khoa Khoa học Máy tính Đại học Georgia 4.3 Xây dựng làm giàu ontology chuyên biệt miền Tin học (CDO) Ontology chuyên biệt miền Tin học luận án gọi Computing Buffer[] Loop until khơng cịn tập tin văn gom nhóm theo chủ đề hay XML Domain Ontology (CDO) bao gồm bốn tầng với 170 lớp chủ đề khác liên Buffer[]ReadFile(XML/van_ban) /* Đọc tập tin văn / XML */ quan đến lĩnh vực Tin học Quá trình xây dựng làm giàu ontology miền Topic getTopic(XML/Van_ban) /* Lấy tên chủ đề */ Tin học bao gồm bước sau Loop until tập tin khơng cịn nội dung /* Dùng OpenNLP để nhận dạng rút trích câu đưa vào mảng để xử lý */ Bước 1: Xây dựng lớp Chủ đề Nhằm phục vụ cho toán xác định chủ đề; tăng hiệu truy xuất thông tin; cho phép thêm bớt chủ đề CDO Sentences[] Extract_Sentence(Buffer[]) 12 Bước 2: Xây dựng lớp thành phần Bao gồm từ, cụm từ liên quan đến phần CDO rút trích từ tập tin văn thuộc tập thư viện điện tử lĩnh vực Tin học phải thuộc hay nhiều chủ đề lớp Chủ đề; ACM hay từ Wikipedia Bên cạnh cịn bao gồm số quan hệ cú Bước 3: Xây dựng lớp Synset, bao gồm quan hệ đồng nghĩa, thượng danh, hạ danh cách liên kết synset WordNet với đối Định nghĩa 4.3 Quan hệ ngữ nghĩa biểu diễn mối quan hệ mặt ngữ nghĩa tượng thuộc lớp Thành phần CDO; từ hay cụm từ, chúng bổ sung cho để làm rõ nghĩa khái niệm Bước 4: Xây dựng lớp câu, bao gồm câu thể mối quan hệ ngữ nghĩa, cú pháp khái niệm, đối tượng thuộc lớp Thành phần; 4.3.1 pháp với đối tượng thuộc lớp Thành phần CDO Bước – Xây dựng lớp Chủ đề (Topic layer) Để xây dựng cấu trúc phân cấp bao gồm nhiều chủ đề khác hay vấn đề Một số quan hệ ngữ nghĩa thường gặp lĩnh vực truy xuất rút trích thơng tin quan hệ đồng nghĩa, thượng danh, hạ danh Định nghĩa 4.4 Quan hệ cú pháp thể mối quan hệ mặt cú pháp đối tượng hay từ câu lĩnh vực Tin học, luận án dùng cấu trúc phân loại chủ đề ACM Trong Để xác định mối quan hệ cú pháp đối tượng hay từ câu, trình xây dựng lớp chủ đề, luận án xây dựng số định nghĩa sau luận án sử dụng công cụ Stanford Lexical Dependency Parser (SLDP) Định nghĩa 4.1 - Lớp chủ đề: Gọi c chủ đề CDO, c bao gồm Các bước trung gian trình xây dựng làm giàu CDO n phần tử, phần tử danh từ, cụm danh từ hay quan hệ ngữ Tiền xử lý nghĩa phần tử liên quan đến chủ đề Ta có c= {x1, x2,…,xn} xi phần tử chủ đề Các công việc giai đoạn tiền xử lý bao gồm: loại bỏ stopword, chuyển toàn nội dung văn sang chữ thường, nhận dạng câu, gán nhãn từ loại Định nghĩa 4.2 - Phân cấp chủ đề: Gọi C= {c1,c2,…, cn} tập chủ đề có CDO, ci chủ đề C Cho cm chủ đề cn , Phân tích từ vựng cú pháp câu ci cm ci cn Ta có cm cn ci cm ci cn Để phân tích cú pháp từ vựng câu, tiến hành gán nhãn từ loại 4.3.2 câu, luận án sử dụng cơng cụ SLDP SLDP phân tích cú pháp cho văn Bước – Xây dựng lớp Thành phần (Ingredient layer) Lớp bao gồm đối tượng danh từ, cụm danh từ thuộc lĩnh vực Tin học rút trích từ nguồn ngữ liệu khác 4.3.3 Bước – Xây dựng lớp Synset (Synset layer) phạm tiếng Anh trường Đại học Stanford, thể mối quan hệ văn phạm từ câu Rút trích mối quan hệ từ câu Lớp bao gồm quan hệ đồng nghĩa, thượng danh hạ danh với đối Để nhận dạng mối quan hệ từ câu bao gồm quan hệ ngữ tượng thuộc lớp thành phần CDO rút trích từ WordNet nghĩa cú pháp câu, luận án sử dụng công cụ SLDP Như phân 4.3.4 Bước – Xây dựng lớp Câu (Sentence layer) tích ngồi chức phân tích cú pháp, SLDP thể mối quan hệ văn phạm từ cụm từ câu Lớp bao gồm quan hệ ngữ nghĩa IS-A, PART-OF, INCLUDE, MADE-OF, ATTRIBUTE-OF, RESULT-OF với đối tượng thuộc lớp thành 10 Độ lợi (Information Gain) 11 ... Mơ hình rút trích thơng tin luận án đề xuất Để xây dựng mơ hình rút trích thơng tin theo chủ đề miền chuyên biệt (Tin học), khắc phục hạn chế cơng trình nghiên cứu trước đây, luận án cần giải... CHƯƠNG XÂY DỰNG MƠ HÌNH RÚT TRÍCH THƠNG TIN THEO CHỦ ĐỀ TRONG MIỀN CHUN BIỆT (TIN HỌC) 3.1 Giới thiệu Một hệ thống rút trích thơng tin thường bao gồm phần sau 5.1 Các mơ hình xác định chủ đề câu... tiêu phạm vi nghiên cứu Bảng 5.3 Kết xác định chủ đề dạng câu truy vấn khác Mục tiêu luận án xây dựng mơ hình rút trích thơng tin văn theo chủ đề miền chuyên biệt (Tin học) nhằm khắc phục hạn