Xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (tin học) (tóm tắt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	30
Dung lượng	170,65 KB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TẠ DUY CÔNG CHIẾN XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2016 Công trình hoàn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn khoa học 1: GS.TS PHAN THỊ TƯƠI Người hướng dẫn khoa học 2: Phản biện độc lập 1: Phản biện độc lập 2: Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ Tạp chí [CT1] [CT2] [CT3] [CT4] Chien Ta Duy Cong, Tuoi Phan Thi, “Building Ontology Basedon Heterogeneous Data”, Journal of Computer Science and Cybernetics, vol 31, no.2 , 2015, ISSN: 1813-9663 Chien Ta Duy Cong, Tuoi Phan Thi, Thanh Nguyen Chanh, “A Subject-Oriented Ontology Development for Information Retrieval Application”, Journal on Information and Communications, vol E3, no.8(12), 2015, ISSN: 1859-3534 Chien Ta Duy Cong, Tuoi Phan Thi, “An Information Extraction Approach for Building Vocabulary and Domain Specific Ontology in Information Technology”, Journal on Information and Communications, vol E-3, no.7(11), 2014, ISSN: 1859-3534 Chien Ta Duy Cong, Tuoi Phan Thi, “Information Extraction from Heterogeneous Sources Based on Domain Specific Ontology”, Journal of Science and Technology, vol 52, issue 4A, 2014 Hội nghị khoa học [CT5] [CT6] [CT7] [CT8] [CT9] Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying The Queries’ Topic Based- On Computing Domain Ontology”, In Proc of the 2nd International Conference on Computing, Management and Telecommunications (ComManTel 2015), IEEE, Dec 2015, Danang, Vietnam Chien Ta Duy Cong, Tuoi Phan Thi, “ An Approach for Searching Semantic-based Keywords over Relational Database”, In Proc of the 6nd International Conference on Information and Communication Technology (SoICT 2015), ACM, Dec 2015, Hue, Vietnam, ACM ISBN 978-1-4503-3843-1 Chien Ta Duy Cong, Tuoi Phan Thi, “Automatic Evaluation of The Computing Domain Ontology”, In Proc of the nd International Conference on Future Data and Security Engineering (FDSE 2015), Springer Verlag, LNCS, vol 9446, Nov 2015, HoChiMinh City, Vietnam, ISBN 978-3-319-26134-8 Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Algorithm for Mapping of OWL to Relational Database Schema”, In Proc of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015), Springer-Verlag, LNCS, vol 9166, July 2015, Hamburg, Germany, ISBN 978-3-319-21023-0 Chien Ta Duy Cong, Tuoi Phan Thi, “Identifying Semantic and [CT10 ] [CT11] [CT12 ] syntactic relation from text documents “, In Proc of the 11th IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF 2015), Jan 2015, CanTho, Vietnam, ISBN (Print): 978-1-4799-8043-7, ISBN (Xplore compliant: 978-1-4799-8044-4 Chien Ta Duy Cong, Tuoi Phan Thi, “Building Information Extraction System Based on Computing Domain Ontology”, In Proc of the 16th International Conference on Information Integration and Web-based Applications & Services (iiWAS 2014), IEEE, ACM, Dec 2014, Hanoi, Vietnam, ACM ISBN: 978-1-45033001-5 Chien Ta Duy Cong, Tuoi Phan Thi, “Building and Enriching Computing Domain Ontology”, In Proc of the Third ASIAN conference On Information Systems (ACIS), Dec 2014, NhaTrang, Vietnam, ISBN: 978-4-88686-089-7 Chien Ta Duy Cong, Tuoi Phan Thi, “Improving the Formal Concept Analysis Algorithm to Construct Domain Ontology”, In Proc of the fifth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, Sep 2012, Danang, Vietnam, ISBN 978-1-4673-2171-6 CHƯƠNG 1.1 GIỚI THIỆU Động nghiên cứu Bài toán rút trích thông tin áp dụng nhiều thực tiễn từ hệ thống rút trích thông tin miền chuyên biệt Sinh học, Y học, phòng chống tội phạm hệ thống phục vụ việc học tập, giảng dạy (ELearning) Từ nghiên cứu phân tích công trình khoa học rút trích thông tin miền chuyên biệt dựa vào ontology giới, tác giả nhận thấy tồn số hạn chế sau − Các hệ thống rút trích thông tin áp dụng nhiều giải thuật khác liên quan đến Xử lý ngôn ngữ tự nhiên, Học máy, Xác suất thông kê, nhiên chưa có giải thuật mang lại hiệu cao rút trích thông tin − Khi xử lý câu truy vấn hệ thống rút trích thông tin hay hệ thống hỏi đáp, phải cần thời gian thay từ viết tắt câu truy vấn có từ hay cụm từ viết tắt Một số phương pháp sử dụng dùng từ điển, WordNet − Chưa sử dụng phân tích cú pháp phù hợp nên không cung cấp mối quan hệ phụ thuộc từ câu, dẫn đến trình xử lý ngữ nghĩa câu gặp nhiều khó khăn − Sự phân lớp ontology đơn giản; số lớp khái niệm nên ontology chưa hỗ trợ rút trích thông tin cho nhiều vấn đề khác lĩnh vực, ví dụ ontology lĩnh vực Xây dựng bao gồm ba chủ đề − Các quan hệ ngữ nghĩa đối tượng ontology bao gồm quan hệ nhị phân R(C i, Cj), quan hệ IS-A, bao gồm hai quan hệ ngữ nghĩa IS-A, PART-OF 1.2 Mục tiêu phạm vi nghiên cứu Mục tiêu luận án xây dựng mô hình rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) nhằm khắc phục hạn chế số công trình nghiên cứu nêu thực cải tiến sau: i Ontology miền chuyên biệt Tin học (Computing Domain Ontology - CDO) luận án đề xuất có 170 lớp chủ đề khác nhau, lớp có nhiều lớp con, với triệu đối tượng thuộc lớp khác nhau, đáp ứng yêu cầu rút trích thông tin thuộc nhiều chủ đề Tin học ii Các quan hệ ngữ nghĩa đối tượng thuộc CDO ISA, PART-OF mà mở rộng thêm quan hệ: INCLUDE, MADE-OF, quan hệ thượng danh, hạ danh đồng nghĩa, để bổ sung ngữ nghĩa cho đối tượng liên quan đến lĩnh vực Tin học Qua thông tin rút trích giàu tính ngữ nghĩa Quan hệ ngữ nghĩa CDO không quan hệ nhị phân mà quan hệ nhiều hai đối tượng, biểu diễn R (C1, …, Ci) với i ≥ iii Ngoài CDO có quan hệ đồng nghĩa nên tránh giai đoạn thay từ viết tắt câu truy vấn người dùng có xuất hiện, tiết kiệm thời gian truy xuất thông tin iv Việc xác định chủ đề dựa CDO trình rút trích thông tin cho người dùng thực lớp chủ đề CDO, nên tránh nhập nhằng chủ đề rút trích thông tin 1.3 Các kết quả đạt được luận án 1) Kết quả thứ nhất: Đề xuất mô hình cho việc xây dựng làm giàu Computing Domain Ontology (CDO) Công bố công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11] [CT12] 2) Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa ontology có xét đến quan hệ ngữ nghĩa từ câu Công bố công trình [CT5] 3) Kết quả thứ ba: Xác định rút trích mối quan hệ ngữ nghĩa cú pháp tập tin văn thuộc ACM Digital Library từ nguồn tài nguyên có sẵn Wikipedia, WordNet Công bố công trình [CT9] 4) Kết quả thứ tư: Đề xuất mô hình hỏi đáp, rút trích thông tin dựa từ khóa, chủ đề câu hỏi từ CDO Công bố công trình [CT6], [CT8], [CT10] 1.4 Cấu trúc luận án Luận án chia thành chương, phần tổng kết phụ lục Chương trình bày mục tiêu, phạm vi đóng góp luận án; giới thiệu cấu trúc luận án Chương trình bày nghiên cứu nước nước liên quan đến vấn đề mà luận án quan tâm Chương trình bày mô hình lý thuyết liên quan đến việc xây dựng rút trích thông tin miền chuyên biệt Chương trình bày mô hình, giải thuật liên quan đến việc xây dựng làm giàu ontology miền chuyên biệt Tin học Nội dung công bố công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], [CT11], [CT12] Chương trình bày mô hình giải thuật xác định chủ đề câu truy vấn từ người dùng Nội dung công bố công trình [CT5] Chương trình bày hệ thống rút trích thông tin trả lời câu truy vấn từ người dùng Nội dung công bố công trình [CT6], [CT8], [CT10] Tổng kết trình bày kết đạt luận án dự định nghiên cứu tương lai luận án Các kết luận án công bố công trình [CT2], [CT7], [CT8], [CT9] [CT10] Hai phụ lục liên quan đến kết thực nghiệm mà luận án đạt CHƯƠNG 2.1 CÁC NGHIÊN CỨU LIÊN QUAN Giới thiệu Mục tiêu luận án xây dựng làm giàu ontology miền Tin học bao gồm nhiều chủ đề khác dựa nguồn ngữ liệu văn Sau luận án xây dựng hệ thống rút trích thông tin dựa ontology để trả lời câu truy vấn 2.2 Các nghiên cứu xây dựng Ontology Công trình Vo Xuan Vinh, đề xuất phương pháp xây dụng ontology chuyên biệt dựa đồ thị nhúng (Graph-embedded Tree – GeT) Công trình Thinh D Bui nghiên cứu xây dựng ontology LKIF (Legal Knowledge Interchange Format) miền chuyên biệt liên quan đến luật pháp Việt Nam Công trình Nguyen Chanh Thanh nghiên cứu, phát triển cấu trúc chế làm giàu ontology OOMP (Ontology of Object-MemberProperty) Công trình P Luksch đề xuất phương pháp cải tiến việc xây dựng ontology từ văn cách sử dụng liệu liên kết từ nhiều nguồn khác như: DBpedia, Yago, Freebase, UMBEL 2.3 Các công trình liên quan đến rút trích liệu dựa ontology Công trình Lame cộng giới thiệu phương pháp xác định thành phần ontology dựa vào tập tin văn để rút trích khái niệm mối quan hệ chúng để xây dựng ontology chuyên dụng lĩnh vực luật pháp phục vụ cho toán truy xuất thông tin Công trình S.Peroni đề xuất giải pháp nhận dạng khái niệm ontology Công trình E Chieze L Zhang xây dựng mô hình tự động rút trích thông tin tóm lược văn dựa ontology Công trình R.J Kate giới thiệu hệ thống PAPITS Hệ thống tiến hành phân loại chủ đề sử dụng kỹ thuật độ lợi (Information Gain) kết hợp với phương pháp thống kê để nhận dạng Công trình Y Xiudan đề xuất xây dựng hệ thống rút trích thông tin dựa ontology chuyên biệt liên quan đến sản phẩm mua bán Internet CHƯƠNG XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) 3.1 Giới thiệu Một hệ thống rút trích thông tin thường bao gồm phần sau − Nhận dạng phân loại thực thể − Xác định mối quan hệ thành phần câu − Chọn lọc thông tin sau rút trích 3.2 Giới thiệu số mô hình rút trích thông tin  Mô hình rút trích thông tin từ trang Web C Feilmayr cộng trình bày mô hình rút trích ICT, 2010 Trong mô hình này, hệ thống rút trích gồm có ba mô-đun là: mô-đun gọi web crawler, mô-đun có chức nhận dạng token, câu tách câu trang web, mô-đun hiển thị kết rút trích cho người dùng theo định dạng HTML hay XML  Mô hình rút trích thông tin từ văn Công trình S Jonnalagadda cộng xây dựng hệ thống rút trích thông tin từ hồ sơ bệnh án miền chuyên biệt Y khoa Công trình Batcha đề xuất mô hình rút trích thông tin miền chuyên biệt Một mô hình rút trích thông tin khác dựa ontology miền chuyên biệt bóng đá P Buitelaar cộng xây dựng 3.3 Mô hình rút trích thông tin luận án đề xuất Để xây dựng mô hình rút trích thông tin theo chủ đề miền chuyên biệt (Tin học), khắc phục hạn chế công trình nghiên cứu trước đây, luận án cần giải công việc − Nhận dạng từ, cụm từ đặc trưng xác định tính đắn chúng để xây dựng làm giàu ontology 10 4.3.3 Bước – Xây dựng lớp Synset (Synset layer) Lớp bao gồm quan hệ đồng nghĩa, thượng danh hạ danh với đối tượng thuộc lớp thành phần CDO rút trích từ WordNet 4.3.4 Bước – Xây dựng lớp Câu (Sentence layer) Lớp bao gồm quan hệ ngữ nghĩa IS-A, PART-OF, INCLUDE, MADE-OF, ATTRIBUTE-OF, RESULT-OF với đối tượng thuộc lớp thành phần CDO rút trích từ tập tin văn thuộc tập thư viện điện tử ACM hay từ Wikipedia Bên cạnh bao gồm số quan hệ cú pháp với đối tượng thuộc lớp Thành phần CDO Định nghĩa 4.3 Quan hệ ngữ nghĩa biểu diễn mối quan hệ mặt ngữ nghĩa từ hay cụm từ, chúng bổ sung cho để làm rõ nghĩa khái niệm hay vấn đề Một số quan hệ ngữ nghĩa thường gặp lĩnh vực truy xuất rút trích thông tin quan hệ đồng nghĩa, thượng danh, hạ danh Định nghĩa 4.4 Quan hệ cú pháp thể mối quan hệ mặt cú pháp đối tượng hay từ câu Để xác định mối quan hệ cú pháp đối tượng hay từ câu, luận án sử dụng công cụ Stanford Lexical Dependency Parser (SLDP) Các bước trung gian trình xây dựng làm giàu CDO  Tiền xử lý Các công việc giai đoạn tiền xử lý bao gồm: loại bỏ stopword, chuyển toàn nội dung văn sang chữ thường, nhận dạng câu, gán nhãn từ loại  Phân tích từ vựng cú pháp câu Để phân tích cú pháp từ vựng câu, tiến hành gán nhãn từ loại câu, luận án sử dụng công cụ SLDP SLDP phân tích cú pháp cho văn phạm tiếng Anh trường Đại học Stanford, thể mối quan hệ văn phạm từ câu 16  Rút trích mối quan hệ từ câu Để nhận dạng mối quan hệ từ câu bao gồm quan hệ ngữ nghĩa cú pháp câu, luận án sử dụng công cụ SLDP Như phân tích chức phân tích cú pháp, SLDP thể mối quan hệ văn phạm từ cụm từ câu  Độ lợi (Information Gain) Tương tự TF-IDF, độ lợi tiêu chí để đánh giá tần suất xuất đối tượng chủ đề Độ lợi tính theo công thức sau: IG(a) = E (B – a) – E (a) E(a) = (4.2) (4.3) Trong E(a): Entropy đối tượng “a” B ; E (B – a): Entropy tất đối tượng B sau xóa “a” B; P j: Xác xuất phân bố đối tượng “a” B; C: số lượng phần tử B Tuy nhiên để giải toán phân lớp CDO, luận án đề nghị công thức tính độ lợi sau: IG(a|Ci) = E (X|Ci) – E(a) (4.4) Trong đó: IG(a|Ci): độ lợi “a” chủ đề C i E(X|Ci): Entropy tất đối tượng (X) chủ đề Ci sau xóa “a” khỏi tập Ci Giải thuật 4.3 xây dựng làm giàu CDO từ tập thư viện điện tử ACM Wikipedia Giải thuật 4.3 Xây dựng CDO từ tập thư viện điện tử ACM Wikipedia Đầu vào: Các tập tin văn gom nhóm theo chủ đề/XML Đầu ra: CDO.Ingredient – Lớp thành phần thuộc CDO Sentences[] ∅ ;Temp[]  ∅ ; Object[]  ∅ /* Lưu trữ tạm đối tượng để tính toán */ 17 Buffer[]  ∅ Loop until không tập tin văn gom nhóm theo chủ đề hay XML Buffer[]ReadFile(XML/van_ban) /* Đọc tập tin văn / XML */ Topic  getTopic(XML/Van_ban) /* Lấy tên chủ đề */ Loop until tập tin không nội dung /* Dùng OpenNLP để nhận dạng rút trích câu đưa vào mảng để xử lý */ Sentences[]  Extract_Sentence(Buffer[]) End Loop For each câu C mảng Senteces[] C= Remove(StopWord) /*Loại bỏ StopWord ví dụ a, an, the,.*/ OpenNLP gán nhãn từ loại cho câu C End For /* Rút trích danh từ (có nhãn NN) cụm danh từ (có nhãn NP, NNP) C */ For each danh_từ/Cụm_danh_từ C WordN  danh_từ/cụm_danh_từ Temp[]  WordN /* Lưu trữ đối tượng mảng tạm để xử lý rút trích câu */ For each câu C mảng Sentences[] Tính số lần xuất WordN End For Object[]  WordN, số lần xuất xuất WordN End For Extract_Sentence(C,temp[]) /*Rút trích quan hệ ngữ nghĩa câu C */ /* Thêm phần tử từ Object[] vào lớp thành phần */ SearchTopic(CDO.Topic=Topic) /* Tìm chủ đề lớp topic CDO */ For each phần tử O thuộc mảng Object[] If (O chưa tồn lớp chủ đề này) then CDO.Ingredient  O /* thêm O vào lớp thành phần */ End if End For 18 Sentences[]  ∅ Object[]  ∅ End Loop 4.4 Biểu diễn lưu trữ CDO Luận án áp dụng giải thuật E Vysniauskas để chuyển đổi từ OWL sang RDBMS (Relational database management system) Theo giải thuật E Vysniauskas Mỗi lớp (class) lớp (sub class) OWL chuyển thành bảng (table) RDBMS; Tạo quan hệ 1-1 bảng (sub class) bảng cha (parent class); Thuộc tính đối tượng (Object properties) ontology chuyển qua RDBMS, tùy thuộc vào quan hệ lớp mà xuất quan hệ 1:n hay n:n bảng RDBMS, n:n xuất bảng trung gian RDBMS; Các thuộc tính kiểu liệu (Datatype properties) có ánh xạ thành cột (columns) RDBMS; Các ràng buộc ontology (Ontology constraints) có ánh xạ thành bảng siêu liệu (metadata tables) Luận án áp dụng giải thuật E.Vysniauskas với số cải tiến sau Tất lớp ánh xạ thành bảng RDBMS (Categories); Mối quan hệ lớp lớp cha thể qua thuộc tính Belong_to vị trí lớp cha; Các đối tượng (individual) ánh xạ thành bảng RDBMS (Ingredient); Đối với thuộc tính đối tượng, tùy thuộc vào đặc điểm thuộc tinh mà ánh xạ thành bảng riêng biệt RDBMS Ví dụ thuộc tính đồng nghĩa, thượng danh, hạ danh ánh xạ thành bảng riêng biệt RDBMS; Các quan hệ ngữ nghĩa khác ánh xạ thành bảng Sentence RDBMS Kết quả đạt được 19 Từ 170 bảng rút gọn thành bảng; đảm bảo thứ tự phân cấp lớp; đảm bảo quan hệ ngữ nghĩa đối tượng lớp khác nhau; Tính hiệu quả Giảm không gian lưu trữ RDBMS; thời gian truy xuất liệu nhanh xác định chủ đề câu truy vấn (trung bình 15ms – 17ms) so với sử dụng OWL để biểu diễn CDO 4.5 Kết quả thực nghiệm đánh giá CDO  Xây dựng làm giàu ontology − Trong lớp Chủ đề có 170 chủ đề phân thành lớp khác thuộc lĩnh vực Tin học − Trong lớp Thành phần có 407.250 đối tượng thuộc chủ đề khác Chi tiết thể bảng 4.4 Bảng 4.4 Tỷ lệ đối tượng rút trích từ nguồn tài nguyên Wikipedia Số lượng đối tượng 17.910 (4,5%) WordNet 342.000 (83,98%) Babelnet 47.340 (11,62%) Trong lớp Synset có 701.200 đối tượng, quan hệ đồng nghĩa có tổng cộng 200.400 đối tượng; quan hệ thượng danh có tổng cộng 270.750 đối tượng; quan hệ hạ danh có tổng cộng 230.250 đối tượng; lớp câu có tổng cộng 306.500 câu − Đánh giá kết xây dựng làm giàu CDO Kết thực nghiệm đánh giá thông qua ba độ đo: độ xác (Precision-P), độ truy hồi (Recall-R), trung bình điều hòa F (F-Measurre) (4.4) (4.5) (4.6) 20 Trong đó: Ci: biểu diễn cho chủ đề thứ i thuộc lớp Thành phần CDO; Correct (Ci): số đối tượng xác chủ đề thứ i; Wrong (C i): số đối tượng sai chủ đề thứ i; Missing (Ci): số đối tượng chủ đề thứ i Để nhận dạng đối tượng sai (wrong) hay (missing), luận án sử dụng ba cách: thứ dùng hai từ điển, IBM (liên quan nhiều đến chủ đề hardware) lại Microsoft (liên quan nhiều chủ đề software); thứ hai sử dụng phương pháp xác suất thống kê thứ ba dùng công cụ AIChemyAPI Nội dung liên quan công bố [CT7] CHƯƠNG 5.1 XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN Các mô hình xác định chủ đề câu truy vấn Đề cập Hui Yang đưa giải thuật gọi Belief Augmented Frames (BAF) để phân loại văn theo chủ đề G.Ercan cộng thuộc khoa Máy tính trường Đại học Bikent đề xuất mô hình rút trích từ khóa dựa chuỗi từ vựng K Wen cộng xây dựng hệ thống Smartch cho phép người dùng truy tìm từ khóa, khái niệm mối quan hệ khái niệm dựa ontology miền chuyên biệt 5.2 Rút trích từ, cụm từ đặc trưng để xác định chủ đề câu truy vấn Để xác định chủ đề câu truy vấn, luận án sử dụng công cụ xử lý ngôn ngữ tự nhiên OpenNLP SLDP Công cụ AIchemyAPI dùng để so sánh kết rút trích từ đặc trưng Mô hình đề xuất, có ba mô-đun sau − Bộ phân tích câu truy vấn Mô-đun có chức tách câu, phân tích câu truy vấn, thực gán nhãn từ loại (POS-Tag) cho từ, cho câu, xác định từ, cụm từ đặc trưng − Xác định từ khóa quan hệ ngữ nghĩa Từ phụ thuộc câu SLDP tạo ra, mô-đun xác định từ khóa đặc trưng, mối quan hệ ngữ nghĩa từ câu truy vấn giúp cho việc xác định chủ đề câu xác 21 − So trùng ontology Mô-đun tiến hành so trùng từ, cụm từ khóa với đối tượng thuộc lớp Thành phần CDO, để xác định chủ đề câu truy vấn Giải thuật rút trích từ, cụm từ đặc trưng để xác định chủ đề câu truy vấn thể giải thuật 5.1 Giải thuật 5.1 Rút trích từ/cụm từ đặc trưng từ quan hệ phụ thuộc Đầu vào: T[] – Tập quan hệ phụ thuộc tạo công cụ SLDP Đầu ra: D[] – Tập từ/cụm từ khóa For each i ∈ T[] If (T[i] ∉ D[]) then /* Nếu D[] chưa có từ khóa T[i] */ If (T[i] quan hệ chủ ngữ câu) then /* Có quan hệ phụ thuộc nsubj, csubj, nsubjpass */ D[]  T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ else /* Câu chủ ngữ */ If (T[i] quan hệ danh từ/cụm danh từ câu) /* Có quan hệ phụ thuộc nn, dobj, idobj */ D[]  T[i] /* Lưu nội dung, nhãn, vai trò T[i] câu */ End if; End if ; End if For each j ∈ T[] If(T[i] ≠ T[j] T[i] có quan hệ phụ thuộc với T[j]) then If (T[j] ∉ D[]) then /* Nếu D[] chưa có từ khóa T[j] */ D[]  T[j] /* Lưu nội dung, nhãn, vai trò T[j] câu */ End if; End If End For End For Return D[] 22 Ví dụ: Cho câu truy vấn nhập vào: “Robot is told a lot in this conference” − Dùng OpenNLP phân tích xác định câu câu đơn − Cây phụ thuộc câu ví dụ mô tả qua hình 5.9 Hình 5.9 Cây phụ thuộc SLDP tạo cho ví dụ − Tập từ khóa dự tuyển chọn dựa vào phụ thuộc hình 5.1 là: “Robot” “a lot” Khi hệ thống tiến hành so trùng tập dự tuyển từ khóa “Robot’ tương ứng với hai chủ đề CDO là: − Artificial Intelligent (độ lợi IG : 0.63) − Information system (độ lợi IG: 0.48) 5.3 Kết quả thực nghiệm đánh giá − Thực nghiệm Luận án tiến hành thực nghiệm hai nguồn ngữ liệu khác nhau: − 900 tập tin văn bao gồm phần tóm tắt (abstract) lấy từ tập thư viện điện tử ACM, chủ đề bao gồm 50 tập tin khác − 320 câu truy vấn ngẫu nhiên người dùng nhập vào thuộc chủ đề khác Kết đánh giá thực nghiệm tập văn gồm phần tóm tắt thể bảng 5.2 (xem thêm luận án) Bảng 5.3 kết đánh giá 320 câu truy vấn nhập vào người dùng Bảng 5.2 Kết đánh giá việc xác định chủ đề tập văn 23 ST Tên Chủ Đề T Độ Độ xác truy Độ hồi bình điều hòa trung Assembly language 94,03% 56,62% 70,68% Software architecture 97,52% 62,81% 76,41% Image display 91,04% 63,26% 74,65% Database system 96,91% 76,63% 85,59% Bảng 5.3 Kết xác định chủ đề dạng câu truy vấn khác danh Câu đơn có chủ ngữ + vị ngữ Câu đơn có chủ ngữ + vị ngữ + bổ ngữ Các dạng khác Số lượng câu truy vấn nhập 80 80 80 80 Kết xác định chủ đề 98% 92% 87% 72% Dạng câu Thông số − Cụm từ So sánh với công cụ khác (AIchemyAPI) Kết thực nghiệm tiến hành 100 tập tin văn có phần tóm tắt lấy từ thư viện điện tử ACM dựa hai chủ đề Trí tuệ nhân tạo (AI) Hệ điều hành (OS) Việc đánh giá dựa tiêu chí: độ xác, độ truy hồi trung bình điều hòa Bảng 5.4 5.5 thể kết sử dụng công cụ AIchemyAPI áp dụng mô hình mà luận án đề xuất Bảng 5.4 Kết đánh giá sử dụng AIchemyAPI tập ngữ liệu ACM Chủ đề Độ xác (%) Độ truy hồi (%) Trung bình điều hòa (%) AI 88,92 85,61 87,24 OS 81,14 74,21 24 77,53 Bảng 5.5 Kết áp dụng mô hình luận án đề xuất tập ngữ liệu ACM Chủ đề Độ xác (%) Độ truy (%) hồi Trung bình điều hòa (%) AI 97,03 88,62 92,64 OS 84,47 81,37 82,90 Dựa vào kết thể bảng 5.3 bảng 5.4, cho thấy việc rút trích từ, cụm từ đặc trưng theo mô hình mà luận án đề xuất cho kết cao so với việc sử dụng công cụ AIchemyAPI 25 CHƯƠNG 6.1 RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ Mô hình rút trích thông tin theo chủ đề  Rút trích thông tin từ nguồn tài nguyên khác Đã trình bày chương  Rút trích thông tin dựa CDO phục vụ câu truy vấn Bao gồm thành phần sau: nhập câu truy vấn; nhận dạng câu; phân tích câu; nhận dạng từ khóa xác định chủ đề câu truy vấn; tìm kiếm rút trích thông tin theo chủ đề câu truy vấn dựa ontology  Mô hình ánh xạ câu truy vấn sang dạng biểu diễn ngôn ngữ trung gian Định nghĩa 6.1 – Tập từ vựng sở liệu: Cho sở liệu D hệ sở liệu quan hệ, D tập hợp bảng có quan hệ với Một bảng ký hiệu R(A1, A2, A3,…, An), R tên bảng, A 1, A2,…, An cột bảng R, X mẩu tin R, tập từ vựng tồn sở liệu ký hiệu V D, ta có VD = {X | ∃ R(A1, A2, A3,…, An) ∈ D} Nói cách khác tập từ vựng sở liệu D tập hợp bao gồm quan hệ, thuộc tính Định nghĩa 6.2 – Câu thông dịch: Một câu thông dịch F tương ứng với danh sách từ khóa K = {k1, k2, …, kn} sở liệu D câu lệnh truy vấn dạng select như: “Select column 1, column2, … columnn from table1 JOIN table2 on table1.key=table2.key where column1=k1 and column2=k2, … and columnn=kn”, K danh sách từ khóa xếp theo thứ tự ưu tiên k1, k2, …, kn từ khóa rút trích từ câu truy vấn ban đầu Q, sau loại bỏ từ không cần thiết câu truy vấn Giải thuật 6.1 Giải thuật ánh xạ từ, cụm từ khóa vào bảng CDO Đầu vào: Danh sách từ/cụm từ khóa xếp thứ tự theo trật tự từ câu từ giải thuật 5.1 chương 26 Đầu ra: ngôn ngữ trung gian ánh xạ từ/cụm từ khóa tương ứng với thuộc tính quan hệ Command  ∅ /* Câu lệnh biểu diễn ngôn ngữ trung gian */ For each keyword ki danh sách từ/cụm từ khóa If ki abbreviation, then /* Từ viết tắt */ /* Truy vấn bảng Synonym tìm đối tượng ki */ Command  Select Synonym where Synonym.content=ki else If ki có hay nhiều giới từ i=1 then /* Truy vấn bảng Sentence tìm đối tượng ki */ Command  Select Sentence where Sentence.content=ki else If i=1 then /* Truy vấn bảng Ingredient tìm đối tượng ki */ Command  Select Ingredient where Ingredient.content=ki else /* Truy vấn bảng Sentence tìm đối tượng ki */ Command  Select Sentence where Sentence.content=ki End if ; End if ; End If End for Return Command Để đánh giá kết mô hình ánh xạ từ khóa sang dạng biểu diễn trung gian câu truy vấn, luận án sử dụng 320 câu truy vấn nhập vào từ người dùng thuộc nhiều chủ đề với dạng câu truy vấn khác Kết đánh giá dựa vào thông tin rút trích từ CDO Tỷ lệ rút trích thông tin thành công dựa vào ontology cho 320 câu truy vấn với nhiều chủ đề dạng câu khác thể hình 6.6 21 27 Hình 6.6 Tỷ lệ rút trích thông tin thành công dựa vào CDO dựa vào dạng biểu diễn trung gian câu truy vấn 6.2 Phương pháp xử lý mô hình rút trích thông tin theo chủ đề Luận án lấy số ví dụ để minh họa phương pháp xử lý hệ thống rút trích thông tin theo chủ đề cho câu truy vấn Ví dụ: Người dùng nhập vào cụm từ truy vấn “oracle databse”, hệ thống thực bước Bước 1: OpenNLP nhận dạng câu tách câu Truy vấn ví dụ cụm từ nên OpenNLP trả cụm từ giống với ban đầu “oracle databse” Bước 2: Phân tích câu SLDP SLDP thực gán nhãn từ, cụm từ, phân tích mối quan hệ cú pháp ngữ nghĩa từ câu SLDP trả kết phụ thuộc từ câu, thể hình 6.7 Hình 6.7 Cây phụ thuộc cho cụm từ “oracle database” Bước 3: Nhận dạng từ khóa mối quan hệ ngữ nghĩa câu thông qua giải thuật 5.1 22 Dựa vào phụ thuộc hình 6.7 mối quan hệ cú pháp từ, trường hợp hệ thống xác định tập từ khóa bao gồm “oracle” “database” Bước 4: Xác định chủ đề câu truy vấn 28 Áp dụng giải thuật 5.2 (trình bày luận án), với tập từ khóa bước 3, hệ thống trả danh sách chủ đề bao gồm: Relational database, Software Engineering, Computer System Organization Dựa vào giá trị “Độ lợi”, hệ thống chọn chủ đề “Relational Database’ có giá trị cao Bước 5: Rút trích thông tin dựa vào CDO Dựa vào tập từ khóa “oracle”, “database” chủ đề “Relational Database”, hệ thống trả kết rút trích thể bảng 6.2 (xem thêm luận án) Bảng 6.2 Kết rút trích thông tin cho câu truy vấn “oracle database” Số thứ tự Nội dung Online database Computer database Electronic database Database management system 6.3 Phân tích đánh giá mô hình rút trích thông tin văn bản theo chủ đề Thông tin rút trích từ nguồn tài nguyên khác tập tin văn ACM, Wikipedia WordNet; bên cạnh mô hình có chức trả lời câu truy vấn từ người dùng; mô hình rút trích khai thác nhiều quan hệ ngữ nghĩa đồng nghĩa, thượng danh, hạ danh, IS-A, PART-OF 6.4 Thực nghiệm đánh giá kết quả rút trích thông tin dựa CDO Luận án tiến hành thực nghiệm so sánh kết câu thông dịch trung gian có chủ đề chủ đề biểu diễn qua hình 6.9 6.10 (trong luận án) KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Những khó khăn thực luận án: − Dữ liệu rút trích từ Wikipedia không tiếng Anh mà tiếng Hoa, nên phải xử lý thủ công để chọn liệu tiếng Anh 29 − Rút trích mối quan hệ ngữ nghĩa xử lý trọn vẹn danh sách động từ tương ứng với mối quan hệ không bao phủ − Việc loại bỏ liệu trùng khớp nhiều thời gian − Tuy nhiên luận án đạt kết khả quan đánh giá qua nhiều thực nghiệm khác Hướng phát triển tương lai Trong tương lai, số vấn đề luận án cần quan tâm nghiên cứu: 1) Vấn đề 1: Làm giàu ontology − Hiện hệ thống làm giàu ontology với tập tin văn bản, XML có chủ đề trùng với 170 chủ đề ontology phải biết trước chủ đề tập tin Trong tương lai, hệ thống mở rộng cho phép làm giàu ontology tập tin trước chủ đề − Cho phép cập nhật tự động từ báo khoa học hay trang Web liên quan đến lĩnh vực Tin học, định kỳ theo tuần, theo tháng − Cho phép thêm chủ đề tên chuyên gia Tin học vào ontology 2) Vấn đề 2: Bổ sung quan hệ ngữ nghĩa đối tượng Ngoài quan hệ ngữ nghĩa có, việc tìm quan hệ ngữ nghĩa để bổ sung vào CDO công việc cần quan tâm nghiên cứu 3) Vấn đề 3: Tối ưu hóa giải thuật Khi CDO có nhiều đối tượng (từ ba triệu trở lên) cần phải tối ưu hóa giải thuật để cải thiện tốc độ truy xuất CDO giải pháp sở liệu đồ thị (Graph Database) xét đến 30 ... ontology miền chuyên biệt bóng đá P Buitelaar cộng xây dựng 3.3 Mô hình rút trích thông tin luận án đề xuất Để xây dựng mô hình rút trích thông tin theo chủ đề miền chuyên biệt (Tin học), khắc... thị thông tin rút trích Các thông tin sau rút trích từ mô- dun E, định dạng để hiển thị Mô hình rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) luận án đề xuất thể qua hình 3.6 Hình. .. Jonnalagadda cộng xây dựng hệ thống rút trích thông tin từ hồ sơ bệnh án miền chuyên biệt Y khoa Công trình Batcha đề xuất mô hình rút trích thông tin miền chuyên biệt Một mô hình rút trích thông tin khác

Ngày đăng: 15/06/2017, 19:44

Xem thêm