Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 150 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
150
Dung lượng
3,45 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Trình NGHIÊN CỨU MỘT SỐ MƠ HÌNH HỌC ONTOLOGY VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Vũ Ngọc Trình NGHIÊN CỨU MỘT SỐ MƠ HÌNH HỌC ONTOLOGY VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ Chuyên ngành: Hệ thống Thông tin Mã số: 9480104 01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy PGS.TSKH Nguyễn Hùng Sơn Hà Nội – 2019 LỜI CAM ĐOAN Tơi xin cam đoan luận án cơng trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa công bố cơng trình khác Nghiên cứu sinh Vũ Ngọc Trình i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội hướng dẫn khoa học PGS.TS Hà Quang Thụy PGS.TSKH Nguyễn Hùng Sơn Trước tiên tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy thầy Nguyễn Hùng Sơn, người đưa tiếp cận đạt thành công lĩnh vực nghiên cứu Tơi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy tận tâm, động viên, khuyến khích dẫn tơi hồn thành luận án Tơi xin bày tỏ lòng biết ơn tới PGS.TS Nguyễn Ngọc Hóa, TS Trần Mai Vũ, TS Trần Trọng Hiếu, nhiệt tình giúp đỡ, chia sẻ kinh nghiệm nghiên cứu q trình tơi thực luận án Tôi xin chân thành cảm ơn tới tập thể thầy cô giáo, nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt thành viên Phòng thí nghiệm khoa học liệu công nghệ tri thức – DS&KTlab, Bộ môn Các Hệ thống Thông tin) - Đại học Quốc gia Hà Nội giúp đỡ chuyên môn tạo điều kiện thuận lợi cho suốt thời gian học tập nghiên cứu Tơi xin bày tỏ lòng cảm ơn chân thành tới cộng tơi thực cơng trình nghiên cứu bạn đồng nghiệp giúp đỡ, trao đổi chia sẻ kinh nghiệm chun mơn, đóng góp ý kiến q báu cho tơi q trình nghiên cứu Tôi xin trân trọng cảm ơn thầy cô hội đồng chun mơn đóng góp ý kiến q báu để tơi hồn thiện luận án Tơi bày tỏ lòng cảm ơn sâu sắc tới TS Nguyễn Anh Đức, Viện trưởng Viện Dầu khí Việt Nam Ban lãnh đạo Viện Dầu khí Việt Nam (Tập đồn Dầu khí Quốc gia Việt Nam) tạo kiện thuận lợi cho tơi q trình nghiên cứu; cảm ơn đồng nghiệp Ban CNTT thuộc Viện Dầu khí Việt Nam ln ủng hộ, quan tâm động viên Tôi biết ơn người thân gia đình, bố mẹ nội, bố mẹ ngoại, anh chị em ln chia sẻ khó khăn, động viên chỗ dựa tinh thần vững cho suốt thời gian qua ii MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VIII DANH MỤC CÁC HÌNH VẼ IX MỞ ĐẦU CHƯƠNG GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ ĐỘ ĐO GOOGLE 10 1.1 GIỚI THIỆU CHUNG VỀ ONTOLOGY 10 1.1.1 Khái niệm ontology 10 1.1.2 Phân loại ontology 12 1.1.3 Một ví dụ ontology miền 14 1.1.4 Nguyên lý quy trình thiết kế ontology miền 17 1.1.5 Công cụ xây dựng ontology 20 1.2 GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY 21 1.2.1 Khung nhìn học ontology 21 1.2.2 Kỹ thuật tài nguyên sử dụng học ontology 25 1.2.3 Liên hệ nghiên cứu luận án vào khung nhìn khái quát học ontology 26 1.2.4 Bộ độ đo đánh giá mơ hình phân lớp 27 1.3 ĐỘ ĐO KHOẢNG CÁCH GOOGLE 29 1.3.1 Độ phức tạp Kolmogorov, khoảng cách thông tin khoảng cách thơng tin chuẩn hóa 30 1.3.2 Khoảng cách nén chuẩn hóa 32 1.3.3 Khoảng cách Google tính chất 33 1.4 Kết luận Chương 36 CHƯƠNG MƠ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐỐN NHẬN THỰC THỂ 38 2.1 PHÁT BIỂU BÀI TỐN VÀ MƠ HÌNH GIẢI QUYẾT 38 2.1.1 Phát biểu toán 39 2.1.2 Tập tài nguyên xây dựng ontology biểu y sinh mở rộng 39 2.1.3 Ba tài nguyên biểu y sinh làm tập liệu kiểm thử 41 2.1.4 Mơ hình hai pha giải tốn 43 2.2 Thành phần xây dựng tích hợp kho ngữ liệu thực thể biểu y sinh 44 iii 2.2.1 Mơ hình tích hợp hai ontology biểu y sinh 44 2.2.2 Thành phần xây dựng kho ngữ liệu HPO_NC 44 2.2.3 Thành phần xây dựng kho ngữ liệu MPO_NC 47 2.2.4 Thành phần phát quan hệ bắc cầu (bổ sung quan hệ) ontology kết 49 2.2.5 Kết tích hợp hai ontology 51 2.3 XÂY DỰNG MƠ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH 51 2.3.1 Mơ hình học máy Maximum Entropy 52 2.3.2 Mơ hình học máy Maximum Entropy - Beam Search nhận dạng thực thể biểu y sinh 57 2.3.3 Dữ liệu thực nghiệm công cụ 57 2.3.4 Kết đánh giá 59 2.3.5 Phân tích lỗi 60 2.4 KẾT LUẬN CHƯƠNG 62 CHƯƠNG KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO 63 3.1 MỘT MƠ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE 63 3.1.1 Phát biểu toán 63 3.1.2 Mơ hình đối sánh thuộc tính hai khái niệm thuộc hai ontology miền 64 3.1.3 Mơ hình đối sánh khái niệm học hai ontology dựa độ đo khoảng cách Google 65 3.1.4 Ví dụ minh họa đối sánh khái niệm 69 3.2 MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG 71 3.2.1 Wikipedia nguồn tài nguyên xây dựng ontology 71 3.2.2 Phát biểu toán 72 3.2.3 Chiến lược hai bước phân lớp liệu với liệu dương 74 3.2.4 Mơ hình đề xuất 78 3.2.5 Thực nghiệm đánh giá kết 86 3.2.6 Phát triển mơ hình đề xuất 92 3.3 KẾT LUẬN CHƯƠNG 96 CHƯƠNG KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN CHUYÊN GIA MIỀN 97 4.1 THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG ONTOLOGY 97 4.1.1 Vai trò chuyên gia xây dựng ontology 97 4.1.2 Mơ hình tranh luận xây dựng ontology 98 iv 4.2 CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG TRANH LUẬN 99 4.2.1 Cơ sở niềm tin phân tầng 99 4.2.2 Hợp niềm tin 101 4.2.3 Khung tranh luận 102 4.3 KHUNG HỢP NHẤT NIỀM TIN DỰA TRÊN TRANH LUẬN 104 4.3.1 Giao thức tranh luận cho hợp niềm tin 104 4.3.2 Lập luận hợp niềm tin 104 4.3.3 Mơ hình hợp niềm tin dựa tranh luận 106 4.4 ÁP DỤNG VÀO ONTOLOGY DẦU KHÍ ANH - VIỆT 111 4.5 KẾT LUẬN CHƯƠNG 115 CHƯƠNG MỘT QUY TRÌNH XÂY DỰNG ONTOLOGY DẦU KHÍ ANH VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM 116 5.1 ĐẶT VẤN ĐỀ 116 5.2 MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT 119 5.2.1 Bước Xác định mục đích phạm vi Ontology dầu khí Anh Việt 119 5.2.2 Bước Thu thập tài ngun Ontology dầu khí Anh – Việt sẵn có 121 5.2.3 Bước Tích hợp ontology dầu khí Tiếng Anh 121 5.2.4 Bước Làm giàu khái niệm dầu khí Tiếng Việt tiềm 121 5.2.5 Bước Đối sánh khái niệm miền dầu khí Tiếng Việt 122 5.2.6 Bước Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng Anh 122 5.2.7 Bước Hiệu chỉnh ontology dựa khung hợp niềm tin qua tranh luận thu thập ý kiến chuyên gia 122 5.3 TRIỂN KHAI THỰC HIỆN 123 5.3.1 Thu thập tiền xử lý liệu 123 5.3.2 Thực thi ontology dầu khí Anh - Việt hệ thống máy tính 125 5.4 KẾT QUẢ 126 5.5 KẾT LUẬN CHƯƠNG 126 KẾT LUẬN 127 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 130 TÀI LIỆU THAM KHẢO 131 Tài liệu tiếng Việt 131 Tài liệu tiếng Anh 131 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu Tiếng Anh Tiếng Việt AI Artificial Intelligence Trí tuệ nhân tạo ML Machine Learning Học máy OL Ontology Learning Học ontology TM Text Mining Khai phá văn DO Domain Ontology Ontology miền Knowledge Management System Hệ thống quản lý tri thức KS Knowledge Sharing Chia sẻ tri thức SE Search Engine Máy tìm kiếm Maximum Entropy - Beam Search Entropy cực đại – Tìm kiếm chùm Support Vector Machine Máy vectơ hỗ trợ Iterative-SVM Lặp - SVM NB Naive Bayes Thống kê Naive Bayes kNN k Nearest Neighbour k láng giềng gần POS Part of Speech Từ loại LPU Learning with Positive and Unlabeled data Học với liệu dương liệu chưa gán nhãn P Precision Độ xác R Recall Độ hồi tưởng Harmonic mean Trung bình điều hòa, kết hợp độ xác độ hồi tưởng Reliable Negative Dữ liệu âm tin cậy KMS ME-BS SVM I-SVM F1; F1-Score RN vi TF-IDF NID NCD NCDG PVN VPI Term Frequency – Inverse Document Frequency Trọng số tần suất độ quan trọng từ Normalized Information Distance Khoảng cách thơng tin chuẩn hóa Normalized Compress Distance Khoảng cách nén chuẩn hóa Normalized Compress Google Distance Khoảng cách nén Google chuẩn hóa (Khoảng cách Goolge chuẩn) Petrovietnam; Vietnam Oil and Gas Group Tập đoàn Dầu khí quốc gia Việt Nam Vietnam Petroleum Institute Viện dầu khí Việt Nam vii DANH MỤC CÁC BẢNG Bảng 1.1 Ma trận nhầm lẫn phân lớp .27 Bảng 2.1 Quan hệ tài liệu OMIM có số OMIM ID: 600361 với thực thể biểu người (theo số) nhận từ phenotype_annotation.tab 45 Bảng 2.2 Một số thông tin thống kê ontology HPO_NC, MPO_NC HPO_MPO_NC 51 Bảng 2.3 Các đặc trưng biểu diễn liệu sử dụng luận án 58 Bảng 2.4 Đánh giá kết (tính theo %) 60 Bảng 2.5 Số lượng trung bình thẻ thực thể biểu tất tập liệu 61 Bảng 3.1 Ma trận khoảng cách thuộc tính hai ontology .70 Bảng 3.2 Kết độ đo P, R, F thuật toán 88 Bảng 3.3 Sự phụ thuộc độ đo F thuật toán ROC/ISVM DISTANCE vào tỷ lệ 88 Bảng 3.4 Ví dụ số khái niệm mơ tả đưa thêm vào từ điển dầu khí 89 Bảng 4.1 Phương thức thi hành pha xây dựng ontology sở miền [38] 98 Bảng 4.2 Thứ tự ưu tiên yêu cầu chuyên gia (lớp cao ưu tiên hơn) 108 viii (giống wordnet) mà có web api34 để lấy liệu Để lấy liệu này, công cụ lập trình để duyệt qua tất từ/cụm từ có nghĩa từ điển dầu khí, sau gọi API website để lấy danh sách từ đồng nghĩa với từ/cụm từ duyệt Sau đó, liệu lưu vào CSDL để sử dụng cho việc học ontology Danh sách “từ dừng” Tiếng Việt tải từ GitHub35, chọn lọc, sử dụng q trình loại bỏ từ dừng, từ vơ nghĩa, để giảm thời gian công sức cho việc so sánh từ trình học ontology 5.3.1.2 Lựa chọn công cụ tiền xử lý liệu, lập trình, sở liệu Cơng cụ JVNTextPro36 tải về, dùng để tách câu, tách từ, gán nhãn từ loại, loại bỏ từ dừng Công cụ DKPro37 Java Wikipedia Library tải về, để truy cập, phân tích liệu Wikipedia Cơng cụ LPU38 tải về, dùng để cài đặt số thuật toán LPU khác trình phân lớp liệu Thư viện javascript “GoJS”39 tải về, dùng cho việc biểu diễn mối quan hệ khái niệm dạng đồ họa Cơng cụ lập trình Microsoft NET MVC 4.0 (Model-View-Controller), Hệ quản trị CSDL Microsoft SQL Server 2014 sử dụng để quản trị hệ sở liệu, lập trình để xây dựng phần mềm công cụ hỗ trợ với giao diện webbased Ontology dầu khí Anh – Việt cài đặt máy chủ Viện Dầu khí Việt Nam Ontology dầu khí Anh - Việt chạy hầu hết hệ điều hành, trình duyệt phổ biến, thiết bị di động, smartphone 34 http://viet.wordnet.vn/wnms/services 35 https://github.com/stopwords/vietnamese-stopwords 36 http://jvntextpro.sourceforge.net/ 37 https://dkpro.github.io/dkpro-jwpl/ 38 http://www.cs.uic.edu/~liub/LPU/LPU-download.html 39 https://gojs.net 124 5.3.2 Thực thi ontology dầu khí Anh - Việt hệ thống máy tính Áp dụng khung mơ hình học ontology miền dầu khí Anh – Việt, bao gồm phần: Lọc khái niệm miền dầu khí Tiếng Việt tiềm năng, Học ontology, Đối sánh khái niệm miền dầu khí Tiếng Việt, Học ontology dựa học ontology sở niềm tin phân tầng Bước Giai đoạn Lọc khái niệm miền dầu khí Tiếng Việt tiềm Sau thực thi bước 1, Từ điển dầu khí Anh Việt bổ sung thêm 2.500 khái niệm từ Wikipedia Tiếng Việt để hình thành ontology dầu khí Tiếng Việt với 13.633 khái niệm Tiếng Việt với thông tin mô tả chúng Bước Giai đoạn học ontology Sau thực bước 2, Từ điển dầu khí Anh Việt học ontology với ontology Wordnet để hình thành nên Ontolog Dầu khí Anh – Việt Việt Nam với 11.139 khái niệm bổ sung thêm quan hệ kế thừa từ ontology Wordnet (mở rộng mố quan hệ ngữ nghĩa khái niệm) Bước Đối sánh khái niệm miền dầu khí Tiếng Việt Kết sau thực bước 3, áp dụng thuật toán học với liệu dương liệu chưa gán nhãn với kết hợp độ đo Google độ đo Cosine với hệ số = 0.50, để học ontology liệu mơ tả khái niệm từ điển dầu khí Anh Việt Wikipedia Tiếng Việt, có 5.084 khái niệm dầu khí tìm Do đó, từ điển dầu khí Anh Việt bổ sung thêm 5.084 khái niệm trở thành ontology dầu khí Tiếng Việt với 16.223 khái niệm Tiếng Việt với thông tin mơ tả Bước Bổ sung thành phần Tiếng Việt vào ontology miền dầu khí Tiếng Anh Bước đơn giản bổ sung thành phần Tiếng Việt bước vào ontology miền dầu khí Anh-Việt mở rộng bước Bước Xây dựng ontology dựa sở niềm tin phân tầng Tri thức chuyên gia dầu khí Viện Dầu khí Việt Nam (Tập đồn dầu khí Việt Nam) sử dụng để kiểm tra, chỉnh sửa lỗi, xác hóa 125 kết việc học ontology việc phân lớp liệu, để nâng cao chất lượng kết học ontology Các vấn đề phát sinh không đồng thuận chuyên gia xử lý phương pháp học ontology dựa sở niềm tin phân tầng 5.4 KẾT QUẢ Ontology dầu khí Anh - Việt xây dựng đáp ứng hoàn toàn tất yêu cầu đặt ra, với 11.139 khái niệm dầu khí Tiếng Anh 16.223 khái niệm dầu khí Tiếng Việt, mô tả chúng Tiếng Anh Tiếng Việt, với 6.823 mối quan hệ khái niệm thỏa mãn hoàn toàn yêu cầu đặt ban đầu Biểu diễn đồ họa mối quan hệ khái niệm dầu khí với khái niệm dầu khí lại, hai khái niệm dầu khí ontology dầu khí thực Các chức quản trị khái niệm thông tin liên quan cài đặt với giao diện đồ họa Các công cụ đồ họa hỗ trợ học ontology triển khai Chức phân cấp, phân quyền đến người dùng biện pháp bảo đảm an ninh, an tồn, bảo mật thơng tin thực Có thể lưu, dự phòng khôi phục dễ dàng Phần mềm thiết kế theo hướng mở, tường minh từ thiết kế, sử dụng hệ quản trị sở liệu chuyên nghiệp, thương mại Microsoft, dễ dàng nâng cấp, mở rộng tương lai 5.5 KẾT LUẬN CHƯƠNG Chương luận án trình bày mơ hình xây dựng ontology miền dầu khí sử dụng kết nghiên cứu từ chương khác luận án độ đo Google, thuật toán học với liệu dương liệu chưa gán nhãn, sử dụng kho ngữ liệu, sở niềm tin phân tầng, nguyên lý bước xây dựng ontology, nhu cầu thực tiễn ngành dầu khí Việt Nam Mơ hình áp dụng để xây dựng xây dựng ontology miền dầu khí Anh - Việt cụ thể Ontology miền dầu khí Anh - Việt phục vụ hiệu cho công việc tra cứu, tìm kiếm, nghiên cứu, đạo tạo, dịch thuật hàng ngày bộ, nhân viên ngành dầu khí đáp ứng yêu cầu chức yêu cầu thiết kế chuẩn ontology 126 KẾT LUẬN I Những kết luận án Luận án tham gia vào dòng nghiên cứu học ontology giới đạt ba đóng góp đề xuất ba mơ hình học ontology thực chức thành phần học ontology miền, mô hình thu nhận ý kiến chuyên gia miền vào xây dựng ontology miền quy trình bảy bước xây dựng ontology dầu khí Anh-Việt Viện Dầu khí Việt Nam Mơ hình học ontology xây dựng ontology kết hợp liệu từ ontology sẵn có sử dụng học máy Maximum Entropy Beam Search nhận dạng thực thể miền bao gồm nhiều bước thực [VNTrinh1], [VNTrinh4] Bước thu thập liệu phù hợp với ontology cần xây dựng từ nguồn tài nguyên ontology thành phần sẵn có Sau đó, bước thứ hai tiến hành xây dựng kho ngữ liệu tương ứng với ontology thành phần Bước thứ ba phát quan hệ bắc cầu kết hợp kho ngữ liệu thành phần Bước cuối xây dựng đoán nhận thực thể (bộ phân lớp thực thể) miền để nhận diện thực thể xuất Mơ hình cho phép học ontology mức thực thể Mơ hình học ontology sử dụng độ đo Google mơ hình học ontology dựa khai phá văn nhằm xây dựng tập khái niệm miền tổng hợp khái niệm từ số tập khái niệm miền sẵn có [VNTrinh2], [VNTrinh4] Trước hết, đối sánh thuộc tính khái niệm tiến hành, sau đó, đối sánh để hợp khái niệm miền đồng (bao gồm bổ sung thuộc tính) tập khái niệm miền tổng thể Mơ hình học ontology dựa học máy với liệu dương liệu không gán nhãn nhằm làm giàu tập khái niệm miền tiếng Việt sẵn có dựa việc nhận diện để bổ sung khái niệm miền từ kho tài nguyên Wikipedia tiếng Việt [VNTrinh4] Do cấu trúc khái niệm miền tập khái niệm miền sẵn có khái niệm miền tiềm thuộc kho tài nguyên Wikipedia tiếng Việt có điểm khác khơng thể sử dụng khái niệm miền tập có sẵn làm ví dụ cho tốn học máy Mơ hình học ontology luận án đề xuất gồm hai giai đoạn Trong giai đoạn đầu tiên, mơ hình học ontology sử dụng độ đo Google sử dụng để tìm số khái niệm miền từ Wikipedia tiếng 127 Việt với số lượng nhỏ, gọi tập ví dụ dương “gián điệp” Áp dụng thuật toán học với liệu dương liệu chưa gán nhãn để xây dựng “tập liệu âm tin cậy” gồm số lượng đủ lớn khái niệm Wikipedia tiếng Việt thực tin cậy không khái niệm miền Với biểu diễn liệu thống cho hai nguồn liệu, áp dụng học máy nhị phân để xây dựng mơ hình phân lớp nhị phân khái miền Wikipedia tiếng Việt Luận án đề xuất thuật toán DISTANCE khai thác cấu trúc Wikipedia vào bước xây dựng tập “tập liệu âm tin cậy” Mơ hình thu nhận ý kiến chun gia miền vào trình xây dựng ontology miền dựa khung hợp niềm tin qua tranh luận bao gồm giao thức tranh luận, phép lập luận hợp niềm tin thuật toán xây dựng giải pháp tranh luận hợp niềm tin [VNTrinh3] Giải pháp tranh luận hợp niềm tin thực lặp khơng tác nhân bị cơng trạng thái cuối kết cần tìm Luận án luận giải phương án áp dụng khung hợp niềm tin vào thực tiễn xây dựng ontology dầu khí Anh - Việt Thứ ba, luận án đề xuất quy trình bảy bước xây dựng ontology dầu khí Anh-Việt Viện Dầu khí Việt Nam Hơn nữa, từ kết nghiên cứu luận án, ontology Dầu khí Anh - Việt xây dựng dựa việc học ontology từ điển Anh -Việt với Wordnet Tiếng Anh Wikipedia Tiếng Việt sử dụng cho việc tra cứu, nghiên cứu, đào tạo sở cho việc mở rộng, học ontology với hệ thống liệu khác (ví dụ hệ thống chia sẻ tri thức có Viện Dầu khí Việt Nam ) ontology dầu khí khác giới, tương lai Các thuật toán học ontology sử dụng học máy tiếp tục nghiên cứu để áp dụng cho tốn khác lĩnh vực thăm dò, khai thác dầu khí (ví dụ: ứng dụng thuật tốn học máy học ontology để nâng cao hệ số thu hồi dầu ) Đồng thời, nhằm minh chứng cho tiềm ứng dụng thực tiễn mơ hình đề xuất, luận án thực thi thực nghiệm để kiểm chứng tính hữu dụng thuật tốn mơ hình luận án đề xuất Kết thực nghiệm cho thấy kết nghiên cứu từ luận án có tiềm ứng dụng thực tiễn cao 128 II Hạn chế luận án Trong trình triển khai mơ hình, số nghiên cứu luận án chưa tiến hành cách công phu, thấu rút kết luận bổ ích, cụ thể là: Một là, miền ứng dụng áp dụng để xây dựng ontology dầu khí Anh Việt Các liệu (khái niệm) chủ yếu khâu đầu chuỗi hoạt động dầu khí, chưa mở rộng khâu khác (khâu giữa, khâu sau) Các liệu có giá trị khác liên quan đến hoạt động thăm dò khai thác khác chưa học ontology để hỗ trợ định (ví dụ: liệu khai thác dầu khí hàng ngày mỏ dầu khí) Hai là, sản phẩm luận án ontology dầu khí Anh Việt, nhiên, cần phải có thêm thời gian để chun gia dầu khí rà sốt, chỉnh sửa, cập nhật để nâng cao chất lượng độ tin cậy phần mềm Ba là, điều quan trọng nhất, luận án chưa tiến hành phân tích đủ sâu thuật tốn học ontology để đưa cải tiến khoa học thực III Định hướng nghiên cứu Trong thời gian tiếp theo, nghiên cứu sinh tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận án tiếp tục triển khai đề xuất để hoàn thiện giải pháp cho học ontology Một là, nghiên cứu, tìm kiếm, chọn lựa ontology dầu khí có chất lượng cao giới để học ontology với ontology có để mở rộng, bổ sung khái niệm (từ vựng) dầu khí, đặc biệt khái niệm thuộc khâu khâu sau chuỗi hoạt động dầu khí Hai là, nâng cấp mơ hình tích hợp ý kiến chun gia (chẳng hạn, quan tâm tới mơ hình dựa sở tri thức xác suất) Hơn nữa, kỹ thuật biểu diễn liệu tiên tiến quan tâm mơ hình học ontology đề xuất Trước mắt, nghiên cứu sinh tiến hành áp dụng biểu diễn graph2vec, node2vec, v.v cho mơ hình học ontology bổ sung khái niệm dầu-khí tiếng Việt từ wikipedia tiếng Việt Chương 129 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN [VNTrinh1] Ngoc-Trinh Vu, Van-Hien Tran, Thi-Huyen-Trang Doan, Hoang-Quynh Le, and Mai-Vu Tran (2015) A Method for Building a Labeled Named Entity Recognition Corpus Using Ontologies Proceedings of 3rd International Conference on Computer Science, Applied Mathematics and Applications - ICCSAMA 2015, pp 141-149 (Scopus) [VNTrinh2] Trinh Vu Ngoc, Ha Quang Thuy, Tran Trong Hieu Độ đo GOOGLE học ontology Hội nghị quốc gia lần thứ VIII "Nghiên cứu ứng dụng Công nghệ thông tin" (FAIR 2015), trang 224-231 [VNTrinh3] Trong Hieu Tran, Thi Hong Khanh Nguyen, Quang Thuy Ha, and Ngoc-Trinh Vu Argumentation framework for merging stratified belief bases Asian Conference on Intelligent Information and Database Systems (ACIIDS 2016), pp 43-53.(Scopus, DBLP) [VNTrinh4] Ngoc-Trinh Vu, Quoc-Dat Nguyen, Tien-Dat Nguyen, ManhCuong Nguyen, Van-Vuong Vu, and Quang-Thuy Ha A Positive-Unlabeled Learning Model for Extending a Vietnamese Petroleum Dictionary based on using Vietnamese Wikipedia Data ACIIDS (1) 2018: 190-199 (Scopus, DBLP) 130 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] [2] [3] [4] Trương Hải Bằng Tích hợp ontology mờ dựa lý thuyết đồng thuận, Luận án tiến sỹ, Đại học CNTT, Đại học Quốc gia TP Hồ Chí Minh, 2016 P C Bội cộng Xây dựng từ điển dầu khí ANH-VIỆT (phiên điện tử) Nhiệm vụ cấp ngành dầu khí, 2010 Cao Hồng Trụ VN-KIM cho Web Việt có ngữ nghĩa Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ (Phân ban CNTT), ĐH Bách Khoa Tp HCM, trang 76-81, 2007 Viện dầu khí English – Vietnamese Dictionary of Petroleum Nhà xuất Khoa học Kỹ thuật, Ha Noi, 1996 Tài liệu tiếng Anh [5] [6] Ethem Alpaydin Introduction to machine learning The MIT Press, 2014 Feten Baccar Ben Amar, Bilel Gargouri, Abdelmajid Ben Hamadou Generating core domain ontologies from normalized dictionaries Eng Appl of AI, 51: 230-241, 2016 [7] Robert Arp, Barry Smith, Andrew D Spear Building Ontologies with Basic Formal Ontology The MIT Press, 2015 [8] Adam L Berger, Stephen Della Pietra, Vincent J Della Pietra A Maximum Entropy Approach to Natural Language Processing Computational Linguistics 22(1): 39-71, 1996 [9] Elizabeth Black, Sanjay Modgil, Nir Oren Theory and Applications of Formal Argumentation (4th International Workshop, TAFA 2017) Springer International 2018 [10] Andrew Borthwick, John Sterling, Eugene Agichtein, Ralph Grishman Exploiting Diverse Knowledge Sources via Maximum Entropy in Named Entity Recognition VLC@COLING/ACL 1998 131 [11] P Buitelaar, P Cimiano, B Magnini Ontology Learning from Text: An Overview In (P Buitelaar, P Cimiano, B Magnini (eds) Ontology Learning from Text: Methods, Evaluation and Applications Frontiers in Artificial Intelligence and Applications Vol 123 Amsterdam, IOS Press, 2005), pp 3-12 [12] James Butterworth, Paul E Dunne Spectral Techniques in Argumentation Framework Analysis COMMA 2016, pp 167-178 [13] Trevor J M Bench-Capon, Paul E Dunne Argumentation in artificial intelligence Artif Intell 171(10-15): 619-641, 2007 [14] Trevor J M Bench-Capon, Henry Prakken, Giovanni Sartor Argumentation in Legal Reasoning Argumentation in Artificial Intelligence 2009: 363-382 [15] Rudi Cilibrasi, Paul M B Vitányi, Ronald de Wolf Algorithmic Clustering of Music Based on String Compression Computer Music Journal 28(4): 49-67, 2004 [16] Rudi Cilibrasi, Paul M B Vitányi The Google Similarity Distance CoRR abs/cs0412098, 2004 [17] Rudi Cilibrasi, Paul M B Vitányi Normalized Web Distance and Word Similarity CoRR abs0905.4039, 2009 (Version September 5, 2018) [18] Philipp Cimiano, Alexander Madche, Steffen Staab, and Johanna Volker Ontology Learning In (Steffen Staab, Rudi Studer (eds.) Handbook on Ontologies Springer, 2009), pp 245-267 [19] Philipp Cimiano, Christina Unger, and John McCrae Ontology-Based Interpretation of Natural Language Morgan Claypool, 2014 [20] Andrew R Cohen, Paul M B Vitányi Normalized Google Distance of Multisets with Applications CoRR abs/1308.3177, 2013 [21] Francesco Colace, Massimo De Santo, Luca Greco, Flora Amato, Vincenzo Moscato, Antonio Picariello Terminological ontology learning and population using latent Dirichlet allocation J Vis Lang Comput 25(6): 818-826, 2014 [22] Nigel Collier, Reiko Matsuda Goodwin, John P McCrae, Son Doan, Ai Kawazoe, Mike Conway, Asanee Kawtrakul, Koichi Takeuchi, Dinh Dien An ontology-driven system for detecting global health events COLING 2010:215-222 132 [23] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, and Dietrich Rebholz-Schuhmann Learning to recognize phenotype candidates in the auto-immune literature using svm re-ranking PloS one, 8(10):e72965, 2013 [24] Nigel Collier, Ferdinand Paster, and Mai-Vu Tran The impact of near domain transfer on biomedical named entity recognition In Proceedings of the 5th International Workshop on Health Text Mining and Information Analysis (Louhi)@ EACL, pages 11-20, 2014 [25] Antonello Comi, Lidia Fotia, Fabrizio Messina, Giuseppe Pappalardo, Domenico Rosaci, Giuseppe M L Sarnè Using Semantic Negotiation for Ontology Enrichment in e-Learning Multi-agent Systems CISIS 2015: 474-479 [26] Óscar Corcho, Mariano Fernández-López, Asunción Gómez-Pérez Ontological Engineering: Principles, Methods, Tools and Languages Ontologies for Software Engineering and Software Technology 2006: 148 [27] Claudia D’Amato, Steffen Staab, Andrea G B Tettamanzi, Minh Tran Duc, Fabien Gandon Ontology Enrichment by Discovering MultiRelational Association Rules from Ontological Knowledge Bases SAC ’16 (31st ACM Symposium on Applied Computing), pp.333-338, 2016 [28] A P Dempster; N M Laird; D B Rubin Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B (Methodological), 39 (1): 1-38, 1977 [29] Zlatan Dragisic Completion of Ontologies and Ontology Networks PhD Thesis, Linköping University, Sweden 2017 [30] Wolfgang Ertel, Nathanael T Black Introduction to Artificial Intelligence (2nd edition) Springer, 2018 [31] Marcelo A Falappa, Alejandro Javier García, Gabriele Kern-Isberner, Guillermo Ricardo Simari Stratified Belief Bases Revision with Argumentative Inference Journal of Philosophical Logic, 42 (1), pp 161– 193, 2013 [32] Dragan Gašević, Dragan Djurić, Vladan Devedzic Model driven architecture and ontology development (2nd edition) Springer, 2009 133 [33] Saira Andleeb Gillani, Andrea Ko Process-Based Knowledge Extraction in a Public Authority: A Text Mining Approach EGOVIS 2014: 91-103 [34] Saira Andleeb Gillani From text mining to knowledge mining: An integrated framework of concept extraction and categorization for domain ontology PhD Thesis, Corvinus University of Budapest, 2015 [35] Nicola Guarino, Daniel Oberle, and Steffen Staab What is an Ontology? In (Steffen Staab, Rudi Studer Handbook on Ontologies Springer 2009): 1-17 [36] Ada Hamosh, Alan F Scott, Joanna S Amberger, Carol A Bocchini, and Victor A McKusick Online mendelian inheritance in man (omim), a knowledgebase of human genes and genetic disorders Nucleic acids research, 33(suppl 1): D514-D517, 2005 [37] Sébastien Harispe, Sylvie Ranwez, Stefan Janaqi, and Jacky Montmain Semantic Similarity from Natural Language and Ontology Analysis Morgan Claypool, 2015 [38] Shang-Hsien Hsieh, Hsien-Tang Lin, Nai-Wen Chi, Kuang-Wu Chou, Ken-Yu Lin Enabling the development of base domain ontology through extraction of knowledge from engineering domain handbooks Advanced Engineering Informatics 25 (2011), pp 288–296 [39] S.-H Hsieh, K.-Y Lin, N.-W Chi and H.-T Lin Domain Knowledge– Based Information Retrieval for Engineering Technical Documents In (Raymond Issa, Ivan Mutis Ontology in the AEC industry: a decade of research and development in architecture, engineering, and construction American Society of Civil Engineers, 2015), pp 1-26 [40] Raymond Issa, Ivan Mutis Ontology in the AEC industry: a decade of research and development in architecture, engineering, and construction American Society of Civil Engineers, 2015 [41] Tokio Kawakami, Takeshi Morita, Takahira Yamaguchi Building Wikipedia Ontology with More Semi-structured Information Resources JIST 2017: 3-18 [42] Shehroz S Khan, Michael G Madden One-class classification: Taxonomy of Study and Review of Techniques Knowledge Eng Review 29(3): 345374, 2014 134 [43] M Rahamatullah Khondoker, Paul Mueller Comparing Ontology Development Tools Based on an Online Survey Proceedings of the World Congress on Engineering 2010 (Vol I), pages [44] Maryam Khordad, Robert E Mercer, and Peter Rogan Improving phenotype name recognition In Advances in Articial Intelligence, pages 246-257 Springer, 2011 [45] S Konieczny, R P Pérez Merging information under constraints: a logical framework J Logic Comput 12(5), 773–808, 2002 [46] Efstratios Kontopoulos, Panagiotis Mitzias, Marina Riga, Ioannis Kompatsiaris A Domain-Agnostic Tool for Scalable Ontology Population and Enrichment from Diverse Linked Data Sources DAMDID/RCDL’2017, pp 184-190 [47] Xiaoli Li, Philip S Yu, Bing Liu, See-Kiong Ng Positive Unlabeled Learning for Data Stream Classification SDM 2009: 259-270 [48] Huayi Li, Zhiyuan Chen, Bing Liu, Arjun Mukherjee, Jidong Shao Spotting Fake Reviews using Positive-Unlabeled Learning Computación y Sistemas 18(3), 2014 [49] M Li, J.H Badger, X Chen, S Kwong, P Kearney, and H Zhang An Information-Based Sequence Distance and Its Application to Whole Mitochondrial Genome Phylogeny Bioinformatics, vol 17, no 2, pp 149154, 2001 [50] Ming Li, Paul Vitányi An Introduction to Kolmogorov Complexity and Its Applications (3rd edition) Springer, 2008 [51] Xiaoli Li, Bing Liu Learning to Classify Texts Using Positive and Unlabeled Data IJCAI 2003: 587-594 [52] Xiaoli Li, Bing Liu, and See-Kiong Ng Learning to Identify Unexpected Instances in the Test Set IJCAI vol 7, 2007 [53] Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee, Philip S Yu Building Text Classifiers Using Positive and Unlabeled Examples ICDM 2003: 179188 [54] Bing Liu Web Data Mining: Exploring Hyperlinks Contents and Usage Data (2nd edition) Springer, 2011 135 [55] Lu Liu, Tao Peng Clustering-based Method for Positive and Unlabeled Text Categorization Enhanced by Improved TFIDF J Inf Sci Eng 30(5) 1463-1481, 2014 [56] Bing Liu, Wee Sun Lee, Philip S Yu, Xiaoli Li Partially Supervised Classification of Text Documents ICML 2002: 387-394 [57] Andrew McCallum, Dayne Freitag, Fernando C N Pereira Maximum Entropy Markov Models for Information Extraction and Segmentation ICML 2000: 591-598 [58] John P McCrae, Mihael Arcan, Kartik Asooja, Jorge Gracia, Paul Buitelaar, Philipp Cimiano Domain adaptation for ontology localization J Web Sem 36: 23-31, 2016 [59] Martın O Moguillansky, Guillermo R Simari A generalized abstract argumentation framework for inconsistency-tolerant ontology reasoning Expert Systems with Applications Volume 64, December 2016, Pages 141-168 [60] Martín O Moguillansky Ontology reasoning and evolution with inconsistency tolerance AI Commun 29(2): 405-407, 2016 [61] Josh Murphy, Isabel Sassoon, Michael Luck, Elizabeth Black An Investigation of Argumentation Framework Characteristics TAFA 2016: 1-16 [62] Roberto Navigli, Paola Velardi Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites Computational Linguistics 30(2): 151-179, 2004 [63] Truc-Vien T Nguyen, Tru H Cao VN-KIM IE: Automatic Extraction of Vietnamese Named-Entities on the Web New Generation Comput 25(3): 277-292, 2007 [64] Phan Minh Dung On the Acceptability of Arguments and its Fundamental Role in Nonmonotonic Reasoning, Logic Programming and n-Person Games Artif Intell 77(2) 321-358, 1995 [65] Phan Minh Dung An axiomatic analysis of structured argumentation with priorities Artif Intell 231, pp.107-150, 2016 [66] Phan Minh Dung, Phan Minh Thang Fundamental properties of attack relations in structured argumentation with priorities Artif Intell 255, pp.1-42, 2018 136 [67] Abdul Mateen Rajput, Harsha Gurulingappa Semi-Automatic Approach for Ontology Enrichment using UMLS Procedia Computer Science 23 (2013) 78–83 [68] Adwait Ratnaparkhi A Maximum Entropy Model for Part-Of-Speech Tagging, Proc EMNLP, New Brunswick New Jersey: Association for Computer Linguistics: 133-141, 1996 [69] Peter N Robinson, Sebastian Kohler, Sebastian Bauer, Dominik Seelow, Denise Horn, and Stefan Mundlos The human phenotype ontology: a tool for annotating and analyzing human hereditary disease The American Journal of Human Genetics, 83(5):610-615, 2008 [70] C Sammut, G.I Webb (eds) Ontology Learning (In: C Sammut, G.I Webb (eds) Encyclopedia of Machine Learning and Data Mining (2nd edition) Springer, 2017), pp 937-938 [71] Miguel-Angel Sicilia Handbook of Metadata, Semantics and Ontologies World Scientific Publishing, 2014 [72] Cynthia L Smith, Carroll-Ann W Goldsmith, and Janan T Eppig The mammalian phenotype ontology as a tool for annotating, analyzing and comparing phenotypic information Genome biology, 6(1):R7, 2004 [73] Fabian M Suchanek, Gjergji Kasneci, Gerhard Weikum YAGO: A Large Ontology from Wikipedia and WordNet J Web Sem 6(3): 203-217, 2008 [74] Timothy Tambassi The philosophy of geo-ontologies Springer, 2018 [75] Trong Hieu Tran, Quoc Bao Vo, Thi Hong Khanh Nguyen On the Belief Merging by Negotiation KES 2014: 147-155 [76] Michael Uschold Demystifying OWL for the Enterprise Morgan Claypool, 2018 [77] Tobias Walter, Fernando Silva Parreiras, Steffen Staab OntoDSL: An Ontology-Based Framework for Domain-Specific Languages MoDELS 2009: 408-422 [78] Tobias Walter, Fernando Silva Parreiras, Steffen Staab An ontology-based framework for domain-specific modeling Software and System Modeling 13(1): 83-108, 2014 [79] Wilson Wong, Wei Liu, Mohammed Bennamoun Ontology learning from text: A look back and into the future ACM Computing Surveys, Volume 44 Issue 4, August 2012, Article No 20 137 [80] Jianzhang Wu, Xiao Yu, Linli Zhu, Wei Gao Leave-two-out stability of ontology learning algorithm Chaos, Solitons and Fractals, Vol 89 (August 2016), pp 322-327 [81] Jianzhang Wu, Xiao Yu, Wei Gao Similarity matrix learning for ontology application IJITM 15(1): 1-13, 2016 [82] Yanshan Xiao, Bo Liu, Jie Yin, Longbing Cao, Chengqi Zhang, Zhifeng Hao Similarity-Based Approach for Positive and Unlabelled Learning Proceedings of the twenty-second international joint conference on artificial intelligence, pp 1577-1582, 2011 [83] Hwanjo Yu, Jiawei Han, Kevin Chen-Chuan Chang PEBL: positive example based learning for Web page classification using SVM KDD 2002: 239-248 [84] Hwanjo Yu, Jiawei Han, Kevin Chen-Chuan Chang PEBL: Web Page Classification without Negative Examples IEEE Trans Knowl Data Eng 16(1): 70-81, 2004 [85] D Zhang A logic-based axiomatic model of bargaining Artif Intell 174, 1307–1322, 2010 [86] Weixiong Zhang State-Space Search: Algorithms, Complexity, Extensions, and Applications Springer, 1999 138