Nghiên cứu tích hợp mô hình dữ liệu trong trung tâm dữ liệu ngành dầu khí việt nam (tt)

26 104 0
Nghiên cứu tích hợp mô hình dữ liệu trong trung tâm dữ liệu ngành dầu khí việt nam (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Trình NGHIÊN CỨU TÍCH HỢP HÌNH DỮ LIỆU TRONG TRUNG TÂM DỮ LIỆU NGÀNH DẦU KHÍ Chuyên ngành: Hệ thống Thông tin Mã số: 62 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2017 Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy, ĐH Công nghệ PGS.TSKH Nguyễn Hùng Sơn, ĐH Varsava, Ba Lan Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nợi MỞ ĐẦU Tính cấp thiết luận án Dữ liệu ngày dần coi mợt nguồn tài ngun thực sự, đóng vai trò nguồn nhiên liệu chủ chốt tương tự “dầu mỏ Thế kỷ 20” và liệu tạo mợt kinh tế mới1 Tích hợp liệu (data integration) giúp doanh nghiệp chuyển đổi liệu thành tài nguyên tạo doanh thu thực cho doanh nghiệp Tích hợp ontology2 mợt thành phần quan trọng tích hợp liệu Tích hợp ontology coi mợt dạng tích hợp liệu tiến hành kiểu liệu đặc biệt, đồng thời, tích hợp liệu dựa ontology nhận diện một kỹ thuật tích hợp liệu phổ biến Tích hợp liệu tích hợp ontology ln chủ đề khoa học công nghệ nhận quan tâm cộng đồng nghiên cứu-triển khai giới, tạo động lực nghiên cứu triển khai tích hợp liệu tích hợp ontology Tích hợp liệu chủ đề nghiên cứu một số luận án Tiến sỹ giới, chẳng hạn [Doan02, Aleksovski08, Dragisic17] Luận án Đoàn An Hải [Doan02], một năm luận án Tiến sỹ nhận giải thưởng luận án Tiến sỹ xuất sắc Hiệp hội máy tính ACM, cung cấp phân tích sâu sắc tiếp cận tích hợp hình liệu, tập trung vào miền ứng dụng bất động sản Các luận án [Aleksovski08, Dragisic17] định hướng tới kỹ thuật tích hợp liệu dựa ontology, theo tích hợp hình liệu tiến hành thơng qua mối quan hệ ontology liệu đích với ontology từ nguồn liệu Tích hợp lược đồ liệu ứng dụng một chủ đề nghiên cứu triển khai mẻ Việt Nam Hiện nay, chưa có Ontology dầu khí Tiếng Việt, có một số ontology lĩnh vực khác VN-KIM [TrucVien07], [Tru07], BioCaster [Collier10] Theo khảo sát P A Bernstein cộng [Bernstein11], hội tụ phướng pháp tích hợp lược đồ liệu tích hợp thể liệu, hầu hết phương pháp tích hợp lược đồ liệu bao gồm thao tác tích hợp liệu mức thể Hơn nữa, https://www.economist.com/news/briefing/21721634-how-it-shaping-updata-giving-rise-new-economy Ontology một số học giả dịch sang tiếng Việt là “bản thể”, nhiên, từ “bản thể” không gợi nghĩa từ “ontology” luận án sử dụng từ nguyên gốc “ontology” tích hợp ontology cung cấp mợt khung nhìn điển hình tích hợp liệu mức lược đồ Căn vào xu hướng nghiên cứu này, luận án “Nghiên cứu tích hợp hình liệu trung tâm liệu ngành dầu khí Việt Nam” tập trung vào tốn tích hợp ontology ứng dụng xây dựng một ontology dầu khí Anh-Việt Tập đoàn dầu khí quốc gia Việt Nam Nghiên cứu luận án hướng tới số mục tiêu sau Thứ nhất, luận án cung cấp mợt khảo sát khái qt kỹ thuật tích hợp liệu mức lược đồ tích hợp ontplogy Thứ hai, luận án đề xuất một số kỹ thuật tích hợp ontology dựa việc sử dụng đợ đo (điển hình là đợ đo khoảng cách Google) áp dụng phương pháp học máy (điển hình là phương pháp học máy với ví dụ dương) Về bản, kỹ thuật đề xuất hướng tới ứng dụng vào miền liệu để kiểm chứng tính khả thi hiệu đề xuất Cuối cùng, luận án xây dựng phần mềm Ontology Dầu khí ANH VIỆT nhằm phục vụ công tác nghiệp vụ Viện Dầu khí Việt Nam Đối tượng nghiên cứu luận án kỹ thuật tích hợp ontology nhằm đề xuất mợt số kỹ thuật tích hợp ontology cho miền liệu dầu khí xây dựng mợt ontology dầu khí Anh – Việt Phạm vi nghiên cứu luận án giới hạn phương pháp tích hợp ontology tập trung vào miền liệu dầu khí Phương pháp nghiên cứu luận án nghiên cứu lý thuyết đề xuất kỹ thuật tích hợp ontology, nghiên cứu thực nghiệm để kiểm chứng đánh giá kỹ thuật đề xuất công bố kết nghiên cứu ấn phẩm khoa học có uy tín Luận án tiến hành nghiên cứu ứng dụng để xây dựng mợt ontology dầu khí Anh – Việt Viện dầu khí Việt Nam Đóng góp luận án Luận án tham gia vào dòng nghiên cứu tích hợp liệu giới và đạt mợt số đóng góp bước đầu, tập trung vào nghiên cứu tích hợp ontology miền liệu dầu khí Về phương diện lý thuyết, luận án đề nghị ba kỹ thuật tích hợp ontology Thứ nhất, luận án đề xuất hai phương pháp tích hợp liệu tích hợp liệu dựa đợ đo Google [VNTrinh2, VNTrinh4] Thứ hai, sở ứng dụng thuật toán học máy (đặc biệt kỹ thuật học máy với liệu dương) [VNTrinh4, VNTrinh5], luận án đề xuất mợt thuật tốn kết hợp đợ đo Google và độ đo khoảng cách Cosine với thuật tốn học máy với liệu dương để tích hợp liệu, nâng cao hiệu thuật tốn Thứ ba, luận án đề nghị mợt kỹ thuật tích hợp ontology dựa thuật tốn học máy Maximum Entropy Beam Search sử dụng kho ngữ liệu chuẩn (corpus)[VNTrinh1] Về phương diện ứng dụng, kết nghiên cứu luận án có đóng góp trực tiếp vào hệ thống tích hợp liệu Viện Dầu khí Việt Nam Mợt ontology Dầu khí ANH-VIỆT xây dựng dựa việc tích hợp từ điển Anh -Việt với Wordnet Tiếng Anh Wikipedia Tiếng Việt sử dụng cho việc tra cứu, nghiên cứu, đào tạo và là sở cho việc mở rộng, tích hợp với hệ thống liệu khác (ví dụ hệ thống chia sẻ tri thức có Viện Dầu khí Việt Nam ) ontology dầu khí khác giới, tương lai Luận án cung cấp mợt nghiên cứu tổng quan tích hợp lược đồ liệu (nói chung) tích hợp ontology (nói riêng) Bố cục luận án gồm phần mở đầu và năm chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương luận án cung cấp một nghiên cứu khái quát kỹ thuật tích hợp lược đồ liệu, ontology tích hợp ontology, tính cấp thiết việc xây dựng Ontology dầu khí Anh-Việt Viện dầu khí Việt Nam Chương luận án trình bày chi tiết cách tiếp cận luận án việc sử dụng đợ đo khoảng cách Google vào tích hợp ontology Việc ứng dụng hình đề xuất vào miền liệu dầu khí giới thiệu Trong Chương 3, luận án trình bày mợt hình tích hợp ontology từ tài nguyên kho ngữ liệu sử dụng học máy Maximum Entropy và Beam search Chương luận án trình bày chi tiết mợt hình tích hợp ontology dựa việc sử dụng kỹ thuật học máy với liệu dương và liệu chưa gán nhãn Chương luận án trình bày mợt hình năm bước để xây dựng hệ thống ontology dầu khí ANH - VIỆT hình này xây dựng dựa kết nghiên cứu luận án CHƯƠNG GIỚI THIỆU CHUNG VỀ TÍCH HỢP DỮ LIỆUTÍCH HỢP ONTOLOGY 1.1 GIỚI THIỆU CHUNG VỀ TÍCH HỢP DỮ LIỆU 1.1.1 Khái niệm tích hợp liệu Như giới thiệu, theo Đoàn An Hải cợng [Doan12], tích hợp liệu xem tập kỹ thuật cho phép xây dựng hệ thống khớp nối lại nhằm chia sẻ tích hợp linh hoạt liệu từ nhiều nguồn liệu tự trị Mục tiêu một hệ thống tích hợp liệu cung cấp truy cập thống vào một tập nguồn liệu tự trị và khơng đồng 1.1.2 Kỹ thuật tích hợp lược đồ liệu Mỗi hướng tiếp cận tích hợp hình liệu ln đặt nợi dung nghiên cứu theo khía cạnh khoa học lẫn theo khía cạnh cơng nghệ triển khai Tiếp cận tích hợp ontology sử dụng học máy mợt tiếp cận định hướng luận án Qua nghiên tài liệu trên, kỹ thuật tích hợp hình liệu bao gồm kỹ thuật chính: tích hợp liệu dựa lược đồ liệu, dựa thể hiện, dựa Ontology, dựa việc sử dụng học máy, dựa việc sử dụng độ đo và dựa kết hợp một số kỹ thuật với 1.2 GIỚI THIỆU CHUNG VỀ ONTOLOGY 1.2.1 Khái niệm phân loại Theo thời gian, khái niệm ontology tiến hóa nhằm phù hợp với phạm vi nghiên cứu triển khai liên quan Robert Arp cộng [Arp15] giới thiệu một định nghĩa có tính phổ qt ontology, theo “ontology định nghĩa sản phẩm trình diễn nhân tạo, bao gồm phần đặc thù bảng phân loại, biểu diễn nhằm rõ tổ hợp kiểu, lớp định nghĩa số quan hệ chúng” 1.2.2 Thi hành ontology hệ thống máy tính Luận án tập trung vào việc thi hành ontology hệ thống máy tính M.-A Sicilia A Sicilia [Sicilia14] cung cấp mợt phác thảo tiến hóa định nghĩa ontology thi hành hệ thống máy tính Các thành phần ontology thi hành hệ thống máy tính gồm: lớp, thực thể, tḥc tính, quan hệ 1.2.3 Nguyên tắc bước thiết kế ontology miền Phần trình bày tám nguyên tắc mợt q trình năm bước thiết kế mợt ontology miền [Arp15] 1.3 GIỚI THIỆU CHUNG VỀ KỸ THUẬT TÍCH HỢP ONTOLOGY 1.3.1 Kỹ thuật tích hợp liệu sử dụng học máy Học máy một ngành khoa học, nghiên cứu, xây dựng kỹ thuật tảng trí tuệ nhân tạo giúp cho máy tính dự báo kết tương lai thơng qua q trình huấn luyện (học) từ liệu lịch sử Một khó khăn sử dụng học máy triển khai thực tế tập liệu huấn luyện (dữ liệu dương, liệu gán nhãn) nhỏ khơng có liệu âm Đã có nhiều nghiên cứu vấn đề này và đem lại kết khả quan [Li07, Li09, Xiao11, Khan14, Li14, Niu16, Kiryo17] Đi theo xu hướng này, luận án xây dựng mợt hình học máy đối sánh ontology dựa kho ngữ liệu [VNTrinh1], mợt hình học máy mở rợng ontology từ hai nguồn liệu một từ điển Anh-Việt Wikipedia tiếng Việt [VNTrinh4] 1.3.2 Kỹ thuật tích hợp liệu sử dụng độ đo Để tích hợp liệu, người ta thường sử dụng độ đo (measure) để so sánh tương đồng liệu như: Levenshtein, Google, Cosine [Cohen13] Mợt hình tích hợp ontology dựa độ đo để đối sánh từ vựng luận án đề xuất [VNTrinh2] 1.3.3 Kỹ thuật tích hợp liệu sử dụng kết hợp kỹ thuật Trong tốn tích hợp liệu, tùy toán, tùy miền liệu, tùy bước q trình tích hợp, mợt số kỹ thuật thường sử dụng kết hợp để tăng cường tính hiệu thuật tốn [Li07, Li09, Bernstein11, Rahm11, Xiao11, Shvaiko13, Khan14, Li14, Niu16, Kiryo17] hình tích hợp ontology [VNTrinh4] xây dựng dựa kết hợp kỹ thuật học máy kỹ thuật dựa đợ đo 1.4 CƠNG CỤ TÍCH HỢP DỮ LIỆUTÍCH HỢP ONTOLOGY Hầu hết kỹ thuật liệt kê cài đặt một số lượng lớn công cụ đối sánh lược đồ liệu ontology [Rahm11, Euzenat13], Cupid [Madhavan11], COMA++ [Aumueller05, Do07], ASMOV [Mary09], Falcon-AO [Hu08], RiMON [Li09], AgreementMaker [Cruz09], OII Harmony [Seligman10], [Do02, Bellahsene11], [Euzenat10], [Achichi16] Phần nêu nên điểm mạnh và điểm hạn chế cơng cụ 1.5 TÍCH HỢP ONTOLOGY DẦU KHÍ ANH – VIỆT Nhu cầu tích hợp liệu từ nguồn liệu khác Tập đoàn dầu khí Việt Nam (PVN) để xây dựng mợt hệ thống cung cấp thông tin phục vụ việc định mợt cách xác, tồn diện kịp thời vào hoạt động Tập đoàn trở nên cấp thiết Do PVN chưa có mợt ontology chun ngành dầu khí, nên việc xây dựng mợt ontlogy chun ngành dầu khí dựa kiến thức tổng hợp, nghiên cứu mợt việc làm khả thi hữu ích cho việc tích hợp, cho việc sử dụng cơng việc chuyên môn, quản lý Hơn nữa, ứng dụng ontology dầu khí xây dựng ứng dụng trí tuệ nhóm (collective intelligence) đề cập [VNTrinh3] Từ lý trên, một nội dung nghiên cứu - triển khai định hướng luận án tích hợp liệu để xây dựng ontology dầu khí Anh - Việt 1.6 KẾT LUẬN CHƯƠNG Chương trình bày nợi dung khái qt tích hợp liệu, tích hợp lược đồ liệu, ontology tích hợp ontology Luận án giới thiệu nguyên tắc thiết kế và bước triển khai thiết kế mợt ontology miền Các kỹ thuật tích hợp hình liệu tích hợp ontology miền trình bày mợt cách khái qt Đồng thời, luận án dẫn hình tích hợp ontology luận án tập trung nghiên cứu việc ứng dụng kết nghiên cứu vào việc xây dựng ontology dầu khí Anh-Việt Viện dầu khí Việt Nam Các chương trình bày mợt cách chi tiết nghiên cứu luận án dẫn Chương CHƯƠNG MỘT HÌNH TÍCH HỢP ONTOLOGY DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE 2.1 ĐỘ ĐO KHOẢNG CÁCH GOOGLE 2.1.1 Độ phức tạp Kolmogorov Độ phức tạp Kolmogorov một xâu x, ký hiệu K(x), định nghĩa là đợ dài tính theo bít chương trình ngắn sinh xâu x mợt hệ thống lập trình tham chiếu Độ phức tạp Kolmogorov K(x) cung cấp giá trị giới hạn chương trình sinh x Đó là đợ dài chương trình “lý tưởng” sinh xâu x mợt hệ thống lập trình cụ thể Trở lại ví dụ trên, K(x) giá trị đợ dài nhỏ xâu kết nén x mọi thuật tốn nén 2.1.2 Khoảng cách thông tin Cho hai xâu x y, δ là chương trình ngắn chuyển đổi xâu cho δ(x) = y δ(y) = x, độ dài chương trình δ gọi khoảng cách thơng tin x y Khoảng cách thông tin x y, ký hiệu E(x, y), tính theo công thức [Li97]: E(x, y) = K(x, y) + min{K(x), K(y)} K(x, y) là đợ dài chương trình nhỏ sinh cặp x, y cách để phân biệt chúng Khoảng cách thông tin chuẩn hóa (Normalized Information Distance - NID) hai xâu x y, ký hiệu NID (x, y), một hàm khoảng cách thơng tin có giá trị tḥc [0, 1] xét đến độ dài xâu đầu vào Cơng thức tính khoảng cách NID (x, y) sau: 𝑁𝐼𝐷(𝑥, 𝑦) = (𝐾(𝑥, 𝑦) − min(𝐾(𝑥), 𝐾(𝑦)))/(max(𝐾(𝑥), 𝐾(𝑦))) Gọi C một hàm nén C(x) trả kết là xâu nén x, khoảng cách nén chuẩn hóa định nghĩa sau: 𝑁𝐶𝐷𝐶 (𝑥, 𝑦) = (𝐶(𝑥, 𝑦) − min(𝐶(𝑥), 𝐶(𝑦)))/ max(𝐶(𝑥), 𝐶(𝑦)) 2.1.3 Độ đo Google tính chất R Cilibrasi và P M B Vitányi đề xuất độ đo khoảng cách Google [Cilibrasi4a, Cilibrasi07] thay độ đo khoảng cách nén việc xấp xỉ khoảng cách thông tin Thay sử dụng hàm nén độ đo khoảng cách nén, độ đo khoảng cách Google sử dụng thông tin cung cấp từ hệ thống tìm kiếm Google Với mợt xâu x, đợ phức tạp C(x) trả lại độ dài kết nén xâu x hàm nén C Trong mã Google độ dài G(x) biểu diễn độ dài từ có mã ngắn mong đợi biến cố ex Giá trị kỳ vọng nhận từ phân phối Google g Do đó, phân phối Google sử dụng bộ nén cho ngữ nghĩa Google Kết hợp với họ hàm khoảng cách nén chuẩn hóa trên, khoảng cách Google chuẩn hóa NCDG (Normalized Compress Distance) định nghĩa sau: 𝑁𝐶𝐷𝐺 (𝑥, 𝑦) = 𝐺(𝑥, 𝑦) − min(𝐺(𝑥), 𝐺(𝑦)) max(𝐺(𝑥), 𝐺(𝑦)) (5) Kết hợp công thức (5) với công thức (1), (2), (3) (4) thực một số biến đổi đơn giản, nhận được: 𝑁𝐶𝐷𝐺 (𝑥, 𝑦) = 𝑚𝑎𝑥(𝑙𝑜𝑔|𝑒𝑥 |, 𝑙𝑜𝑔|𝑒𝑦 |) − 𝑙𝑜𝑔|𝑒𝑥 ∩ 𝑒𝑦 | log𝑁 − 𝑚𝑖𝑛(log|𝑒𝑥 |, log|𝑒𝑦 |) (6) Đây là đợ đo khoảng cách Google chuẩn hóa hai xâu x, y Tính chất Khoảng giá trị 𝑁𝐶𝐷𝐺 từ đến +∞ Tính chất NCDG mợt khoảng cách khơng là metric 2.2 MỘT HÌNH TÍCH HỢP ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE Luận án xem xét một phương án đối sánh từ vựng sử dụng độ đo Google và sau tích hợp hai ontology miền 2.2.1 Phát biểu toán Cho hai ontology miền O1, O2 một miền quan tâm Mỗi ontology O1, O2 chứa một tập khái niệm tương ứng Mỗi khái niệm bao gồm tập tḥc tính; hiển nhiên tḥc tính mợt khái niệm một ontology phân biệt Lưu ý rằng, một khái niệm hai ontology O1, O2 có số lượng tḥc tính khác Bài toán thứ nhất: Cho hai khái niệm khái niệm c1O1 khái niệm c2O2 đối sánh tḥc tính khái niệm c1 c2 Bài tốn thứ hai: Cho khái niệm c1O1 khái niệm c2O2, đối sánh hai khái niệm 2.2.2 hình đối sánh thuộc tính hai khái niệm thuộc hai ontology miền Hình 2.1 dẫn hình giải tốn thứ nhất: đối sánh tḥc tính hai khái niệm tḥc hai ontology miền Hình 2.1 hình đối sánh hai khái niệm tḥc hai ontology miền dựa tḥc tính (Procedure Matching (c1, c2)) 2.2.3 hình đối sánh khái niệm tích hợp hai ontology dựa độ đo khoảng cách Google Hình 2.2 hình đối sánh khái niệm tḥc hai ontology miền 2.2.4 Thực nghiệm Trong phần xem xét một ứng dụng độ đo Google là dùng để đối sánh ontology mợt bộ truyền áp suất xác suất, ngữ nghĩa và cơng thức tính đợ đo Google tính chất Mợt hình tích hợp đề xuất hình đối sánh khái niệm tḥc hai ontology miền đối sánh tḥc tính hai khái niệm sử dụng độ đo Google Một số ứng dụng tiêu biểu độ đo Google để đối sánh tḥc tính đối sánh khái niệm tḥc hai ontology miền dầu khí giới thiệu Kết nghiên cứu độ đo Google này trình bày [VNTrinh2, VNTrinh5] Đợ đo Goolge ứng dụng để tích hợp liệu tốn mở rợng Ontology Dầu khí Tiếng Việt [VNTrinh4], đó, đợ đo khoảng cách Google ứng dụng để tính tốn đợ tương đồng khái niệm Tiếng Việt Từ điển Dầu khí ANH-VIỆT với khái niệm Wikipedia Tiếng Việt CHƯƠNG MỘT HÌNH TÍCH HỢP ONTOLOGY TỪ TÀI NGUYÊN KHO NGỮ LIỆU DỰA TRÊN HỌC MÁY MAXIMUM ENTROPY VÀ BEAM SEARCH 3.1 HÌNH TÍCH HỢP ONTOLOGY DỰA TRÊN CÁC KHO NGỮ LIỆU SỬ DỤNG PHƯƠNG PHÁP HỌC MÁY MAXIMUM ENTROPY VỚI BEAM SEARCH Hình 3.1 hình tích hợp ontology dựa kho ngữ liệu sử dụng Phương pháp học máy Thuật tốn học máy đề xuất hình Maximum Entropy Beam Search Việc sử dụng phương pháp Maximum Entropy Beam Search hợp lý huấn luyện số lượng lớn đặc trưng hội tụ nhanh [Berger96], 10 [Borthwick98], [McCallum00], [Ratnaparkhi96] Do đợ phức tạp tính tốn lớn đợ phức tạp tính tốn thuật tốn Beam Search O(kT), nên thuật toán Beam search chọn sử dụng luận án Để kiểm chứng hình đề xuất, mợt ứng dụng hình áp dụng miền liệu y sinh và mang lại kết khả quan Kết việc áp dụng hình tích hợp ontology từ tài nguyên kho ngữ liệu sử dụng học máy Maximum Entropy với Beam Search miền liệu y sinh trình bày và cơng bố [VNTrinh1] hình này, áp dụng để tích hợp thành cơng ontology dầu khí Anh – Việt cách sử dụng kho ngữ liệu Wordnet kho ngữ liệu Wikipedia Tiếng Việt Kết công bố [VNTrinh4, VNTrinh5] 3.2 ÁP DỤNG HÌNH TÍCH HỢP ONTOLOGY SỬ DỤNG CÁC KHO NGỮ LIỆU TRONG MIỀN DỮ LIỆU Y SINH 3.2.1 Tập ngữ liệu biểu Mục đích xây dựng mợt tập liệu cho nhận dạng thực thể biểu với điều kiện tập liệu thử nghiệm liệu huấn luyện tương đối nhỏ và rút từ lĩnh vực gần Để làm điều này, ba tập liệu sử dụng: (1) hai tập liệu Phenominer bệnh tự miễn dịch bệnh tim mạch công việc [Collier14], (2) một tập liệu công việc [Khordad11], tất chọn từ tóm tắt Medline PubMed trích dẫn chun gia cơng nghệ sinh học sở liệu bệnh di truyền, the Online Mendelian Inheritance of Man (OMIM) [Hamosh05] 3.2.2 hình Maximum Entropy với Beam Search Tương tự [Collier13], một phương pháp học máy phù hợp gọi hình Maximum Entropy với Beam Search sử dụng nghiên cứu Việc sử dụng phương pháp này là hợp lý huấn luyện số lượng lớn đặc trưng hội tụ nhanh Sự đánh giá hình này là để đánh giá khác biệt nhỏ với thông tin cho trước Để cài đặt Maximum Entropy với Beam Search, công cụ OpenNLP3 viết Java với tham số mặc định sử dụng Để huấn luyện hình nhận dạng thực thể kiều http://opennlp.apache.org/ 11 hình, mợt số đặc trưng và nguồn tài nguyên bên (các từ điển, ontology) sử dụng, Human Phenotype Ontology (HPO) [Robinson08] Mammalian Phenotype Ontology [Smith04] Quá trình xây dựng Thứ nhất, tiến hành xây dựng một tập liệu huấn luyện để xác định thực thể biểu người Bằng cách kết hợp hai mối quan hệ (mối quan hệ thuật ngữ HPO tài liệu từ sở liệu OMIM trích từ tập tin Phenotype annotation.tab mối quan hệ tài liệu sở liệu OMIM tóm tắt Pubmed), tập hợp mối quan hệ thực thể biểu liên quan đến tóm tắt Pubmed người thuật ngữ HPO Thu thập tất tóm tắt danh sách mối quan hệ trên, tùy tḥc vào tóm tắt tham chiếu đến một danh sách riêng thuật ngữ HPO từ tập tin mối quan hệ, sử dụng mợt phương pháp có tên Noun Chunking để gắn nhãn thực thể biểu tóm tắt Phương pháp Noun Chunking tìm tất danh từ cụm từ danh từ tóm tắt Pubmed so sánh chúng với một danh sách riêng biệt mà tham chiếu đến một số thuật ngữ biểu HPO cụ thể để gán nhãn Cuối cùng, thu tập liệu HPO NC theo phương pháp Một tập liệu huấn luyện xây dựng để xác định thực thể biểu động vật có vú Thứ nhất, thu thập mối quan hệ tóm tắt Pubmed liên quan đến thuật ngữ ontology MP từ hai tệp thống kê: MGI GenoPheno.rpt MGI PhenoGenoMP.rpt Nhóm tóm tắt Pubmed danh sách mối quan hệ trên, tùy thuộc vào tóm tắt tham chiếu đến mợt danh sách riêng thuật ngữ MP, sử dụng Noun Chunking để gắn nhãn thực thể biểu đợng vật có vú cho tóm tắt Pubmed Một tập liệu huấn luyện MP NC tạo là mợt kết q trình Bước tiếp theo, ghép nối hai tập HPO NC và MP NC để có tập HPO MP NC với vùng phủ rộng lớn miền liệu thực thể biểu Bảng 3.1 Thống kê tập liệu Abstracts Tokens Phenotype entities Unique phenotype entities HPO_NC 18.021 3.387.015 39.454 3.579 12 MP_NC 4.035 988.598 6.833 1.169 HPO_MP_NC 22.056 4.375.613 46.287 4.371 Hiệu phương pháp tự động tạo tập liệu cách sử dụng phương pháp học máy (ME + BS) với 17 loại đặc trưng ba tập liệu huấn luyện chuẩn: Phenominer 2012, Phenominer 2013 và Khordad corpus, đánh giá Bảng 3.4 là một kết việc đánh giá kho liệu huấn luyện sinh tự động tập liệu Phenominer 2012 Phenominer 2013 Khordad Bảng 3.2 Đánh giá kết Testing data Phenominer 2012 Phenominer 2013 Khordad corpus Training data P R F P R F P R F HPO_NC 55.37 20.28 29.69 59.82 25.08 35.34 89.57 68.21 77.44 MP_NC 40.08 17.44 24.3 42.64 20.78 27.94 83.24 61.09 70.47 HPO_MP_NC 55.69 22.17 31.71 58.47 23.97 34 88.12 70.54 78.36 Tóm lại, nghiên cứu này trình bày mợt cách có hệ thống cách xây dựng mợt tập liệu huấn luyện tự động cho việc nhận dạng thực thể biểu từ ontology nguồn khác và phương pháp Đây là nghiên cứu để đánh giá một tập lớn đặc trưng cho lớp phức tạp biểu Tập liệu đánh giá cách sử dụng nhận dạng hình thực thể biểu gọi là Phương pháp Maximum Entropy với thuật toán Beam Search Bằng phương pháp này, đạt điểm số F tốt vào khoảng 31,71% Phenominer 2012; 35,34% Phenominer 2013 và 78,36% Khordad 3.3 KẾT LUẬN CHƯƠNG Chương này luận án trình bày mợt hình tích hợp ontology dựa kho ngữ liệu Trong hình này, thơng tin khái niệm, tḥc tính ontology miền (kho ngữ liệu) tích hợp sử dụng thuật toán học máy đối sánh từ vựng Để kiểm chứng tính khả thi hình đề xuất, hình áp dụng thử nghiệm vào miền liệu y sinh, để xây dựng một tập liệu huấn luyện tự động cho việc nhận dạng thực thể biểu từ ontology miền khác Phương pháp Maximum Entropy với thuật tốn Beam Search sử dụng Mợt phần kết nghiên cứu chương này công bố [VNTrinh1] Với kết kiểm chứng tốt, hình này dùng để tích hợp từ điển dầu khí Anh-Việt, Ontology Wordnet, Wikipedia Tiếng Việt để xây 13 dựng ontology dầu khí Anh - Việt kết nghiên cứu công bố [VNTrinh4, VNTrinh5], và trình bày chương CHƯƠNG MỘT HÌNH TÍCH HỢP ONTOLOY DỰA TRÊN HỌC MÁY VỚI DỮ LIỆU DƯƠNG VÀ DỮ LIỆU CHƯA GẮN NHÃN 4.1 ĐẶT VẤN ĐỀ Các thuật toán học máy ứng dụng hiệu nhiều lĩnh vực, có tích hợp liệu, tích hợp ontology Tuy nhiên, mợt khó khăn là liệu dương dùng để huấn luyện hình có Việc gán nhãn thủ cơng tốn nhiều thời gian công sức chuyên gia Đến nay, Việt Nam chưa có Ontology dầu khí mà có từ điển dầu khí Anh Việt Trong Wikipedia Tiếng Việt có nhiều khái niệm dầu khí Luận án nghiên cứu, đề xuất mợt hình tích hợp ontology dựa thuật tốn học máy với liệu dương và liệu chưa gán nhãn, áp dụng vào việc tích hợp liệu từ điển dầu khí Anh - Việt Wikipedia Tiếng Việt để Xây dựng ontology dầu khí Anh - Việt với số lượng khái niệm dầu khí Tiếng Việt mở rợng 4.2 PHÁT BIỂU BÀI TỐN Cho mợt từ điển dầu khí Tiếng Việt bao gồm mợt tập khái niệm dầu khí với giải thích chúng Cho Wikipedia Tiếng Việt có lĩnh vực dầu khí Bài tốn đặt tích hợp liệu từ hai nguồn liệu 4.3 HÌNH ĐỀ XUẤT Hình 4.3 trình bày hình đề xuất cho việc tích hợp liệu Quy trình bao gồm hai giai đoạn tả 4.3.1 Hai giai đoạn tích hợp liệu Giai đoạn Lọc khái niệm miền liệu tiềm Tích hợp liệu dựa đối sánh từ vựng cách sử dụng đối sánh từ vựng trực tiếp khái niệm hai tập liệu Bước Đối sánh từ vựng trực tiếp khái niệm số 11.139 khái niệm với khái niệm 7.155.700 khái niệm Wikipedia Tiếng Việt để trích chọn khái niệm chung Bước Từ khái niệm từ điển Wikipedia Tiếng Việt, tách thành từ, cụm từ có nghĩa, xóa bỏ từ dừng, từ vơ nghĩa Xây dựng đặc trưng và vectơ đặc trưng 14 Bước Đối sánh từ vựng trực tiếp khái niệm (đã đăc trưng hóa) với khái niệm Wikipedia Tiếng Việt để trích chọn khái niệm chung Hình 4.1 hình tích hợp liệu đề xuất cho Ontology dầu khí Giai đoạn Đối sánh khái niệm Đối sánh khái niệm dựa đối sánh gián tiếp khái niệm hai nguồn liệu sử dụng học với liệu dương và liệu chưa gán nhãn kết hợp với độ đo khoảng cách Google và độ đo khoảng cách Cosine để tính tương tự tả khái niệm hai tập liệu từ điển Wikipedia SIMTotal(C1, C2) =  * NCDCosine(C1, C2) + (1 - ) * NCDG(C1, C2) Trong đó, SIMTotal là độ tương tự cuối cùng, C1 and C2 khai niệm cần đối sánh NCDCosine là độ đo khoảng cách Cosine NCDG độ đo khoảng Google chuẩn 4.3.2 Các thành phần Thành phần xử lý liệu Wikipedia, Thành phần tiền xử lý liệu (Data pre-processing component), Thành phần phân lớp liệu (Data classification component), Thành phần tạo tập liệu đánh giá (Evaluation dataset construction component) Chiến lược hai bước sử dụng để giải tốn Mợt cấu trúc phân tầng khái niệm theo độ đo áp dụng Tại bước thứ nhất, tập liệu âm “tin cậy” ("reliable" negative (RN)) phải xác định Tại bước thứ 15 hai, một bộ phân lớp tốt dựa phương pháp lặp xây dựng chọn lựa Trong luận án này, ba thuật toán cài đặt, gồm PERL, ROC-SVM, DISTANCE Công cụ LPU [Li07] sử dụng để chạy thuật toán PERL ROC-SVM 4.4 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.4.1 Dữ liệu thực nghiệm Từ điển dầu khí Anh - Việt, Wikipedia Tiếng Việt, Dữ liệu đánh giá Kết thực nghiệm ba độ đo P, R, F liệu dương 4.4.2 Các trường hợp thực nghiệm Có thực nghiệm thực nghiên cứu 4.4.3 Kết thực nghiệm Phần trình bày kết thực nghiệm Kết thí nghiệm trình bày Bảng 4.1 kết thí nghiệm trình bày Bảng 4.2 Bảng 4.1 Kết độ đo P, R, F thuật toán Method P R F 80.24 76.36 78.25 Cosine 82.53 79.21 80.84 NCDG 67.08 70.45 68.72 Cosine 84.17 80.49 82.29 NCDG 73.25 75.61 74.41 PERL ROC/ISVM DISTANCE/ISVM Bảng 4.2 Sự phụ thuộc độ đo F thuật toán ROC/ISVM DISTANCE vào tỷ lệ   Method 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ROC/ISVM (Hybrid) 68.72 72.59 75.67 76.88 78.49 80.36 82.35 82.41 80.57 81.29 80.84 DISTANCE (Hybrid) 74.41 79.34 80.46 81.53 82.79 83.41 83.17 81.56 82.67 82.19 82.29 4.4.4 Kết xây dựng Ontology dầu khí Tiếng Việt Khi áp dụng thuật toán phân lớp với liệu dương và liệu chưa gán nhãn kết hợp với độ đo Google và Cosine với tỷ lệ  = 0.50 để tích hợp khái niệm từ điển dầu khí với Wikipedia Tiếng Việt thu 5.084 khái niệm dầu khí, chuyên gia 16 dầu khí Viện Dầu khí Việt Nam kiểm tra sơ bợ và đánh giá cao 4.4.5 Nhận xét đánh giá Từ kết thực nghiệm trên, thấy rằng: (1) Phương pháp dựa khoảng cách cho kết tốt phương pháp lại; (2) Đợ đo khoảng cách Cosine tốt NCDG dựa đặc trưng tả hai khái niệm; (3) Việc kết hợp hợp Cosine NCDG giúp tăng đợ xác kết với tham số trộn alpha = 0.5 phương pháp Distance và 0.7 phương pháp ROC/ISVM (4) Tích hợp liệu sử dụng thuật toán phân lớp với liệu dương và liệu chưa gán nhãn kết hợp với độ đo Google và đợ đo Cosine (giai đoạn hình đề xuất) tốt thuật tốn đối sánh từ vựng trực tiếp (giai đoạn hình đề xuất) (5) Mợt Ontology Dầu khí Tiếng Việt hoàn toàn sinh với 16.084 khái niệm, tăng 5.084 khái niệm Tiếng Việt so với từ điển ban đầu 4.5 PHÁT TRIỂN HÌNH ĐỀ XUẤT 4.5.1 Giới thiệu Từ điển Anh-Việt chun ngành dầu khí gồm có 11 nghìn khái niệm liên quan đến dầu khí, trình bày mục 1.5 Nguồn liệu Wordnet, với 114.000 khái niệm tiếng Anh, khái niệm dầu khí, liên kết với thơng qua mợt số mối quan hệ Có tất 20 loại quan hệ khái niệm ontology Wordnet Bài toán đặt tích hợp hai nguồn liệu để xây dựng mợt ontology dầu khí Anh -Việt, có cấu trúc, có chứa mối quan hệ mặt ngữ nghĩa khái niệm, hoạt động tảng web-based, với giao diện đồ họa thân thiện, dễ sử dụng Hiện nay, có nhiều cơng cụ sử dụng để hỗ trợ việc xây dựng Ontology Công cụ Protégé công cụ đánh giá là tốt nhất, nhiên cơng cụ yếu điểm không hỗ trợ việc thêm một ontology (kế thừa) hạn chế việc hỗ trợ đa người dùng (phân cấp phân quyền, cộng tác) [Khondoker10], [GFC07] 4.5.2 Phương pháp Việc tích hợp liệu hai nguồn để xây dựng ontology dầu khí tả sau Bước Sử dụng phương pháp đối sánh từ vựng so sánh một khái niệm Tiếng Anh từ điển với một khái niệm Tiếng Anh Wordnet Tiếng Anh, để lấy tất khái niệm Tiếng Anh vừa có quan hệ với Wordnet Tiếng Anh vừa có từ điển dầu khí lấy cho vào ontology mới, với mối quan hệ tương ứng 17 khái niệm Tiếng Anh Bước Từ nguồn liệu từ vựng, chuyên gia định nghĩa (lớp) nhóm từ tương ứng với nhóm lĩnh vực ngành cơng nghiệp Dầu khí Sau đó, chun gia nhập liệu mợt số từ mẫu vào nhóm tương ứng để tạo lập bộ liệu huấn luyện Bước Xây dựng công cụ phần mềm hỗ trợ thực việc rút trích tự đợng đặc trưng tương ứng với nhóm mà chuyên gia định nghĩa Bước Từ tập từ đặc trưng cơng cụ đề xuất, chun gia kiểm tra, chọn lọc lại đặc trưng xác và loại bỏ đặc trưng chưa Bước Để nâng cao tốc đợ xử lý và đợ xác phân loại, tiến hành loại bỏ từ dừng, từ ngắt, từ vô nghĩa Ở bước này, để loại bỏ từ vơ nghĩa ta cần phải tách từ câu tiếng Việt Để giải vấn đề này, sử dụng công cụ JVNTextPro4 để thực tách từ tiếng Việt Bước Xây dựng công cụ phân lớp từ vào nhóm/lớp tương ứng sử dụng thuật tốn học máy Bước Sau chun gia kiểm tra lại kết phân lớp trước cập nhật vào CSDL để làm giàu cho ontology 4.5.3 Kết Ontology dầu khí Anh – Việt xây dựng cơng cụ hỗ trợ tích hợp xây dựng 4.5.4 Nhận xét Đối sánh từ vựng, tri thức chuyên gia, khái niệm đồng nghĩa Tiếng Việt, thuật toán học máy sử dụng để xây dựng ontology dầu khí Anh – Việt với 11.139 khái niệm tả cúng với 6.382 quan hệ kế thừa từ ontology Wordnet Ontology dầu khí Anh – Việt hữu ích cho cán bợ nhân viên ngành dầu khí việc nghiên cứu, tra cứu, biên dịch, đào tạo, tích hợp liệu, mở rợng và tương lai Nó dùng để tích hợp với Wikipedia Tiếng Việt để mở rộng thêm khái niệm Tiếng Việt cách sử dụng hình học với liệu dương và liệu chưa gán nhãn 4.6 KẾT LUẬN CHƯƠNG Chương luận án trình bày mợt hình tích hợp ontology dầu khí sử dụng thuật toán học máy với liệu dương và liệu chưa gán nhãn kết hợp với độ đo Google và độ đo Cosine để nâng cao hiệu việc tích hợp Đồng thời, luận án đưa hai ví http://jvntextpro.sourceforge.net/ 18 dụ cụ thể để áp dụng hình đề xuất miền liệu dầu khí, sử dụng từ điển dầu khí Anh – Việt, ontology Wordnet, Wikipedia Tiếng Việt Kết nghiên cứu học máy với liệu dương và liệu chưa gán nhãn kết hợp với độ đo Google và đợ đo Cosine này trình bày [VNTrinh4] Thuật toán học máy với liệu dương và liệu chưa gán nhãn kết hợp với độ đo Google và độ đo Cosine ứng dụng để tích hợp liệu tốn xây dựng ontology miền dầu khí Anh-Việt trình bày [VNTrinh5] chương luận án CHƯƠNG XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM 5.1 ĐẶT VẤN ĐỀ Trên sở kết nghiên cứu trình bày chương trước luận án nhu cầu thực tiễn ngành dầu khí Việt Nam, luận án tiến hành xây dựng mợt ontology miền dầu khí, sử dụng kết hợp thuật toán nghiên cứu, phục vụ cho cơng việc tra cứu, tìm kiếm, nghiên cứu, đạo tạo, dịch thuật hàng ngày bộ, nhân viên ngành dầu khí 5.2 TIẾP CẬN XÂY DỰNG ONTOLOGY QUA NĂM BƯỚC Hình 5.1 hình xây dựng ontology dầu khí Anh - Việt Viện Dầu khí Việt Nam Hình 5.1 tả khung hình tích hợp ontology miền dầu khí Anh – Việt Khung bao gồm phần: Lọc khái niệm miền dầu khí Tiếng Việt tiềm năng, Tích hợp ontology, Bổ sung thành phần Tiếng Việt vào ontology miền dầu khí Tiếng Anh, Đối sánh khái niệm miền dầu khí Tiếng Việt, Tích hợp ontology dựa tích hợp sở niềm tin phân tầng Tiếp cận này đảm bảo tám nguyên tắc thiết kế ontology năm bước thiết kế ontology Tiếp cận 19 xây dựng ontology dầu khí Anh – Việt thể thơng qua mợt q trình gồm năm bước sau thể Hình 5.1.Bước Lọc khái niệm miền dầu khí Tiếng Việt tiềm Bước Tích hợp Ontology Bước Đối sánh khái niệm miền dầu khí Tiếng Việt Bước Bổ sung thành phần Tiếng Việt vào ontology miền dầu khí Tiếng Anh Bước Tích hợp ontology dựa tích hợp sở niểm tin phân tầng Trong Bước 5, tri thức chuyên gia dầu khí sử dụng để kiểm tra, chỉnh sửa lỗi, xác hóa kết việc tích hợp việc phân lớp liệu, để nâng cao chất lượng kết tích hợp Khi đối sánh hai khái niệm c1 thuộc O1 c2 thuộc O2, độ đo khoảng cách Google (cơ sở tri thức) trả một số (niềm tin) tương đồng c1 và c2, đó, độ đo khoảng cách Cosine (cơ sở tri thức) trả một số khác (niềm tin) tương đồng c1 c2 Hai kết khác nhau, chí là trái ngược, mâu thuẫn Ngoài ra, sử dụng tri thức chuyên gia dầu khí (cơ sở tri thức) để kiểm tra, rà soát tương đồng (niềm tin) hai khái niệm dầu khí c1 c2, phân lớp (niềm tin) khái niệm dầu khí vào nhóm (lớp) liệu, xuất mâu thuẫn chun gia Thuật tốn tích hợp ontology dựa tích hợp sở niềm tin phân tầng [VNTrinh3] giúp giải toán dạng này Phương pháp tích hợp niềm tin tích hợp ontology sử dụng kỹ thuật tranh luận Ý tưởng tổ chức quy trình tích hợp niềm tin là mợt trò chơi mà tác nhân tham gia sử dụng kỹ thuật tranh luận để tranh luận, dựa sở niềm tin họ, để đạt một đồng thuận (một sở niềm tin chung) từ mợt tình mâu thuẫn 5.3 TRIỂN KHAI 5.3.1 Thu thập tiền xử lý liệu Dữ liệu thu thập từ ba nguồn chính: từ điển dầu khí Anh – Việt, Wordnet5 Tiếng Anh, liệu từ Wikipedia6 Tiếng Việt Các liệu thu thập, chọn lọc, tách câu, tách từ, token hóa, loại bỏ từ dừng, từ nối, từ vơ nghĩa Ngồi ra, danh sách từ đồng nghĩa Tiếng Việt7 danh sách từ vô nghĩa Tiếng Việt8 sử https://wordnet.princeton.edu https://wordnet.princeton.edu http://viet.wordnet.vn https://github.com/stopwords/vietnamese-stopwords 20 dụng Công cụ JVNTextPro9 , DKPro10 Java Wikipedia Library, LPU11 , Thư viện javascript “GoJS”12 , Microsoft NET MVC 4.0 (Model-View-Controller), SQL Server 2014 sử dụng 5.3.2 Thi hành ontology dầu khí Anh - Việt hệ thống máy tính Áp dụng khung hình tích hợp ontology miền dầu khí Anh – Việt, bao gồm bước 5.3.3 CÀI ĐẶT Ontology dầu khí Anh – Việt cài đặt máy chủ Viện Dầu khí Việt Nam 5.4 KẾT QUẢ Ontology dầu khí Anh - Việt xây dựng đáp ứng hoàn toàn tất yêu cầu đặt ra, với 11.139 khái niệm dầu khí Tiếng Anh 16.223 khái niệm dầu khí Tiếng Việt, tả chúng Tiếng Anh Tiếng Việt, với 6.823 mối quan hệ khái niệm thỏa mãn hoàn toàn yêu cầu đặt ban đầu Biểu diễn đồ họa mối quan hệ một khái niệm dầu khí với khái niệm dầu khí lại, hai khái niệm dầu khí ontology dầu khí thực Các chức quản trị khái niệm thông tin liên quan cài đặt với giao diện đồ họa Các cơng cụ đồ họa hỗ trợ tích hợp liệu triển khai Chức phân cấp, phân quyền đến người dùng biện pháp bảo đảm an ninh, an tồn, bảo mật thơng tin thực Có thể lưu, dự phòng khôi phục dễ dàng Phần mềm thiết kế theo hướng mở, tường minh từ thiết kế, sử dụng hệ quản trị sở liệu chuyên nghiệp, thương mại Microsoft, dễ dàng nâng cấp, mở rộng tương lai 5.5 KẾT LUẬN CHƯƠNG Chương này luận án trình bày mợt hình xây dựng ontology miền dầu khí sử dụng kết nghiên cứu từ chương khác luận án đợ đo Google, thuật tốn học với liệu dương liệu chưa gán nhãn, sử dụng kho ngữ liệu, sở niềm tin phân tầng [VNTrinh3], nguyên tắc và bước xây dựng ontology, nhu cầu thực tiễn ngành dầu khí Việt Nam hình này http://jvntextpro.sourceforge.net/ https://dkpro.github.io/dkpro-jwpl/ 11 http://www.cs.uic.edu/~liub/LPU/LPU-download.html 12 https://gojs.net 10 21 áp dụng để xây dựng một xây dựng mợt ontology miền dầu khí Anh - Việt cụ thể Ontology miền dầu khí Anh - Việt phục vụ hiệu cho cơng việc tra cứu, tìm kiếm, nghiên cứu, đạo tạo, dịch thuật hàng ngày bợ, nhân viên ngành dầu khí đáp ứng yêu cầu chức yêu cầu thiết kế chuẩn một ontology KẾT LUẬN I Những kết luận án Luận án tham gia vào dòng nghiên cứu tích hợp liệu giới và đạt mợt số đóng góp sau tích hợp liệu Thứ nhất, luận án đề xuất bốn hình tích hợp liệu Mợt hình tích hợp liệu dựa đợ đo Google [VNTrinh2, VNTrinh4] Hai hình tích hợp liệu dựa kho ngữ liệu sử dụng học máy Maximum Entropy Beam Search [VNTrinh1, VNTrinh4, VNTrinh5] Ba hình tích hợp liệu dựa học máy với liệu dương và liệu không gán nhãn [VNTrinh4, VNTrinh5] Bốn hình tích hợp liệu kết hợp kỹ thuật để xây dựng ontology dầu khí Anh - Việt [VNTrinh1, VNTrinh2, VNTrinh4, VNTrinh5] Thứ hai, luận án khảo sát ba giải pháp: một giải pháp tích hợp liệu dựa đợ đo, hai là giải pháp tích hợp liệu dựa học máy, ba giải pháp tích hợp liệu dựa kho ngữ liệu Thứ ba, sở phát triển thuật toán học máy với liệu dương và liệu chưa gán nhãn (Positive and Unlabeled Learning), luận án đề xuất một thuật tốn kết hợp đợ đo Google và đợ đo khoảng cách Cosine với thuật toán học máy với liệu dương và liệu chưa gán nhãn để tích hợp liệu, nâng cao hiệu thuật toán Thứ tư, luận án đóng góp trực tiếp vào hệ thống tích hợp liệu Viện Dầu khí Việt Nam Mợt ontology Dầu khí ANH - VIỆT xây dựng dựa việc tích hợp từ điển Anh -Việt với Wordnet Tiếng Anh Wikipedia Tiếng Việt sử dụng cho việc tra cứu, nghiên cứu, đào tạo và là sở cho việc mở rộng, tích hợp với hệ thống liệu khác (ví dụ hệ thống chia sẻ tri thức có Viện Dầu khí Việt Nam ) ontology dầu khí khác giới, tương lai Các thuật tốn tích hợp liệu sử dụng học máy tiếp tục nghiên cứu để áp dụng cho bài tốn khác lĩnh vực thăm dò, khai thác dầu khí (ví dụ: ứng dụng thuật tốn học máy tích hợp liệu để nâng cao hệ số thu hồi dầu ) Đồng thời, nhằm minh chứng cho tiềm ứng dụng thực tiễn hình đề xuất, luận án thực thi thực nghiệm để kiểm chứng tính hữu dụng 22 thuật tốn và hình luận án đề xuất Kết thực nghiệm cho thấy tiềm ứng dụng cao kết nghiên cứu từ luận án Luận án có đóng góp việc cung cấp mợt nghiên cứu tổng quan tích hợp liệu II Hạn chế luận án Trong trình triển khai hình, luận án tồn một số hạn chế sau: Một là, miền ứng dụng áp dụng để xây dựng ontology dầu khí Anh - Việt Các liệu (khái niệm) chủ yếu khâu đầu chuỗi hoạt đợng dầu khí, chưa mở rộng khâu khác (khâu giữa, khâu sau) Các liệu có giá trị khác liên quan đến hoạt đợng thăm dò khai thác khác chưa tích hợp để hỗ trợ định (ví dụ: liệu khai thác dầu khí hàng ngày mỏ dầu khí) Hai là, mợt sản phẩm luận án ontology dầu khí Anh - Việt, nhiên, cần phải có thêm thời gian để chun gia dầu khí rà sốt, chỉnh sửa, cập nhật để nâng cao chất lượng và độ tin cậy phần mềm III Định hướng nghiên cứu Trong thời gian tiếp theo, nghiên cứu sinh tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận án tiếp tục triển khai đề xuất để hoàn thiện giải pháp cho tích hợp liệu Mợt là, kỹ thuật học máy ngày càng quan tâm cộng đồng nghiên cứu ứng dụng, nên có nhiều thuật tốn học máy ứng dụng tích hợp liệu Do đó, việc nghiên cứu, áp dụng thuật toán học máy tích hợp liệu là mợt hướng tương lai Hai là, nghiên cứu để phát triển hệ thống có áp dụng kết nghiên cứu tích hợp tri thức Ba là, nghiên cứu, tìm kiếm, chọn lựa ontology dầu khí có chất lượng cao giới để tích hợp với ontology có để mở rợng, tăng thêm số lượng khái niệm (từ vựng) dầu khí, đặc biệt khái niệm thuộc khâu khâu sau chuỗi hoạt đợng dầu khí Bốn là, tăng cường sử dụng tri thức chuyên gia dầu khí để kiểm tra, rà soát, chỉnh sửa, bổ sung, để tăng cường tính đắn khái niệm, tả, quan hệ Năm là, tích hợp với hệ thống liệu có sẵn Viện dầu khí Việt Nam Tập đoàn Dầu khí Việt Nam để phát huy hiệu ontology dầu khí hệ thống có (ví dụ: hệ thống quản lý chia sẻ tri thức Viện Dầu khí Việt Nam) Sáu là, tiếp tục nghiên cứu áp dụng thuật tốn học máy 23 để tích hợp liệu thăm dò, khai thác, chế biến, lọc hóa dầu, an toàn, môi trường, kinh tế quản lý dầu khí để hỗ trợ định cho lãnh đạo chuyên gia cấp, nâng cao hiệu sản xuất kinh doanh (ví dụ: ứng dụng học máy để tích hợp liệu khai thác nhằm nâng cao hệ số thu hồi dầu) DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN13 [VNTrinh1] Ngoc-Trinh Vu, Van-Hien Tran, Thi-HuyenTrang Doan, Hoang-Quynh Le, and Mai-Vu Tran (2015) A Method for Building a Labeled Named Entity Recognition Corpus Using Ontologies Proceedings of 3rd International Conference on Computer Science, Applied Mathematics and Applications - ICCSAMA 2015, pp 141-149 (Scopus) [VNTrinh2] Trinh Vu Ngoc, Ha Quang Thuy, Tran Trong Hieu Độ đo GOOGLE tích hợp liệu Hội nghị quốc gia lần thứ VIII "Nghiên cứu và ứng dụng Công nghệ thông tin" (FAIR 2015), trang 224-231 (Scopus, DBLP) [VNTrinh3] Trong Hieu Tran, Thi Hong Khanh Nguyen, Quang Thuy Ha, and Ngoc-Trinh Vu Argumentation framework for merging stratified belief bases Asian Conference on Intelligent Information and Database Systems (ACIIDS 2016), pp 43-53 [VNTrinh4] Ngoc-Trinh Vu, Quoc-Dat Nguyen, Tien-Dat Nguyen, Manh-Cuong Nguyen, Van-Vuong Vu, and QuangThuy Ha A Positive-Unlabeled Learning Model for Extending a Vietnamese Petroleum Dictionary based on using Vietnamese Wikipedia Data ACIIDS (1) 2018: 190-199 (Scopus, DBLP) [VNTrinh5] Ngoc-Trinh Vu, Hung-Son Nguyen, QuangThuy Ha An English-Vietnamese Domain Ontology Integration Model and an Application in Oil and Gas Domain MAPR 2018 (submitted) 13 Scopus: https://www.scopus.com/authid/detail.uri?authorId=56878562200; DBLP: http://dblp.uni-trier.de/pers/hd/v/Vu:Ngoc_Trinh 24 ... khung nhìn điển hình tích hợp liệu mức lược đồ Căn vào xu hướng nghiên cứu này, luận án Nghiên cứu tích hợp mơ hình liệu trung tâm liệu ngành dầu khí Việt Nam tập trung vào tốn tích hợp ontology... tích hợp liệu Tích hợp ontology coi mợt dạng tích hợp liệu tiến hành kiểu liệu đặc biệt, đồng thời, tích hợp liệu dựa ontology nhận diện mợt kỹ thuật tích hợp liệu phổ biến Tích hợp liệu tích. .. BƯỚC Hình 5.1 Mơ hình xây dựng ontology dầu khí Anh - Việt Viện Dầu khí Việt Nam Hình 5.1 mơ tả khung mơ hình tích hợp ontology miền dầu khí Anh – Việt Khung bao gồm phần: Lọc khái niệm miền dầu

Ngày đăng: 14/03/2019, 14:55

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan