MỞ ĐẦU Tính cấp thiết của luận án Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học” hoặc “bản thể luận” 1) là một thành phần tri thức nền tảng và mọi tri thức khác cần được dựa trên[.]
MỞ ĐẦU Tính cấp thiết luận án Ontology (được số nhà nghiên cứu người Việt gọi “bản thể học” “bản thể luận” 1) thành phần tri thức tảng tri thức khác cần dựa tham chiếu đến Chính vậy, ontology áp dụng rộng khắp lĩnh vực trí tuệ nhân tạo (Artificial Intelligence: AI), quản lý tri thức (Knowledge Management: KM), nhiều hệ thống ứng dụng nhiều miền ứng dụng khác Một khu vực ứng dụng ontology vô rộng lớn cơng cụ tìm kiếm (search engine) chia sẻ tri thức (knowledge sharing), đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu trúc, so sánh tùy chỉnh cao [7], [19], [32], [40], [76], [77] Thuật ngữ “ontology” cộng đồng nghiên cứu – triển khai khác hiểu theo ý nghĩa khác Có phân biệt thuật ngữ “Ontology” danh từ riêng (chữ “O” viết hoa) với “ontology” danh từ chung (chữ “o” viết thường danh từ đếm được) [35] Danh từ riêng “Ontology” dành riêng cho cộng đồng nghiên cứu triết học, danh từ chung “ontology” dành cho cộng đồng sử dụng thuật ngữ kiểu thông tin đặc biệt tạo tác (artifact) tính tốn trình diễn tri thức Luận án nghiên cứu “ontology” theo phương án danh từ chung, hay “ontology” hiểu ontology tính tốn (computational ontologies) Định nghĩa ontology tính tốn cơng việc khó khăn nhiều định nghĩa đưa Theo khung nhìn phổ quát, ontology sản phẩm trình diễn với thành phần đặc thù bảng phân loại biểu diễn tường minh tổ hợp kiểu, lớp số quan hệ chúng [7] Trong khung nhìn khoa học máy tính, ontology mơ tả cách hệ thống thực thể phương thức chúng, quy tắc cho phép mô tả mơ hình cụ thể phù hợp với thực thể quy trình cho phép mơ tả "tất cả" thực thể quy trình [71] Theo cách hiểu thông dụng nhất, ontology bao gồm Do thuật ngữ “bản thể học” “bản thể luận” thuật ngữ có nguồn gốc vay mượn từ ngôn ngữ khác mà không gợi nghĩa nhiều thuật ngữ “ontology” luận án sử dụng nguyên gốc “ontology” thuật ngữ, khái niệm quan trọng, phân loại khái niệm, phân cấp khái niệm, quan hệ khái niệm (bao gồm ràng buộc quan trọng), tiên đề ứng dụng thể cho đối tượng kể Ontology phân loại thành ontology triết học (philosophical ontology), ontology miền (domain ontology), ontology mức cao (top-level ontology), ontology tham chiếu (reference ontology) ontology ứng dụng (application ontology) [7] Ngoại trừ ontology triết học, tất loại ontology thuộc loại ontology miền Do phạm vi ứng dụng rộng rãi ontology, xây dựng ontology tốn có tầm quan trọng đặc biệt, chủ đề nghiên cứu nhận quan tâm đặc biệt cộng đồng nghiên cứu – triển khai thuộc ngành khoa học đa dạng Nhìn chung, trình xây dựng ontology bao gồm ba giai đoạn (xác định mục đích phạm vi, nắm bắt ontology thực thi ontology) [39] Các nội dung đặc biệt quan trọng xây dựng ontology (i) xác định mục đích phạm vi ontology cần xây dựng, (ii) xác định khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp phạm vi ontology cần xây dựng, (iii) khai thác ontology sẵn có, (iv) huy động tri thức tham gia chuyên gia miền [7], [39] Hiện chưa có ontology tiếng Việt cho miền dầu khí, song vài ontology tiếng Việt cho miền ứng dụng khác xây dựng, điển hình ontology VN-KIM thành phần ontology tiếng Việt hệ thống BioCasster VN-KIM [3], [63] phát triển Đại học Bách khoa, Đại học Quốc gia Tp Hồ Chí Minh Ontology bao gồm 347 lớp thực thể 114 quan hệ thuộc tính Ontology VN-KIM bao gồm lớp thực thể có tên phổ biến Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố (City)…, quan hệ lớp thực thể thuộc tính lớp thực thể Cơ sở tri thức VN-KIM tập hợp thực thể có tên phổ biến Việt Nam Quốc tế Các thực thể thuộc miền như: Con người (các nguyên thủ quốc gia, giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…); Tổ chức, công ty (các tổ chức xã hội, giáo dục, công ty…); Đơn vị hành (các tỉnh, thành phố, quận, huyện, phường, xã Việt Nam thành phố lớn giới); Sông, núi (các sông, núi lớn Việt Nam giới); Đường (các đường lớn Hà Nội, TP Hồ Chí Minh, tỉnh lộ, quốc lộ); Điểm đặc biệt (các di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí tiếng) BioCaster [22], [23], [24], ontology lĩnh vực y tế viết nhiều ngôn ngữ Nhật, Thái, Việt Nam BioCaster dự án nghiên cứu nhằm cung cấp chức tìm kiếm nâng cao phân tích tin tức Internet tài liệu nghiên cứu liên quan, cho nhân viên làm việc lĩnh vực y tế cộng đồng, thầy thuốc lâm sàng, nhà nghiên cứu lĩnh vực bệnh truyền nhiễm Ontology BioCaster Nigel Collier thuộc Viện Thông tin Quốc gia Nhật Bản đồng nghiệp Viện bệnh lây nhiễm Quốc gia Nhật Bản, Viện Di truyền học Quốc gia Nhật Bản, Đại học Okayama, Đại học Quốc gia TP.HCM Đại học Kasetsarat phát triển Dựa vào công nghệ khai phá liệu văn bản, dự án cung cấp cơng cụ thơng minh giúp người sử dụng có nhìn rõ ràng đợt dịch bệnh xảy khả bùng phát dịch Ontology BioCaster chứa thuật ngữ nhiều ngôn ngữ, có 371 thuật ngữ tiếng Việt (các thuật ngữ liên quan đến bệnh, virus, triệu chứng Việt Nam) Mặc dù ontology có xử lý trích chọn thơng tin tiếng Việt, nhiên, quan hệ thành phần ontology lại mô tả tiếng Anh Theo C Sammut G.I Webb [70], xây dựng ontology toán đầy thách thức, nhiều tiếp cận xây dựng ontology khác sử dụng, nhiên, hầu hết tiếp cận chủ yếu sử dụng phương pháp thủ công Học ontology (ontology learning) cách tiếp cận bán tự động xây dựng ontology dựa việc sử dụng kỹ thuật khai phá văn (text mining) hoặc/và học máy (machine learning) Học ontology phục vụ việc xác định khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp phạm vi tri thức miền Học ontology xu hướng có tính đại đầy thách thức nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58], [62], [67], [74], [78], [79], [80] Học ontology chủ để nghiên cứu nhận quan tâm cộng đồng nghiên cứu Hình 0.1 cung cấp biểu diễn số lượng cơng trình khoa học ScienceDirect, Springer Google Scholar giai đoạn 2006 – 2019 có chứa xác cụm từ “ontology learning” tiêu đề ấn phẩm (với ScienceDirect Google Scholar Advanced Search “not include patents, not include citations”) thông tin mô tả ấn phẩm (với Springer)2 Kết thống kê hàng năm có tới hàng chục ấn phẩm chứa xác cụm từ “ontology learning” tiêu đề (ScienceDirect Google Scholar) thông tin mô tả (Springer) Số lượng công bố ổn định qua thống kê với ScienceDirect Google Scholar Trong đó, số lượng cơng bố với Springer có xu giảm có nguyên nhân từ nguồn chứa cụm từ “ontology learning” phân chia chủ đề “ontology learning” thành chủ đề chi tiết Hình 0.1 Một biểu diễn số lượng ấn phẩm khoa học có chứa xác cụm từ “ontology learning” ScienceDirect, Springer Google Scholar Xây dựng ontology học ontology chủ đề nghiên cứu số luận án Tiến sỹ giới, chẳng hạn [29], [34], [1] Luận án Tiến sỹ Z Dragisic [29] đề cập tới việc giải vấn đề chưa hoàn thiện ontology mạng ontology theo ba câu hỏi cách thức hoàn thiện ontology mạng ontology chưa hoàn thiện, thuận lợi hạn chế sử dụng tương tác người dùng vào việc hoàn thiện ontology mạng ontology, khả tích hợp thành phần hồn thiện ontology vào q trình phát triển ontology Tác giả hình thức hóa vấn đề hoàn thiện cấu trúc “chung-riêng” (“is-a”) dựa logic mô tả Kết trả theo truy vấn cụm từ xác “ontology learning” vào ngày 20/6/2019 (description logic) phát triển hai thuật toán giải vấn đề, phân tích thực nghiệm việc sử dụng tương tác người dùng phát triển phương pháp dựa thuật tốn phân cụm để giảm khơng gian tìm kiếm tích hợp thành phần hồn thiện vào trình phát triển ontology Luận án Tiến sỹ Saira Andleeb Gillani [34] đề xuất khung khai phá liệu văn ProMine (Prokex Text Mining) với liệu đầu vào mơ hình quy trình nghiệp vụ trình diễn tệp tin XML Dựa ontology miền hạt giống (seed domain ontology, gọi ontology miền mồi), công cụ học ontology tiến hành việc lọc phân loại tri thức kết để làm giàu ontology miền hạt giống nói [33] Đến lượt mình, ontology miền hạt giống sử dụng để diễn giải tư vấn mô hình quy trình nghiệp vụ Luận án Tiến sỹ Trương Hải Bằng [1] đề cập tới giải pháp liên quan đến ontology mờ (chứa khái niệm, quan hệ chưa rõ ràng, nhập nhằng, mâu thuẫn với nhau) dựa sở lý thuyết đồng thuận; luận án chưa đề cập tới yếu tố tiếng Việt ontology Tính chất thách thức cao chủ đề nghiên cứu xây dựng ontology, yêu cầu phương pháp bán tự động xây dựng ontology đại dựa khai phá văn học máy, tình trạng nghiên cứu xây dựng ontology tiếng Việt mỏng tạo động lực nghiên cứu luận án “Nghiên cứu số mơ hình học ontology ứng dụng miền dầu khí” Bài tốn cần giải luận án phát biểu sau: Cho trước từ điển Anh – Việt miền ứng dụng, cần xây dựng ontology AnhViêt miền ứng dụng nói Luận án sử dụng tiếp cận học ontology dựa việc khai thác tài nguyên sẵn có (từ điển Anh-Việt miền, ontology tiếng Anh miền) để xác định khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp phạm ontology cần xây dựng với việc huy động tri thức tham gia chuyên gia miền W Wong cộng [79] cung cấp khung nhìn khái quát học ontology từ văn Khung nhìn chứa ba khu vực khu vực kết đầu ra, khu vực toán học ontology khu vực kỹ thuật tài nguyên sử dụng để phục vụ toán học ontology Khu vực kết đầu học ontology bao gồm thuật ngữ, khái niệm, quan hệ (quan hệ thứ bậc, quan hệ không thứ bậc) tiên đề Có bảy tốn học ontology Xử lý văn Trích xuất thuật ngữ cho kết thuật ngữ, Hình thức hóa khái niệm Gán nhãn khái niệm cho kết khái niệm, Xây dựng kiến trúc cho kết quan hệ thứ bậc, toán Phát quan hệ không thứ bậc Gán nhãn quan hệ không thứ bậc cho kết quan hệ không thứ bậc, Trích xuất tiên đề kết tiên đề Khu vực Kỹ thuật/Tài nguyên bao gồm ba thành phần kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ học kỹ thuật/tài nguyên thống kê Với sáu lập luận, tác giả nhận định đan xen học ontology sử dụng web xu tự nhiên sử dụng thông tin web để học ontology có nhiều triển vọng Xu định hướng vào mô hình học ontology có sử dụng tài ngun Web luận án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, công cụ sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.) Do đặc điểm bán tự động, học ontology thường bao gồm thành phần huy động tham gia người vào q trình xây dựng ontology Ví dụ, khung xây dựng ontology sở miền S-H Hsieh cộng [38] chứa thành phần quan trọng thực việc huy động chuyên gia tham gia vào công việc hiệu chỉnh lại quan hệ thuật ngữ Tích hợp ý kiến nhiều chuyên gia vào việc hiệu chỉnh quan hệ thuật ngữ để nhận quan hệ phù hợp tốn có ý nghĩa Theo định hướng này, luận án đề nghị khung hợp niềm tin dựa tranh luận, cung cấp sở lý thuyết tảng để triển khai thành phần hệ thống thực tiễn Nghiên cứu luận án hướng tới số mục tiêu sau Thứ nhất, luận án hướng tới việc đề xuất số mơ hình học ontplogy dựa khai phá liệu văn học máy kết hợp với việc sử dụng số độ đo Theo định hướng này, luận án tập trung đề xuất mơ hình học ontology phát sinh thể quan hệ, học ontology thông qua việc kết hợp ontology sẵn có Thứ hai, luận án hướng tới việc đề xuất mơ hình hợp tri thức từ chuyên gia miền vào xây dựng ontology Cuối cùng, luận án hướng tới việc xây dựng ontology Anh – Việt miền dầu khí phục vụ cơng tác nghiệp vụ Tập đồn Dầu khí quốc gia Việt Nam Đối tượng nghiên cứu luận án mô hình học ontology dựa kỹ thuật khai phá liệu văn bản, học máy thu nhận tri thức chuyên gia miền ứng dụng vào xây dựng ontology miền Phạm vi nghiên cứu luận án giới hạn phạm vi mơ hình học ontology theo phương thức bán tự động dựa kỹ thuật khai phá liệu, học máy tích hợp tri thức Phương pháp nghiên cứu luận án nghiên cứu lý thuyết đề xuất mơ hình bán tự động xây dựng ontology (dựa kỹ thuật khai phá liệu, học máy tích hợp tri thức), nghiên cứu thực nghiệm để kiểm chứng đánh giá mơ hình đề xuất cơng bố kết nghiên cứu ấn phẩm khoa học có uy tín Luận án tham gia vào dịng nghiên cứu học ontology giới đạt số đóng góp bước đầu, tập trung vào nghiên cứu, đề xuất mơ hình học ontology miền Về phương diện lý thuyết, luận án có hai đóng góp vào dịng nghiên cứu học ontology Thứ nhất, luận án đề xuất ba mơ hình học ontology gồm (i) mơ hình học ontology xây dựng ontology kết hợp liệu từ ontology sẵn có sử dụng học máy Maximum Entropy Beam Search nhận dạng thực thể miền [VNTrinh1], [VNTrinh4], (ii) mơ hình học ontology sử dụng độ đo Google để tích hợp số tập khái niệm miền sẵn có thành tập khái niệm miền lớn [VNTrinh2], [VNTrinh4], (iii) mơ hình học ontology dựa học máy với liệu dương liệu không gán nhãn để bổ sung khái niệm miền từ kho tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có [VNTrinh4] Luận án đề xuất thuật toán học máy với liệu dương liệu không gán nhãn DISTANCE cho mơ hình thứ ba Thứ hai, luận án đề xuất mơ hình thu nhận ý kiến chun gia miền vào trình xây dựng ontology miền dựa khung hợp niềm tin dựa tranh luận (bao gồm giao thức tranh luận hợp niềm tin lập luận hợp niềm tin) thuật toán xây dựng giải pháp tranh luận hợp niềm tin tương ứng [VNTrinh3] Về phương diện ứng dụng, luận án đề nghị quy trình bảy bước xây dựng ontology dầu khí Anh-Việt Quy trình vừa tổng hợp kết nghiên cứu luận án vừa cung cấp phương án thực thi kết nghiên cứu vào thực tiễn Một ontology Dầu khí Anh-Việt thực nghiệm xây dựng Bố cục luận án gồm phần mở đầu năm chương nội dung, phần kết luận danh mục tài liệu tham khảo Hình 0.2 cung cấp khung nhìn sơ phân bố chủ đề năm chương nội dung luận án Chương luận án cung cấp nghiên cứu khảo sát khái quát ontology, xây dựng học ontology kỹ thuật học ontology Chương trình bày độ đo khoảng cách Google, độ đo thông tin luận án sử dụng số mơ hình học ontology Hình 0.2 Phân bố chủ đề chương luận án Chương luận án trình bày chi tiết mơ hình học ontology nhận diện thể miền ứng dụng Y sinh dựa học máy Maximum Entropy-Beam Search từ tài nguyên có hai ontology có trước Mơ hình học máy Maximum Entropy phụ thuộc vào đặc trưng liệu khung mơ hình làm giàu thể cho hai ontology có khác biệt Trong Chương 3, luận án trình bày hai mơ hình học ontology dựa việc sử dụng kỹ thuật khai phá liệu văn bản, học máy kết hợp với độ đo Mơ hình tích hợp khái niệm thuộc tính từ hai ontology miền dựa việc đo độ tương tự đối tượng theo độ đo khoảng cách Google Mơ hình thứ hai mơ hình học máy với liệu dương (và liệu không gắn nhãn) nhằm làm giàu ontology miền tiếng Việt cách bổ sung thêm khái niệm thuộc tính từ Wikipedia tiếng Việt với tập liệu huấn luyện có kích thước nhỏ (số lượng liệu dương ít) Mơ hình sử dụng ba thuật tốn học máy với liệu dương liệu không gán nhãn có thuật tốn DISTANCE luận án đề xuất Chương luận án xây dựng khung hợp niềm tin dựa tranh luận để khai thác ý kiến chuyên gia miền ứng dụng vào việc hiệu chỉnh, nâng cao chất lượng ontology miền Hai thành phần khung hợp niềm tin giao thức tranh luận hợp niềm tin, lập luận hợp niềm tin Một thuật toán xây dựng giải pháp tranh luận hợp niềm tin ví dụ minh họa trình bày Chương luận án trình bày quy trình bảy bước xây dựng ontology dầu khí Anh - Việt Quy trình xây dựng dựa kết nghiên cứu luận án học ontology, thu nhận ý kiến chuyên gia, nguyên lý bước xây dựng ontology, thực tiễn tài nguyên ontology ngành dầu khí Việt Nam CHƯƠNG GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ ĐỘ ĐO GOOGLE Hai mục đầu chương trình bày nội dung ontology, xây dựng ontology kỹ thuật học ontology Mục thứ ba chương giới thiệu độ đo khoảng cách Google, độ đo liệu luận án quan tâm triển khai áp dụng số kỹ thuật học ontology 1.1 GIỚI THIỆU CHUNG VỀ ONTOLOGY 1.1.1 Khái niệm ontology Từ “ontology” có nguồn gốc từ tiếng Hy Lạp, kết hợp hai từ “ontos” (“tồn tại”, tiếng Anh “being” ) “logos” (“từ”, tiếng Anh “word”) [32], vậy, nói cách khơng hình thức, ontology xây dựng để biểu diễn “kiểu tồn tại” miền dựa “từ ngữ” Các “kiểu tồn tại” miền gồm có thuật ngữ, khái niệm, quan hệ tiên đề khái quát hóa quan hệ Rất nhiều nghiên cứu rằng, đưa định nghĩa đủ để bao gói việc biểu diễn “kiểu tồn tại” dựa “từ ngữ” cơng việc khó khăn Rất nhiều định nghĩa ontology đưa ra, theo dòng thời gian xây dựng ứng dụng ontology, nội dung khái niệm ontology tiến hóa nhằm phù hợp với phạm vi nghiên cứu triển khai tương ứng D Gaꢀeviꢁ cộng [32] giới thiệu phân tích nội dung năm định nghĩa phổ biến ontology lĩnh vực trí tuệ nhân tạo Theo nhóm tác giả, định nghĩa đáp ứng phận việc “kiểu tồn tại” dựa “từ ngữ” Trình bày tác giả cho thấy điều cần thiết “hình dung ontology sao” mà khơng phải thân định nghĩa ontology Một hình dung đơn giản ontology bao gói khái niệm quan hệ chúng hình ảnh trực quan ontology nội dung tệp tin XML Trong nỗ lực đưa định nghĩa phổ quát ontology, R Arp cộng [7] cho ontology sản phẩm trình diễn người tạo ra, với thành phần đặc thù bảng phân loại biểu diễn tường minh tổ hợp kiểu, lớp định nghĩa số quan hệ chúng Bảng phân loại (taxonomy) hệ thống phân cấp dạng chứa thuật 10