1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí

150 94 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 150
Dung lượng 3,45 MB

Nội dung

Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là ontology VN-KIM và thành phần ontology tiếng

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Ngọc Trình

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY

VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Ngọc Trình

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỌC ONTOLOGY

VÀ ỨNG DỤNG TRONG MIỀN DẦU KHÍ

Chuyên ngành: Hệ thống Thông tin

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2019

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác

Nghiên cứu sinh

Vũ Ngọc Trình

Trang 4

ii

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS Hà Quang Thụy và PGS.TSKH Nguyễn Hùng Sơn

Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và thầy Nguyễn Hùng Sơn, những người đã đưa tôi tiếp cận và đạt được những thành công trong lĩnh vực nghiên cứu của mình Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành được bản luận án này

Tôi xin bày tỏ lòng biết ơn tới PGS.TS Nguyễn Ngọc Hóa, TS Trần Mai

Vũ, TS Trần Trọng Hiếu, đã nhiệt tình giúp đỡ, chia sẻ các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án

Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab, và Bộ môn Các Hệ thống Thông tin) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu

Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá trình nghiên cứu

Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng góp các ý kiến quý báu để tôi hoàn thiện luận án

Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới TS Nguyễn Anh Đức, Viện trưởng Viện Dầu khí Việt Nam và Ban lãnh đạo Viện Dầu khí Việt Nam (Tập đoàn Dầu khí Quốc gia Việt Nam) đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng nghiệp trong Ban CNTT thuộc Viện Dầu khí Việt Nam đã luôn ủng hộ, quan tâm và động viên tôi

Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VIII DANH MỤC CÁC HÌNH VẼ IX

MỞ ĐẦU 1

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ ĐỘ ĐO GOOGLE 10

1.1 GIỚI THIỆU CHUNG VỀ ONTOLOGY 10

1.1.1 Khái niệm ontology 10

1.1.2 Phân loại ontology 12

1.1.3 Một ví dụ về ontology miền 14

1.1.4 Nguyên lý và quy trình thiết kế ontology miền 17

1.1.5 Công cụ xây dựng ontology 20

1.2.GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY 21

1.2.1.Khung nhìn học ontology 21

1.2.2 Kỹ thuật và tài nguyên được sử dụng trong học ontology 25

1.2.3 Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học ontology 26

1.2.4 Bộ các độ đo đánh giá mô hình phân lớp 27

1.3 ĐỘ ĐO KHOẢNG CÁCH GOOGLE 29

1.3.1 Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách thông tin chuẩn hóa 30

1.3.2 Khoảng cách nén chuẩn hóa 32

1.3.3 Khoảng cách Google và tính chất 33

1.4 Kết luận Chương 1 36

CHƯƠNG 2 MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN THỰC THỂ 38

2.1 PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT 38

2.1.1 Phát biểu bài toán 39

2.1.2 Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng 39

2.1.3 Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử 41

2.1.4 Mô hình hai pha giải quyết bài toán 43

2.2 Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y sinh 44

Trang 6

iv

2.2.1 Mô hình tích hợp hai ontology biểu hiện y sinh 44

2.2.2 Thành phần xây dựng kho ngữ liệu HPO_NC 44

2.2.3 Thành phần xây dựng kho ngữ liệu MPO_NC 47

2.2.4 Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong ontology kết quả 49

2.2.5 Kết quả tích hợp hai ontology 51

2.3 XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH 51

2.3.1 Mô hình học máy Maximum Entropy 52

2.3.2 Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực thể biểu hiện y sinh 57

2.3.3 Dữ liệu thực nghiệm và công cụ 57

2.3.4 Kết quả và đánh giá 59

2.3.5 Phân tích lỗi 60

2.4 KẾT LUẬN CHƯƠNG 2 62

CHƯƠNG 3 KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO 63

3.1.MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE 63

3.1.1 Phát biểu bài toán 63

3.1.2 Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology miền 64

3.1.3 Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo khoảng cách Google 65

3.1.4 Ví dụ minh họa đối sánh khái niệm 69

3.2 MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG 71

3.2.1 Wikipedia là một nguồn tài nguyên xây dựng ontology 71

3.2.2 Phát biểu bài toán 72

3.2.3 Chiến lược hai bước phân lớp dữ liệu với chỉ dữ liệu dương 74

3.2.4 Mô hình đề xuất 78

3.2.5 Thực nghiệm và đánh giá kết quả 86

3.2.6 Phát triển mô hình đề xuất 92

3.3 KẾT LUẬN CHƯƠNG 3 96

CHƯƠNG 4 KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN CHUYÊN GIA MIỀN 97

4.1 THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG ONTOLOGY 97

4.1.1 Vai trò của chuyên gia trong xây dựng ontology 97

4.1.2 Mô hình tranh luận trong xây dựng ontology 98

Trang 7

v

4.2 CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG

TRANH LUẬN 99

4.2.1 Cơ sở niềm tin phân tầng 99

4.2.2 Hợp nhất niềm tin 101

4.2.3 Khung tranh luận 102

4.3 KHUNG HỢP NHẤT NIỀM TIN DỰA TRÊN TRANH LUẬN 104

4.3.1 Giao thức tranh luận cho hợp nhất niềm tin 104

4.3.2 Lập luận hợp nhất niềm tin 104

4.3.3 Mô hình hợp nhất niềm tin dựa trên tranh luận 106

4.4 ÁP DỤNG VÀO ONTOLOGY DẦU KHÍ ANH - VIỆT 111

4.5 KẾT LUẬN CHƯƠNG 4 115

CHƯƠNG 5 MỘT QUY TRÌNH XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT TẠI VIỆN DẦU KHÍ VIỆT NAM 116

5.1.ĐẶT VẤN ĐỀ 116

5.2 MỘT QUY TRÌNH BẢY BƯỚC XÂY DỰNG ONTOLOGY DẦU KHÍ ANH - VIỆT 119

5.2.1 Bước 1 Xác định mục đích và phạm vi của Ontology dầu khí Anh - Việt 119

5.2.2 Bước 2 Thu thập tài nguyên Ontology dầu khí Anh – Việt sẵn có 121

5.2.3 Bước 3 Tích hợp các ontology dầu khí Tiếng Anh 121

5.2.4 Bước 4 Làm giàu khái niệm dầu khí Tiếng Việt tiềm năng 121

5.2.5 Bước 5 Đối sánh khái niệm miền dầu khí Tiếng Việt 122

5.2.6 Bước 6 Bổ sung thành phần Tiếng Việt vào ontology dầu khí Tiếng Anh 122

5.2.7 Bước 7 Hiệu chỉnh ontology dựa trên khung hợp nhất niềm tin qua tranh luận thu thập ý kiến chuyên gia 122

5.3 TRIỂN KHAI THỰC HIỆN 123

5.3.1 Thu thập và tiền xử lý dữ liệu 123

5.3.2 Thực thi ontology dầu khí Anh - Việt trên hệ thống máy tính 125

5.4 KẾT QUẢ 126

5.5 KẾT LUẬN CHƯƠNG 5 126

KẾT LUẬN 127

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 130

TÀI LIỆU THAM KHẢO 131

Tài liệu tiếng Việt 131

Tài liệu tiếng Anh 131

Trang 8

vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

System

Hệ thống quản lý tri thức

LPU Learning with Positive and

Trang 9

vii

TF-IDF Term Frequency – Inverse

Document Frequency

Trọng số về tần suất và độ quan trọng của từ

PVN Petrovietnam; Vietnam Oil and

Trang 10

viii

DANH MỤC CÁC BẢNG

Bảng 1.1 Ma trận nhầm lẫn của một bộ phân lớp 27Bảng 2.1 Quan hệ giữa tài liệu OMIM có chỉ số OMIM ID: 600361 với các thực

phenotype_annotation.tab 45Bảng 2.2 Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và

HPO_MPO_NC 51Bảng 2.3 Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án 58Bảng 2.4 Đánh giá các kết quả (tính theo %) 60Bảng 2.5 Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các

tập dữ liệu 61Bảng 3.1 Ma trận khoảng cách giữa các thuộc tính trong hai ontology 70Bảng 3.2 Kết quả các độ đo P, R, F của các thuật toán 88Bảng 3.3 Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE

vào tỷ lệ  88Bảng 3.4 Ví dụ về một số khái niệm mới và mô tả có thể đưa thêm vào từ điển

dầu khí 89Bảng 4.1 Phương thức thi hành các pha xây dựng ontology cơ sở miền [38] 98Bảng 4.2 Thứ tự ưu tiên đối với các yêu cầu của các chuyên gia (lớp cao hơn thì

được ưu tiên hơn) 108

Trang 11

ix

DANH MỤC CÁC HÌNH VẼ

Hình 0.1 Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ

“ontology learning” trên ScienceDirect, Springer và Google Scholar 4

Hình 0.2 Phân bố các chủ đề trong các chương của luận án 8

Hình 1.1 Các tầng đối tượng trong ontology và ví dụ [11][17], [32] 11

Hình 1.2 Ví dụ về ontology dầu khí tiếng Việt 14

Hình 1.3 Hai khung quy trình xây dựng ontology phổ biến và liên hệ giữa chúng [39] 18

Hình 1.4 Một khung nhìn học ontology theo các nhiệm vụ [79] 22

Hình 1.5 Một khung nhìn các thành phần trong một hệ thống học ontology [17], [35], [78] 24

Hình 1.6 Minh họa độ hồi tưởng và độ chính xác R là tập ví dụ kiểm thử được bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5] 28

Hình 2.1 Mô hình hai pha giải quyết bài toán 43

Hình 2.2 Mô hình xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện 44

Hình 2.3 Mô hình xây dựng kho ngữ liệu HPO_NC các thực thể biểu hiện người 45

Hình 2.4 OMIMID 600361 có quan hệ với chín PubMedID 46

Hình 2.5 Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú 48

Hình 2.6 Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú 49

Hình 2.7 Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu 50

Hình 2.8 Mô hình học máy ME-BS nhận dạng thực thể y sinh từ văn bản PubMed 56

Trang 12

x

Hình 3.1 Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology

miền (Procedure Matching (c1, c2)) 64

Hình 3.2 Mô hình đối sánh các khái niệm thuộc hai ontology miền 66

Hình 3.3 Minh họa Wikipedia Tiếng Việt 72

Hình 3.4 Minh họa từ điển dầu khí Anh – Việt: Cột bên phải mô tả một khái niệm dầu khí tiếng Việt 73

Hình 3.5 Lược đồ tìm tập dữ liệu “âm tin cậy” trong chiến lược hai bước [56] 77 Hình 3.6 Mô hình học ontology khái niệm dầu khí Wikipedia tiếng Việt 78

Hình 3.7 Sự phụ thuộc của độ đo F trong thuật toán ROC/ISVM và DISTANCE vào tỷ lệ  87

Hình 3.8 Mô hình triển khai thu nhận ý kiến chuyên gia 94

Hình 4.1 Thủ tục xây dựng một ontology cơ sở miền [38] 97

Hình 5.1 Quy trình bảy bước xây dựng ontology dầu khí Anh - Việt 118

Trang 13

1

MỞ ĐẦU

Tính cấp thiết của luận án

Ontology (được một số nhà nghiên cứu người Việt gọi là “bản thể học” hoặc “bản thể luận” 1) là một thành phần tri thức nền tảng và mọi tri thức khác cần được dựa trên và tham chiếu đến nó Chính vì vậy, ontology được áp dụng rộng khắp trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence: AI), quản lý tri thức (Knowledge Management: KM), trong nhiều hệ thống ứng dụng và trong rất nhiều miền ứng dụng khác nhau Một khu vực ứng dụng ontology vô cùng rộng lớn là trong các công cụ tìm kiếm (search engine) và chia sẻ tri thức (knowledge sharing), ở đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu trúc, so sánh được và tùy chỉnh cao [7], [19], [32], [40], [76], [77]

Thuật ngữ “ontology” được các cộng đồng nghiên cứu – triển khai khác nhau hiểu theo các ý nghĩa khác nhau Có sự phân biệt thuật ngữ “Ontology” là danh từ riêng (chữ cái “O” đầu tiên viết hoa) với “ontology” là danh từ chung (chữ cái “o” đầu tiên viết thường và đây là một danh từ đếm được) [35] Danh từ riêng “Ontology” là được dành riêng cho cộng đồng nghiên cứu triết học, danh

từ chung “ontology” là được dành cho mọi cộng đồng sử dụng thuật ngữ này như một kiểu thông tin đặc biệt hoặc một tạo tác (artifact) tính toán trình diễn tri thức Luận án này nghiên cứu “ontology” theo phương án danh từ chung, hay

“ontology” được hiểu là ontology tính toán (computational ontologies)

Định nghĩa ontology tính toán là một công việc hết sức khó khăn và nhiều

định nghĩa đã được đưa ra Theo một khung nhìn phổ quát, ontology là một sản

phẩm trình diễn với thành phần đặc thù là một bảng phân loại biểu diễn tường minh một tổ hợp các kiểu, các lớp và một số quan hệ giữa chúng [7] Trong một

khung nhìn khoa học máy tính, ontology là một mô tả một cách hệ thống các thực thể và các phương thức của chúng, các quy tắc cho phép mô tả một mô hình

cụ thể phù hợp với các thực thể và quy trình cho phép mô tả "tất cả" các thực thể

và quy trình này [71] Theo cách hiểu thông dụng nhất, một ontology bao gồm

1 Do thuật ngữ “bản thể học” hoặc “bản thể luận” là các thuật ngữ có nguồn gốc vay mượn từ ngôn ngữ khác

mà không gợi nghĩa nhiều hơn thuật ngữ “ontology” cho nên luận án này sử dụng nguyên gốc “ontology”

Trang 14

2

các thuật ngữ, các khái niệm quan trọng, phân loại các khái niệm, phân cấp các khái niệm, các quan hệ giữa các khái niệm (bao gồm các ràng buộc quan trọng), các tiên đề ứng dụng và các thể hiện cho các đối tượng kể trên

Ontology được phân loại thành ontology triết học (philosophical ontology), ontology miền (domain ontology), ontology mức cao (top-level ontology), ontology tham chiếu (reference ontology) và ontology ứng dụng (application ontology) [7] Ngoại trừ ontology triết học, tất cả các loại ontology đều thuộc về loại ontology miền

Do phạm vi ứng dụng rộng rãi của ontology, xây dựng ontology là một bài toán có tầm quan trọng đặc biệt, là một chủ đề nghiên cứu nhận được sự quan tâm đặc biệt của các cộng đồng nghiên cứu – triển khai thuộc các ngành khoa học đa dạng Nhìn chung, quá trình xây dựng ontology bao gồm ba giai đoạn (xác định mục đích và phạm vi, nắm bắt ontology và thực thi ontology) [39] Các nội dung đặc biệt quan trọng trong xây dựng ontology là (i) xác định mục đích

và phạm vi của ontology cần xây dựng, (ii) xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi ontology cần xây dựng, (iii) khai thác các ontology sẵn có, và (iv) huy động tri thức và sự tham gia của các chuyên gia miền [7], [39]

Hiện chưa có ontology tiếng Việt cho miền dầu khí, song một vài ontology tiếng Việt cho các miền ứng dụng khác đã được xây dựng, điển hình là ontology VN-KIM và thành phần ontology tiếng Việt trong hệ thống BioCasster

VN-KIM [3], [63] được phát triển tại Đại học Bách khoa, Đại học Quốc gia Tp

Hồ Chí Minh Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính Ontology VN-KIM bao gồm các lớp thực thể có tên phổ biến như Con_người (Person), Tổ_chức (Organization), Tỉnh (Province), Thành_phố (City)…, các quan hệ giữa các lớp thực thể và các thuộc tính của mỗi lớp thực thể Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở Việt Nam và Quốc tế Các thực thể thuộc về các miền chính như: Con người (các nguyên thủ quốc gia, các giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…); Tổ chức, công ty (các tổ chức xã hội, giáo dục, công ty…); Đơn vị hành chính (các tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên thế giới); Sông, núi (các sông, núi lớn ở Việt Nam và thế giới); Đường (các đường lớn ở Hà Nội, TP Hồ Chí Minh, các tỉnh lộ, quốc lộ); Điểm đặc biệt (các

Trang 15

3

di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi tiếng) BioCaster

[22], [23], [24], là một ontology trong lĩnh vực y tế được viết dưới nhiều ngôn ngữ như Nhật, Thái, và Việt Nam BioCaster là một dự án nghiên cứu nhằm cung cấp chức năng tìm kiếm nâng cao và phân tích các tin tức trên Internet và các tài liệu nghiên cứu liên quan, cho các nhân viên làm việc trong lĩnh vực y tế cộng đồng, các thầy thuốc lâm sàng, và các nhà nghiên cứu trong lĩnh vực các bệnh truyền nhiễm Ontology BioCaster được Nigel Collier thuộc Viện Thông tin Quốc gia Nhật Bản cùng các đồng nghiệp tại Viện các bệnh lây nhiễm Quốc gia Nhật Bản, Viện Di truyền học Quốc gia Nhật Bản, Đại học Okayama, Đại học Quốc gia TP.HCM và Đại học Kasetsarat phát triển Dựa vào công nghệ khai phá dữ liệu văn bản, dự án cung cấp các công cụ thông minh giúp người sử dụng có được cái nhìn rõ ràng hơn về các đợt dịch bệnh đã xảy ra cũng như khả năng bùng phát dịch Ontology BioCaster chứa các thuật ngữ trên nhiều ngôn ngữ, trong đó có 371 thuật ngữ tiếng Việt (các thuật ngữ liên quan đến bệnh, virus, và các triệu chứng tại Việt Nam) Mặc dù ontology này có xử lý trích chọn thông tin tiếng Việt, tuy nhiên, các quan hệ trong thành phần ontology này lại được mô tả bằng tiếng Anh

Theo C Sammut và G.I Webb [70], xây dựng ontology là một bài toán đầy thách thức, nhiều tiếp cận xây dựng ontology khác nhau đã được sử dụng, tuy nhiên, hầu hết các tiếp cận này cho đến nay chủ yếu vẫn sử dụng các phương

pháp thủ công Học ontology (ontology learning) là cách tiếp cận bán tự động

xây dựng ontology dựa trên việc sử dụng các kỹ thuật khai phá văn bản (text

mining) hoặc/và học máy (machine learning) Học ontology phục vụ việc xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm vi tri thức miền Học ontology là một xu hướng có tính hiện đại và đầy thách thức trong nghiên cứu xây dựng ontology [6], [17], [21], [25], [27], [35], [40], [46], [58], [62], [67], [74], [78], [79], [80]

Học ontology là chủ để nghiên cứu nhận được sự quan tâm của cộng đồng nghiên cứu Hình 0.1 cung cấp một biểu diễn số lượng các công trình khoa học trên ScienceDirect, Springer và Google Scholar giai đoạn 2006 – 2019 có chứa

chính xác cụm từ “ontology learning” trong tiêu đề ấn phẩm (với ScienceDirect

Trang 16

4

và Google Scholar Advanced Search “not include patents, not include citations”)

hoặc trong thông tin mô tả ấn phẩm (với Springer)2 Kết quả thống kê chỉ ra hàng năm có tới hàng chục ấn phẩm chứa chính xác cụm từ “ontology learning”

ở tiêu đề (ScienceDirect và Google Scholar) hoặc ở thông tin mô tả (Springer)

Số lượng công bố là khá ổn định qua thống kê với ScienceDirect và Google Scholar Trong khi đó, số lượng công bố với Springer có xu thế giảm có thể có nguyên nhân từ nguồn chứa cụm từ “ontology learning” hoặc sự phân chia chủ

đề “ontology learning” thành các chủ đề con chi tiết hơn

Hình 0.1 Một biểu diễn số lượng ấn phẩm khoa học có chứa chính xác cụm từ “ontology learning” trên ScienceDirect, Springer và Google Scholar

Xây dựng ontology và học ontology là chủ đề nghiên cứu của một số luận

án Tiến sỹ trên thế giới, chẳng hạn như [29], [34], [1] Luận án Tiến sỹ của Z Dragisic [29] đề cập tới việc giải quyết vấn đề chưa hoàn thiện các ontology và mạng ontology theo ba câu hỏi về cách thức hoàn thiện ontology và mạng ontology chưa hoàn thiện, về thuận lợi và hạn chế khi sử dụng tương tác người dùng vào việc hoàn thiện ontology và mạng ontology, về khả năng tích hợp thành phần hoàn thiện ontology vào quá trình phát triển ontology Tác giả hình thức hóa vấn đề hoàn thiện cấu trúc “chung-riêng” (“is-a”) dựa trên logic mô tả

2 Kết quả trả về theo truy vấn cụm từ chính xác “ontology learning” vào ngày 20/6/2019

Trang 17

5

(description logic) và phát triển hai thuật toán giải quyết vấn đề, phân tích thực nghiệm đối với việc sử dụng tương tác người dùng và phát triển một phương pháp dựa trên thuật toán phân cụm để giảm không gian tìm kiếm khi tích hợp thành phần hoàn thiện vào quá trình phát triển ontology Luận án Tiến sỹ của Saira Andleeb Gillani [34] đề xuất một khung khai phá dữ liệu văn bản ProMine (Prokex Text Mining) với dữ liệu đầu vào là mô hình quy trình nghiệp vụ được trình diễn bằng các tệp tin XML Dựa trên một ontology miền hạt giống (seed domain ontology, còn được gọi là ontology miền mồi), bộ công cụ học ontology tiến hành việc lọc và phân loại tri thức kết quả để làm giàu ontology miền hạt giống nói trên [33] Đến lượt mình, ontology miền hạt giống được sử dụng để diễn giải và tư vấn về mô hình quy trình nghiệp vụ Luận án Tiến sỹ của Trương Hải Bằng [1] đề cập tới các giải pháp liên quan đến ontology mờ (chứa các khái niệm, quan hệ chưa rõ ràng, nhập nhằng, mâu thuẫn với nhau) dựa trên cơ sở

lý thuyết đồng thuận; luận án này chưa đề cập tới yếu tố tiếng Việt trong ontology

Tính chất thách thức cao của chủ đề nghiên cứu xây dựng ontology, yêu cầu các phương pháp bán tự động xây dựng ontology hiện đại dựa trên khai phá văn bản và học máy, tình trạng nghiên cứu xây dựng ontology tiếng Việt còn

mỏng đã tạo động lực nghiên cứu đối với luận án “Nghiên cứu một số mô hình

học ontology và ứng dụng trong miền dầu khí”

Bài toán cần giải quyết trong luận án được phát biểu như sau: Cho trước một từ điển Anh – Việt một miền ứng dụng, cần xây dựng một ontology Anh-Viêt miền ứng dụng nói trên Luận án sử dụng tiếp cận học ontology dựa trên việc khai thác các tài nguyên sẵn có (từ điển Anh-Việt miền, các ontology tiếng Anh miền) để xác định các khái niệm/lớp, thực thể/cá thể, quan hệ/phân cấp trong phạm ontology cần xây dựng với việc huy động tri thức và sự tham gia của các chuyên gia miền

W Wong và cộng sự [79] cung cấp một khung nhìn khái quát về học ontology từ văn bản Khung nhìn này chứa ba khu vực là khu vực kết quả đầu ra, khu vực bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng

để phục vụ các bài toán học ontology Khu vực kết quả đầu ra của học ontology

bao gồm các thuật ngữ, các khái niệm, các quan hệ (quan hệ thứ bậc, quan hệ không thứ bậc) và các tiên đề Có bảy bài toán học ontology chính là Xử lý văn

Trang 18

6

bản và Trích xuất thuật ngữ cho kết quả là các thuật ngữ, Hình thức hóa khái niệm và Gán nhãn khái niệm cho kết quả là các khái niệm, Xây dựng kiến trúc

cho kết quả là các quan hệ thứ bậc, bài toán Phát hiện quan hệ không thứ bậc và

Gán nhãn quan hệ không thứ bậc cho kết quả là các quan hệ không thứ bậc, Trích xuất tiên đề kết quả là các tiên đề Khu vực Kỹ thuật/Tài nguyên bao gồm

ba thành phần chính là kỹ thuật/tài nguyên logic, kỹ thuật/tài nguyên ngôn ngữ

học và kỹ thuật/tài nguyên thống kê Với sáu lập luận, các tác giả nhận định rằng

sự đan xen giữa học ontology và sử dụng web là một xu thế tự nhiên và sử dụng thông tin trên web để học ontology có nhiều triển vọng Xu thế trên đây đã định hướng vào các mô hình học ontology có sử dụng các tài nguyên Web trong luận

án (độ đo khoảng cách Googe, thông tin từ Wikipedia tiếng Việt, các công cụ sánh thuật ngữ miền ứng dụng có sử dụng Web, v.v.)

Do đặc điểm bán tự động, học ontology thường bao gồm các thành phần huy động sự tham gia của con người vào quá trình xây dựng ontology Ví dụ, khung xây dựng ontology cơ sở miền của S-H Hsieh và cộng sự [38] chứa một thành phần quan trọng thực hiện việc huy động các chuyên gia tham gia vào công việc hiệu chỉnh lại các quan hệ thuật ngữ Tích hợp ý kiến của nhiều chuyên gia vào việc hiệu chỉnh quan hệ thuật ngữ để nhận được các quan hệ phù hợp nhất là một bài toán rất có ý nghĩa Theo định hướng này, luận án đề nghị một khung hợp nhất niềm tin dựa trên tranh luận, cung cấp một cơ sở lý thuyết nền tảng để triển khai các thành phần hệ thống trong thực tiễn

Nghiên cứu của luận án hướng tới một số mục tiêu sau đây Thứ nhất,

luận án hướng tới việc đề xuất một số mô hình học ontplogy dựa trên khai phá

dữ liệu văn bản và học máy kết hợp với việc sử dụng một số độ đo Theo định hướng này, luận án tập trung đề xuất các mô hình học ontology phát sinh thể

hiện và quan hệ, học ontology thông qua việc kết hợp các ontology sẵn có Thứ

hai, luận án hướng tới việc đề xuất các mô hình hợp nhất được tri thức từ các

chuyên gia miền vào xây dựng ontology Cuối cùng, luận án hướng tới việc xây

dựng được một ontology Anh – Việt miền dầu khí phục vụ công tác nghiệp vụ tại Tập đoàn Dầu khí quốc gia Việt Nam

Đối tượng nghiên cứu của luận án là mô hình học ontology dựa trên các

kỹ thuật khai phá dữ liệu văn bản, học máy và thu nhận tri thức chuyên gia miền ứng dụng vào xây dựng ontology miền

Trang 19

7

Phạm vi nghiên cứu của luận án được giới hạn trong phạm vi các mô

hình học ontology theo phương thức bán tự động dựa trên các kỹ thuật khai phá

dữ liệu, học máy và tích hợp tri thức

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất các

mô hình bán tự động xây dựng ontology (dựa trên các kỹ thuật khai phá dữ liệu, học máy và tích hợp tri thức), nghiên cứu thực nghiệm để kiểm chứng đánh giá các mô hình được đề xuất và công bố các kết quả nghiên cứu trên các ấn phẩm khoa học có uy tín

Luận án tham gia vào dòng nghiên cứu học ontology trên thế giới và đạt được một số đóng góp bước đầu, tập trung vào các nghiên cứu, đề xuất các mô

hình học ontology miền

Về phương diện lý thuyết, luận án có hai đóng góp chính vào dòng nghiên

cứu học ontology Thứ nhất, luận án đề xuất ba mô hình học ontology gồm (i) mô

hình học ontology xây dựng một ontology kết hợp dữ liệu từ các ontology sẵn có

sử dụng học máy Maximum Entropy và Beam Search nhận dạng thực thể miền [VNTrinh1], [VNTrinh4], (ii) mô hình học ontology sử dụng độ đo Google để tích hợp một số tập khái niệm miền sẵn có thành một tập khái niệm miền mới lớn hơn [VNTrinh2], [VNTrinh4], (iii) mô hình học ontology dựa trên học máy với chỉ dữ liệu dương và dữ liệu không gán nhãn để bổ sung các khái niệm miền mới từ kho tài nguyên Wikipedia tiếng Việt vào tập khái niệm miền tiếng Việt sẵn có [VNTrinh4] Luận án cũng đề xuất thuật toán học máy với chỉ dữ liệu dương và

dữ liệu không gán nhãn DISTANCE cho mô hình thứ ba Thứ hai, luận án đề xuất

một mô hình thu nhận ý kiến chuyên gia miền vào quá trình xây dựng ontology miền dựa trên một khung hợp nhất niềm tin dựa trên tranh luận (bao gồm giao thức tranh luận hợp nhất niềm tin và lập luận hợp nhất niềm tin) và một thuật toán xây dựng giải pháp tranh luận hợp nhất niềm tin tương ứng [VNTrinh3]

Về phương diện ứng dụng, luận án đề nghị một quy trình bảy bước xây

dựng một ontology dầu khí Anh-Việt Quy trình này vừa tổng hợp các kết quả nghiên cứu của luận án vừa cung cấp một phương án thực thi các kết quả nghiên cứu vào thực tiễn Một ontology Dầu khí Anh-Việt thực nghiệm đã được xây dựng

Trang 20

8

Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo Hình 0.2 cung cấp một khung nhìn sơ

bộ về phân bố các chủ đề trong năm chương nội dung của luận án

Chương 1 của luận án cung cấp một nghiên cứu khảo sát khái quát về ontology, xây dựng và học ontology và các kỹ thuật học ontology Chương này cũng trình bày về độ đo khoảng cách Google, một độ đo thông tin được luận án

sử dụng trong một số mô hình học ontology

Hình 0.2 Phân bố các chủ đề trong các chương của luận án

Chương 2 của luận án trình bày chi tiết một mô hình học ontology nhận diện thể hiện miền ứng dụng Y sinh dựa trên học máy Maximum Entropy-Beam Search từ tài nguyên có trong hai ontology có trước Mô hình học máy Maximum Entropy phụ thuộc vào đặc trưng dữ liệu do đó khung mô hình làm giàu thể hiện cho hai ontology cũng có khác biệt

Trong Chương 3, luận án trình bày hai mô hình học ontology dựa trên việc

sử dụng các kỹ thuật khai phá dữ liệu văn bản, học máy kết hợp với các độ đo

Trang 21

9

Mô hình đầu tiên tích hợp các khái niệm và thuộc tính từ hai ontology miền dựa trên việc đo độ tương tự giữa các đối tượng theo độ đo khoảng cách Google Mô hình thứ hai là một mô hình học máy với chỉ dữ liệu dương (và dữ liệu không gắn nhãn) nhằm làm giàu một ontology miền tiếng Việt bằng cách bổ sung thêm khái niệm và thuộc tính từ Wikipedia tiếng Việt với tập dữ liệu huấn luyện có kích thước nhỏ (số lượng dữ liệu dương ít) Mô hình này sử dụng ba thuật toán học máy với chỉ dữ liệu dương và dữ liệu không gán nhãn trong đó có thuật toán DISTANCE do luận án đề xuất

Chương 4 của luận án xây dựng một khung hợp nhất niềm tin dựa trên tranh luận để khai thác ý kiến chuyên gia miền ứng dụng vào việc hiệu chỉnh, nâng cao chất lượng một ontology miền Hai thành phần chính trong khung hợp nhất niềm tin là giao thức tranh luận hợp nhất niềm tin, lập luận hợp nhất niềm tin Một thuật toán xây dựng giải pháp tranh luận hợp nhất niềm tin và một ví dụ minh họa được trình bày

Chương 5 của luận án trình bày một quy trình bảy bước xây dựng ontology dầu khí Anh - Việt Quy trình này được xây dựng dựa trên các kết quả nghiên cứu của luận án về học ontology, về thu nhận ý kiến chuyên gia, các nguyên lý và các bước xây dựng ontology, và thực tiễn tài nguyên ontology của ngành dầu khí Việt Nam

Trang 22

10

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC

ONTOLOGY VÀ ĐỘ ĐO GOOGLE

Hai mục đầu của chương này trình bày các nội dung cơ bản nhất về ontology, xây dựng ontology và kỹ thuật học ontology Mục thứ ba của chương này giới thiệu về độ đo khoảng cách Google, một độ đo dữ liệu được luận án quan tâm và triển khai áp dụng trong một số kỹ thuật học ontology

1.1 GIỚI THIỆU CHUNG VỀ ONTOLOGY

1.1.1 Khái niệm ontology

Từ “ontology” có nguồn gốc từ tiếng Hy Lạp, là sự kết hợp của hai từ

“ontos” (“tồn tại”, tiếng Anh “being” ) và “logos” (“từ”, tiếng Anh là “word”) [32], vì vậy, nói một cách không hình thức, ontology được xây dựng để biểu diễn các “kiểu tồn tại” trong một miền nào đó dựa trên “từ ngữ” Các “kiểu tồn tại” trong một miền gồm có các thuật ngữ, các khái niệm, các quan hệ và các tiên đề khái quát hóa các quan hệ

Rất nhiều nghiên cứu chỉ ra rằng, đưa ra một định nghĩa đủ để bao gói việc biểu diễn các “kiểu tồn tại” dựa trên “từ ngữ” là một công việc rất khó khăn Rất nhiều định nghĩa ontology đã được đưa ra, và theo dòng thời gian xây dựng

và ứng dụng ontology, nội dung khái niệm ontology đã được tiến hóa nhằm phù hợp với phạm vi nghiên cứu và triển khai tương ứng

D Gašević và cộng sự [32] giới thiệu và phân tích nội dung năm định nghĩa phổ biến nhất về ontology trong lĩnh vực trí tuệ nhân tạo Theo nhóm tác giả, mỗi định nghĩa đáp ứng được bộ phận việc “kiểu tồn tại” dựa trên “từ ngữ” Trình bày của các tác giả cho thấy điều cần thiết là “hình dung ontology ra sao”

mà không phải là bản thân định nghĩa về ontology Một hình dung đơn giản nhất

về ontology là nó bao gói các khái niệm và các quan hệ giữa chúng và một hình ảnh trực quan của một ontology là nội dung một tệp tin XML

Trong một nỗ lực đưa ra một định nghĩa phổ quát về ontology, R Arp và

cộng sự [7] cho rằng ontology là một sản phẩm trình diễn do con người tạo ra,

với thành phần đặc thù là một bảng phân loại biểu diễn tường minh một tổ hợp nào đó của các kiểu, các lớp được định nghĩa và một số quan hệ giữa chúng

Bảng phân loại (taxonomy) là một hệ thống phân cấp dạng cây chứa các thuật

Trang 23

11

ngữ biểu thị các kiểu (hoặc phổ quát hoặc các lớp) được liên kết bằng các mối quan hệ Kiểu (phổ quát hoặc lớp) là các thực thể được chỉ dẫn bằng các nút trong cây phân cấp các thuật ngữ trên đây, trong đó “thực thể” là bất cứ điều/vật

gì tồn tại trong thế giới đang được xem xét, bao gồm các đối tượng, các quá trình

và các tính chất Tính biểu diễn của ontology được thể hiện thông qua việc sử dụng một thực thể (ví dụ như một thuật ngữ, một ý tưởng, một hình ảnh, một nhãn, một bản mô tả, một bài luận) để chỉ dẫn tới một hoặc một số thực thể khác Ontology được con người tạo ra theo một thiết kế (trong một vài trường hợp là theo chọn lựa) một cách có chủ ý để giải quyết một mục tiêu trình diễn được thực tiễn

Cộng đồng nghiên cứu – triển khai về ontology công nhận một quan niệm phổ biến là ontology được tạo ra nhằm mục đích biểu diễn tri thức về một miền nào đó và bao gồm các thuật ngữ, các khái niệm, các quan hệ, các tiên đề [7], [32], [17], [11]

(a) P Buitelaar và cộng sự [11]

(b) P Cimiano và cộng sự [17]

Hình 1.1 Các tầng đối tượng trong ontology và ví dụ [11][17], [32]

Quan niệm phổ biến này cho thấy một ontology cung cấp ([11], [17], [32]): (i) một bảng từ vựng (hoặc các tên gọi) để chỉ dẫn các thuật ngữ, (ii) bảng

Trang 24

12

phân cấp (quan hệ thứ bậc) và các quan hệ khác giữa các khái niệm Loại quan

hệ mức cao được trình diễn dưới dạng tiên đề (iii) lý thuyết nội dung để hiểu rõ nội dung các thuật ngữ, các khái niệm và các quan hệ, (iv) một nền tảng tri thức

để chia sẻ và tái sử dụng trong cộng đồng Hình 1.1 trình bày các tầng đối tượng của một ontology miền và thể hiện tương ứng [11], [17]

Luận án này được định hướng nghiên cứu theo quan niệm phổ biến trên đây về ontology

1.1.2 Phân loại ontology

Ontology phổ quát nhất như đã được đề cập là ontology triết học (philosophical ontology) Ngoài ontology triết học, nhiều kiểu ontology khác cũng được con người tạo ra đó là ontology miền, ontology mức cao, ontology tham chiếu (reference ontology) và ontology ứng dụng (application ontology) [7]

Ontology triết học được xây dựng nhằm mục đích cung cấp một phân loại

rõ ràng và toàn diện về tất cả các thực thể trong mọi lĩnh vực của cuộc sống Ontotoly triết học định hướng cho các nghiên cứu về các chủng loại, cấu trúc của các đối tượng, các tính chất, các sự kiện, các quá trình và các mối quan hệ trong mọi lĩnh vực của thực tế (siêu hình học: metaphysics) Kết quả trong ontology triết học là hệ thống mô tả hoặc lý thuyết về những gì tồn tại cũng như các trình diễn chúng do con người tạo ra Ontology triết học hiện nay (còn được gọi là

“siêu hình học phân tích”: analytic metaphysics) còn cho phép hỗ trợ việc nghiên cứu các thực thể trong một số khoa học cụ thể như vật lý, hóa học, sinh học, tâm

lý học, v.v Cây Porphyrian (the Porphyrian Tree)3 là một ví dụ về ontology triết học

Ontology miền (domain ontology), còn được gọi là ontology cụ thể (material ontology), trình diễn các thực thể và các quan hệ giữa chúng trong một miền thực tiễn cụ thể chẳng hạn như y tế, địa lý, sinh học, luật học nhằm mục đích hỗ trợ trực tiếp các nghiên cứu về lĩnh vực cụ thể được đề cập Do đó, ontology miền được bao gồm các thông tin về tính phổ quát, về các lớp và các quan hệ mà nó trình diễn Một ontology miền cung cấp một trình diễn điều khiển

3 http://www.historyofinformation.com/expanded.php?id=3857

Trang 25

of Biological Interest: ChEBI)4 Ontology dầu khí được đề cập trong luận án này được xếp vào loại ontology miền

Ontology mức cao (top-level ontology), còn được gọi là ontology hình thức (formal ontology), trình diễn một ontology miền có tính tiêu chuẩn với một kiến trúc phổ quát dùng chung trong cộng đồng, giúp kết nối các ontology khác nhau trong cùng một miền hoặc trong một số miền liên quan nhau Ví dụ về các ontology mức cao như ontology hình thức cơ bản (Basic Formal Ontology: BFO), ontology mô tả cho kỹ nghệ ngôn ngữ và nhận thức (Descriptive Ontology for Linguistic and Cognitive Engineering: DOLCE), ontology kết hợp cao cấp chuẩn (Standard Upper Merged Ontology: SUMO)5

Ontology ứng dụng (application ontology) được tạo ra nhằm mục đích thực hiện một số bài toán hoặc ứng dụng cụ thể Đối ngẫu lại, ontology tham chiếu (reference ontology) được tạo ra nhằm mục đích cung cấp một trình diễn kinh điển và toàn diện về các thực thể trong một miền xác định nhằm đóng gói

về các loại thực thể có trong văn bản khoa học Ontology có trong Hệ thống thông tin SAPPHIRE (the Situational Awareness and Preparedness for Public Health Incidents Using Reasoning Engines) là một ontology ứng dụng, hai ontology miền FMA, GO trên đây là các ontology tham chiếu

Trong phiên bản đầu tiên, ontology dầu khí Anh-Việt được xây dựng để phục vụ các ứng dụng tìm kiếm và giải thích thuật ngữ dầu khí cho các nhà nghiên cứu về lĩnh vực dầu khí cho nên nó được coi là một ontology ứng dụng cho miền dầu khí

4 http://www.geneontology.org/ ; http://sig.biostr.washington.edu/projects/fm/AboutFM.html ;

https://bioportal.bioontology.org/ontologies/ENVO ; https://www.ebi.ac.uk/chebi/

5 http://ifomis.uni-saarland.de/bfo/ ; http://www.loa.istc.cnr.it/old/DOLCE.html ;

http://www.adampease.org/OP/

Trang 26

14

1.1.3 Một ví dụ về ontology miền

Hình 1.2 Ví dụ về ontology dầu khí tiếng Việt

Hình 1.2 cung cấp một bộ phận của ontology miền dầu khí tại Viện Dầu khí Việt Nam nhằm minh họa các thành phần của một ontology miền Ontology miền này bao gồm các thành phần chính như trình bày sau đây

Trang 27

15

1.1.3.1 Các lớp chính

Ontology Dầu khí này bao gồm các lớp chính sau đây:

- Lớp gốc: Dầu khí, gồm 3 lớp con: Khâu đầu (Upstream), Khâu giữa (Midstream), Khâu sau (Downstream)

o Lớp Khâu đầu: gồm 2 lớp con: Thăm dò (Exploration), Khai thác (Production)

o Lớp Khâu giữa: gồm 2 lớp con: Tàng trữ (Archive), Vận chuyển (Transportation)

o Lớp Khâu sau: gồm 3 lớp: Lọc Hóa dầu (Petrochemistry-Refinery ),

An toàn và Môi trường (Safety and Environment), Kinh tế và Quản lý dầu khí (Economic Management)

▪ Lớp Thăm dò: gồm các thực thể như: Địa chấn (Seismic), Địa chất học (Geology), Địa vật lý (Geophysics)

▪ Lớp Khai thác: gồm các thực thể Khoan (Drill), Mũi khoan (Drilling bit), Tời quay (Spinning cathead) , Thiết bị dầu mỏ (Oilfield equipment), Giếng thẩm lượng (appraisal well), Tăng mật độ khoan (infill drilling)

▪ Lớp Tàng trữ: bao gồm các thực thể: Bể chứa (Tank), Lưu trữ (Archive), Băng từ (magnetic tape)

▪ Lớp Vận chuyển: bao gồm các thực thể: Đường ống dẫn (Pipeline)

▪ Lớp Hóa dầu: bao gồm các thực thể: Nhựa đường (Asphalt), Phân đạm (Fertilizer)

▪ Lớp Lọc dầu (Refinery): bao gồm các thực thể: Xăng (Gasoline), Đuốc đốt (Flare), Ống khói (Stack)

▪ Lớp An toàn và Môi trường: bao gồm các thực thể An toàn (Safety), Môi trường (Environment), Tràn dầu (Oil Spill), Khí thải (Pollution air)

▪ Lớp Kinh tế và Quản lý: bao gồm các thực thể Kinh tế (Economics), Quản lý (Management), Hợp đồng dầu khí (Petroleum contract), Kế hoạch phát triển mỏ (Oil development plan - ODP)

Trang 28

16

1.1.3.2 Tính chất một số thực thể

Tính chất của thực thể Địa chấn: là phương pháp thăm dò dùng sóng đàn

hồi được tạo ra bởi nguồn năng lượng, thí dụ nổ mìn Sóng phản xạ và khúc xạ

hình thành tại các mặt phản xạ và khúc xạ và được ghi lại Thăm dò địa chấn bao gồm thu thập, xử lý và giải thích số liệu

Tính chất của thực thể Địa chất học: là môn học về trái đất Địa chất học chuyên nghiên cứu thành phần đất đá, lịch sử trái đất và các hiện tượng địa chất

đã xảy ra trên trái đất và góp phần tạo nên bộ mặt của trái đất

Tính chất của thực thể Địa chất dầu mỏ: là Khoa học về sự hình thành và

thăm dò dầu và khí Môn này đòi hỏi ứng dụng địa hóa học và địa vật lý cùng

với địa chất học và là một phân ngành của địa chất kinh tế

Tính chất của thực thể Địa vật lý: là môn học chuyên ứng dụng vật lý và các phương pháp nghiên cứu vào lĩnh vực địa chất Các phương pháp của địa

vật lý là các phương pháp địa chấn, phóng xạ, trọng lực, từ, điện, địa nhiệt, viễn thám và log giếng

Tính chất của thực thể Mũi khoan: là Dụng cụ dùng phá hủy đá trong quá trình khoan, trong thiết bị khoan cáp dùng mũi khoan đập, trong thiết bị khoan

xoay dùng mũi khoan xoay Mũi khoan quay được nhờ cột ống khoan quay

Tính chất của thực thể Tời quay (Spinning cathead): là tời dùng để nối

ghép ống khoan và ống khai thác

Tính chất của thực thể Thiết bị dầu mỏ: là Thiết bị khoan để khoan hoàn thiện và khai thác giếng dầu

Tính chất của thực thể Kéo lên đưa xuống: là chu trình kéo và thả cột ống

khoan hoặc ống khai thác vào trong giếng khoan

Tính chất của thực thể Giếng thẩm lượng: là một giếng được khoan sau

giếng phát hiện để bổ sung thêm thông tin về vỉa chứa có khả năng khai thác

Tính chất của thực thể Tăng mật độ khoan: là tăng mật độ khoan giữa các

giếng khai thác nhằm tăng sản lượng trong mỏ dầu

Tính chất của thực thể Đường ống dẫn: là hệ thống ống thường gồm những ống thép hàn lại với nhau và dùng để vận chuyển dầu, khí, hoặc chất lỏng

khác

Trang 29

17

Quan hệ: các thực thể Địa chấn, Địa chất học, Địa chất dầu mỏ, Địa vật lý

có một số tính chất chung (địa chất học, thăm dò, địa chấn, địa vật lý…) nên thuộc về một lớp (nhóm) đó là lớp Thăm dò dầu khí

Quan hệ: các thực thể Khoan, Mũi khoan, Tời quay, Thiết bị dầu mỏ, Giếng thẩm lượng, Tăng mật độ khoan có một số tính chất chung (Khoan, khái thác dầu khí…) nên thuộc về một lớp (nhóm) đó là lớp Khai thác dầu khí

Quan hệ: các thực thể Bể chứa, Lưu trữ, Băng từ có một số tính chất chung (Nơi chứa dầu, chứa khí, chứa mẫu vật, chứa băng từ dữ liệu) nên thuộc

về một lớp (nhóm) đó là lớp Tàng trữ

1.1.4 Nguyên lý và quy trình thiết kế ontology miền

1.1.4.1 Nguyên lý thiết kế ontology miền

Việc thiết kế ontology cần được tiến hành theo các nguyên lý sau đây [7], [39]:

Nguyên lý hiện thực hóa (realism) Mục tiêu của một ontology là

mô tả hiện thực Như đã được giới thiệu, ontology được xây dựng

để biểu diễn các “kiểu tồn tại” trong thực tế Như vậy, ontology chỉ chứa tri thức về các đối tượng đang “tồn tại” mà không phải là các đối tượng được tưởng tượng

Nguyên lý phối cảnh (perspectivalism) Thực tại là rất đa dạng và

phức tạp mà con người thường có xu hướng “đơn giản hóa” thực tại, vì vậy, cần một khung nhìn đa chiều để có mô tả chính xác về thực tại đa dạng và phức tạp

Nguyên lý “bác bỏ được” (fallibilism) Nguyên lý bác bỏ được

chính là nguyên lý quan trọng nhất trong lý thuyết khoa học, theo

đó, một lý thuyết được công nhận cho đến khi chỉ ra một ví dụ thực tiễn bác bỏ nó Các thành phần trong ontology phản ảnh thực tại, và tương tự như lý thuyết khoa học, khi thực tại có sự thay đổi thì các thành phần ontology tương ứng cũng cần được thay đổi theo

Nguyên lý đầy đủ (adequatism) Các thực thể trong một ontology

miền cần được xem xét nghiêm túc theo các điều khoản riêng của chúng, không được coi là có thể bỏ bớt một số thực thể này vì đã có các thực thể khác

Trang 30

18

Nguyên lý tái sử dụng Các ontology hiện tại cần được coi là một

chuẩn đánh giá (benchmarks) và được tái sử dụng bất cứ khi nào có thể được khi xây dựng ontology cho các miền mới Bước sử dụng lại các tài nguyên ontology hiện có trong xây dựng ontology là được định hướng theo nguyên lý này

Quá trình thiết kế ontology nên cân bằng giữa độ tiện ích và nguyên lý hiện thực hóa Cần cân bằng giữa giá trị ngắn hạn và giá

trị dài hạn của ontotoly cần xây dựng Tránh việc hy sinh nguyên lý hiện thực hóa để nhắm tới các tiện ích ngắn hạn khi xây dựng một ontology vì điều đó nhiều khả năng làm giảm giá trị hữu ích lâu dài của ontology

Quá trình thiết kế ontology cần là quá trình mở Các ontology khoa

học luôn cần sự cập nhật theo sự tiến bộ của tri thức; việc thiết kế, bảo trì, và cập nhật ontology cần là một quá trình liên tục

Nguyên lý thành công từng bước (còn được gọi là “trái cây treo thấp”: Low-Hanging Fruit) Trong thiết kế ontology, cần bắt đầu

với các đặc trưng dễ hiểu và dễ xác định nhất của miền, sau đó mở rộng dần tới các đặc trưng phức tạp và cần tranh luận hơn Khi xây dựng ontology, đầu tiên xác định các thành phần cốt lõi nhất sau đó

mở rộng dần để hoàn thiện

1.1.4.2 Quy trình xây dựng ontology

Hình 1.3 Hai khung quy trình xây dựng ontology phổ biến và liên hệ giữa chúng

Trang 31

19

[39]

Hình 1.3 trình bày hai khung quy trình xây dựng ontology phổ biến [39], trong đó, mối liên hệ tương ứng các giai đoạn giữa hai khung quy trình này cũng được chỉ dẫn

Như vậy, quy trình xây dựng ontology gồm ba bước chính là Xác định

mục đích và phạm vi, Nắm bắt ontology và Thực thi ontology:

Xác định mục đích và phạm vi Xây dựng (phát triển) ontology

được tiến hành dưới hình thức triển khai một dự án phát triển hệ thống phục vụ mục đích của một tổ chức, vì vậy, mục đích và phạm

vị của dự án phát triển ontology được xác định rõ ràng Phạm vi phát triển ontology có thể liên quan tới các tài nguyên ontology sẵn

có thì cần khai thác các tài nguyên ontology này

Nắm bắt ontology Đầu tiên cần xác định tập khái niệm thuộc ontology, sau đó trình bày định nghĩa về các khái niệm này và xác định thực thể cùng các quan hệ giữa chúng Nói một cách chi tiết, trước tiên cần lên được danh sách các thuật ngữ quan trọng, sau đó, xác định các lớp và quan hệ phân cấp, xác định các thuộc tính và tạo các thể hiện Việc nắm bắt ontology thường được tiến hành theo các vòng lặp để mở rộng dần các tập cần được xây dựng, chẳng hạn, các thuật ngữ, quan hệ từ bước trước đóng vai trò “mồi” để phát hiện các thuật ngữ, quan hệ mới

Thực thi ontology Tương ứng như thực thi một hệ thống phần

mềm

Theo một cách diễn đạt khác, R Arp và cộng sự [7] giới thiệu một quy trình xây dựng ontology bao gồm các bước như sau:

• Xác định rõ ranh giới các vấn đề cốt lõi của ontology cần xây dựng,

• Xác định các thuật ngữ chung được sử dụng trong các ontology hiện có và trong sách giáo khoa chuẩn, sau đó tiến hành phân tích

để loại bỏ dư thừa (nếu có)

• Sắp xếp các thuật ngữ đã xác định được theo một cấu trúc phân cấp theo mức khái quát giảm dần

• Tổ chức lại kết quả trên đây nhằm đảm bảo: (i) sự gắn kết có tính lô

Trang 32

20

gic, tính triết lý, tính khoa học; (ii) sự gắn kết và tương thích với các ontology gần gũi; (iii) tính dễ hiểu đối với người sử dụng, đặc biệt thông qua việc phát biểu các định nghĩa người sử dụng hiểu được

• Chuyển dạng sản phẩm trình diễn lên một ngôn ngữ máy tính để kết quả thiết kế có thể cài đặt được theo một khung tin học hóa nào

đó

1.1.5 Công cụ xây dựng ontology

Hiện có nhiều công cụ đã được triển khai để hỗ trợ việc xây dựng Ontology, dưới đây là một danh sách một số công cụ phổ biến nhất:

• Protégé (https://protege.stanford.edu/) do Stanford Medical Informatics, Standford University phát triển Tại trang web bộ công

cụ, nhóm phát triển cung cấp phần mềm công cụ và nhiều hỗ trợ tích cực Kiến trúc plug-in của công cụ Protégé đảm bảo tính linh hoạt khi sử dụng bộ công cụ

• OilEd (http://oiled.semanticweb.org/) do Information Management Group, CS Dept., Univ of Manchester phát triển Tại trang web bộ công cụ, nhóm phát triển cung cấp phần mềm và các hỗ trợ liên quan OilEd là một dự án mã nguồn mở theo giấy phép GPL

• Apollo (http://apollo.open.ac.uk/) do Knowledge Media Institute of Open University phát triển Apollo là phần mềm nguồn mơt được viết trên ngôn ngữ Java Tại trang web bộ công cụ, nhóm phát triển cung cấp phần mềm và các hỗ trợ liên quan

• OntoStudio (http://www.semafora-systems.com/en/) do công ty semafora systems GmbH của Đức phát triển Tại trang web bộ công

cụ, nhà phát triển giới thiệu các tính năng của công cụ và các hướng dẫn hữu ích

• KAON2 (http://kaon2.semanticweb.org/) do hai tổ chức của Đức (AIBF và FZI, University of Karlsruhe) và một tổ chức của Anh (IMG, University of Manchester) phối hợp phát triển KAON2 đóng vai trò nền tảng để quản lý các ontology OWL-DL, SWRL và F-Logic Tại trang web bộ công cụ, nhóm phát triển cung cấp phần mềm và các hỗ trợ liên quan

Trang 33

21

Dựa trên các tiêu chí về: các chức năng được hỗ trợ, tính năng mô hình hóa, khung nhìn đồ họa, kiểm tra tính nhất quán, hỗ trợ đa người dùng, chèn thêm một ontology sẵn có (kế thừa), hỗ trợ từ vựng, trích chọn thông tin, sử dụng với trình duyệt web, xử lý các biểu thức phức tạp, cài đặt trên máy tính cá nhân, thì công cụ Protégé là công cụ được đánh giá là tốt nhất, mặc dù công cụ này vẫn còn yếu điểm là không hỗ trợ việc thêm một ontology mới (kế thừa) và hạn chế trong việc hỗ trợ đa người dùng (phân cấp phân quyền, cộng tác) [26], [43]

1.2 GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY

1.2.1 Khung nhìn học ontology

Xây dựng ontology là một công việc rất phức tạp, vì vậy, học ontology cũng được thi hành với các mô hình rất đa dạng Trong mục này, luận án giới thiệu hai khung nhìn học ontology nổi bật của hai nhóm nghiên cứu trên thế giới ([79]; [17], [35], [78]) Cách tiếp cận và các kỹ thuật học ontology trong luận án cũng được luận giải là phù hợp với cách tiếp cận và các kỹ thuật được đề cập trong các khung nhìn học ontology hiện đại được nêu

Trang 34

22

Hình 1.4 Một khung nhìn học ontology theo các nhiệm vụ [79]

1.2.1.1 Khung nhìn học ontology theo nhiệm vụ

Hình 1.4 trình bày một khung nhìn các nhiệm vụ học ontology do W Wong và cộng sự đề xuất [79] Khung nhìn học ontology này bao gồm ba khu vực là khu vực kết quả đầu ra của học ontology (các thành phần của ontology miền), khu vực các bài toán học ontology và khu vực kỹ thuật và tài nguyên được sử dụng để phục vụ các bài toán học ontology

Ba khu vực các nhiệm vụ tham gia vào học ontology được giới thiệu sơ bộ như sau:

Kết quả đầu ra của học ontology bao gồm các thuật ngữ, các khái

niệm, các quan hệ (quan hệ thứ bậc, quan hệ không thứ bậc) và

các tiên đề W Wong và cộng sự [79] cũng chỉ ra mối liên quan

giữa bốn loại đối tượng trong một ontology, chẳng hạn, mối quan

Trang 35

23

hệ chung-riêng (“is-a”, “là một kiểu”) giữa quan hệ thứ bậc và quan

hệ không thứ bậc với quan hệ

Có bảy bài toán học ontology chính Hai bài toán Xử lý văn bản và

Trích xuất thuật ngữ cho kết quả đầu ra là các thuật ngữ của

ontology cần xây dựng Hai bài toán Hình thức hóa khái niệm và

Gán nhãn khái niệm cho kết quả đầu ra là các khái niệm của

ontology cần xây dựng Bài toán Xây dựng kiến trúc cho kết quả đầu ra là các quan hệ thứ bậc, trong khi đó, hai bài toán Phát hiện

quan hệ không thứ bậc và Gán nhãn quan hệ không thứ bậc

cho kết quả đầu ra là các quan hệ không thứ bậc Bài toán Trích xuất tiên đề kết quả đầu ra là các tiên đề

• Khu vực Kỹ thuật/Tài nguyên bao gồm ba thành phần chính là các

kỹ thuật/tài nguyên logic, các kỹ thuật/tài nguyên ngôn ngữ học và các kỹ thuật/tài nguyên thống kê Mục con tiếp theo giới thiệu chi tiết các nội dung trong khu vực này

1.2.1.2 Một khung nhìn học ontology qua thành phần hệ thống

Hình 1.5 trình bày một khung nhìn các thành phần của một hệ thống học ontology được nhóm S Staab và cộng sự đề xuất [17], [35], [78] Bốn thành

phần chính của hệ thống học ontology này là Xử lý tài nguyên, Thư viện thuật

toán, Điều phối học ontology và Quản lý ontology Thông qua hai thành phần Điều phối ontology và Quản lý ontology, kỹ sư ontology điều khiến toàn bộ hệ

thống học ontology để xây dựng được một ontology miền theo mục đích và phạm vi đã được xác định Dưới đây là một giới thiệu sơ bộ về bốn thành phần này:

Thành phần xử lý tài nguyên chứa một loạt kỹ thuật (điển hình là

các kỹ thuật xử lý ngôn ngữ tự nhiên) để phát hiện, thu thập, nhập, phân tích và chuyển đổi dữ liệu đầu vào có liên quan Thành phần

xử lý tài nguyên có nhiệm vụ tạo ra một tập dữ liệu được xử lý trước làm đầu vào cho thành phần thư viện thuật toán Chiến lược

xử lý tài nguyên là tùy thuộc vào kiểu dữ liệu đầu vào (có cấu trúc, bán cầu trúc, ontology sẵn có, v.v.) Các công cụ xử lý ngôn ngữ tự nhiên cơ bản (tách câu, tách từ, gán nhãn từ loại, phân tích từ vị,

Trang 36

Thành phần thư viện thuật toán (các thuật toán khai phá dữ liệu

và học máy) đóng vai trò xương sống kỹ thuật xử lý của hệ thống học ontology Các thuật toán trong thư viện được sử dụng để trích xuất và duy trì các thành phần cơ bản nhất (primitives) mô hình hóa ontology Do đó, các thuật toán này đã được tùy chỉnh theo mục đích học ontology Một số kỹ thuật cụ thể được giới thiệu trong mục 1.2.2

Thành phần điều phối được kỹ sư ontology sử dụng để tương tác

với hai thành phần xử lý tài nguyên và thư viện thuật toán Thông qua một giao diện người dùng toàn diện, kỹ sư ontology chọn tài nguyên dữ liệu đầu vào, chọn phương thức xử lý tài nguyên cũng

Trang 37

25

như phương thức khai phá dữ liệu văn bản thích hợp để tiến hành công việc xây dựng ontology theo mục đích

Thành phần quản lý ontology bao gồm một bộ phần gồm các công

cụ hỗ trợ kỹ sư ontology nhập, chỉnh sửa, tạo phiên bản cũng như tiến hóa ontology Bộ phận quan trọng hơn trong thành phần này là các giao diện kết nối ontology (phiên bản) hiện thời tới các thuật toán học ontology trong các thành phần xử lý tài nguyên và thư viện thuật toán Tiến hóa, lập luận và đánh giá ontology đóng vai trò quan trọng trong thành phần quản lý ontology

Thành phần điều phối và thành phần quản lý ontology trong một hệ thống học ontology cho thấy vai trò quan trọng không thể bỏ qua của con người (kỹ sư ontology, chuyên gia miền) không chỉ trong quá trình xây dựng ontology (nói chung) mà còn trong học ontology (nói riêng)

1.2.2 Kỹ thuật và tài nguyên được sử dụng trong học ontology

Để tăng cường phương thức tự động hóa trong quá trình xây dựng ontology, học ontology sử dụng các kỹ thuật khai phá dữ liệu văn bản và học máy Tài nguyên, điển hình là các kho ngữ liệu (scopus), cũng đóng một vai trò rất quan trọng trong các kỹ thuật khai phá dữ liệu và học máy trên dữ liệu văn bản

Như thể hiện trên Hình 1.4 [79], ba thành phần logic, ngôn ngữ học và thống kê thuộc khu vực kỹ thuật/tài nguyên trong học ontology bao gồm các kỹ thuật/tài nguyên cụ thể sau đây:

• Kỹ thuật/Tài nguyên logic bao gồm các kỹ thuật và tài nguyên suy luận logic và lập trình logic

• Kỹ thuật/Tài nguyên ngôn ngữ học bao gồm các kỹ thuật và tài nguyên phân tích mẫu văn bản, gán từ loại và phân tích cú pháp câu, xây dựng từ hạt giống (seed word, còn được gọi là từ mồi), các khung phân loại phụ, phân tích cấu trúc thống kê/phân tích phụ thuộc, từ vựng ngữ nghĩa, lấy mẫu ngữ nghĩa, mẫu từ vựng/cú pháp, lấy mẫu tiên đề

• Kỹ thuật/Tài nguyên thống kê (khai phá dữ liệu văn bản) bao gồm các kỹ thuật và tài nguyên phân tích mối liên quan, phân tích ngữ

Trang 38

• Các thuật toán khai phá luật kết hợp được sử dụng để phát hiện mối liên kết thú vị giữa các từ

• Các thuật toán phân cụm phân cấp được sử dụng để phân cụm từ

• Các thuật toán phân lớp (ví dụ, SVM, Naive Bayes, kNN, v.v.) được sử dụng để phân lớp một khái niệm mới vào một hệ thống thứ bậc hiện có

• Các thuật toán lập trình logic quy nạp được sử dụng để phát hiện khái niệm mới từ dữ liệu mở rộng

• Các thuật toán phân cụm khái niệm (ví dụ phân cụm mờ FCA) được dùng để học khái niệm và phân cấp khái niệm

1.2.3 Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học ontology

Các mô hình học ontology trong luận án có nội dung thuộc vào lớp các kỹ

thuật Xử lý văn bản, Trích xuất thuật ngữ, Gán nhãn khái niệm như được

diễn giải như sau:

• Luận án sử dụng các kỹ thuật xử lý văn bản, trích xuất thuật ngữ và gán nhãn thuật ngữ trong một mô hình tích hợp hai kho ngữ liệu biểu hiện y sinh Tiếp đó, một mô hình học ontology nhận diện thực thể biểu hiện y sinh dựa trên học máy Maximum Entropy-Beam Search được tạo ra, một mặt, để phục vụ việc đánh giá hiệu năng kết quả tích hợp hai kho ngữ liệu, và mặt khác, để sử dụng để nhận diện các thực thể biểu hiện ý sinh mới từ các tài liệu PubMed trong tương lại

• Luận án sử dụng độ đo khoảng cách Google như một độ đo khoảng cách/tương tự trong các kỹ thuật xử lý văn bản trong một mô hình học ontology tích hợp các khái niệm và thuộc tính từ hai ontology

Trang 39

27

• Luận án sử dụng các kỹ thuật xử lý văn bản, trích xuất thuật ngữ và một mô hình học máy với một tập thuật ngữ dầu khí tiếng Việt cho trước (tập dữ liệu dương) vào kho ngữ liệu Wikipedia dầu khí tiếng Việt (tập dữ liệu không nhãn) để trích xuất được một tập các thuật ngữ dầu khí tiếng Việt mới từ Wikipedia dầu khí tiếng Việt

1.2.4 Bộ các độ đo đánh giá mô hình phân lớp

Học ontology dựa trên kỹ thuật học máy phân lớp được áp dụng trong đa phần nội dung luận án, vì vậy, mục này giới thiệu độ đo đánh giá mô hình phân lớp được luận án sử dụng khi kiểm thử trên tập dữ liệu kiểm thử (test dataset)

Tồn tại một số độ đo đánh giá mô hình phân lớp, tuy nhiên, luận án sử dụng bộ các độ đo hồi tưởng (Recall: R), chính xác (Precision: P) và độ đo điều hòa F của R và P do tính phổ biến và độ tin cậy của việc sử dụng bộ độ đo này

Trong phân lớp nhị phân, độ chính xác P (Precision) và độ hồi tưởng R (Recall) thể hiện mức độ chính xác và mức độ đầy đủ của phân lớp trên lớp dữ liệu dương [5] Bảng 1.1 trình bày ma trận nhầm lẫn (confusion matrix) chứa thông tin về các kết quả dự đoán và thực tế đưa ra bởi một bộ phân lớp

FN (False Negative – phân lớp sai dữ liệu dương vào lớp âm) Thực tế là ví dụ âm (N) FP (False Positive –

phân lớp sai ví dụ âm vào lớp dương)

TN (True Negative – phân lớp đúng ví dụ âm vào lớp âm)

Như vậy,

TP (True Positive): số lượng các dữ liệu dương được phân lớp đúng

FN (False Negative): số lượng các dữ liệu dương bị phân lớp sai

FP (False Positive): số lượng các ví dụ âm bị phân lớp sai

TN (True Negative): số lượng các ví dụ âm được phân lớp đúng

Trang 40

Hình 1.6 Minh họa độ hồi tưởng và độ chính xác R là tập ví dụ kiểm thử được

bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5]

Độ chính xác và độ hồi tưởng không có quan hệ trực tiếp với nhau, điều này vừa có điểm tích cực là cung cấp một khung nhìn đo lường hai chiều đánh giá mô hình phân lớp lại vừa có điểm hạn chế là tạo khó khăn khi xem xét, so sánh độ hiệu quả của các mô hình phân lớp khác nhau Để việc so sánh đánh giá các bộ phân lớp khác nhau được thuận tiện, độ đo F (F-score) sau đây được sử

dụng:

𝐹𝛽 = (𝛽2+1)∗𝑃∗𝑅

Trường hợp đặc biệt khi chọn giá trị =1, độ đo F (F-score hay F1-score)

được gọi là trung bình điều hòa (harmonic mean) của độ chính xác và độ hồi

tưởng Để tường minh thêm ý nghĩa “trung bình điều hòa”, F được trình bày dưới dạng sau đây:

Ngày đăng: 16/02/2020, 15:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w