(Luận án tiến sĩ) Khôi Phục Tính Nhất Quán Và Tích Hợp Tri Thức Sử Dụng Mô Hình Xác Suất

184 0 0
Tài liệu đã được kiểm tra trùng lặp
(Luận án tiến sĩ) Khôi Phục Tính Nhất Quán Và Tích Hợp Tri Thức Sử Dụng Mô Hình Xác Suất

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

NGUYỄN VĂN THẨM

KHÔI PHỤC TÍNH NHẤT QUÁN VÀ TÍCH HỢPTRI THỨC SỬ DỤNG MÔ HÌNH XÁC SUẤT

LUẬN ÁN TIỄN SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2021

Trang 2

NGUYỄN VĂN THẨM

KHÔI PHỤC TÍNH NHẤT QUÁN VÀ TÍCH HỢPTRI THỨC SỬ DỤNG MÔ HÌNH XÁC SUẤT

Chuyên ngành Hệ thống thông tinMã số: 9480104.01

LUẬN ÁN TIỄN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:1 GS.TSKH Nguyễn Ngọc Thành2 TS Trần Trọng Hiếu

Hà Nội - 2021

Trang 3

Tôi xin cam đoan luận án “Khôi phục tính nhất quán và tíchhợp tri thức sử dụng mô hình xác suất ” là công trình nghiên cứu củariêng tôi Các số liệu, kết quả được trình bày trong luận án là hoàn toàntrung thực và chưa từng được công bố trong bất kỳ một công trình nàokhác.

 Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứuliên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảonày, luận án hoàn toàn là công việc của riêng tôi.

 Trong các công trình khoa học được công bố trong luận án, tôi đã thểhiện rõ ràng và chính xác đóng góp của các đồng tác giả và những gìdo tôi đã đóng góp.

 Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tạiBộ môn Các Hệ thống Thông tin, Khoa Công nghệ Thông tin, TrườngĐại học Công nghệ, Đại học Quốc gia Hà Nội.

Tác giả:

Hà Nội:

i

Trang 4

LỜI CẢM ƠN

Trước hết, tôi muốn bày tỏ sự biết ơn vô hạn đến GS.TSKH.Nguyễn Ngọc Thành - Trường Đại học Công nghệ Wroclaw, Ba Lan Thầyđã truyền cho tôi niềm đam mê nghiên cứu khoa học, luôn tận tâm, độngviên, khuyến khích và hướng dẫn tận tình để tôi có thể đạt được nhữngthành công trong lĩnh vực nghiên cứu của mình Tôi đã học hỏi được rấtnhiều điều từ GS.TSKH Nguyễn Ngọc Thành: về những cống hiến khôngbiết mệt mỏi của Thầy cho tri thức nhân loại, về tình yêu đất nước và cảnhững đóng góp cho quê hương của Thầy.

Tôi cũng muốn bày tỏ lòng biết ơn sâu sắc tới TS Trần Trọng Hiếu- Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Thầy không chỉhướng dẫn cho tôi những kiến thức về học thuật mà Thầy còn luôn đồnghành với tôi cả những khó khăn trên con đường nghiên cứu khoa học cũngnhư những khó khăn trong cuộc sống đời thường.

Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhàkhoa học thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên củaPhòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS và KTlab) -Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuậnlợi cho tôi trong suốt thời gian học tập và nghiên cứu Trong đó, tôi xin trântrọng cảm ơn PGS.TS Hà Quang Thụy, người Thầy đã luôn có những gópý quý báu cho tôi trong quá trình tôi nghiên cứu tại Trường.

Tôi bày tỏ sự biết ơn đến Ban giám hiệu và Lãnh đạo Khoa Côngnghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Nam Định đã tạo mọiđiều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu; cảm ơncác đồng nghiệp Khoa Công nghệ Thông tin đã cổ vũ, động viên và sát cánhbên tôi trong suốt quá trình học tập và nghiên cứu.

Tôi muốn cảm ơn đến tất cả những người bạn, các anh chị em NCS,những đồng nghiệp của tôi, và đặc biệt là gia đình Thầy Trần Trọng Hiếu.Những người đã luôn chia sẻ với tôi những khó khăn, giúp đỡ tôi rất nhiềucả về tinh thần lẫn vật chất.

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với gia đình nộingoại hai bên của tôi, đã luôn ủng hộ tôi trong thời gian qua Đặc biệt làmẹ tôi, vợ tôi Kiều Loan, hai con gái tôi Linh Giang và Hoài Giang, nhữngngười phụ nữ quan trọng đối với tôi, đã luôn khắc phục mọi khó khăn trongcuộc sống, sát cánh, động viên và là hậu phương vững chắc để tôi có thểhoàn thành được luận án này.

NCS Nguyễn Văn Thẩm

Trang 5

TÓM TẮT

Trong quá trình phát triển của hệ thống dựa trên tri thức, tích hợp trithức được hiểu là quá trình tạo ra một tri thức mới từ một tập các tri thứckhác nhau; trong đó giữa các tri thức đầu vào có thể không đầy đủ và khôngnhất quán với nhau, hoặc bản thân mỗi tri thức đầu vào cũng có thể khôngđầy đủ và tồn tại mâu thuẫn nội tại Do đó, giải quyết tính không nhấtquán của cơ sở tri thức là một nhiệm vụ thiết yếu trước khi tiến hành tíchhợp các cơ sở tri thức Đề xuất các cách tiếp cận để giải quyết bài toán tíchhợp cơ sở tri thức trong môi trường xác suất là một nhiệm vụ trọng tâmtrong quá trình xây dựng một hệ thống dựa trên cơ sở tri thức xác suất.

Luận án đề xuất một sơ đồ nguyên lý chung của hệ thống tích hợp trithức xác suất Từ sơ đồ nguyên lý chung này, luận án tiến hành đề xuất cácgiải pháp để thực hiện hai giai đoạn chính của sơ đồ nguyên lý: Giai đoạnkhôi phục tính nhất quán trong cơ sở tri thức xác suất và giai đoạn tích hợpcác cơ sở tri thức xác suất Nội dung của luận án được tóm tắt như sau:

(i) Khảo sát về các phương pháp xử lý tính không nhất quán và các phươngpháp tích hợp tri thức.

- Khảo sát và đánh giá các hệ thống tích hợp tri thức hiện có; đề xuấtmột sơ đồ nguyên lý chung của hệ thống tích hợp tri thức xác suất vàso sánh với hệ thống hiện có.

- Khảo sát và đánh giá một số phương pháp xử lý tính không nhấtquán và một số phương pháp tích hợp tri thức dạng lôgic, lôgic-xácsuất, xác suất.

(ii) Đề xuất phương pháp khôi phục tính nhất quán trong cơ sở tri thứcxác suất: Mô hình khôi phục tính nhất quán của cơ sở tri thức xácsuất theo chuẩn và mô hình khôi phục tính nhất quán của cơ sở trithức xác suất phi chuẩn;

- Phân loại, đánh giá và làm cho lớp độ đo không nhất quán thôngdụng nhất của cho cơ sở tri thức dạng lôgic, lôgic-xác suất phù hợpvới dạng xác suất bằng cách xem xét các tính chất kỳ vọng mà chúngcần phải thỏa mãn.

Trang 6

- Đề xuất toán tử khôi phục theo chuẩn và toán tử khôi phục phi chuẩncho cơ sở tri thức dạng xác suất; xem xét và chứng minh một tập cáctính chất kỳ vọng mà các toán tử khôi phục này nên thỏa mãn.- Phát biểu và chứng minh các bài toán khôi phục tính nhất quán.- Đề xuất các thuật toán khôi phục tính nhất quán; đánh giá độ phứctạp của các thuật toán bằng chứng minh toán học; cài đặt, đánh giávà phân tích về độ tin cậy của các kết quả thu được cũng như chi phíthực hiện các thuật toán trong các mô hình đã đề xuất trên các bộthực nghiệm.

(iii) Đề xuất phương pháp tích hợp các cơ sở tri thức xác suất: Mô hìnhtích hợp dựa theo khoảng cách và mô hình tích hợp dựa trên giá trịxác suất.

Với cách tiếp cận dựa trên khoảng cách:- Khảo sát 21 hàm khoảng cách phân kỳ.

- Đề xuất các toán tử tích hợp tri thức xác suất; xem xét và chứngminh một tập các tính chất kỳ vọng mà các toán tử tích hợp tri thứcxác suất này nên thỏa mãn.

- Phát biểu và chứng minh các bài toán tích hợp tri thức xác suất dựatrên khoảng cách.

- Đề xuất các thuật toán tích hợp tri thức xác suất dựa trên khoảngcách; đánh giá độ phức tạp của các thuật toán bằng chứng minh toánhọc; cài đặt, đánh giá và phân tích về độ tin cậy của các kết quả thuđược cũng như chi phí thực hiện các thuật toán trong các mô hình đãđề xuất trên các bộ thực nghiệm.

Với cách tiếp cận dựa trên giá trị xác suất:

- Đề xuất hai toán tử tích hợp tri thức xác suất; xem xét một tập cáctính chất kỳ vọng mà hai toán tử tích hợp tri thức xác suất này nênthỏa mãn.

- Đề xuất các thuật toán tích hợp tri thức xác suất dựa trên giá trịxác suất; đánh giá độ phức tạp của các thuật toán bằng chứng minhtoán học.

Từ khóa: Tích hợp tri thức, cơ sở tri thức xác suất, độ đo không nhấtquán, toán tử khôi phục tính nhất quán, toán tử tích hợp.

Trang 7

Lời cam đoan i

1.1 Các phương pháp biểu diễn tri thức 12

1.2 Biểu diễn CSTT xác suất 14

2.1.1 Bài toán xử lý tính không nhất quán 28

2.1.2 Độ đo không nhất quán 29

2.1.3 Các phương pháp xử lý tính không nhất quán 32v

Trang 8

3.1.1 Các tính chất của các độ đo không nhất quán 48

3.1.2 Lớp độ đo không nhất quán cơ sở 50

3.1.3 Độ đo không nhất quán dựa theo chuẩn 51

3.1.4 Độ đo không nhất quán phi chuẩn 56

3.1.5 Các thuật toán tính độ đo không nhất quán 59

3.2 Khôi phục tính nhất quán của CSTT xác suất 65

3.2.1 Mô hình khôi phục tính nhất quán 65

3.2.2 Các tính chất của toán tử khôi phục tính nhất quán 683.2.3 Lớp các toán tử khôi phục tính nhất quán 69

3.2.4 Thuật toán tính giá trị xác suất của các RBXS trongCSTT xác suất 80

3.2.5 Thuật toán khôi phục tính nhất quán của CSTT xác suất 823.3 Kết luận chương 85

Chương 4 PHƯƠNG PHÁP TÍCH HỢP CÁC CƠ SỞ TRITHỨC XÁC SUẤT 864.1 Phương pháp tích hợp các CSTT xác suất dựa trên khoảng cách 864.1.1 Mô hình tích hợp các CSTT xác suất dựa trên khoảng cách 864.1.2 Véctơ xác suất thỏa mãn của CSTT xác suất 88

4.1.3 Các tính chất của toán tử tích hợp TTXS dựa trênkhoảng cách 92

4.1.4 Lớp các bài toán tích hợp dựa trên khoảng cách 94

4.1.5 Lớp toán tử tích hợp TTXS dựa trên khoảng cách 97

4.1.6 Thuật toán tích hợp các CSTT xác suất dựa trên khoảngcách 106

4.2 Phương pháp tích hợp các CSTT xác suất dựa giá trị xác suất 1104.2.1 Mô hình tích hợp các CSTT xác suất dựa trên giá trịxác suất 110

Trang 9

4.2.2 Các tính chất của toán tử tích hợp TTXS dựa trên giá

4.3 Thực nghiệm tích hợp các cơ sở tri thức xác suất 120

4.3.1 Mục đích và giả thiết thực nghiệm 121

4.3.2 Cấu hình thực nghiệm 122

4.3.3 Triển khai thực nghiệm 124

4.3.4 Kết quả, ý nghĩa thực tiễn và phân tích 125

4.4 Kết luận chương 137

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 138DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 142TÀI LIỆU THAM KHẢO 143Phụ lục A 1A.1 Các hình vẽ 1

A.2 Các bảng tổng hợp kết quả tính toán 3

A.3 Độ phức tạp của các thuật toán 14

A.4 Bộ thực nghiệm 20

Trang 10

Từ viết tắt Tiếng Việt Tiếng Anh

THTT Tích hợp tri thức Merging KnowledgeRBXS Ràng buộc xác suất Probabilistic ConstraintTTXS Tri thức xác suất Probabilistic KnowledgeKCPK Khoảng cách phân kỳ Divergence Distance

theo chuẩn Norm Based OptimizationProblemsUNOP Bài toán tối ưu phi chuẩn Unnormalized Optimization

nhất quán Computing Inconsistency Mea-sureFPVPC Tìm giá trị xác suất của

các RBXS Finding the Probability Valuesof Probabilistic ConstraintsRCK Khôi phục tính nhất quán

của CSTT xác suất Restoring the Consistency of aProbabilistic Knowledge BaseFSPVK Tìm véctơ xác suất thỏa

mãn của một CSTTxác suất

Finding the Satisfying bility Vector of a ProbabilisticKnowledge Base

Proba-FPMV Tìm véctơ tích hợp xác

suất của một hồ sơ TTXS Finding Probability MergingVector of a Probabilistic ledge Base Profile

Know-FCKM Tìm CSTT xác suất nhấtquán sau khi tiến trìnhtích hợp

Finding a Consistent listic Knowledge Base after theMerging Process

Constraintsviii

Trang 11

Từ viết tắt Tiếng Việt Tiếng Anh

SUA Tính siêu cộng tính Super-Additivity

MIS Tính phân tách MI MIS-SeparabilityFCI Tính độc lập của ràng

buộc tự do Free-constraint independenceSCI Tính độc lập của ràng

buộc an toàn Safe-constraint independence

SPR Tính bảo toàn cấu trúc Structure Presevation

vào cú pháp Irrelevance of SyntaxNOD Tính phi độc tài Non-DictatorshipWIA Tính lựa chọn không phù

hợp yếu

Weak Irrelevant Alternatives

phù hợp Irrelevant AlternativesCP Tính nhất quán Consistency PrincipleSCP Tính nhất quán mạnh Strong ConsistencyEIP Tính bất biến rỗng Empty Invariance

PIP Tính bất biến dương Positive Invariance

SDP Tính bất đồng mạnh Strong disagreement

MVP Giá trị trung vị Mean Value Property

Trang 12

2.4 So sánh hệ chuyên gia dựa trên luật và dựa trên xác suất 42

2.5 So sánh giữa hệ thống THTT đề xuất với hệ thống THTT đãtồn tại 46

3.1 Các độ đo không nhất quán cơ sở 50

3.2 Mối liên hệ giữa các thuật toán khôi phục tính nhất quán vớicác định lý xây dựng và độ phức tạp của các thuật toán 84

3.3 So sánh các phương pháp khôi phục tính nhất quán trên môhình xác suất 84

4.1 Mối liên hệ giữa các thuật toán đề xuất với các định lý xâydựng và độ phức tạp của các thuật toán 119

4.2 Số biến tối ưu hóa n, số ràng buộc m, ước tính hiệu suất chocác thuật toán khác nhau 122

4.3 Tập các sự kiện biểu diễn mối quan hệ giữa 3 dạng bệnh ungthư và 5 triệu chứng liên quan 123

4.4 So sánh phương pháp THTT trên mô hình xác suất 136

A.1 Mối liên hệ giữa các độ đo KNQ của CSTT xác suất và cáctính chất kỳ vọng 3

A.2 Các độ đo KNQ của CSTT xác suất K1,K2,K3,K4 vàK5 4

A.3 Các véctơ vi phạm K1,K2,K3,K4,K5 theo p-norm 5

A.4 Xác suất mới của các RBXS trong K1 vàK5 dựa trên bài toántối ưu không ràng buộc 5

x

Trang 13

A.5 Các véctơ xác suất khôi phục thỏa mãn theo 1-norm, 2-norm,

A.8 Các véctơ xác suất thỏa mãn của K1,K2,K3,K4,K5 7

A.9 Mối liên hệ giữa các toán tử tích hợp TTXS dựa trên khoảngcách và các tính chất kỳ vọng 8

A.10Các véctơ tích hợp xác suất của R theo 1-norm 9

A.11Các véctơ tích hợp xác suất của R theo 2-norm 10

A.12Các véctơ tích hợp xác suất của R theo ∞-norm 11

A.13Các véctơ tích hợp xác suất của R theo phi chuẩn 12

A.14Cơ sở TTXS mới K∗ sau khi tích hợp theo 1-norm sử dụngcác hàm KCPK khác nhau 12

A.15Cơ sở TTXS mới K∗ sau khi tích hợp theo 2-norm sử dụngcác hàm KCPK khác nhau 13

A.16Cơ sở TTXS mới K sau khi tích hợp theo ∞-norm sử dụngcác hàm KCPK khác nhau 13

A.17Cơ sở TTXS mới K sau khi tích hợp theo phi chuẩn sử dụngcác hàm KCPK khác nhau 13

A.18CSTT xác suất K0 sau khi sử dụng toán tử tích hợp TTXSMMO và CMMO 14

A.19CSTT xác suất K∗ sau khi giảm RBXS 14

A.20Tri thức của các bác sĩ cho bộ Thực nghiệm 1 20

A.21Tri thức của các bác sĩ cho bộ Thực nghiệm 2 20

Trang 14

1 Thống kê công trình khoa học về xử lý tính KNQ và giải quyếtbài toán tích hợp trong các hệ thống dựa trên tri thức trên

ScienceDirect giai đoạn 1997-2020 5

2 Sơ đồ tổng quan về các giải pháp, các công cụ cho các môhình THTT và hướng nghiên cứu của luận án 7

3 Cấu trúc luận án 10

2.1 Sơ đồ nguyên lý của hệ thống dựa trên tri thức xác suất 43

2.2 Tiến trình tích hợp các CSTT xác suất 44

3.1 Mô hình tổng quát khôi phục tính nhất quán 66

3.2 Mô hình khôi phục tính nhất quán dựa theo chuẩn 70

3.3 Mô hình khôi phục tính nhất quán phi chuẩn 77

4.1 Mô hình tổng quát tích hợp các CSTT xác suất dựa theokhoảng cách 87

4.2 Mô hình tổng quát tích hợp các CSTT xác suất dựa theo giátrị xác suất 111

4.3 So sánh chất lượng của các RBXS sau tiến trình tích hợp vớiThực nghiệm 1 127

4.4 So sánh chất lượng của các RBXS sau tiến trình tích hợp vớiThực nghiệm 2 128

4.5 So sánh kết quả tích hợp theo 1-norm với các hệ số khác nhaucủa hàm KCPK A-Div, NA-Div cho Thực nghiệm 1 130

4.6 So sánh kết quả tích hợp theo 1-norm với các hệ số khác nhaucủa hàm KCPK AI-Div, NAI-Div và C-Div cho Thực nghiệm 1.1314.7 So sánh kết quả tích hợp theo 1-norm với các hệ số khác nhaucủa hàm KCPK D-Div, CS-Div và R-Div cho Thực nghiệm 1 1324.8 Chi phí của các thuật toán cho Thực nghiệm 1 133

4.9 Chi phí của các thuật toán cho Thực nghiệm 2 134

A.1 Mô hình chung cho tiến trình THTT [60] 1

A.2 Các thành phần cơ bản của một hệ thống dựa trên tri thức [17] 2

xii

Trang 15

Ký hiệu Diễn giải ý nghĩa

AK Ma trận đường chéo kép của K

I(K) Độ đo không nhất quán của CSTT K.

⊕(ρ1, ρ2) Toán tử tích hợp trung vị của ρ1, ρ2

c(ρ1, ρ2) Toán tử tích hợp trung vị theo hệ số c của ρ1, ρ2

xiii

Trang 16

Cơ sở nghiên cứu

Tích hợp tri thức (THTT - Knowledge Integration hoặc Merging ledge) là nhiệm vụ quan trọng khi ta muốn kết hợp một số hệ thống dựatrên tri thức (Knowledge-base System) lại thành một hay để làm cho chúngcó thể tương tác với nhau Như vậy, THTT là một lĩnh vực nghiên cứu quantrọng trong quá trình xây dựng một hệ thống dựa trên tri thức Hệ thốngdựa trên tri thức là một hệ thống được máy tính hóa tạo ra và sử dụng cơsở tri thức (CSTT - Knowledge Base) từ các nguồn dữ liệu và thông tinkhác nhau để giải quyết các vấn đề phức tạp Tương tác giữa các hệ thốngdựa trên tri thức muốn thành công phụ thuộc nhiều vào sự nhất quán vềtri thức của các hệ thống này THTT được hiểu là quá trình tạo ra mộtCSTT chung cho một tập hợp các CSTT có sẵn bằng việc kết hợp các phầnkhác nhau của tri thức mà trong đó các CSTT này có thể tồn tại sự khôngnhất quán (KNQ - Inconsistency)[60] THTT là một nhiệm vụ khó khăn dosự KNQ của tri thức là khó xác định và giải quyết tính KNQ này cũng làmột vấn đề phức tạp (thường là bài toán NP-Complete) [60] Tuy nhiên, sựtương tác giữa các hệ thống dựa trên tri thức không thể thực hiện được nếukhông có khả năng tích hợp giữa các CSTT Đây là một bài toán khó và cónhiều vấn đề cần giải quyết Vấn đề THTT được phát biểu như sau:

Know-Cho một tập hợp các CSTT, các CSTT này có thể mâu thuẫn với nhauhoặc bản thân mỗi CSTT cũng chứa mâu thuẫn, làm thế nào để xây dựngđược một CSTT chung đại diện tốt nhất cho CSTT đã cho ?

Các ứng dụng sử dụng tiến trình THTT rất nhiều và đa dạng [11] Ngàynay, THTT được nghiên cứu rộng trong nhiều lĩnh vực của Khoa học máytính (Computer Science), Trí tuệ nhân tạo (Artificial Inteligence), Hệ thốngthông minh hay hệ chuyên gia với các ứng dụng (Expert Systems with Ap-plications), Khoa học thông tin, Tính toán Neuron (Neurocomputing) Việc

1

Trang 17

kết hợp tri thức từ các nguồn khác nhau sẽ tạo ra các lợi ích như mang lạinhiều tri thức hơn, đạt được sự đồng thuận hoặc đạt được sự nhất trí Tuynhiên, sự đánh đổi của việc kết hợp này là nó có thể tạo ra tính không chắcchắn (Uncertainty) của tri thức, và việc giải quyết sự không chắc chắn cũnglà một trong các mục đích chính của THTT.

Do sự đa dạng trong cách biểu diễn tri thức, các cách tiếp cận giải quyếttính KNQ và các phương pháp THTT cũng rất khác nhau để phù hợp chomỗi cách biểu diễn tri thức này Các dạng tri thức đã và đang được cộngđồng nghiên cứu là: Tri thức lôgic cổ điển, tri thức lôgic khả năng, tri thứclôgic-xác suất, tri thức xác suất (TTXS - Probabilistic Knowledge).

Sự phát triển của các phương pháp xử lý tính KNQ

- Phương pháp loại bỏ công thức: Ý tưởng chính của phương pháp nàylà tìm cách loại khỏi CSTT các thông tin dư thừa sao cho các thông tin cònlại phải nhất quán Hai hướng chính của cách tiếp cận này là (i) loại bỏ đimột tập KNQ tối thiểu [7, 30, 33, 35–37, 72] và (ii) tìm một tập nhất quáncực đại [51] Phương pháp loại bỏ công thức được sử dụng hiệu quả đối vớiCSTT dạng lôgic, lôgic khả năng bởi các CSTT dạng này đều được biểudiễn dựa trên các công thức trên một ngôn ngữ mệnh đề Tuy nhiên, hạnchế của phương pháp này có thể làm mất đi một số công thức quan trọngtrong quá trình xử lý tính KNQ Hơn nữa, tính hữu hiệu của phương phápnày đối với CSTT xác suất chưa được nghiên cứu kỹ lưỡng.

- Phương pháp thay đổi công thức hay thay đổi định tính (QualitativeModification): Ý tưởng chính của phương pháp này là thay đổi cấu trúc cácthành phần của công thức trong CSTT sao cho thu được CSTT nhất quán.Cách tiếp cận này phù hợp với các dạng CSTT dạng lôgic-xác suất, xác suất[41, 73] Tuy nhiên, việc thay đổi cấu trúc của công thức có thể dẫn đến sựKNQ về mặt định tính với các công thức khác nếu không xem xét kỹ lưỡngmối liên hệ giữa các công thức trong CSTT.

- Phương pháp thay đổi xác suất hay thay đổi định lượng (Quantitativemodification): Ý tưởng chính của phương pháp này là thay đổi giá trị xácsuất của ràng buộc xác suất (RBXS - Probabilistic Constraint) trong CSTTsao cho thu được CSTT nhất quán Hai hướng tiếp cận chính của phươngpháp này là (i) tuân theo mô hình Heuristic [30] và (ii) cực tiểu hóa độ đoKNQ để tìm được xác suất mới [21, 41, 63, 66, 68, 73, 76, 77] Tuy nhiên,cách tiếp cận này mới chỉ dừng lại ở việc xử lý các CSTT dạng lôgic-xácsuất trên một ngôn ngữ mệnh đề.

Trang 18

Sự phát triển của các phương pháp tích hợp tri thức

- THTT dạng lôgic cổ điển và lôgic khả năng [7, 9, 34, 47, 48, 70, 71] đãđược nghiên cứu một cách kỹ lưỡng Ý tưởng chính của phương pháp nàylà xây dựng một họ các toán tử tích hợp thông qua việc tìm một tập thứ tựưu tiên bằng cách sử dụng hàm kết hợp hoặc hàm khoảng cách Các kết quảđạt được rất hữu ích đối với các hệ thống hoạt động dựa trên tập luật Gầnđây, có một cách tiếp cận khác đó là đi tìm tập tri thức đồng thuận dựatrên lý thuyết đồng thuận, hàm kết hợp và hàm khoảng cách [46,61, 80,90].Tuy nhiên, trong xu hướng công nghệ hiện tại, các hệ thống dựa trên tri thứcđang chủ yếu dựa vào dữ liệu lớn thì tiếp cận này khó có thể áp dụng được.Hơn nữa, theo Potyka [66], THTT dạng lôgic cổ điển có thể được coi là quátrình học rút ra kết luận suy diễn từ các giả định nhất quán Tuy nhiên, cácgiá trị chân lý cổ điển đúng và sai thường không đủ cho các ứng dụng trongcác miền không chắc chắn Lôgic-xác suất khắc phục nhược điểm này bằngcách biểu diễn các công thức theo xác suất, trong đó khi xác suất bằng 1 thìcông thức đúng và khi xác suất bằng 0 thì công thức sai.

- THTT dạng lôgic-xác suất [67] cho phép sử dụng thế mạnh của lýthuyết xác suất trong việc giải quyết tính KNQ đồng thời vẫn giữ được khảnăng suy diễn lôgic Tuy nhiên, các giải pháp cho bài toán tích hợp trên môitrường lôgic-xác suất vẫn còn hạn chế vì cách tiếp cận này phải được xácđịnh bằng các hàm xác suất trên tập vũ trụ (Sample Space hoặc UniversalSet) và được xét trong môi trường ngôn ngữ mệnh đề nên sẽ bị ràng buộcbởi công thức lôgic Hơn nữa, cũng rất khó xác định làm thế nào xác suấtmới trong các CSTT có thể được tính toán bởi vì rất khó để tìm các hàm xácsuất thỏa mãn tất cả các RBXS trong CSTT Mô hình cũng sẽ không khảthi đối với các các bài toán có không gian đầu vào lớn Các cách tiếp cậnnày mới chỉ dừng lại ở việc giải quyết tính KNQ của các CSTT.

- THTT dạng xác suất: Biểu diễn tri thức bằng xác suất là cách làmthuận tiện và phổ biến hiện nay khi mà tri thức của các hệ thống thườngđược khai phá từ dữ liệu Hai cách tiếp cận chính để giải quyết bài toánTHTT đó là (i) tìm một phân phối xác suất liên hợp (Joint ProbabilityDistribution) từ tập các phân phối xác suất biểu diễn cho các TTXS đầuvào [5, 6, 84, 85, 87, 88, 91] và (ii) dựa trên giá trị xác suất của các RBXS[41–43, 50] Với cách tiếp cận đi tìm một phân phối xác suất liên hợp thì cóba kỹ thuật được triển khai: sử dụng kỹ thuật lặp [84, 85, 91], sử dụng hàmứng viên (Candidacy Functions) [21] và sử dụng hàm khoảng cách phân kỳ(KCPK - Divergence Distance) [5, 6, 87, 88] Tuy nhiên, các cách tiếp cậnnày yêu cầu các CSTT ban đầu phải đảm bảo tính nhất quán và có cùngmột cấu trúc.

Trang 19

Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, THTTđang là một lĩnh vực nghiên cứu khá mới mẻ ở Việt Nam TS Trần ThanhLương, Trường Đại học Khoa học - Đại học Huế đã nghiên cứu về học kháiniệm cho các hệ thống thông tin dựa trên logic mô tả [3] Các nghiên cứucủa GS.TS Cao Hoàng Trụ - Trường Đại học Bách khoa - Đại học quốc giaHồ Chí Minh về khai thác và tích hợp thông tin dựa trên ontology [15, 16].TS Dương Trọng Hải - Trường Đại học Nguyễn Tất Thành nghiên cứu vềtích hợp ontology và ứng dụng [25, 26] TS Trương Hải Bằng - Trường Đạihọc Công nghệ Thông tin, Đại học Quốc Gia TP Hồ Chí Minh nghiên cứuvề tích hợp ontology mờ trên cơ sở lý thuyết đồng thuận [1] TS NguyễnVăn Trung, Trường Đại học Khoa học - Đại học Huế nghiên cứu về một sốphương pháp xử lý tri thức KNQ trong ontology [4] Nhóm nghiên cứu củaTS Trần Trọng Hiếu - Đại học Quốc gia Hà Nội đã tập trung giải quyếtvấn đề THTT dạng lôgic cho các hệ thống dựa trên tri thức sử dụng cáckỹ thuật đàm phán và tranh luận [61, 80] Gần đây, TS Nguyễn Thị HồngKhánh, Trường Đại học Điện lực đã nghiên cứu về xử lý KNQ trong THTTdựa trên lôgic [2].

Chính vì lý do đó, xử lý tính KNQ (khôi phục tính nhất quán) là mộttrong các nhiệm vụ cần phải giải quyết trước khi tiến hành THTT trongcác hệ thống dựa trên tri thức THTT là một chủ đề nghiên cứu, ứngdụng thu hút một cộng đồng nghiên cứu rộng rãi trên thế giới Hình 1

tổng hợp số lượng công trình nghiên cứu được công bố trên rect (https://www.sciencedirect.com) trong giai đoạn 1997-2020 cóchứa các cụ từ "Knowledge-base system", "Probabilistic knowledge", "In-consistent knowledge", "Consistency knowledge", "Merging knowledge orKnowledge Integration" trong tiêu đề, tóm tắt và danh sách từ khóa với chủđề công bố "Expert Systems with Applications", "Information Sciences","Neurocomputing", "Knowledge-Based Systems" và "Procedia ComputerScience".

ScienceDi-Động lực nghiên cứu

- Để có thể giải quyết được bài toán tích hợp thì trước hết đảm bảo tínhnhất quán của các hệ thống dựa trên tri thức luôn là một trong các yêu cầuthiết yếu bởi vì nếu tính nhất quán không được đảm bảo thì hầu hết cáchệ thống này trở lên vô ích Bởi vì tầm quan trọng đó, rất nhiều các nghiêncứu đã quan tâm đến việc khôi phục tính nhất quán trong các hệ thống dựatrên tri thức Các cách tiếp cận chính để khôi phục tính nhất quán của mộtCSTT là: Loại bỏ công thức, thay đổi công thức, thay đổi xác suất (thay đổi

Trang 20

Hình 1: Thống kê công trình khoa học về xử lý tính KNQ và giảiquyết bài toán tích hợp trong các hệ thống dựa trên tri thức trên

ScienceDirect giai đoạn 1997-2020.

xác suất khoảng, thay đổi xác suất điểm) Tuy nhiên, các phương pháp nàymới chỉ dừng lại ở việc xử lý tính KNQ của CSTT dạng lôgic cổ điển, lôgickhả năng, lôgic-xác suất, xác suất trên một ngôn ngữ mệnh đề Hơn nữa,chưa có một mô hình khôi phục tính nhất quán cũng như thuật toán được đềxuất để giải quyết tính KNQ cho CSTT dạng xác suất trên tập các sự kiện.Đánh giá về tính tin cậy, tính đúng đắn cũng như đảm bảo các nguyên lýxác suất cơ bản khi thay đổi giá trị xác suất của các RBXS trong CSTT xácsuất cũng cần được xem xét và chứng minh.

- Khi tính nhất quán của các CSTT đầu vào trong hệ thống dựa trên trithức được đảm bảo thì tiến trình THTT mới có thể được tiến hành và đemlại hiệu quả cao về chất lượng tích hợp cũng như thỏa mãn các tính chất cơbản của nguyên lý tích hợp Tùy vào mỗi dạng CSTT mà sẽ có các phươngpháp tích hợp phù hợp tương ứng Với CSTT dạng xác suất, các cách tiếpcận giải quyết bài toán THTT vẫn còn tồn tại một số vấn đề Thứ nhất, đầuvào và đầu ra của các CSTT xác suất được biểu diễn bằng các phân phối xácsuất, trong đó đầu vào của các CSTT xác suất phải nhất quán và có cùngcấu trúc Thứ hai, chưa có một mô hình cũng như thuật toán được đề xuấtđể giải quyết bài toán THTT xác suất trên tập các sự kiện Thứ ba, với cáchtiếp cận dựa trên khoảng cách thì mới chỉ có một vài hàm khoảng cách được

Trang 21

nghiên cứu và áp dụng Cuối cùng, đánh giá về tính tin cậy, tính đúng đắncũng như đảm bảo các nguyên lý tích hợp trên môi trường xác suất cũng cầnđược xem xét và chứng minh Như vậy, vẫn còn rất nhiều công việc phải đượcthực hiện trên mô hình từ các góc độ lý thuyết, thực tiễn và thực nghiệm.

Do đó, để xây dựng được một hệ thống tích hợp các CSTT xác suất, luậnán cần khắc phục và cải thiện những vấn đề còn tồn tại của các phươngpháp khôi phục tính nhất quán và tích hợp CSTT trong môi trường xácsuất Luận án sẽ tìm hiểu các cách tiếp cận để giải quyết tính KNQ củaCSTT trong môi trường lôgic, lôgic-xác suất, lôgic khả năng Từ đó, đề xuấtmô hình, nền tảng toán học và thuật toán để giải quyết bài toán khôi phụctính nhất quán của CSTT xác suất Tiếp theo, luận án sẽ nghiên cứu cácphương pháp THTT hiện đã được phát triển để tìm ra giải pháp phù hợpcho bài toán tích hợp các CSTT xác suất Cuối cùng, dựa trên kết quả củacác thực nghiệm, luận án tiến hành phân tích, so sánh và đánh giá về chấtlượng của các kết quả thu được, thời gian thực hiện cũng như tham số thờigian CPU để giải lớp các bài toán tối ưu trong tiến trình tích hợp các CSTTxác suất.

Tham gia vào dòng nghiên cứu về bài toán THTT, luận án tập trung vàoviệc đề xuất các giải pháp xử lý tính KNQ của CSTT và thiết kế các môhình THTT trong môi trường xác suất Hình 2 thể hiện tổng quan về cácmô hình THTT đã và đang được nghiên cứu trên thế giới; mỗi mô hình cócác cách tiếp cận để giải quyết khôi phục tính nhất quán và phương pháp đểTHTT sử dụng các công cụ khác nhau Các ô và đường đi màu xanh đậmtrong Hình 2 thể hiện các cách tiếp cận để giải quyết các câu hỏi nghiêncứu của luận án.

Mục đích, đối tượng, phạm vi, phương pháp nghiên cứu

Mục đích nghiên cứu:

Mục đích nghiên cứu tổng quát của luận án là đề xuất: Phương phápkhôi phục tính nhất quán của CSTT xác suất và phương pháp tích hợp cácCSTT xác suất Mục đích nghiên cứu tổng quát này được chi tiết thành cácmục tiêu cụ thể sau đây:

Mục đích 1:

- Cung cấp một báo cáo tổng quan về các độ đo KNQ, các phương phápxử lý tính KNQ của CSTT, các phương pháp tích hợp các CSTT dạng lôgic,lôgic-xác suất, xác suất.

Trang 22

Lôgic

DẠNG CƠ SỞ TRI THþC

Xác su¿t

Lôgic-Xác su¿t

KHÔI PHþC TÍNH NHẤT QUÁN

PH¯ƠNG PHÁP TÍCH HþP Thay đổi

công thÿc

Thay đổi xác su¿t điểm

Thay đổi xác su¿t kho¿ng

Lo¿i bß công thÿc

Hàm kho¿ng cách

Hàm kết hợp

Tìm các phân bß xác su¿t

Tìm tập thÿ tÿ ±u tiên (Tiếp cận ngÿ nghĩa)

Tìm giá trị xác su¿t cÿa ràng bußc

Hàm kho¿ng cách phân kÿ

CÔNG Cþ

Đß đo không nh¿t quán

Lý thuyết xác su¿t

Ph±¡ng pháp lặp

CH¯ƠNG 3 CH¯ƠNG 2 CH¯ƠNG 4 CH¯ƠNG 1

Duyệt tri thÿc (Tiếp cận cú pháp)

Mục đích 1 trả lời các câu hỏi nghiên cứu:

1 Làm sao để biểu diễn được tri thức dưới dạng xác suất ?

2 Làm sao để biết được một CSTT xác suất nhất quán hay không ?3 Một hệ thống dựa trên tri thức xác suất gồm những thành phần nào ?Mục đích 2: Xây dựng mô hình khôi phục tính nhất quán của CSTTxác suất:

- Đánh giá, phân tích các độ đo KNQ Từ đó, chọn và cải tiến lớp các độđo KNQ phù hợp với mô hình xác suất bằng cách xem xét các tính chất kỳvọng của chúng cần phải thỏa mãn.

Trang 23

- Đề xuất một họ mới các toán tử khôi phục cho mô hình xác suất; khảosát và phát triển một tập các tính chất kỳ vọng cho các toán tử khôi phụcđược đề xuất.

- Biểu diễn mô hình xây dựng cho cách tiếp cận thông qua việc phát biểubài toán khôi phục tính nhất quán của CSTT xác xuất.

- Xây dựng, đánh giá độ phức tạp và cài đặt thuật toán khôi phục tínhnhất quán.

Mục đích 2 trả lời các câu hỏi nghiên cứu:

4 Làm sao để đo tính KNQ của một CSTT xác suất ?

5 Làm sao để khôi phục được tính nhất quán của CSTT xác suất ?Mục đích 3: Xây dựng mô hình tích hợp các CSTT xác suất:

- Đề xuất một họ mới các toán tử tích hợp cho mô hình xác suất; khảosát và phát triển một tập các tính chất kỳ vọng cho các toán tử tích hợpđược đề xuất.

- Biểu diễn mô hình xây dựng cho cách tiếp cận thông qua việc phát biểubài toán tích hợp các CSTT xác xuất.

- Xây dựng, đánh giá độ phức tạp và cài đặt thuật toán tích hợp cácCSTT xác xuất.

Mục đích 3 trả lời các câu hỏi nghiên cứu:

6 Làm sao có thể tích hợp được các CSTT xác suất thành một tri thứcchung đại diện tốt nhất ?

Đối tượng nghiên cứu: Đối tượng nghiên cứu của luận án là các kỹthuật biểu diễn tri thức, cơ sở tri thức được biểu diễn dưới dạng lôgic-xácsuất, các hàm KCPK, các độ đo KNQ, các phương pháp xử lý tính KNQ,các phương pháp THTT, các thuật toán, các phương pháp giải bài toántối ưu.

Phạm vi nghiên cứu: Với giải thiết tri thức sẽ được biểu diễn dướidạng xác suất, phạm vi nghiên cứu của luận án là tập trung vào kỹ thuậtbiểu diễn tri thức, các phương pháp khôi phục tính nhất quán dựa trên độđo KNQ được giải bằng bài toán tối ưu, các phương pháp THTT trong môitrường xác suất; các kỹ thuật giải bài toán quy hoạch tuyến tính và bàitoán tối ưu phi tuyến Các phương pháp khôi phục tính nhất quán và cácphương pháp THTT được xem xét trên tập các sự kiện trong hồ sơ TTXS.Trong đó, miền dữ liệu mà luận án quan tâm tích hợp là các khảo sát về

Trang 24

việc đánh giá các dấu hiệu nhận biết việc mắc bệnh tim mạch và một sốbệnh ung thu của bệnh nhân.

Phương pháp nghiên cứu:

- Phương pháp phân tích, phân loại và tổng hợp lý thuyết: Phân tíchnguồn tài liệu và nội dung liên quan đến đề tài về các phương pháp biểudiễn tri thức hiện có, thế mạnh của các nguyên lý về xác suất, độ đo KNQ,lý thuyết quyết định, trí tuệ nhân tạo, duyệt tri thức, hàm KCPK, entropycực đại, các tiếp cận để đo tính KNQ và giải quyết tính KNQ, các phươngpháp THTT.

- Phương pháp thực nghiệm: Dựa trên các mô hình và các thuật toánTHTT đã đề xuất, tiến hành cài đặt chương trình tích hợp Các kết quảthực nghiệm thu được sẽ được dùng để khẳng định thêm về tính đúng đắnvà tính tin cậy của mô hình lý thuyết.

Tính cấp thiết, ý nghĩa lý luận và thực tiễn củaluận án

Xu hướng chủ yếu của các hệ thống dựa trên tri thức hiện nay là đượcxây dựng để làm việc với dữ liệu lớn, từ nhiều nguồn khác nhau và nguồntri thức của các hệ thống này thường được biểu diễn dưới dạng xác suất.Việc tích hợp các CSTT của các hệ thống dựa trên tri thức mà trong đótri thức được biểu diễn dưới dạng các công thức lôgic hay khung tri thứcđã được nghiên cứu và đã được ứng dụng rộng rãi Tuy nhiên, rất khó ápdụng các khung làm việc của tri thức được biểu diễn ở dạng này sang chocác CSTT dạng xác suất được Do đó, việc xây dựng các khung làm việc đểtích hợp các CSTT xác suất là có tính thời sự, rất cần thiết và cần đượcđầu tư nghiên cứu.

Nội dung nghiên cứu của luận án có ý nghĩa quan trọng về khía cạnh:

Trang 25

Kết luận và hướng phát triển

Đề xuất mô hình khôi phục tính nhất quán và mô hình tích hợp các cơ sở tri thức xác suấtChương 1:

Kiến thức cơ sở

Chương 4:

Phương pháp tích hợp các cơ sở tri thức xác suất

Chương 3:

Phương pháp khôi phục tính nhất quán trong cơ sở tri thức xác suất

Chương 2:

Tổng quan về xử lý tính không nhất quán và tích hợp tri thức

Hình 3: Cấu trúc luận án.

- Đối với yêu cầu của thực tiễn: Các kết quả nghiên cứu của luận án cóthể được ứng dụng rộng rãi trong các hệ hỗ trợ ra quyết định, các hệ thốngthương mại điện tử tự động, các hệ thống web hướng ngữ nghĩa, cũng nhưtrong các hệ chuyên gia nhằm tăng cường độ chính xác cho các hệ thốngchẩn đoán bệnh; các hệ thống dự báo thời tiết, dự báo kinh tế; các hệ thốngchống biến đổi khí hậu, phòng chống thiên tai và dịch bệnh; và các lĩnh vựckhác Những hệ thống này phục vụ cho nhiều mặt của đời sống xã hội cũngnhư an ninh quốc phòng.

- Đối với lĩnh vực khoa học công nghệ liên quan: Các kết quả nghiên cứucủa luận án sẽ cung cấp các mô hình lý thuyết, các kết quả đánh giá về tínhhợp lý, độ phức tạp tính toán cho cộng đồng nghiên cứu và phát triển.

Trang 26

tri thức, phương pháp biểu diễn CSTT xác suất, phương pháp biểu diễntính KNQ của CSTT để giải quyết bài toán khôi phục tính nhất quán trongCSTT xác suất ở Chương 3 Kế tiếp là các kiến thức về các hàm khoảngcách, hàm KHCP để xây dựng mô hình tích hợp các CSTT xác suất vàtiến hành cài đặt thực nghiệm các phương pháp đề xuất ở Chương 3 vàChương 4.

Chương2Tổng quan về xử lý tính KNQ và tích hợp tri thức Chương nàytrình bày các phương pháp để xử lý tính KNQ Sau đó, sẽ trình bày về cácbài toán THTT và các phương pháp tiếp cận để tiến hành THTT Phầncuối cùng, trình bày tổng quan về hệ thống THTT, tiến trình phát triển cáchệ thống tích hợp và một sơ đồ nguyên lý chung cho hệ thống THTT dựatrên TTXS.

Chương 3Phương pháp khôi phục tính nhất quán trong cơ sở tri thức xácsuất Chương này trình bày lớp các độ đo KNQ cho CSTT xác suất; giớithiệu các bài toán để tính các độ đo KNQ này Dựa trên lớp độ đo KNQ,chương này sẽ trình bày hai mô hình khôi phục tính nhất quán: Mô hìnhkhôi phục theo chuẩn và mô hình khôi phục phi chuẩn Các định lý xây dựngvà các thuật toán xử lý tính KNQ cũng được trình bày trong chương này.

Chương 4 Phương pháp tích hợp các cơ sở tri thức xác suất Chương nàyđề xuất hai phương pháp tích hợp các CSTT xác suất: Phương pháp dựatrên khoảng cách và phương pháp dựa trên giá trị xác suất Lớp các toántử tích hợp xác suất cùng các tính chất mà chúng nên thỏa mãn dựa trênkhái niệm phân kỳ và dựa trên giá trị xác suất được giới thiệu Bài toántích hợp, các định nghĩa, định lý để xây dựng các thuật toán tích hợp đượctrình bày trong chương này Tiếp theo, chương này trình bày về bộ dữ liệuthực nghiệm, cấu hình hệ thống; phân tích, đánh giá kết quả thực nghiệmvề độ tin cậy của kết quả thu được cũng như hiệu suất thực hiện với cácthuật toán cơ sở đã được đề xuất trong Chương 3 và thuật toán tích hợp.

Cuối cùng, phần Kết luận và hướng phát triển tổng hợp các kết quảnghiên cứu chính của luận án, nhận định về các hạn chế còn tồn tại củaluận án và thảo luận về các nghiên cứu trong tương lai từ các kết quả banđầu đã đạt được và các hạn chế được nhận diện.

Trang 27

KIẾN THỨC CƠ SỞ

Chương này tìm câu trả lời cho câu hỏi nghiên cứu thứ 1 và thứ 2: "Làmsao để biểu diễn được tri thức dưới dạng xác suất ?" và "Làm sao để biếtđược một CSTT xác suất nhất quán hay không ?" Trong chương này, luậnán sẽ trình bày về những kiến thức cơ sở được sử dụng trong các chươngtiếp theo Phần 1.1 giới thiệu các kỹ thuật biểu diễn tri thức và một bàitoán thực tế cần biểu diễn tri thức Phần 1.2 giới thiệu về các khái niệmcơ bản của kỹ thuật biểu diễn TTXS Phần 1.3 trình bày một số khái niệmvề hàm khoảng cách Tuy nhiên, để tiến trình tích hợp thành công thì cầngiải quyết được tính KNQ của CSTT xác suất Do đó, Phần 1.4 sẽ trìnhbày một số khái niệm để biểu diễn và xử lý tính KNQ của CSTT xác suất.Phần1.5 trình bày một số khái niệm cơ bản về các dạng ma trận của CSTTxác suất, các loại RBXS Đây là hai nội dung quan trọng làm nền tảngđể thực hiện tiến trình tích hợp TTXS Phần kiến thức cơ sở của luận ánđược trình bày trong các phần các khái niệm cơ bản trong các công trình[NVTham1-NVTham7].

1.1 Các phương pháp biểu diễn tri thức

Tri thức tồn tại dưới hai dạng cơ bản: Tri thức định lượng và tri thứcđịnh tính Tri thức định lượng thường được gán với các loại heuristics khácnhau Tri thức định tính chia làm ba loại: Tri thức mô tả, tri thức thủ tụcvà tri thức điều khiển Phân biệt các loại tri thức là cơ sở để tìm đượcphương pháp biểu diễn tri thức phù hợp Biểu diễn tri thức là phương phápmã hóa tri thức, nhằm lập ra các CSTT làm đầu vào cho các hệ thốngdựa trên tri thức Các phương pháp chung để biểu diễn tri thức trong các

12

Trang 28

hệ thống dựa trên tri thức được trình bày chi tiết bởi Harmelen và côngsự [82] bao gồm: Biểu diễn tri thức bằng lôgic mô tả (Description Logic),Biểu diễn tri thức bằng lôgic không đơn định (Nonmonotonic Logic), Biểudiễn tri thức bằng đồ thị khái niệm (Concept Graph), Biểu diễn tri thứcbằng bộ ba Đối tượng - thuộc tính - giá trị (Object – Attribute – Value(OAV)), Biểu diễn tri thức bằng luật sinh (Production Rule), Biểu diễn trithức bằng mạng ngữ nghĩa (Semantic Network), Biểu diễn tri thức bằngmạng Bayesian (Bayesian Network).

Để tiện cho việc minh họa cho các phần tiếp theo, luận án sử dụng ví dụsau đây:

Ví dụ 1.1 Một Bệnh viện thực hiện một cuộc khảo sát để đánh giá cácdấu hiệu nhận biết việc mắc bệnh tim mạch của bệnh nhân Cuộc khảo sátđược thực hiện bằng cách thu thập các ý kiến của các chuyên gia là các bácsĩ tại các Bệnh viện Hai dấu hiệu chính cần khảo sát liên quan đến bệnhtim mạch là: Khó thở và đau ngực Các bác sĩ được yêu cầu đưa ra một sốnhận định (tri thức) về: Tỷ lệ bệnh nhân mắc bệnh tim, tỷ lệ bệnh nhân khóthở, tỷ lệ bệnh nhân đau ngực, tỷ lệ bệnh nhân mắc bệnh tim khi người nàycó triệu chứng khó thở, tỷ lệ bệnh nhân mắc bệnh tim khi người này có triệuchứng đau ngực, tỷ lệ bệnh nhân khó thở khi người này bị bệnh tim, tỷ lệbệnh nhân đau ngực khi người này bị bệnh tim Mỗi bác sĩ sẽ đưa ra tri thứccủa mình, đó là các nhận định về tỷ lệ mắc bệnh tim liên quan đến hai triệuchứng khó thở và đau ngực Tuy nhiên, mỗi bác sĩ sẽ đưa ra tri thức riêngcủa mình mà bản thân tri thức của chính mỗi bác sĩ cũng có thể KNQ Mộtyêu cầu đặt ra của cuộc khảo sát là phải đưa ra được đánh giá chung về cácdấu hiệu nhận biết việc mắc bệnh tim mạch của bệnh nhân từ các tri thứccủa các bác sĩ Mặc dù, tất cả các tri thức của các bác sĩ có thể nhất quán,nhưng khi tích hợp có thể dẫn đến một tri thức chung KNQ Các vấn đề màcuộc khảo sát cần phải làm:

1 Làm sao để biểu diễn được tri thức của mỗi bác sĩ ?2 Làm sao để biết được tri thức của bác sĩ là KNQ ?

3 Làm sao để khôi phục được tính nhất quán của tri thức của bác sĩ ?4 Làm sao có thể tích hợp được tri thức của các bác sĩ thành một trithức chung đại diện tốt nhất ?

Để trả lời được các câu hỏi trên thì vấn đề đầu tiên cần phải làm đó làbiểu diễn tri thức của bác sĩ Các kỹ thuật biểu diễn tri thức được trình bày

Trang 29

chi tiết bởi Harmelen và công sự [82] không phù hợp với tri thức này Kỹthuật phù hợp cho tri thức dạng này đó là biểu diễn TTXS Vấn đề biểudiễn tri thức cho mô hình xác suất sẽ được trình bày chi tiết trong Phần1.2.

1.2 Biểu diễn CSTT xác suất

1.2.1 Sự kiện và xác suất

Đặt S là một không gian mẫu hữu hạn mà nó bao gồm tất cả các kếtquả có thể có của một thí nghiệm thống kê Đặt E= 2S \∅ là một tập hữuhạn các sự kiện, trong đó mỗi sự kiện là một tập con của không gian mẫuS Chẳng hạn, nếu kết quả của một phép thử bao gồm việc xác định giớitính của trẻ sơ sinh thì S= {g, t}, trong đó kết quả g nghĩa là trẻ là gái và t

nghĩa là trẻ là trai Nếu E = {g} thì E là sự kiện mà trẻ là gái Tương tự,nếu E = {t} thì E là sự kiện mà trẻ là trai.

Với F,G ∈E, giao của hai sự kiện F,G, kí hiệu bởi FG, là sự kiện chứatất cả các phần tử thuộc về đồng thời hai sự kiện F và G Phủ định củaF , kí hiệu bởi F , trong đó F = S \F Giả sử E= {E1, ,En} Một hội đầyđủ Θ của E là một biểu diễn dạng Θ = ˜E1E˜2 ˜En với E˜i= {Ei, ¯Ei} Đặt

Λ(E) là tập tất cả các hội đầy đủ của E, do đó Λ(E) = {Θ1, ,Θ2n} Đặt

Q =E∪ { ˜EiE˜j| ˜Ei∈ {Ei, ¯Ei}, ˜Ej∈ {Ej, ¯Ej},và Ei6=Ej∈E} Một hội đầy đủ

Θ ∈ Λ(E) thỏa U ∈ Q, được kí hiệu bởi Θ |=U nếu và chỉ nếu U xuất hiệndương Θ Đặt f(U) = {Θ ∈ Λ(E) | Θ |= U vàU ∈ Q} Đặt ~E=| Λ(E) | là sốlượng các hội đầy đủ của E Đặt R∗ là tập tất cả các giá trị thực không âm.Đặt R[0,1] là tập tất các giá trị thực từ 0 đến 1 Đặt Rn là tập các véc-tơn-chiều có giá trị thực Đặt Rn

= {(p1, ,pm) ∈ R~E

i=1pi= 1} là tập tấtcả các hàm xác suất ~E-chiều rời rạc trên E, trong đó mỗi pi∈ ~p ∈P~E tươngứng với P(Θ) ∈P(b E).

Trang 30

Đặt ~ω= (ω1, , ω~E)T là một véctơ cột, trong đó biến thành phần ωi

tương ứng với một xác suất P(Θi).

Xác suất của một sự kiện E là tổng các trọng số của tất cả điểm mẫutrong E , kí hiệu P(E) Do đó,

0 ≤ P(E) ≤ 1 vàP(S) = 1 (1.1)Xác suất có điều kiện của sự kiện F , biết rằng sự kiện G đã xảy ra, kíhiệu P (F |G), được định nghĩa như sau:

P (F |G) = P(FG)

P(G) = ρ miễn là P(G) > 0 (1.2)Hai sự kiện F và G là độc lập nếu và chỉ nếu P (F |G) = P(F) hoặc

P (G|F) = P(G) giả sử tồn tại xác suất có điều kiện Ngược lại, F và G làphụ thuộc.

Định lý 1.1 ([40, 86] ) Cho F,G ∈E, hàm xác suất P thỏa mãn các luậtxác suất sau:

∀k = 1,n(P3) P(F) =

Trang 31

- Các xác suất của sự kiện: Xác suất bệnh nhân mắc bệnh tim được kíhiệu P(H); xác suất bệnh nhân khó thở được kí hiệu là P(T); xác suất bệnhnhân đau ngực được kí hiệu là P(D).

- Các xác suất có điều kiện: Xác suất bệnh nhân có cảm giác khó thở khingười này mắc bệnh tim được kí hiệu là P (T|H); xác suất bệnh nhân mắcbệnh tim khi người này có triệu chứng đau ngực được kí hiệu là P (H |D).1.2.2 Cơ sở tri thức xác suất

CSTT xác suất được định nghĩa bởi Potyka và Thimm [65, 66, 77] làmột tập các điều kiện được xem xét trên ngôn ngữ mệnh đề Định nghĩavề CSTT xác suất trong luận án được xét trong ngữ cảnh xác suất, tức là,chúng được xét trên tập các sự kiện E.

Định nghĩa 1.3 ([66]) (Ràng buộc xác suất) Cho F,G ∈ E và ρ∈ R[0,1].Một RBXS là một biểu diễn dạng c[ρ], trong đó c = (F |G).

Một ràng buộc (F |G) [ρ] với ý nghĩa xác suất sự kiện F xảy ra với điềukiện sự kiện G đã xảy ra làρ Kí hiệu> được dùng để thể hiện một sự kiệnkhông là sự kiện ràng buộc của sự kiện khác Nếu F độc lập với G, tức G làlặp thừa, G ≡ >, kí hiệu(F |>) [ρ] bởi(F)[ρ] RBXS (F)[ρ]nghĩa là xác suấtcủa sự kiện F là ρ, tức là, P(F) = ρ Điều này tương ứng với định nghĩa vềxác suất của một sự kiện [86].

Với c = (F |G) và G 6≡ >, gọi Left(c) là hàm trả về sự kiện bên trái củac và Right(c) là hàm trả về sự kiện bên phải của c, tức là, Left(c) = F và

Right(c) =G Cho hai RBXS c1[ρ1],c2[ρ2].

- Hai RBXS c1[ρ1],c2[ρ2]là tương đương về cấu trúc, kí hiệu c1[ρ1] ≈c2[ρ2],nếu và chỉ nếu Left(c1) = Left(c2) và Right(c1) = Right(c2) Ngược lại, haiRBXS c1[ρ1],c2[ρ2] là không đương về cấu trúc, kí hiệu c1[ρ1] 6≈c2[ρ2].

- Hai RBXS c1[ρ1],c2[ρ2] là tương đương một phần về cấu trúc, kí hiệuc1[ρ1] 'c2[ρ2], nếu và chỉ nếuLeft(c1) = Left(c2)hoặcRight(c1) = Right(c2).Ngược lại, hai RBXS c1[ρ1]và c2[ρ2] là không đương đương một phần về cấutrúc, kí hiệu c1[ρ1] 6'c2[ρ2].

Định nghĩa 1.4 ([66]) (Cơ sở tri thức xác suất) CSTT xác suất K là mộttập hữu hạn các RBXS: K = {κ1, , κh}, trong đó κi=ci[ρi], ∀i = 1,h.

Đặt ¯bK=| K |=h là số lượng các RBXS trong K Đặt K là tập tất cả cácCSTT xác suất Đặt V là tập tất cả các véctơ xác suất của các RBXS trong

Trang 32

mỗi K ∈ K Đặt SC(K) = κ1, , κ¯bK

là tập tất cả các RBXS xuất hiệntrong K Đặt~λ = (λ1, , λ¯bK)T là một véctơ cột, trong đó biến phụλi tươngứng với RBXS κi Đặt~1 = (1, , 1)T là véctơ cột chỉ chứa¯bKphần tử 1 Đặt

~0 = (0, , 0)T là véctơ cột chỉ chứa ¯bK phần tử 0 Đặt ~K= (ρ1, , ρ¯bK)T làmột véctơ cột, trong đó một biến phụ ρi tương ứng với giá trị xác suất củaRBXS κi.

Trong một CSTT xác suất có thể tồn tại một số RBXS dư thừa Việcloại bỏ các RBXS này không ảnh hưởng đến cấu trúc cũng như nội dungcủa CSTT xác suất Định nghĩa 1.5 sau đây phát biểu rằng sau khi giảmmột số RBXS dư thừa trong CSTT xác suất thì số lượng các RBXS, cấutrúc của các RBSX, giá trị xác suất của các RBXS có thể bị thay đổi.Định nghĩa 1.5 ([40, 43]) (Luật giảm RBXS)

Cho CSTT xác suất K = {(F1|G1)[ρ1], , (Fk|Gk)[ρk]} Luật giảm cácRBXS trong K thành CSTT xác suất K∗= {(F∗

1)[ρ∗1], , (F∗

h)[ρ∗h] (1.3)Định lý 1.2 sau đây phát biểu rằng có thể loại bỏ một số RBXS dư thừatrong một CSTT xác suất bằng cách sử dụng Công thức (1.4).

Định lý 1.2 ([40, 43]) Cho F,G,H ∈E và ρ1, ρ2∈R[0,1].

K : (F |G) [ρ1], (H |F) [ρ2]

(H |G) [12(2ρ1ρ2− ρ1+ 1)] (1.4)Do tiến trình THTT thực chất là việc đi tìm một tri thức chung đại diệntốt nhất cho một tập hữu hạn các CSTT Trong môi trường xác suất, vềmặt hình thức, một hồ sơ TTXS bao gồm các CSTT xác suất được xác địnhtrên cùng một tập hữu hạn các sự kiện Định nghĩa hồ sơ TTXS được đềxuất như sau:

Định nghĩa 1.6 (Hồ sơ tri thức xác suất) Một hồ sơ TTXS (Probabilisticknowledge profile) R trên tập các sự kiện E là một bộ hB,Ei, trong đó:

1 E= {E1, ,En} là một tập hữu hạn gồm n sự kiện.

2 B = {K1, ,Km} là một đa tập hữu hạn gồm m CSTT xác suất.Đặt ~B =| B |=m là số lượng các CSTT xác suất có trong B Đặt B làmột tập gồm các đa tập hữu hạn các CSTT xác suất.

Trang 33

Ví dụ 1.3 Xét tiếp Ví dụ 1.2 Bệnh viện thực hiện thu thập tri thức từchín bác sĩ, mỗi bác sĩ được được gán một mã lần lượt là BS1, BS2, BS3,BS4, BS5, BS6, BS7, BS8, BS9 Sau khi khảo sát, Bệnh viện thu được trithức của các bác sĩ được thể hiện trong Bảng 1.1.

Bảng 1.1: Tri thức của các bác sĩRBXS BS1 BS2 BS3 BS4 BS5

1.3 Hàm khoảng cách

Phần này trình bày một số hàm khoảng cách (Distance Function) và hàmKCPK sẽ được sử dụng để xây dựng bài toán khôi phục tính nhất quán củaCSTT xác suất và bài toán tích hợp các CSTT xác suất ở các phần sau:Định nghĩa 1.7 ([81]) (Hàm khoảng cách)

Cho một tập các phần tử X bất kỳ, một hàm khoảng cách trên X là mộtánh xạ: d :X ×X →R thỏa mãn các tính chất sau:

1 d(x,y) ≥ 0

Trang 34

2 d(x,y) = 0 khi và chỉ khi x =y3 d(x,y) =d(y,x)

4 d(x,y) +d(y,z) ≥d(x,z) trong đó x,y,z ∈X

Nếu một hàm khoảng cách chỉ thỏa mãn tính chất (1)-(3) thì nó đượcgọi là một hàm bán khoảng cách (Semi-distance) Nếu một hàm khoảngcách thỏa mãn cả bốn tính chất thì nó được gọi là một Metric Như vậy,hàm khoảng cách là một hàm xác định khoảng cách giữa từng cặp phần tửđiểm của một tập hợp Trong khi đó, với P là một σ-algebra trên X , độđo (Measure) là một hàm trên P: µ: P

→ R thỏa mãn ba tính chất: (i)không âm, tức µ(E) ≥ 0 với E trong P; (ii) tập rỗng, tức µ(∅) = 0; (iii)cộng tính đếm được, tức µ(F∞

[ρb¯K]} Đặt~z = (z1, ,z¯bK)T, trongđó zi= P(FiGi) − ρiP(Gi) với (Fi| Gi)[ρi] ∈ K Hàm khoảng cách từ mộthàm xác suất đến một CSTT xác suất theo p-norm (p ≥ 1) được định nghĩanhư sau:

(K) =1, ,z¯bK p = p

P(E) ×P(E) →R∗ thỏa mãn các điều kiện sau:

Trang 36

Trước hết, ta xem xét tính nhất quán của các CSTT xác suất thông quađịnh nghĩa dưới đây:

Định nghĩa 1.11 ([66]) Hàm xác suất P ∈ P(b E) thỏa mãn một RBXS

(F |G) [ρ], kí hiệu P |= (F |G) [ρ], nếu và chỉ nếu P(FG) = ρP(G).

Trang 37

Như vậy, P |= (F)[ρ], nếu và chỉ nếu P(F) = ρ.

Định nghĩa 1.12 ([66]) Một hàm xác suất P thỏa mãn K, kí hiệu P |= K,nếu và chỉ nếu P |= κ ∀ κ ∈ K Khi đó, kí hiệu f(K) = {P ∈P(b E) | P |= K}

là một tập tất cả các hàm xác suất thoả mãn K.

cho P(P) > 0˜ chỉ với hữu hạn P ∈P~E Đặt Λ(˜ E) là tập tất cả các hàm xácsuất P˜, được định nghĩa bởi Λ(˜ E) = { ˜P(P) | ˜P(P) > 0, P ∈P(E)} Xác suấtcủa ràng buộc κ mà thỏa mãn κ được định nghĩa như sau:

Định nghĩa 1.13 ([66]) (CSTT xác suất nhất quán) Một CSTT xác suất

K là nhất quán, kí hiệu K 6|= ⊥, nếu và chỉ nếu f(K) 6= ∅ Ngược lại, K làkhông nhất quán, kí hiệu K |= ⊥.

Trong trường hợp các CSTT xác suất là KNQ, việc đánh giá mức độKNQ của các CSTT xác suất này là rất cần thiết Việc này đòi hỏi phảitính được độ đo tính KNQ cho các CSTT xác suất Định nghĩa1.14sau đâyđược đề xuất để biểu diễn độ đo KNQ của CSTT xác suất.

Định nghĩa 1.14 (Độ đo KNQ) Cho R = hB,Ei là một hồ sơ TTXS Độđo KNQ I của K ∈ B trên E là một hàm I : K →R∗ sao cho I(K) = 0 nếuvà chỉ nếu f(K) 6=∅, K ∈K.

Một CSTT xác suất là nhất quán nếu có ít nhất một thể hiện thỏa mãntất cả các công thức của nó.

Cần quan tâm đến việc xác định tính nhất quán cho một CSTT xác suấtcụ thể, CSTT xác suất K là nhất quán nếu có ít nhất một hàm xác suấtPKsao cho P |= K hoặc KNQ nếu không có P nào sao cho P |= K.

Ví dụ 1.4 Xét các CSTT xác suất trong Ví dụ 1.3 Thấy rằng f(K1) = ∅bởi vì P |= h(H)[0.7], (T |H)[0.5]i dẫn đến P(T) ≥ 0.7 × 0.5 = 0.35 mà có thểkhông thỏa mãn đồng thời P(T) = 0.3 Do đó, K1|= ⊥ Tương tự, K5|= ⊥,tức là I(K1) 6= 0 và I(K5) 6= 0 Tuy nhiên, ta có f(K2) =f(K3) =f(K4) 6= ∅nên K26|= ⊥, K36|= ⊥, K46|= ⊥, tức là I(K2) = I(K3) = I(K4) = 0.

Nếu một CSTT xác suất K không nhất quán thì có thể định nghĩa cáctập con KNQ tối thiểu của K như sau:

Trang 38

Định nghĩa 1.15 ([13]) (Tập con KNQ tối thiểu) Một tập các RBXS

Mi ⊆ K là tập con KNQ tối thiểu nếu Mi

Mc ⊆ Klà tập con nhất quán cực đại nếu Mc

SCC(K) = {κ ∈ K | κ |= ⊥} (1.10)Định nghĩa 1.18 ([13]) (Ràng buộc tự do) Một RBXS κ∈ K là ràng buộctự do nếu và chỉ nếu κ6∈ Mi với mọi Mi

∈ SMI(K) Khi đó, tập tất cả cácràng buộc tự do của K được định nghĩa như sau:

Fc(K) = {κ ∈ K | κ 6∈ Mi,∀ Mi ∈SMI(K)} (1.11)Có thể dễ dàng thấy ràng Fc(K) =SMi∈SMI(K)Mi

Đặt App(=) là một tập các sự kiện xuất hiện trong = Trong đó, = làmột CSTT xác suất K, một RBXS κ hoặc một hội đầy đủ Θ.

Định nghĩa 1.19 ([13]) (Ràng buộc an toàn) Một RBXS κ∈ K là ràngbuộc an toàn trong K nếu và chỉ nếu App(κ) ∩App(K\{κ}) = ∅ Khi đó, tậptất của các ràng buộc an toàn của K được định nghĩa như sau:

Sc(K) = {κ ∈ K |App(κ) ∩App(K\{κ}) =∅} (1.12)Định nghĩa 1.20 (Hồ sơ tri thức xác suất nhất quán) Một hồ sơ TTXS

R = hB,Ei được gọi là hồ sơ tri thức nhất quán nếu và chỉ nếu ∀ Ki∈ B :Ki6|= ⊥.

Trang 39

1.5 Mô hình đặc trưng

Để xây dựng mô hình giải quyết bài toán khôi phục tính nhất quán củaCSTT xác suất và bài toán tích hợp các CSTT xác suất thì cần phải xâydựng được mô hình đặc trưng của CSTT xác suất Mô hình đặc trưng củamỗi CSTT xác suất được xác định bằng các ma trận đặc trưng, ma trậnhệ số không âm, ma trận hệ số dương, ma trận đường chéo kép, hàm đặctrưng Định nghĩa 1.21 đề xuất sau đây để biểu diễn hàm chỉ thể hiện mốiliên hệ giữa các sự kiện và một hội đầy đủ.

Định nghĩa 1.21 (Hàm chỉ - Indicate function) Hàm chỉ δ: Q × Λ(E) →

Θj|Θj|=Gixj nếu κi∈ K và κi = (Fi|Gi) [ρi]. (1.14)Định nghĩa 1.23đề xuất sau đây để biểu diễn các dạng ma trận của mộtCSTT xác suất.

Định nghĩa 1.23 Đặt R = hB,Ei là một hồ sơ TTXS Ma trận đặc trưngcủa K ∈ B trên E được định nghĩa như sau:

K= (aij) ∈R¯bK×~E (1.15)Ma trận hệ số không âm của K ∈ B trên E được định nghĩa như sau:

ij) ∈R¯bK×~E (1.16)Ma trận hệ số không dương của K ∈ B trên E được định nghĩa như sau:

CKE,−= (c−

ij) ∈R¯bK×~E (1.17)

Trang 40

Ma trận đường chéo kép của K ∈ B trên E được định nghĩa như sau:

AK = (¯aij) ∈R¯bK×2¯bK (1.18)trong đó aij= δ (FiGi,Θj) (1 − ρi) − δ FiGi,Θj

1 nếu i =j và i = 1, ¯bK

−1 nếu j −i = ¯bK và j = ¯bK+ 1, 2¯bK

0 ngược lại

Về mặt hình thức, aij có thể là 1 − ρi,−ρi hoặc 0 phụ thuộc vào việc FiGi

thỏa mãn ρi, FiGi thỏa mãn ρi hoặc không tính được.Đặt ~aj là véctơ cột thứ j của AE

Ví dụ 1.5 Xét CSTT xác suất K1 trong Ví dụ 1.3 Theo Định nghĩa 1.21

và Định nghĩa 1.23, ta có: a11= δ (H,HTD) (1 − 0.7) − δ ¯H,HTD0.7 =0.3; Tương tự, a12= a13= a14= 0.3, a21= a22= a25= a26= 0.7,a31= a33= a35= a37= 0.55, a41= a43= 0.5, a51= a53= 0.36; a15=δ H, ¯H TD(1 − 0.7) − δ ¯H, ¯H TD0.7 = −0.7; Tương tự, a16=a17=a18=−0.7, a23= a24= a27= a28= −0.3, a32= a34= a36= a38= −0.45,a42= a44= −0.5, a55= a57= −0.64; Ta có a45= δ HT, ¯H TD(1 − 0.5) −

δ H T¯, ¯H TD0.5 = 0; Tương tự, a46=a47=a48=a52=a54=a56=a58= 0.Do đó, ta có:

0.30.30.30.3−0.7−0.7−0.7−0.70.70.7 −0.3−0.30.70.7−0.3−0.30.55 −0.45 0.55 −0.450.55 −0.450.55 −0.450.5−0.50.5−0.500000.3600.360 −0.640 −0.640



Ngày đăng: 10/06/2024, 07:32