Phát triển mô hình tập thô phủ, tập thô mờ và Áp dụng tập thô vào khai phá dữ liệu Phát triển mô hình tập thô phủ, tập thô mờ và Áp dụng tập thô vào khai phá dữ liệu Phát triển mô hình tập thô phủ, tập thô mờ và Áp dụng tập thô vào khai phá dữ liệu
Trang 1VÀO KHAI PHÁ DỮ LIỆU
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2022
Trang 2VÀO KHAI PHÁ DỮ LIỆU
Chuyên ngành : HỆ THỐNG THÔNG TIN
Mã số : 9480104.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
CÁN BỘ HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Hồ Thuần
2 PGS.TS Nguyễn Trí Thành
HÀ NỘI – 2022
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả được trình bày trong luận án là mới, các số liệu là trung thực và chưa từng được ai công
bố trong các công trình nào khác./
Nghiên cứu sinh
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn HTTT – Khoa Công nghệ Thông tin – Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội Trải qua quá trình học tập, nghiên cứu, thực hiện luận án, tôi xin trân trọng gửi lời cảm ơn tới:
PGS.TS Hồ Thuần và PGS.TS Nguyễn Trí Thành – hai nhà khoa học, hai người thầy tâm huyết, luôn động viên, khích lệ và tận tâm chỉ dẫn để tôi hoàn thành được bản luận án này
Cố PGS TS Bùi Công Cường – Viện Toán học Việt Nam, người truyền cho tôi lòng đam mê với Toán học
Tập thể các thầy cô giáo, các nhà khoa học thuộc Trường Đại học Công nghệ, các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS và KTlab và Bộ môn HTTT – Khoa Công nghệ Thông tin – Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi chotôi trong suốt thời gian học tập và nghiên cứu
Đặc biệt, tôi xin bày tỏ lòng biết ơn vô hạn đến PGS.TS Hà Quang Thụy – Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội, người thầy luôn tận tâm, có nhiều góp ý và định hướng quý báu để tôi đạt được những thành công trong lĩnh vực nghiên cứu của mình
Tôi thấy mình thực sự may mắn vì được là học trò của các Thầy, được học hỏi nhiều điều từ những cống hiến không mệt mỏi của các Thầy cho khoa học Việt Nam
Đồng thời, tôi xin chân thành cảm ơn:
Các cộng sự, đồng nghiệp đã cùng tôi thực hiện các công trình nghiên cứu, giúp đỡ, chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá trình nghiên cứu luận án
Ban Giám hiệu, Khoa Công nghệ thông tin, Trường Đại học Hạ Long đã tạo mọi điều kiện thuận lợi, ủng hộ tôi trong quá trình học tập và nghiên cứu
Cuối cùng, xin cảm ơn gia đình của tôi, ba mẹ, chồng và các con Thành Minh, Thanh Tuệ thương yêu đã luôn đồng hành, chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc để tôi hoàn thành được luận án này
NCS Phạm Thanh Huyền
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ vi
BẢNG KÝ HIỆU, TỪ VIẾT TẮT vii
DANH MỤC BẢNG viii
DANH MỤC HÌNH VẼ x
MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ TẬP THÔ, TẬP THÔ PHỦ, TẬP THÔ MỜ VÀ ỨNG DỤNG 10
1.1 Tập thô truyền thống 10
1.1.1 Hệ thống thông tin 10
1.1.2 Quan hệ không phân biệt được 11
1.1.3 Xấp xỉ tập 13
1.1.4 Không gian xấp xỉ 15
1.1.5 Bảng quyết định 15
1.2 Tập thô phủ 16
1.3 Tập thô mờ 18
1.3.1 Tập mờ-thô 18
1.3.2 Tập thô-mờ 18
1.3.3 Tập mờ bức tranh 22
1.4 Áp dụng lý thuyết tập thô vào học máy và khai phá dữ liệu 30
1.4.1 Một khung chung về áp dụng lý thuyết tập thô 30
1.4.2 Một số áp dụng lý thuyết tập thô điển hình 32
1.5 Kết luận 36
CHƯƠNG 2 BẢNG QUYẾT ĐỊNH PHỦ VÀ ÁP DỤNG TRONG PHÂN LỚP ĐA NHÃN 37
2.1 Áp dụng tập thô phủ vào bài toán quyết định 37
Trang 62.1.1 Hệ thống quyết định phủ 38
2.1.2 Hệ thống quyết định phủ mờ 40
2.1.3 Sử dụng xấp xỉ phủ trong bảng quyết định truyền thống 42
2.1.4 Nhận xét 42
2.1.5 Sự phụ thuộc nhãn trong phân lớp đa nhãn 43
2.2 Phân lớp đa nhãn sử dụng ma trận nhãn-nhãn và rút gọn đặc trưng dựa trên tập thô 44
2.2.1 Mô hình phân lớp đa nhãn bán giám sát MULTICS2 sử dụng ma trận nhãn-nhãn 44
2.2.2 Thuật toán FRR-RED rút gọn đặc trưng theo quan hệ thô mờ cho phân lớp đa nhãn 56
2.3 Bảng quyết định phủ 61
2.3.1 Ý tưởng về bảng quyết định phủ 61
2.3.2 Định nghĩa bảng quyết định phủ 61
2.3.3 Thuật toán phân lớp đa nhãn sử dụng bảng quyết định phủ CDTML -KNN 63
2.3.4 Mô hình phân lớp đa nhãn dựa trên bảng quyết định phủ CDTML-KNN 69
2.4 Thực nghiệm mô hình phân lớp đa nhãn CDTML-KNN 70
2.4.1 Các tập dữ liệu thực nghiệm 70
2.4.2 Kịch bản thực nghiệm 71
2.4.3 Các độ đo đánh giá hiệu năng 72
2.4.4 Kết quả thực nghiệm trên hai tập dữ liệu Enron và Medical 73
2.4.5 Kết quả thực nghiệm trên tập dữ liệu Hotel 78
2.5 Kết luận 80
CHƯƠNG 3 BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀ ÁP DỤNG 81
3.1 Dàn khái niệm hình thức và kết nối với tập thô phủ 81
3.2 Bảng quyết định dàn phủ 83
3.2.1 Định nghĩa bảng quyết định dàn phủ 83
3.2.2 Rút gọn trong bảng quyết định dàn phủ 91
3.2.3 Phân lớp đa nhãn dựa trên bảng quyết định dàn phủ 94
3.3 Mô hình CLDT áp dụng bảng quyết định dàn phủ vào hệ tư vấn 97
3.3.1 Dữ liệu thực nghiệm 98
3.3.2 Phát biểu bài toán 98
3.3.3 Mô hình giải quyết bài toán 99
Trang 73.3.4 Kịch bản thực nghiệm và độ đo đánh giá 100
3.3.5 Kết quả thực nghiệm và nhận xét 102
3.4 Kết luận 102
CHƯƠNG 4 TẬP THÔ MỜ BỨC TRANH VÀ ỨNG DỤNG 103
4.1 Quy tắc hợp thành suy diễn trong hệ mờ bức tranh 103
4.1.1 Quy tắc hợp thành suy diễn và phương thức suy diễn tổng quát hóa 103 4.1.2 Quy tắc hợp thành suy diễn trong logic mờ bức tranh (PFL-CRI) 105
4.2 Hệ thống thông tin bội và không gian xấp xỉ mờ bức tranh tương ứng 109
4.2.1 Hệ thống thông tin bội và hệ thống thông tin mờ bức tranh 109
4.2.2 Mờ hóa bức tranh HTTT bội thành một HTTT mờ bức tranh 111
4.2.3 Quan hệ tương tự trên tập đối tượng từ HTTT mờ bức tranh 115
4.3 Ứng dụng tập thô mờ bức tranh vào đánh giá ứng viên tuyển dụng 116
4.3.1 Bài toán 116
4.3.2 Quy trình xử lý dữ liệu tập thô mờ bức tranh cho xếp hạng đối tượng 117
4.3.3 Ví dụ xếp hạng đối tượng theo quy tắc hợp thành tập thô mờ bức tranh 118
4.4 Kết luận 124
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 125
DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐÃ CÔNG BỐ 128
TÀI LIỆU THAM KHẢO 129
Trang 8DANH MỤC CÁC THUẬT NGỮ
Kí
hiệu Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
IS Hàm không phân biệt được Indiscernibility Function
IIS HTTT không nhất quán Inconsistent Information System
IM Ma trận không phân biệt được Indiscernibility Matrix
IR Quan hệ không phân biệt được Indiscernibility Relation
AR Rút gọn đặc trưng Attribute Reduction
PFS Tập mờ bức tranh Picture Fuzzy Set
PFRS Tập thô mờ bức tranh Picture Fuzzy Rough Set
CLDT Bảng quyết định dàn phủ Covering Lattice based Decision Table
Trang 9𝑢(𝑎) Giá trị của đối tượng u tại thuộc tính a
𝑈/𝐵 Phân hoạch của 𝑈 sinh bởi tập thuộc tính 𝐵
X X
Trang 10DANH MỤC BẢNG
Bảng 1.1 Một ví dụ về HTTT 11
Bảng 1.2 Một thống kê về công bố khoa học về áp dụng lý thuyết tập thô 30
Bảng 2.1 Đặc điểm của hai tập dữ liệu thực nghiệm (Hotel1 và Enron1) 49
Bảng 2.2 Kết quả thực nghiệm trên tập dữ liệu Enron1 53
Bảng 2.3 Kết quả thực nghiệm trên tập dữ liệu Hotel 54
Bảng 2.4 Kết quả thực nghiệm trên tập dữ liệu Enron theo các độ đo F1-trung bình mịn (Micro_F1) và AUC trung bình thô (AUC_Macro) 55
Bảng 2.5 Chi tiết tính toán độ phức tạp về thời gian của thuật toán FRR-MLL và FRS-LIFT 60
Bảng 2.6 Đặc trưng của ba tập dữ liệu thực nghiệm mô hình CDTML-KNN (ý nghĩa của các đặc trưng đã được giải thích ở Bảng 2.1) 71
Bảng 2.7 Kết quả thực nghiệm thuật toán đề xuất cùng ba biến thể và ML-KNN trên tập dữ liệu 𝑬𝒏𝒓𝒐𝒏 theo các độ đo P, R và F1 74
Bảng 2.8 Kết quả thực nghiệm thuật toán đề xuất cùng ba biến thể và ML-KNN trên tập dữ liệu 𝑴𝒆𝒅𝒊𝒄𝒂𝒍 theo các độ đo P, R và F1 74
Bảng 2.9 Kết quả thực nghiệm thuật toán đề xuất trên tập dữ liệu 𝑬𝒏𝒓𝒐𝒏 theo các độ đo HL (Hamming Loss), ZOL (Zero_one loss), CV (Coverage), LR (Label ranking), AP (Average precision), AC (Accuracy) 75
Bảng 2.10 Kết quả thực nghiệm thuật toán đề xuất trên tập dữ liệu 𝑴𝒊𝒅𝒊𝒄𝒂𝒍 theo các độ đo HL, ZOL, CV, LR, AP, AC 76
Bảng 2.11 Kết quả thực nghiệm của luận án so với các thuật toán từ [23] theo các độ đo HL, ZOL, CV, LR, AP, AC 77
Bảng 2.12 Kết quả thực nghiệm thuật toán đề xuất cùng ba biến thể và ML-KNN trên tập dữ liệu 𝑯𝒐𝒕𝒆𝒍 (bốn phương án biểu diễn dữ liệu nguồn) theo các độ đo P, R và F1 78
Trang 11Bảng 2.13 Kết quả thực nghiệm thuật toán đề xuất cùng ba biến thể và ML-KNN trên tập dữ liệu 𝑯𝒐𝒕𝒆𝒍 (bốn phương án biểu diễn dữ liệu nguồn) theo các độ đo
HL, ZOL, CR, LR và AC 79
Bảng 3.1 Kết quả thực nghiệm theo tập 50 người dùng đích 102
Bảng 4.1 Thông tin đánh giá ứng viên tuyển dụng theo 3 tiêu chí 119
Bảng 4.2 Tập mờ bức tranh A sinh ra từ 𝒀𝟏, 𝒀𝟐, 𝒀𝟑 120
Bảng 4.3 Sự tương quan dựa vào năng lực 𝒍𝟏 121
Bảng 4.4 Ma trận chứa các giá trị mờ bức tranh 𝑰𝒍 𝟏 𝟏 tương ứng với tập mờ 𝑙2 122 Bảng 4.5 Xấp xỉ tập thô mờ A trên năng lực 𝒍𝟏 123
Trang 12DANH MỤC HÌNH VẼ
Hình 1.1 Tập X được xấp xỉ bởi xấp xỉ dưới và xấp xỉ trên [40] 13
Hình 1.2 Áp dụng lý thuyết tập thô trong học máy (cải tiến từ [58]) 31
Hình 1.3 Minh họa các bước xử lý rút gọn thuộc tính có sử dụng ma trận phân biệt 33
Hình 1.4 Hệ thống phân lớp dựa trên luật [35] 34
Hình 2.1 Mô hình phân lớp đa nhãn dựa trên thuật toán CDTML-KNN 69
Hình 3.1 Dàn điều kiện và dàn quyết định của bảng quyết định dàn phủ 〈D, C{B,G}, C{H,E}〉 86
Hình 3.2 Dàn tập mục đối với tập SS = {a, b, c, d, e} [4] 88
Hình 3.3 So sánh phân lớp truyền thống với lọc cộng tác [4] 97
Hình 3.4 Mô hình tư vấn phim dựa trên bảng quyết định dàn phủ 99
Hình 4.1 Tập mờ tam giác 114
Hình 4.2 Tập mờ hình thang 114
Hình 4.3 Tập mờ “giỏi toán” 114
Hình 4.4 Tập mờ “yếu toán” 114
Hình 4.5 Quy trình xếp hạng đối tượng dữa trên tập thô mờ bức tranh 117
Trang 13MỞ ĐẦU
Lý thuyết tập thô (Rough Sets Theory) do Z Pawlak khởi xướng từ đầu thập niên 1980 [41, 42], nhận được sự quan tâm rộng rãi của cộng đồng hàn lâm – công nghiệp và được phát triển không ngừng trong gần 40 năm vừa qua [52] Lý thuyết tập thô được xây dựng dựa trên ba khái niệm nền tảng là hệ thống thông tin (HTTT) 𝑆 = (𝑈, 𝐴, 𝑉, 𝜌) [41], quan hệ không phân biệt được 𝑅𝐵 và không gian xấp xỉ 〈𝑈, 𝑅〉 [42, 43] Trong hệ thống thông tin 𝑆 = (𝑈, 𝐴, 𝑉, 𝜌), 𝑈 ={𝑢1, 𝑢2, … , 𝑢𝑛, } là một tập khác rỗng, hữu hạn các đối tượng (thường được gọi là tập vũ trụ), 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑚, } là một tập hữu hạn khác rỗng các thuộc tính (luận
án sử dụng thuật ngữ “đặc trưng” khi biểu diễn dữ liệu trong khai phá dữ liệu) của các đối tượng, 𝑉 là một tập các giá trị, ánh xạ 𝜌: 𝑈 × 𝐴 → 𝑉 (thường được gọi là
hàm thông tin) HTTT thường được biểu diễn dưới dạng bảng hai chiều, trong đó hàng 𝑢 biểu diễn thông tin về một đối tượng 𝑢𝜖𝑈, cột 𝑎 biểu diễn thông tin về một thuộc tính 𝑎𝜖𝐴 của các đối tượng, giao của hàng 𝑢 với cột 𝑎 là giá trị 𝜌(𝑢, 𝑎)𝜖𝑉
Với mọi tập con thuộc tính B (B A), quan hệ không phân biệt được 𝑅𝐵 là một quan hệ tương đương được cảm sinh từ HTTT, trong đó, hai đối tượng 𝑢 và 𝑣
(𝑢, 𝑣𝜖𝑈) được gọi là “không phân biệt được trên 𝐵” khi và chỉ khi 𝜌(𝑢, 𝑎) = 𝜌(𝑣, 𝑎) với mọi thuộc tính 𝑎 thuộc tập thuộc tính 𝐵 Quan hệ không phân biệt
được 𝑅𝐵 tham gia vào không gian xấp xỉ 〈𝑈, 𝑅𝐵〉 để xấp xỉ mọi tập con 𝑋 của tập
vũ trụ 𝑈 Nói một cách tổng quát, không gian xấp xỉ 〈𝑈, 𝑅〉 với 𝑈 là một tập vũ trụ
và 𝑅 là một quan hệ tương đương trên 𝑈, và khi đó, mọi tập con 𝑋 của 𝑈 (𝑋 ⊆ 𝑈)
đều được biểu diễn “xấp xỉ” qua cặp hai tập xấp xỉ của nó <𝑋, 𝑋>, trong đó 𝑋 (được gọi là xấp xỉ dưới của 𝑋) là hợp của tất cả các lớp tương đương của 𝑅 được chứa trong X, 𝑋 (được gọi là xấp xỉ trên của X) là hợp của tất cả các lớp tương đương của 𝑈 theo 𝑅 có giao khác rỗng với X (rõ ràng là 𝑋 𝑋), cặp <𝑋, 𝑋> được
gọi là các tập thô của 𝑋 (𝑋 được gọi là một tập rõ hay tập chính xác khi 𝑋 = 𝑋 =
𝑋) Lý thuyết tập thô cùng với lý thuyết tập mờ L.A Zadeh [70] là hai lý thuyết
nền tảng nhất trong biểu diễn và xử lý thông tin mơ hồ (không chính xác hoặc không đầy đủ) Lý thuyết tập mờ tập trung vào các khái niệm mơ hồ được hình thành từ nhận thức của con người (ví dụ, các khái niệm “đẹp”, “tốt”, “cao”, “thấp”, v.v.) Dựa trên một giả định là mọi đối tượng trong vũ trụ diễn ngôn đều được liên
Trang 14kết với thông tin (dữ liệu, kiến thức) nào đó, lý thuyết tập thô tập trung vào các khái niệm mơ hồ được hình thành từ thế giới thực quan sát được trong HTTT: cặp tập mô tả được <𝑋, 𝑋> là diễn giải cho một khái niệm mơ hồ tương ứng với tập
xử lý ảnh số, tin học, y học, sinh học phân tử, âm nhạc học, thần kinh học, người máy, khoa học xã hội, kỹ thuật phần mềm, trực quan hóa không gian, kỹ thuật web
và khai phá web [52] Các bài toán phân tích dữ liệu áp dụng lý thuyết tập thô điển hình là rút gọn dữ liệu (theo chiều ngang – rút gọn mẫu, theo chiều dọc – rút gọn đặc trưng), phân lớp dữ liệu (các thuật toán dựa trên luật, k-láng giềng gần nhất, cây quyết định, máy vector hỗ trợ), hồi quy dữ liệu, mạng nơ-ron nhân tạo, phân cụm dữ liệu, khai phá dữ liệu bán giám sát, v.v [35, 55, 57, 58] Tầm quan trọng của các chủ đề nghiên cứu về lý thuyết tập thô ngày càng được nâng cao, thu hút ngày càng sâu rộng sự quan tâm của cộng đồng hàn lâm - công nghiệp tạo ra xu thế tăng nhanh số lượng công bố khoa học Web of Science (WoS) về tập thô [69]
như chỉ dẫn ở Hình 0.1 (trên)
Trang 15Hình 0.1 Số lượng công bố khoa học WoS về tập thô [69] (trên) và số lượng công bố khoa học DBLP có liên quan tới tập thô phủ, hệ quyết định phủ (dưới)1
Sự tăng trưởng nhanh chóng hoạt động nghiên cứu và ứng dụng thúc đẩy động lực mở rộng lý thuyết tập thô nhằm làm cho các khái niệm và mô hình biểu diễn tri thức dựa trên lý thuyết tập thô ngày càng phù hợp với các miền ứng dụng ngày càng được mở rộng [8, 28, 40, 51, 52] Tiếp cận mở rộng lý thuyết tập thô dựa trên tính tương tự (hay dung sai), tập thô dựa trên quan hệ nhị phân, tập thô lân cận và phủ, tập thô trội, kết hợp tập thô và tập mờ, hợp nhất phân tích khái niệm lý thuyết tập thô với phân tích khái niệm hình thức trong tính toán hạt ba chiều ngày càng thu hút sự quan tâm của cộng đồng nghiên cứu – triển khai trên thế giới [51, 52, 68] Đồng thời, xây dựng các mô hình và hệ thống để thi hành các tiếp cận áp dụng tập thô vào phân tích dữ liệu cũng là một xu thế đang được phát
1 Kết quả trả về vào ngày 05/01/2022 từ cơ sở dữ liệu DBLP tương ứng theo các truy vấn “rough cover”, “cover rough decision” và “cover decision system”; theo truy vấn “rough multi-label”, DBLP chứa 25 bài báo: 01 bài trong năm 2001, 17 bài trong các năm 2013-2019, 07 bài trong ba năm 2020-2022
Trang 16triển nhanh chóng Trong xu hướng trên đây, lý thuyết tập thô phủ, lý thuyết tập thô-mờ và các mô hình áp dụng tập thô vào khai phá dữ liệu là ba chủ đề nghiên cứu được định hướng cho luận án này
Lý thuyết tập thô phủ (covering based rough set) được W Zakowski [72]
đề xuất lần đầu tiên vào năm 1983, được nhìn nhận là một trong những mô hình
mở rộng lý thuyết tập thô được nghiên cứu nhiều nhất [74] Khái niệm nền tảng trong lý thuyết tập thô phủ là không gian xấp xỉ phủ 〈𝑈, 𝐶〉 (hay 〈𝑈, ∆〉), trong đó
𝐶 (hay ∆) là một phủ (hay một họ các phủ) trên tập vũ trụ 𝑈 [8, 66, 72, 75, 76, 83,
86, 89, 90] mà không phải là một phân hoạch tập vũ trụ 𝑈 được cảm sinh từ quan
hệ tương đương như trong lý thuyết tập thô truyền thống Lý thuyết tập thô phủ tạo nên các môi trường rất hữu ích và linh hoạt để đáp ứng một cách chính xác hơn đối với tính mơ hồ, cung cấp các phương thức nghiên cứu phân tích dữ liệu được tổng quát hóa hơn, nói riêng, trong bài toán ra quyết định đa mục tiêu hoặc trong các bài toán lọc thông tin trong hệ tư vấn
Tương ứng với khái niệm bảng quyết định 𝑆 = (𝑈, 𝐶, 𝐷) trong lý thuyết tập thô truyền thống [39, 43], hệ thống quyết định phủ cũng được định nghĩa và phân
tích về khả năng áp dụng Hình 0.1 (dưới) cung cấp một thống kê số lượng công
bố khoa học có liên quan tới tập thô phủ, hệ thống quyết định phủ được lưu trong
cơ sở dữ liệu DBLP Dòng nghiên cứu liên quan tới vấn đề quyết định phủ đi theo
ba hướng chính là hệ thống quyết định phủ [11, 21, 30, 56, 61], hệ thống quyết định dựa trên tập thô phủ mờ [65, 76] và hệ thống quyết định tập thô truyền thống
có khai thác tính chất của tập thô phủ [32, 50, 81] mà cả ba hướng này tập trung chủ yếu vào rút gọn phủ Vẫn còn có các khoảng trống trong cả ba hướng nghiên cứu về vấn đề quyết định dựa trên tập thô phủ, đặc biệt vấn đề áp dụng lý thuyết tập thô phủ vào phân lớp đa nhãn
Lý thuyết tập thô mờ được D Dubois và H Prade [22] giới thiệu từ năm
1990 nhằm kết hợp lý thuyết tập thô và lý thuyết tập mờ Trong lý thuyết tập thô
mờ, quan hệ tương tự mờ (fuzzy similary relation) 𝑅 trong không gian xấp xỉ mờ
〈𝑈, 𝑅〉 là một quan hệ mờ hai ngôi 𝑅 trên tập vũ trụ 𝑈, có các tính chất phản xạ, đối xứng và bắc cầu sup-min 𝑅(𝑢, 𝑣) ≥ 𝑠𝑢𝑝𝑥∈𝑈min(𝑅(𝑢, 𝑥), 𝑅(𝑥, 𝑣)) Tương tự như quan hệ tương đương cảm sinh ra các lớp tương đương trong không gian xấp
xỉ thô truyền thống, quan hệ tương tự mờ cảm sinh ra các lớp tương tự mờ có dạng [𝑢]𝑅: ∀𝑦 ∈ 𝑈 𝑡ℎì [𝑢]𝑅(𝑦) = 𝑅(𝑢, 𝑦) và các tập xấp xỉ thô-mờ được xác định thông qua các lớp tương tự mờ Hơn nữa, lý thuyết tập mờ trên L.A Zadeh [70] không
Trang 17ngừng được mở rộng nhằm tăng cường khả năng biểu diễn và xử lý tính mơ hồ
Tập mờ bức tranh (picture fuzzy sets) do B C Cuong và V Kreinovich đề xuất
vào năm 2013 [16] là một phiên bản mở rộng như vậy Tập mờ truyền thống 𝐴 ={(𝑢, 𝜇𝐴(𝑢))|∀𝑢 ∈ 𝑈} được mở rộng trở thành tập mờ bức tranh 𝐴 ={(𝑢, 𝜇𝐴(𝑢),𝐴(𝑢),𝐴(𝑢)) |∀𝑢 ∈ 𝑈}với ba giá trị 𝜇𝐴(𝑢),𝐴(𝑢),𝐴(𝑢) ∈ [0,1],
𝜇𝐴(𝑢), +𝐴(𝑢) + 𝐴(𝑢) ≤ 1; giá trị 𝜇𝐴(𝑢) (𝐴(𝑢) hoặc 𝐴(𝑢)) được gọi là “độ thành viên khẳng định” (“trung tính” hoặc “phủ định”) của đối tượng 𝑢 trong 𝐴 Việc bổ sung độ thành viên trung tính 𝐴(𝑢) vào cặp độ thành viên khẳng định
𝜇𝐴(𝑢) và độ thành viên phủ định 𝐴(𝑢): 0𝐴(𝑢) +𝐴(𝑢)1 trong tập mờ trực
cảm [7] phản ảnh xu hướng xây dựng các mô hình quyết định ba chiều (three-way
decision) [67, 68]) và làm cho việc xử lý sự mơ hồ từ nhận thức phù hợp hơn
Nhiều tính chất của tập thô mờ bức tranh đã được nhận diện trong thời gian gần đây [18, 19], tuy nhiên, một số vấn đề như hợp thành suy diễn và triển khai ứng dụng tập mờ bức tranh vào thực tiễn vẫn cần được nghiên cứu thêm
Trên thế giới, nhiều luận án Tiến sĩ về các chủ đề theo lý thuyết tập thô, tập thô mờ đã được công bố R Jensen [26] đã phát triển các kỹ thuật mới rút gọn thuộc tính theo tiếp cận tập thô mờ mà vẫn giữ nguyên ngữ nghĩa của dữ liệu, trong đó, độ đo mức độ quan trọng của các thuộc tính được đề xuất F.R C Nina [37] đề xuất các thuật toán mới dựa trên lý thuyết tập thô cho ba bước tiền xử lý
dữ liệu gồm rời rạc dữ liệu, lựa chọn đối tượng và lựa chọn phiên bản Đồng thời, tác giả kết hợp thuật toán phân cụm vùng với tiếp cận tập thô có hiệu quả Ohrn Aleksander [6] đề xuất sử dụng hệ thống có các công cụ ROSETTA [48], đây là một tập toàn diện các thành phần phần mềm, để phân tích dữ liệu dựa trên khả năng nhận biết Nele Verbiest [57] nghiên cứu các công cụ thô mờ và mờ thô để lựa chọn đặc trưng nhằm tăng hiệu quả phân lớp truyền thống Tại Việt Nam, một
số luận án tiến sỹ về lý thuyết tập thô và mở rộng đã được hoàn thành Hoàng Thị Lan Giao [1] đề nghị một số thuật toán heuristic tìm tập rút gọn và tìm tập rút gọn xấp xỉ của bảng quyết định nhất quán, bao gồm thuật toán sử dụng các phép toán trong đại số quan hệ và thuật toán sử dụng ma trận phân biệt Nguyễn Đức Thuần [3] đề nghị một thuật toán heuristic tìm tập rút gọn của bảng quyết định đầy đủ nhất quán dựa vào phủ tập thô Nguyễn Long Giang [2] đề nghị một thuật toán rút gọn thuộc tính trong HTTT không đầy đủ và bảng quyết định không đầy đủ sử dụng khoảng cách
Trang 18Luận án này tập trung vào việc nghiên cứu, phát triển các mô hình tập thô
mở rộng và áp dụng vào khai phá dữ liệu theo các câu hỏi nghiên cứu sau:
- Mô hình tập thô phủ, tập thô mờ cần thiết được khai thác mở rộng theo hướng nào? Liệu xây dựng mới bảng quyết định phủ cho bài toán phân lớp đa nhãn có hiệu quả? Liệu xây dựng mới bảng quyết định dàn phủ phù hợp cho bài toán điển hình nào?
- Tiếp tục mở rộng lý thuyết tập thô mờ bức tranh dựa vào phát triển tính chất suy diễn hợp thành như thế nào và sử dụng trong bài toán cụ thể như thế nào?
Để giải đáp các câu hỏi nghiên cứu, luận án các tập trung vào các nội dung nghiên cứu sau đây:
- Nghiên cứu, phân tích các mô hình tập thô phủ, phát hiện các vấn đề mở
để tập trung xây dựng mô hình lý thuyết giải quyết vấn đề và áp dụng các
mô hình này vào một số bài toán ứng dụng
- Nghiên cứu, phân tích các mô hình tập thô mờ bức tranh, phát hiện các vấn đề lý thuyết cần giải quyết và áp dụng tập thô mờ bức tranh
Đối sánh các nội dung nghiên cứu được trình bày trên đây với các nội dung nghiên cứu của các luận án Tiến sĩ trong và ngoài nước đã được giới thiệu, luận
án này có những điểm khác biệt
Mục tiêu nghiên cứu của luận án là hoàn thành hai nội dung nghiên cứu
chính nêu trên để giải đáp các câu hỏi nghiên cứu Mục tiêu này được cụ thể hóa bằng các mục tiêu cụ thể sau:
- Phát triển mô hình hệ thống quyết định phủ mới (bảng quyết định phủ, bảng quyết định dàn phủ), các tính chất của các hệ thống được đề xuất và các ứng dụng của chúng trong phân lớp đa nhãn và lọc cộng tác dựa trên người dùng trong hệ thống tư vấn
Trang 19- Phát triển các khía cạnh bổ sung đối với tập thô mờ bức tranh (quy tắc suy diển hợp thành), các mô hình và kỹ thuật đưa tập thô mờ bức tranh vào ứng dụng
Đối tượng nghiên cứu của luận án là phương pháp mở rộng tập thô phủ,
tập thô mờ bức tranh và các mô hình, kỹ thuật khai phá dữ liệu dựa vào lý thuyết tập thô (tập thô phủ và tập thô mờ bức tranh)
Phạm vi nghiên cứu của luận án được giới hạn ở các phương pháp lý thuyết
tập thô phủ, tập thô mờ bức tranh từ hệ thống thông tin đầy đủ [29] và các ứng dụng dựa trên hai kiểu tập thô mở rộng này
Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu định tính đề
xuất mở rộng tập thô phủ, tập thô mờ bức tranh và ứng dụng với nghiên cứu định lượng để kiểm chứng đánh giá hiệu quả từ các đề xuất của luận án
Luận án có ba đóng góp chính sau đây:
- Đề xuất bảng quyết định phủ, thuật toán và mô hình phân lớp đa nhãn CDTML-kNN khai thác phụ thuộc nhãn từ bảng quyết định phủ [PTH6],
đề xuất thuật toán bán giám sát phân lớp đa nhãn MULTICS2 khai thác phụ thuộc nhãn từ ma trận quan hệ nhãn-nhãn [PTH1] và thuật toán rút gọn đặc trưng FRR-RED dựa trên tập thô – mờ cho phân lớp đa nhãn [PTH2] Triển khai và đánh giá mô hình thực nghiệm thuật toán CDTML-kNN trên ba tập dữ liệu 𝐸𝑛𝑟𝑜𝑛, 𝑀𝑒𝑑𝑖𝑐𝑎𝑙 và 𝐻𝑜𝑡𝑒𝑙 [PTH6], mô hình thực nghiệm thuật toán MULTICS2 trên hai tập dữ liệu 𝐸𝑛𝑟𝑜𝑛1 và 𝐻𝑜𝑡𝑒𝑙1 [PTH1]
- Đề xuất bảng quyết định dàn phủ, thuật toán rút gọn dàn điều kiện Reduct_Finding, thuật toán thích nghi dàn quyết định Fitting_Finding và thuật toán phân lớp đa nhãn CLML dựa trên bảng quyết định dàn phủ CLML [PTH4, PTH5] Triển khai và đánh giá mô hình thực nghiệm hai thuật toán Reduct_Finding và Fitting_Finding áp dụng vào lọc cộng tác hướng người dùng trên tập dữ liệu 𝑀𝑜𝑣𝑖𝑒𝐿𝑒𝑛𝑠100𝐾
Trang 20- Đề xuất quy tắc suy diễn hợp thành tập mờ bức tranh GMP-CRI [PTH3], định nghĩa HTTT bội và HTTT mờ bức tranh, quy trình hình thành HTTT
mờ bức tranh, không gian xấp xỉ mờ bức tranh từ một HTTT bội, mô hình giải pháp đánh giá và xếp hạng ứng viên tuyển dụng sử dụng quy trình hình thành HTTT mờ bức tranh từ một HTTT bội
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo Dưới đây là giới thiệu khái quát về bốn chương của luận án như đã được mô tả sơ bộ trong Hình 2
Chương 1 trình bày về lý thuyết tập thô truyền thống (hệ thống thông tin, quan
hệ không phân biệt được, xấp xỉ tập, không gian xấp xỉ và bảng quyết định), lý thuyết tập thô phủ (phủ, xấp xỉ phủ, quan hệ tương đương theo phủ), lý thuyết tập thô mờ (tập mờ-thô, tập thô-mờ, tập mờ bức tranh) làm nền tảng lý thuyết cho các chương tiếp theo bao gồm Một khung chung về áp dụng lý thuyết tập thô và một
số áp dụng điển hình cũng được giới thiệu
Hình 0.2 Bố cục bốn chương luận án
Chương 2 trình bày đề xuất của luận án về bảng quyết định phủ, thuật toán
và mô hình phân lớp đa nhãn CDTML-kNN khai thác phụ thuộc nhãn từ bảng quyết định phủ [PTH6], đề xuất thuật toán bán giám sát phân lớp đa nhãn
Trang 21MULTICS2 khai thác phụ thuộc nhãn từ ma trận quan hệ nhãn-nhãn [PTH1] và thuật toán rút gọn đặc trưng FRR-RED dựa trên tập thô – mờ cho phân lớp đa nhãn [PTH2] Triển khai và đánh giá mô hình thực nghiệm thuật toán CDTML-kNN trên ba tập dữ liệu Enron, Medical và Hotel [PTH6], mô hình thực nghiệm thuật toán MULTICS2 trên hai tập dữ liệu Enron1 và Hotel1 [PTH1].
Chương 3 trình bày đề xuất của luận án về bảng quyết định dàn phủ, thuật
toán rút gọn dàn điều kiện Reduct_Finding, thuật toán thích nghi dàn quyết định Fitting_Finding và thuật toán phân lớp đa nhãn CLML dựa trên bảng quyết định dàn phủ CLML [PTH4, PTH5] Triển khai và đánh giá mô hình thực nghiệm hai thuật toán Reduct_Finding và Fitting_Finding áp dụng vào lọc cộng tác hướng người dùng trên tập dữ liệu MovieLens100K
Chương 4 trình bày các kết quả nghiên cứu của luận án về tập thô mờ bức
tranh và ứng dụng Luận án đề xuất quy tắc hợp thành suy diễn trong logic mờ bức tranh PFL-CRI, cụ thể hóa phương thức suy diễn tổng quát hóa (Generalized Modus Ponens: GMP) vào tập mờ bức tranh [PTH3], khái niệm HTTT bội, HTTT
mờ bức tranh, quy trình hình thành HTTT mờ bức tranh, không gian xấp xỉ mờ bức tranh xuất phát từ một HTTT bội Để làm sáng tỏ việc áp dụng tập thô mờ bức tranh vào thực tiễn, luận án trình bày mô hình giải pháp đánh giá và xếp hạng các ứng viên tuyển dụng sử dụng quy trình hình thành HTTT mờ bức tranh từ một HTTT bội
Trang 22CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ TẬP THÔ, TẬP THÔ PHỦ,
TẬP THÔ MỜ VÀ ỨNG DỤNG
Chương đầu tiên của luận án trình bày các kiến thức sơ bản về tập thô, tập thô phủ, tập thô-mờ và ứng dụng lý thuyết tập thô vào khai phá dữ liệu, cung cấp một nền tảng lý thuyết cho các chương tiếp theo Mục 1.1 trình bày các kiến thức nền tảng của lý thuyết tập thô truyền thống Mục 1.2 giới thiệu khái niệm tập thô phủ Tập thô mờ, tập mờ trực cảm và tập mờ bức tranh được đề cập ở Mục 1.3 Mục 1.4 giới thiệu khái quát về áp dụng lý thuyết tập thô vào khai phá dữ liệu
1.1 Tập thô truyền thống
1.1.1 Hệ thống thông tin
Định nghĩa 1.1 [42] (Hệ thống thông tin)
Hệ thống thông tin là một bộ bốn S=<U, A, V, > trong đó U là tập khác
rỗng gồm hữu hạn các đối tượng (U còn được gọi là tập vũ trụ: the universe; tập
U được hiểu là tập vũ trụ trong toàn bộ luận án nếu không có giải thích khác đi);
A là tập khác rỗng gồm hữu hạn các thuộc tính; V là tập giá trị với a
a A
= ( là
tập giá trị của thuộc tính aA) ; là hàm thông tin : UA→ V, trong đó uU,
aA, (u,a) Va
Theo cách nói không hình thức, một HTTT là một tập dữ liệu được cho dưới dạng bảng, trong đó mỗi hàng biểu diễn thông tin về một đối tượng của tập dữ liệu, mỗi cột biểu diễn thông tin về một thuộc tính của các đối tượng
HTTT S được gọi là không đầy đủ (incompleted information system) khi và chỉ khi uU, aA mà giá trị (u,a) bị thiếu (vị trí bị thiếu thường được ký hiệu
là "*" hoặc "NUL"), ngược lại, S được gọi là HTTT đầy đủ (completed information
system) [29]
Với mỗi , dùng ký hiệu u(a) thay cho (u,a) để biểu thị giá trị
của đối tượng u tại thuộc tính a; rõ ràng là u a( ) V a với mọi Với một tập
con các thuộc tính B A, với hai đối tượng u, vU, viết u(B) = v(B) nếu aB
có u(a) = v(a)
a V
Trang 23Ví dụ 1.1 Cho HTTT trong Bảng 1.1 khi đó ta có:
Tập các đối tượng U = {u 1 , u 2 , u 3 , u 4 , u 5, u 6 , u 7 , u 8}
Tập các thuộc tính A = {Đau đầu, Đau cơ, Nhiệt độ, Cảm cúm}
Tập giá trị của thuộc tính Đau đầu, Đau cơ, Nhiệt độ, Cảm cúm là:
VĐau đầu ={Có, Không},
VĐau cơ = {Có, Không},
VNhiệt độ ={Bình thường, Cao, Rất cao},
1.1.2 Quan hệ không phân biệt được
Định nghĩa 1.2 (Quan hệ không phân biệt được)
Cho HTTT S=<U, A, V, >, với mỗi tập con thuộc tính B A, quan hệ
không phân biệt được (Indiscernibility relation) tương ứng với 𝐵, ký hiệu là
IND(B), là một quan hệ hai ngôi trên U được định nghĩa như sau:
Trang 24Ví dụ 1.2 Xét HTTT cho trong Bảng 1.1 Khi đó, nhận được:
U/{Đau đầu} = {{u 1 , u 2 , u 3 , u 6 , u 7 , u 8 }, {u 4 , u 5}}
U/{Đau cơ} = {{u 2 , u 3 , u 4 , u 6 , u 7 }, {u 1 , u 5 , u 8}}
U/{Nhiệt độ } = {{u 4 }, {u 1 , u 2 , u 5 , u 6 , u 8 }, {u 3 , u 7}}
U/{Cảm cúm} = {{u 1 , u 2 , u 3 , u 6 , u 7 }, {u 4 , u 5 , u 8}}
Với B = {Đau đầu, Đau cơ, Nhiệt độ, Cảm cúm}, phân hoạch U sinh bởi B
là U/B={{u 1 }, {u 2 , u 6 }, {u 3 , u 7 },{u 4 },{u 5 },{u 8}}
Tương tự với B = {Đau cơ, Nhiệt độ}, U/B={{u 1 , u 2 , u 6 , u 8 }, {u 3 , u 7 }, {u 4},
Tính chất 1.1 [40] Xét 𝑆 =< 𝑈, 𝐴, 𝑉, > và 𝑃, 𝑄 ⊂ 𝐴
• Nếu 𝑃 ⊂ 𝑄 thì 𝑈/𝑃 ≤ 𝑈/𝑄,
• ∀𝑢 ∈ 𝑈 ta có [𝑢]𝑃∪𝑄 = [𝑢]𝑃∩ [𝑢]𝑄
Trang 25B-xấp xỉ trên của 𝑋 (ký hiệu 𝐵𝑋), được xác định như sau:
(1.2) Tập xấp xỉ dưới 𝐵𝑋 bao gồm mọi đối tượng chắc chắn thuộc vào 𝑋, tập xấp
xỉ trên 𝐵𝑋 bao gồm mọi đối tượng có khả năng thuộc vào 𝑋 dựa trên tập thuộc tính 𝐵 Tập 𝐵𝑁𝐵(𝑋) = 𝐵𝑋 − 𝐵𝑋được gọi là B-miền biên và tập 𝑈 − 𝐵̅𝑋 được gọi
là B-miền ngoài của X; như vậy, B-miền biên chứa mọi đối tượng không chắc chắn thuộc X và cũng không chắc chắn không thuộc X, còn B-miền ngoài của X chứa mọi đối tượng chắc chắn không thuộc X
Hình 1.1 Tập X được xấp xỉ bởi xấp xỉ dưới và xấp xỉ trên [40]
Trang 26Xấp xỉ dưới và trên của tập X được biểu diễn theo các lớp tương đương trong phân hoạch U/B như sau:
𝐵𝑋 = ⋃{𝑌 ∈ 𝑈/𝐵|𝑌 ⊆ 𝑋}, 𝐵𝑋 = ⋃{𝑌 ∈ 𝑈/𝐵|𝑌 ∩ 𝑋 ≠ ∅} (1.3) Khi 𝐵𝑁𝐵(𝑋) = ∅ thì X được gọi là tập rõ, ngược lại X được gọi là tập thô
Một mối quan hệ giữa hai tập thuộc tính được thể hiện qua khái niệm “miền dương” như định nghĩa sau đây
Định nghĩa 1.5 [28] (Miền dương: possitive region)
Cho một HTTT S=<U, A, V, > và hai tập thuộc tính Tập B-miền dương (còn được gọi là miền khẳng định) của D theo B, ký hiệu là POS B (D), là
tập đối tượng được xác định như sau:
Trang 27Rõ ràng là 0 ≤𝐵(𝑋) ≤ 1 Nếu 𝐵(𝑋) = 1, X được gọi là "chính xác" theo
B, còn nếu 𝐵(𝑋) < 1, X được gọi là "thô" theo B
1.1.4 Không gian xấp xỉ
Các khái niệm và tính chất về xấp xỉ tập trên đây có diểm xuất phát từ quan
hệ không phân biệt được 𝐼𝑁𝐷(𝐵) Mở rộng từ quan hệ không phân biệt được 𝐼𝑁𝐷(𝐵) tới quan hệ tương đương bất kỳ 𝑅 nhận được định nghĩa về không gian xấp xỉ như sau
Định nghĩa 1.7 (Không gian xấp xỉ)
Cho 𝑈 là một tập vũ trụ, 𝑅 là một quan hệ tương đương trên 𝑈, cặp (𝑈, 𝑅) được gọi là một không gian xấp xỉ trên 𝑈
Khi đó, với mọi 𝑋 ⊂ 𝑈, xấp xỉ dưới và xấp xỉ trên của 𝑋 theo 𝑅 được xác định như sau:
𝑅𝑋 = ⋃{𝑌 ∈ 𝑈/𝑅|𝑌 ⊆ 𝑋}, 𝑅𝑋 = ⋃{𝑌 ∈ 𝑈/𝑅|𝑌 ∩ 𝑋 ≠ ∅} (1.7) trong đó 𝑈/𝑅 là tập các lớp tương đương của tập vũ trụ 𝑈 theo quan hệ tương đương 𝑅 Mục 1.1.3 chỉ ra là mỗi tập con 𝐵 ⊆ 𝐴 trong 𝑆 =< 𝑈, 𝐴, 𝑉, > xác định một không gian xấp xỉ (𝑈, 𝐼𝑁𝐷(𝐵)) (hay không gian xấp xỉ (𝑈, 𝐵)) Các khái niệm và tính chất của không gian xấp xỉ (𝑈, 𝐵) trên đây được giữ nguyên trong không gian xấp xỉ (𝑈, 𝑅)
1.1.5 Bảng quyết định
Định nghĩa 1.8 (Bảng quyết định: decision table)
Bảng quyết định là một HTTT đặc biệt 𝑇 = 〈𝑈, 𝐶 ∪ 𝐷, 𝑉, 𝜌〉, trong đó tập thuộc tính 𝐴 được chia thành hai tập khác rỗng rời nhau 𝐶 và 𝐷 (𝐴 = 𝐶 ∪ 𝐷, 𝐶 ∩
B BX =B B X =BX
,
X U
Trang 28𝐷 = ∅), 𝐶 được gọi là tập thuộc tính điều kiện và 𝐷 được gọi là tập thuộc tính quyết định
Bảng quyết định 𝑇 được gọi là nhất quán (consistent) khi
∀𝑢, 𝑣 ∈ 𝑈: 𝑢(𝐶) = 𝑣(𝐶) → 𝑢(𝐷) = 𝑣(𝐷),
trong trường hợp ngược lại, 𝑇 được gọi là không nhất quán (inconsistent) Bảng quyết định T là nhất quán khi và chỉ khi 𝑃𝑂𝑆𝐶(𝐷) = 𝑈 Lớp tương đương thuộc
U/C (thuộc U/D) được gọi là lớp tương đương điều kiện (quyết định) [39]
Bảng quyết định được ứng dụng rộng rãi, đặc biệt trong các bài toán phát
hiện luật quyết định tương ứng giá trị thuộc tính điều kiện C tới giá trị thuộc tính quyết định D Trong trường hợp bài toán phân lớp dữ liệu, tập thuộc tính điều kiện
C đóng vai trò tập đặc trưng (thuộc tính) biểu diễn dữ liệu, tập thuộc tính quyết
định D đóng vai trò tập nhãn lớp
1.2 Tập thô phủ
Định nghĩa của W Zakowski [72] về không gian xấp xỉ (𝑈,) với 𝑈 là tập
vũ trụ khác rỗng và là một phủ của 𝑈 là nghiên cứu khởi đầu cho dòng nghiên cứu về tập thô phủ
Dưới đây giới thiệu các khái niệm cơ bản của tập thô phủ [72, 8]
Định nghĩa 1.9 [72,8] (Phủ và không gian xấp xỉ phủ)
Cho 𝑈 là một tập vũ trụ Một tập 𝐶 = {𝐾𝑖|𝐾𝑖 ⊆ 𝑈} các tập con 𝐾𝑖 ≠ ∅ của
U được một phủ của 𝑈 nếu như 𝑈 = ∑𝐾𝑖∈𝐶𝐾𝑖 Khi đó, cặp có thứ tự (𝑈, 𝐶) được
gọi là một không gian xấp xỉ phủ trên U
Định nghĩa 1.10 (Mô tả tối thiểu [8, 40, 75])
Cho 𝐶 là một phủ của U Với mọi đối tượng 𝑢𝑈, mô tả tối thiểu của 𝑢 là họ các tập đối tượng sau:
𝑀𝑑𝑐(𝑢) = {𝐾 ∈ 𝐶|𝑢 ∈ 𝐾 ∧ (∀𝑆 ∈ 𝐶 ∧ 𝑢 ∈ 𝑆 ∧ 𝑆 ⊆ 𝐾 ⟹ 𝐾 = 𝑆)} (1.8)
và láng giềng gần của 𝑢 là tập đối tượng:
Trang 29Trong công thức (1.8), điều kiện (∀𝑆 ∈ 𝐶 ∧ 𝑢 ∈ 𝑆 ∧ 𝑆 ⊆ 𝐾 ⟹ 𝐾 = 𝑆) chỉ ra rằng nếu có các tập 𝐾 thuộc 𝐶 lồng nhau chứa 𝑢 thì 𝑀𝑑𝑐(𝑢) chỉ giữ lại tập nhỏ nhất trong đó (thể hiện ý nghĩa “tối thiểu”)
Định nghĩa 1.12 (Quan hệ tương đương theo phủ)
Cho (𝑈, 𝐶) là không gian xấp xỉ phủ, quan hệ tương đương ~𝐶 trên 𝑈 được định nghĩa như sau:
∀𝑌, 𝑍 ⊂ 𝑈: 𝑌~𝐶𝑍 ⟺ 𝐶∗(𝑌) = 𝐶∗(𝑍) ⋀𝐶∗(𝑌) = 𝐶∗(𝑍) (1.17)
Trang 30Chương 2 của luận án trình bày khái niệm bảng quyết định phủ và bảng quyết định dàn phù do luận án đề xuất cùng ứng dụng của chúng trong phân lớp đa nhãn
và lọc cộng tác người dụng trong hệ tư vấn
1.3 Tập thô mờ
1.3.1 Tập mờ-thô
Cho tập các đối tượng 𝑈, quan hệ tương đương 𝑅 trên 𝑈 (∀𝑢 ∈ 𝑈: [𝑢]𝑅 là lớp tương đương của 𝑢 theo 𝑅; [𝑢]𝑅 = {𝑣 ∈ 𝑈 | (𝑢, 𝑣) ∈ 𝑅}) và tập mờ 𝐹 trên 𝑈 Gọi 𝑈 𝑅⁄ = {𝑈1, 𝑈2, … , 𝑈|𝑈/𝑅|} là tập các lớp tương đương theo 𝑅 của 𝑈 (𝑈 𝑅⁄ còn được gọi là “tập thương của 𝑈 theo 𝑅”) Ánh xạ 𝜔: ∀𝑈𝑖 ∈ 𝑈/𝑅: 𝜔(𝑈𝑖) ={𝑢 ∈ 𝑈 | [𝑢]𝑅 là tương ứng với 𝑈𝑖, hay 𝑈𝑖 là “tên” của [𝑢]𝑅} Cần phân biệt 𝑈𝑖 là một phần tử của 𝑈/𝑅 với 𝜔(𝑈𝑖) là một tập con của 𝑈
Trang 31mờ-cách xây dựng định nghĩa tập thô-mờ là khái niệm quan hệ nhị phân mờ: một quan
hệ mờ nhị phân (binary fuzzy relation) 𝐹 trên 𝑈 là một tập mờ trên 𝑈 × 𝑈
Định nghĩa 1.14 [46] (t-chuẩn, t-đối chuẩn, phủ định)
Một hàm 𝑡: [0,1]2→ [0,1] đảm bảo các tính chất tăng, kết hợp, giao hoán và điều kiện biên {𝑥 ∈ [0,1]: 𝑡(𝑥, 1) = 𝑥} được gọi là t-chuẩn Điều kiện biên của t-chuẩn được gọi là “điều kiện biên theo 1”
Một hàm 𝑠: [0,1]2→ [0,1] đảm bảo các tính chất tăng, kết hợp, giao hoán và điều kiện biên theo 0 {𝑥[0,1]: 𝑠(𝑥, 0) = 𝑥} được gọi là t-đối chuẩn Điều kiện biên của t-đối chuẩn được gọi là “điều kiện biên theo 0”
Một hàm phủ định 𝑁 là một hàm tự ánh xạ trong [0,1] và bảo đảm điều kiện 𝑁(0) = 1 và 𝑁(1) = 0 Hàm phủ định 𝑁(𝑥) = 1 − 𝑥 thường được gọi là hàm phủ định chuẩn Hàm phủ định 𝑁(𝑥) được gọi là "tự xoắn" (involutive) nếu
∀𝑥: 𝑁(𝑁(𝑥)) = 𝑥 được gọi là "tự xoắn yếu" (weak involutive) nếu
∀𝑥: 𝑁(𝑁(𝑥)) ≥ 𝑥
Ví dụ 1.3:
Ba 𝑡-chuẩn điển hình là các hàm 𝑡(𝑥, 𝑦) = 𝑚𝑖𝑛 (𝑥, 𝑦), 𝑡(𝑥, 𝑦) = 𝑥 ∗ 𝑦, 𝑡(𝑥, 𝑦) = 𝑚𝑎𝑥 (0, 𝑥 + 𝑦 − 1) ("t-chuẩn Lukasiewicz", thường được ký hiệu là 𝑡𝑊) Ba t-đối chuẩn điển hình là các hàm 𝑠(𝑥, 𝑦) = 𝑚𝑎𝑥 (𝑥, 𝑦), 𝑠(𝑥, 𝑦) = 𝑥 +
𝑦 − 𝑥 ∗ 𝑦 ("tổng xác suất"), 𝑡(𝑥, 𝑦) = 𝑚𝑖𝑛 (1, 𝑥 + 𝑦)
Định nghĩa 1.15 [46] (đối ngẫu: dual)
Cặp t - chuẩn t và t - đối chuẩn s được gọi là đối ngẫu với hàm phủ định N nếu các luật De Morgan được đảm bảo:
Định nghĩa 1.16 [46] ("Phép kéo theo": implicator)
Phép kéo theo 𝑇 là một ánh xạ 𝑇: [0,1]2→ [0,1] đảm bảo :
𝑇(1,0) = 0 và 𝑇(1,1) = 𝑇(0,1) = 𝑇(0,0) = 1 (1.20)
Trang 32Phép kéo theo T được gọi đơn điệu trái (đơn điệu phải) nếu 𝑥[0,1]: 𝑇( , 𝑥)
là đơn điệu giảm (𝑥[0,1]: T(x,.) là đơn điệu giảm) Nếu kéo theo T cả đơn điệu trái và đơn điệu phải thì nó được gọi là đơn điệu kép
Một kéo theo T được gọi kéo theo biên nếu 𝑥 [0,1]: 𝑇(1, 𝑥) = 𝑥
Với mọi phép kéo theo đơn điệu trái T, hàm 𝑁(𝑥) = 𝑇(𝑥, 0) là một hàm phủ định và được gọi là hàm phủ định sinh ra bời kéo theo T
Ví dụ, phép kéo theo Lukasiewicz 𝑇(𝑥, 𝑦) = 𝑚𝑖𝑛 {1, 1 − 𝑥 + 𝑦} sẽ sinh
ra hàm phủ định chuẩn
Định nghĩa 1.17 [46] (các kiểu kéo theo đặc biệt)
Cho một t-chuẩn 𝑡, một t-đối chuẩn 𝑠 và một hàm phủ định 𝑁, một kéo theo
- Một QL-kéo theo dựa trên t, s và N khi và chỉ khi 𝑥, 𝑦 [0,1]
Định nghĩa 1.18 [46] (quan hệ tương tự: similarity relation)
Một quan hệ nhị phân mờ R trên U được gọi là một quan hệ tương tự khi
và chỉ khi R là:
- Phản xạ: ( , ) 1,R x x = x U
- Đối xứng: ( , )R x y =R y x( , ),x y U,
Trang 33Định nghĩa 1.19 [46] (không gian xấp xỉ mờ: fuzzy approximation space)
Cho một tập vũ trụ các đối tượng U khác rỗng và một quan hệ tương tự R
trên U gọi , FAS = ( , )U R là một không gian xấp xỉ mờ
Tương ứng với tính chất của hàm đặc trưng theo không gian xấp xỉ trong tập thô, hàm đặc trưng của tập con A U có các tính chất sau:
trong đó 𝐴 là hàm đặc trưng của tập 𝐴
Định nghĩa 1.20 [46] (xấp xỉ thô-mờ: fuzzy-rough approximation)
Cho FAS = ( , )U R là một không gian xấp xỉ mờ, 𝑇 là một kéo theo biên, 𝑡 là một t-chuẩn và FU là tập hợp mọi tập mờ trên U
Một xấp xỉ thô-mờ (𝑇, 𝑡) trong 𝐹𝐴𝑆là một ánh xạ , :
As
T t F
Apr FU →FU FU xác định như sau A FU: , ( ) ( ( ), ( )),
As
t
T t
T F
Trang 34Tập mờ FAS T( )A (tương ứng FAS A t( )) được gọi là xấp xỉ thô-mờ T-dưới (xấp
xỉ thô-mờ t-trên) của tập 𝐴 trong FAS
Cho một không gian xấp xỉ mờ FAS = ( , )U R , nói rằng FFU là một xấp xỉ thô-mờ dưới (trên) của AFU trong FAS =F FAS T( )A với một kéo theo biên 𝑇 nào đó (F=FAS A t( ) với một t - chuẩn t nào đó)
Tính chất 1.3 [46] (Tính chất của không gian xấp xỉ mờ)
Cho T và t tương ứng là một kéo theo biên và một hàm t - chuẩn Mọi không gian xấp xí mờ FAS = ( , )U R có các tính chất sau:
(F1) FAS T ( A )AFAS t ( A ),AFU (1.28) (F2) FAS T ()= =FAS t (), (1.29)
(a) FAS t ( U )=U ,
(b) FAS T ( U )=U , chứng tỏ T là đơn điệu trái
(a) FAS t ( A )FAS t ( B )
(b) FAS AT( ) FAS BT( ) chứng tỏ T là đơn điệu phải
Định nghĩa 1.21 [46] (tập thô-mờ: fuzzy-rough set)
Cho FAS = ( , )U R là một không gian xấp xỉ mờ, T là một kéo theo biên, t là một
t-chuẩn và FU là tập hợp mọi tập mờ trên U. Cặp ( ,L H) FUFUđược gọi là tập thô-mờ ( , )T t trong ( , ) ,( )
As
AS
T t F
F L H =Apr A với A nào đó thuộc FU Một số tính chất của xấp xỉ thô-mờ và tập thô-mờ được trình bày trong [14]
1.3.3 Tập mờ bức tranh
1.3.3.1 Định nghĩa tập mờ bức tranh
Tập mờ trực cảm ( Intuitionistic Fuzzy Sets: IFS) [7] đề xuất tham số thứ hai 𝜐𝐴(𝑢) mức độ không phụ thuộc của đối tượng u vào tập mờ A
Trang 35𝐴 = {(𝑢,𝐴(𝑢), 𝜐𝐴(𝑢)) |𝑢𝑈}với 𝑢𝑈: 0𝐴(𝑢) + 𝜐𝐴(𝑢)1 (1.32)
Tập mờ bức tranh (Picture Fuzzy Sets: PFS, sau đây sử dụng cụm viết tắt
PFS) do B C Cuong và V Kreinovich đề xuất vào năm 2013 [16] PFS là một
tổng quát tiếp theo của tập mờ trực cảm [7]
Định nghĩa 1.22 [16] Tập mờ bức tranh
Một tập mờ bức tranh A trên tập vũ trụ U là một tập mờ có dạng
𝐴 = {(𝑢,𝐴(𝑢),𝐴(𝑢),𝐴(𝑢)) |𝑢𝑈} (1.33) với 𝐴(𝑢) [0,1] được gọi là mức độ “khẳng định” của đối tượng 𝑢 trong 𝐴,
𝐴(𝑢) [0,1] được gọi là mức độ “trung lập” của đối tượng 𝑢 trong 𝐴,
𝐴(𝑢)[0,1] được gọi là mức độ “phủ định” của đối tượng 𝑢 trong 𝐴, với điệu kiện ba tham số A (u), A (u), A (u) thỏa mãn 0 A (u) + A (u) + A (u) ≤ 1
Sự bổ sung độ thành viên trung tính 𝐴(𝑢) vào cặp độ thành viên khẳng
định (𝐴(𝑢)) và độ thành viên phủ định (1 −𝐴(𝑢)) từ tập mờ trực cảm phản ảnh
xu hướng xây dựng các mô hình quyết định ba chiều và phù hợp với xử lý sự mơ
hồ từ nhận thức của con người Chẳng hạn, tập mờ bức tranh cho khả năng cung cấp các mô hình phù hợp biểu diễn các tình huống quan điểm con người với các
xử lý cần có đáp án kiểu: năng lực một phần, trung lập, không năng lực [17, 18] Tập tất các tập mờ bức tranh trên 𝑈 được ký hiệu là 𝑃𝐹𝑆(𝑈)
Tập 𝐷∗ = {𝑢 = (𝑢1, 𝑢2, 𝑢3)|𝑢𝑖 ∈ [0,1], 𝑢1+ 𝑢2+ 𝑢3 ≤ 1} được gọi là “tập tất cả các giá trị mờ bức tranh” và 𝑢 = (𝑢1, 𝑢2, 𝑢3) được gọi là “một giá trị mờ bức tranh”
Với giá trị mờ bức tranh 𝑢 = (𝑢1, 𝑢2, 𝑢3) ∈ 𝐷∗ thì 𝑢1, 𝑢2 và 𝑢3 biểu thị lần
lượt giá trị thành phần “khẳng định”, giá trị thành phần “trung lập” và giá trị thành phần “phủ định”
Hai giá trị mờ bức tranh đặc biệt là 1𝐷∗ = (1,0,0) (“khẳng định hoàn toàn”)
và 0𝐷∗ = (0,0,1) (“phủ định hoàn toàn”)
Xây dựng quan hệ bộ phận ≤1 trên 𝐷∗ như sau:
∀𝑢, 𝑣 ∈ 𝐷∗: 𝑢 ≤1 𝑣 ⟺ {𝑢1 < 𝑣1, 𝑢3 ≥ 𝑣3} ∪ {𝑢1 = 𝑣1, 𝑢3 > 𝑣3}
∪ {𝑢1 = 𝑣1, 𝑢3 = 𝑣3, 𝑢2 ≥ 𝑣2} (1.34)
Trang 36𝑢 = 𝑣 ⟺ {𝑢1 = 𝑣1, 𝑢3 = 𝑣3, 𝑢2 = 𝑣2}
Nếu u≤1 𝑣 hoặc 𝑣 ≤1 𝑢 thì nói rằng 𝑢 và 𝑣 là “so sánh được” Với hai giá trị mờ bức tranh 𝑢, 𝑣 là so sánh được thì xác định được “giá trị cực tiểu” min(𝑢, 𝑣) (có giá trị 𝑢nếu 𝑢 ≤1 𝑣 và có giá trị 𝑣 nếu 𝑣 ≤1 𝑢) và “giá trị cực đại” max(𝑢, 𝑣) (có giá trị 𝑣nếu 𝑢 ≤1 𝑣 và có giá trị 𝑢 nếu 𝑣 ≤1 𝑢) Ký hiệu 𝑢 ||≤1𝑣 nếu 𝑢, 𝑣 là không so sánh được với nhau (không có 𝑢 ≤1 𝑣 hoặc 𝑣 ≤1 𝑢) Quan
1.3.3.2 Các toán tử logic tập mờ bức tranh
B.C Cuong và cộng sự [17, 18] đã xây dựng hệ thống định nghĩa cho phép toán logic (phép toán một ngôi phủ định, các phép toán hai ngôi t - chuẩn, t - đối chuẩn và kéo theo) đối với tập mờ bức tranh như được giới thiệu sau đây
Trang 37Định nghĩa 1.24 (t - chuẩn mờ bức tranh)
Một ánh xạ 𝑇: 𝐷∗× 𝐷∗ → 𝐷∗ được gọi là một t - chuẩn mờ bức tranh nếu 𝑇 thỏa mãn các điều kiện sau:
Định nghĩa 1.25 (t - đối chuẩn mờ bức tranh)
Một ánh xạ 𝑆: 𝐷∗× 𝐷∗ → 𝐷∗ là một t - đối chuẩn mờ bức tranh nếu ánh xạ
𝑆 thỏa mãn các điều kiện sau:
𝑆(𝑎, 𝑏) = 𝑆(𝑏, 𝑎), ∀𝑎, 𝑏 ∈ 𝐷∗
𝑆(𝑎, 𝑆(𝑏, 𝑐)) = 𝑆(𝑆(𝑎, 𝑏), 𝑐), ∀𝑎, 𝑏, 𝑐 ∈ 𝐷∗𝑆(𝑎, 𝑏) ≤1 𝑆(𝑎, 𝑐), ∀𝑎, 𝑏, 𝑐 ∈ 𝐷∗, 𝑏 ≤1 𝑐
𝑆(0𝐷∗, 𝑎) ∈ 𝐼(𝑎), ∀𝑎 ∈ 𝐷∗
Trang 38Định nghĩa 1.26 (t - chuẩn mờ bức tranh biểu diễn)
Một t - chuẩn mờ bức tranh T được gọi là biểu diễn nếu tồn tại hai t - chuẩn
mờ 𝑡1, 𝑡2 trên [0,1] và t - đối chuẩn mờ 𝑠3 trên [0,1] thỏa mãn
𝑇(𝑎, 𝑏) = (𝑡1(𝑎1, 𝑏1), 𝑡2(𝑎2, 𝑏2), 𝑠3(𝑎3, 𝑏3)), ∀𝑎, 𝑏 ∈ 𝐷∗ (1.40)
Định nghĩa 1.27 (t - đối chuẩn mờ bức tranh biểu diễn)
Một t - đối chuẩn 𝑆 mờ bức tranh được gọi là biểu diễn nếu tồn tại hai t -chuẩn
mờ 𝑡1, 𝑡2 trên [0,1] và t - đối chuẩn 𝑠3 mờ trên [0,1] thỏa mãn
𝑆(𝑎, 𝑏) = (𝑡1(𝑎1, 𝑏1), 𝑡2(𝑎2, 𝑏2), 𝑠3(𝑎3, 𝑏3)), ∀𝑎, 𝑏 ∈ 𝐷∗ (1.41) Các ví dụ sau là các t - chuẩn mờ bức tranh,
Định nghĩa 1.28 (Phép kéo theo mờ bức tranh lớp 1)
Một ánh xạ 𝐼: 𝐷∗× 𝐷∗ → 𝐷∗ là một phép kéo theo mờ bức tranh lớp 1 nếu
nó thỏa mãn các điều kiện biên sau:
Trang 39Định nghĩa 1.29 (Phép kéo theo mờ bức tranh lớp 2)
Ánh xạ 𝐼: 𝐷∗× 𝐷∗ → 𝐷∗ là kéo theo mờ bức tranh lớp 2 nếu nó là một
phép kéo theo bức tranh lớp 1 và
𝐼(𝑎1, 𝑏) ≥1 𝐼(𝑎2, 𝑏), ∀𝑎1 ≤1 𝑎2, 𝑏 ∈ 𝐷∗𝐼(𝑎, 𝑏1) ≥1 𝐼(𝑎, 𝑏2), ∀𝑏1 ≤1 𝑏2, 𝑎 ∈ 𝐷∗ (1.43)
Định nghĩa 1.30 (Phép kéo theo mờ S - bức tranh)
Cho 𝑁(𝑢) là một phủ định mờ bức tranh và 𝑆(𝑢, 𝑣) là một t-đối chuẩn mờ bức tranh Ánh xạ 𝐼: 𝐷∗ × 𝐷∗ → 𝐷∗ được gọi là phép kéo theo mờ S-bức tranh nếu:
𝐼(𝑎, 𝑏) = S(𝑛(𝑎), 𝑏), ∀𝑎, 𝑏 ∈ 𝐷∗ (1.44)
Định nghĩa 1.31 (Phép kéo theo tổng quát hóa hình học cổ điển chuẩn)
Ánh xạ 𝐼: 𝐷∗× 𝐷∗ → 𝐷∗ được gọi là phép kéo theo tổng quát hóa hình học
cổ điển chuẩn nếu:
∀𝑎, 𝑏 ∈ 𝐷∗: 𝐼(𝑎, 𝑏) = {1𝐷∗ nếu 𝑎 <1 1𝐷∗ hoặc 𝑏 = 1𝐷∗,
0𝐷∗ 𝑛gược lại (1.45)
Định nghĩa 1.32 (Phép kéo theo tổng quát hóa chặt chuẩn)
Ánh xạ 𝐼: 𝐷∗× 𝐷∗ → 𝐷∗ được gọi là phép kéo theo tổng quát hóa chặt chuẩn nếu:
∀𝑎, 𝑏 ∈ 𝐷∗: 𝐼(𝑎, 𝑏) = {1𝐷∗ nếu 𝑎 ≤1 𝑏,
Định nghĩa 1.33 (Phép kéo theo mờ bức tranh biên)
Một kéo theo bức tranh được gọi là biên nếu nó thỏa mãn điều kiện:
Phép kéo theo cổ điển, 𝑆𝑠𝑢𝑝(𝑥, 𝑦) theo công thức (1.35), 𝑠𝑢𝑝 𝐴 theo công thức
Trang 40(1.35) là các phép kéo theo mờ bức tranh biên
Trong [18, 19], B.C Cương và cộng sự đã phát biểu định nghĩa về tập thô mờ bức tranh và một số tính chất của nó
Định nghĩa 1.34 (Quan hệ mờ bức tranh)
Cho X và Y là hai tập khác rỗng Quan hệ mờ bức tranh là một tập con mờ bức tranh R của XY , có nghĩa là
𝑅 = {((𝑥, 𝑦),𝑅(𝑥, 𝑦),𝑅(𝑥, 𝑦),𝑅(𝑥, 𝑦))|𝑥𝑋, 𝑦𝑌}
trong đó 𝑅(𝑥, 𝑦): 𝑋𝑌→ [0,1], 𝑅(𝑥, 𝑦): 𝑋𝑌→ [0,1], 𝑅(𝑥, 𝑦): 𝑋𝑌→ [0,1] và
0 𝑅(𝑥, 𝑦) +𝑅(𝑥, 𝑦) +𝑅(𝑥, 𝑦) 1 Tập tất cả các quan hệ mờ bức tranh của
XY được ký hiệu là PFR(X,Y)
Trong trường hợp khi X=Y thì quan hệ mờ bức tranh R được gọi là quan hệ
mờ bức tranh trên X Tập tất cả các quan hệ mờ bức tranh trên A được ký hiệu là
PFR(A)
Định nghĩa 1.35 (Quan hệ mờ bức tranh hợp thành)
Cho 𝑅1, 𝑅2 ∈ 𝑃𝐹𝑅(𝐴) Quan hệ hợp thành 𝑅1°𝑅2 ∈ 𝑃𝐹𝑅(𝐴) của 𝑅1 và 𝑅2được xác định như sau:
Định nghĩa 1.36 (Quan hệ mờ bức tranh phản xạ, đối xứng, bắc cầu, tương tự)
Quan hệ mờ bức tranh 𝑅 ∈ 𝑃𝐹𝑅(𝐴) được gọi là:
- Phản xạ nếu 𝑥𝐴: 𝑅(𝑥, 𝑥) = 1, 𝑅(𝑥, 𝑥) = 0, 𝑅(𝑥, 𝑥) = 0,
- Đối xứng nếu 𝑥, 𝑦𝐴: 𝑅(𝑥, 𝑦) = 𝑅(𝑦, 𝑥), 𝑅(𝑥, 𝑦) = 𝑅(𝑦, 𝑥),
𝑅(𝑥, 𝑦) = 𝑅(𝑦, 𝑥),