Các công trình nghiên cứu về tập thô [6-8, 14, 66, 67, 73, 76, 77, 91-93, 106] chứng tỏ rằng lý thuyết tập thô đóng vai trò quan trọng, là nền tảng trong tính toán hạt, trí tuệ nhân tạo,
Trang 2LUẬN ÁN TIẾN SĨ TOÁN HỌC
Người hướng dẫn khoa học:
Hà Nội - 2025
Trang 3LỜI CAM ĐOAN Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi Những nội dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực
và chưa có tác giả nào công bố trong bất cứ một công trình nào khác Các tài liệu tham khảo được trích dẫn đầy đủ
Hà Nội, ngày tháng năm 2024
Tác giả
Trang 4MỤC LỤC
Trang
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ vii
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ TẬP THÔ VÀ CÁC MỞ RỘNG CỦA TẬP THÔ 10
1.1 Mô hình tập thô truyền thống 10
1.1.1 Hệ thông tin đầy đủ 10
1.1.2 Bảng quyết định 11
1.1.3 Tập thô 12
1.2 Tập thô dung sai 15
1.2.1 Hệ thông tin không đầy đủ 15
1.2.2 Tập thô dung sai 16
1.3 Tập thô mờ (Fuzzy rough set) 18
1.3.1 Tập mờ 18
1.3.2 Tập thô mờ 20
1.4 Quyết định ba nhánh (Three-way decisions) 21
1.5 Tập thô phủ 24
1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết 26
1.6.1 Các nghiên cứu liên quan đến cập nhật tăng cường theo hướng tiếp cận tập thô 26
1.6.2 Các vấn đề còn tồn tại 28
1.6.3 Các đề xuất của luận án 29
1.7 Kết luận Chương 1 29
Chương 2 CẬP NHẬT QUYẾT ĐỊNH BA NHÁNH TRONG HỆ THÔNG TIN KHÔNG ĐẦY ĐỦ ĐỘNG 30
Trang 52.1 Bài toán cập nhật tăng cường các quyết định ba nhánh 30
2.1.1 Bài toán cập nhật tăng cường quyết định ba nhánh trong hệ thông tin đầy đủ 31
2.1.2 Bài toán cập nhật tăng cường quyết định ba nhánh trong hệ thông tin không đầy đủ 35
2.1.3 Nhận xét 38
2.2 Khảo sát xu hướng thay đổi của xác suất có điều kiện 39
2.2.1 Sự thay đổi của các xác suất có điều kiện khi tập đối tượng thay đổi 40 2.2.2 Sự thay đổi của các xác suất có điều kiện khi thay đổi các giá trị thuộc tính của các đối tượng 44
2.3 Cập nhật quyết định ba nhánh dưới sự thay đổi của xác suất có điều kiện51 2.4 Đề xuất phương pháp cập nhật các quyết định ba nhánh 54
2.5 Ví dụ minh họa 56
2.6 Kết luận chương 2 65
Chương 3 CẬP NHẬT TẬP XẤP XỈ TRONG KHÔNG GIAN XẤP XỈ PHỦ ĐỘNG 66
3.1 Khảo sát về hàm thành viên thô và các tập xấp xỉ phân bậc trong không gian xấp xỉ phủ 66
3.1.1 Hàm thành viên thô 66
3.1.2 Các tập xấp xỉ phân bậc 68
3.1.3 Khảo sát các phương pháp cập nhật các tập xấp xỉ phân bậc 70
3.1.4 Nhận xét 71
3.2 Đề xuất phương pháp cập nhật tập xấp xỉ 71
3.2.1 Xu hướng thay đổi của hàm thành viên thô dạng ba 71
3.2.2 Cập nhật các tập xấp xỉ phân cấp 77
3.2.3 Đề xuất phương pháp cập nhật các tập xấp xỉ 79
3.3 Ví dụ minh họa 80
3.4 Kết luận chương 3 83
Trang 6Chương 4 PHƯƠNG PHÁP CÂN BẰNG DỮ LIỆU SỬ DỤNG TẬP THÔ
MỜ 85
4.1 Bài toán cân bằng dữ liệu 85
4.1.1 Hàm đo lường chất lượng 87
4.1.2 Thuật toán MFRIS1 87
4.1.3 Thuật toán MFRIS2 89
4.1.4 Nhận xét 90
4.2 Đề xuất thuật toán 92
4.2.1 Thuật toán MFRIS3 92
4.2.2 Tối ưu hóa ngưỡng và điều chỉnh độ chi tiết 93
4.3 Thử nghiệm 96
4.3.1 Thiết lập thí nghiệm 96
4.3.2 Kết quả thực nghiệm 98
4.4 Kết luận chương 4 103
KẾT LUẬN 104
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 106
TÀI LIỆU THAM KHẢO 107
Trang 7DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
𝑃𝑟(𝐵 𝑇 (𝑥)⁄ ) Xác suất có điều kiện
Trang 8DANH MỤC CÁC BẢNG
Trang
Bảng 1.1 Một ví dụ về hệ thông tin 11
Bảng 1.2 Ví dụ về hệ thông tin không đầy đủ 16
Bảng 1.3 Bảng thông tin đầy đủ 23
Bảng 2 1 Cập nhật các mẫu của xác suất có điều kiện 32
Bảng 2.2 So sánh phương pháp luận án đề xuất với phương pháp tính toán ban đầu 56
Bảng 2 3 Hệ thông tin tại thời điểm 𝒕 57
Bảng 2 4 Hệ thông tin tại thời điểm 𝒕 + 𝟏 59
(Khi tập đối tượng thay đổi) 59
Bảng 2 5 Hệ thông tin tại thời điểm 𝒕 + 𝟏 61
Bảng 2 6 Hệ thông tin tại thời điểm 𝒕 + 𝟏 62
Bảng 2 7 Hệ thông tin tại thời điểm 𝒕 + 𝟏 64
Bảng 3 1 So sánh phương pháp đề xuất và phương pháp tính toán ban đầu80 Bảng 3 2 Hệ thông tin tại thời điểm 𝒕 81
Bảng 4 1 Bộ dữ liệu thử nghiệm 97
Bảng 4 2 Bảng ma trận nhầm lẫn cho hai lớp vấn đề 99
Bảng 4 3 𝐴𝑈𝐶 trung bình được lưu trữ bởi các phân loại khác nhau cho mỗi phương pháp chọn đối tượng (số in đậm hiển thị mức cao nhất) 99
Bảng 4 4 Xếp hạng Friedman đối với 𝑨𝑼𝑪 100
Bảng 4 5 Thống kê Friedman 101
Bảng 4 6 So sánh MFRIS3 với các thuật toán khác 101
Bảng 4 7 Thời gian chuẩn bị trước cho mỗi phương pháp lựa chọn đối tượng 102
Trang 9DANH MỤC CÁC HÌNH VẼ
Trang Hình 1 1 Tập 𝑋 được xấp xỉ bởi các tập xấp xỉ dưới và xấp xỉ trên 13 Hình 4 1 Biểu đồ hiển thị phân phối của các xấp xỉ và xấp xỉ trung bình của tập dữ liệu 91Hình 4 2 Độ lệch chuẩn của tập dữ liệu ozon_one_hr 94Hình 4 3 So sánh trung bình của 𝐴𝑈𝐶 (trên tất cả các bộ dữ liệu) và tăng trung bình của 𝐴𝑈𝐶 bằng cách sử dụng MFRIS cho các phân loại khác nhau102
Trang 10
MỞ ĐẦU
1 Tính cấp thiết của đề tài luận án
Lý thuyết tập thô được Pawlak đề xuất vào năm 1982 [61] và được ông
và các cộng sự nghiên cứu và phát triển [62-64] đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức Kể từ khi
ra đời, lý thuyết tập thô đã cung cấp nhiều công cụ hữu ích để giải quyết các vấn đề về học máy, thu nhận kiến thức, phân tích quyết định và khai phá tri thức từ cơ sở dữ liệu
Trong lý thuyết tập thô, dữ liệu được biểu diễn dưới dạng bảng gọi là bảng thông tin [61] Các hàng của bảng tương ứng với các đối tượng, các cột tương ứng với các thuộc tính của các đối tượng đó Cách tiếp cận chính của lý thuyết Tập thô dựa trên mối quan hệ không phân biệt được cùng với việc đưa
ra hai tập “rõ” (scrip), là các tập xấp xỉ của tập đối tượng cần quan sát Tức
là, tất cả các tập đối tượng được xấp xỉ bởi hai tập là tập xấp xỉ dưới, bao gồm tất cả các đối tượng chắc chắn thuộc tập hợp đó, và tập xấp xỉ trên, chứa tất cả các đối tượng có khả năng thuộc tập hợp đó
Cách tiếp cận của tập thô nguyên thủy giả thiết rằng tất cả các đối tượng trong hệ thông tin đều có các giá trị thuộc tính được xác định Tuy nhiên, trong thực tế, dữ liệu đôi khi bị lỗi, một số giá trị trong cơ sở dữ liệu không xác định Do đó, cần mở rộng lý thuyết tập thô để việc phân loại dữ liệu hiệu quả hơn, các khái niệm và mô hình phù hợp hơn với thực tế Đã có nhiều nhà khoa học mở rộng tập thô để giải quyết vấn đề này [19, 23, 26-28, 33-39, 45, 46, 60, 74, 75, 78, 79, 89, 100] Kryszkiewicz [45, 46] đã mở rộng tập thô bằng cách xây dựng quan hệ dung sai (Tolerance relation), Stefanowskiand và Tsoukias [74, 75] thảo luận về giới hạn và giới thiệu quan
hệ tương tự (similarity relation) dựa trên quan hệ dung sai Yang và các cộng
sự [89] đã khái quát một phân lớp hợp lý và linh hoạt trong hệ thông tin không đầy đủ, gọi là quan hệ nhị phân mới (new binary relation), Wang [100]
Trang 11giới thiệu quan hệ dung sai giới hạn (limited tolerance relation) Nhóm của Tiến sĩ Nguyễn Đỗ Văn đã định nghĩa một mối quan hệ dung sai mở rộng bằng cách sử dụng tần suất các giá trị thuộc tính và xây dựng mô hình tập thô xác suất tham số (Parameterized Probabilistic Rough Set) [26-28, 79]
Trong thực tế khi mở rộng tập thô để xử lý các giá trị thuộc tính điều kiện bị thiếu trong hệ thông tin không đầy đủ được chia làm hai hướng Hướng thứ nhất gọi là “Giá trị bị mất (Lost value)” tiếp cận theo cách coi giá trị thuộc tính chưa biết là giá trị bị mất (Lost value) [13] Hướng thứ hai gọi là
“Không quan tâm (Do not care)”, các giá trị chưa biết có thể thay thế bằng bất
cứ giá trị nào trong miền giá trị Grzymala-Busse [33-39] đã xây dựng một quan hệ đặc trưng dựa trên cả trường hợp "Giá trị bị mất" và trường hợp
"Không quan tâm" Tại Việt Nam một số luận án Tiến sĩ về lý thuyết tập thô
và các mở rộng của tập thô đã được hoàn thành [1-5]
Các công trình nghiên cứu về tập thô [6-8, 14, 66, 67, 73, 76, 77, 91-93, 106] chứng tỏ rằng lý thuyết tập thô đóng vai trò quan trọng, là nền tảng trong tính toán hạt, trí tuệ nhân tạo, khai phá dữ liệu, khám phá tri thức, nhận dạng mẫu, hệ thống thông minh… Các phương pháp dựa trên tập thô được ứng dụng trong nhiều lĩnh vực như âm học, tin sinh học, kinh doanh và tài chính, hóa học, kỹ thuật máy tính, hệ thống và phân tích quyết định, kinh tế học, kỹ thuật điện, nghiên cứu môi trường, xử lý ảnh số, tin học, y học, sinh học phân
tử, âm nhạc học, thần kinh học, người máy, khoa học xã hội, kỹ thuật phần mềm, trực quan hóa không gian, kỹ thuật web và khai phá web …Chính vì vậy lý thuyết tập thô đã nhận được sự quan tâm của đông đảo các nhà khoa học trong nước và thế giới
Một trong những công cụ nhận thức và phương pháp phỏng đoán hiệu quả nhất trong việc giải quyết vấn đề của con người là hiểu, biểu diễn và xử lý một tổng thể theo ba phần liên quan được gọi là phép chia ba Ví dụ như, Khi muốn đánh giá một lĩnh vực nghiên cứu nào đó thì chúng ta thường đánh giá
Trang 12theo ba khía cạnh là triết học, lý thuyết và thực tiễn Khi đánh giá chất lượng của một sản phẩm thường sẽ có ba mức độ đánh giá định tính là thấp, trung bình, và cao Hay cảm xúc của con người thường được chia thành ba loại là tích cực, trung lập, và tiêu cực Từ các ý tưởng về phép chia ba trong nhiều lĩnh vực khác nhau, nhóm nghiên cứu của Yao [94, 95] đã đề xướng và đóng góp quan trọng về lý thuyết quyết định ba nhánh Ý tưởng chính của phương pháp này là dùng mô hình tập thô lý thuyết quyết định (decision-theoretic rough set) (DTRS) để chia một tập hợp thành ba miền dời nhau, là miền dương (positive region), miền biên (boundary region) và miền âm (negative region)
Ưu điểm của mô hình này là sử dụng một cặp ngưỡng để xác định các tập xấp
xỉ, vì vậy nó cho phép các sai số chấp nhận được của các lỗi Trong những năm gần đây, lý thuyết này đã nhận được sự quan tâm ngày càng nhiều của các nhà khoa học trên toàn thế giới [22, 90, 96, 98, 99, 101, 102]
Trong các ứng dụng thực tế, dữ liệu trong một hệ thông tin thường thay đổi không ngừng, vì thế các kỹ thuật được đề xuất để khai thác các cơ sở dữ liệu động Kỹ thuật này thường sử dụng các kết quả khai thác thu được từ cơ
sở dữ liệu đầu tiên để làm điều kiện bảo trì và cập nhật lại các kiến thức trong
cơ sở dữ liệu động mà không cần khai thác lại từ đầu Đã có nhiều nghiên cứu theo hướng này [19, 55-59, 85] Liu và các cộng sự đề xuất một DTRS động bằng cách xem xét sự thay đổi động của hàm mất mát trong môi trường quyết định động [52] Gần đây nhất, Luo và các cộng sự đề xuất một phương pháp
để cập nhật tăng cường các quyết định ba nhánh trong hệ thông tin không đầy
đủ (incomplete information system) khi tập đối tượng thay đổi theo thời gian [55-59] Trong đó, các luật quyết định ba nhánh được cập nhật trong hai trường hợp riêng biệt là thêm hoặc xóa một đối tượng trong hệ thống Xu và các cộng sự đề xuất phương pháp tính toán ròng (stream computing) trong hệ thông tin đầy đủ khi đồng thời thêm và xóa các đối tượng [85] Các phương pháp này được chứng minh là nhanh hơn đáng kể so với các kỹ thuật khác
Trang 13Tuy nhiên chúng chủ yếu được sử dụng trong hệ thông tin đầy đủ, còn đối với
hệ thống không hoàn chỉnh thì chỉ áp dụng trong từng trường hợp đơn lẻ
Khi nghiên cứu cập nhật các tập xấp xỉ, Hu và các cộng sự đã đề xuất một phương pháp rút gọn thuộc tính gia tăng dựa trên các tập cơ bản [40] Chan đã thảo luận một cách tiếp cận gia tăng để cập nhật các xấp xỉ của một khái niệm khi thêm hoặc xóa một thuộc tính trong một hệ thống thông tin hoàn chỉnh bằng cách sử dụng các biên dưới và trên [16, 17] Li và các cộng
sự đã nghiên cứu phương pháp cập nhật các tập xấp xỉ thô đối với dữ liệu dominance khi tập thuộc tính và tập đối tượng thay đổi [49, 50] Zhang và cộng sự đề xuất một cách tiếp cận ma trận dựa trên tập thô để tính toán các xấp xỉ cập nhật gia tăng [105] Trong những năm gần đây, các nhà nghiên cứu
đã mở rộng các nghiên cứu về các phương pháp cập nhật gia tăng trong không gian xấp xỉ phủ Lang và các cộng sự đã cung cấp một số phương pháp để tính toán các ma trận đặc trưng loại 1 và loại 2 của các phủ động khi các đối tượng thay đổi [47] Cai và các cộng sự nghiên cứu rút gọn tri thức của hệ thông tin quyết định phủ động do thay đổi giá trị thuộc tính [13] Hu và các cộng sự đề xuất một phương pháp để cập nhật các xấp xỉ dựa trên ma trận quan hệ tương đương, ma trận đường chéo và ma trận cắt trong tập thô đa hạt khi một cấu trúc hạt đơn lẻ thay đổi theo thời gian [41] Các phương pháp này chủ yếu tiếp cận theo hướng chia tập biên thành các tập biên trên và các tập biên dưới, hoặc dựa vào sự thay đổi của các ma trận để cập nhật các tập xấp xỉ
Một nguyên nhân có thể gây ra vấn đề không nhất quán là dữ liệu mất cân bằng (imbalance data) [54] Dữ liệu mất cân bằng là tập dữ liệu mà trong
đó số đối tượng trong một số lớp, gọi là lớp thiểu số (minority classes) ít hơn nhiều so với số đối tượng trong lớp đa số (majority classes) Đã có nhiều nghiên cứu dùng các ưu điểm của lý thuyết tập thô để nâng cao hiệu suất phân lớp khi cân bằng dữ liệu [12, 18, 20, 25, 70, 71, 83] Với cách tiếp cận dùng tập thô mờ để chọn các đối tượng từ tập dữ liệu mất cân bằng, một số nghiên
Trang 14cứu đã kết hợp giữa các phương pháp cân bằng và tập thô để loại bỏ nhiễu bên cạnh một số nghiên cứu dùng các tiêu chí khác nhau để xác định ngưỡng cho các tập thiểu số và đa số Nhóm của tác giả Do Van, N (TS Nguyễn Đỗ Văn) đã giới thiệu cách tiếp cận dựa trên tập thô mờ để cân bằng và chọn các đối tượng chất lượng từ các tập dữ liệu không cân bằng [80] Phương pháp này sử dụng các ngưỡng khác nhau cho các lớp đa số và thiểu số để chọn được nhiều đối tượng hơn từ các lớp thiểu số Tuy nhiên, việc chọn ngưỡng của phương pháp này vẫn thực hiện thủ công vì vậy chưa tối ưu
Trên thế giới, quyết định ba nhánh là chủ đề của các luận án Tiến sĩ, điển hình là các luận án Tiến sĩ trong nhóm nghiên cứu của GS Y Yao [9,
24, 30, 43, 107] Ở Việt Nam lý thuyết tập thô và mở rộng nhận được sự quan tâm nghiên cứu của một số nhóm nghiên cứu, điển hình là các nhóm nghiên cứu tại Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam (thầy PGS TS Hồ Thuần, thầy PGS TS Nguyễn Long Giang,…)
và một số luận án tiến sĩ đã được công bố (chẳng hạn [1-5]) Tuy nhiên chưa
có luận án Tiến sĩ nào về quyết định ba nhánh tại Việt Nam
Xuất phát từ thực tiễn nêu trên, luận án chọn “Nghiên cứu phát triển các phương pháp cập nhật bảng quyết định phủ động và xử lý mất cân bằng dữ liệu dựa trên tập thô mờ” với mong muốn đề xuất phương pháp học tăng cường và cân bằng dữ liệu giúp tối ưu hóa thời gian và hiệu năng của
mô hình
2 Mục tiêu nghiên cứu
- Nghiên cứu bài toán cập nhật tăng cường các quyết định ba nhánh và tập xấp xỉ trong hệ thông tin đầy đủ và không đầy đủ động Nghiên cứu các
kỹ thuật cân bằng dữ liệu đối với các tập dữ liệu mất cân bằng Từ đó, luận án
đề xuất hai phương pháp cập nhật tăng cường trong không gian xấp xỉ và không gian xấp xỉ phủ động Luận án cũng đề xuất cải tiến thuật toán cân
Trang 15bằng dữ liệu và tối ưu hóa ngưỡng để việc cân bằng dữ liệu đạt hiệu quả cao hơn
Để đạt được các mục tiêu nghiên cứu đặt ra, luận án tập trung giải quyết các câu hỏi nghiên cứu sau:
- Thứ nhất, làm thế nào để cập nhật được các miền ba nhánh khi đồng thời thêm và xóa các đối tượng trong hệ thông tin không đầy đủ?
- Thứ hai, làm thế nào để cập nhật các tập xấp xỉ phân cấp trong hệ thông tin không đầy đủ?
Các câu hỏi nghiên cứu này được giải quyết bằng phương pháp cập nhật trình bày trong Chương 2 và Chương 3 của luận án
- Cuối cùng, luận án cần có những cải tiến gì để có thể giải quyết bài toán cân bằng dữ liệu trong hệ thống mất cân bằng? Bài toán này được giải quyết bằng thuật toán cân bằng dữ liệu và tối ưu hóa ngưỡng được trình bày trong Chương 4 của luận án
3 Đối tượng và phạm vi nghiên cứu
Đối tượng: Đối tượng luận án nghiên cứu là các bảng quyết định đầy
đủ và không đầy đủ với kích thước trung bình và kích thước lớn
Phạm vi: Phạm vi nghiên cứu trọng tâm của luận án là bài toán cập nhật các tập xấp xỉ và các quyết định ba nhánh trong hệ thông tin không đầy
đủ và bài toán ứng dụng tập thô vào tối ưu ngưỡng để giảm sự mất cân bằng của dữ liệu
4 Nội dung nghiên cứu
- Nghiên cứu, phân tích, đánh giá và đề xuất mới các phương pháp mới
để cập nhật các tập xấp xỉ và các quyết định ba nhánh trong hệ thông tin không đầy đủ động
- Nghiên cứu, phân tích, đánh giá và đề xuất thuật toán trích chọn đối tượng thô mờ và tối ưu hóa các ngưỡng nhằm giải quyết bài toán giảm mất cân bằng dữ liệu
Trang 165 Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm
Về lý thuyết: Luận án nghiên cứu tổng quan về bài toán cập nhật gia tăng trong hệ thông tin không đầy đủ động và bài toán giảm sự mất cân bằng
dữ liệu Các định lý, mệnh đề trong luận án được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố
Về thực nghiệm: Luận án thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI, so sánh và đánh giá kết quả thực nghiệm với kết quả nghiên cứu lý thuyết Từ đó kết luận tính đúng đắn của kết quả nghiên cứu
6 Ý nghĩa khoa học và thực tiễn
Việc nghiên cứu các bài toán cập nhật tăng cường và giảm sự mất cân bằng dữ liệu có ý nghĩa trên cả hai phương diện khoa học và thực tiễn:
Về khía cạnh khoa học: Nghiên cứu về bài toán cập nhật gia tăng các quyết định ba nhánh và các tập xấp xỉ trong bảng quyết định động và thuật toán làm giảm sự mất cân bằng của dữ liệu Dựa trên các nhận xét, đánh giá, luận án đề xuất phương pháp cập nhật các quyết định ba nhánh trong hệ thông tin không đầy đủ động, cập nhật các tập xấp xỉ đối với bảng quyết định phủ động và cải tiến của thuật toán cân bằng dữ liệu
Về khía cạnh thực tiễn: Các kết quả nghiên cứu trong luận án được biểu diễn bằng mô hình toán học và được cài đặt thử nghiệm, đánh giá Chương trình cài đặt này có thể kế thừa để xây dựng các phương pháp giảm mất cân bằng dữ liệu trong tương lai
7 Bố cục của luận án
Luận án gồm bốn chương cùng với các phần mở đầu, kết luận, danh mục các công trình khoa học đã công bố của tác giả và danh mục tài liệu tham khảo
Trang 17Chương 1 Tổng quan về tập thô và các mở rộng của tập thô
Chương này trình bày tổng quan các kiến thức cơ sở liên quan như mô hình tập thô truyền thống và các mở rộng cũng như các khái niệm cơ bản về quyết định ba nhánh Tổng hợp phân tích đánh giá các nghiên cứu trong nước
và trên thế giới từ đó nêu ra một số vấn đề còn tồn tại làm cơ sở xác định các vấn đề luận án cần tập trung nghiên cứu giải quyết
Chương 2 Cập nhật các quyết định ba nhánh trong hệ thông tin không đầy đủ động
Nội dung chương này trình bày các khảo sát về bài toán cập nhật các quyết định ba nhánh trong hệ thông tin động Từ đó đề xuất phương pháp cải tiến để giải quyết bài toán này cho hệ thông tin không đầy đủ động Nội dung chính của Chương tập trung nghiên cứu và đề xuất phương pháp cập nhật các quyết định ba nhánh trong khi tập đối tượng thay đổi do đồng thời thêm và xóa các đối tượng Chương này cũng trình bày kết quả cập nhật quyết định ba nhánh khi giá trị thuộc tính của đối tượng thay đổi theo thời gian Các phương pháp đề xuất được chứng minh tính đúng đắn bằng cơ sở toán học và có ví dụ minh họa
Chương 3 Cập nhật các tập xấp xỉ trong không gian xấp xỉ phủ động Nội dung chương này trình bày các khảo sát về hàm thành viên thô và tập thô phân bậc trong không gian xấp xỉ phủ Từ đó đề xuất phương pháp cập nhật các tập xấp xỉ phân bậc khi hệ thông tin không đầy đủ thay đổi do đồng thời thêm và xóa các đối tượng Nội dung chính của Chương tập trung nghiên cứu xu hướng thay đổi của hàm thành viên thô dạng ba, từ đó đề xuất phương pháp cập nhật các tập xấp xỉ phân cấp dựa trên sự thay đổi đó Các phương pháp đề xuất được chứng minh bằng cơ sở toán học và ví dụ minh họa
Chương 4 Đề xuất phương pháp cân bằng dữ liệu theo hướng tiếp cận tập thô mờ
Chương 4 trình bày các khảo sát về bài toán cân bằng dữ liệu và thuật toán trích chọn đối tượng thô mờ đối với bài toán này, chỉ ra các điểm đạt
Trang 18được và chưa được của các thuật toán trước đó Từ đó đề xuất phương pháp cải tiến thuật toán trích chọn đối tượng thô mờ và đề xuất thuật toán tối ưu ngưỡng trong thuật toán trích chọn dữ liệu Đồng thời luận án cũng trình bày kết quả chạy thử nghiệm của thuật toán trích chọn đối tượng thô mờ với các
bộ số liệu lấy từ kho dữ liệu UCI
Trang 19Chương 1 TỔNG QUAN VỀ TẬP THÔ VÀ CÁC MỞ RỘNG CỦA TẬP THÔ Nội dung chính của chương giới thiệu tổng quan về hệ thông tin tĩnh và động Mô hình tập thô truyền thống và các mở rộng của tập thô Các khái niệm cơ bản và tính chất cuả các quyết định ba nhánh
1.1 Mô hình tập thô truyền thống
Phần này giới thiệu một số định nghĩa cơ bản của tập thô nguyên thủy được phát triển bởi Pawlak [61, 62, 64, 65]
1.1.1 Hệ thông tin đầy đủ
Trong lý thuyết tập thô, dữ liệu thường được trình bày trong một bảng, mỗi cột tương ứng với một thuộc tính, mỗi hàng tương ứng với một đối tượng
và giao của chúng là giá trị thuộc tính của một đối tượng Các bảng như vậy được gọi là hệ thông tin Một hệ thông tin có thể được biểu diễn bởi 𝑝 dòng, 𝑛 cột, tương ứng với 𝑝 thuộc tính và 𝑛 đối tượng Một hệ thông tin trong tập thô thường được định nghĩa như sau:
Định nghĩa 1.1 [61] Một hệ thông tin là một bộ 𝐼 = (𝑈, 𝐴, 𝑉, 𝑓), trong
đó 𝑈 là tập hữu hạn khác rỗng các đối tượng, gọi là vũ trụ, 𝐴 là tập hữu hạn khác rỗng các thuộc tính, 𝑓: 𝑈 × 𝐴 → 𝑉 là hàm thông tin, 𝑉 = ⋃ ∈ 𝑉 , với
𝑉 là tập các giá trị thuộc tính 𝑎 ∈ 𝐴 Với bất kỳ 𝑎 ∈ 𝐴, 𝑢 ∈ 𝑈, 𝑓(𝑢, 𝑎) ∈ 𝑉
Với mỗi 𝑢 ∈ 𝑈, 𝑎 ∈ 𝐴, dùng ký hiệu là 𝑎(𝑢) thay cho 𝑓(𝑢, 𝑎) để biểu thị giá trị của đối tượng u tại thuộc tính a; rõ ràng 𝑎(𝑢) ∈ 𝑉 Nếu 𝐵 ={𝑏 ; 𝑏 ; … ; 𝑏 } ⊆ 𝐴 thì ta ký hiệu 𝑏 (𝑢) bằng 𝐵(𝑢) Do đó, nếu 𝑢, 𝑣 ∈
𝑈, 𝑏 (𝑢) = 𝑏 (𝑣), ∀𝑏 ∈ 𝐵 thì 𝐵(𝑢) = 𝐵(𝑣)
Một hệ thông tin còn được gọi là bảng giá trị thuộc tính, bảng dữ liệu hoặc bảng thông tin
Trang 20Tập giá trị của thuộc tính Đau cơ là: 𝑉Đ ơ = {Có; Không}
Tập giá trị của thuộc tính Thân nhiệt là: 𝑉 â ệ = {Bình thường; Cao; Rất cao}
Và tập giá trị của thuộc tính Cảm cúm là: 𝑉 ả ú = {Có; Không} Hàm 𝑓 được biểu thị bằng giá trị tương ứng tại điểm giao của mỗi hàng đối tượng và mỗi cột thuộc tính, ví dụ, 𝑓 (𝑢 ; Đau đầu) = Đau đầu(𝑢 ) = Không;𝑓 (𝑢 ; Cảm cúm) = Cảm cúm(𝑢 ) = Có; và 𝑓 (𝑢 ; Thân nhiệt) =Thân nhiệt(𝑢 ) = Rất cao
1.1.2 Bảng quyết định
Định nghĩa 1.2 [61] Bảng quyết định là một hệ thông tin đặc biệt 𝐼 =(𝑈, 𝐶 ∪ 𝐷, 𝑉, 𝑓), trong đó tập thuộc tính A được chia thành hai tập 𝐶, 𝐷 khác rỗng và 𝐶 ∩ 𝐷 = ∅, trong đó, 𝐶 được gọi là tập thuộc tính điều kiện và 𝐷 được gọi là tập thuộc tính quyết định
Trang 21Bảng quyết định được gọi là nhất quán (consistent) khi:
∀𝑢, 𝑣 ∈ 𝑈, 𝐶(𝑢) = 𝐶(𝑣) → 𝐷(𝑢) = 𝐷(𝑣), Trong trường hợp ngược lại, 𝐼 được gọi là không nhất quán (inconsistent)
Bảng quyết định được ứng dụng rộng rãi, đặc biệt trong các bài toán phát hiện luật quyết định tương ứng giá trị thuộc tính điều kiện C tới giá trị thuộc tính quyết định D Trong trường hợp bài toán phân lớp dữ liệu, tập thuộc tính điều kiện C đóng vai trò tập đặc trưng (thuộc tính) biểu diễn dữ liệu, tập thuộc tính quyết định D đóng vai trò tập nhãn lớp
Ví dụ 1.2: Bảng 1.1 là một bảng quyết định Trong đó, 𝐶 ={Đau đầu, đau cơ, thân nhiệt} và 𝐷 = {Cảm cúm}
1.1.3 Tập thô
Định nghĩa 1.3 [61] Xét hệ thông tin 𝐼 = (𝑈, 𝐴, 𝑉, 𝑓), 𝑃 ⊆ 𝐴, quan hệ
𝐸𝑄 (𝑢, 𝑣) là mối quan hệ nhị phân giữa các đối tượng được xác định bởi:
𝐸𝑄 (𝑢, 𝑣) = {(𝑢, 𝑣) ∈ 𝑈 × 𝑈|∀𝑎 ∈ 𝑃, 𝑎(𝑢) = 𝑎(𝑣)} (1.1)
𝐸𝑄 (𝑢, 𝑣) được gọi là quan hệ không phân biệt được trên 𝑈 theo 𝑃
Ta thấy 𝐸𝑄 (𝑢, 𝑣) là một quan hệ tương đương vì nó có tính phản xạ, đối xứng và bắc cầu
Quan hệ không phân biệt được xác định một phân hoạch trên 𝑈 ký hiệu
𝑈 {Đau đầu}⁄ = {𝑢 , 𝑢 , 𝑢 }; {𝑢 , 𝑢 , 𝑢 }
𝑈 {Đau đầu; Đau cơ}⁄ = {𝑢 , 𝑢 , 𝑢 }; {𝑢 , 𝑢 }; {𝑢 }
Trang 22Trong lý thuyết tập thô, để định nghĩa tập thô, Pawlack định nghĩa không gian xấp xỉ bao gồm tập xấp xỉ trên và tập xấp xỉ dưới
Định nghĩa 1.4 [67] Cho hệ thông tin 𝐼 = (𝑈, 𝐴, 𝑉, 𝑓), 𝑃, 𝑄 ⊆ 𝐴 Ta nói: Hai phân hoạch 𝑈 𝐸𝑄 (𝑢, 𝑣)⁄ và 𝑈 𝐸𝑄 (𝑢, 𝑣)⁄ là như nhau (ký hiệu là
Khi đó (𝑈, 𝐸𝑄 ) là một không gian xấp xỉ
Hình 1 1 Tập 𝑿 được xấp xỉ bởi các tập xấp xỉ dưới và xấp xỉ trên Tính chất 1.1 [61, 67] Xét hệ thông tin 𝐼 = (𝑈, 𝐴, 𝑉, 𝑓), 𝑋, 𝑌 ⊆ 𝑈 Khi
Trang 23𝑁𝐸𝐺 (𝑋) = 𝑈 − 𝑎𝑝𝑝𝑟(𝑋) gọi là 𝑝 −miền âm của 𝑋
𝑃𝑂𝑆 (𝑋) = ⋃ ∈ ( )𝑎𝑝𝑝𝑟(𝑋) gọi là 𝑝 −miền dương của 𝑋
Nếu 𝐵𝑁𝐷 (𝑋) ≠ ∅ thì 𝑋 được gọi là tập thô
Tập thô cũng có thể được đặc trưng bằng số theo hệ số sau
|𝑎𝑝𝑝𝑟 (𝑋)| (1.3)
𝛼 (𝑋) được gọi là độ chính xác của xấp xỉ, trong đó |𝑋| ký hiệu lực lượng của tập 𝑋 và 0 ≤ 𝛼 (𝑋) ≤ 1 Nếu 𝛼 (𝑋) = 1, thì 𝑋 là tập rõ đối với 𝑃, nếu 𝛼 (𝑋) < 1 thì 𝑋 là tập thô đối với 𝑃
Ví dụ 1.3: Trong Bảng 1.1, xét 𝑃 = {Đau đầu, Đau cơ, Thân nhiệt}
Trang 241.2 Tập thô dung sai
Cách tiếp cận tập thô ban đầu giả định rằng tất cả các đối tượng trong một hệ thông tin đều có các giá trị thuộc tính chính xác Tuy nhiên, trong thực
tế, các hệ thống thường bị thiếu thông tin Do đó, các nhà khoa học đã mở rộng tập thô theo nhiều hướng để giải quyết vấn đề này Điển hình là mô hình tập thô được xây dựng trên quan hệ dung sai do Marzena Kryszkiewicz đề xuất [45, 46]
1.2.1 Hệ thông tin không đầy đủ
Với hệ thông tin 𝐼 = (𝑈, 𝐴, 𝑉, 𝑓) được trình bày ở mục 1.1.1, nếu 𝑈 chứa
ít nhất một đối tượng có giá trị không xác định (bị mất hoặc không có), thì 𝐼 được gọi là hệ thông tin không đầy đủ và ký hiệu là 𝐼𝐼𝑆, ngược lại gọi là hệ thông tin đầy đủ [45, 46].Trong các hệ thông tin không đầy đủ, các giá trị không xác định được biểu thị bằng ký hiệu đặc biệt “ ∗ ” và được coi là có trong tập 𝑉 Bảng quyết định không đầy đủ là một hệ thông tin có dạng 𝐼𝐼𝑆 = (𝑈, 𝐶 ∪
𝐷, 𝑉, 𝑓) trong đó 𝐶 ∩ 𝐷 = ∅ và ∗∉ 𝐷, trong đó 𝐶 được gọi là thuộc tính điều kiện và 𝐷 được gọi là thuộc tính quyết định Mỗi đối tượng trong hệ thông tin thuộc về một lớp nào đó, còn được gọi là khái niệm (concept) [30] Khi chỉ có một thuộc tính quyết định, nó được ký hiệu là 𝐷𝐼𝑆 = (𝑈, 𝐴 ∪ {𝑑}), trong đó 𝑑
là một thuộc tính phân biệt được gọi là quyết định, 𝑑 ∉ 𝐴,và∗∉ 𝑉 , trong đó 𝑉
là tập các giá trị quyết định 𝑑 Các phần tử của 𝐴 được gọi là thuộc tính điều kiện [68]
Trang 25Ví dụ 1.4: Bảng 1.2 là một hệ thông tin không đầy đủ
Bảng 1.2 Ví dụ về hệ thông tin không đầy đủ
Trong bảng trên ta có:
𝑈 = {1; 2; 3; 4; 5; 6; 7; 8}
𝐴 ={𝑎 ; 𝑎 ; 𝑎 ; 𝑎 ; 𝑑}
Tập giá trị thuộc tính 𝑎 là 𝑉 ={Cao; Trung bình; Thấp}
Tập giá trị thuộc tính 𝑎 là 𝑉 ={Cao; Trung bình; Thấp}
Tập giá trị thuộc tính 𝑎 là 𝑉 ={Đầy đủ; Trung bình}
Tập giá trị thuộc tính 𝑎 là 𝑉 ={Cao; Thấp}
Tập giá trị thuộc tính 𝑑 là 𝑉 ={Tuyệt vời; Tốt; Kém}
Giá trị của đối tượng 5 tại thuộc tính 𝑎 là Thấp
Giá trị của đối tượng 7 tại thuộc tính 𝑎 bị thiếu do đó nó có thể nhận bất
kì giá trị nào trong tập 𝑉 ={Cao; Trung bình; Thấp}
1.2.2 Tập thô dung sai
Một quan hệ hai ngôi 𝑅 trên một tập hợp 𝑈 được gọi là quan hệ dung sai (Tolerance relation) [15] nếu nó có tính chất phản xạ và đối xứng Khi đó
𝑈 𝑅⁄ là tập các lớp dung sai của tập 𝑈 theo quan hệ dung sai 𝑅 Đối với một
Trang 26quan hệ tương đương trên 𝑈, các lớp tương đương chia 𝑈 thành các tập con rời nhau nên tạo thành một phân hoạch trên 𝑈 Ngược lại, các lớp dung sai không nhất thiết rời nhau, do đó là một phủ của 𝑈
Xét hệ thông tin không đầy đủ 𝐼𝐼𝑆 = (𝑈, 𝐴), 𝑃 ⊆ 𝐴 Một quan hệ nhị phân trên 𝑈 được định nghĩa như sau:
𝑇𝑂𝑅 = {(𝑢, 𝑣) ∈ 𝑈 × 𝑈 |∀𝑎 ∈ 𝑃, 𝑎(𝑢) = 𝑎(𝑣)
∨ 𝑎(𝑢) = " ∗ " ∨ 𝑎(𝑣) = " ∗ "} (1.7)
Khi đó 𝑇𝑂𝑅 là quan hệ dung sai trên 𝑈
Gọi 𝑇 (𝑢) = {𝑣 ∈ 𝑈|(𝑢, 𝑣) ∈ 𝑇𝑂𝑅 } là tập hợp các đối tượng có quan
hệ dung sai với 𝑥 theo 𝑃 𝑇 (𝑢) là một lớp dung sai chứa đối tượng 𝑢 ∈ 𝑈
Ký hiệu tập các lớp dung sai sinh ra bởi quan hệ 𝑇𝑂𝑅 trên 𝑈 là
Xét 𝑋 ⊆ 𝑈; 𝑃 ⊆ 𝐴, các tập xấp xỉ dưới và xấp xỉ trên của 𝑋 được định nghĩa như sau:
𝑎𝑝𝑝𝑟𝑇 (𝑋) = {𝑥 ∈ 𝑈|𝑇 (𝑥) ⊆ 𝑋} = {𝑥 ∈ 𝑋|𝑇 (𝑥) ⊆ 𝑋} (1.8) 𝑎𝑝𝑝𝑟𝑇 (𝑋) = {𝑥 ∈ 𝑈|𝑇 (𝑥) ∩ 𝑋 ≠ ∅} = ⋃{𝑇 (𝑥)|𝑥 ∈ 𝑈} (1.9) Miền biên, miền âm và miền dương của X được định nghĩa, tương ứng, như sau:
𝐵𝑁𝐷 (𝑋) = 𝑎𝑝𝑝𝑟𝑇 (𝑋) − 𝑎𝑝𝑝𝑟 (𝑋) 𝑁𝐸𝐺 (𝑋) = 𝑈 − 𝑎𝑝𝑝𝑟𝑇 (𝑋)
Trang 271.3 Tập thô mờ (Fuzzy rough set)
Tập thô mờ là một khái quát của tập thô, xuất phát từ các xấp xỉ của một tập mờ trong một không gian xấp xỉ rõ (crisp approximation space) Điều này tương ứng với trường hợp tập giá trị của thuộc tính điều kiện là tập rõ (scrip) và tập giá trị thuộc tính quyết định là tập mờ (fuzzy) [44]
Ý tưởng chính của tập thô mờ là xác định các tập xấp xỉ dưới và xấp xỉ trên khi tập đối tượng mờ trở thành thô bởi quan hệ tương đương hoặc biến đổi quan hệ tương đương thành quan hệ tương tự mờ
1.3.1 Tập mờ
Định nghĩa 1.7 [69] Một hàm 𝒯: [0, 1] → [0, 1] đảm bảo các tính chất tăng, kết hợp, giao hoán và điều kiện biên (𝒯(𝑥, 1) = 𝑥 với mọi 𝑥 ∈[0, 1]) được gọi là một 𝑇 −chuẩn (Triangular norm) Điều kiện biên của
𝑇 −chuẩn được gọi là “điều kiện biên theo 1”
Trang 28Một hàm 𝒮: [0, 1] → [0, 1] đảm bảo các tính chất tăng, kết hợp, giao hoán và điều kiện biên theo 0 (𝒮(𝑥, 0) = 𝑥 với mọi 𝑥 ∈ [0, 1]) được gọi là một 𝑇 − đối chuẩn Điều kiện biên của 𝑇 −đối chuẩn được gọi là “điều kiện biên theo 0”
Một hàm 𝒩: [0,1] → [0, 1] đảm bảo điều kiện 𝒩(0) = 1; 𝒩(1) = 0 được gọi là hàm phủ định Hàm phủ định 𝒩(𝑥) được gọi là “tự xoắn” (involutive) nếu 𝒩 𝒩(𝑥) = 𝑥 , ∀𝑥 ∈ [0,1], được gọi là tự xoắn yếu (weak involutive) nếu 𝒩 𝒩(𝑥) ≥ 𝑥 , ∀𝑥 ∈ [0,1]
Định nghĩa 1.8 [69] Cặp T- chuẩn 𝒯 và T- đối chuẩn 𝒮 được gọi là đối ngẫu với hàm phủ định 𝒩 nếu các luật De Morgan được đảm bảo:
𝒮 𝒩(𝑥), 𝒩(𝑦) = 𝒩 𝒯(𝑥, 𝑦) ,
𝒯 𝒩(𝑥), 𝒩(𝑦) = 𝒩 𝒮(𝑥, 𝑦) Định nghĩa 1.9 [69] Phép kéo theo ℐ là một hàm ℐ: [0, 1] → [0, 1] đảm bảo:
ℐ(1,0) = 0 và ℐ(1,1) = ℐ(0,1) = ℐ(0,0) = 1 Phép kéo theo ℐ được gọi là đơn điệu trái (đơn điệu phải) nếu ∀𝑥 ∈[0,1], ℐ( , 𝑥) là đơn điệu giảm (∀𝑥 ∈ [0,1], ℐ(𝑥, ) là đơn điệu giảm) Nếu phép kéo theo ℐ vừa đơn điệu trái, vừa đơn điệu phải thì nó được gọi là đơn điệu kép
Một kéo theo ℐ được gọi là kéo theo biên nếu ∀𝑥 ∈ [0,1], ℐ(1, 𝑥) = 𝑥 Với mọi phép kéo theo đơn điệu trái ℐ, hàm 𝒩(𝑥) = ℐ(𝑥, 0) là một hàm phủ định và được gọi là hàm phủ định sinh ra bởi kéo theo ℐ
Ví dụ 1.6:
Ba T-chuẩn điển hình là các hàm 𝒯(𝑥, 𝑦) = min(𝑥, 𝑦) , 𝒯(𝑥, 𝑦) = 𝑥 ∗
𝑦, 𝒯(𝑥, 𝑦) = max(0, 𝑥 + 𝑦 − 1) (là “T- chuẩn Lukasiewicz”)
Ba T- đối chuẩn điển hình là các hàm 𝒮(𝑥, 𝑦) = max(𝑥, 𝑦) , 𝒯(𝑥, 𝑦) =
𝑥 + 𝑦 − 𝑥 ∗ 𝑦, 𝒯(𝑥, 𝑦) = min(1, 𝑥 + 𝑦)
Trang 29Phép kéo theo Lukasiewicz ℐ(𝑥, 𝑦) = min(1, 1 − 𝑥 + 𝑦) sẽ sinh ra hàm phủ định chuẩn
Định nghĩa 1.10 [108] Cho 𝑈 là tập các đối tượng, 𝑋 ⊆ 𝑈, một tập
mờ 𝒳 trong 𝑋 được định nghĩa như sau:
Trong đó 𝜇𝒳(𝑥) ∈ [0, 1] được gọi là hàm thành viên của 𝑥 trong 𝒳 Trong một tập “rõ”, ta luôn có: 𝜇 (𝑥) = 1 và 𝜇 ∅(𝑥) = 0 Như vậy có thể hiểu, một phần tử 𝑥 thuộc tập 𝑎𝑝𝑝𝑟 (𝑋) nếu tất cả các phần
tử tương đương với 𝑥 thuộc 𝑋 hay mọi phần tử không thuộc 𝑋 thì không tương đường với 𝑥, tức là 𝜇ℛ(𝑥, 𝑦) = 0 Tương tự, 𝑥 thuộc tập 𝑎𝑝𝑝𝑟ℛ(𝑋) nếu
𝜇ℛ(𝑥, 𝑦) = 1
1.3.2 Tập thô mờ
Định nghĩa 1.11 [69] Xét 𝜇𝒳 và 𝜇ℛ là các hàm thành viên của 𝒳 và tập {(𝑥, 𝑦) ∈ 𝑈 × 𝑈|ℛ(𝑥, 𝑦)} Không gian xấp xỉ mờ của tập mờ 𝒳 trên X với quan hệ mờ ℛ(𝑥, 𝑦) được định nghĩa như sau:
Trong đó 𝑊 = (𝑤 ; … ; 𝑤 ) là véc tơ trọng số
Một toán tử OWA được giới hạn bởi mức tối thiểu và tối đa của vectơ
𝑊 Do đó, nó có thể làm mềm các toán tử tối thiểu và tối đa
Dựa trên toán tử OWA, Yager [86] và cộng sự đã giới thiệu một định nghĩa tập thô mờ như sau:
Trang 301.4 Quyết định ba nhánh (Three-way decisions)
Hiện nay, quyết định ba nhánh (three-way decisions) được đề xuất bởi Yao [94, 95] đã được sử dụng rộng rãi để giải thích về ba miền thô, là miền dương, miền âm và miền biên Các miền này tương ứng với các luật chấp nhận (acceptance), từ chối (rejection) và không cam kết (non commitement) Các miền dương và miền âm có thể được sử dụng để tạo ra các luật chấp nhận
và từ chối Bất cứ khi nào không thể đưa ra quyết định chấp nhận hoặc từ chối, thì sẽ đưa ra quyết định không cam kết
Phần này sẽ trình bày các khái niệm cơ bản của các quyết định ba nhánh từ góc độ xác suất được Yao đề xuất [94, 95]
Xét 𝐼𝑆 = (𝑈, 𝐴) là một hệ thông tin đầy đủ, trong đó 𝑈 là một tập hữu hạn khác rỗng các đối tượng, 𝐴 là tập hữu hạn khác rỗng các thuộc tính, với
𝑋 ⊆ 𝑈 Dựa trên các tập xấp xỉ của 𝑋, tập vũ trụ 𝑈 được chia thành ba miền,miền dương 𝑃𝑂𝑆(𝑋), miền biên 𝐵𝑁𝐷(𝑋), và miền âm 𝑁𝐸𝐺(𝑋)
𝑃𝑂𝑆(𝑋) = 𝑎𝑝𝑝𝑟(𝑋)
𝑁𝐸𝐺(𝑋) = 𝑈 − 𝑎𝑝𝑝𝑟(𝑋) = 𝑎𝑝𝑝𝑟(𝑋) Trong đó 𝑎𝑝𝑝𝑟(𝑋) là phần bù của 𝑎𝑝𝑝𝑟(𝑋) trong 𝑈
Trang 31Có thể nói chắc chắn rằng bất kỳ phần tử 𝑥 ∈ 𝑃𝑂𝑆(𝑋) nào đều thuộc 𝑋, bất kỳ phần tử 𝑥 ∈ 𝑁𝐸𝐺(𝑋) nào đều không thuộc 𝑋 Và không thể quyết định rằng một phần tử 𝑥 ∈ 𝐵𝑁𝐷(𝑋) có thuộc 𝑋 hay không
Ta chia tập 𝐴 thành hai tập hợp rời nhau là tập các thuộc tính điều kiện
𝐶 và tập các thuộc tính quyết định 𝐷, nghĩa là, 𝐴 = 𝐶 ∪ 𝐷 và 𝐶 ∩ 𝐷 = ∅
Xét 𝑐𝑙𝑎𝑠𝑠 = {𝑑 , 𝑑 , … , 𝑑 } là 𝑚 lớp quyết định rời nhau được định nghĩa bởi các thuộc tính quyết định 𝐷, trong đó 𝑑 ⊆ 𝑈 và 𝑑 ∩ 𝑑 = ∅, 𝑖 ≠ 𝑗 Mỗi 𝑑 ∈ 𝑐𝑙𝑎𝑠𝑠 chia 𝑈 thành hai tập rời nhau 𝑑 = 𝑑 và 𝑑 = 𝑈 − 𝑑 =
Trong đó 𝑃 ⊆ 𝐴 và 𝐷𝑒𝑠( ) biểu thị công thức logic xác định một tập hợp Định nghĩa 1.14 [94, 95] Cho tập con của tập đối tượng 𝑋 ⊆ 𝑈, ∀𝑥 ∈
𝑈 xác suất có điều kiện để 𝑥 thuộc 𝑋 có thể được ước tính đơn giản như sau:
𝑃𝑟 𝑋|𝐸 (𝑥) = | ∩ ( )|
Trong đó | | ký hiệu lực lượng của một tập hợp và 𝑃 ⊆ 𝐴
Định nghĩa 1.15 [94, 95] Cho trước một cặp ngưỡng 𝛼 và 𝛽 với 𝛼 >
𝛽, ∀𝑋 ⊆ 𝑈, 𝑃 ⊆ 𝐴, (𝛼, 𝛽) −miền dương xác suất, miền biên xác suất và miền
âm xác suất được định nghĩa như sau:
𝑃𝑂𝑆( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) ≥ 𝛼 (1.18) 𝐵𝑁𝐷( , )(𝑋) = 𝑥 ∈ 𝑈 𝛽 < 𝑃𝑟 𝑋|𝐸 (𝑥) < 𝛼 (1.19)
Trang 32𝑁𝐸𝐺( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) ≤ 𝛽 (1.20) (𝛼, 𝛽) −xấp xỉ dưới xác suất và xấp xỉ trên xác suất được xác định bởi:
𝑎𝑝𝑝𝑟( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) ≥ 𝛼 (1.21) 𝑎𝑝𝑝𝑟( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) > 𝛽 (1.22)
Ví dụ 1.7: Xét hệ thông tin 𝐼𝑆 = (𝑈, 𝐶 ∪ 𝐷) được cho trong Bảng 1.3
Bảng 1.3 Bảng thông tin đầy đủ
Xác suất có điều kiện tính toán được như sau:
+) Đối với lớp quyết định 𝐷 :
Trang 33Định nghĩa 1.16 [11, 104] Cho 𝑈 là một tập vũ trụ tham chiếu và 𝒞 là
họ các tập con của 𝑈 𝒞 được gọi là một phủ của 𝑈 nếu không có phần tử nào của 𝒞 là tập rỗng và ⋃{𝐶|𝐶 ⊆ 𝒞} = 𝑈 Khi đó,(𝑈, 𝒞) được gọi là một không gian xấp xỉ phủ (covering approximation space) và ký hiệu là 𝐶𝐴𝑆
Trang 34Từ định nghĩa này ta thấy, trong hệ thông tin không đầy đủ 𝐼𝑆 =(𝑈, 𝐶 ∪ {𝑑}, 𝑉, 𝑓) với 𝑃 ⊆ 𝐶, 𝑇𝑂𝑅 là quan hệ dung sai trên U và 𝑇 (𝑥) là lớp dung sai, khi đó xét 𝒞 = 𝑇 (𝑥) , thì 𝒞 được gọi là một phủ đặc trưng đặc biệt của 𝑈 [84]
Định nghĩa 1.17.[84] Xét 𝐶𝐴𝑆 = (𝑈, 𝒞) là một không gian xấp xỉ phủ Với mọi 𝑥 ∈ 𝑈, mô tả tối thiểu của 𝑥 là họ các tập đối tượng sau:
𝑀𝑑𝒞(𝑥) = {𝐶 ∈ 𝒞|𝑥 ∈ 𝐶 ∧ (∀𝑆 ∈ 𝒞 ∧ 𝑥 ∈ 𝑆 ∧ 𝑆 ⊆ 𝐶 ⇒ 𝐶 = 𝑆)}
và lân cận của 𝑥 là tập 𝑁𝒞(𝑥) = ⋂{𝐾 ∈ 𝒞: 𝑥 ∈ 𝐾}
Định nghĩa 1.16.[11] Xét 𝐶𝐴𝑆 = (𝑈, 𝒞) là một không gian xấp xỉ phủ 𝐶𝑜𝑣 𝒞(𝑥) = {𝑁𝒞(𝑥): 𝑥 ∈ 𝑈} được gọi là phủ cảm sinh bởi 𝒞
Định nghĩa 1.17.[84] Cho 𝑈 là một tập vũ trụ Một tập con mờ 𝐴 của
𝑈 được định nghĩa bằng hàm gán mỗi phần tử 𝑥 của 𝑈 một giá trị 𝐴(𝑥) ∈[0,1] Khi đó, họ tất cả các tập con mờ của 𝑈 tới [0,1] được gọi là tập lực lượng mờ (fuzzy power set) của 𝑈 và ký hiệu là 𝒫(𝑈)
Định nghĩa 1.18 [11, 104] Xét 𝐶𝐴𝑆 = (𝑈, 𝒞) là một không gian xấp xỉ phủ và 𝑋 là tập con bất kì của 𝑈
Họ tập xấp xỉ đáy (family of sets bottom approximating) của 𝑋 là:
Trang 35𝑎𝑝𝑝𝑟(𝑋) = ⋃ ∈𝒞( )𝐶 (1.28) 1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết 1.6.1 Các nghiên cứu liên quan đến cập nhật tăng cường theo hướng tiếp cận tập thô
Lý thuyết tập thô [61, 62, 65, 66] đã cung cấp một công cụ để phân tích
dữ liệu tập bằng cách xấp xỉ một khái niệm Với các bảng quyết định không đầy đủ, Kryszkiewicz [45, 46] đã đề xuất mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô sung sai Yao [94, 95, 97] đã đề xuất các quyết định ba nhánh như một cách giải thích khác của các tập xấp xỉ trong tập thô Khái niệm về các quyết định ba nhánh thể hiện mối quan hệ chặt chẽ giữa phân tích tập thô (rough set analysis), phân tích quyết định Bayes (Bayesian decision analysis) [72] và kiểm tra giả thuyết trong thống kê (hypothesis testing in statistics) [29] Tập thô lý thuyết quyết định (Decision-theoretic rough sets) (DTRS) là một quyết định ba nhánh xác suất Nó có thể tính toán một cách có hệ thống các tham số trong các tập thô xác suất dựa trên hàm mất thông qua phương thức quyết định Bayes Ý tưởng chính của các quyết định ba nhánh là một miền được chia thành ba miền rời nhau và thu được các chiến lược ra quyết định tương ứng cho từng miền
Trong thực tế, hệ thông tin có thể thay đổi tập đối tượng, thay đổi tập thuộc tính,và thay đổi giá trị thuộc tính của một đối tượng Khi hệ thông tin thay đổi, các tập xấp xỉ và các quyết định ba nhánh cũng thay đổi theo Do đó các nhà khoa học đã đề xuất các phương pháp cập nhật chúng dựa trên các tri thức có sẵn mà không cần phải tính toán lại từ đầu [48, 49, 50, 51, 52, 53, 55,
56, 57, 58, 59]
Khi nghiên cứu về bảng quyết định động, các nhà khoa học đã đề xuất nhiều phương pháp cập nhật các tập xấp xỉ [16, 17, 40, 49, 50, 105] Các phương pháp này có hai hướng tiếp cận chủ yếu Hướng thứ nhất chia tập
Trang 36biên thành các tập biên trên và các tập biên dưới, từ đó cập nhật các tập xấp xỉ
từ các tập này Hướng thứ hai, dựa vào việc cập nhật các ma trận để tính các tập xấp xỉ mới Các hướng nghiên cứu này đều có đối tượng nghiên cứu là bảng quyết định hoàn chỉnh, chưa xét trong trường hợp bảng quyết định thiếu
dữ liệu
Trong những năm gần đây, các phương pháp cập nhật gia tăng trong không gian xấp xỉ phủ cũng được nhiều nhà khoa học quan tâm Lang và các cộng sự đã cung cấp một số phương pháp để tính toán các ma trận đặc trưng loại 1 và loại 2 của các phủ động khi các đối tượng thay đổi [47] Cai và các cộng sự nghiên cứu rút gọn tri thức của hệ thông tin quyết định phủ động do thay đổi giá trị thuộc tính [13] Hu và các cộng sự đề xuất một phương pháp
để cập nhật các xấp xỉ dựa trên ma trận quan hệ tương đương, ma trận đường chéo và ma trận cắt trong tập thô đa hạt khi một cấu trúc hạt đơn lẻ thay đổi theo thời gian [41]
Khi tập đối tượng và tập thuộc tính thay đổi, các miền ba nhánh, cụ thể
là miền dương, miền âm và miền biên cũng có thể được cập nhật dựa trên các kiến thức đã có sẵn mà không cần phải tính toán lại từ đầu Liu và cộng sự đã nghiên cứu một mô hình DTRS động để đối phó với sự thay đổi động của các hàm mất (loss fuctions) [51] Luo và các cộng sự đề xuất một phương pháp để cập nhật gia tăng các quyết định ba nhánh trong hệ thống thông tin không đầy
đủ khi tập đối tượng thay đổi theo thời gian [56] Theo đó, các quy tắc quyết định ba nhánh được cập nhật trong hai trường hợp riêng biệt là thêm một đối tượng hoặc xóa một đối tượng Dựa trên các nghiên cứu học tập gia tăng hiện
có, Xu và các cộng sự đề xuất một phương pháp tính toán dòng (stream computing), cập nhật các luật ba nhánh khi đồng thời thêm và xóa các đối tượng [85] Phương pháp của ông được chứng minh là nhanh hơn đáng kể so với các phương pháp học tập gia tăng khác Tuy nhiên, phương pháp chỉ áp dụng cho hệ thống thông tin hoàn chỉnh
Trang 371.6.2 Các vấn đề còn tồn tại
Khi cập nhật các tập xấp xỉ trong không gian xấp xỉ thô, các nghiên cứu chủ yếu tập trung theo hai hướng Thứ nhất, dựa trên các tập xấp xỉ, một tập con 𝑋 của tập đối tượng được chia thành ba tập rời nhau là, 𝑃𝑂𝑆(𝑋) gọi là miền dương, 𝑁𝐸𝐺(𝑋) gọi là miền âm, và 𝐵𝑁𝐷(𝑋) gọi là miền biên Ý tưởng chính của hướng cập nhật này là chia miền biên thành hai tập rời nhau, 𝐵𝑁𝐷(𝑋) = 𝐿𝐵𝑁𝐷(𝑋) ∪ 𝑈𝐵𝑁𝐷(𝑋), lần lượt gọi là biên dưới và biên trên của
𝑋 Khi hệ thông tin thay đổi các tập xấp xỉ thay đổi dựa trên các tập biên này Một hướng nghiên cứu khác là cập nhật các tập xấp xỉ dựa trên cập nhật các
ma trận Mô hình tập thô xác suất giúp cho việc định nghĩa các tập xấp xỉ linh hoạt hơn bằng cách cho phép có các sai số nhất định chấp nhận được.Theo đó một cặp tham số được sử dụng để xác định các tập xấp xỉ Và khi hê thông tin thay đổi, các tập xấp xỉ được cập nhật bằng cách dựa vào việc xem xét sự thay đổi của xác suất và so sánh với cặp ngưỡng đề xác định tập xấp xỉ mới Các phương pháp cập nhật tập xấp xỉ trong không gian xấp xỉ phủ đều tiếp cận theo hướng này
Cũng theo hướng tiếp cận xem xét xu hướng thay đổi của xác suất và
so sánh với ngưỡng, các miền ba nhánh trong hệ thông tin động cũng được cập nhật Tuy nhiên các phương pháp này mới được xem xét trong trường hợp tập đối tượng thay đổi do đồng thời thêm bớt các đối tượng trong hệ thông tin đầy đủ Còn trong hệ thông tin không đầy đủ, phương pháp mới chỉ tiếp cận khi các đối tượng được thêm hoặc xóa đơn lẻ Và cũng chưa xem xét trường hợp giá trị thuộc tính của đối tượng thay đổi Các cấp của hệ thông tin thay đổi khi thay đổi đối tượng, thuộc tính, giá trị thuộc tính đồng thời hoặc đơn lẻ
đã được Yang [89] và các cộng sự xem xét đến, nhưng phương pháp này tiếp cận theo hướng xem xét sự thay đổi của ma trận để cập nhật các miền ba nhánh
Trang 38Đối với dữ liệu mất cân bằng, việc làm sạch và cân bằng cơ cở dữ liệu được thực hiện bằng cách sử dụng ngưỡng để loại bỏ các đối tượng kém chất lượng khỏi tập huấn luyện Các nghiên cứu trước đó còn chọn ngưỡng thủ công, chưa có phương pháp chọn ngưỡng tối ưu nhất
1.6.3 Các đề xuất của luận án
- Dựa trên sự thay đổi của xác suất có điều kiện, đề xuất phương pháp cập nhật các quyết định ba nhánh trong hệ thông tin không đầy đủ khi đồng thời thêm và xóa các đối tượng Từ đó đưa ra công thức cập nhật các quyết định ba nhánh khi giá trị thuộc tính của một đối tượng thay đổi
- Xuất phát từ dạng thứ ba của hàm thành viên thô được giới thiệu bởi Yang và các cộng sự [88] luận án đề xuất phương pháp cập nhật các tập xấp
xỉ phân cấp trong không gian xấp xỉ phủ động Ý tưởng chính của phương pháp này là khảo sát sự thay đổi của hàm thành viên thô dạng ba khi đồng thời thêm và xóa các đối tượng khỏi hệ thống, từ đó đưa ra công thức cập nhật các tập xấp xỉ phân cấp
- Cải tiến thuật toán trích chọn dữ liệu được nhóm tác giả Van Nguyen,
D [80] đề xuất để phù hợp hơn với các tập dữ liệu có độ mất cân bằng cao, đồng thời đề xuất thuật toán tối ưu hóa các ngưỡng dùng trong thuật toán
1.7 Kết luận Chương 1
Chương 1 đã trình bày, tổng quan các khái niệm cơ bản về mô hình tập thô trong hệ thông tin đầy đủ, mô hình tập thô dung sai, tập thô mờ, tập thô phủ và các quyết định ba nhánh Các khái niệm được trình bày khái quát, ngắn gọn, và có ví dụ minh họa Đây là công cụ nền tảng cho việc trình bày
đề xuất các lý thuyết mở rộng nội dung ở các chương tiếp theo
Trang 39Chương 2 CẬP NHẬT QUYẾT ĐỊNH BA NHÁNH TRONG HỆ THÔNG TIN
2.1 Bài toán cập nhật tăng cường các quyết định ba nhánh
Trên thực tế, các hệ thống thông tin có thể biến động theo thời gian, nghĩa là, một số thông tin mới sẽ thay thế một số thông tin không còn hữu ích
Do bảng thông tin trong tập thô bao gồm dữ liệu về các đối tượng, thuộc tính
và giá trị thuộc tính, nên các cách tiếp cận để cập nhật kiến thức chủ yếu được thảo luận về ba nhóm, đó là thay đổi tập đối tượng, thay đổi thuộc tính và thay đổi giá trị thuộc tính Do đó, cần phải phát triển một kỹ thuật học tập gia tăng
để khai thác cơ sở dữ liệu trong các trường hợp này Trong những năm gần đây, các kỹ thuật cập nhật tăng cường theo hai hướng chính Hướng đầu tiên dựa trên nền tảng lý thuyết tập thô nguyên thủy và tập thô dung sai cập nhật các tập xấp xỉ cập nhật các tập xấp xỉ (lower and upper approximation set) Hướng thứ hai là tính toán xu hướng thay đổi của xác suất để cập nhật các quyết định ba nhánh (three-way decision) khi tập đối tượng thay đổi
Quyết định ba nhánh được đề xuất bởi Yao [94, 95, 97], là mở rộng của các quyết định hai nhánh cổ điển, với nguyên lý ban đầu xuất phát từ miền dương, miền biên, và miền âm của tập thô Pawlak [61, 62]
Trang 40Giả sử 𝑈 là một tập hữu hạn khác rỗng và 𝐶 là tập hữu hạn các tiêu chí Bài toán quyết định ba nhánh là dựa trên tập tiêu chí 𝐶 chia 𝑈 thành ba miền dời nhau là miền dương 𝑃𝑂𝑆, miền âm 𝑁𝐸𝐺, và miền biên 𝐵𝑁𝐷 Bài toán quyết định ba nhánh là dựa trên một tập tiêu chí chia tập mục tiêu thành ba miền dời nhau là miền dương, miền biên và miền âm
Trong không gian xấp xỉ (𝑈, 𝐸𝑄 ), miền dương, miền biên và miền âm được xác định như sau:
𝑃𝑂𝑆( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) ≥ 𝛼 (2.1)
𝐵𝑁𝐷( , )(𝑋) = 𝑥 ∈ 𝑈 𝛽 < 𝑃𝑟 𝑋|𝐸 (𝑥) < 𝛼 (2.2) 𝑁𝐸𝐺( , )(𝑋) = 𝑥 ∈ 𝑈 𝑃𝑟 𝑋|𝐸 (𝑥) ≤ 𝛽 (2.3)
Từ ba miền đó thiết lập các quy trình quyết định ba nhánh cơ bản và xác định các luật dương, luật biên và luật âm, tương ứng Xét về phương diện luật, luật dương đưa ra quyết định chấp nhận, luật âm đưa ra quyết định từ chối và luật biên đưa ra quyết định không cam kết
2.1.1 Bài toán cập nhật tăng cường quyết định ba nhánh trong hệ thông tin đầy đủ
Khi hệ thông tin thay đổi các đối tượng, các thuộc tính hoặc các giá trị thuộc tính, kéo theo sự thay đổi của miền dương, miền biên và miền âm Khi
ba miền này thay đổi kéo theo sự thay đổi của các luật quyết định Khi đó, cần phải tính toán lại các miền ba nhánh để cập nhật các luật quyết định Vấn đề đặt ra là có thể dựa vào các miền ba nhánh có sẵn để cập nhật các miền mới nhằm giảm thời gian và công sức tính toán hay không
Trước tiên, các nhà nghiên cứu giải quyết bài toán trong hệ thông tin đầy đủ Điển hình của cách tiếp cận này là các nghiên cứu của Luo và các cộng sự [58] Họ đã đề xuất phương pháp cập nhật các quyết định ba nhánh, khi hệ thông tin được thêm một đối tượng mới Ý tưởng của phương pháp này như sau