Xuất phát từ thực tiễn nêu trên, luận án chọn “Nghiên cứu phát triển các phương pháp cập nhật bảng quyết định phủ động và xử lý mất cân bằng dữ liệu dựa trên tập thô mờ” với mong muốn đề
Trang 1-TRẦN THỊ THANH HUYỀN
NGHIÊN CỨU PHÁT TRIỂN CÁC PHƯƠNG PHÁP CẬP NHẬT BẢNG QUYẾT ĐỊNH PHỦ ĐỘNG VÀ XỬ LÝ MẤT CÂN BẰNG
DỮ LIỆU DỰA TRÊN TẬP THÔ MỜ
Ngành: Cơ sở toán học cho tin học
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2025
Trang 2VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
Người hướng dẫn khoa học:
1 PGS.TS Lê Bá Dũng
2 TS Nguyễn Đỗ Văn
Phản biện 1: GS TS Trần Xuân Tú
Đại học Quốc gia Hà Nội
Phản biện 2: PGS TS Nguyễn Linh Giang
Đại học Bách khoa Hà Nội
Phản biện 3: TS Thái Trung Kiên
Viện Khoa học và Công nghệ quân sự
Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấpViện, họp tại Viện Khoa học và Công nghệ quân sự vào hồi ……giờ…… ngày …… tháng …… năm 2025
Có thể tìm hiểu luận án tại:
- Thư viện Viện Khoa học và Công nghệ quân sự
- Thư viện Quốc gia Việt Nam.
Trang 3MỞ ĐẦU
1 Tính cấp thiết của đề tài luận án
Lý thuyết tập thô đóng vai trò quan trọng, là nền tảng trong tínhtoán hạt, trí tuệ nhân tạo, khai phá dữ liệu, khám phá tri thức, nhậndạng mẫu, hệ thống thông minh… Chính vì vậy lý thuyết tập thô đãnhận được sự quan tâm của đông đảo các nhà khoa học trong nước
và thế giới Trong các ứng dụng thực tế, dữ liệu trong một hệ thôngtin thường thay đổi không ngừng, vì thế các kỹ thuật được đề xuất đểkhai thác các cơ sở dữ liệu động Kỹ thuật này thường sử dụng cáckết quả khai thác thu được từ cơ sở dữ liệu đầu tiên để làm điều kiệnbảo trì và cập nhật lại các kiến thức trong cơ sở dữ liệu động màkhông cần khai thác lại từ đầu
- Đã có nhiều phương pháp cập nhật các quyết định ba nhánhđược đề xuất, tuy nhiên chúng chủ yếu được sử dụng trong hệ thôngtin đầy đủ, còn đối với hệ thống không hoàn chỉnh thì chỉ áp dụngtrong từng trường hợp đơn lẻ
- Các phương pháp cập nhật các tập xấp xỉ chủ yếu tiếp cận theohướng chia tập biên thành các tập biên trên và các tập biên dưới,hoặc dựa vào sự thay đổi của các ma trận
- Việc sử dụng tập thô mờ để xử lý bài toán mất cân bằng dữ liệutheo hướng sử dụng các ngưỡng khác nhau cho các lớp đa số và thiểu
số để chọn được nhiều đối tượng hơn từ các lớp thiểu số Tuy nhiên,việc chọn ngưỡng của phương pháp này vẫn thực hiện thủ công vìvậy chưa tối ưu
Xuất phát từ thực tiễn nêu trên, luận án chọn “Nghiên cứu phát triển các phương pháp cập nhật bảng quyết định phủ động và xử
lý mất cân bằng dữ liệu dựa trên tập thô mờ” với mong muốn đề
xuất phương pháp học tăng cường và cân bằng dữ liệu giúp tối ưuhóa thời gian và hiệu năng của mô hình
Trang 42 Mục tiêu nghiên cứu
Nghiên cứu, đề xuất cập nhật các quyết định ba nhánh đối với hệthông tin không đầy đủ; phương pháp cập nhật các tập xấp xỉ trongkhông gian xấp xỉ phủ động và phương pháp sử dụng tập thô mờ để cảithiện sự mất cân bằng của dữ liệu Thực nghiệm, đánh giá các kỹ thuật
đề xuất
3 Đối tượng và phạm vi nghiên cứu
Đối tượng luận án nghiên cứu là các bảng quyết định đầy đủ vàkhông đầy đủ với kích thước trung bình và kích thước lớn
Phạm vi nghiên cứu trọng tâm của luận án là bài toán cập nhậtcác tập xấp xỉ và các quyết định ba nhánh trong hệ thông tin khôngđầy đủ và bài toán ứng dụng tập thô vào tối ưu ngưỡng để giảm sựmất cân bằng của dữ liệu Đánh giá các kỹ thuật đề xuất với các bộ
số liệu lấy từ kho dữ liệu UCI
4 Nội dung nghiên cứu
Nghiên cứu, phân tích, đánh giá và đề xuất mới các phương phápcập nhật các quyết định ba nhánh và các tập xấp xỉ trong bảng quyếtđịnh không đầy đủ động Nghiên cứu, đề xuất phương pháp sử dụngtập thô mờ để làm giảm sự mất cân bằng dữ liệu
5 Phương pháp nghiên cứu:
Kết hợp nghiên cứu lý thuyết và thực nghiệm
6 Ý nghĩa khoa học và thực tiễn
Nghiên cứu chuyên sâu và có hệ thống về bài toán cập nhật giatăng đối với bảng quyết định không đầy đủ động và bài toán giảm sựmất cân bằng dữ liệu sử dụng tập thô mờ
7 Bố cục của luận án
Luận án gồm 04 chương cùng với các phần mở đầu, kết luận, danh mục các công trình khoa học đã được công bố của tác giả và danh mục tài liệu tham khảo
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ TẬP THÔ VÀ CÁC MỞ RỘNG
CỦA TẬP THÔ 1.1 Mô hình tập thô truyền thống
1.2 Tập thô dung sai
1.3 Tập thô mờ
1.4 Quyết định ba nhánh
1.5 Tập thô phủ
1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết
- Dựa trên sự thay đổi của xác suất có điều kiện, đề xuất phươngpháp cập nhật các quyết định ba nhánh trong hệ thông tin không đầy
đủ khi đồng thời thêm và xóa các đối tượng Từ đó đưa ra công thứccập nhật các quyết định ba nhánh khi giá trị thuộc tính của một đốitượng thay đổi
- Xuất phát từ dạng thứ ba của hàm thành viên thô được giớithiệu bởi Yang và các cộng sự luận án đề xuất phương pháp cập nhậtcác tập xấp xỉ phân cấp trong không gian xấp xỉ phủ động Ý tưởngchính của phương pháp này là khảo sát sự thay đổi của hàm thànhviên thô dạng ba khi đồng thời thêm và xóa các đối tượng khỏi hệthống, từ đó đưa ra công thức cập nhật các tập xấp xỉ phân cấp
- Cải tiến thuật toán trích chọn dữ liệu được nhóm tác giả VanNguyen, D đề xuất để phù hợp hơn với các tập dữ liệu có độ mất cânbằng cao, đồng thời đề xuất thuật toán tối ưu hóa các ngưỡng dùngtrong thuật toán
1.7 Kết luận chương 1
Chương 1 đã trình bày, tổng quan các khái niệm cơ bản về mô hìnhtập thô trong hệ thông tin đầy đủ, các mở rộng của tập thô và các quyếtđịnh ba nhánh Các khái niệm được trình bày khái quát, ngắn gọn, và có
ví dụ minh họa Đây là công cụ nền tảng cho việc trình bày đề xuất các
lý thuyết mở rộng nội dung ở các chương tiếp theo
Trang 6CHƯƠNG 2 CẬP NHẬT QUYẾT ĐỊNH BA NHÁNH TRONG
HỆ THÔNG TIN KHÔNG ĐẦY ĐỦ ĐỘNG
Chương này trình bày đề xuất của luận án về cập nhật các quyếtđịnh ba nhánh khi hệ thông tin không đầy đủ biến động theo thời gian.Trước tiên luận án sẽ trình bày vắn tắt về các hướng nghiên cứu trênthế giới về cập nhật các quyết định ba nhánh trong hệ thông tin động
và chỉ ra vấn đề cần cải tiến trong các phương pháp này Tiếp theo,luận án trình bày đề xuất phương pháp cập nhật các quyết định banhánh trong hệ thông tin không đầy đủ Phương pháp đề xuất đượcchứng minh tính đúng đắn bằng mô hình toán học và ví dụ minh họa.Các kết quả đã được công bố trong [CT1] và [CT4]
2.1 Bài toán cập nhật tăng cường các quyết định ba nhánh
Khi hệ thông tin thay đổi các đối tượng, các thuộc tính hoặc cácgiá trị thuộc tính, kéo theo sự thay đổi của miền dương, miền biên vàmiền âm Khi ba miền này thay đổi kéo theo sự thay đổi của các luậtquyết định Khi đó, cần phải tính toán lại các miền ba nhánh để cậpnhật các luật quyết định Vấn đề đặt ra là có thể dựa vào các miền banhánh có sẵn để cập nhât các miền mới nhằm giảm thời gian và côngsức tính toán hay không
2.2 Khảo sát xu hướng thay đổi của xác suất có điều kiện
2.2.1 Sự thay đổi của các xác suất có điều kiện khi tập đối tượng thay đổi
Khi đồng thời thêm đối tượng x và xóa đối tượng x, các lớpdung sai và các lớp quyết định được cập nhật như sau:
Mệnh đề 2.1 Xét hệ thông tin tại thời điểmt,
IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)), khi đồng thời thêm đối tượng x vàxóa đối tượng x thì
Trang 7Trong công thức trên, có một trường hợp là đối tượng x được thêm
vào không thuộc bất kỳ một lớp dung sai hay lớp quyết định sẵn có nào
Trong trường hợp đó, x sẽ được coi là một lớp mới, tương ứng
Định lý 2.1 Xét hệ thông tin IIS(t)=(U(t),C(t)∪ D(t),V(t), f(t)),và
IIS(t+1 )=(U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm t và t+1
Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đối
tượng này thỏa mãn một trong các điều kiện sau:
(i): ( x ∉TP(t i+1 )∧ x ∉ D(j t+1 )) ∧ ( x ∉T(P t i)∧ x ∉ D(j t)) ;
(ii): ( x ∉T(P t+1 )∧ x ∉ D(j t+1 )) ∧ ( x ∉TP(t)∧ x ∈ D(j t)) ;
Trang 8Định lý 2.2 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và
IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm t và t +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:
Định lý 2.3 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và
IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm t và t +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:
Khi giá trị thuộc tính điều kiện của đối tượng xk thay đổi, các lớp
dung sai được cập nhật như sau:
Trang 9Tại thời điểm t +1, nếu xk không thuộc bất kỳ một lớp dung sai
định sẵn có nào thì coi xk là một lớp mới.
Mệnh đề 2.2 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong
đó U = { x1; x2; …; xn} , P ⊆ A , X ⊆U ,TORP là quan hệ dung sai
trên P Giả sử tồn tại xk∈U sao cho giá trị thuộc tính điều kiện của
xk thay đổi trên thuộc tính al∈C từ thời điểm t đến thời điểm t +1,tức là, al( xk)(t+1 )≠ al( xk)(t)
Khi đóNếu xk∉T(P t)i∧ xk∉T(P t+1i )
thì Pr (t +1)=Pr (t ).Nếu
Trang 10Khi giá trị thuộc tính quyết định của đối tượng xk thay đổi, các
lớp quyết định được cập nhật như sau:
Mệnh đề 2.3 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong
đó U = { x1; x2; …; xn} , P ⊆ A ,TORP là quan hệ dung sai trên P.Giả sử giá trị thuộc tính quyết định của xk thay đổi trên thuộc tính
al∈C từ thời điểm t đến thời điểm t +1, tức là, d ( xk)(t+1 )≠ d ( xk)(t)
.Khi đó
Trang 11của một đối tượng cùng thay đổi
Giả sử tại thời điểm t +1, cả giá trị thuộc tính điều kiện và giátrị thuộc tính quyết định của đối tượng xk thay đổi, các lớp dung sai
và quyết định được cập nhật như sau:
Khi đối tượng xkđồng thời thay đổi giá trị thuộc tính điều kiện và
giá trị thuộc tính quyết định, có một trường hợp mà giá trị thuộc tínhmới của đối tượng xk không thuộc về bất kỳ lớp dung sai hoặc lớp
quyết định hiện có nào Trong trường hợp này, xksẽ tạo thành một
Trang 12lớp mới, tương ứng.
Mệnh đề 2.4 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong
đó U = { x1; x2; …; xn} , P ⊆ A ,TORP là quan hệ dung sai trên P.Giả sử tồn tại xk∈U , al∈C và d ∈ D để al( xk)(t+1 )≠ al( xk)(t)
và
d ( xk)(t+1 )≠ d ( xk)(t)
Khi đóNếu
2.3 Cập nhật quyết định ba nhánh dưới sự thay đổi của xác suất có điều kiện
Mệnh đề 2.5 Giả sử rằng tại thời điểm t +1, các xác suất có điềukiện giảm, tức là Pr (t +1)<Pr (t ) Khi đó
Trang 13∆2= { x ∈ POS(α , β)( X )(t)| x ∈T(P t i)∧ Pr ( X ∨T(P t+1i )) ≥ α }.
BND(α , β)( X )(t+1 )= { BND(α , β)( X )(t)∪ ∆3
BND(α , β)( X )(t)∪ ∆4BND(α , β)( X )(t)−∆5
Trang 14∆ '2= { x ∈ BND(α , β)( X )(t)| x ∈TP(t i)∧ Pr ( X ∨TP(t i+1 )) ≥ α }.
∆ '3= { x ∈¬ ¿(α , β)( X )(t)¿ x ∈T(P t i)∧ Pr ( X ∨T(P t+1i )) ≥ α }
BND(α , β)( X )(t+1 )= { BND(α , β)( X )(t)−∆ '4
BND(α , β)( X )(t)∪ ∆ '5BND(α , β)( X )(t)∪ ∆ '6
2.4 Đề xuất phương pháp cập nhật các quyết định ba nhánh
Xét hệ thông tin không đầy đủ IIS =(U , A ,V , f ), khi cần tínhtoán các miền ba nhánh cần thực hiện các bước sau :
Bước 1: Dựa trên quan hệ dung sai, phân lớp các đối tượng, đồngthời phân hoạch các lớp quyết định
Bước 2: Đối với mỗi lớp quyết định, tính toán các xác suất cóđiều kiện với từng lớp dung sai
Bước 3: So sánh các xác suất với cặp ngưỡng cho trước để xácđịnh miền dương, miền biên và miền âm
Giả sử tại thời điểm t+1 tập đối tượng thay đổi hoặc giá trịthuộc tính của đối tượng thay đổi Khi đó, như đã trình bày ở phần
Trang 152.2 và 2.3, sự thay đổi thay này sẽ dẫn tới sự thay đổi của xác suất cóđiều kiện Từ đó các miền ba nhánh cũng thay đổi theo Để giảm thờigian và công sức tính toán, phương pháp cập nhật các quyết định banhánh được đề xuất như sau :
Bước 1: Tại thời điểm t +1,cập nhật các lớp dung sai và các lớpquyết định dựa trên các lớp dung sai và lớp quyết định có sẵn tại thờiđiểm t Chọn ra những lớp dung sai có sự thay đổi so với thời điểm t
CHƯƠNG 3 CẬP NHẬT TẬP XẤP XỈ TRONG KHÔNG GIAN XẤP XỈ
PHỦ ĐỘNG
Chương 3 trình bày các nghiên cứu của luận án về không gianxấp xỉ phủ động Trước tiên luận án trình bày khảo sát về hàm thànhviên thô và các tập xấp xỉ phân cấp trong không gian xấp xỉ phủtrong mục 3.1 Sau đó trình bày đề xuất của luận án về cập nhật bảngquyết định phủ động Cuối cùng luận án trình bày một ví dụ để minhhọa cho phương pháp này Các kết quả được công bố trong [CT2]
Trang 163.1 Khảo sát về hàm thành viên thô và các tập xấp xỉ phân bậc trong không gian xấp xỉ phủ
3.1.1 Hàm thành viên thô
3.1.2 Các tập xấp xỉ phân bậc
3.1.3 Khảo sát các phương pháp cập nhật các tập xấp xỉ phân bậc
3.1.4 Nhận xét
Ta nhận thấy rằng, đối với bảng quyết định không đầy đủ
IIS =(U ,C ∪ D ,V , f ) với P ⊆C , thì CP= { TP( x) | x ∈U } là mộtphủ đặc trưng đặc biệt của U Vì vậy hoàn toàn có thể xây dựng môhình tập thô phân bậc dựa trên phủ này đối với các hệ thông tin có dữliệu không đầy đủ Do đó, có thể đề xuất một phương pháp cập nhậtcác tập xấp xỉ phân cấp dựa trên việc tính toán sự thay đổi của hàmthành viên thô dạng ba
Ngoài ra, đối với các tập xấp xỉ phân bậc trong hệ thông tin động,các phương pháp cập nhật chúng chủ yếu dựa trên ma trận ma trậnđặc trưng, hoặc ma trận quan hệ tương đương
Lấy cảm hứng từ điều này, luận án đề xuất một phương pháp để cậpnhật các tập xấp xỉ phân cấp dựa trên hàm thành viên thô dạng ba.Phương pháp này được công bố trong [CT2]
3.2 Đề xuất phương pháp cập nhật tập xấp xỉ
Xét bảng quyết định không đầy đủ IIS =(U ,C ∪ D ,V , f ) với
P ⊆C , khi đó CP= { TP( x) | x ∈U } là một phủ đặc trưng đặc biệt của
U
Tại thời điểm t, khi tập đối tượng không thay đổi, hệ thông tinđược ký hiệu là IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)) Khi đồng thời thêmđối tượng x và xóa đối tượng x vào tập U, ta ký hiệu hệ thông tin tạithời điểm này là IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 ))
3.2.1 Xu hướng thay đổi của hàm thành viên thô dạng ba
Để đơn giản ta ký hiệu dạng thứ ba của hàm thành viên thô tại
Trang 17thời điểm t là V (t ) và tại thời điểm t +1 là V (t +1).
Định lý 3.1 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và
IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm t và t +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:
Trang 18Định lý 3.2 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và
IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm t và t +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:
Trang 19Định lý 3.3 Giả sử tại thời điểm t và t +1 dạng thứ ba của hàmthành viên thô không đổi, tức là, V (t +1)=V (t ), thì
Trang 20và ∆ '4= { x | V( X)( x)≤ ρ }.
3.2.3 Đề xuất phương pháp cập nhật các tập xấp xỉ
Xét hệ thông tin không đầy đủ IIS =(U , A ,V , f ), khi cần tínhtoán các tập xấp xỉ phân cấp cần thực hiện các bước sau :
Bước 1: Phân lớp dữ liệu dựa trên quan hệ dung sai.
Bước 2: Tính hàm thành viên thô dạng ba của mỗi lớp.
Bước 3: So sánh với ngưỡng để thu được các tập xấp xỉ phân cấp.
Giả sử tại thời điểm t +1 tập đối tượng thay đổi khi đồng thờithêm và xóa các đối tượng Để giảm thời gian và công sức tính toán,phương pháp cập nhật các tập xấp xỉ được đề xuất như sau :
Bước 1: Tại thời điểm t +1,cập nhật các lớp dung sai dựa trêncác lớp dung sai có sẵn tại thời điểm t Chọn ra những lớp dung sai
có sự thay đổi so với thời điểm t
Bước 2: Tính toán lại hàm thành viên thô dạng 3 đối với các lớp
Bước 2: Chỉ tính các hàm thành viên thô dạng ba đối với các lớpliên quan đến đối tượng xóa đi và đối tượng thêm vào vừa khảo sátđược ở bước 1
Bước 3: So sánh lại các hàm thành viên thô vừa tính ở bước 2với ngưỡng để cập nhật các tập xấp xỉ phân cấp
3.3 Ví dụ minh họa
3.4 Kết luận chương 3
Chương 3 đã trình bày phương pháp đánh giá sự thay đổi củahàm thành viên thô dạng ba khi tập đối tượng thay đổi do đồng thờithêm và xóa các đối tượng Chương 3 cũng trình bày công thức cậpnhật các tập xấp xỉ phân cấp dựa trên xu hướng thay đổi của hàmthành viên thô dạng ba Đồng thời chứng minh tính đúng đắn củaphương pháp bằng mô hình toán học và trình bày một ví dụ để minh