1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tomtat Luanan NGHIÊN CỨU PHÁT TRIỂN CÁC PHƯƠNG PHÁP CẬP NHẬT BẢNG QUYẾT ĐỊNH PHỦ ĐỘNG VÀ XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU DỰA TRÊN TẬP THÔ MỜ

28 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Các Phương Pháp Cập Nhật Bảng Quyết Định Phủ Động Và Xử Lý Mất Cân Bằng Dữ Liệu Dựa Trên Tập Thô Mờ
Tác giả Trần Thị Thanh Huyền
Người hướng dẫn PGS.TS Lê Bá Dũng, TS Nguyễn Đỗ Văn
Trường học Viện Khoa học và Công nghệ Quân sự
Chuyên ngành Cơ sở toán học cho tin học
Thể loại Luận án tiến sĩ
Năm xuất bản 2025
Thành phố Hà Nội
Định dạng
Số trang 28
Dung lượng 108,82 KB

Nội dung

Xuất phát từ thực tiễn nêu trên, luận án chọn “Nghiên cứu phát triển các phương pháp cập nhật bảng quyết định phủ động và xử lý mất cân bằng dữ liệu dựa trên tập thô mờ” với mong muốn đề

Trang 1

-TRẦN THỊ THANH HUYỀN

NGHIÊN CỨU PHÁT TRIỂN CÁC PHƯƠNG PHÁP CẬP NHẬT BẢNG QUYẾT ĐỊNH PHỦ ĐỘNG VÀ XỬ LÝ MẤT CÂN BẰNG

DỮ LIỆU DỰA TRÊN TẬP THÔ MỜ

Ngành: Cơ sở toán học cho tin học

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2025

Trang 2

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

Người hướng dẫn khoa học:

1 PGS.TS Lê Bá Dũng

2 TS Nguyễn Đỗ Văn

Phản biện 1: GS TS Trần Xuân Tú

Đại học Quốc gia Hà Nội

Phản biện 2: PGS TS Nguyễn Linh Giang

Đại học Bách khoa Hà Nội

Phản biện 3: TS Thái Trung Kiên

Viện Khoa học và Công nghệ quân sự

Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấpViện, họp tại Viện Khoa học và Công nghệ quân sự vào hồi ……giờ…… ngày …… tháng …… năm 2025

Có thể tìm hiểu luận án tại:

- Thư viện Viện Khoa học và Công nghệ quân sự

- Thư viện Quốc gia Việt Nam.

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của đề tài luận án

Lý thuyết tập thô đóng vai trò quan trọng, là nền tảng trong tínhtoán hạt, trí tuệ nhân tạo, khai phá dữ liệu, khám phá tri thức, nhậndạng mẫu, hệ thống thông minh… Chính vì vậy lý thuyết tập thô đãnhận được sự quan tâm của đông đảo các nhà khoa học trong nước

và thế giới Trong các ứng dụng thực tế, dữ liệu trong một hệ thôngtin thường thay đổi không ngừng, vì thế các kỹ thuật được đề xuất đểkhai thác các cơ sở dữ liệu động Kỹ thuật này thường sử dụng cáckết quả khai thác thu được từ cơ sở dữ liệu đầu tiên để làm điều kiệnbảo trì và cập nhật lại các kiến thức trong cơ sở dữ liệu động màkhông cần khai thác lại từ đầu

- Đã có nhiều phương pháp cập nhật các quyết định ba nhánhđược đề xuất, tuy nhiên chúng chủ yếu được sử dụng trong hệ thôngtin đầy đủ, còn đối với hệ thống không hoàn chỉnh thì chỉ áp dụngtrong từng trường hợp đơn lẻ

- Các phương pháp cập nhật các tập xấp xỉ chủ yếu tiếp cận theohướng chia tập biên thành các tập biên trên và các tập biên dưới,hoặc dựa vào sự thay đổi của các ma trận

- Việc sử dụng tập thô mờ để xử lý bài toán mất cân bằng dữ liệutheo hướng sử dụng các ngưỡng khác nhau cho các lớp đa số và thiểu

số để chọn được nhiều đối tượng hơn từ các lớp thiểu số Tuy nhiên,việc chọn ngưỡng của phương pháp này vẫn thực hiện thủ công vìvậy chưa tối ưu

Xuất phát từ thực tiễn nêu trên, luận án chọn “Nghiên cứu phát triển các phương pháp cập nhật bảng quyết định phủ động và xử

lý mất cân bằng dữ liệu dựa trên tập thô mờ” với mong muốn đề

xuất phương pháp học tăng cường và cân bằng dữ liệu giúp tối ưuhóa thời gian và hiệu năng của mô hình

Trang 4

2 Mục tiêu nghiên cứu

Nghiên cứu, đề xuất cập nhật các quyết định ba nhánh đối với hệthông tin không đầy đủ; phương pháp cập nhật các tập xấp xỉ trongkhông gian xấp xỉ phủ động và phương pháp sử dụng tập thô mờ để cảithiện sự mất cân bằng của dữ liệu Thực nghiệm, đánh giá các kỹ thuật

đề xuất

3 Đối tượng và phạm vi nghiên cứu

Đối tượng luận án nghiên cứu là các bảng quyết định đầy đủ vàkhông đầy đủ với kích thước trung bình và kích thước lớn

Phạm vi nghiên cứu trọng tâm của luận án là bài toán cập nhậtcác tập xấp xỉ và các quyết định ba nhánh trong hệ thông tin khôngđầy đủ và bài toán ứng dụng tập thô vào tối ưu ngưỡng để giảm sựmất cân bằng của dữ liệu Đánh giá các kỹ thuật đề xuất với các bộ

số liệu lấy từ kho dữ liệu UCI

4 Nội dung nghiên cứu

Nghiên cứu, phân tích, đánh giá và đề xuất mới các phương phápcập nhật các quyết định ba nhánh và các tập xấp xỉ trong bảng quyếtđịnh không đầy đủ động Nghiên cứu, đề xuất phương pháp sử dụngtập thô mờ để làm giảm sự mất cân bằng dữ liệu

5 Phương pháp nghiên cứu:

Kết hợp nghiên cứu lý thuyết và thực nghiệm

6 Ý nghĩa khoa học và thực tiễn

Nghiên cứu chuyên sâu và có hệ thống về bài toán cập nhật giatăng đối với bảng quyết định không đầy đủ động và bài toán giảm sựmất cân bằng dữ liệu sử dụng tập thô mờ

7 Bố cục của luận án

Luận án gồm 04 chương cùng với các phần mở đầu, kết luận, danh mục các công trình khoa học đã được công bố của tác giả và danh mục tài liệu tham khảo

Trang 5

CHƯƠNG 1 TỔNG QUAN VỀ TẬP THÔ VÀ CÁC MỞ RỘNG

CỦA TẬP THÔ 1.1 Mô hình tập thô truyền thống

1.2 Tập thô dung sai

1.3 Tập thô mờ

1.4 Quyết định ba nhánh

1.5 Tập thô phủ

1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết

- Dựa trên sự thay đổi của xác suất có điều kiện, đề xuất phươngpháp cập nhật các quyết định ba nhánh trong hệ thông tin không đầy

đủ khi đồng thời thêm và xóa các đối tượng Từ đó đưa ra công thứccập nhật các quyết định ba nhánh khi giá trị thuộc tính của một đốitượng thay đổi

- Xuất phát từ dạng thứ ba của hàm thành viên thô được giớithiệu bởi Yang và các cộng sự luận án đề xuất phương pháp cập nhậtcác tập xấp xỉ phân cấp trong không gian xấp xỉ phủ động Ý tưởngchính của phương pháp này là khảo sát sự thay đổi của hàm thànhviên thô dạng ba khi đồng thời thêm và xóa các đối tượng khỏi hệthống, từ đó đưa ra công thức cập nhật các tập xấp xỉ phân cấp

- Cải tiến thuật toán trích chọn dữ liệu được nhóm tác giả VanNguyen, D đề xuất để phù hợp hơn với các tập dữ liệu có độ mất cânbằng cao, đồng thời đề xuất thuật toán tối ưu hóa các ngưỡng dùngtrong thuật toán

1.7 Kết luận chương 1

Chương 1 đã trình bày, tổng quan các khái niệm cơ bản về mô hìnhtập thô trong hệ thông tin đầy đủ, các mở rộng của tập thô và các quyếtđịnh ba nhánh Các khái niệm được trình bày khái quát, ngắn gọn, và có

ví dụ minh họa Đây là công cụ nền tảng cho việc trình bày đề xuất các

lý thuyết mở rộng nội dung ở các chương tiếp theo

Trang 6

CHƯƠNG 2 CẬP NHẬT QUYẾT ĐỊNH BA NHÁNH TRONG

HỆ THÔNG TIN KHÔNG ĐẦY ĐỦ ĐỘNG

Chương này trình bày đề xuất của luận án về cập nhật các quyếtđịnh ba nhánh khi hệ thông tin không đầy đủ biến động theo thời gian.Trước tiên luận án sẽ trình bày vắn tắt về các hướng nghiên cứu trênthế giới về cập nhật các quyết định ba nhánh trong hệ thông tin động

và chỉ ra vấn đề cần cải tiến trong các phương pháp này Tiếp theo,luận án trình bày đề xuất phương pháp cập nhật các quyết định banhánh trong hệ thông tin không đầy đủ Phương pháp đề xuất đượcchứng minh tính đúng đắn bằng mô hình toán học và ví dụ minh họa.Các kết quả đã được công bố trong [CT1] và [CT4]

2.1 Bài toán cập nhật tăng cường các quyết định ba nhánh

Khi hệ thông tin thay đổi các đối tượng, các thuộc tính hoặc cácgiá trị thuộc tính, kéo theo sự thay đổi của miền dương, miền biên vàmiền âm Khi ba miền này thay đổi kéo theo sự thay đổi của các luậtquyết định Khi đó, cần phải tính toán lại các miền ba nhánh để cậpnhật các luật quyết định Vấn đề đặt ra là có thể dựa vào các miền banhánh có sẵn để cập nhât các miền mới nhằm giảm thời gian và côngsức tính toán hay không

2.2 Khảo sát xu hướng thay đổi của xác suất có điều kiện

2.2.1 Sự thay đổi của các xác suất có điều kiện khi tập đối tượng thay đổi

Khi đồng thời thêm đối tượng x và xóa đối tượng x, các lớpdung sai và các lớp quyết định được cập nhật như sau:

Mệnh đề 2.1 Xét hệ thông tin tại thời điểmt,

IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)), khi đồng thời thêm đối tượng x vàxóa đối tượng x thì

Trang 7

Trong công thức trên, có một trường hợp là đối tượng x được thêm

vào không thuộc bất kỳ một lớp dung sai hay lớp quyết định sẵn có nào

Trong trường hợp đó, x sẽ được coi là một lớp mới, tương ứng

Định lý 2.1 Xét hệ thông tin IIS(t)=(U(t),C(t)∪ D(t),V(t), f(t)),và

IIS(t+1 )=(U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm tt+1

Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đối

tượng này thỏa mãn một trong các điều kiện sau:

(i): ( x ∉TP(t i+1 )∧ x ∉ D(j t+1 )) ( x ∉T(P t i)∧ x ∉ D(j t)) ;

(ii): ( x ∉T(P t+1 )∧ x ∉ D(j t+1 )) ( x ∉TP(t)∧ x ∈ D(j t)) ;

Trang 8

Định lý 2.2 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và

IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm tt +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:

Định lý 2.3 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và

IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm tt +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:

Khi giá trị thuộc tính điều kiện của đối tượng xk thay đổi, các lớp

dung sai được cập nhật như sau:

Trang 9

Tại thời điểm t +1, nếu xk không thuộc bất kỳ một lớp dung sai

định sẵn có nào thì coi xk là một lớp mới.

Mệnh đề 2.2 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong

đó U = { x1; x2; …; xn} , P ⊆ A , X ⊆U ,TORP là quan hệ dung sai

trên P Giả sử tồn tại xk∈U sao cho giá trị thuộc tính điều kiện của

xk thay đổi trên thuộc tính al∈C từ thời điểm t đến thời điểm t +1,tức là, al( xk)(t+1 )≠ al( xk)(t)

Khi đóNếu xk∉T(P t)i∧ xk∉T(P t+1i )

thì Pr (t +1)=Pr (t ).Nếu

Trang 10

Khi giá trị thuộc tính quyết định của đối tượng xk thay đổi, các

lớp quyết định được cập nhật như sau:

Mệnh đề 2.3 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong

đó U = { x1; x2; …; xn} , P ⊆ A ,TORP là quan hệ dung sai trên P.Giả sử giá trị thuộc tính quyết định của xk thay đổi trên thuộc tính

al∈C từ thời điểm t đến thời điểm t +1, tức là, d ( xk)(t+1 )≠ d ( xk)(t)

.Khi đó

Trang 11

của một đối tượng cùng thay đổi

Giả sử tại thời điểm t +1, cả giá trị thuộc tính điều kiện và giátrị thuộc tính quyết định của đối tượng xk thay đổi, các lớp dung sai

và quyết định được cập nhật như sau:

Khi đối tượng xkđồng thời thay đổi giá trị thuộc tính điều kiện và

giá trị thuộc tính quyết định, có một trường hợp mà giá trị thuộc tínhmới của đối tượng xk không thuộc về bất kỳ lớp dung sai hoặc lớp

quyết định hiện có nào Trong trường hợp này, xksẽ tạo thành một

Trang 12

lớp mới, tương ứng.

Mệnh đề 2.4 Xét hệ thông tin IIS =(U , A=C ∪ D ,V , f )trong

đó U = { x1; x2; …; xn} , P ⊆ A ,TORP là quan hệ dung sai trên P.Giả sử tồn tại xk∈U , al∈Cd ∈ D để al( xk)(t+1 )≠ al( xk)(t)

d ( xk)(t+1 )≠ d ( xk)(t)

Khi đóNếu

2.3 Cập nhật quyết định ba nhánh dưới sự thay đổi của xác suất có điều kiện

Mệnh đề 2.5 Giả sử rằng tại thời điểm t +1, các xác suất có điềukiện giảm, tức là Pr (t +1)<Pr (t ) Khi đó

Trang 13

2= { x ∈ POS(α , β)( X )(t)| x ∈T(P t i)∧ Pr ( X ∨T(P t+1i )) ≥ α }.

BND(α , β)( X )(t+1 )= { BND(α , β)( X )(t)∪ ∆3

BND(α , β)( X )(t)∪ ∆4BND(α , β)( X )(t)−∆5

Trang 14

∆ '2= { x ∈ BND(α , β)( X )(t)| x ∈TP(t i)∧ Pr ( X ∨TP(t i+1 )) ≥ α }.

∆ '3= { x ∈¬ ¿(α , β)( X )(t)¿ x ∈T(P t i)∧ Pr ( X ∨T(P t+1i )) ≥ α }

BND(α , β)( X )(t+1 )= { BND(α , β)( X )(t)−∆ '4

BND(α , β)( X )(t)∪ ∆ '5BND(α , β)( X )(t)∪ ∆ '6

2.4 Đề xuất phương pháp cập nhật các quyết định ba nhánh

Xét hệ thông tin không đầy đủ IIS =(U , A ,V , f ), khi cần tínhtoán các miền ba nhánh cần thực hiện các bước sau :

Bước 1: Dựa trên quan hệ dung sai, phân lớp các đối tượng, đồngthời phân hoạch các lớp quyết định

Bước 2: Đối với mỗi lớp quyết định, tính toán các xác suất cóđiều kiện với từng lớp dung sai

Bước 3: So sánh các xác suất với cặp ngưỡng cho trước để xácđịnh miền dương, miền biên và miền âm

Giả sử tại thời điểm t+1 tập đối tượng thay đổi hoặc giá trịthuộc tính của đối tượng thay đổi Khi đó, như đã trình bày ở phần

Trang 15

2.2 và 2.3, sự thay đổi thay này sẽ dẫn tới sự thay đổi của xác suất cóđiều kiện Từ đó các miền ba nhánh cũng thay đổi theo Để giảm thờigian và công sức tính toán, phương pháp cập nhật các quyết định banhánh được đề xuất như sau :

Bước 1: Tại thời điểm t +1,cập nhật các lớp dung sai và các lớpquyết định dựa trên các lớp dung sai và lớp quyết định có sẵn tại thờiđiểm t Chọn ra những lớp dung sai có sự thay đổi so với thời điểm t

CHƯƠNG 3 CẬP NHẬT TẬP XẤP XỈ TRONG KHÔNG GIAN XẤP XỈ

PHỦ ĐỘNG

Chương 3 trình bày các nghiên cứu của luận án về không gianxấp xỉ phủ động Trước tiên luận án trình bày khảo sát về hàm thànhviên thô và các tập xấp xỉ phân cấp trong không gian xấp xỉ phủtrong mục 3.1 Sau đó trình bày đề xuất của luận án về cập nhật bảngquyết định phủ động Cuối cùng luận án trình bày một ví dụ để minhhọa cho phương pháp này Các kết quả được công bố trong [CT2]

Trang 16

3.1 Khảo sát về hàm thành viên thô và các tập xấp xỉ phân bậc trong không gian xấp xỉ phủ

3.1.1 Hàm thành viên thô

3.1.2 Các tập xấp xỉ phân bậc

3.1.3 Khảo sát các phương pháp cập nhật các tập xấp xỉ phân bậc

3.1.4 Nhận xét

Ta nhận thấy rằng, đối với bảng quyết định không đầy đủ

IIS =(U ,C ∪ D ,V , f ) với P ⊆C , thì CP= { TP( x) | x ∈U } là mộtphủ đặc trưng đặc biệt của U Vì vậy hoàn toàn có thể xây dựng môhình tập thô phân bậc dựa trên phủ này đối với các hệ thông tin có dữliệu không đầy đủ Do đó, có thể đề xuất một phương pháp cập nhậtcác tập xấp xỉ phân cấp dựa trên việc tính toán sự thay đổi của hàmthành viên thô dạng ba

Ngoài ra, đối với các tập xấp xỉ phân bậc trong hệ thông tin động,các phương pháp cập nhật chúng chủ yếu dựa trên ma trận ma trậnđặc trưng, hoặc ma trận quan hệ tương đương

Lấy cảm hứng từ điều này, luận án đề xuất một phương pháp để cậpnhật các tập xấp xỉ phân cấp dựa trên hàm thành viên thô dạng ba.Phương pháp này được công bố trong [CT2]

3.2 Đề xuất phương pháp cập nhật tập xấp xỉ

Xét bảng quyết định không đầy đủ IIS =(U ,C ∪ D ,V , f ) với

P ⊆C , khi đó CP= { TP( x) | x ∈U } là một phủ đặc trưng đặc biệt của

U

Tại thời điểm t, khi tập đối tượng không thay đổi, hệ thông tinđược ký hiệu là IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)) Khi đồng thời thêmđối tượng x và xóa đối tượng x vào tập U, ta ký hiệu hệ thông tin tạithời điểm này là IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 ))

3.2.1 Xu hướng thay đổi của hàm thành viên thô dạng ba

Để đơn giản ta ký hiệu dạng thứ ba của hàm thành viên thô tại

Trang 17

thời điểm tV (t ) và tại thời điểm t +1 là V (t +1).

Định lý 3.1 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và

IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm tt +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:

Trang 18

Định lý 3.2 Xét hệ thông tin IIS(t)= ( U(t),C(t)∪ D(t),V(t), f(t)),và

IIS(t+1 )= ( U(t+1 ),C(t+1 )∪ D(t+1 ),V(t+1 ), f(t+1 )) tại thời điểm tt +1.Giả sử đồng thời thêm đối tượng x và xóa đối tượng x và các đốitượng này thỏa mãn một trong các điều kiện sau:

Trang 19

Định lý 3.3 Giả sử tại thời điểm tt +1 dạng thứ ba của hàmthành viên thô không đổi, tức là, V (t +1)=V (t ), thì

Trang 20

∆ '4= { x | V( X)( x)≤ ρ }.

3.2.3 Đề xuất phương pháp cập nhật các tập xấp xỉ

Xét hệ thông tin không đầy đủ IIS =(U , A ,V , f ), khi cần tínhtoán các tập xấp xỉ phân cấp cần thực hiện các bước sau :

Bước 1: Phân lớp dữ liệu dựa trên quan hệ dung sai.

Bước 2: Tính hàm thành viên thô dạng ba của mỗi lớp.

Bước 3: So sánh với ngưỡng để thu được các tập xấp xỉ phân cấp.

Giả sử tại thời điểm t +1 tập đối tượng thay đổi khi đồng thờithêm và xóa các đối tượng Để giảm thời gian và công sức tính toán,phương pháp cập nhật các tập xấp xỉ được đề xuất như sau :

Bước 1: Tại thời điểm t +1,cập nhật các lớp dung sai dựa trêncác lớp dung sai có sẵn tại thời điểm t Chọn ra những lớp dung sai

có sự thay đổi so với thời điểm t

Bước 2: Tính toán lại hàm thành viên thô dạng 3 đối với các lớp

Bước 2: Chỉ tính các hàm thành viên thô dạng ba đối với các lớpliên quan đến đối tượng xóa đi và đối tượng thêm vào vừa khảo sátđược ở bước 1

Bước 3: So sánh lại các hàm thành viên thô vừa tính ở bước 2với ngưỡng để cập nhật các tập xấp xỉ phân cấp

3.3 Ví dụ minh họa

3.4 Kết luận chương 3

Chương 3 đã trình bày phương pháp đánh giá sự thay đổi củahàm thành viên thô dạng ba khi tập đối tượng thay đổi do đồng thờithêm và xóa các đối tượng Chương 3 cũng trình bày công thức cậpnhật các tập xấp xỉ phân cấp dựa trên xu hướng thay đổi của hàmthành viên thô dạng ba Đồng thời chứng minh tính đúng đắn củaphương pháp bằng mô hình toán học và trình bày một ví dụ để minh

Ngày đăng: 21/01/2025, 07:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w