Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ Fuzzy Rough Set - FRS nhằm nâng cao độ ch
Trang 1RÚT G ỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN
Trần Thanh Đại 1 , Nguyễn Long Giang 2 , Hoàng Thị Minh Châu 3 , Trần Thị Ngân 4
1 Trường Đại học Kinh tế Kỹ thuật Công nghiệp
2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
3 Trường Đại học Kinh tế - Kỹ thuật Công nghiệp
4 Trường Đại học Thủy lợi
ttdaiuneti@gmail.com, nlgiang@ioit.ac.vn, htmchau@uneti.edu.vn, ngantt@tlu.edu.vn
TÓM TẮT: Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám
phá tri thức Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ (Fuzzy Rough Set - FRS) nhằm nâng cao độ chính xác mô hình phân lớp Tuy nhiên, số lượng thuộc tính thu được theo tiếp cận FRS chưa tối ưu do ràng buộc giữa các đối tượng trong bảng quyết định chưa được xem xét đầy
đủ Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô
mờ trực cảm (Intuitionistic Fuzzy Rough Set - IFRS) dựa trên các đề xuất mới về hàm thành viên và không thành viên Kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính của tập rút gọn theo phương pháp đề xuất giảm đáng kể so với các phương pháp FRS và một số phương pháp IFRS khác
T ừ khóa: Bảng quyết định, rút gọn thuộc tính, tập rút gọn, tập thô mờ, tập thô mờ trực cảm, khoảng cách
I MỞ ĐẦU
Lý thuyết tập thô truyền thống (Rough Set Theory - RST) [1] do Z Pawlak đề xuất được chứng minh là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong các bảng quyết định có miền giá trị rời rạc [2] Trong các bài toán thực tế, các bảng quyết định thường có miền giá trị số, liên tục Để rút gọn thuộc tính theo tiếp cận RST, miền giá trị số của bảng quyết định cần được rời rạc hóa Tuy nhiên, các phương pháp rời rạc hóa dữ liệu có thể làm giảm độ chính xác của mô hình phân lớp do thông tin bị mất mát trong quá trình rời rạc dữ liệu[3] Do đó, các nhà nghiên cứu đã mở rộng mô hình RST để thực hiện rút gọn thuộc tính trực tiếp trên bảng quyết định gốc Cho đến nay, có hai hướng tiếp cận mở rộng quan trọng được các nhà nghiên cứu quan tâm, thứ nhất là kết hợp giữa RST và tập mờ (Fuzzy Set - FS) thành tập thô mờ (Fuzzy Rough Set - FRS) [4], thứ hai là kết hợp giữa RST và tập mờ trực cảm (Intuitionistic Fuzzy Set - IFS) thành tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set - IFRS) [5]
Theo tiếp cận FRS, các nhà nghiên cứu sử dụng quan hệ tương đương mờ để tính toán các tập xấp xỉ mờ, từ đó
đề xuất các độ đo khác nhau để tìm tập rút gọn như: miền dương mờ [6], ma trận phân biệt mờ [7], entropy thông tin
mờ [8], khoảng cách mờ [9, 22] Kết quả thực nghiệm trên một số bộ dữ liệu mẫu cho thấy, độ chính xác phân lớp của các tập rút gọn thu được tốt hơn so với tập thuộc tính ban đầu trên một số bộ dữ liệu Tuy nhiên số lượng thuộc tính của các tập rút gọn vẫn còn khá lớn, đặc biệt trên các bộ dữ liệu có số chiều lớn Trong những năm gần đây, tiếp cận IFRS được nhiều nhà nghiên cứu quan tâm do các tập xấp xỉ xây dựng theo tiếp cận này biểu diễn mối quan hệ của các đối tượng trong bảng quyết định chặt hơn so với tiếp cận FRS Do đó, các phương pháp rút gọn thuộc tính theo tiếp cận IFRS có tiềm năng giảm thiểu số lượng thuộc tính tốt hơn so với tiếp cận FRS
Theo tiếp cận IFRS, các nhà nghiên cứu sử dụng quan hệ tương đương mờ trực cảm để tính toán các tập xấp xỉ
mờ trực cảm, từ đó sử dụng các độ đo khác nhau để tìm tập rút gọn như: miền dương [10], ma trận phân biệt [11] Tuy nhiên, hầu hết các phương pháp này đều trải qua bước chuyển đổi từ bảng quyết định gốc sang bảng quyết định mờ
trực cảm, điều này gây phát sinh về chi phí chuyển đổi dữ liệu cũng như cần phải bổ sung các ràng buộc để đảm bảo tính toàn vẹn của dữ liệu trong quá trình chuyển đổi Theo hướng tìm tập rút gọn trực tiếp trên bảng quyết định gốc, các nhà nghiên cứu sử dụng quan hệ dung sai mờ trực cảm với các ràng buộc mới nhằm làm chặt hơn nữa về mối quan
hệ của các đối tượng trong bảng quyết định A Tan và các cộng sự [5] đã kết hợp toán tử Hausdorff với ràng buộc về phương sai của miền giá trị thuộc tính để xây dựng công thức tính độ tương tự (độ thành viên) của các đối tượng Tuy nhiên công thức tính độ khác biệt (độ không thành viên) các tác giả đưa ra chỉ là phần bù của độ thành viên Điều này dẫn tới sự suy biến của công thức tính lực lượng [12] mà các tác giả đã sử dụng, làm mất đi vai trò độ không thành viên của IFRS Do đó, A Tan và các cộng sự [13] tiếp tục xây dựng các công thức tính toán độ tương tự và độ khác biệt theo hướng độc lập nhau Các tác giả vẫn dùng toán tử Hausdorff nhưng kết hợp với ràng buộc về lân cận của các đối tượng trong cùng một phân lớp để xây dựng công thức tính độ khác biệt giữa các đối tượng Tuy nhiên, công thức này chiếm nhiều thời gian để tính toán các tập xấp xỉ mờ trực cảm
Để dung hòa ưu và nhược điểm của hai phương pháp tính toán bên trên, trong bài báo này chúng tôi đưa ra công
thức tính toán độ tương tự và độ khác biệt theo tiếp cận kết hợp toán tử Hausdorff với ràng buộc về độ do dự có thể điều chỉnh Trên cơ sở đó, chúng tôi xây dựng công thức tính khoảng cách giữa các phân hoạch mờ trực cảm và đề xuất thuật toán tìm tập rút gọn theo phương pháp lọc truyền thống Các kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính tập rút gọn của phương pháp đề xuất giảm thiểu đáng kể so với các phương pháp tập thô mờ [9, 22] và một số phương pháp tập thô mờ trực cảm [5, 13], trong khi vẫn bảo toàn độ chính xác trên bảng quyết định ban đầu.
Trang 2Phần tiếp theo của bài báo có cấu trúc như sau: phần II trình bày một số kiến thức cơ bản như bảng quyết định, khái niệm về tập mờ trực cảm, quan hệ mờ trực cảm và mô hình tập thô mờ trực cảm Phần III trình bày công thức tính toán khoảng cách giữa các phân hoạch mờ trực cảm, định nghĩa tập rút gọn và độ quan trọng của thuộc tính, xây dựng thuật toán heuristic và trình bày ví dụ minh họa về các bước làm việc của thuật toán Phần IV trình bày kết quả thực nghiệm của thuật toán đề xuất trên một số bộ dữ liệu mẫu từ kho dữ liệu của UCI [21] Cuối cùng là một vài kết luận
và hướng phát triển tiếp theo
II M ỘT SỐ KHÁI NIỆM LIÊN QUAN
Phần này trình bày một số khái niệm cơ bản về tập mờ trực cảm, quan hệ mờ trực cảm và một số phép toán cơ bản trên tập mờ trực cảm được được sử dụng trong bài báo
Bảng quyết định là một cặp DS=(U C, ∪D) trong đó U là tập hữu hạn, khác rỗng các đối tượng;Clà tập hữu hạn, khác rỗng các thuộc tính điều kiện;D là thuộc tính quyết định Mỗi thuộc tính a C∈ xác định một ánh xạ:
a U→V với V a là tập giá trị của thuộc tính a C∈
Định nghĩa 2.1 [14] Cho U là tập hữu hạn khác rỗng các đối tượng, tập mờ trực cảm A trên U có dạng:
A= x µ x ν x x U∈ với µA U→[ ]0, 1 ,v A:U→[ ]0, 1 thỏa mãn 0≤µA( )x +νA( )x ≤1 Trong đó
( )
A x
µ và νA( )x được gọi là độ thành viên và độ không thành viên của phần tử x ∈ U theo A
Khi đó: πA( )x = −1 µA( )x −νA( )x được gọi là độ do dự của phần tử x ∈ U theo A
Cho hai tập mờ trực cảm A và B,một số quan hệ và phép toán cơ bản giữa A và Bđược định nghĩa như sau: (1) A ⊆ B khi và chỉ khi (iff) µA( )x ≤ µB( )x và νA( )x ≥ νB( )x ∀ ∈x U
(2) A ⊇ B iff B ⊆ A
(3) A = B iff A ⊆ B và B ⊆ A hay µA( )x =µB( )x và νA( )x = νB( )x ∀ ∈x U
(4) A∩B ,= { x µA( )x ∧ µB( )x , νA( )x ∨νB( )x |x∈ U}
(5) A∪B ,= { x µA( )x ∨ µB( )x , νA( )x ∧νB( )x |x∈ U}
Định nghĩa 2.2 [15] Cho U là tập hữu hạn khác rỗng, quan hệ mờ trực cảm R trên U được định nghĩa:
{ , , R , , R , | , }
R= x y µ x y ν x y x y ∈ ×U U với µ νR, R: U U× →[ ]0, 1 là độ thành viên và không thành viên của y với x , thỏa mãn 0 ≤µR(x y, )+νR(x y, )≤ 1
Nếu R thỏa mãn µR( , ) 1, ( , ) 0x x = νR x x = và µR( , )x y =µR( , ),y x νR( , )x y =νR( , )y x thì Rđược gọi là quan hệ dung sai mờ trực cảm
Cho ℜ là tập các quan hệ mờ trực cảm R trên U:ℜ(U U× ) Khi đó các quan hệ mờ trực cảm R có thể được biểu diễn bởi ma trận ( ( , )x x i j , R( , )i j )
n
n x
×
ℜ trong đó µR x x( , )i j ,νR x x( , )i j là độ tươn tự và độ khác biệt của đối tượng
j
x và x iđược xác định bởi hàng i và cột j trong ma trận ℜ
Định nghĩa 2.3 Cho ,P Q C∈ , theo [14] ta có R P Q∪ =R P∩R Q, khi đó quan hệ của hai đối tượng ,x x i jtrên tập thuộc tính P Q∪ xác định bởi: ( , ) {min( ( , ), ( , )), max( ( , ), ( , )) }
P i j Q i j P i j Q i j
P Q i j R x x R x x R x x R x x
Giả sử ( ( , ) ( , ))
x
,
P i j P i j
P R x x R x x
n n
x
,
Q i j Q i j
Q R x x R x x
n n
ℜ là hai ma trận quan hệ mờ trực cảm của các đối tượng trong U trên tập thuộc tính P Q∪ Khi đó ma trận dung sai mờ trực cảm ℜP Q∪ được xác định như
x
,
S i j S i j
S P Q R x x R x x
n n
, ,
S i j P i j Q i j
S i j P i j Q i j
R x x R x x R x x
R x x R x x R x x
min max
=
=
Định nghĩa 2.4 [5] Choℜlà tập các quan hệ mờ trực cảm R trên U, với U ≠ ∅ Khi đó với mọi X U∈ , tập xấp
xỉ trên và xấp xỉ dưới của X theo ℜ được định nghĩa như sau:
( )X { ,(x i µ R( )X ( )x i , νR( )X ( )x i )|x i U}, ( )X { ,(x µ i R( )X ( )x i , νR( )X ( )x i )|x i U}
Cặp giá trị (µ R( )X ( )x i , νR( )X ( )x i ) cho biết các đối tượng quan hệ với x ch i ắc chắn thuộc về X;
Cặp giá trị (µ R( )X ( )x i , νR( )X ( )x i ) cho biết các đối tượng quan hệ với x có th i ể thuộc về X;
Nếu ℜ( )X = ℜ( )X ta nói Xlà tập chính xác, ngược lại ta nói X là tập thô
Trang 3Định nghĩa 2.5 [16] Cho P C U∈ , ={x x1, , ,2 x n}, quan hệ mờ trực cảm R Pxác định xác định một phân hoạch mờ trực cảm K( )R P trên U với ( ) { [ ] } 1 2
1
P
n i i in i
R P i
n
x
=
K là một lớp dung sai mờ trực cảm của x i trên P Khi đó lực lượng lớp dung sai mờ trực cảm theo quan hệ Rcủa x i trên tập thuộc tính P được tính theo công thức
2
n ij ij
i P j
=
=∑ Trong đó phần tử số được cộng thêm 1 nhằm đảm bảo lực lượng của lớp dung sai luôn dương, phần mẫu số là 2 nhằm đảm bảo lực lượng luôn nằm trong khoảng giá trị [ ] 0,1
III RÚT G ỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH
M Ờ TRỰC CẢM
Phần này trình bày một phương pháp mới tìm tập rút gọn trực tiếp trên bảng quyết định gốc theo tiếp cận tập mờ trực cảm sử dụng độ đo khoảng cách Các bước chính của phương pháp này gồm có: (1) xây dựng công thức tính toán khảng cách giữa các phân hoạch mờ trực cảm; (2) định nghĩa tập rút gọn và độ quan trọng của thuộc tính; (3) đề xuất thuật toán heuristic theo tiếp cận tính toán độ đo giữa các phân hoạch mờ trực cảm Cuối cùng là phần ví dụ minh họa thuật toán
Cho bảng quyết định DS=(U C, ∪D) với U={x x1, , ,2 x n}, ,P Q C∈ và hai phân hoạch trên P và Q tương
ứng: K P( )={ } [ ]x P , K Q( )={ } [ ]x Q với x U∈ , Liang và các cộng sự [19] đã chứng minh
( ) ( )
1
1 ,
U
i P i P i P i P i
D K P K Q
= ∑ là khoảng cách giữa hai phân hoạch K P( ) và K Q( ) Chúng tôi mở rộng khoảng cách này để tính toán khoảng cách cho các phân hoạch mờ trực cảm
3.1 Độ đo khoảng cách giữa các tập mờ trực cảm
M ệnh đề 3.1 Cho , ,X Y Z là ba tập mờ trực cảm trên U , khi đó ta có các mệnh đề sau:
1) Nếu X∈Y thì Y − ∩Y Z ≥ X − X∩Z
2) Nếu X∈Y thì Z − Z∩X ≥ Z − Z∩Y
3) X − X∩ +Y Z − Z∩X ≥ Z −Z∩Y
Ch ứng minh Áp dụng phương pháp chứng minh trong [18], ta có điều phải chứng minh (đpcm)
M ệnh đề 3.2 Cho hai tập mờ trực cảm X Y, trên tập đối tượng U Khi đó d X Y( , )= X∪ −Y X∩Y là một
độ đo khoảng cách giữa X và Y
Ch ứng minh Áp dụng các mệnh đề trong 3.1 và sử dụng phương pháp chứng minh trong [18], ta có đpcm
3.2 Độ đo khoảng cách giữa các phân hoạch mờ trực cảm
M ệnh đề 3.3 Cho bảng quyết định DS=(U C, ∪D) với U={x x1, , ,2 x n} và K( )R P , K( )R Q là hai phân hoạch mờ trực cảm sinh bởi hai quan hệ mờ trực cảm R R P, Q trên ,P Q⊆C Khi đó:
1
1 ,
n
i
n =
= ∑ ∪ − ∩
Là một khoảng cách giữa hai phân hoạch mờ trực cảm K( )R P và K( )R Q
Ch ứng minh Áp dụng mệnh đề 3.2 và sử dụng phương pháp chứng minh trong [18] ta có đpcm
Mệnh đề 3.4 Cho bảng quyết định DS=(U C, ∪D) với U={x x1, , ,2 x n} và R là quan hệ mờ trực cảm xác
định trên miền giá trị tập thuộc tính C , khi đó khoảng cách giữa hai tập thuộc tính C và C ∪ D được xác định như sau:
1
1 ,
n
i
n
∪
=
= ∑ − ∩
Ch ứng minh Áp dụng mệnh đề 3.3 và sử dụng phương pháp chứng minh trong [18] ta có đpcm
Mệnh đề 3.5 Cho bảng quyết định DS=(U C, ∪D) với U={x x1, , ,2 x n}, B⊆C và R là quan hệ
dung sai mờ trực cảm xác định trên miền giá trị tập thuộc tính C
Khi đó D K( ( )R B ,K(R B D∪ ) )≥D K( ( )R C ,K(R C D∪ ) )
Ch ứng minh Áp dụng mệnh đề 3.4 và sử dụng phương pháp chứng minh trong [18] ta có đpcm
Trang 43.3 Thuật toán tìm tập rút gọn sử dụng độ đo khoảng cách phân hoạch mờ trực cảm
Định nghĩa 3.1 Cho bảng quyết định DS=(U C, ∪D) với B C⊆ và R là một quan hệ mờ trực cảm xác định
trên miền giá trị thuộc tính C Nếu
1) D K( ( )R B ,K(R B D∪ ) )=D K( ( )R C ,K(R C D∪ ) )
2) ∀ ∈b B, D K( (R B b−{ }),K(R{B b−{ }}∪D) )≠D K( ( )R C ,K(R C D∪ ) )
thì B là m ột tập rút gọn của C dựa trên độ đo khoảng cách D
Định nghĩa 3.2 Cho bảng quyết định DS=(U C, ∪D) với B⊂C và b C∈ −B Độ quan trọng của thuộc tính
b đối với B được xác định bởi SIG b B( )=D K( ( )R B ,K(R B D∪ ) )−D K( (R B∪{ }b ),K(R B∪{ }b∪D) )
Từ Mệnh đề 3.5 ta có SIG b B( )≥0 Độ quan trọng SIG b B( ) đặc trưng cho chất lượng phân lớp của thuộc tính b
đối với thuộc tính quyết định D và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính của thuật toán tìm tập rút gọn
Như đã trình bày trong Phần 1 của bài báo Các công thức quan hệ trong [5, 13] còn những hạn chế nhất định như
tính độc lập của các công thức tính độ tương tự và độ khác biệt, cũng như thời gian xây dựng các tập xấp xỉ mờ trực cảm còn cao Để khắc phục các nhược điểm đó, chúng tôi đề xuất sử dụng công thức tính toán theo Định nghĩa 3.3 để xây dựng các tập mờ trực cảm
Định nghĩa 3.3 Xét bảng quyết định DS=(U C, ∪D) và quan hệ R Khi đó độ thành viên µR và độ không thành viên νR của hai đối tượng ,x x i j∈ theo quan hệ U Rđược định nghĩa như sau:
( , ) ( , )
( , )
( , )
( ) ( )
1.0
mi
, ,
( ) ( ) t
n(
,
,1 *(1 )
Ra Ra
Ra
Ra
i j
i j
i j
i j
i j
lse
x x
α β
α β
α β
α β
β α
β α
ν
ν
−
−
=
tham số điều chỉnh độ do dự về mức độ thuộc và không thuộc của ( )a x j với a x( )i khi ( )a x i ≠a x( )j Công thức trên hàm ý, khi độ do dự là β thì độ thuộc và độ không thuộc chỉ còn chiếm 1− so với giá trị ban đầu β
Ví dụ 1: Xét Bảng quyết định DS=(U C, ∪D) cho ở Bảng 1 như sau:
B ảng 1 Bảng quyết định
x 1 0,8 0,2 0,6 0,4 1 0 No
x 2 0,8 0,2 0 0,6 0,2 0,8 Yes
x 3 0,6 0,4 0,8 0,2 0,6 0,4 No
Với độ lệch chuẩn trong miền dữ liệu của thuộc tính a là: σ =0.37 và độ do dự về mức độ thuộc hay không thuộc của hai đối tượng x i và x j trong U trên thuộc tính a là: β =0.4 Áp dụng công thức (3.1) ta có ma trận quan
hệ mờ trực cảm của các đối tượng theo thuộc tính a như sau:
1.00,0.00 1.00,0.00 0.28,0.32 0.00,0.60 0.00,0.60 0.00,0.60 1.00,0.00 1.00,0.00 0.28,0.32 0.00,0.60 0.00,0.60 0.00,0.60 0.28,0.32 0.28,0.32 1.00,0.00 0.00,0.60 0.00,0.60 0.00,0.60 0.00,0.60 0.00,0.60 0.00,0.60 1.00,0.0
a
ℜ =
0 1.00,0.00 1.00,0.00 0.00,0.60 0.00,0.60 0.00,0.60 1.00,0.00 1.00,0.00 1.00,0.00 0.00,0.60 0.00,0.60 0.00,0.60 1.00,0.00 1.00,0.00 1.00,0.00
Khi đó: [ ]1
2 2 0.96 0.4 0.4 0.4
a
x = + + + + + [ ]3
0.96 0.96 2 0.4 0.4 0.4
a
Thuật toán F_IFDAR (Filter - Intuition Fuzzy Distance based Attribute Reduction): Thuật toán filter theo tiếp cận mờ
trực cảm tìm tập rút gọn sử dụng độ đo khoảng cách giữa các phân hoạch mờ trực cảm
Đầu vào: Bảng quyết định DS=(U C D, ∪ ), quan hệ R , tham số điều chỉnh β
Trang 5Đầu ra: Một tập rút gọn B
1 B← ∅ ; D K( ( )R B ,K(R B D∪ ) )=1 ;
// Tính khoảng cách phân hoạch mờ trực cảm
2 D K( ( )R C ,K(R C D∪ ) );
// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất
3 While D K( ( )R B ,K(R B D∪ ) )≠D K( ( )R C ,K(R C D∪ ) ) do
4 Begin
5 Với mỗi a C B∈ − tính
SIG B( )a =D K( ( )R B ,K(R B D∪ ) )−D K( (R B∪{ }a ),K(R B∪{ }a ∪D) )
6 Chọn a m∈ −C B sao cho B( )m { B( ) }
a C B
SIG a Max SIG a
∈ −
7 B B= ∪{ }a m ;
8 End;
Return B ;
Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán F_IFDAR, gọi tắt là độ phức tạp Giả sử
{ }
D= d và ký hiệu ,C U tương ứng là số thuộc tính điều kiện và số đối tượng Độ phức tạp tính ma trận dung sai mờ
trực cảm ℜ là C ( 2)
O C U , do đó độ phức tạp tính khoảng cách phân hoạch mờ trực cảm trong câu lệnh 2 là
( 2)
O C U Xét vòng lặp While từ câu lệnh 3 đến 8, để tính SIG a B( ) ta phải tính D K( (R B a∪{ }),K(R B a∪{ }∪D) ) vì
( R B , R B D∪ )
D K K đã được tính ở bước trước Độ phức tạp tính D K( (R B a∪{ }),K(R B a D∪{ }∪ ) ) bằng độ phức tạp tính
ma trận tương đương mờ trực cảm của thuộc tính a, nghĩa là ( )2
O U Do có hai vòng lặp lồng nhau theo C nên độ phức tạp của vòng lặp While là ( 2 2)
O C U Do đó, độ phức tạp của thuật toán F_IFDAR là ( 2 2)
O C U
Ví dụ 3.1 Xét bảng quyết định DS=(U C, ∪D) cho ở Bảng 1 với U ={x x x x x x1, 2, ,3 4, 5, 6} ,
{ , , , , , }, {Q}
C= a b c d e f D= Khi đó, áp dụng các bước của thuật toán F_IFDAR ta có:
Khởi tạo B ← ∅ ; D K( ( )R B ,K(R B D∪ ) )=1 Tính các ma trận quan hệ mờ trực cảm cho các thuộc tính điều kiện ℜ ℜ ℜ ℜ ℜ ℜa, b, c, d, e, f theo công thức (1) Từ đó ta có:D K( ( )R C ,K(R C Q∪ ) )=0.1
D K K ; D K( ( )R b ,K(R b Q∪ ) )=0.23;D K( ( )R c ,K(R c Q∪ ) )=0.26
D K K ;D K( ( )R e ,K(R e Q∪ ) )=0.2;D K( ( ) (R f ,K R f Q∪ ) )=0.2
Chọn e do ecó độ quan trọng SIG e∅( )=0.8 lớn nhất, khi đó B={ }e
Do D K( ( )R{ }e ,K(R{ }e∪Q) )>D K( ( )R C ,K(R C Q∪ ) ) nên tiếp tục vòng lặp While ta có:
{ }e ( ) 0.01
SIG a = , SIG{ }e ( )b =0.06, SIG{ }e ( )c =0.08, SIG{ }e ( )d =0.1, SIG{ }e ( )f =0 Chọn d do d có độ quan trọng { }e ( ) 0.1
SIG d = lớn nhất, khi đó B={ }e d,
Do D K( (R{ }e d, ),K(R{ }e d, ∪Q) )=D K( ( )R C ,K(R C Q∪ ) )=0.1 nên thuật toán dừng và B={ }e d, là tập rút gọn tìm được của thuật toán
IV THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Các kết quả thực nghiệm được thực hiện trên môi trường Window 7, CPU Intel (R) Core (TM) i5- 3.10GHz, Ram 4G Thuật toán tìm tập rút gọn được cài đặt trên môi trường Visual Studio 2010 với ngôn ngữ lập trình C# Quá trình đánh giá độ chính xác phân lớp của tập thuộc tính rút gọn được cài đặt trên môi trường Spyder-Anacoda 3 với ngôn ngữ lập trình Python Các thuật toán thử nghiệm được thực hiện trên 8 bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [21]
Trang 6như mô tả ở Bảng 2 Đây là các tập dữ liệu có miền giá trị thuộc tính kiểu số nguyên và kiểu số thực, trước khi thực
nghiệm, các giá trị này được chuẩn hóa về đoạn [0, 1] theo công thức trong [20]
Bảng 2 Mô tả dữ liệu thực nghiệm
No Data sets Samples Attributes Classes
Mục tiêu của việc thực nghiệm là so sánh số lượng thuộc tính tập rút gọn của thuật toán đề xuất F_IFDAR với các thuật toán F_FDAR [22] và thuật toán IFPR [5] Trong đó, F_FDAR là thuật toán lọc theo tiếp cận mờ truyền thống sử dụng độ đo khoảng cách, còn IFPR là thuật toán tìm tập rút gọn dựa trên miền dương với các phân hoạch được cấu trúc dưới dạng các hạt thông tin Khi áp dụng thuật toán F_IFDAR, tham số do dự (β ) được lựa chọn là các giá trị từ 0.1 đến 0.9 với bước nhảy là 0.1 Với mỗi lần điều chỉnh, tập rút gọn thu được sẽ có số lượng và/hoặc thành phần khác nhau Tham số được lựa chọn cho thuật toán để so sánh với hai thuật toán IFPR và F_FDAR là tham số cho
ra tập rút gọn có số lượng và chất lượng phân lớp tốt nhất Số lượng thuộc tính các tập rút gọn nhận được khi áp dụng F-IFDAR (theo β), F_FDAR và IFPR được trình bày trong Bảng 3 dưới đây Các bộ dữ liệu tương ứng được đánh số thứ tự từ 1 đến 8 như trong Bảng 2
Bảng 3 Bảng so sánh số lượng thuộc tính các tập rút gọn
IFPR F_FDAR Raw-Data
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Thời gian tìm tập rút gọn của các thuật toán được trình bày ở Bảng 4 Tất cả các thuật toán được thực nghiệm trên cùng 8 bộ dữ liệu đã chọn với số lượng thuộc tính của tập rút gọn trong Bảng 3 Thời gian thực hiện các thuật toán được tính theo đơn vị giây
Bảng 4 Bảng so sánh thời gian thực hiện của các thuật toán tìm tập rút gọn (giây)
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1 0,19 0,15 0,16 0,15 0,24 0,11 0,17 0,15 0,12 0,11 0,22 -
2 0,84 0,45 0,65 0,46 0,54 0,36 0,45 0,28 0,36 0,34 0,36 -
3 7,01 3,60 5,18 3,50 4,64 2,87 3,98 2,00 2,86 2,61 2,18 -
4 0,22 0,29 0,22 0,15 0,22 0,15 0,36 0,16 0,06 0,17 0,17 -
5 2,50 2,90 1,36 1,54 2,15 2,37 3,15 0,85 1,05 1,33 2,03 -
6 7,11 3,30 3,26 4,26 2,32 3,15 4,25 2,33 1,18 6,12 9,08 -
7 0,56 0,57 1,38 0,90 0,57 0,46 0,45 1,35 0,43 0,67 1,28 -
8 4,14 1,50 1,92 3,06 1,57 1,50 1,93 3,21 0,95 0,39 5,02 -
Biểu đồ so sánh số lượng thuộc tính tập rút gọn trên các bộ dữ liệu khi áp dụng các thuật toán F-IFDAR (trong trường hợp tốt nhất với β =0,4), F_FDAR và IFPR được thể hiện trong biểu đồ trên Hình 1 Thời gian thực hiện thuật toán tương ứng được thể hiện trong Hình 2
Để đánh giá chất lượng phân lớp của các tập rút gọn so với tập dữu liệu gốc, kĩ thuật đánh giá chéo 10-fold trên hai mô hình phân lớp dữ liệu là cây CART và phương pháp láng giềng gần KNN (K=10) được sử dụng Độ chính xác phân lớp được tính theo giá trị trung bình của 10 lần chạy đồng thời cho cả 8 bộ dữ liệu trên các tập rút gọn của các thuật toán F_IFDAR, IFPR, F_FDAR và của tập dữ liệu ban đầu (Raw-Data) Độ chính xác phân lớp của mô hình cây quyết định CART được trình bày trong Bảng 5
Trang 7Hình 1 Biểu đồ so sánh số lượng thuộc tính
của các tập rút gọn Hình 2 Biểu đồ so sánh sánh thời gian thực hiện của các thuật toán Bảng 5 Bảng so sánh về độ chính xác phân lớp của các tập rút gọn trên mô hình CART
0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1 0,92 0,92 0,91 0,92 0,93 0,89 0,91 0,91 0,72 0,92 0,906 0,90
2 0,69 0,69 0,67 0,68 0,70 0,67 0,69 0,67 0,67 0,74 0,754 0,73
3 0,82 0,80 0,82 0,77 0,79 0,77 0,79 0,85 0,84 0,83 0,828 0,83
4 0,73 0,73 0,73 0,72 0,75 0,70 0,76 0,70 0,82 0,92 0,725 0,75
5 0,66 0,69 0,59 0,65 0,65 0,67 0,69 0,63 0,58 0,95 0,588 0,65
6 0,94 0,94 0,93 0,93 0,91 0,91 0,92 0,85 0,88 0,93 0,925 0,93
7 0,66 0,64 0,70 0,66 0,66 0,65 0,66 0,69 0,69 0,74 0,672 0,69
8 0,92 0,89 0,90 0,90 0,87 0,84 0,86 0,91 0,84 0,91 0,885 0,88
Độ chính xác phân lớp của mô hình KNN được trình bày ở Bảng 6
Bảng 6 Bảng so sánh về độ chính xác phân lớp của các tập rút gọn trên mô hình KNN
0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1 0,81 0,89 0,89 0,82 0,78 0,86 0,89 0,89 0,73 0,97 0,718 0,75
2 0,63 0,62 0,60 0,59 0,63 0,58 0,63 0,65 0,68 0,85 0,729 0,66
3 0,75 0,69 0,72 0,72 0,69 0,73 0,69 0,77 0,76 0,81 0,807 0,69
4 0,72 0,71 0,71 0,72 0,76 0,68 0,78 0,70 0,72 0,86 0,675 0,78
5 0,59 0,59 0,57 0,63 0,62 0,61 0,58 0,53 0,58 0,89 0,521 0,59
6 0,87 0,88 0,88 0,89 0,76 0,88 0,89 0,87 0,88 0,96 0,885 0,93
7 0,77 0,78 0,78 0,75 0,76 0,77 0,77 0,77 0,77 0,77 0,752 0,77
8 0,92 0,85 0,88 0,91 0,89 0,84 0,84 0,91 0,81 0,84 0,917 0,90
Từ kết quả trong các bảng từ Bảng 3 đến Bảng 6 ta có thể thấy độ do dự 0.4 cho số lượng thuộc tính ít hơn gần 1/3
so với thuật toán IFPR với độ chính xác phân lớp không chênh lệch đáng kể và gần như bảo toàn so với bộ dữ liệu gốc
Hình 3 Biểu đồ so sánh độ chính xác phân lớp
Trên mô hình CART
Hình 4 Biểu đồ so sánh sánh độ chính xác phân lớp
Trên mô hình KNN
V K ẾT LUẬN
Trong bài báo này, chúng tôi xây dựng thuật toán tìm tập rút gọn của bảng quyết định theo hướng tiếp cận tập thô mờ trực cảm nhằm giảm số lượng thuộc tính của tập rút gọn, từ đó nâng cao hiệu quả của mô hình phân lớp Trước
hết, chúng tôi đưa ra công thức tính toán độ tương tự và độ khác biệt với ràng buộc về độ do dự có thể điều chỉnh Tiếp theo, chúng tôi xây dựng khoảng cách giữa các phân hoạch mờ trực cảm dựa trên công thức tính toán độ tương tự mới Dựa trên độ đo khoảng cách được xây dựng, chúng tôi đề xuất thuật toán heuristic tìm tập rút gọn của bảng quyết định Kết quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI cho thấy, số lượng thuộc tính tập rút gọn của thuật toán đề xuất nhỏ hơn đáng kể so với hai thuật toán IFPR và F_FDAR, trong khi đó độ chính xác phân lớp được bảo toàn so với bảng quyết định ban đầu Tuy nhiên, do việc điều chỉnh tham số bằng tay nên thuật toán phát sinh chi phí về thời gian cho việc lựa chọn tham số tối ưu Hướng phát triển tiếp theo là nghiên cứu các phương pháp tối ưu tập luật theo tiếp cận tập thô mờ trực cảm
Trang 8LỜI CẢM ƠN
“Nghiên c ứu này được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong Đề tài mã số 102.05-2018.02”
TÀI LI ỆU THAM KHẢO
[1] Z Pawlak, “Rough sets”, Int J Comput Inf Sci., Vol 11, No 5, pp 341-356, 1982
[2] Wang, C., Wu, C., & Chen, D (2008) “A systematic study on attribute reduction with rough sets based on general binary relations” Information Sciences, 178(9), 2237-2261
[3] Q H Hu, D R Yu, Z X Xie, “Information-preserving hybrid data reduction based on fuzzy-rough techniques”, Pattern Recognition Letters, Vol 27, No 5, pp 414-423, 2006
[4] D Dubois and H Prade, “Rough fuzzy sets and fuzzy rough sets”, International Journal of General Systems, Vol
17, pp 191-208, 1990
[5] A Tan, W Wu, Y Qian, J Liang, J Chen and J Li, “Intuitionistic Fuzzy Rough Set-Based Granular Structures and Attribute Subset Selection”, in IEEE Transactions on Fuzzy Systems, Vol 27, No 3, pp 527-539, March
2019, doi: 10.1109/TFUZZ.2018.2862870
[6] R Jensen, Q Shen, “New approaches to fuzzy-rough feature selection”, IEEE Trans Fuzzy Syst 17(4), pp
824-838, 2009
[7] G.C.Y Tsang, D.G Chen, E.C.C Tsang, J.W.T Lee, D.S Yeung, “On attributes reduction with fuzzy rough sets”, IEEE International Conference on Systems, Man and Cybernetics, 2005
[8] J.H Dai, Q Xu, “Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification”, Applied Soft Computing 13, pp 211-221, 2013
[9] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi, “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp 13-28, 2016
[10] Anoop Kumar Tiwari , Shivam Shreevastava, Tanmoy Som, K.K Shukla, “Tolerance-based intuitionistic fuzzy-rough set approach for attribute reduction”, Expert Systems With Applications 101, pp 205-212, 2018
[11] Feng, Qinrong & Li, Rui (2013) Discernibility Matrix Based Attribute Reduction in Intuitionistic Fuzzy Decision Systems 8170 147-156 10.1007/978-3-642-41218-9_16
[12] E Szmidt and J Kacprzyk, “Entropy for intuitionistic fuzzy sets”, Fuzzy Sets Syst., Vol 118, No 3, pp 467-477, 2001 [13] A Tan, S Shi, W Wu, J Li and W Pedrycz, “Granularity and Entropy of Intuitionistic Fuzzy Information and Their Applications,” in IEEE Transactions on Cybernetics, doi: 10.1109/TCYB.2020.2973379
[14] K Atanassov, Intuitionistic Fuzzy Sets: Theory and Applications New York, NY, USA: Physica-Verlag, 1999 [15] H Bustince and P Burillo, “Structures on intuitionistic fuzzy relations”, Fuzzy Sets Syst., Vol 78, No 78, pp 293-303, 1996
[16] E Szmidt and J Kacprzyk, “Entropy for intuitionistic fuzzy sets”, Fuzzy Sets Syst., Vol 118, No 3, pp 467-477,
2001
[17] D Chen, L Zhang, S Zhao, Q Hu, and P Zhu, “A novel algorithm for finding reducts with fuzzy rough sets”, IEEE Trans Fuzzy Syst., Vol 20, No 2, pp 385-389, 2012
[18] N L Giang et al., “Novel Incremental Algorithms for Attribute Reduction From Dynamic Decision Tables Using Hybrid Filter-Wrapper With Fuzzy Partition Distance”, in IEEE Transactions on Fuzzy Systems, Vol 28, No 5,
pp 858-873, May 2020, doi: 10.1109/TFUZZ.2019.2948586
[19] Liang J Y., K S Chin, C Y Dang, R C M Yam “A new method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems, 31 (2002), No 4, 331-342
[20] Y.Y Yang, D.G Chen, H Wang, X.H Wang, “Incremental perspective for feature selection based on fuzzy rough sets”, IEEE Transactions on Fuzzy Systems, Vol 26, Issue 3, pp 1257-1273, 2017
[21] C Blake and C Merz (1998) UCI Repository of Machine Learning Databases [Online] Available: http://www.ics.uci edu/mlearn/MLRepository.html
[22] Van Thien Nguyen, Long Giang Nguyen, Nhu Son Nguyen , “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS 2018: International Joint Conference on Rough Sets 2018, LNCS, Vol 11103, Springer Link,
2018, pp 614-627
APPROACH FOR ATTRIBUTE SUBSET SELECTION BASED INTUITIONISTIC FUZZY-ROUGH SET
Tran Thanh Dai, Nguyen Long Giang, Hoang Thi Minh Chau, Tran Thi Ngan
ABSTRACT: Attribute reduction is an important problem in the preprocessing step of data mining and knowledge
discovery In recent years, researchers have proposed methods to reduce attributes directly on the original decision table according
to the fuzzy rough set(Fuzzy Rough Set - FRS) approach to improve the classification model's accuracy However, the number of attributes obtained by the fuzzy rough set methods is not optimal because the constraints between the objects in the decision table have not been fully considered In this paper, we propose the method of reducing attribute directly on the original decision table according to the intuitiontic fuzzy rough set(Intuitionistic Fuzzy Rough Set - IFRS) approach using the new membership and nonmembership function The Experimental results on the sample data sets show that the number of subset reduct of the proposed method is significantly reduced compared to the FRS methods and some other IFRS
Keywords: Decisions Table, attribute reduction, reduct set, fuzzy rough set, intuitive fuzzy rough set, distance