Dựa trên ý tưởng thu nhỏ kích thước tập dữ liệu ban đầu, trong bài báo này tác giả đề xuất phương pháp lựa chọn tập đối tượng đại diện, gọi tắt là mẫu đại diện, từ tập đối tượng ban đầu[r]
(1)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CÔNG NGHỆ 185(09): 103 - 110
KHAI PHÁ DỮ LIỆU TRÊN HỆ THÔNG TIN ĐA TRỊ
Phùng Thị Thu Hiền*
Trường Đại học Kinh tế Kỹ thuật Cơng nghiệp
TĨM TẮT
Dựa ý tưởng thu nhỏ kích thước tập liệu ban đầu, báo tác giả đề xuất phương pháp lựa chọn tập đối tượng đại diện, gọi tắt mẫu đại diện, từ tập đối tượng ban đầu cho tốn tìm tập thuộc tính tối ưu hệ thông tin đa trị Tác giả chứng minh tập thuộc tính tối ưu tập đối tượng ban đầu tập thuộc tính tối ưu mẫu đại diện tương đương, từ khẳng định tính đắn phương pháp Vì kích thước mẫu đại diện nhỏ kích thước tập đối tượng ban đầu nên thời gian thực thuật tốn tìm tập thuộc tính tối ưu mẫu đại diện giảm thiểu đáng kể Kích thước mẫu đại diện chọn lớn hay nhỏ phụ thuộc vào đặc thù hệ thông tin đa trị thực tế Đồng thời báo trình bày phương pháp khai phá luật xếp thứ tự cách chuyển đổi hệ thông tin đơn trị xếp thứ tự thành hệ thông tin đơn trị nhị phân áp dụng kỹ thuật sinh luật lý thuyết tập thô hệ thông tin đơn trị nhị phân thu
Từ khóa: Hệ thơng tin đa trị, tập thơ, tập thuộc tính tối ưu, quan hệ dung sai
MỞ ĐẦU*
Lý thuyết tập thô truyền thống Pawlak [1], [2] đề xuất xây dựng dựa quan hệ tương đương nhằm giải tốn tìm tập thuộc tính tối ưu sinh luật định hệ thông tin đơn trị Trong toán thực tế, giá trị đối tượng thuộc tính hệ thơng tin tập hợp nhiều giá trị
Trên hệ thông tin đơn trị hệ thơng tin đa trị, tìm tập thuộc tính tối ưu toán quan trọng nhất, thu hút quan tâm cộng đồng nghiên cứu tập thơ Với tốn tìm tập thuộc tính tối ưu, vấn đề nhà nghiên cứu quan tâm hàng đầu xây dựng phương pháp pháp nhằm tối ưu thời gian thực thuật toán, nhờ áp dụng hệ thơng tin kích thước lớn Trên hệ thơng tin đơn trị, nhiều phương pháp tìm tập thuộc tính tối ưu công bố [3], nhiên phương pháp thực tập đối tượng ban đầu Trên hệ thông tin đa trị, công trình nghiên cứu [4], [5], [6] đề xuất giải pháp nén liệu với mục đích thu nhỏ kích thước tập liệu ban đầu nhằm giảm thiểu thời gian thực thuật toán
*
Tel: 0914 770070, Email: Thuhiencn1@gmail.com
Bài báo tác giả đề xuất phương pháp lựa chọn tập đối tượng đại diện, gọi tắt mẫu đại diện, từ tập đối tượng ban đầu cho tốn tìm tập thuộc tính tối ưu hệ thơng tin đa trị, trình bày phương pháp khai phá luật xếp thứ tự
Cấu trúc báo sau Phần trình bày số khái niệm số kết hệ thông tin đa trị phương pháp khai phá luật xếp thứ tự hệ thông đơn trị Phần đề xuất phương pháp chọn mẫu đại diện hệ thông tin đa trị Phần kết luận định hướng nghiên cứu
CÁC KHÁI NIỆM CƠ BẢN Hệ thông tin đa trị
Hệ thông tin đa trị [7], [8] bốn
, , ,
IS U AT V f U tập hữu hạn, khác rỗng gọi tập vũ trụ tập đối tượng; AT là tập hữu hạn khác rỗng
thuộc tính; f hàm thơng tin, : 2V
f U A ánh xạ tương ứng cặp (u,a) tới tập giá trị thuộc V
Bài báo quy ước viết tắt ISU AT V f, , ,
,
IS U AT
Ký hiệu giá trị thuộc tính aAT đối tượng uU a u , tập
(2)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CƠNG NGHỆ 185(09): 103 - 110
, ,
IND A u v U U a A a u a v Định nghĩa 2.1.[7] Quan hệ dung sai hệ thông tin đa trị
Cho hệ thông tin đa trị ISU AT, Với tập thuộc tính BAT , quan hệ
, , ( )
B
S u v U U b B u b v b
quan hệ dung sai gọi quan hệ dung sai tương ứng với B Rõ ràng
B AT
: B b
b B
S S
Đặt | ( , )
B B
S
u v U u v S
B S
u
gọi lớp dung sai tương ứng với quan hệ
SB Ký hiệu / | B
B S
U S u u U biểu diễn
tập tất lớp dung sai tương ứng với quan hệ SB, U S/ B hình thành phủ U lớp dung sai U S/ B giao [ ]
B S
u U u U Rõ ràng CB
B C
S S
u u với uU.
Tương tự hệ thông tin không đầy đủ [9], với hệ thông tin đa trị ISU AT, , tập thuộc tính RAT gọi tập thuộc tính tối ưu
của IS SRSATvà B R S, BSAT , điều tương đương với SR u SAT u
với uUvà B R tồn uU cho SB u SAT u
Hệ định đa trị hệ thống gồm thành phần DSU AT, d trong AT
là thuộc tính điều kiện d thuộc tính định, với giả thiết d u chứa giá trị với uU
Với uU, AT( )u d v v SAT( )u gọi hàm định suy rộng đối tượng
u tập thuộc tính AT
Nếu |AT( ) | 1u với uUthì DS là quán, trái lại DS không quán.
Từ A a
a A
S S
, theo định nghĩa hàm định suy rộng ta suy AT AT
a AT
u u
với uU.
Nếu BA từ SA u SB u ta dễ dàng
suy A u B u với uU.
Tương tự hệ định không đầy đủ [9], với hệ định đa trị DSU AT, d , tập thuộc tính RAT gọi tập thuộc
tính tối ưu DS R( )u AT( )u với uUvà B R tồn uU cho
B u AT u
Hệ thông tin đơn trị xếp thứ tự
Hệ thông tin đơn trị IIS hệ thống gồm thành phần T ( ,U AD F G, , ) với:
1, 2, , n
U x x x tập hữu hạn khác rỗng
các đối tượng; ADlà tập hữu hạn khác rỗng thuộc tính; Aa a1, 2, ,ap tập
các thuộc tính điều kiện; Dd d1, 2, ,dp tập thuộc tính định,
A D ;Ff |Uk V ,kk p , f ( x ) k giá trị ak x U , V k miền giá trị ak , akA;
k' k' k'
G g |UV , k' p ,g x giá trị dk’ x U , V k' miền giá trị
k'
d ,dk'D;
Nếu miền giá trị thuộc tính xếp theo ưu tiên tăng dần giảm dần thuộc tính gọi tiêu thức
Định nghĩa 2.2 [10] Một hệ thông tin đơn trị gọi xếp thứ tự ( OIIS )nếu tất thuộc tính điều kiện tiêu thức
Giả sử quan hệ xếp thứ tự a định nghĩa miền giá trị tiêu thức
a A; x a y có nghĩ x tốt y tiêu thức a, hay x trội y Khơng tính tổng qt, ta xét thuộc tính điều kiện định có miền giá trị số theo ưu tiên tăng dần, nghĩa VaR (R tập số thực) Với aA x y, , U, ta định nghĩa
( , ) ( , )
x f yf x a f y a
Với tập thuộc tính B A, ta định
nghĩa x fB y a B x, fa y, có nghĩa
x trội y tất thuộc tính
(3)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CƠNG NGHỆ 185(09): 103 - 110 Cho T ( ,U AD F G, , ) hệ thông tin
đơn trị xếp thứ tự, với B A, ký hiệu:
i, j l( )i l( j), l
B
R x x U U f x f x a B (1)
i, j m( )i m ( j), m (2)
D
R x x U U g x g x d D
2 RB RD gọi quan hệ trội hệ thông tin T.Nếu ta biểu diễn
i j | j, i B B
x f x U x x R
xjU f x| l( j) f xl( ),i al B
xi D xj U|x xj, i RD
f
xjU g| ml(xj)gm( ),xi dmD Thì ta thu tính chất sau quan hệ trội:
Tính chất 2.1 [10] Cho RA quan hệ trội
(1) RA quan hệ tương đương, chúng có tính phản xạ, bắc cầu khơng đối xứng
(2) Nếu BA RBRAf (3) Nếu BA x Bf x fA (4) Nếu xj xi Af xj xi A
A
f f
xi A xj A: xj xi A
f
f f
(5) xj A xi A
f f
( , )i ( j, )
f x a f x a a A
(6) | ;
A
T xf xU tạo thành bao phủ U
Với X Uvà A T, xấp xỉ xấp xỉ
dưới X quan hệ trội RA định nghĩa sau:
;
A A
Rf X xU x f X
A A
Rf X xU xf X ;
Các tập xấp xỉ quan hệ trội có số đặc tính tương tự tập xấp xỉ quan hệ tương đương lý thuyết tập thô truyền thống
Khai phá luật xếp thứ tự
Mục tiêu tốn khai phá liệu hệ thơng tin đơn trị xếp thứ tự tìm kiếm luật xếp thứ tự mặt ngữ nghĩa miền giá trị thuộc tính
Trong OIS, biểu thức nguyên tố
thuộc tính a định nghĩa a, f
a, p Với tập thuộc tính BA, biểu
thức B OIS định nghĩa B
a
e(a), với e(a) biểu thức nguyên
tố a Tập biểu thức B OIS
ký hiệu E(B) Các biểu thức kết nối với
nhau toán tử logic , nhiên, để đơn giản, ta dùng
Xét cặp đối tượng OIS, tập vũ trụ
( , ) | ( , ) | , ,
U U U U x x x U
x y x y U x y
Ký hiệu tập m() bao gồm tất cặp đối tượng thỏa mãn biểu thức , ta có:
m(a, )= {(x, y)(UU)fa(x) fa(y)}
m(a, )= {(x, y)(UU)fa(x) fa(y)},
m(
A
a e(a)) = a A m e a( ( ))
Một cặp đối tượng x, y thỏa mãn biểu thức , viết x y, ╞ , thứ tự xác định biểu thức x y, Với tập biểu thức E(A), họ
m( ) | E A( ) tạo thành phân
hoạch (UU), ký hiệu P(A) Mỗi
cặp đối tượng thỏa mãn biểu thức E(A)
Định nghĩa 2.3 Cho T ( ,U AD F G, , )là hệ thông tin đơn trị xếp thứ tự Xét hai tập thuộc tính ,B C A D
Với hai biểu thức E B và E C ,
luật xếp thứ tự đọc “Nếu ”, ký hiệu
Biểu thức gọi tiền tố (vế trái) luật, biểu thức gọi hậu tố (vế phải) luật Một luật xếp thứ tự diễn tả thứ tự đối tượng tập thuộc tính B xác định thứ tự đối tượng tập thuộc tính C
(4)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CÔNG NGHỆ 185(09): 103 - 110
a, f b, p c, f
được diễn giải
y x y x y
x a b c
Nghĩa là, với hai đối tương x y tùy ý, x
xếp y thuộc tính a, x xếp
y thuộc tính b x xếp y thuộc tính c
Định nghĩa 2.4 Độ xác độ bao phủ luật xếp thứ tự, , định nghĩa sau [3], [11]:
Độ xác () =
m m
(3)
Độ bao phủ () =
m m
(4) Với biểu diễn lực lượng tập hợp Độ xác ( ) độ đo đắn luật, độ bao phủ () độ đo tính ứng dụng luật Một luật có độ bao phủ cao ngụ ý luật thỏa mãn tiêu thức xếp thứ tự nhiều cặp đối tượng Độ xác độ bao phủ không độc lập với nhau, chúng liên quan đến số lượng
) (
m Một luật có độ bao phủ cao có độ xác thấp luật có độ xác cao có độ bao phủ thấp
Để khai phá luật xếp thứ tự từ bảng thông tin đơn trị xếp thứ tự, ta sử dụng cách tiếp cận lý thuyết tập thô Từ bảng thông tin đơn trị xếp thứ tự, ta xây dựng bảng thông tin nhị phân Trong bảng thông tin nhị phân, ta xét tất cặp đối tượng thuộc tích đề U × U Hàm chuyển định nghĩa sau:
1, ,
0,
a a
a
x y
I x y
x y
f
p (5) Các biểu diễn luật bảng thông tin xếp thứ tự chuyển đổi thành biểu diễn luật bảng thông tin nhị phân Ví dụ: x a y chuyển thành Ia x y, 1 Trong trình chuyển đổi, ta không xét cặp đối
tượng (x, x)
Trong bảng thông tin nhị phân, ta định nghĩa quan hệ tương đương EB tập thuộc tính BA:
( , )x y EB( ', ')x y ( a B I) a( , )x y Ia( ', ')x y Thuộc tính phân lớp xếp thứ tự oDphân hoạch cặp đối tượng thành hai lớp rời Clo Cl1 Xấp xỉ xấp xỉ Cli i1, 2 tập thuộc tính B xác định sau:
i , , i,
B B
apr Cl x y x y Cl
i , , i ,
B B
apr Cl x y x y Cl o
với , B
x y
lớp tương đương chứa ( , )x y
theo quan hệ tương đương EB
Với lớp tương đương
B
x,y apr Cli
,
ta rút luật xếp thứ tự chắn sau: Des(x y, B) De Cls( i)
Với s( , ) B
De x y Des(Cli) biểu diễn mô tả lớp tương đương tương ứng Với thuộc tính xếp thứ tự aB, ta lấy biểu thức nguyên tố
s( , ) : ( , ) B
De x y a f Ia x y, 1, a,p Ia x y, 0 Sự kết hợp biểu thức nguyên tố Des(x y, B) Des(Cli) biểu diễn hai biểu thức nguyên tố thứ tự phân lớp: o,f
1
i a,p i0
CHỌN MẪU ĐẠI DIỆN TRÊN HỆ THÔNG TIN ĐA TRỊ
(5)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CƠNG NGHỆ 185(09): 103 - 110 nhiều so với kích cỡ tập liệu ban đầu
nên thời gian thực thuật toán tìm tập thuộc tính tối ưu mẫu đại diện giảm thiểu đáng kể Mẫu đại diện bao gồm đối tượng đại diện, đối tượng đại diện lựa chọn sau:
Xét hệ thông tin đa trị ISU AT, , trước hết phân hoạch tập đối tượng U ban đầu tập thuộc tính AT thành lớp tương đương
Hai đối tượng ,u v U thuộc lớp
tương đương S a u S a v với
aAT
Với lớp tương đương, chọn đối tượng đại diện cho lớp tương đương đó, khơng tính chất tổng quát, chọn đối tượng làm đại diện Tập đối tượng đại diện mẫu đại diện chọn Thuật toán chọn mẫu đại diện hệ thông tin đa trị mô tả sau:
Thuật toán Chọn mẫu đại diện hệ thông tin đa trị
Đầu vào: Hệ thông tin đa trị ban đầu
,
IS U AT với U u1, ,un,
1, , m AT a a
Đầu ra: Hệ thông tin đa trị mẫu
,
P P
IS U AT với UPU mẫu đại diện
Bước 1: Đặt UP ;
Bước 2: Với aiAT i, 1 m, tính phân hoạch /
i
i a
U a u u U
với
i i
i a a
a
u v U S u S v
Bước 3: Tính phân hoạch
/ AT
U AT u uU với
1 m i
m
AT a a i a
u u u u
Giả sử U AT/ X1, ,Xk
1, , l
i i i
X u u với i1 k
Bước 4: Với XiU AT/ , i1 k, đặt
1
:
P P i
U U u ;
Bước 5: Return ISPUP,AT;
Ví dụ Cho hệ thơng tin đa trị (bảng 1)
Bảng 1.Hệ thông tin đa trị
U
1
a a2 a3 a4
u {1} { 1} {1} {0}
2
u {0} {0, 1} {1} {0}
3
u {0, 1} {0, 1} {0} {1}
4
u {1} {0, 1} {1} {1}
5
u {0, 1} {0, 1} {1} {1}
6
u {0} {1} {1} {0, 1}
7
u {0, 1} {1} {0} {0, 1}
8
u {0} {1} {1} {0}
9
u {0, 1} {0, 1} {0} {1}
Ta có:
a1 1 a1 4 1, 3, 4, 5, 7, 9
S u S u u u u u u u ,
a1 3 a1 5 a1 7 a1 9
S u S u S u S u U,
1
2, 3, 5, 6, 7, 8,
a a a
S u S u S u
u u u u u u u
Do đó:
1 4 8 9
/ , , , , , , , ,
U a u u u u u u u u u
Tính tốn tương tự, ta có U / a2 U,
3 8 9
/ , , , , , , , ,
U a u u u u u u u u u ,
4 8 9 7
/ , , , , , , , ,
U a u u u u u u u u u Từ ta có
1
5
, , , , , ,
/
, ,
u u u u u u
U AT
u u u
Tập đối tượng đại diện chọn
1, 2, 3, 4, 5, 6, 7 P
U u u u u u u u hệ thông tin đa trị đại diện ISPUP,AT chọn Bảng Đánh giá độ phức tạp thuật toán:
Giả sử k số thuộc tính điều kiện, n số đối
tượng Xét Bước 2, với aiA,i1 m, độ phức tạp ,
i a
S u uU O( n )2 , độ
phức tạp để tính phân hoạch U/ ai
(6)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CƠNG NGHỆ 185(09): 103 - 110 O( n log n ) Do đó, độ phức tạp
Thuật tốn O( kn )2
Bảng 2.Hệ thơng tin đa trị mẫu từ Bảng 1
U
1
a a2 a3 a4
u {1} { 1} {1} {0}
2
u {0} {0, 1} {1} {0}
3
u {0, 1} {0, 1} {0} {1}
4
u {1} {0, 1} {1} {1}
5
u {0, 1} {0, 1} {1} {1}
6
u {0} {1} {1} {0, 1}
7
u {0, 1} {1} {0} {0, 1}
Thực nghiệm minh họa thuật toán
Mơi trường thực nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Việc thực nghiệm Thuật toán thực số liệu tập giá trị chuyển đổi từ số liệu kho liệu [12] Với số liệu, giả sử
U số đối tượng, A số thuộc tính điều kiện Các thuộc tính điều kiện đánh số thứ tự từ đến A
Cho hệ thông tin đa trị ban đầu
,
IS U AT hệ thông tin đa trị mẫu
,
P P
IS U AT , trước hết báo chứng minh bổ đề sau:
Bổ đề Nếu upU đối tượng đại diện chọn ISU AT, sao cho
B p AT p
S u S u với BAT ta có SB up SAT up ISPUP,AT
với upUp
Chứng minh Trên ISU AT, , giả sử
AT p p AT
S u u X, với
p AT
u u ta có SAT u SAT up Từ SB up SAT up suy
B p AT p
S u S u Y Xét đối tượng yY, ySAT up nên ySAT u với
mọi p
AT
u u , SAT y khơng chứa u
với p
AT
u u , nghĩa
,
P P
IS U AT , SAT yp không chứa up với yp đối tượng đại diện lớp tương đương chứa y ISU AT, (i)
Mặt khác, từ giả thiết
AT p p AT
S u u X, với xX
AT
xS u với u up AT, hay SAT x chứa u với u up AT Với đối tượng y xét rõ ràng p
AT
y u , giả sử AT
y x với xX SAT y SAT x
và SAT y chứa u với u up AT, nghĩa ISPUP,AT, SAT yp chứa up với yp đối tượng đại diện lớp tương đương chứa y, điều mâu thuẫn với (i) Do
AT
y x với xX Với giả thiết AT p p
AT
S u u X
,
P P
IS U AT , SAT up up Xp với
p
X tập đối tượng đại diện đối tượng thuộc X Với giả thiết
B p AT p
S u S u Y kết chứng minh yY, y x AT với xX
,
P P
IS U AT , SB up up XpYp
(7)Phùng Thị Thu Hiền Tạp chí KHOA HỌC & CƠNG NGHỆ 185(09): 103 - 110
yY Do ta kết luận ISPUP,AT,
B p AT p
S u S u , (đpcm)
Từ kết Bổ đề 1, tác giả chứng minh tập thuộc tính tối ưu hệ thơng tin đa trị ban đầu tập thuộc tính tối ưu hệ thông tin đa trị mẫu
Giả sử RAT tập thuộc tính tối ưu hệ thông tin đa trị ban đầu ISU AT, ,
R AT
S u S u với uU B R
tồn uU cho SB u SAT u a) Từ SR u SAT u với uU
,
IS U AT dễ dàng suy
R p AT p
S u S u với upUP
,
P P
IS U AT
b) Khơng tính tổng qt, giả sử BR tồn uUsao cho SB u SAT u
,
IS U AT
Nếu u đối tượng đại diện chọn p
uu SB u SAT u ISU AT, , theo Bổ đề SB up SAT up
,
P P
IS U AT (i)
Nếu u đối tượng đại diện
,
IS U AT , giả sử up đối tượng đại diện lớp tương đương up ATchứa u và up, p
AT AT
u u
Do B R AT nên từ up AT u AT tacũng suy up B uB Từ up AT u AT ta có
i i
p a a
u u
với aiAT, theo cách xây dựng phân
hoạch ta có
i p i
a a
S u S u với i
a AT,
1 i 1 i
m m
AT p i a p i a AT
S u S u S u S u
Từ p B B
u u
, cách tương tự ta suy
ra SB up SB u Theo giả thiết,
B AT
S u S u nên ta thu
B p AT p
S u S u ISU AT, , theo Bổ đề ta có SB up SAT up
,
P P
IS U AT (ii)
Như vậy, hai trường hợp (i) (ii) ta có SB up SAT up ISPUP,AT, từ kết luận tồn BR cho
B p AT p
S u S u Từ a) b) theo định
nghĩa ta có RAT tập thuộc tính tối ưu hệ thông tin đa trị mẫu
,
P P
IS U AT KẾT LUẬN
Bài báo đề xuất thuật tốn chọn mẫu đại diện hệ thơng tin đa trị sử dụng lý thuyết tập thô Đồng thời báo trình bày khai phá luật xếp thứ tự phương pháp chuyển đổi hệ thông tin đơn trị xếp thứ tự thành hệ thông tin nhị phân, từ áp dụng kỹ thuật khai phá luật sử dụng lý thuyết tập thô truyền thống Định hướng nghiên cứu đề xuất phương pháp tìm tập thuộc tính tối ưu hiệu hệ định đa trị
TÀI LIỆU THAM KHẢO
1 Pawlak Z., Rough sets, International Journal of Information and Computer Sciences, 11(5), 1982, pp 341-356
2 Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991
3 S Tsumoto, Modelling medical diagnostic rules based on rough sets, Rough Sets and Current Trends in Computing, Lecture Notes in Artificial Intelligence, 1424, Springer-Verlag, Berlin, pp 475-482, 1998
4 Lang G M., Lia Q G., Data compression of dynamic set-valued information systems, CoRR abs/1209.6509, 2012
5 Wang C Z., Chen D G., Wuc C., Hu Q H., Data compression with homomorphism in covering information systems, International Journal of Approximate Reasoning 52, 2011, pp 519–525