a. Thuật toỏn[2]
Thuật toỏn được mụ tả ở đõy là một phỏt triển của thuật toỏn Apriori đó được mụ tả ở trờn, gồm hai bước sau:
B1: Tỡm tất cả cỏc mệnh đề quan trọng <X,A> cú độ hỗ trợ vượt ngưỡng độ hỗ trợ nhỏ nhất
B2: Với cỏc mệnh đề <Z,A> đó tỡm được trong B1, xột tập con thực sự X của Z. Xỏc định: cert(<X, A|X> <Z\X, A|Z/X>) = , ghi nhận luật kết hợp <X, A|X> <Z\X, A|Z/X> nếu cert(<X, A|X> <Z\X, A|Z/X>) đạt ngưỡng độ tin cậy nhỏ nhất .
Từ mệnh đề 3.2.3, ta cú nếu <Z,A> là quan trọng thỡ <X, A|X> cũng là quan trọng. Vỡ thế sẽ lưu độ hỗ trợ của cỏc mệnh đề được tỡm thấy trong B1 để sử dụng cho B2.
b. Tỡm mệnh đề[2]
Thuật toỏn sau sử dụng cho pha tỡm kiếm mệnh đề. Sử dụng kớ hiệu X[i] để biểu diễn thuộc tớnh thứ i trong X, A[i] là từ thứ i trong tập từ A, L(I) là tập từ mụ tả thuộc tớnh I, Ck là tập cỏc mệnh đề ứng viờn độ dài k và Sk là tập cỏc tập mệnh đề quan trọng độ dài k.
Thuật toỏn 1 F-Apriori – Tỡm kiếm mệnh đề Vào: D, , LI, MI
Ra S(D, ) Thuật toỏn
1://Khởi tạo tập cỏc ứng viờn độ dài một bằng tất cả cỏc mệnh đề độ dài 1
2: C1:= {<{i},a> |i I, aL(i)} 3: K:=1 ) | , ( sup ) , ( sup X A X p A Z p
4: while Ck {} do
5: //Tớnh độ hỗ trợ của tất cả cỏc mệnh đề ứng viờn
6: for all d D do
7: for all mệnh đề ứng viờn <X,A> Ck do 8: <X,A>.supp:= <X,A>.supp + vote(d,X,A) 9: end for
10: end for
11: //Tỡm tất cả cỏc mệnh đề quan trọng
12: Sk := {<X,A> Ck | <X,A>.supp }
13: //Tạo mệnh đề ứng viờn mới
14: Ck+1 :={}
15: for all <X,A>, <Y,B> Sk , X[i] = Y[i], A[i] = B[i] với 1 i k-1, và X[k] <Y[k] do 16: I:= X {Y[k]} 17: D:= A {B[k]} 18: if J I, |J| = k: <J,D|J > Sk then 19: Ck+1 :=Ck+1 {<I,D>} 20: end if 21: end for 22: k++ 23: end while
Phõn tớch: Thuật toỏn thực hiện quỏ trỡnh tỡm kiếm theo chiều rộng trờn khụng gian tỡm kiếm tất cả cỏc tập mục bằng cỏch khởi tạo tập cỏc tập mục ứng viờn Ck+1, bắt đầu với k = 0 (dũng 2). Một mệnh đề là ứng viờn nếu tất cả cỏc tập con của nú đều đó được biết là quan trọng , đặc biệt C1 sẽ chứa tất cả cỏc mệnh đề độ dài 1 cú thể cú. Cụng việc tạo mệnh đề ở bước k được tiến hành theo hai bước . Đầu tiờn là bước giao, Sk được lấy giao với chớnh nú. Mệnh đề hợp < X
Y, A B> của cỏc mệnh đề <X,A>, <Y,B> Sk được tạo ra nếu chỳng cú chung k-1 tiền tố (dũng 15-16). Trong bước lược bỏ, X Y chỉ được thờm vào Ck+1 nếu tất cảc cỏc mệnh đề con độ dài của nú đều cú trong Sk (dũng 21-22)
Trong dũng 15, chỉ sử dụng phộp so sỏnh bằng giữa cỏc từ mụ tả thuộc tớnh, vỡ thế vấn đề thứ tự trong tập từ mụ tả một thuộc tớnh khụng được đặt ra ở đõy. Từ đú vấn đề sử dụng tập từ mụ tả của thuộc tớnh cú thể rất rộng, bao hàm cả việc sử dụng cỏc gia tử đối với tập từ này, cũng như cỏc phộp toỏn trờn tập từ khỏc.
Để đếm độ hỗ trợ của tất cả cỏc k-tập mục ứng viờn, thuật toỏn tiến hành quột cơ sở dữ liệu và cập nhật độ hỗ trợ của tất cả cỏc tập mục ứng viờn (dũng 6- 10). Tất cả cỏc tập mục phổ biến được cho vào Sk (dũng 12).
Nếu số lượng cỏc mệnh đề độ dài k+1 ứng viờn quỏ lớn để lưu trữ trong bộ nhớ chớnh, qỳa trỡnh tạo ứng viờn sẽ ngừng lại và tiến hành tớnh toỏn độ hỗ trợ của cỏc ứng viờn đó được tạo ra. Nhưng sau đú, trong bước lặp tiếp theo, thay vỡ tớnh cỏc mệnh đề ứng viờn độ dài k+2, phần cũn lại của cỏc mệnh đề ứng viờn độ dài k+1 sẽ được tạo ra và đếm cho đến khi đó sinh được tất cả cỏc mệnh đề quan trọng độ dài k+1
c. Tỡm luật kết hợp
Cho trước tất cả cỏc mệnh đề quan trọng, thuật toỏn sau sinh tất cả cỏc luật kết hợp.
Thuật toỏn 2 F-Apriori – Tỡm luật kết hợp
Vào: D, , LI, MI
Ra S(D, ) Thuật toỏn 1: Tớnh S(D, ) 2: R:={}
3: for all <I*,A> S do 4: C1:= {{i}|iI*} 5: k:=1
6: while Ck {} do
7: //Tỡm tất cả cỏc phần đầu của cỏc luật kết hợp tin chắc
8: Hk := {X Ck | cert(<I\X, A|I*\X> <X, A|X>, D) }
9: // Tạo cỏc phần đầu ứng viờn mới
11: for all X,Y Hk, , X[i] = Y[i] với 1 i k-1, và X[k] <Y[k] do 12: I:= X {Y[k]} 13: if J I, |J| = k: J Hk then 14: Ck+1 :=Ck+1 {I} 15: end if 16: end for 17: k++ 18: end while 19: //Lƣu tất cả cỏc luật kết hợp 20: R:= R (<I*\X, A|I*\X> <X, A|X> | X H1… Hk } 21: end for
Phõn tớch: đầu tiờn, tất cả cỏc tập mục phổ biến được tớnh theo thuật toỏn 1, sau đú, tất cả cỏc tập mục phổ biến I* được chia thành phần đầu ứng viờn Y và phần thõn X=I*\Y. Thuật toỏn tiến hành tạo cỏc phần đầu ứng viờn k+1 Ck+1 bắt đầu với k=0 (dũng 4). Phần đầu sẽ là ứng viờn nếu tất cả cỏc tập con của nú đều đó biết là biểu diễn cho một luật tin tưởng. Quỏ trỡnh tạo cỏc phần đầu ứng viờn này tương tự như quỏ trỡnh tạo tập mục ứng viờn trong thuật toỏn 1 (dũng 10-16). Để tớnh độ tin cậy của luật cú Y là phần đầu, độ hỗ trợ của I và X đó cú từ bước tớnh F. Tất cả ỏcc phần đầu làm cho luật tin tưởng được lưu trong Hk (dũng 8). Cuối cựng tất cả cỏc luật tin tưởng được lưu trong R (dũng 20). Chỳ ý rằng ở đõy mối khi xột một mệnh đề quan trọng, tập từ mụ tả nú là hoàn toàn xỏc định, do đú mặc dự khi kiểm tra chỳng ta phải kiểm tra cỏc từ này, nhưng trong cỏc bước tạo tập ứng viờn chỉ cần quan tõm cỏc thuộc tớnh mà khụng cần quan tõm tới cỏc từ (dũng 8, 12-14)
CHƢƠNG 4
BƢỚC ĐẦU ỨNG DỤNG PHẫP KẫO THEO VÀO TÍNH TOÁN LUẬT KẾT HỢP MỜ
Bài toỏn tỡm luật kết hợp mờ được chia thành hai bài toỏn con:tỡm cỏc mệnh đề,và tỡm cỏc luật, cỏc mệnh đề và cỏc luật phải thoả món một tiờu chớ nào đấy, ở đõy hiểu là độ hỗ trợ và độ chắc chắn vượt ngưỡng do người dựng cung cấp. Trong cỏc bài toỏn thực tế, việc xỏc định cỏc độ đo của luật hay mệnh đề đũi hỏi một mức độ mềm dẻo nhất định để phự hợp với từng bài toỏn cụ thể. Rừ ràng là nếu chỉ xỏc định mức độ thỳ vị theo cỏc cụng thức 3.2.1, 3.2.2, 3.2.3, 3.2.4 và 3.2.5 thỡ mức độ ứng dụng sẽ khụng cao. Cỏc toỏn tử mờ núi chung, phộp kộo theo mờ núi riờng là cụng cụ chủ yếu để xỏc định độ ủng hộ, độ hỗ trợ của một mệnh đề và độ quan trọng cũng như độ chắc chắn của một luật. Vỡ vậy ở chương này vận dụng cỏc toỏn tử mờ và toỏn tử mờ cú ngưỡng trong việc đỏnh giỏ độ thỳ vị của luật và mệnh đề mờ.
4.1. t-chuẩn cú ngƣỡng và độ ủng hộ
Phần này mụ tả cỏc khỏi niệm cơ bản của việc sử dụng t-chuẩn cú ngưỡng trong việc xỏc định độ ủng hộ của một bản ghi đối với một mệnh đề.
Cho t1, t2 là hai t-chuẩn, nghĩa là cỏc hàm đơn điệu khụng giảm theo từng biến từ [0,1]2 [0,1], cú tớnh giao hoỏn, kết hợp và thoả t1(x,1) = t2(x,1) = x với mọi x [0,1],
t1(x,y) t2(x,y) với mọi x,y [0,1], = (x, y) [0,1]2 là miền ngưỡng, ta cú t-chuẩn T cú ngưỡng được xỏc định trờn [0,1]2
như sau: t1(x,y): x x ,y y
T(x,y,) =
t2(x,y): x <x y <y
Xỏc định độ ủng hộ của một bản ghi đối với một mệnh đề thụng qua t- chuẩn cú ngưỡng:
Cho I = {I1,...,In} là tập thuộc tớnh, với mỗi thuộc tớnh Iv, xột Lv = {L1v,....
r v v L } là tập từ mụ tả thuộc tớnh đú, k v là hàm thuộc ứng với từ k v L , với mỗi từ k v L , ta cú k v
là ngưỡng ứng với từ này. Xột t1, t2 là hai t-chuẩn sao cho t1(x,y)
Xộtmệnh đề <X,A> trờn I, trong đú X={ }, A= { ,... }, ta cú độ ủng hộ của d cho <X,A> được xỏc định như sau:
vote(d,X,A) = 1 1 2 2 ( x a, x a ,..., x a ) p p T ( 1 1 a x (d[ 1 x I ]), 2 2 a x (d[ 2 x I ]),…, p p a x (d[ p x I ])) = 1 1 1 1 1 1 2 1 ( ( [ ]), , ( [ ])) : | ( [ ]) ( ( [ ]), , ( [ ])) : | ( [ ]) x x x p i p i i i x x x p i p i i i a a a x x x x x p x i x a a a a x x x x x p x i x a t d I d I i d I t d I d I i d I trong đú, 1 1 2 2 ( x a, x a ,..., x a ) p p
T là một t-chuẩn cú ngưỡng nào đú. Ngưỡng αvk ứng với thuộc tớnh Iv và từ Lkv mụ tả thuộc tớnh này. Việc sử dụng t-chuẩn cú ngưỡng ở đõy rất cú ý nghĩa đối với một số bài toỏn thực tế. Lấy vớ dụ, đối với bệnh nhõn bị sốt, nếu độ thuộc của giỏ trị này vào từ “rất cao” là lớn, rừ ràng cần thiết phải sử dụng những xem xột khỏc với cỏc trường hợp khỏc.
Cỏc miền ngưỡng
i i
x a
đối với mỗi từ mụ tả cũng như cỏc t-chuẩn thành phần t1, t2, … do người sử dụng cung cấp phụ thuộc vào từng bài toỏn phõn tớch dữ liệu cụ thể.
4.2. Độ quan trọng
Độ quan trọng của một mệnh đề đó được xỏc định ở trờn, dựa trờn việc tớch hợp độ ủng hộ của tất cả bản ghi đối với mệnh đề đú. Như thế, nếu ta quan niệm mỗi một bản ghi thể hiện một trường hợp của mệnh đề. Khi đú, việc xỏc định độ quan trọng cú thể sử dụng t-đối chuẩn.
sign(X,A) = s(vote(d1,X,A), vote(d2,X,A),…, vote(dn,X,A)) hoặc t-đối chuẩn cú ngưỡng
sign(X,A) =
1 2
( , , , n)
S (vote(d1,X,A), vote(d2,X,A),…, vote(dn,X,A)) =
1 1 2 1 ( ( , , ), , ( , , )) : | ( , , ) ( ( , , ), , ( , , )) : | ( , , ) n i i n i i
s vote d X A vote d X A i vote d X A s vote d X A vote d X A i vote d X A
Chỳ ý rằng để cú thể sử dụng được thuật toỏn F-Apriori cho pha tỡm kiếm mệnh đề, chỳng ta cần phải xột tớnh đơn điệu của độ ủng hộ và độ quan trọng như trong mệnh đề 3.2.6, 3.2.7. Hai mệnh đề này cú thể dễ dàng kiểm chứng nhờ tớnh đơn điệu của t-chuẩn, t-đối chuẩn
x p x I I1,... xp p a x L 1 1 x a x L
4.3. Độ chắc chắn
Cụng thức 3.2.5 cho ta đỏnh giỏ về độ chắc chắn của một luật kộo theo, theo nghĩa cho ta ước lượng khả năng của sự kiện “Y là B” nếu đó biết “X là A”. Bờn cạnh tiếp cận trờn, trong phần này sẽ mụ tả một số phương phỏp khỏc để xỏc định tiờu chớ này.
Độ quan trọng của một luật cho ta khả năng đỳng đắn của mệnh đề “X là A và Y là B” đối với cơ sở dữ liệu. Đõy chớnh là trường hợp khẳng định của luật. Tuy nhiờn, để đỏnh giỏ luật, ta cũng cú thể xem xột tới khả năng đỳng đắn của cỏc mệnh đề dạng [21]:
Khụng khẳng định luật: “X khụng là A hoặc Y khụng là B”
Phủ định luật: “X là A và Y khụng là B”
Khụng phủ định luật: “X khụng là A hoặc Y là B”
Chỳng ta chỉ quan tõm tới cỏc luật cú độ khẳng định, độ khụng phủ định là đủ lớn và/hoặc độ khụng khẳng định, độ phủ định là đủ nhỏ.
Về mặt lụgớc mệnh đề khụng khẳng định luật là phủ định của mệnh đề khẳng định luật, mệnh đề khụng phủ định luật là phủ định của mệnh đề phủ định luật. Núi cỏch khỏc, cỏc mệnh đề này quan hệ với nhau theo từng cặp đối ngẫu và ta chỉ cần xột một trong hai mệnh đề của từng cặp là đủ. Như thế, để đỏnh giỏ một luật, bờn cạnh mệnh đề khẳng định luật, ta cũng cú thể xem xột tới mệnh đề khụng phủ định luật.
Ta cú độ quan trọng của mệnh đề khụng phủ định luật là:
cert(<X,A> → <Y,B>)= (s(n(sign(X,A)),sign(Y,B))
= iS(sign(X,A),sign(Y,B)) (4.1.1) với n là một hàm phủ định và s là một t-đối chuẩn (tương ứng với phộp “hoặc”) trong lụgớc mờ, iS là phộp kộo theo xỏc định theo t-đối chuẩn s như đó mụ tả trong phần II chương I và chương II.
Bờn cạnh đú, chỳng ta cũng cú thể sử dụng phộp đỏnh giỏ dựa trờn khả năng cú điều kiện như sau.
Độ chắc chắn cert(<X,A> → <Y,B>) là ước lượng của khả năng cú điều kiện Π(<Y,B>|<X,A>). Dựa trờn cỏc nghiờn cứu đó cú về khả năng cú điều kiện [22,23,24] ta cú thể xỏc định độ đo này như sau:
với it là một phộp kộo theo xỏc định dựa trờn t-chuẩn liờn tục t như trong phần II chương I và chương II. Bờn cạnh đú, Π(<X,A>) và Π(<Y,B>|<X,A>) lần lượt là là khả năng (mức độ đỳng đắn) của mệnh đề “X là A” và “Y là B” với điều kiện “X là A”.
Khả năng của một mệnh đề cú ước lượng là độ quan trọng của mệnh đề đú đối với cơ sở dữ liệu. Từ đú, ta cú độ chắc chắn cú thể được xỏc định bằng cỏch:
cert(<X,A> → <Y,B>) = it(sign(X,A),sign(X Y,AB) (4.1.2) Đặc biệt, trong cụng thức trờn, nếu chọn hàm kộo theo it(x,y) = min(y/x,1), ta sẽ cú cụng thức 3.2.5, với chỳ ý là sign(X,A) ≥ sign(XY,A B).
Qua hai vớ dụ trờn, ta cú thể thấy, đối với độ chắc chắn của luật, chỳng ta cú thể sử dụng cả phộp kộo theo dựa trờn t-đối chuẩn hoặc phộp kộo theo dựa trờn t-chuẩn, hay mở rộng ra là phộp kộo theo bất kỳ. Cỏc phộp kộo theo này cú thể được sử dụng theo cả dạng 4.1.1 hay 4.1.2.
Cũng cần chỳ ý rằng, để cú thể sử dụng được thuật toỏn F-Apriori pha tỡm kiếm luật, ta cần cú tớnh đơn điệu của độ chắc chắn, tớnh chất này cú thể dễ dàng kiểm chứng được dựa vào tớnh đơn điệu của độ quan trọng, tớnh đơn điệu của phộp kộo theo.
4.4. Cài đặt thuật toỏn F-Apriori
Sau khi cài đặt thuật toỏn F-Apriori, cỏc bước tiến hành khai thỏc dữ liệu gồm:
Bước 1:Mờ hoỏ số liệu ban đầu
- Chọn nguồn dữ liệu cần khai thỏc, ở bước này: đầu tiờn người dựng nhập vào một tệp tin cú nội dung gồm hai dũng
+ Dũng 1 gồm : Số bản ghi và số thuộc tớnh của CSDL cần khai thỏc dữ liệu.
+ Dũng 2 gồm: số cỏc từ được mờ hoỏ của mỗi thuộc tớnh trong CSDL. Tiếp theo người dựng nhập vào tệp tin chớnh là CSDL cần khai thỏc, chương trỡnh sẽ mờ húa số liệu để chuyển số liệu gốc ban đầu sang số liệu mờ.
- Lưu lại tệp số liệu đó được mờ hoỏ.
Ở bước này người dựng nhập vào tệp tin chứa số liệu đó được mờ hoỏ, sau đú chọn cỏc tham số như t-chuẩn hoặc t-chuẩn cú ngưỡng, độ hỗ trợ, độ chắc chắn để tỡm cỏc mệnh đề, và từ đú đưa ra cỏc luật kết hợp. Kết quả cú thể khỏc nhau tuỳ theo tham số được chọn.
Thuật toỏn đó cài đặt chưa được ứng dụng vào thực tế, chỉ là cỏc CSDL giả định.
Bài toỏn tỡm số liệu về bệnh nhõn rối loạn chức năng gan
Đối với những bệnh nhõn rối loạn chức năng gan thỡ những chỉ số sau đõy cần được tỡm hiểu và đỏnh giỏ trong quỏ trỡnh điều trị bệnh:
- Thể tớch tiểu thể trung bỡnh - Kiềm - Alannine - Atpatac - Glutamin - Tiờu thụ đồ uống cú cồn
Số liệu của cỏc chỉ số trờn được lưu vào một tệp tin dạng text, tệp tin gồm sỏu thuộc tớnh, mỗi chỉ số ứng với một thuộc tớnh.
KẾT LUẬN Những vấn đề đó đƣợc giải quyết trong luận văn.
Luận văn đó tổng hợp những nột chớnh về logớc mờ núi chung và t-chuẩn, t-chuẩn cú ngưỡng, phộp kộo theo mờ núi riờng, bước đầu ỏp dụng t-chuẩn cú ngưỡng để khai thỏc luật kết hợp mờ. Sau đõy là những điểm chớnh mà luận văn