Đặt B = {b, c}, ξ= (Đại học, FORTRAN), η= (Thạc sĩ, COBOL), với ξ, η ∈ dom(B), ta có
S(ξ, η) = min{s(Đại học, Thạc sĩ), s(FORTRAN, COBOL)} = min{0.8,0.9}= 0.8.
Mặt khác, với E ={Đại học,Trung cấp} ⊆Ib và Thạc sĩ ∈Ib, ta có
µ(Thạc sĩ, E) = max{s(Thạc sĩ, Đại học), s(Thạc sĩ, Trung cấp)} = max{0.8,0.3}= 0.8.
Như vậy, ξ=0.8 η và Thạc sĩ ∈0.8 E.
3.4.2. Phụ thuộc mở rộng và các tính chất
Dựa trên quan hệ α−tương tự trên các tập giá trị, chúng ta sẽ đưa ra các khái niệm phụ thuộc hàm và phụ thuộc đa trị mở rộng. Một cách chính xác, chúng ta có các định nghĩa sau
Định nghĩa 3.2. ChoX, Y ⊆Avàα, β ∈[0,1]. Ta nóiY là(α, β)−phụ thuộc hàm vào X trên U và ký hiệu X −→α,β Y nếu
∀u, v ∈U :u(X) =α v(X)⇒u(Y) =β v(Y).
Khi α =β = 1 ta nhận được định nghĩa phụ thuộc hàm kinh điển.
Định nghĩa 3.3. Cho X, Y ⊆A (với X∩Y =∅, X ∪Y A) và α, β ∈[0,1]. Đặt
Z = A\(X ∪Y). Ta nói Y là (α, β)−phụ thuộc đa trị vào X trên U, và ký hiệu
X →→α,β Y, nếu với mọi cặp đối tượng u, v ∈ U sao cho u(X) =α v(X), tồn tại đối tượng t∈U sao cho t(X) =αu(X), đồng thời thỏa mãn một trong hai điều kiện
a) t(Y) = u(Y)và t(Z) =β v(Z), b) t(Y) =β u(Y) và t(Z) = v(Z).
Rõ ràng, khi α=β = 1 hai điều kiện trên là đồng nhất và trùng với (3.2), nên ta cũng nhận được khái niệm phụ thuộc đa trị kinh điển.
Khi α = 1, nếu X −→1,β Y, ta gọi Y là β−phụ thuộc hàm vào X. Tương tự,
X →→1,β Y thì Y được gọi là β−phụ thuộc đa trị vào X.
Từ các định nghĩa mở rộng trên dễ kiểm tra được rằng, nếu 0 ≤ α ≤ α0 ≤ 1, và 0≤ β0 ≤ β ≤ 1 thì X −→α,β Y (X →→α,β Y) kéo theo X α
0,β0
−→Y (X α
0,β0
→→ Y). Ngoài ra, một số tính chất của phụ thuộc hàm và phụ thuộc đa trị vẫn còn đúng đối với các phụ thuộc mở rộng. Điều đó được khẳng định trong mệnh đề dưới đây
Mệnh đề 3.5. Cho X, Y, Z ⊆A, α, β ∈[0,1]. Khi đó a) Nếu Y ⊆X thì X −→α,β Y, với mọi 0≤β ≤α≤1. b) Nếu X −→α,β Y thì X∪Z −→α,γ Y ∪Z, với γ = min{α, β}. c) Nếu X −→α,β Y và Y −→β,γ Z, thì X −→α,γ Z.
d) Nếu X →→α,β Y và A\(X∪Y)6=∅ thì X →→α,β A\(X∪Y). e) Nếu X −→α,β Y thì X →→α,β Y.
Chứng minh.
a)Hiển nhiên đúng vì nếuY ⊆Xthì với mọi đối tượngu, v ∈U,u(X) =α v(X)
kéo theo u(Y) =β v(Y).
b)Với mọi cặp đối tượngu, v ∈U nếuu(X∪Z) =α v(X∪Z)thìu(Z) =α v(Z)và
u(X) =αv(X). Vì X −→α,β Y nênu(Y) =β v(Y). Do đóu(Y ∪Z) =min{α,β} v(Y ∪Z). Vậy X∪Z −→α,γ Y ∪Z, với γ = min{α, β}.
c) Với mọi cặp đối tượng u, v ∈ U nếu u(X) =α v(X) thì u(Y) =β v(Y) do
X −→α,β Y. Mặt khác, vì Y −→β,γ Z, nên u(Z) =γ v(Z). VậyX −→α,γ Z.
d) Không mất tính tổng quát, giả sửX∩Y =∅. Khi đó, đặt Z =A\(X∪Y), thì Y = A \ (X ∪ Z). Từ X →→α,β Y suy ra với mọi cặp đối tượng u, v ∈ U
mà u(X) =α v(X) thì tồn tại đối tượng t ∈ U sao cho t(X) =α u(X) và t(Y) =
u(Y), t(Z) =β v(Z)hoặc t(Y) =β u(Y), t(Z) = v(Z). Do đó X →→α,β Z.
e) Đặt Z = A \(X ∪Y). Do X −→α,β Y nên với mọi cặp đối tượng u, v ∈ U
mà u(X) =α v(X) ta có v(Y) =β u(Y). Bằng cách chọn t = v ta nhận được
t(X) =α u(X), t(Z) =v(Z) và t(Y) =β u(Y). Vậy X →→α,β Y.
Ví dụ 3.3. Xét hệ thốngA= (U,{X, Y, Z})được cho trong Bảng 3.6, các quan hệ tương tự trên VX, VY và VZ được cho trên Bảng 3.7.
Khi đó, dễ thấy X →/→Y. Nhưng X (0→→.8,0.9)Y.
U X Y Z t1 x1 y1 z1 t2 x2 y2 z1 t3 x3 y3 z2 t4 x3 y1 z2 t5 x1 y3 z3 t6 x1 y2 z3 t7 x4 y1 z1 t8 x4 y1 z2 Bảng 3.6: Dữ liệu của hệ thống. X x1 x2 x3 x4 x1 1 0.8 0.6 0.3 x2 0.8 1 0.9 0.4 x3 0.6 0.9 1 0.4 x4 0.3 0.4 0.4 1 Y y1 y2 y3 y1 1 0.5 0.7 y2 05 1 0.9 y3 0.7 0.9 1 Z z1 z2 z3 z1 1 0.6 0.7 z2 06 1 0.8 z3 0.7 0.8 1
3.4.3. Đặc trưng β−phụ thuộc bằng ma trận phụ thuộc
Trong Mục 3.2. để nghiên cứu phụ thuộc đa trị, chúng ta đã thiết lập ma trận phụ thuộc dựa vào phân hoạch trên các giá trị thuộc tính và đã chứng minh được rằng, X →→Y đúng khi và chỉ khi ma trận phụ thuộc là dầy đặc, tức là mọi phần tử của ma trận đều có giá trị 1. Trong trường hợp ma trận phụ thuộc là gần đặc
(tức là chứa phần lớn các số 1), thì ta cũng nhận được một phụ thuộc đa trị xấp xỉ (tức là bỏ đi một số ít đối tượng nào đó của bảng dữ liệu thì nhận được phụ thuộc đúng). Trên cơ sở các kết quả này, một thuật toán kiểm chứng phụ thuộc và phụ thuộc xấp xỉ dựa vào ma trận phụ thuộc cũng đã được thiết lập. Phát triển ý tưởng đó, ở đây chúng ta sẽ xây dựng một ma trận có vai trò tương tự trong việc xác định
β−phụ thuộc đa trị.
Giả sử X, Y ⊆ A và U/X = {U1, U2,· · · , Um}. Rõ ràng, X →→1,β Y đúng trên U khi và chỉ khi X →→1,β Y đúng trên mọi Ui. Do đó, ở đây ta chỉ hạn chế việc kiểm tra phụ thuộc trên mỗi Ui cố định. Ký hiệu Z = A\(X ∪Y). Giả sử
dom(Ui, Y) = {ξ1, ξ2,· · · , ξp(i)}vàdom(Ui, Z) = {η1, η2,· · · , ηq(i)}. Với mỗi ξj,ηkta ký hiệu
Ej :={t(Z)|t∈Ui; t(Y) = ξj} ⊆dom(Ui, Z);
Fk:={t(Y)|t∈Ui; t(Z) = ηk} ⊆dom(Ui, Y).
Ta gọi ma trận phụ thuộc mở rộng, tương ứng với lớp Ui, là Di = (djk)p(i)×q(i), với các thành phần djk được xác định bởi:
djk := max{µ(ξj, Fk), µ(ηk, Ej)}.
Ma trận Di được gọi là β−dầy đặc nếu với mọi j, k ta đều có djk ≥ β, hay, một cách tương đương: hoặc ξj ∈β Fk hoặc ηk ∈β Ej.
Tương tự như phụ thuộc đa trị kinh điển, β−phụ thuộc đa trị cũng có thể được đặc trưng hoàn toàn bằng họ các ma trận phụ thuộc mở rộng Di. Điều đó được khẳng định trong định lý sau
Định lý 3.6. Y là β−phụ thuộc đa trị vào X khi và chỉ khi Di là β−dầy đặc, với mọi 1≤i≤m.
Chứng minh.
Giả sử X →→1,β Y. Chúng ta sẽ chứng minh mọi Di đều là ma trận β−dầy đặc. Thật vậy, với mọi 1≤j ≤p(i) và 1≤k ≤ q(i), tồn tại hai đối tượng u, v ∈Ui sao cho u(Y) = ξj và v(Z) = ηk. Vì u và v cùng thuộc lớp Ui nên u(X) = v(X). Theo định nghĩa của β−phụ thuộc đa trị, tồn tại đối tượng t ∈ Ui thoả mãn một trong hai điều kiện sau
a) t(Y) = u(Y) =ξj và t(Z) =β v(Z) =ηk, b) t(Y) =β u(Y) = ξj và t(Z) = v(Z) =ηk.
Nếu trường hợp a) xãy ra thì t(Z)∈Ej vàηk =β t(Z). Do đó,µ(ηk, Ej)≥β. Tương tự, nếu b) xãy ra thì µ(ξj, Fk)≥ β. Cả hai trường hợp đó đều dẫn đến djk ≥β. Vì điều này đúng với mọi djk nên Di là ma trận β−dầy đặc.
Ngược lại, giả sử mọi Di đều là ma trận β− dầy đặc. Cho hai đối tượng tuỳ ý u, v ∈ U thoả mãn u(X) =v(X). Lúc đó, u và v phải thuộc cùng một lớp tương đương Ui nào đó. Đặt ξj =u(Y) vàηk =v(Z). Do djk ≥β nên ta có
i) hoặcµ(ξj, Fk)≥β, ii) hoặc µ(ηk, Ej)≥β.
Nếu i) đúng thì tồn tại t ∈Ui sao cho t(Z) =ηk =v(Z) và t(Y) =β ξj =u(Y), còn nếu ii) đúng thì tồn tại t ∈ Ui sao cho t(Y) = ξj = u(Y) và t(Z) =β ηk = v(Z). Trong cả hai trường hợp,tđều thoả mãn điều kiện của Định nghĩa 3.3. VậyX →→1,β Y
và định lý đã được chứng minh.
Ví dụ 3.4. Xét hệ thốngA= (U,{X, Y, Z})được cho trong Bảng 3.8, các quan hệ tương tự trên VY vàVZ được cho trên Bảng 3.9.
U X Y Z t1 x1 y1 z1 t2 x1 y2 z1 t3 x1 y3 z2 t4 x1 y1 z2 t5 x1 y3 z3 t6 x1 y2 z3 t7 x2 y1 z1 t8 x2 y1 z2 Bảng 3.8: Bảng dữ liệu. Y y1 y2 y3 y1 1 0.5 0.7 y2 05 1 0.9 y3 0.7 0.9 1 Z z1 z2 z3 z1 1 0.6 0.7 z2 06 1 0.8 z3 0.7 0.8 1
Khi đó, ta có X →→1,0.8 Y.
U/X ={U1, U2}, với U1 ={t1, t2, t3, t4, t5, t6} và U2 ={t7, t8}. Trên lớp U1 ta có dom(U1, Y) ={y1, y2, y3}, dom(U1, Z) ={z1, z2, z3}và
E1 ={t(Z)|t ∈U1, t(Y) =y1}={z1, z2}; E2 ={t(Z)|t ∈U1, t(Y) =y2}={z1, z3}; E3 ={t(Z)|t ∈U1, t(Y) =y3}={z2, z3}; F1 ={t(Y)|t ∈U1, t(Z) = z1}={y1, y2}; F2 ={t(Y)|t ∈U1, t(Z) = z2}={y1, y3}; F3 ={t(Y)|t ∈U1, t(Z) = z3}={y2, y3}.
Từ đó các phần tử của ma trận D1 được xác định bởi:
d11 = max{µ(y1, F1), µ(z1, E1)}= max{1; 1}= 1; d12 = max{µ(y1, F2), µ(z2, E1)}= max{1; 1}= 1; d13 = max{µ(y1, F3), µ(z3, E1)}= max{0.7; 0.8}= 0.8; d21 = max{µ(y2, F1), µ(z1, E2)}= max{1; 1}= 1; d22 = max{µ(y2, F2), µ(z2, E2)}= max{0.9; 0.8}= 0.9; d23 = max{µ(y2, F3), µ(z3, E2)}= max{1; 1}= 1; d31 = max{µ(y3, F1), µ(z1, E3)}= max{0.9; 0.7}= 0.9; d32 = max{µ(y3, F2), µ(z2, E3)}= max{1; 1}= 1; d33 = max{µ(y3, F3), µ(z3, E3)}= max{1; 1}= 1.
Tương tự, trên lớp U2 ta códom(U2, Y) ={y1},dom(U2, Z) = {z1, z2}và bằng tính toán đơn giản ta thu được các phần tử của ma trận D2 là d11=d12 = 1.Tóm lại, ta được
D1 = 1 1 0.8 1 0.9 1 0.9 1 1 , D2 = 1 1 .
Rõ ràng với β ≤ 0.8 thì cả hai ma trận D1 và D2 đều β−dầy đặc. Do đó
X →→1,β Y, với mọi β ≤0.8. Trong khi đó, nếuβ >0.8thìD1 không β−dầy đặc nên
X
1,β
→/→Y.
3.4.4. Thuật toán kiểm định β−phụ thuộc đa trị
Từ Định lý 3.6, chúng ta thấy việc kiểm tra phụ thuộc dạng X →→1,β Y thực chất là kiểm tra tính β−dầy đặc của tất cả các ma trân phụ thuộc mở rộng Di. Vì vậy trước hết chúng ta cần xây dựng thuật toán tính các ma trận Di và sau đó sẽ thiết lập thuật toán kiểm định β−phụ thuộc. Cũng cần lưu ý là họ các lớp tương đương U/X = {U1, U2,· · · , Um} có thể nhận được sau một phép sắp xếp các đối tượng trongU theo thứ tự các giá trị trong dom(X). Vì vậy, thuật toán sau chỉ tính
Di đối với một Ui cho trước.
Thuật toán 3.4. Tính Di. Input:
Tập thuộc tính A, các tập conX, Y ⊆A,
Lớp tương đương thứ i của quan hệ IND(X):Ui, Các quan hệ tương tự trên các thuộc tính.
Output: Di = (djk)p(i)×q(i).
Method:
1. Tính dom(Ui, Y) ={ξ1, ξ2,· · · , ξp(i)}; dom(Ui, Z) = {η1,· · · , ηq(i)};
2. For j := 1 top(i)do 3. For k:= 1 toq(i) do
4. Begin 5. d1 := 1; { µ(ξj, Fk)} 6. d2 := 1; { µ(ηk, Ej)} 7. Fort ∈Ui do 8. Begin 9. If (t(Z) = ηk) and (S(ξj, t(Y))< d1) then 10. d1 :=S(ξj, t(Y)); 11. If (t(Y) =ξj) and (S(ηk, t(Z))< d2) then 12. d2 :=S(ηk, t(Z)); 13. End. 14. djk := max{d1, d2}; 15. End. Để tínhdom(Ui, Y) = {ξ1, ξ2,· · · , ξp(i)}; dom(Ui, Z) ={η1,· · · , ηq(i)};chúng ta có thể lần lượt thực hiện các thao tác sau:
1. Khởi tạo p(i) =q(i) = 0;dom(Ui, Y) = dom(Ui, Z) ={};
2. For t ∈Ui do 3. Begin 4. If t(Y)6∈dom(Ui, Y) then 5. Begin 6. inc(p(i)); 7. ξp(i) :=t(Y); 8. dom(Ui, Y) := dom(Ui, Y)∪ {ξp(i)}; 9. End;
10. If t(Z)6∈dom(Ui, Z)then 11. Begin 12. inc(q(i)); 13. ηq(i):=t(Z); 14. dom(Ui, Z) := dom(Ui, Z)∪ {ηq(i)}; 15. End; 16. End.
Sử dụng Thuật toán 3.4 ta nhận được thuật toán kiểm định β−phụ thuộc đa trị như sau:
Thuật toán 3.5. Kiểm định β−phụ thuộc đa trị. Input:
Tập đối tượng U,
Tập thuộc tính A, các tập conX, Y ⊆A, Các quan hệ tương tự trên các thuộc tính,
Mức β ∈[0,1].
Output: X →→1,β Y?
Method:
1. Phân hoạch U/X ={U1, U2,· · · , Um}; 2. OK:=True; i:=0;
3. Repeat
4. inc(i);
5. Tính Di;
6. If Di không β−dầy đặc then
8. Until (Not OK) or (i=m).
3.5. Kết luận
Như vậy, bằng hai cách tiếp cận khác nhau, trong chương này chúng ta đã mở rộng các khái niệm phụ thuộc hàm và phụ thuộc đa trị là những định nghĩa mở rộng của các khái niệm phụ thuộc kinh điển. Các phụ thuộc này nói chung là các phụ thuộc xấp xỉ của hệ thống. Cách thứ nhất, chúng ta thu hẹp miền tác động của phụ thuộc hàm và phụ thuộc đa trị, nếu miền này "đủ lớn" thì phụ thuộc tương ứng sẽ được chấp nhận kèm theo đánh giá "sai số". Cách thứ hai, sử dụng quan hệ tương tự giữa các giá trị của những thuộc tính, theo cách tiếp cận này, chúng ta đã đưa ra các khái niệm (α, β)− phụ thuộc hàm và phụ thuộc đa trị, Việc đưa ra các khái niệm mới này là thực sự có ý nghĩa trong thực tế bởi nhiều lý do khác nhau. Ngoài việc chứng minh một số tính chất cơ bản của các phụ thuộc mở rộng, dựa vào ma trận phụ thuộc, chúng tôi còn đưa ra được một tiêu chuẩn đại số để xác định một phụ thuộc hàm, một phụ thuộc đa trị đồng thời đưa ra thuật toán tìm tất cả phụ thuộc tối tiểu. Đối với các phụ thuộc theo nghĩa mở rộng, cũng bằng cách sử dụng họ các ma trận phụ thuộc, chúng tôi đã đưa ra thuật toán kiểm định phụ thuộc xấp xỉ và (1, β)− phụ thuộc đa trị. Đối với trường hợpα <1, việc kiểm chứng phụ thuộc đa trị sẽ phức tạp hơn và không thể dùng họ các ma trận phụ thuộc. Bởi vì họ này được xây dựng dựa trên các lớp tương đương của quan hệ không phân biệt trên X, trong khi với α < 1 thì quan hệ α−tương tự không còn là quan hệ tương đương nữa. Vì vậy trong vấn đề nghiên cứu mở rộng phụ thuộc đa trị, việc xây dựng tiêu chuẩn kiểm định (α, β)−phụ thuộc vớiα vàβ tuỳ ý là một bài toán còn có thể được tiếp tục nghiên cứu.
Chương
PHẦN KẾT LUẬN
Phát hiện luật theo tiếp cận của lý thuyết tập thô do Z. Pawlak [24] đề xuất là một trong những phương pháp đang được nhiều nhà khoa học nghiên cứu và sử dụng trong quá trình khai phá tri thức từ dữ liệu. Do dữ liệu thực tế thường đa dạng, không đầy đủ, thiếu chính xác mà lại dư thừa nên việc chọn lọc thuộc tính được đặt ra nhằm loại bỏ các thuộc tính dư thừa mà vẫn giữ được đầy đủ ý nghĩa của bảng dữ liệu đang xét. Ngoài ra, việc phát hiện các mối ràng buộc vốn có trong dữ liệu cũng cho các nhà nghiên cứu và quản lý có một cái nhìn đầy đủ hơn với dữ liệu họ đang có. Đó là những vấn đề chính luận án nghiên cứu. Kết quả của luận án có thể trình bày tóm lược như sau:
1. Xây dựng các thuật toán heuristic tìm tập rút gọn của bảng quyết định với độ phức tạp theo thời gian là đa thức. Các thuật toán này được xây dựng trên cơ sở đưa ra tiêu chuẩn đánh giá một tập con các thuộc tính điều kiện là tập rút gọn. Hai thuật toán đầu dựa trên độ phụ thuộc của tập thuộc tính điều kiện và khả năng đóng góp của một thuộc tính được tính toán chỉ trên các phép toán của đại số quan hệ. Thuật toán thứ ba dựa vào số cặp đối tượng phân biệt được trên một tập thuộc tính cho trước. Ý tưởng của thuật toán này dựa trên ma trận phân biệt được. Tuy nhiên, kích thước của ma trận này rất lớn đối với bảng dữ liệu lớn, vì vậy việc tìm kiếm tập rút gọn theo ma trận này như
phương pháp trình bày trong [26, 27] khó thực hiện. Thuật toán trong luận án đề nghị không hề tính toán các phần tử của ma trận.
2. Xây dựng các thuật toán tìm tập rút gọn xấp xỉ dựa vào các thuật toán trong Phần 1.
3. Thiết lập đặc trưng của phụ thuộc hàm và phụ thuộc đa trị bằng ma trận phụ thuộc.
4. Đưa ra điều kiện cần và đủ cho phụ thuộc đa trị dựa vào quan hệ “không phân biệt được“, từ đó xây dựng thuật toán kiểm định phụ thuộc và phụ thuộc đa trị xấp xỉ.
5. Xây dựng thuật toán tìm kiếm phụ thuộc đa trị tối tiểu vế phải.
6. Mở rộng phụ thuộc hàm và phụ thuộc đa trị dựa vào quan hệ tương tự trên tập giá trị của các thuộc tính và đưa ra các tính chất của phụ thuộc mở rộng.
7. Đặc trưng β−phụ thuộc bằng ma trận phụ thuộc và đưa ra thuật toán kiểm