Trong bài báo này, đầu tiên, các tác giả nhắc lại một số khái niệm cơ bản của lý thuyết tập thô, các độ đo lỗi g1, g2, g3 của phụ thuộc hàm. Sau đó, các tác giả đề xuất độ đo lỗi g4 dựa trên phân hoạch và kỳ vọng trong lý thuyết xác suất.... Mời các bạn cùng tham khảo.
Tạp chí Tin học Điều khiển học, T.30, S.2 (2014), 163–176 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ THEO PHÂN HOẠCH, MA TRẬN PHÂN BIỆT ĐƯỢC VÀ LUẬT KẾT HỢP TRẦN DUY ANH Trường Cao Đẳng Sư Phạm Thừa Thiên Huế; duyanh208@gmail.com Tóm tắt Các phụ thuộc hàm xấp xỉ luật kết hợp tri thức thực có ý nghĩa khai phá liệu Trong báo này, đầu tiên, nhắc lại số khái niệm lý thuyết tập thô, độ đo lỗi g1 , g2 , g3 phụ thuộc hàm Sau đó, chúng tơi đề xuất độ đo lỗi g4 dựa phân hoạch kỳ vọng lý thuyết xác suất Phần xây dựng ma trận phân biệt theo cách khác biểu diễn độ đo lỗi g1 , g2 , độ phụ thuộc γ ý nghĩa thuộc tính σ theo ma trận phân biệt Cuối cùng, đưa mối liên hệ phụ thuộc hàm xấp xỉ luật kết hợp thông qua độ đo lỗi g4 độ tin cậy Confidence Từ khóa Phụ thuộc hàm xấp xỉ, luật kết hợp Abstract Approximate Functional Dependencies (AFD) and Association Rules are really meaningful knowledge in data mining In this article, we first recall some basic concepts of rough set theory, error measures g1 , g2 and g3 for functional dependencies Then, based on the method of partitions and expectation in probability theory, we propose an error measure g4 to construct the discernibility matrix in a different way, defined error measures g1 , g2 , dependency degree γ and significance of Attributes σ from the discernibility matrix Finally, a relationship between AFD and Association Rules via error measure g4 and confidence is presented Key words Approximate Functional Dependencies, association rules MỞ ĐẦU Phụ thuộc hàm xấp xỉ (Approximate Functional Dependencies) tri thức biểu diễn phụ thuộc phần thuộc tính Nó mở rộng phụ thuộc hàm, phụ thuộc hàm xấp xỉ cho phép có số lượng lỗi định liệu phụ thuộc hàm Để nghiên cứu loại phụ thuộc Kivinen, Mannila [5] đưa độ đo lỗi g1 , g2 , g3 phụ thuộc hàm Sau có nhiều tác giả nghiên cứu thuật toán để phát phụ thuộc hàm xấp xỉ Huhtala, Karkkainen, Porkka, Toivonnen [4], Stéphane Lopes, Jean-Marc Petit, Lotfi Lakhal [6], Daniel Sánchez, José María Serano, Ignacio Blanco, Maria José Martin-Bautista, María Amparo Vila [7], Phụ thuộc hàm xấp xỉ có nhiều ứng dụng phân tích liệu đánh giá thơng tin rút gọn thuộc tính dư thừa[11], tìm kiếm xấp xỉ [3], Ngoài ra, tri thức tiềm ẩn sở liệu chẳng hạn như: “Khách hàng mua sữa bánh mì thường mua thêm bơ”, “Những du khách đến du lịch Huế mua tôm chua kẹo mè xững thường mua thêm bánh lọc” Những tri thức luật kết hợp (Association Rules) Luật kết hợp đưa nhà nghiên cứu Agrawal SriKant vào năm 1994 [1] có nhiều thuật tốn để phát luật kết hợp thuật toán Apriori [1], Eclat [8], FP-Growth [12] 164 TRẦN DUY ANH Trong báo này, đầu tiên, chúng tơi tìm hiểu độ đo lỗi g1 , g2 , g3 Kivinen, Mannila [5] Sau đó, chúng tơi đề xuất độ đo lỗi g4 phụ thuộc hàm tìm mối liên hệ phụ thuộc hàm xấp xỉ luật kết hợp thông qua g4 Tiếp theo, xây dựng ma trận phân biệt theo cách khác, từ biểu diễn độ đo lỗi g1 , g2 , độ phụ thuộc γ ý nghĩa thuộc tính σ thơng qua ma trận phân biệt MỘT SỐ KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT TẬP THƠ Định nghĩa 2.1 [1, 9] (Quan hệ khơng phân biệt được) Cho r(R) Khi đó, với X ⊆ R, tồn quan hệ không phân biệt φ(X) r định nghĩa sau: ∀t, u ∈ r, (t, u) ∈ φ(X) ⇔ t[X] = u[X] Định nghĩa 2.2 [1, 9] (Lớp tương đương phân hoạch) Quan hệ φ(X) phân hoạch r thành lớp tương đương Lớp tương đương t ∈ r ứng với tập X ⊆ R, ký hiệu [t]X , định nghĩa sau: [t]X = {u ∈ r|t[A] = u[A] ∀A ∈ X}, [t]X = ∅ Khi đó, πX = {[t]X |t ∈ r} phân hoạch r ứng với X Lực lượng π, ký hiệu |π|, số lớp tương đương π Cho U ∈ πX Khi đó, ta quan niệm rằng, U thỏa phụ thuộc hàm X → Y , ký hiệu U | = X → Y với t, u ∈ U cho t[X] = u[X], t[Y ] = u[Y ] Bổ đề 2.1 [4] X → Y |πX | = |πXY | Định nghĩa 2.3 [4] (Phân hoạch thu gọn) Phân hoạch thu gọn π, ký hiệu π ˆ π ˆ = {U ∈ π||U | > 1} Để giảm độ phức tạp tính tốn làm việc với phân hoạch, ta dùng phân hoạch thu gọn thay cho phân hoạch Định nghĩa 2.4 [1] (Không gian dương) Không gian dương tập thuộc tính X ứng với tập thuộc tính Y định nghĩa sau: P OS(X, Y ) = ∪{U ∈ πX |∃V ∈ πY : U ⊆ V } Định nghĩa 2.5 [1] (Độ phụ thuộc) Tập thuộc tính Y phụ thuộc vào tập thuộc tính X với mức độ γ(X, Y ) ∈ [0, 1], ký hiệu X −→γ(X,Y ) Y , γ(X, Y ) xác định sau: | P OS (X, Y ) | γ(X, Y ) = |r| Định nghĩa 2.6 [9](Bảng định) Bảng định S = (r, R) bảng liệu với cột tương ứng với tập thuộc tính R hàng tập đối tượng (bộ) r Tập thuộc tính R phân thành tập thuộc tính điều kiện C tập thuộc tính định D, R = C ∪ D, C ∩ D = ∅ Định nghĩa 2.7 [9] (Ý nghĩa thuộc tính) Ý nghĩa thuộc tính đo độ quan trọng thuộc tính bảng liệu, nghĩa ta xem xét độ phụ thuộc γ(C, D) thay đổi 165 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ ta loại bỏ thuộc tính Ai khỏi tập thuộc tính điều kiện C Từ đó, ý nghĩa thuộc tính Ai định nghĩa sau: σC∪D (Ai ) = γ(C − {Ai } , D) γ (C, D) − γ(C − {Ai } , D) =1− γ (C, D) γ (C, D) Định nghĩa 2.8 [9] (Ma trận phân biệt được) Cho r = {t1 , t2 , , tn } Ma trận phân biệt S = (r, R), ký hiệu M (S) = (mij )|r|×|r| ma trận đối xứng mà phần tử tập hợp thuộc tính, xác định sau: mij = {Ai ∈ C|ti (Ai ) = tj (Ai )} ti (D) = tj (D) ∅ ti (D) = tj (D) với i, j = 1, n CÁC ĐỘ ĐO LỖI CỦA PHỤ THUỘC HÀM Để xác định phụ thuộc hàm xấp xỉ, Kivinen Mannila [5] đưa số độ đo để tính tốn lỗi phụ thuộc hàm sau: Định nghĩa 3.1 [5] (Độ đo lỗi g1 ) Cho quan hệ r(R) Khi đó, độ đo lỗi g1 phụ thuộc hàm X → Y r xác định sau: g1 (X → Y, r) = |{(ti , tj )|ti , tj ∈ r, ti [X] = tj [X], ti [Y ] = tj [Y ]}| |r|2 Định nghĩa 3.2 [5] (Độ đo lỗi g2 ) Cho quan hệ r(R) Khi đó, độ đo lỗi g2 phụ thuộc hàm X → Y r xác định sau: g2 (X → Y, r) = |{ ti | ti ∈ r, ∃tj ∈ r : ti [X] = tj [X] , ti [Y ] = tj [Y ] } | |r| Định nghĩa 3.3 [5](Độ đo lỗi g3 ) Cho quan hệ r(R) Khi đó, độ đo lỗi g3 phụ thuộc hàm X → Y r xác định sau: g3 (X → Y, r) = − max |s| s ⊆ r, s = X → Y |r| BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ THEO PHÂN HOẠCH Độ phụ thuộc γ thuận tiện việc xem xét hệ tiên đề Armstrong số phép toán đại số quan hệ phụ thuộc hàm xấp xỉ [1] Tuy nhiên thuật toán [4, 10] dùng độ đo lỗi g3 để phát phụ thuộc hàm xấp xỉ Trong thuật tốn độ đo lỗi g3 tính theo phân hoạch dựa vào Bổ đề 2.1 sau: Định nghĩa 4.1 [4] (Độ đo lỗi g3 theo phân hoạch) Cho quan hệ r(R) Khi đó, độ đo lỗi phụ thuộc hàm X → Y xác định sau: |r| − g3 (X → Y, r) = max { |V | | V ∈ πXY , V ⊆ U } U ∈πX |r| 166 TRẦN DUY ANH Tính chất 4.1 [10](Mối liên hệ g3 γ) Cho độ phụ thuộc γ(X, Y ) = |P OS (X, Y ) | · |r| độ đo lỗi g3 (X → Y, r) phụ thuộc hàm X → Y Khi đó, ta có: max { |V | | V ∈ πXY , V ⊂ U } g3 (X → Y, r) = − γ(X, Y ) − U ∈πX |r| Định nghĩa 4.2 [10](Độ đo lỗi g3 theo phân hoạch thu gọn) Độ đo lỗi g3 (X → Y, r) từ phân hoạch thu gọn xác định sau: (|U | − max {|V | |V ∈ π ˆXY , V ⊂ U }) + g3 (X → Y, r) = {(|U | | ∃V ∈ π ˆXY , V ⊂ U ) − 1} U ∈ˆ πX U ∈ˆ πX |r| Bây chúng tơi đưa số tính chất nhận xét để xây dựng độ đo lỗi g4 phụ thuộc hàm X → Y Tính chất 4.2 Cho quan hệ r(R) X, Y ⊆ R Khi đó, X → Y phụ thuộc |V |2 |U |2 = hàm V ∈πX Y U ∈πX Chứng minh Giả sử phân hoạch πX gồm lớp tương đương Ui , i = 1, , |πX | phân hoạch πXY gồm lớp tương đương Vj , j = 1, , |πXY | Gọi E(πX ) kỳ vọng tổng số ứng với lớp tương đương Ui , i = 1, , |πX | Gọi E(πXY ) kỳ vọng tổng số ứng với lớp tương đương Vj , j = 1, , |πXY | Khi |πX | |Ui |.P (Ui ) , với P (Ui ): khả phân bố r vào Ui E(πX ) = i=1 |πX | |Ui | = i=1 |Ui | = |r| |r| |U |2 , U ∈πX |πXY | |Vj |.P (Vj ), với P (Vj ): khả phân bố r vào Vj E(πXY ) = j=1 |πXY | |Vj | = j=1 |Vj | = |r| |r| |V |2 V ∈πX Y Ta có E(πX ) = E(πXY ) có phân bố vào U ∈ πX giống phân bố vào V ∈ πXY Do X → Y phụ thuộc hàm |U |2 = U ∈πX |V |2 V ∈πX Y |V |2 Nhận xét 4.1 Ta đặt δ(X, Y ) = V ∈πX Y |U |2 U ∈πX khả xảy lỗi phụ thuộc hàm Khi đó, < δ(X, Y ) ≤ δ(X, Y ) tăng 167 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ Ví dụ 4.1 Cho quan hệ r(R) sau: Bảng Một quan hệ tập thuộc tính R = {A1 , , A4 } A1 A2 A3 A4 1 1 0 1 0 2 Khi đó, ta có: δ(A1 , A2 ) = 1, δ(A1 , A3 ) = 4/7, δ(A1 , A4 ) = 3/7 Từ Tính chất 4.2 Nhận xét 4.1, ta có Định nghĩa 4.3 sau: Định nghĩa 4.3 (Độ đo lỗi g4 theo phân hoạch) Cho quan hệ r(R) Khi đó, độ đo lỗi g4 (X → Y, r) từ phân hoạch tính sau: |V |2 g4 (X → Y, r) = − δ(X, Y ) = − V ∈πXY |U |2 · U ∈πX Với Bảng 1, ta có g4 (A1 → A2 , r) = 0, g4 (A1 → A3 , r) = 3/7, g4 (A1 → A4 , r) = 4/7 Nhận xét 4.2 Từ Tính chất 4.2, Nhận xét 4.1 Định nghĩa 4.3, ta thấy g4 (X → Y, r) có quan hệ mật thiết với phân bố liệu vào V ∈ πXY ứng với U ∈ πX Tuy nhiên g2 (X → Y, r) g3 (X → Y, r) không biểu diễn cho phân bố Ví dụ 4.2 Cho quan hệ r(R) sau: Bảng Một quan hệ tập thuộc tính {Hoten, Trieuchung, Benh} Hoten Trieuchung Benh P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 1 2 2 2 2 168 TRẦN DUY ANH Với quan hệ Bảng 2, ta có g2 (T rieuchung → Benh, r) = 0, g3 (T rieuchung → Benh, r) = Nếu thay đổi phân bố liệu, chẳng hạn người có Hoten P6 , ta thay giá trị thành giá trị ứng với thuộc tính Benh g2 (T rieuchung → Benh, r) g3 (T rieuchung → Benh, r) không thay đổi 11 Nhận xét 4.3 Bây giờ, ta thu hẹp tập liệu quan hệ r ứng với phép chọn, g4 (X → Y, σX=xi (r)) với xi ∈ dom(X) đo mức độ tập trung liệu σX=xi (r) vào lớp tương đương V ∈ πXY |V |2 Thật vậy, ta có g4 (X → Y, σX=xi (r)) = − |V |2 V ∈πXY |σX=xi (r) | Do g4 (X → Y, σX=xi (r)) V ∈πXY lớn Hay g4 (X → Y, σX=xi (r)) nhỏ khi mức độ tập |σX=xi (r)| trung σX=xi (r) vào hay số lớp tương đương V ∈ πXY lớn 18 , Với quan hệ Bảng 2, ta có: g4 (T rieuchung → Benh, σT rieuchung=1 (r)) = 25 g4 (T rieuchung → Benh, σT rieuchung=2 (r)) = Nếu người có Hoten P6 , ta thay đổi giá trị thành giá trị ứng với thuộc tính Benh g4 (T rieuchung → Benh, σT rieuchung=2 (r)) = 11 Như g4 (T rieuchung → Benh, σT rieuchung=xi (r)) nhỏ ứng với triệu chứng xi mức độ phân bố tập trung bệnh nhân σT rieuchung=xi (r) vào bệnh nhỏ khi lớn ngược lại Điều góp phần việc dự đoán bệnh bệnh nhân thông qua triệu chứng Nhận xét 4.4 Ta thấy g4 (X → Y, r) ≥ g1 (X → Y, r), nghĩa g4 (X → Y, r) nghiêm ngặt g1 (X → Y, r) Tuy nhiên g1 (X → Y, r) không tốt cho việc đo lỗi X → Y mức độ tập trung liệu r vào lớp tương đương V ∈ πXY Thật vậy, ta có |U |2 − |V |2 g4 (X → Y, r) =1 − V ∈πXY |U |2 U ∈πX |r|2 = |U |2 |r|2 · |U |2 = U ∈πX |V |2 V ∈πXY V ⊆U |r|2 U ∈πX (ti , tj ) ti , tj ∈ r, ti [X] = tj [X], ti [Y ] = tj [Y ] |r|2 · U ∈πX |r|2 · g1 (X → Y, r)· |U |2 = U ∈πX Suy g4 (X → Y, r) ≥ g1 (X → Y, r) Bây ta xét quan hệ Ví dụ 4.3 Ví dụ 4.3 Cho quan hệ r(R) sau: Bảng Một quan hệ tập thuộc tính {A, B, C} A B C 1 1 2 3 3 2 2 1 1 169 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ 44 44 g4 (A → B, r) = 59 0.756, g3 (A → B, r) = 11 0.733, g1 (A → B, r) = 225 0.196 15 Ta thấy độ đo lỗi g1 (A → B, r) nhỏ so với g4 (A → B, r), lỗi phụ thuộc hàm A → B tương đối lớn mức độ phân bố tập trung liệu vào lớp tương đương V ∈ πAB ứng với U ∈ πA nhỏ Tính chất 4.3 (Độ đo g4 phân hoạch thu gọn) Cho quan hệ r(R) Khi đó, độ đo lỗi g4 (X → Y ) từ phân hoạch thu gọn xác định sau: |U |2 − g4 (X → Y, r) = U ∈ˆ πX |V |2 − V ∈ˆ πXY |U | + U ∈ˆ πX |U |2 + |r| − |U | U ∈ˆ πX Chứng minh Ta có |r| − |V | U ∈ˆ πXY · U ∈ˆ πX |U |: số lớp tương đương phần tử bị loại khỏi πX để có U ∈ˆ πX π ˆX Suy |U |2 = U ∈πX |V |2 = Tương tự ta có V ∈πXY |U |2 + |r| − U ∈ˆ πX |U | U ∈ˆ πX |V |2 + |r| − |V | Do đó: V ∈ˆ πXY V ∈ˆ πXY |V |2 + |r| − g4 (X → Y, r) =1 − V ∈ˆ πXY |U |2 + |r| − |U |2 − = |U | U ∈ˆ πX U ∈ˆ πX U ∈ˆ πX |V | V ∈ˆ πXY |V |2 − V ∈ˆ πXY |U |+ U ∈ˆ πX |U |2 +|r|− U ∈ˆ πX |V | U ∈ˆ πXY |U | U ∈ˆ πX Ví dụ 4.4 Với Bảng 1, ta có: π ˆA1 = {{t1 , t2 , t3 }, {t4 , t5 }}, π ˆA1 A3 = {{t1 , t2 }} Độ đo lỗi g4 (A1 → A3 , r) tính từ phân hoạch thu gọn g4 (A1 → A3 , r) = BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ THEO MA TRẬN PHÂN BIỆT ĐƯỢC Trong phần xây dựng ma trận phân biệt M (S) theo cách khác đề xuất cách biểu diễn độ đo lỗi g1 , g2 , độ phụ thuộc γ ý nghĩa thuộc tính σ thơng qua M (S) Định nghĩa 5.1 (Ma trận phân biệt được) Cho r = t1 , t2 , , tn Ma trận phân biệt S = (r, R), ký hiệu M (S) = (mij )|r|×|r| ma trận đối xứng mà phần tử tập hợp thuộc tính, xác định sau: {Ak ∈ C|ti (Ak ) = tj (Ak )} ti (D) = tj (D) ∅ ti (D) = tj (D) với i, j = 1, |r| mij = {β | ∃Ak ∈ C : ti (Ak ) = tj (Ak ) } ti (D) = tj (D), β ∈ /C 170 TRẦN DUY ANH Định nghĩa 5.2 Cho ma trận phân biệt M (S) = (mij )|r|×|r| Khi số lần X xuất M (S) ký hiệu SL(X) định nghĩa sau: SL (X) = Nếu X = ∅ SL(∅) = mij (X ∩ mij ) = ∅, X ⊆ C, ∀i, j = 1, |r| mij mij = ∅ , ∀i, j = 1, |r| Tính chất 5.1 Cho ma trân phân biệt M (S) = (mij )|r|×|r| Khi đó, X → D với X ⊆ C phụ thuộc hàm SL(X) = |r|2 − SL(∅) Chứng minh Ta có với mij = ∅ ti [D] = tj [D] Do SL(∅) số cặp (ti , tj ), i, j = 1, |r| không vi phạm phụ thuộc hàm X → D Mặt khác, với mij cho (X ∩ mij ) = ∅, X ⊆ C ti [X ∩ mij ] = tj [X ∩ mij ] ti [D] = tj [D] suy ti [X] = tj [X] ti [D] = tj [D] Do SL(X) số cặp (ti , tj ), i, j = 1, |r| không vi phạm phụ thuộc hàm X → D Vậy SL(X) + SL(∅) = |r|2 với X ⊆ C ⇔ ∃ti , tj ∈ r : ti [D] = tj [D] ti [X] = tj [X] ⇔ X → D phụ thuộc hàm Tính chất 5.2 Độ đo lỗi g1 phụ thuộc hàm X → D, với X ⊆ C r xác định sau: SL(∅) + SL(X) g1 (X → D, r) = − |r|2 Chứng minh Theo Tính chất 5.1, ta có SL(X) + SL(∅) số cặp (ti , tj ), i, j = 1, |r| không |r|2 −SL(∅)−SL(X) vi phạm phụ thuộc hàm X → D Do đó: g1 (X → D, r) = = − SL(∅)+SL(X) |r|2 |r|2 Hệ 5.1 Độ đo lỗi g1 phụ thuộc hàm X → D, với X ⊆ C r xác định sau: g1 (X → D, r) = mij | ((X ∩ mij ) = ∅) ∧ (mij = ∅) , i, j = 1, |r| |r|2 Chứng minh - Ta có ((X ∩ mij ) = ∅) ∧ (mij = ∅) ⇔ ∃A ∈ X : ti [A] = tj [A] ti [D] = tj [D] ⇔ ti [X] = tj [X] ti [D] = tj [D] ⇔ cặp (ti , tj ) vi phạm phụ thuộc X → D - Trường hợp mij = β suy ((X ∩ mij ) = ∅) ∧ (mij = ∅) (vì β ∈ X) ⇔ cặp (ti , tj ) vi phạm phụ thuộc X → D Vậy mij | ((X ∩ mij ) = ∅) ∧ (mij = ∅) , i, j = 1, |r| = số cặp (ti , tj ) vi phạm phụ thuộc X → D Do đó: g1 (X → D, r) = |{ mij |((X∩mij )=∅)∧(mij =∅) , i,j=1,|r| } | |r|2 · Tính chất 5.3 Độ đo lỗi g2 phụ thuộc hàm X → D, với X ⊆ C r xác định sau: |r| hangi (X) g2 (X → D, r) = − Trong đó: hangi (X) = i=1 |r| (X ∩ mij ) = ∅ ∀mij = ∅, j = 1, |r| ∃j : (mij = ∅) ∧ ((X ∩ mij ) = ∅) · 171 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ Chứng minh Ta có: g2 (X → D, r) = |{ ti |ti ∈ r, ∃tj ∈ r : ti [X] = tj [X] , ti [D] = tj [D] } | · |r| Gọi q số vi phạm phụ thuộc hàm X → D r Khi đó: q = |{ ti |ti ∈ r, ∃tj ∈ r : ti [X] = tj [X] , ti [D] = tj [D] } | Ta có với ti ∈ r : - Xét trường hợp, (X ∩ mij ) = ∅ ∀mij = ∅, j = 1, |r| Ta có (X ∩ mij ) = ∅ ∀mij = ∅, j = 1, |r| ⇔ ∃tj ∈ r : ti [X] = tj [X] ti [D] = tj [D] (vì ∃tj : ti [X] = tj [X] ti [D] = tj [D] (X ∩ mij ) = ∅ Điều mâu thuẫn với giả thiết) ⇔ ti thỏa phụ thuộc X → D ⇔ hangi (X) = - Xét trường hợp, ∃j : (mij = ∅) ∧ ((X ∩ mij ) = ∅): Ta có ∃j : (mij = ∅) ∧ ((X ∩ mij ) = ∅) ⇔ ti [X] = tj [X] ti [D] = tj [D] ⇔ ti vi phạm phụ thuộc X → D ⇔ hangi (X) = - Xét trường hợp mij = β Ta có mij = β suy (mij = ∅) ∧ ((X ∩ mij ) = ∅) ⇔ ti vi phạm phụ thuộc X → D ⇔ |r| hangi (X) = số thỏa phụ thuộc hàm X → D nên q = |r| − hangi (X) = Do i=1 |r| |r| hangi (X) hangi (X) Suy g2 (X → D, r) = − i=1 i=1 |r| Nhận xét 5.1 - Độ phụ thuộc γ(X, D) tính thơng qua cơng thức γ(X, D) = − g2 (X → D, r) [7], với |r| |r| hangi (X) hangi (X) X ⊆ C g2 (X → D, r) = − i=1 (Tính chất 5.3) sau: γ(X, D) = |r| i=1 |r| · - Ý nghĩa thuộc tính tính dựa ma trận phân biệt thơng qua công thức: |r| σC∪D (Ai ) = − γ(C−{Ai },D) γ(C,D) hangi (X) [9], với γ(X, D) = i=1 |r| X ⊆ C LUẬT KẾT HỢP Định nghĩa 6.1 [2] (CSDL giao dịch) Cho I(items) = {i1 , i2 , , im } tập mục, CSDL giao dịch, ký hiệu TD gồm giao dịch T ∈ TD, với giao dịch (Transaction) T định nghĩa tập tập mục I(T ⊆ I) có định danh T ID, i1 , i2 , , ik Định nghĩa 6.2 [2] (Luật kết hợp) Cho sở liệu TD gồm giao dịch T ứng với tập mục I = {i1 , i2 , , im } Khi đó, luật kết hợp IX IY có dạng IX ⇒ IY , với IX , IY ⊂ I IX ∩ IY = ∅ Định nghĩa 6.3 [2] (Độ hỗ trợ tập mục) Cho tập mục IX ⊆ I, độ hỗ trợ tập mục IX ký hiệu Support(IX , TD) định nghĩa sau: Support(IX , TD) = |{T ∈TD|IX ⊆T }| hay Support(IX , TD) tỷ lệ phần trăm giao dịch chứa IX tổng |TD| giao dịch có sở liệu TD 172 TRẦN DUY ANH Định nghĩa 6.4 [2] (Độ hỗ trợ luật kết hợp) Độ hỗ trợ luật kết hợp IX ⇒ IY , (ký hiệu Support(IX ⇒ IY , TD)) tỷ lệ phần trăm giao dịch chứa IX ∪ IY tổng số giao dịch sở liệu TD: Support(IX ⇒ IY , TD) = Support(IX ∪ IY , TD) = |{T ∈ TD |IX ∪ IY ⊆ T }| |TD| Định nghĩa 6.5 [2] (Độ tin cậy luật kết hợp) Độ tin cậy luật kết hợp IX ⇒ IY , (ký hiệu Confidence(IX ⇒ IY , TD)) tỷ lệ phần trăm giao dịch chứa IX ∪ IY số giao dịch có chứa IX : Confidence(IX ⇒ IY , TD) = Support(IX ∪ IY , TD) Support(IX , TD) MỐI QUAN HỆ GIỮA PHỤ THUỘC HÀM XẤP XỈ VÀ LUẬT KẾT HỢP 7.1 - Một số ký hiệu [7] r(R): quan hệ lược đồ R, với R = {A1 , A2 , , Am } Miền trị X ⊂ R, ký hiệu dom(X) = {x1 , x2 , , xk } Miền trị Y ⊂ R, ký hiệu dom(Y ) = {y1 , y2 , , yl } n = |r| nxi = |{t ∈ r|t [X] = xi }| , nyj = |{ t ∈ r|t [Y ] = yj } |, nxi yj = t ∈ r|t [X] = xi t [Y ] = yj - Cho R = {A1 , A2 , , Am } Khi đó, với Ak ∈ R iAk mục (item) luật kết hợp - Cho X ⊆ R Khi đó, tập mục X ký hiệu IX = {iAk |Ak ∈ X} 7.2 Định nghĩa phụ thuộc hàm xấp xỉ Định nghĩa 7.1 [7] Cho quan hệ r(R) với R = {A1 , A2 , , Am } Một sở liệu giao dịch TD định nghĩa sau: cặp (t, s) ∈ r × r cho t, s ∈ r giao dịch ts ∈ TD xác định sau: iAk ∈ ts ⇔ t [Ak ] = s [Ak ] Khi đó: ts.iAk = iAk ∈ ts iAk ∈ / ts Ví dụ 7.1 Cho quan hệ sau: Bảng Một quan hệ r Masv Quequan Truong Ketqua Hue QH Dau Hue NH Dau Hue QH Rot Ta biểu diễn Bảng thành sở liệu giao dịch TD Bảng 173 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ Bảng Một sở liệu giao dịch TD r ts iM asv iQuequan iT ruong iKetqua (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) (3,1) (3,2) (3,3) 0 0 1 1 1 1 1 1 1 1 1 0 Định nghĩa 7.2 [7] Cho X, Y ⊂ R cho X ∩ Y = ∅ Khi phụ thuộc hàm xấp xỉ X → Y quan hệ r luật kết hợp IX ⇒ IY sở giao dịch TD Và ta có độ hỗ trợ độ tin cậy sau: Support (X → Y, r) = Support(IX ⇒ IY , TD) Confidence (X → Y, r) = Confidence(IX ⇒ IY , TD) Theo cách biểu diễn độ hỗ trợ tập thuộc tính X Support(X, r) = Support(IX , TD) Tính chất 7.1 [7] X, Y ⊂ R, X → Y phụ thuộc hàm Confidence(IX ⇒ IY , TD) = Định nghĩa 7.3 [7] Cho R = {A1 , A2 , , Am }, X, Y ⊂ R Khi đó, độ hỗ trợ X X → Y tương ứng Support(X, r) = n2 k i=1 n2xi Support(X → Y, r) = n2 k l i=1 j=1 n2xi yj Ví dụ 7.2 Trong Bảng 4, ta có: Support (T ruong, r) = 5/9; Support ({T ruong, Ketqua} , r) = 3/9 Khi đó, ta có số luật kết hợp TD tương ứng với phụ thuộc hàm xấp xỉ r sau: Bảng Một số luật kết hợp tương ứng với phụ thuộc hàm xấp xỉ Luật kết hợp {iQuequan } ⇒ {iT ruong } {iQuequan , iT ruong } ⇒ {iKetqua } 7.3 Độ hỗ trợ 5/9 1/3 Độ tin cậy 5/9 3/5 Phụ thuộc hàm xấp xỉ { Quequan } → {T ruong} {Quequan, T ruong} → {Ketqua} Độ hỗ trợ, độ tin cậy phụ thuộc hàm xấp xỉ Gọi ARS[X→Y ] = ARij |∃t ∈ r : t [X] = xi t [Y ] = yj ∀i = 1, k; ∀j = 1, l, ARij luật kết hợp có dạng (X = xi ) ⇒ (Y = yj ), với Sij , Cij tương ứng độ hỗ trợ, độ tin cậy ARij 174 TRẦN DUY ANH Tính chất 7.2 [7] Độ hỗ trợ phụ thuộc hàm xấp xỉ X → Y tính theo cơng thức sau: Support(X → Y, r) = n2 n2xi yj = ARij ∈ARS[X→Y ] Sij ARij ∈ARS[X→Y ] Tính chất 7.3 [7] Độ tin cậy phụ thuộc hàm xấp xỉ tính theo cơng thức sau: Sij 1 · = · Conf idence(X → Y, r) Spq Cij ARij ∈ARS[X→Y ] ARpq ∈ARS[X→Y ] Ví dụ 7.3 Đối với Bảng 4, ta có: = Confidence({Quequan, T ruong} → {Ketqua} , r) 3 ⇒Confidence({Quequan, T ruong} → {Ketqua} , r) = 7.4 Biểu diễn độ phụ thuộc, độ đo lỗi thông qua luật kết hợp γ(X,Y ) Tính chất 7.4 [7] Cho phụ thuộc hàm xấp xỉ X → Y , độ phụ thuộc γ(X, Y ) = |P OS(X,Y )| Khi γ(X, Y ) = ARij ∈ARS[X→Y ] |Cij =1 Sij |r| Tính chất 7.5 [7] Độ đo lỗi g1 phụ thuộc hàm X → Y Định nghĩa 3.1 biểu diễn sau: g1 (X → Y, r) = Support (IX , T D) − Support (IX ⇒ IY , T D) Tính chất 7.6 [7] Độ đo lỗi g2 phụ thuộc hàm X → Y Định nghĩa 3.2 biểu diễn sau: g2 (X → Y, r) = − Sij ARij ∈ARS[X→Y ] |Cij =1 Tính chất 7.7 [7] Cho phụ thuộc hàm xấp xỉ X → Y với |r| − g3 (X → Y, r) = max |V | V ∈ πXY , V ⊆ U U ∈πX |r| K Khi g3 (X → Y, r) = − max{Sij |ARij ∈ ARS[X→Y ] } i=1 j=1,l Tính chất 7.8 Cho g4 (X → Y, r) độ đo lỗi phụ thuộc hàm X → Y , Confidence(IX ⇒ IY , TD) độ tin cậy luật kết hợp IX ⇒ IY Khi g4 (X → Y, r) = 1−Confidence(IX ⇒ IY , TD) 175 BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ Chứng minh Ta có k |V |2 g4 (X → Y, r) =1 − V ∈πXY =1− |U |2 l |{t ∈ r|(t[X] = xi ) ∧ (t[Y ] = yi )}|2 i=1 j=1 k U ∈πX |{t ∈ r|t[X] = xi }|2 i=1 k =1 − l i=1 j=1 n2xi yj =1− k i=1 n2xi Support(IX ⇒ IY , T D) Support(IX , T D) =1 − Conf idence(IX ⇒ IY , T D) Vậy g4 (X → Y, r) = − Confidence(IX ⇒ IY , T D) Ví dụ 7.4 Đối với Bảng ta có g4 (A1 → A3 , r) = 3/7 Confidence(IA1 ⇒ IA3 , T D) = 4/7 Do đó, g4 (A1 → A3 , r) = − Confidence(IA1 ⇒ IA3 , T D) Tính chất 7.9 Mối liên hệ g4 (X → Y, r) ARS[X→Y ] ARpq ∈ARS[X→Y ] g4 (X → Y, r) = − Spq Sij Cij ARij ∈ARS[X→Y ] Chứng minh Ta có g4 (X → Y, r) = − Confidence(IX ⇒ IY , T D) Mà = Conf idence(X → Y, r) Sij ARij ∈ARS[X→Y ] ARpq ∈ARS[X→Y ] suy g4 (X → Y ) = ARpq ∈ARS[X→Y ] Spq ARij ∈ARS[X→Y ] ARpq ∈ARS[X→Y ] Spq Do đó, g4 (X → Y, r) = − ARij ∈ARS[X→Y ] ARpq ∈ARS[X→Y ] ARij ∈ARS[X→Y ] Spq S2 ij Cij Sij Cij S2 ij Cij Spq · (Tính chất 7.3) Cij −1 Ví dụ 7.5 Đối với Bảng ta có g4 (A1 → A3 , r) = 3/7 (theo Định nghĩa 4.3) 1− ARpq ∈ARS[X→Y ] ARij ∈ARS[X→Y ] Spq Sij Cij = − 8/14 = 3/7 KẾT LUẬN Trong báo nghiên cứu phụ thuộc hàm xấp xỉ dựa vào phân hoạch, ma trận phân biệt luật kết hợp đạt số kết sau: 176 TRẦN DUY ANH Đề xuất độ đo lỗi g4 phụ thuộc hàm phân tích thuận lợi so với độ đo lỗi g1 , g2 , g3 Độ đo g4 đo lỗi phụ thuộc hàm mà đo mức độ tập trung hay không tập trung liệu Sau xây dựng g4 phân hoạch thu gọn biểu diễn mối quan hệ với độ tin cậy luật kết hợp Từ sử dụng thuật toán phát luật kết hợp để phát phụ thuộc hàm xấp xỉ ngược lại Đưa định nghĩa ma trận phân biệt Từ xem xét phụ thuộc hàm, biểu diễn độ đo lỗi g1 , độ đo lỗi g2 , độ phụ thuộc ý nghĩa thuộc tính thơng qua ma trận phân biệt Điều làm sở để nghiên cứu tiếp tục thuật tốn rút gọn thuộc tính dư thừa thơng qua độ đo lỗi TÀI LIỆU THAM KHẢO [1] L B Cristofor, A Rough Set Based Generalization of Functional Denpendencies, Department of Math and Computer Science, UMass/Boston, 2000 [2] Rakesh Agrawal and Ramakrishnan Srikant, Fast algorithms for mining association rules in large databases, In Jorge B Bocca, Matthias Jarke, and Carlo Zaniolo, editors, Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile (1994) 487-499 [3] Ullas Nambiar, Subbarao Kamhampati, Mining Approximate Functional Dependencies and Concept Similarities to Answer Imprecise Queries, Department of Computer Science, Arizona State University, USA, 2004 [4] Y Huhtala, J Karkkainen, P Porkka, H Toivonnen, Tane: An Efficient Algorithm for Discovery Functional and Approxiamate Dependencies, The Computer Journal, 42 (3) (1999) 100-111 [5] J Kivinen, H Mannila, Approximate Inference of Functional Dependencies from Relations, Theoretical Computer Science, 149 (1) (1995) 129-149 [6] Stéphane Lopes, Jean-Marc Petit, Lotfi Lakhal, Functional and approximate dependency mining: database and FCA points of view, J Exp Theor Artif Intell., 14(2-3) (2002) 93-114 [7] Daniel Sánchez, José María Serano, Ignacio Blanco, Maria José Martin-Bautista, María Amparo Vila, Using association rules to mine for strong approximate dependencies, Data mining knowledge discovery, Springer Science (2008) 313-348 [8] Mohammed J Zaki, Scalable algorithms for association mining IEEE Transactions on Knowledge and Data Engineering, 12(3) (2000) 372-390 [9] Jan Komorowski, Lech Polkowski, Andrzej Skowron, Rough Set: A Tutorial, Institute of Mathematics, Warsaw University, 2000 [10] Trần Duy Anh, Phát phụ thuộc hàm xấp xỉ theo cách tiếp cận tập thơ, Tạp chí tin học điều khiển học, 23(3) (2007) 284-295 [11] Keyun Hu, Yuchang Lu, Chunyi Shi, Feature ranking in rough set, Department of Computer science, Tsinghua University Beijing 100084, P.R.China, 2003 [12] Jiawei Han, Jian Pei, Yiwen Yin, and Runying Mao, Mining frequent patterns without candidate generation, Data Mining and Knowledge Discovery (2004) 53-87 Ngày nhận 21 - - 2013 Nhận lại sau sửa ngày - - 2013 ... tính từ phân hoạch thu gọn g4 (A1 → A3 , r) = BIỂU DIỄN PHỤ THUỘC HÀM XẤP XỈ THEO MA TRẬN PHÂN BIỆT ĐƯỢC Trong phần xây dựng ma trận phân biệt M (S) theo cách khác đề xuất cách biểu diễn độ... Kivinen, Mannila [5] Sau đó, đề xuất độ đo lỗi g4 phụ thuộc hàm tìm mối liên hệ phụ thuộc hàm xấp xỉ luật kết hợp thông qua g4 Tiếp theo, xây dựng ma trận phân biệt theo cách khác, từ biểu diễn. .. Ketqua} , r) = 3/9 Khi đó, ta có số luật kết hợp TD tương ứng với phụ thuộc hàm xấp xỉ r sau: Bảng Một số luật kết hợp tương ứng với phụ thuộc hàm xấp xỉ Luật kết hợp {iQuequan } ⇒ {iT ruong } {iQuequan