Trong phõn tớch dữ liệu, việc tỡm ra sự phụ thuộc giữa cỏc thuộc tớnh là một vấn đề quan trọng. Bằng trực quan cú thể thấy rằng tập thuộc tớnh D phụ thuộc hồn tồn vào tập thuộc tớnh Cđược ký hiệu là C⇒D nếu tất cả giỏ trị thuộc tớnh của D
được xỏc định duy nhất bởi cỏc giỏ trị thuộc tớnh của C. Núi cỏch khỏc, D phụ thuộc hồn tồn vào C nếu tồn tại một ỏnh xạ từ cỏc giỏ trị của tập C tới cỏc giỏ trị của tập
D. Một cỏch hỡnh thức, sự phụ thuộc cú thể được định nghĩa như sau. Gọi D và C
tập con của tập thuộc tớnh A. Ta núi D phụ thuộc vào C với độk (0≤k≤1), ký hiệu
D C⇒k , nếu[2][3]: trong đú: (2.6) (2.7) (2.8)
được gọi là C-vựng dương của D. Đõy là tập cỏc đối tượng của U mà bằng cỏch sử dụng tập thuộc tớnh C ta cú thể phõn chỳng một cỏch duy nhất vào cỏc phõn hoạch của U theo tập thuộc tớnh D.
Dễ dàng nhận thấy:
Nếu k = 1 ta núi rằng D phụ thuộc hồn tồn vào C; nếu k < 1 ta núi rằng D phụ thuộc cục bộ (với độ k) vào C. Nếu D phụ thuộc hồn tồn vào C thỡ IND(C) ⊆
IND(D). Điều này cú nghĩa là cỏc phõn hoạch tạo ra bởi tập thuộc tớnh C mịn hơn cỏc phõn hoạch tạo ra bởi D. Cũng cần lưu ý rằng khỏi niệm phụ thuộc vừa thảo luận ở trờn cũng tương ứng với trong cơ sở dữ liệu quan hệ.
2.1.6. Rỳt gọn thuộc tớnh
Ta thường đối mặt với cõu hỏi cú hay khụng cú thể loại bỏ một số dữ liệu khỏi bảng dữ liệu mà vẫn bảo tồn được cỏc thuộc tớnh cơ bản của nú, tức là trong bảng dữ liệu cú thể chứa cỏc dữ liệu dư thừa và cú thể loại bỏ chỳng hay khụng? Chẳng hạn, xột bảng dữ liệu sau:
Bảng 2.3: Vớ dụ bảng thụng tin cú thuộc tớnh dư thừa
Dễ dàng nhận thấy nếu xúa khỏi bảng trờn thuộc tớnh Headache hoặc Muscle-pain
thỡ ta thu được một bảng dữ liệu tương đương với bảng ban đầu căn cứ vào tớnh xấp xỉ và phụ thuộc, tức là sự chớnh xỏc của xấp xỉ và mức độ phụ thuộc khụng đổi so với bảng ban đầu trong khi chỉ cần sử dụng tập thuộc tớnh bộ hơn.
Để trỡnh bày ý trờn một cỏch chớnh xỏc hơn, ta cần đưa ra một vài khỏi niệm bổ trợ. Gọi B là một tập con của tập thuộc tớnh A và a là một phần tử của B:
- Ta núi a cú thể bỏ được trong B nếu IND(B) = IND(B – {a}), trỏi lại ta núi a khụng thể bỏđược trong B.
- Tập Bđược coi là độc lập nếu tất cả cỏc thuộc tớnh của nú đều khụng thể bỏđược.
- Tập con B’ của B là một rỳt gọn (reduct) của B nếu B’ là độc lập và
IND(B’) = IND(B).
Như vậy một rỳt gọn là một tập hợp cỏc thuộc tớnh bảo tồn khả năng phõn hoạch, núi cỏch khỏc, một rỳt gọn là tập nhỏ nhất cỏc thuộc tớnh cho phộp dữ nguyờn khả năng phõn loại tập vũ trụ ban đầu giống như việc sử dụng tồn bộ tập thuộc tớnh. Cỏc rỳt gọn cú nhiều tớnh chất quan trọng, ta sẽ trỡnh bày hai trong số đú ngay sau đõy.
Trước tiờn, ta định nghĩa khỏi niệm lừi của cỏc thuộc tớnh (core of attributes). Cho B là một tập con của A, lừi của B là tập tất cả cỏc thuộc tớnh khụng thể bỏ được trong B. Cụng thức ngay dưới đõy là một tớnh chất quan trọng, nú gắn kết 2 khỏi niệm lừi (core) và rỳt gọn (reducts):
trong đú Red(B) là tập tất cả cỏc rỳt gọn của B.
Bởi vỡ lừi là giao của tất cả cỏc rỳt gọn nờn nú đều được chứa trong mỗi rỳt gọn, mỗi một phần tử của lừi thuộc về một vài rỳt gọn. Như vậy cú thể thấy rằng lừi là tập con quan trọng nhất của tập thuộc tớnh, khụng cú phần tử nào của nú cú thểđược loại bỏ mà khụng ảnh hưởng đến khả năng phõn loại của tập thuộc tớnh.
Để đơn giản húa một bảng thụng tin, ta cú thể loại bỏ một vài giỏ trị của tập thuộc tớnh mà vẫn dữ nguyờn khả năng phõn biệt cỏc đối tượng của bảng đú như là sử
dụng tập thuộc tớnh ban đầu; cú thể ỏp dụng một thủ tục giống như việc loại bỏ cỏc thuộc tớnh dư thừa, như sau:
- Ta núi rằng giỏ trị của thuộc tớnh a∈Blà cú thể bỏđược cho đối tượng x
nếu B(x) = Ba(x), với Ba = B – {a}; ngược lại, giỏ trị của thuộc tớnh a là khụng thể bỏđược đối với đối tượng x.
- Nếu với mỗi thuộc tớnh a∈B, giỏ trị của a là khụng thể bỏ được đối với
x, khi đú Bđược gọi là trực giao (orthogonal) đối với x.
- Tập con B’⊆B là một giỏ trị rỳt gọn của B đối với x nếu B’ là trực giao đối với x và B(x) = B’(x).
(B(x)ởđõy là một lớp tương đương phõn hoạch bởi tập thuộc tớnh B, chứa x)
Tập tất cả cỏc thuộc tớnh khụng thể bỏ được trong B đối với phần tử x được gọi là
giỏ trị lừi của Bđối với x và được ký hiệu bởi COREx(B). Trong trường hợp này ta cú:
Với Redx(B) là tập tất cả rỳt gọn của Bđối với phần tửx.
Giả sử cú một phụ thuộc C⇒D, rất cú thể tập D phụ thuộc hồn tồn vào tập C’ là tập con của C chứ khụng phải tập C, trong trường hợp này ta mong muốn tỡm ra được tập C’ đú. Để giải quyết vấn đề này ta đưa ra khỏi niệm rỳt gọn tương đối
(relative reduct) sẽđược định nghĩa và thảo luận ngay sau đõy.
Cho C,D⊆A, rừ ràng nếu C'⊆Clà một D-rỳt gọn của C thỡ C’ là một tập con bộ nhất của C thỏa mĩn:
- Ta núi rằng thuộc tớnh a∈C là D-cú thể bỏ được trong C nếu POSC(D) = POS(C – {a})(D); ngược lại, thuộc tớnh a được gọi là D-khụng thể bỏ được
trong C.
- Nếu tất cả thuộc tớnh a∈Clà D-khụng thể bỏ được trong C thỡ C được gọi là D-độc lập (D-independent).
(2.11)
- Tập con C'⊆C là một D-reduct của C khi và chỉ khi C’ là D-độc lập và
POSC(D) = POSC’(D).
Tập tất cả cỏc thuộc tớnh D-khụng thể bỏ được trong C được gọi là D-lừi (D-core) của C và được ký hiệu là CORED(C). Trong trường hợp này ta thu được tớnh chất sau:
trong đú RedD(C) là tất cả D-rỳt gọn của C. Nếu D = C, ta thu được cỏc định nghĩa đĩ núi ở phần trờn.
Lấy vớ dụ, xột Bảng 2.3 ở trờn, cú 2 rỳt gọn tương đối đối với {Flu}, {Headache, Temperature} và {Muscle-pain, Temperature} của tập thuộc tớnh điều kiện Headache, Muscle-pain, Temperature. Điều này cú nghĩa rằng hoặc thuộc tớnh
Headache, hoặc thuộc tớnh Muscle-pain cú thể loại bỏ khỏi bảng trờn và thay vỡ sử dụng Bảng 2.3, ta cú thể sử dụng Bảng 2.4 hoặc Bảng 2.5. Đối với Bảng 2.1, lừi tương đốiđối với tập {Headache, Muscle-pain, Temperature} là Temperature. Điều này cho thấy Temperature chỉ là dấu hiệu tối thiểu cho phộp chẩn đoỏn tỡnh trạng của cỏc bệnh nhõn.
Bảng 2.4: Bảng dữ liệu thu được bằng cỏch loại bỏ cột thuộc tớnh Muscle-pain
Bảng 2.5: Bảng dữ liệu thu được bằng cỏch loại bỏ cột thuộc tớnh Headache
Ta cũng cần cú khỏi niệm về giỏ trị rỳt gọn (value reduct) và giỏ trị lừi (value core). Giả sử ta cú một phụ thuộc C⇒D với C là D-rỳt gọn tương đối (relative D- reduct ) của C. Ta muốn biết một cỏch chớnh xỏc cỏc giỏ trị thuộc tớnh của D phụ thuộc vào cỏc giỏ trị thuộc tớnh của C như thế nào. Để làm điều này cần phải cú một thủ tục để loại bỏ cỏc giỏ trị thuộc tớnh của C mà khụng ảnh hưởng đến giỏ trị thuộc tớnh của D.
- Ta núi rằng giỏ trị của thuộc tớnh a∈C là D-cú thể bỏ được cho x∈U
nếu C(x)⊆D(x) thỡ Ca(x)⊆D(x), ngược lại, giỏ trị của thuộc tớnh a là
D-khụng thể bỏ được cho x.
- Với mỗi thuộc tớnh a∈C, giỏ trị của a là D-khụng thể bỏ đượcđối với x
thỡ Cđược gọi là D-độc lậpđối với x (trực giao đối với x). - Tập con C'⊆C là một D-rỳt gọn của C đối với x (một giỏ trị rỳt gọn) khi và chỉ khi C’ là D-độc lập đối với x và C(x)⊆D(x) dẫn đến ) ( ) ( ' x D x C ⊆ .
Tập tất cảD-khụng thể bỏ đượcđối với x cỏc giỏ trị của tập thuộc tớnh Cđược gọi là
D-lừi của Cđối với x (giỏ trị lừi) và được ký hiệu bởi COREx(C)
D . Ta thu được tớnh chất sau:
với Red x(C)
D là tất cảD-rỳt gọn của Cđối với x.
Sử dụng khỏi niệm giỏ trị rỳt gọn, Bảng 2.4 và Bảng 2.5 cú thểđược đơn giản húa và thu được Bảng 2.6 và Bảng 2.7 tương ứng.
Bảng 2.6: đơn giản húa Bảng 2.4
Bảng 2.7: Đơn giản húa bảng 2.5
Đối với Bảng 2.6, ta cú được mụ tả của nú bằng cỏc luật sau:
Sau đõy là một số tớnh chất quan trọng: a) B’⇒B – B’, với B’ là một rỳt gọn của B b) Nếu B⇒C thỡ B⇒C' với mỗi C'⊆C c) Nếu B⇒C thỡ B⇒{a} với mỗi a∈C Nếu B’ là một rỳt gọn của B thỡ khụng cú {a}⇒{b} cũng như khụng {b}⇒{a} với mỗi a, b ∈B’. 2.1.7. Ma trận phõn biệt được và hàm phõn biệt được
Đểđơn giản trong việc tớnh toỏn cỏc rỳt gọn và lừi, ta sử dụng ma trận phõn biệt được. Ma trận phõn biệt được của B⊆A, ký hiệu là M(B), là ma trận kớch thước nìn với cỏc phần tửđược định nghĩa như sau:
Như vậy phần tửci,j là tập tất cả cỏc thuộc tớnh để phõn biệt đối tượng xi và xj. Ma trận phõn biệt M(B) gỏn cho mỗi cặp x và y một tập cỏc thuộc tớnh δ(x,y)⊆B, cú cỏc tớnh chất sau:
Cũng dễ dàng thấy rằng lừi là tập hợp tất cả cỏc phần tử đơn đầu vào của ma trận phõn biệt M(B), chẳng hạn: Rừ ràng nếu B'⊆B là một rỳt gọn của B và nếu B’ là tập con bộ nhất của B thỡ Θ ≠ ∩c B' với bất cức là một phần tử khụng rỗng nào của M(B).
Núi một cỏch khỏc, rỳt gọn (reduct) là tập con bộ nhất của tập thuộc tớnh mà phõn biệt tất cả cỏc đối tượng cú thể phõn biệt được bởi tồn bộ tập thuộc tớnh.
Mỗi ma trận phõn biệt M(B) định ra duy nhất một hàm phõn biệt (hàm nhị phõn)
f(B). Mỗi thuộc tớnh a∈Bđược gỏn một giỏ trị nhị phõn a và ∑δ(x,y) biểu diễn tổng nhị phõn của tất cả cỏc biến nhị phõn của tập thuộc tớnh δ(x,y). Khi đú hàm phõn biệt được định nghĩa một cỏch hỡnh thức như sau:
Tớnh chất sau đõy thiết lập mối quan hệ giữa dạng chuẩn phõn biệt của hàm f(B) và tập tất cả rỳt gọn của B:
- Tất cả thành phần trong dạng chuẩn phõn biệt bộ nhất (minimal disjunctive nomal form) của hàm f(B) là cỏc rỳt gọn của B.
Để tớnh toỏn giỏ trị lừi và cỏc giỏ trị của rỳt gọn cho phần tử x, cú thể sử dụng ma trận phõn biệt và hàm phõn biệt với một chỳt hiệu chỉnh như sau:
Cỏc rỳt gọn tương đối và lừi cũng cú thểđược tớnh toỏn dựa trờn ma trận phõn biệt với một chỳt hiệu chỉnh như sau:
i, j = 1, 2, ..., n.
Nếu phõn hoạch được định ra bởi D cú thể được định nghĩa bởi C thỡ khi đú điều kiện w(xi, xj) ở trờn cú thểđược rỳt gọn thành (xi, xj)∉I(D).
Cỏc định nghĩa cũn lại cần một số thay đổi nhỏ. D-lừi là tập tất cả phần tửđơn của ma trận phõn biệt MD(C), chẳng hạn:
Tập C'⊆Clà D-rỳt gọn của C, nếu C’ là tập con bộ nhất thỡ C'∩c≠Θ với bất cứ phần tửc nào khỏc rỗng thuộc MD(C).
Như vậy D-reduct là tập con thuộc tớnh bộ nhất phõn biệt tất cả cỏc lớp tương đương của quan hệIND(D).
Mỗi ma trận phõn biệt MD(C) định ra duy nhất một hàm phõn biệt (hàm nhị phõn)
fD(C) nhưđĩ được định nghĩa ở trờn. Ta cũng thu được tớnh chất sau:
- Tất cả thành phần trong dạng chuẩn phõn biệt của hàm fD(C) là tất cả D- rỳt gọn của C.
Hàm phõn biệt cú dạng thức như sau:
Ta minh họa cỏc ý ở trờn bằng việc tớnh toỏn cỏc rỳt gọn tương đối cho tập thuộc tớnh {Headache, Muscle-pain, Temperature} đối với thuộc tớnh Flu. Ma trận phõn biệt tương ứng trong trường hợp này như sau:
Bảng 2.8: Vớ dụ ma trận phõn biệt được
Trong bảng trờn H, M, T tương ứng là ký hiệu cho Headache, Muscle-pain và
Temperature. Hàm phõn biệt cho bảng này là:
ở đõy dấu ‘+’ biểu diễn phộp “cộng” logic, phộp nhõn logic được hiểu ngầm. Sau khi đơn giản húa hàm phõn biệt bằng cỏch sử dụng cỏc luật của đại số Boolean ta thu được biểu thức: TH + TM. Điều này núi lờn rằng cú 2 rỳt gọn là TH và TM trong bảng dữ liệu và T là lừi.
2.1.8. Sự quan trọng của cỏc thuộc tớnh và cỏc rỳt gọn xấp xỉ
Nhưđĩ biết, đối với một bảng thụng tin ta cú thể loại bỏ một số thuộc tớnh dư thừa mà khụng làm mất mỏt thụng tin chứa trong bảng đú, như vậy liờn quan đến vấn đề rỳt gọn thuộc tớnh ta thấy rằng cỏc thuộc tớnh cú mức độ quan trọng khụng giống nhau. í tưởng về việc rỳt gọn thuộc tớnh cú thểđược tạo lập bằng cỏch đưa ra khỏi niệm mức độ quan trọng của cỏc thuộc tớnh – significance of attributes – khỏi niệm này cho phộp ta định giỏ cỏc thuộc tớnh khụng chỉ bằng 2 mức giỏ trị (dispensable và indispensable) mà gỏn cho mỗi thuộc tớnh một số thực nằm trong khoảng [0, 1] để chỉ mức độ quan trọng của thuộc tớnh đú trong bảng thụng tin. Mức độ quan trọng của một thuộc tớnh cú thể được đỏnh giỏ thụng qua phộp đo ảnh hưởng của việc loại bỏ nú đú khỏi bảng thụng tin trong việc phõn loại trờn bảng đú. Gọi C và D tương ứng là tập thuộc tớnh điều kiện và tập thuộc tớnh quyết định, gọi a
đõy,γ(C,D)biễu diễn độ bền vững của bảng quyết định, hay độ phụ thuộc giữa tập thuộc tớnh C và D, hay mức độ chớnh xỏc của xấp xỉ U/D bởi C. Ta muốn biết hệ sốγ(C,D)thay đổi như thế nào khi loại bỏ thuộc tớnh a, chẳng hạn, sự khỏc nhau giữaγ(C,D)vàγ(C−{a},D). Ta cú thể chuẩn húa sự khỏc nhau đú và định nghĩa
mức độ quan trọng của thuộc tớnh a như sau:
nếu khụng cú gỡ nhầm lẫn (khi C và D là đĩ biết) thỡ được viết gọn lại là σ(a). Rừ ràng 0≤σ(a)≤1, thuộc tớnh quan trọng hơn sẽ cú σ(a) lớn hơn. Lấy vớ dụ đối với cỏc thuộc tớnh điều kiện trong Bảng 2.3, ta cú cỏc kết quả sau:
σ (Headache) = 0
σ (Muscle-pain) = 0,
σ (Temperature) = 0,75.
Bởi vỡ mức độ quan trọng của thuộc tớnh Headache và Muscle-pain là 0 cho nờn loại bỏ một trong 2 thuộc tớnh đú sẽ khụng ảnh hưởng đến tớnh nhất quỏn của cỏc luật quyết định; thuộc tớnh Temperature cú mức độ quan trọng nhất trong bảng, nếu loại bỏ thuộc tớnh này thỡ 75% cỏc luật quyết định phự hợp sẽ biến mất khỏi bảng, như vậy thiếu thuộc tớnh này về cơ bản sẽ ảnh hưởng đến “sức mạnh quyết định” của bảng quyết định.
Đối với một rỳt gọn của cỏc thuộc tớnh điều kiện, chẳng hạn, {Headache, Temperature} ta cú:
σ(Headache) = 0,25
σ (Temperature) = 1,00.
Trong trường hợp này, nếu loại bỏ thuộc tớnh Headache khỏi rỳt gọn và chỉ sử dụng thuộc tớnh Temperature thỡ 25% cỏc luật quyết định phự hợp sẽ bị mất; nếu loại bỏ thuộc tớnh Temperature và chỉ sử dụng thuộc tớnh Headache thỡ 100% cỏc luật quyết định phự hợp sẽ biến mất. Hệ số σ(a)cú thể hiểu như là lỗi xuất hiện khi (2.15)
thuộc tớnh a bị loại bỏ. í nghĩa của hệ số cú thể được mở rộng cho tập cỏc thuộc tớnh như sau:
nếu khụng cú gỡ nhầm lẫn thỡ cú thể viết gọn là ε(B); C, Dđĩ biết và B là tập con