Dữ liệu không đầy đủ

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 72 - 75)

Cho các tập dữ liệu với các giá trị thuộc tính thiếu, hàm tương ứng p được đặc tả không đầy đủ (không hoàn chỉnh). Một bảng quyết định với hàm được đặc tả không đầy đủ p sẽ được gọi là dược đặc tả không đầy đủ, hoặc không đầy

Sau đó giả sử tất cả các giá trị quyết định được đặc tả, có nghĩa là, chúng sẽ không bị thiếu. Tất cả các giá trị thuộc tính thiếu được biểu thị bởi bởi hoặc các giá trị bị mất sẽ được biểu thị bởi các điều kiện “không cần thiết” được biểu thị bởi các giá trị lớp thuộc tính bải Thêm vào đó, ta giả sử mỗi trường hợp có ít nhất một giá trị thuộc tính được đặc tả.

Bảng 2.4.2: Một ví dụ về một bảng quyết định không đầy đủ

Thuộc tính Quyết dịnh

Qt hnay Md X n Ton giao XXeí

1 Mỹ - Không Cấm

2 Pháp Du lich Cấm

3 ? Thương mại Không Không

4 Mỹ Du lich Có Cấm

5 Mỹ 7 Có Không

6 Viêt Nam Du lịch Không Không

7 Viêt Nam Thương mại Có Không

8 - Du lich * Cấm

Đối với các bảng quyết định không đầy đủ sự định nghĩa của một khối của một cặp giá trị thuộc tính phải được biến đổi.

- Nếu một thuộc tính a c ó tồn tại một trường hợp Xp (*, a ) = ?, có nghĩa là giá trị tương ứng bị mất, thì trường hợp * không được chứa trong trong bất kỳ khối [(ứ, v)] nào với tất cả các giá trị V của thuộc tính a.

- Nếu cho một thuộc tính a có tồn tại một trường hợp X mà giá trị tương ứng là một điều kiện “không cần thiết”, có nghĩa là p ( x , a ) = *, thì trường hợp

tương ứng X được chứa trong trong các khối [(a , v)] với tất cả các giá trị V của

thuộc tính a được đặc tả.

- Nếu cho một thuộc tính a có tồn tại một trường hợp X mà giá trị tương ứng là một giá trị lớp thuộc tính, có nghĩa là p(x, a) = thì trường hợp tương

ứng X được chứa trong trong các khối [(a , v)] với tất cả các giá trị V của thuộc

tính a được đặc tả mà là thành viên của tập V(x, a), ở đây

Vịx, a) ={p(y, a)13><E u, p ( y , d ) = p(x, d)j,d là sự quyết định. Những sự biến đổi về sự định nghĩa của khôi cặp giá trị thuộc tính này là phù hợp với sự thể hiện của các giá trị thuộc tính thiếu, bị mất, điều kiện “không cần thiết”, và các giá trị lớp thuộc tính. Hơn nữa, giá trị lớp thuộc tính là phổ biến nhất, từ đó nếu V ịx, a) = 0 , sự định nghĩa của giá trị lớp thuộc

tính được rút gọn thành giá trị bị mất, và nếu V(x, a) là tập tất cả các giá trị của một thuộc tính a, giá trị lớp thuộc tính trở thành một điều kiộn “không cần thiết” .

Bảng 2.4.2, trường hợp 1, p{ 1, Md_xn) = và VỴ1, Md_xn) = {Du lich}, do đó ta thêm vào trường hợp 1 [(Md_xn, Du lich)]. Với trường hợp 3, p (1, Qt_hnay) = ?, từ đó trường hợp 3 không được chứa trong trong các tập sau: [(Qt_hnay, Mỹ)], [(Qt_hnay, Pháp)], và [(Qt_hnay, Việt Nam)]. Tương tự, p(5, Md_xn) = ?, do đó trường hợp 5 không được chứa trong trong [(Md_xn, Du lịch)] và [(Md_xn, Thương mại)]. Hơn nữa, p(8, Qt_hnay) = và V78, Qt_hnay) = {Mỹ, Pháp}, do đó trường hợp 8 là một thành viên của cả [(Qt_hnay, Mỹ)] và [(Qt_hnay, Pháp)]. Cuối cùng, p {8, Ton_giao) = *, do đó trường hợp 8 được chứa trong cả [(Ton_giao, Không)] và [(Ton_giao, Có)]. Như vậy,

[(Qt_hnay, Mỹ)] = {1, 4, 5, 8), [(Qt_hnay, Pháp)] = {2, 8}, [(Qt_hnay, Việt Nam)] = {6, 7},

[(Md_xn, Du lịch)] = {1, 2, 4, 6, 8}, [(Md_xn, Thương mại)] = {3, 7Ị, [(Ton_giao, Không)] = {1, 3, 6, 8}, [(Ton_giao, Có)] = {2,4, 5, 7, 8}.

Đối với trường hợp X e u , tập đặc trưng Kgịx) được định nghĩa như phép giao của các tập Kịx, a), với mọi aeB. Nếu p{X, a) được đặc tả (speciíied), thì Kịx, a) ỉà một khối [(a, p (x, a)] của thuộc tính a và giá trị của nó p (x, a). Nếu p (x, a ) = * hoặc p ( x , a ) = fỉ thì tập K(x, a)= u . Nếu p (x, a)

= -, thì tập Kịx, a) tương ứng ngang bằng với sự liên kết của tất cả các khối của các cặp giá trị thuộc tính (a, v), ở đây vt Vị x , a). Đối với cả điều kiện “không cần thiết” và các giá trị bị mất tập K(x,a) tương ứng là ngang bằng với

u bởi vì thuộc tính tương ứng a không giới hạn tập K^(x): nếu p(X, a) = *, giá trị của thuộc tính a là không thích hợp; nếu p ( x , a ) = l, thì chỉ tồn tại các giá trị cần được kiểm tra. Tuy nhiên, trường hợp khi p(x, a) = - là khác, từ đó thuộc tính a giới hạn tập KB(x). Hơn nữa, sự mô tả KB(x) cần được xem xét với các tiếp cận có thể khác (nhưng tương tự) đối với các giá trị thuộc tính thiếu, ví dụ, một cách tiếp cận trong mỗi giá trị thuộc tính thiếu được thay thế bởi giá trị thuộc tính chung nhất được giới hạn cho một lớp. ở đây tập Vịx, a) chứa đựng một thành phần đơn và mối quan hệ đặc trưng là một mối quan hệ ngang bằng. Sự định nghĩa của chúng ta là xem xét với trường hợp đặc biệt này nếu ta tính toán một mối quan hệ đặc trưng đối với một bảng quyết định như vậy dùng định nghĩa của chúng ta hoặc nếu ta tính mối quan hệ không phân biệt được như cho các bảng quyết định đầy đủ sử dụng định nghĩa từ phần 2, kết quả sẽ như nhau. Với bảng 2.4.2 và B = A,

Ka(1)= { 1 ,4 ,5 , 8} n { 1,2, 4, 6, 8} n {1, 3, 6, 8} = {1,8},

Ka(2) = {2, 8} n {1, 2, 4, 6, 8} n {2, 4, 5, 7, 8 }= {2, 8}, /^ (3 ) = ơ n {3, 7} n { 1,3, 6, 8} = {3}, (adsbygoogle = window.adsbygoogle || []).push({});

Ka(4)= í 1, 4, 5, 8}n {1,2, 4, 6 ,8 } n { 2 , 4 ,5 ,7 , 8} = |4 ,8 } , ^ ( 5 ) = í l , 4 , 5 , 8 } n ơ n { 2 , 4 , 5, 7,8}= {4,5,8},

Ka{6)= {6,7} n {1, 2, 4, 6 ,8 } n { l ,3 , 6,8}= {6},

KaỢ) = {6, 7} n {3, 7} n {2, 4, 5, 7, 8} = {7}, và

^ ( 8 ) = ({1,4, 5, 8}u {2, 8}) n { 1,2, 4, 6,8} n ơ = {1,2, 4, 8}. Tập đặc trưng Kg(x) có thể được diễn giải như tập các trường hợp nhỏ nhất mà không thể phân biệt được từ X sử dụng tất cả các thuộc tính từ B , và sử dụng sự diễn giải của các giá trị thuộc tính thiếu. Như vậy, KA(x) là tập tất cả các trường hợp mà không thể được phân biệt từ X sử dụng tất cả các trường hợp. Hơn nữa, sự định nghĩa trước là một sự mở rộng của một định nghĩa của

Kgịxị: cho các bảng quyết định chỉ với các giá trị bị mất và các điều kiện

“không cần thiết”, cả hai sự định nghĩa là giống nhau.

Mối quan hệ đặc trưng R(B) là một mối quan hệ trên u được định nghĩa với X, y e U như sau

(x, y)eR(B) nếu và chỉ nếu y e Kg(x)

Mối quan hệ đặc trưng R(B) được biết đến nếu ta biết các tập đặc trưng

K(x) với mọi x e ư. Trong ví dụ trên, thì

R(A) = {(1, 1), (1, 8), (2,2), (2, 8), (3, 3), (4, 4), (4, 8), (5, 4), (5, 5), (5, 8), (6, 6), (7, 7), (8, 1), (8, 2), (8, 4), (8, 8)}.

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 72 - 75)