Các luật quyết định tối thiểu

Định nghĩa 2.4. Cho một bảng quyết định C7Í, bởi một luật quyết định tối thiểu

(được viết là cế) một luật T rue trong CÂ trở thành False nếu bộ mô tả bất kỳ từ vế trái của luật bị loại bỏ.

Số các bộ mô tả tối thiểu trong vế trái của một luật quyết định tối thiểu định nghĩa tập con lớn nhất của một lớp quyết định. Do đó, thông tin bao gồm trong phần điều kiện của luật tối thiểu bất kỳ là đủ cho dự báo của giá trị quyết địnhđối với tất cả các đối tượng thoả mãn phần điều kiện này. Các phần điều kiện của các luật tối thiểu định nghĩa các tập đối tượng lớn nhất có liên quan tới các lớp quyết định xấp xỉ. Các phần điều kiện của các luật tối thiểu có thể được tính toán sử dụng các prime implicant.

Để tính toán tập tất cả các luật tối thiểu được viết thành một hệ quyết định <A

= (U, A, d), như sau.

Cho đối tượng X e ư bất kỳ:

1. Xây dựng một hàm phân biệt f x bằng việc xem xét trong ma trận quyết định - tương đối với c 4 hàng tương ứng với đối tượng X .

3. Trên cơ sở các prime implicant tạo các luật tối thiểu tương ứng với X.

Để làm việc này, đối với mỗi prime implicant /, xem xét tập Aịỉ) của các thuộc tính tương ứng với các biến định đề trong /, và xây dựng một luật:

A (<* = a(x))

yaeAự) => d (x)

Trò lai ví du 2.2.3.3: Để thu được các luật quyết định ta áp dụng các bước trên như sau:

1. Hàm phân biệt được f x..../ t được xây dựng trên cơ sở ma trận phân biệt được rút gọn biểu diễn trong bảng 2.2.3.2.4. Từ ma trận này ta có hàm phân biệt được của các đối tượng X j như sau:

f = icỉl _ hnay V noi _ sinhV md _ x n v nghe _ nghiep) A (qí _ hnay V noi _ sinh V nghe _ nghiep)

= qí _ hnay

f = (gí _ hnayv noi_ sinhv' m d_ xnV nghe_ nghiepịA (iqt_ hnayv noi_sinhv md x nV nghe_ nghìepị

A ỉttd _ x n /\(q t h n a y v n o i_ s i n h vmd._xn)

- qt _hnay/\m d _xn

f - (qt _ hnayv n oỉ_ sin h v nghe_ nghìepị A (qt hnays/ noi sinhv m d _ x n v nghe_ nghiepỳ A (qt _ hnayv n oi_ sin h v nghe nghiepị A (qt _ hnayv noi_ sin h v md _ JCH V nghe_ nghiejị

= qí_hnay

f - m ả _ x n A {qt _ hnay V noi _ s in h v nghe _ nghiep)

= (md _ x n A q t _ hnay) V (md _ xn A noi sinh) V (md xn A nghe_ nghiep)

f - {qt _ hnay V noi _ sin h v md _ xn) A (qt _ hnay V noi _ sin h v md _ x n v nghe nghiep)

= qt _ hnay

2. Các prime implicant tương ứng với công thức từ f Xì ,...,fXỉ như sau:

f : qt hnay

J Xị

f : qt hnay A md_xn

J x2

f Xì: qt_hnay

f : m d_xn A q t hnay, m d xn A noi sinh, m d xn A nghe nghiep

3. Trên cơ sở của các prime implicant ta tạo các luật quyết định tối thiểu cho các đối tượng x Ịf...,x5.

Từ prime implicant qt hnay tương ứng với f , ta nhận đươc các luât

J X!

dựa trên đối tượng X j \

ịqt hnay - Mỹ) =>(xxet = Nghi_ngờ)

Từ các prime implicant qt hnayA m djcn tương ứng với f , ta nhân

— J X2 '

được các luật dựa trên đối tượng x2\

ịqt_hnay = V7ệí Nam) A ịmd_xn = 77ỉăm thân)=>ịxxet, Cấm)

Từ các prime implicant qt hnay tương ứng với / , ta nhận được các luật dựa trên đối tượng x3:

ịqt hnay = Pháp) =>ịxxet, Không)

Từ các prime implicant md_xn/\qt_hnay, md xriA noi sinh, md_xn

Anghe nghiep tương ứng với f x , ta nhận được các luật dựa trên đối tượng x4:

(md_xn, Du lịch)/\(qt_hnay, Việt Nam)=>(xxet, Nghi ngờ) ịmd_xn, Du lịch)A(noi sinh, Hà Nội) =>ịxxet, Nghi ngờ)

(md_xn, Du lịch)/\ịnghe_nghiep, Thương nhản)=>ịxxet, Nghi ngờ).

Từ các prime implicant qt hnay tương ứng với / x , ta nhận được các

luật dựa trên đối tượng Xỳ

(qt hnay, Mỹ) => ịxxet, Nghi ngờ)

Trong thực tế, số các luật quyết định tối thiểu có thể lớn. Khó khãn chính trong việc đưa ra các luật từ hệ quyết định nằm trong việc xác định các thuộc tính sẽ được đưa ra trong phần điều kiện của luật. Sử dụng nguyên tắc chiến lược ờ trên, đầu tiên các luật tối thiểu được tính toán. Các phần điều kiện của chúng mô tả các tập đối tượng lớn nhất với cùng giá trị quyết định được suy rộng trong một hệ quyết định đưa ra. Mặc dù các luật quyết định tối thiểu như vậy có thể được tính toán, theo cách tiếp cận này kết quả có thể nằm trong một tập các luật không thoả mãn chất lượng phân lớp. Các luật chi tiết

như vậy có thể xuất hiện quá hạn chế đối vói việc phân lớp các đối tượng chưa được xem xét. Các luật ngắn hơn sẽ được tổng hợp. Mặc dù các luật sẽ không hoàn hảo trong các trường hợp đã biết, nhưng có một cơ hội tốt đối với các luật chất lượng cao khi phân lớp các đối tượng mới. Các luật có thể được xây dựng bởi việc tính toán các xấp xỉ rút gọn, thu được bởi việc loại bỏ một số bộ mô tả từ phần điều kiện của các luật tối thiểu. Theo cách này một luật định nghĩa các tập lớn nhất, không chỉ bao gồm các lớp quyết định mà bao gồm cả độ thoả mãn.

2.4. TIỀN XỬ LÝ DỮLIỆƯ [17]

Thông thường từ một cơ sở dữ liệu rất có thể chứa những thông tin không hoàn chỉnh. Vì vậy cần có một bước làm sạch dữ liệu để biến bảng quyết định ban đầu thành bảng quyết định có đầy đủ giá trị của tất cả các thuộc tính. Một số phương pháp làm sạch dữ liệu có thể làm thay đổi cả tập đối tượng hay tập thuộc tính, cũng có những phương pháp bổ sung thêm giá trị cho những thuộc tính có giá trị thiếu.

Các tập dữ liệu được biểu diễn trong các bảng quyết định, ở đây các cột được gán nhãn bởi các biến và các hàng bởi các tên trường hợp (hoặc ví dụ). Các biến được phân loại thành các biến độc lập, được gọi là các thuộc tính, và các biến độc lập được gọi là các quyết định. Thông thường các bảng quyết định chỉ có một sự quyết định. Tập tất cả các trường hợp tương ứng với cùng giá trị quyết định được gọi là một ý niệm chung (hoặc một lớp).

Trong phần lớn các bài báo về lý thuyết tập thô cho rằng các giá trị, các biến và các trường hợp được định rõ. Đối với các bảng như vậy thì mối quan hệ không phân biệt được, một trong phần lớn các khái niệm cơ bản về lý thuyết tập thô mô tả các trường hợp có thể được phân biệt từ các trường hợp khác.

Tuy nhiên, trong rất nhiều ứng dụng thực tế, các tập dữ liệu có các giá trị thuộc tính thiếu nói cách khác các bảng quyết định tương ứng được đạc tả

không đầy đủ. Các bảng quyết định được đặc tả không đầy đủ sẽ được gọi là các bảng quyết định không đầy đủ.

Trong khai phá dữ liệu hai chiến lược chính được sử dụng để xử lý các giá trị thuộc tính thiếu. Chiến lược trước đây dựa trên sự biến đổi của các tập dữ liộu không đầy đủ (có nghĩa là các tập dữ liệu với các giá trị thuộc tính thiếu) thành các tập dữ liệu đầy đủ và sau đó thu được tri thức, ví dụ bằng phương pháp quy nạp luật hoặc sinh cây từ các tập dữ liệu đầy đủ. Trong chiến lược này sự biến đổi của các tập dữ liệu không đầy đủ thành các tập dữ liệu đầy đủ là một sự tiền xử lý đối với quá trình khai phá dữ liộu chính. Trong chiến lược sau này, tri thức thu được từ các tập dữ liệu không đầy đủ đưa vào bản miêu tả một số giá trị thuộc tính bị thiếu. Các tập dữ liộu gốc không được chuyển đổi thành các tập dữ liệu đầy đủ.

Các mẫu đặc trưng về chiến lược trước đây bao gồm:

- Thay thế các giá trị thuộc tính thiếu bởi giá trị chung nhất (thường xuyên nhất) của thuộc tính.

- Thay thế các giá trị thuộc tính thiếu được giới hạn với lớp. Đối với mỗi lớp các giá trị thuộc tính thiếu được thay thế bởi giá trị thuộc tính chung nhất được giới hạn với lớp.

- Đối với các thuộc tính bằng số, giá trị thuộc tính thiếu có thể được thay thế bằng giá trị trung bình thuộc tính,

- Đối với các thuộc tính bằng số, giá trị thuộc tính thiếu có thể được thay thế bằng giá trị trung bình thuộc tính được giới hạn với lớp.

- Gán tất cả các giá trị có thể của thuộc tính. Một trường hợp với một giá trị thuộc tính thiếu được thay thế bởi một tập các mẫu mới, giá trị thuộc tính thiếu được thay thế bởi tất cả các giá trị có thể của thuộc tính.

- Bỏ qua các trường hợp với các giá tri thuộc tính thiếu. Một tập dữ liệu gốc với các giá trị thuộc tính thiếu được thay thế bởi một tập dữ liệu mới đã xoá các trường hợp chứa đựng các giá trị thuộc tính thiếu.

- Xem xét các giá trị thuộc tính thiếu như các giá trị đặc biệt.

Từ quan điểm về lý thuyết tập thô, trong chiến lược trước đây mối quan hệ không phân biệt được thông thường có thể được áp dụng để mô tả quá trình khai phá dữ liệu, sau khi tiền xử lý, tập dữ liệu là đầy đủ (không có các giá trị thuộc tính thiếu).

Có ba lý do đối với bảng quyết định trở nên không đầy đủ. Lý do đầu tiên là một giá trị thuộc tính đối với một trường hợp đặc trưng bị mất. Ví dụ, giá trị thuộc tính gốc đã được biết, tuy nhiên hiện tại giá trị là không có sẵn. Có thể nó đã được ghi nhưng sau đó đã bị xoá. Lý do thứ hai có thể là một giá trị thuộc tính không thích hợp - trường hợp đã quyết định trở thành thành viên của một số lớp, có nghĩa là đã được phân lớp mặc dù thực tế là một vài giá trị thuộc tính không được biết đến. Ví dụ, nó đã khả thi để chẩn đoán một bệnh nhân thay vì thực tế một vài kết quả kiểm tra đã không được đưa ra (ở đây các thuộc tính tương ứng với các kiểm tra, do đó các giá trị thuộc tính là kết quả kiểm tra). Từ đó các giá trị thuộc tính thiếu là không quan trọng đối với kết quả cuối cùng, ta sẽ gọi chúng là các điều kiện “không cần thiết”. Lý do thứ ba có thể là một điều kiện “không cần thiết” thực tế: giả sử giá trị thuộc tính thiếu thuộc về tập các giá trị thuộc tính đặc trưng đối với tất cả các trường hợp cùng lớp. Như vậy một giá trị thuộc tính thiếu sẽ được gọi là một giá trị lớp thuộc tính (attribute-concept value).

2.4.1. Dữ liệu đầy đủ: Các tập thành phần và mối quan hệ không phân

biệt được

Một ví dụ về một bảng quyết định được giới thiệu dưới đây: Bảng 2.4.1: một ví dụ về một bảng quyết định đầy đủ

Thuộc tính Quyết định

Qt hnay Md xn Ton giao XXet

1 Mỹ Du lịch Không Cấm

2 Pháp Du lich Có Cấm

3 Mỹ Thương mại Không Không

4 Mỹ Du lich Có Cấm

5 Mỹ Du lịch Có Không

6 Viêt Nam Du lịch Không Không

7 Viêt Nam Thương mại Có Không

8 Viêt Nam Du lich Không Cấm

Các hàng của bảng quyết định biểu diễn các trường hợp, trong khi các cột được gán nhãn bởi các biến. Tập tất cả các trường hợp sẽ được biểu thị bởi u.

Trong bảng n.4.1, U={1, 2, ... 8}. Các biến độc lập được gọi là các thuộc tính và một biến phụ thuộc được gọi là một sự quyết định và được biểu thị bởi d.

Tập tất cả các thuộc tính được biểu thị bởi A. Trong bảng 2.4.1, A={Qt_hnay, Md_xn, Ton_giaoj. Bất kỳ bảng quyết định nào định nghĩa một hàm p mà ánh xạ trực tiếp tích của ư và A thành tập tất cả các giá trị. Ví dụ, trong bảng 2.4.1, p ( 1, Qt_hnay) = Mỹ. Hàm p mô tả bảng 2.4.1 được đặc tả đầy đủ (tổng). Một bảng quyết định với hàm p được đặc tả đầy đủ sẽ được gọi là đã đặc tả đầy đủ.

Lý thuyết tập thô dựa trên khái niệm về mối quan hệ không phân biệt được, được định nghĩa cho các bảng quyết định đầy đủ. Cho B là một tập con không rỗng của tập A của tất cả các thuộc tính. Mối quan hệ không phân biệt được IND(£) là một mối quan hệ trên u được định nghĩa đối với x ,y €Ư như sau:

(x, y ) e l N D ( B ) nếu và chỉ nếu p(x, a) = p(y, a) với aeB.

Mối quan hệ không phân biệt được IND(B) là một mối quan hệ ngang bằng. Các lớp ngang bằng của IND(B) được gọi là các tập cơ bản của B và được biểu thị bởi [x]q. v í dụ, bảng 1, các tập cơ bản của IND(/4j là {1}, {2Ị, {3} {4, 5} {6 8}. {7}. Mối quan hệ không phân biệt được ỈND(B) có thể

được tính toán sử dụng khái niệm về các khối của các cặp giá trị thuộc tính (attribute-value). Cho a là một thuộc tính, có nghĩa là a e A và cho V là một giá trị của a trong một số trường hợp. Đối với các bảng quyết định đầy đủ nếu

t=(a, v) là một cặp giá trị thuộc tính thì một khối của t, được biểu thị [tĩ, là

một tập tất cả các trường hợp từ umà thuộc tính acó giá trị V. Bảng 2.4.1,

[(Qt_hnay, Mỹ)] = {1, 3, 4, 5}, [(Qt_hnay, Pháp)] = {2},

[(Qt_hnay, Việt Nam)] = {6,7,8}, [(Md_xn, Du lịch)] = {1, 2, 4, 5, 6, 8}, [(Md_xn, Thương mại)] = {3,7}, [(Ton_giao, Không)] = {1, 3, 6}, [(Ton_giao, Có)] = {2, 4, 5, 7}.

Mối quan hệ không phân biệt được IND(B) được biết khi biết tất cả các khối cơ bản của IND(ZĨ). Như vậy các khối cơ bản của B là giao của các cặp giá trị thuộc tính tương ứng, có nghĩa là với X <E u bất kỳ,

M b= nl(a.p(fl.v))]lflefi}

Chúng ta sẽ giải thích khái niệm làm thế nào để tính các tập cơ bản của

B đối với bảng 2.4.1 và B =A.

[1]A = [(Qt_hnay» Mỹ)] n [(Md_xn, Du lịch)] n [(Ton_giao, Không)] = {1}, [2]a = [(Qt_hnay, Pháp)] n [(Md_xn, Du lịch)] n [(Ton_giao, Có)] = {2}, [3]a = [(Qt_hnay, Mỹ)] n [(Md_xn, Thương mại)] n [(Ton_giao, Không)] =

{31,

[4]a = [5]a= [(Qt_hnay, Mỹ)] n[(M d_xn, Du lịch)] n[(Ton_giao, Có)] = {4,

[6]a = [8]a= [(Qt_hnay, Việt nam)] n[(M d_xn, Du lịch)] n[(Ton_giao, Không)] = { 6 ,8 } ,

[7]a = [(Q hnay, Việt nam)] n [(Md_xn, Thương mại)] n [(Ton_giao, Có)] = {7}.

2.4.2. Dữ liệu không đầy đủ: các tập đặc trưng và các quan hệ đặc trưng

Cho các tập dữ liệu với các giá trị thuộc tính thiếu, hàm tương ứng p được đặc tả không đầy đủ (không hoàn chỉnh). Một bảng quyết định với hàm được đặc tả không đầy đủ p sẽ được gọi là dược đặc tả không đầy đủ, hoặc không đầy

Sau đó giả sử tất cả các giá trị quyết định được đặc tả, có nghĩa là, chúng sẽ không bị thiếu. Tất cả các giá trị thuộc tính thiếu được biểu thị bởi bởi hoặc các giá trị bị mất sẽ được biểu thị bởi các điều kiện “không cần thiết” được biểu thị bởi các giá trị lớp thuộc tính bải Thêm vào đó, ta giả sử mỗi trường hợp có ít nhất một giá trị thuộc tính được đặc tả.

Bảng 2.4.2: Một ví dụ về một bảng quyết định không đầy đủ

Thuộc tính Quyết dịnh

Qt hnay Md X n Ton giao XXeí

1 Mỹ - Không Cấm

2 Pháp Du lich Có Cấm

3 ? Thương mại Không Không

4 Mỹ Du lich Có Cấm

5 Mỹ 7 Có Không

6 Viêt Nam Du lịch Không Không

7 Viêt Nam Thương mại Có Không

8 - Du lich * Cấm

Đối với các bảng quyết định không đầy đủ sự định nghĩa của một khối của một cặp giá trị thuộc tính phải được biến đổi.

- Nếu một thuộc tính a c ó tồn tại một trường hợp Xmà p (*, a ) = ?, có nghĩa là giá trị tương ứng bị mất, thì trường hợp * không được chứa trong trong bất kỳ khối [(ứ, v)] nào với tất cả các giá trị V của thuộc tính a.

- Nếu cho một thuộc tính a có tồn tại một trường hợp X mà giá trị tương ứng là một điều kiện “không cần thiết”, có nghĩa là p ( x , a ) = *, thì trường hợp

tương ứng X được chứa trong trong các khối [(a , v)] với tất cả các giá trị V của

thuộc tính a được đặc tả.

- Nếu cho một thuộc tính a có tồn tại một trường hợp X mà giá trị tương ứng là một giá trị lớp thuộc tính, có nghĩa là p(x, a) = thì trường hợp tương

ứng X được chứa trong trong các khối [(a , v)] với tất cả các giá trị V của thuộc

tính a được đặc tả mà là thành viên của tập V(x, a), ở đây

Vịx, a) ={p(y, a)13><E u, p ( y , d ) = p(x, d)j, và d là sự quyết định. Những sự biến đổi về sự định nghĩa của khôi cặp giá trị thuộc tính này là phù hợp với sự thể hiện của các giá trị thuộc tính thiếu, bị mất, điều kiện

Mẫu trong hệ thống thông tin

Các đặc trưng của ROSETTA