Đơn giản hóa ma trận phân biệt để tìm tập rút gọn (reduct) của tập thuộc tính và cài đặt chương trình thử nghiệm

Bài viết gồm hai phần chính, phần 1 sẽ sơ lược lại các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô bao gồm bảng hoặc hệ thông tin information table, bảng quyết định decision table,

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG

-۞ -University of Information Technology

Khai phá dữ liệu và kho

dữ liệu

Bài thu hoạch: Đơn giản hóa ma trận phân biệt để tìm tập rút gọn (reduct) của tập thuộc tính và cài đặt chương trình thử

nghiệm

Giáo viên hướng dẫn: PGS.TS Đỗ Phúc

Người thực hiện : Dương Ngọc Nhân, MSHV: CH1101115

TP.HCM, Tháng 11 năm 2012

Trang 2

Tóm tắt bài thu hoạch 3

1 Phần 1 – Các khái niệm cơ bản của tập thô 4

1.1 Bảng thông tin và bảng quyết định 4

1.2 Quan hệ tương đương và quan hệ hệ bất khả phân biệt 5

1.3 Rút gọn thuộc tính 5

1.4 Ma trận phân biệt và hàm phân biệt 6

2 Phần 2 – Đơn giản hóa ma trận phân biệt và cài đặt chương trình 9

2.1 Ma trận phân biệt chính tắc (minimum discernibility matrix) 9

2.2 Tương đương, đặc trưng và giống nhau của các ma trận 9

2.3 Các phép toán ma trận cơ sở 10

2.4 Thuật toán xây dựng Reduct dựa trên đơn giản hóa ma trận 11

2.5 Cài đặt chương trình 12

2.6 Kết luận và hướng cải tiến 15

2.7 Phụ lục giao diện chương trình 16

Tài liệu tham khảo 20

Trang 3

Tóm t t ắt bài thu ho ch ạch

Bài viết này giới thiệu một phương pháp để tìm một reduct dựa trên việc đơn giản hóa ma trận phân biệt (discernibility matrix) Các phép toán đơn giản ma trận

cơ sở được sử dụng và mỗi phép toán biến đổi ma trận tới hình thức đơn giản hơn Bằng cách áp dụng các phép toán đó cho một số hữu hạn lần thực hiện, một ma trận phân biệt được chuyển đổi thành một ma trận phân biệt chính tắc (tối giản nhất) mà các phần tử của nó hoặc là rỗng hoặc chỉ là tập một phần tử (singleton subsets) Từ

đó ta union các phần tử trong ma trận phân biệt để được reduct.

Bài viết gồm hai phần chính, phần 1 sẽ sơ lược lại các khái niệm và ý nghĩa cơ

bản của lý thuyết tập thô bao gồm bảng hoặc hệ thông tin (information table), bảng quyết định (decision table), quan hệ tương đương, quan hệ bất khả phân biệt, lớp

tương đương, ma trận phân biệt và hàm phân biệt (discernibility function) Phần 2

trình bày phương pháp đơn giản hóa ma trận phân biệt và mô tả chương trình cài đặt

Có 2 phần nhỏ trong chương trình, phần đầu xây dựng ma trận phân biệt từ một bảng quyết định cho trước và tìm hàm phân biệt (chưa rút gọn) từ ma trận phân biệt, phần sau đơn giản hóa ma trận phân biệt để được tối giản và tạo ra hàm phân biệt (đã rút gọn - reduct) tù ma trận phân biệt tối giản đó

Em xin gửi lời cảm ơn đến PGS.TS Đỗ Phúc đã tận tình giảng dạy và đưa ra một

số định hướng để vận dụng kiến thức từ môn học vào công việc hàng ngày Bài viết này vẫn cần bổ sung và sữa đổi, rất mong nhận được sự góp ý, khích lệ từ Thầy Cô, bạn bè

Trân trọng Người thực hiện

Trang 4

1 Ph n 1 – Các khái ni m c b n c a t p thô ần 1 – Các khái niệm cơ bản của tập thô ệm cơ bản của tập thô ơ bản của tập thô ản của tập thô ủa tập thô ập thô

Tìm luật theo tiếp cận của lý thuyết tập thô do Z Pawlak đề xuất vào những năm 80 của thế kỷ XX là một trong những phương pháp đang được nhiều người nghiên cứu

và sử dụng trong quá trình khám phá tri thức từ dữ liệu Dữ liệu trong thực tế

thường không đầy đủ, dư thừa hoặc không chính xác gây ảnh hưởng không tốt trong quá trình phát hiện tri thức từ dữ liệu Ý tưởng “rút gọn” được sử dụng cho phép loại bỏ những thông tin dư thừa mà vẫn giữ được đầy đủ ý nghĩa của tập dữ liệu đang xét Mục tiêu của việc lựa chọn thuộc tính là tìm ra những thuộc tính cốt yếu

và cần thiết trong cơ sở dữ liệu Dựa vào đó, việc sinh luật và phân lớp có thể đạt hiệu quả cao nhất mà chỉ sử dụng một tập con những thuộc tính đã được lựa chọn

Vì vậy việc tìm tập rút gọn của tập thuộc tính điều kiện là hoàn toàn tự nhiên và cần thiết [5]

1.1 B ng thông tin và b ng quy t đ nh ảng thông tin và bảng quyết định ảng thông tin và bảng quyết định ết định ịnh

Bảng thông tin là một cặp (U, A), trong đó:

 U là tập hữu hạn khác rỗng các đối tượng

 A là tập hữu hạn các thuộc tính sao cho

với mọi a A, a:U Va

 Va được gọi là tập trị của a

Bảng dữ liệu trong Bảng 1-1 cho ta 7 đối tượng, từ

x1đến x7 và 2 thuộc tính, Age, LEMS, và ta dễ dàng

nhận thấy rằng các cặp đối tượng x3, x4 và x5, x7 có

giá trị bằng nhau tại cả hai thuộc tính Khi đó ta nói

rằng các đối tượng này không phân biệt từng đôi đối

với tập thuộc tính {Age, LEMS}

Trong nhiều ứng dụng, tập đối tượng được chia

thành các tập đối tượng con bởi một tập các thuộc

tính phân biệt được gọi là tập thuộc tính quyết

định, bảng thông tin trong trường hợp này được

gọi là một bảng quyết định.[4]

Bảng quyết định là một bảng thông tin có dạng

(U, A {d}) trong đó:

 d A là thuộc tính quyết định (có thể có

nhiều thuộc tính quyết định)

 Các phần tử của A được gọi là các thuộc tính

điều kiện

Bảng 1-1 Một bảng thông tin

Bảng 1-2 Một bảng quyết định

A ={Age, LEMS}, d = {Walk}

Trang 5

Trong bảng quyết định Bảng 1-2 các cặp đối tượng x3, x4 và x5, x7 có giá trị bằng

nhau tại hai thuộc tính điều kiện nhưng cặp {x3, x4} có giá trị khác nhau tại thuộc tính quyết định, trong khi cặp {x5, x7} thì có giá trị bằng nhau tại thuộc tính quyết định Như vậy có thể biểu diễn lặp lại các đối tượng giống nhau hay bất khả phân biệt và một thuộc tính điều kiện có thể dư thừa

1.2 Quan h t ệ tương đương và quan hệ hệ bất khả phân biệt ương đương và quan hệ hệ bất khả phân biệt ng đ ương đương và quan hệ hệ bất khả phân biệt ng và quan h h b t kh phân bi t ệ tương đương và quan hệ hệ bất khả phân biệt ệ tương đương và quan hệ hệ bất khả phân biệt ất khả phân biệt ảng thông tin và bảng quyết định ệ tương đương và quan hệ hệ bất khả phân biệt

Quan hệ tương đương: quan hệ nhị phân R X x X được gọi là quan hệ tương

đương khi và chỉ khi:

 R là quan hệ phản xạ: xRx với mọi x X

 R là quan hệ đối xứng: xRy => yRx với mọi x,y X

 R là quan hệ bắc cầu: xRy và yRz => xRz với mọi x,y,z X

Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương

đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đối tượng có

quan hệ R với x

Quan hệ bất khả phân biệt: cho IS = (U, A) là bảng thông tin, với tập B A

Có quan hệ tương đương tương ứng:

IND IS (B) = {(x,x’)  UxU | a  B, a(x) = a(x’)}

 IND IS (B) được gọi là quan hệ bất khả phân theo B (B-indiscernibility relation)

 Nếu (x,x’)  IND IS (B) thì các đối tượng x và x’ là không thể phân biệt nhau qua

tập thuộc tính B

 Các lớp tương đương của quan hệ bất khả phân biệt theo B được ký hiệu là [x]B

Từ bảng 1-1, phân hoạch 7 đối tượng theo thuộc tính theo các thuộc tính thành các

lớp tương đương:

IND ({Age}) = {{x1, x2, x6}, {x3, x4}, {x5, x7}}

IND ({LEMS}) = {{x1}, {x2}, {x3, x4}, {x5, x6, x7}}

IND ({Age, LEMS}) = {{x1}, {x2}, {x3, x4}, {x5, x7}, {x6}}

Trong một bảng quyết định, có các vấn đề dư thừa thông tin như sau:

 Có thể biểu diễn lặp đi lặp lại nhiều lần các đối tượng giống nhau hay bất khả phân biệt theo một tập thuộc tính

 Một số thuộc tính có thể bị dư nghĩa là có thể loại bỏ chúng mà không làm xấu đi việc phân lớp

Trang 6

Để giải quyết vấn đề thứ nhất ta dùng khái niệm lớp tương đương, chỉ cần sử dụng một đối tượng để đại diện cho mỗi lớp tương đương Còn vấn đề thứ hai là chỉ giữ lại các thuộc tính bảo toàn quan hệ bất khả phân biệt và hệ quả là bảo toàn xấp xỉ tập hợp [2]

Định nghĩa Reduct: cho bảng thông tin S, một tập thuộc tính R A được gọi là

reduct nếu R thỏa hai điều kiện sau:

(i) IND (R) = IND (A) và

(ii) (ii) a  R, IND (R – {a}) ≠ IND (A)

Điều kiện đầu (i) cho thấy tính đầy đủ của tập thuộc tính R nghĩa là các cặp đối tượng mà không thể phân biệt được từ R thì vẫn không thể phân biệt được từ A Điều kiện thứ hai (ii) chỉ ra rằng R là tập thuộc tính tối giản hay nhỏ nhất Có thể có

nhiều hơn một reduct trong bảng thông tin và tập tất cả các reduct trong một bảng

thông tin ký hiệu là RED (S).[3]

1.4 Ma tr n phân bi t và hàm phân bi t ận phân biệt và hàm phân biệt ệ tương đương và quan hệ hệ bất khả phân biệt ệ tương đương và quan hệ hệ bất khả phân biệt

Hai đối tượng được xem là phân biệt nếu các giá trị của nó khác nhau trong ít nhất một thuộc tính Ma trận phân biệt (discernibility matrix) là một ma trận lưu trữ các tập thuộc tính mà phân biệt giữa các cặp đối tượng với nhau

Định nghĩa ma trận phân biệt: cho trước bảng thông tin S, ma trận phân biệt M = (M(x,y)) của S là một ma trận vuông n x n (hoặc |U|x|U|) với n là số các đối tượng, và

phần tử M(x,y) cho cặp đối tượng (x,y) trong ma trận là:

M(x,y) = {a A | a(x) ≠ a(y)}

Ý nghĩa của phẩn tử ma trận M(x,y) là các đối tượng x và y có thể được phân biệt bởi bất kỳ thuộc tính trong M(x,y) và cặp (x,y) có thể được phân biệt nếu M(x,y) ≠

Do ma trận phân biệt M là đối xứng và có đường chéo rỗng, nên ta chỉ quan tâm đến

các phần tử ở một bên đường chéo của ma trận

Ví dụ: cho bảng thông tin với 7 đối tượng (ký hiệu 1 đến 7) và 5 thuộc tính điều kiện (a, b, c, d, e)

Bảng 1-3

Trang 7

Ta có ma trận phân biệt 7x7 (ứng với 7 đối tượng)

1

Ma trận 1-1

Quan sát tại hàng 2 cột 1 trên ma trận phân biệt, ta có (x,y) = (2,1) là cặp đối tượng 2

và 1, và {a,d} chỉ ra rằng hoặc thuộc tính a hoặc d phân biệt hai đối tượng.

Giả sử ta thêm một thuộc tính quyết định D vào bảng thông tin 1-3 như sau:

Bảng 1-4

Đối với bảng quyết định, phân biệt tương đối (relative discernibility) được lưu trữ

trong một ma trận (hay còn gọi là ma trận phân biệt tương đối – relative

discernibility matrix) mà các phần tử được định nghĩa:

M(x,y) = {a C, d D | [a(x) ≠ a(y)] /\ [d(x) ≠ d(y)]}

(trong đó x,y U, C là tập các thuộc tính điều kiện, D là thuộc tính quyết định)

Nghĩa là M(x,y) = nếu x và y có giá trị giống nhau tại thuộc tính quyết định Như

vậy, ta chỉ xem xét sự phân biệt của các đối tượng có giá trị khác nhau tại thuộc tính quyết định

Từ bảng 1-4 ta có ma trận phân biệt tương đối như sau

1

2

3

Trang 8

5 {a,c} {a,c,d} {a,b,c,e}

Ma trận 1-2

Một khi ma trận phân biệt được xây dựng nó được xử lý hay tính toán giống nhau cho dù nó là ma trận phân biệt bình thường hay ma trận phân biệt tương đối

Tổng quát hóa định nghĩa ma trận phân biệt dựa trên bảng quyết định:

Cho T = (U, C, D) là một bảng quyết định Trong đó U là tập gồm n đối tượng, C là tập thuộc tính điều kiện, D là tập thuộc tính quyết định, một ma trận phân biệt của T

kí hiệu M(T) là ma trận nxn được định nghĩa:

{ x,y U; c C: c(x) ≠ c(y)} nếu dD [d(x) ≠ d(y)]

M(x,y) =

nếu dD [d(x) = d(y)]

Hàm phân biệt của một ma trận phân biệt là một dạng chuẩn tuyển chính tắc

(minimal disjunctive normal form-DNF) được định nghĩa:

f(M) = /\ { (M(x,y)) | x,yU, M(x,y) ≠ }

Chúng ta tạo ra hàm phân biệt trong đó giá trị trong mỗi ô (mỗi phần tử của ma trận) được kết với nhau bằng phép toán tuyển ( ) và giữa các ô bằng phép toán hội (/\)[1]

Từ Ma trận 1-2 ở trên, ta có hàm phân biệt

f(a,b,c,d,e) = (a b) /\ (a c) /\ (d e) /\ (b e)

(b d) /\ (a c d) /\ (a d e) /\ (a b d e) (c e) /\ (a b c e) /\ (a b c d) /\ (a c)

Và để rút gọn hàm phân biệt (reduct) ta dùng luật hút (còn gọi luật hấp thu), luật lũy đẳng, v.v

Thuật giải hàm phân biệt: giả sử có một ma trận phân biệt M với n đối tượng

F = //hàm phân biệt

For y = 1 to n Do

For x = y + 1 to n Do

If (M (x,y) khác rỗng Then

F = F /\ M(x,y)

Trang 9

2 Ph n 2 – ần 1 – Các khái niệm cơ bản của tập thô Đ n gi n hóa ma tr n phân bi t và cài ơ bản của tập thô ản của tập thô ập thô ệm cơ bản của tập thô

đ t ch ặt chương trình ươ bản của tập thô ng trình

Trong phần trên sau khi tính hàm phân biệt và dùng các luật để rút gọn các thuộc tính để có một tập con nhỏ nhất được gọi là reduct Có nhiều phương pháp đã được

đề xuất và được kiểm tra cho việc tìm tập reducts hoặc duy nhất một reduct Nhưng

nó đã được chứng minh rằng việc tìm kiếm tập reducts hoặc tìm một reduct tối ưu là

NP (Non-derterministic Polynomial)[3] Trong phần này chúng ta tìm hiểu một phương pháp làm đơn giản ma trận phân biệt trước khi union các giá trị trong các ô

để được một reduct.

2.1 Ma tr n phân bi t chính t c (minimum discernibility matrix) ận phân biệt và hàm phân biệt ệ tương đương và quan hệ hệ bất khả phân biệt ắc (minimum discernibility matrix)

Định nghĩa ma trận phân biệt tối thiểu: cho bảng thông tin S với ma trận phân biệt

M, một ma trận M 0 = (M 0 (x,y)) được gọi là một ma trận phân biệt chính tắc của M

nếu M 0 thỏa các điều kiện sau:

(i) Bất kỳ phần tử của M 0 hoặc là rỗng hoặc là tập thuộc tính với duy nhất một

phần tử (singleton set)

(ii) (x,y)U x U [M(x,y) ≠ => (M 0 (x,y) ≠ /\ M 0 (x,y) M(x,y))]

(iii) (x,y)U x U [M(x,y) = => M 0 (x,y) = ]

(iv) (M 0 (x,y)) là một reduct

Từ ma trận 1-2 ta có thể tính và thu được hai reducts {a, b, e} và {a, b, c, d} Như

vậy ta có hai ma trận phân biệt chính tắc tương ứng.[3]

2.2 T ương đương và quan hệ hệ bất khả phân biệt ng đ ương đương và quan hệ hệ bất khả phân biệt ng, đ c tr ng và gi ng nhau c a các ma tr n ặc trưng và giống nhau của các ma trận ư ống nhau của các ma trận ủa các ma trận ận phân biệt và hàm phân biệt

Ma trận phân biệt đơn giản hóa (simplified discernibility matrix): một ma trận M s

được gọi là simplified discernibility matrix của ma trận phân biệt M nếu thỏa các

điều kiện:

(i) (x,y)U x U [M(x,y) ≠ => (M s (x,y) ≠ /\ M s (x,y) M(x,y))]

(ii) (x,y)U x U [M(x,y) = => M s (x,y) = ]

Trong phần trình bày này ta chỉ đề cập đến simplified discernibility matrix và gọi tắt

là ma trận phân biệt (discernibility matrix)

Định nghĩa ba kiểu quan hệ giữa hai ma trận phân biệt:

 Hai ma trận phân biệt được gọi là tương đương (equivalence) kí hiệu M 1 ≡M 2 nếu

nó có giống nhau tập reduct, RED (M 1 ) = RED (M 2 )

 Một ma trận phân biệt được gọi là đặc trưng (specification) của ma trận phân biệt kia (hoặc M 2 là tổng quát – generalization – của M 1 ) kí hiệu M 1 M 2 nếu như

tập reducts của nó là tập con của tập reduct của ma trận kia, RED (M 1 ) RED (M 2 )

 Hai ma trận phân biệt được gọi là giống nhau (similarity) kí hiệu M 1 M 2 nếu nó

có giống nhau cùng ít nhất một reduct, RED (M 1 ) RED (M 2 ) ≠

Trang 10

2.3 Các phép toán ma tr n c s ận phân biệt và hàm phân biệt ơng đương và quan hệ hệ bất khả phân biệt ở

Phần tử hút hay hấp thụ (element absorption): cho một phần tử của ma trận phân

biệt M(x’,y’) ≠ , nó hút một phần tử khác M(x,y) nếu thỏa điều kiện sau:

≠ M(x’,y’) M(x,y)

Nghĩa là giá trị của M(x,y) được thay thế bởi giá trị của M(x’,y’) trong ma trận phân biệt Ta cũng có thể gọi M(x,y) được hút bở M(x’,y’) Tập thuộc tính phân biệt hai cặp (x’,y’) và (x,y) được cho bởi M(x,y) M(x’,y’) = M(x’,y’) Các thuộc tính

trong M(x’,y’) là đủ để phân biệt hai cặp đối tượng (x’,y’) và (x,y)

Ma trận hút (matrix absorption): phép toán ma trận hút là một chuỗi của tất cả phép

toán của phần tử hút trên các cặcp của các phần tử thỏa điều kiện:

≠ M(x’,y’) M(x,y)

Như vậy sau matrix absorption thì không có phần tử nào trong ma trận phân biệt là

tập con của phần tử khác Ma trận thu được bằng cách áp dụng phép toán của một

phần tử hút là tương đương với ma trận ban đầu, và ma trận thu được bởi phép toán của ma trận hút là tương đương với ma trận ban đầu.

Thực hiện phép toán hút phần tử trong ma trận M.

Lấy một phần tử bất kỳ M(x1,y1) ≠ của M và xét phần tử khác M(x2,y2) với

M(x1,y1) M(x2,y2) Giả sử M e là ma trận thu được sau khi thực hiện phép toán

hút phần tử với bộ hút M(x1,y1)

M(x1,y1) nếu (x,y) = (x2,y2)

M e (x,y) =

M(x,y) nếu khác

Xóa thuộc tính (attribute deletion): cho a  A, phép tính xóa thuộc tính là xóa a từ

tất cả các phần tử trong ma trận phân biệt nếu thỏa điều kiện:

(M(x,y) ≠ ) [(M(x,y) – {a}) ≠ ]

Nói cách khác, thuộc tính a có thể được xóa nếu {a} không là tập một phần tử duy nhất trong M.

Xóa tập thuộc tính (attribute set deletion), cho C A, phép tính xóa tập thuộc tính

là xóa tất cả các thuộc tính trong C từ tất cả các phần tử trong ma trận phân biệt nếu

thỏa điều kiện:

(M(x,y) ≠ ) [(M(x,y) – C) ≠ ]

Nói cách khác, tập thuộc tính C có thể được xóa nếu không có bất kỳ tập con nào của

C là một phần tử của M

Định dạng
Số trang	19
Dung lượng	657,5 KB