Luan van Tap Tho Pawlak va luat cau noi lop

44 5 0
Luan van Tap Tho Pawlak va luat cau noi lop

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Víi c¸c luËt cÇu nèi-líp øng viªn vµ ng-ìng tèi thiÓu minSim, minEntro t×m ®-îc ë b-íc 6 th× sè luËt cÇu nèi-líp cèt yÕu ®-îc thèng kª theo ng-ìng minSim, minEntro thay ®æi.. Sau ®©y lµ [r]

(1)

Lời Cảm Ơn

Khụng th núi hết lời lòng biết ơn sâu sắc em đến ng-ời Thầy h-ớng dẫn Cô Tạ Thị Thu Ph-ợng, ng-ời tận tình h-ớng dẫn động viên em v-ợt qua khó khăn học thuật để có đ-ợc kết Từ Cô, em học đ-ợc nhiều điều quí giá học tập ứng xử đời th-ờng Em nhận đ-ợc truyền thụ kiến thức, góp ý định h-ớng ban đầu Thầy Đặng Ph-ớc Huy nội dung khóa luận Và Thầy Huỳnh Đình Dũng, Thầy cung cấp cho em sở liệu Bảng Tuần Hoàn Các Nguyên Tố Hóa Học để hồn thành mơ hình thử nghiệm Kính xin ghi nhận tất đặc ân Quý Thầy

Em xin chân thành cảm ơn Thầy Cơ khoa Tốn - Tin Học tr-ờng Đại Học Đà Lạt cung cấp cho em nhiều kiến thức môi tr-ờng học tập khoa học năm vừa qua, đặc biệt Bộ Môn Tốn Ư0ng Dụng Tin Học có buổi Seminar bổ ích qua em học tập đ-ợc kinh nghiệm nghiên cứu, cách trình bày kết nghiên cứu Con xin bày tỏ lịng kính trọng biết ơn sâu sắc đến gia đình động viên hỗ trợ tinh thần cho con, cảm ơn ng-ời bạn giúp đỡ nhiều trình nghiên cứu học tập

Xin cảm ơn tất ng-ời hỗ trợ em hoàn thnh lun ny!

Đà Lạt, tháng năm 2012 Sinh viên

(2)

1 Tập thô Pawlak

5

1.1 Kh«ng gian xÊp xØ - To¸n tư xÊp xØ

1.1.1 BiĨu diƠn tri thøc kh«ng gian xÊp xØ

1.1.2 Sù ph©n líp - XÊp xỉ phân lớp 12

1.2 Tính hạt mô hình tập thô 13

1.2.1 XÊp xØ theo h¹t 13

1.2.2 Møc ý nghÜa thuéc tÝnh 14

2 Bài toán khai thác luật cầu nối-lớp dựa vào tập thô 17 2.1 Phát luật cầu nối-lớp ứng viên 18

2.1.1 Xác định tập bắc cầu 18

2.1.2 Xác định luật cầu nối-lớp ứng viên 21

2.2 Ph¸t hiƯn luật cầu nối-lớp cốt yếu 21

2.3 Thuật tốn tìm luật cầu nối-lớp cốt yếu hệ định 24

3 A0p dụng: Tìm luật cầu nối-lớp trong bảng tuần hoàn nguyên tố hóa học 26 3.1 Mô tả sở liệu bảng tuần hoàn nguyên tè hãa häc 26

3.2 KÕt qu¶ thùc nghiƯm 28

Phơ lơc 34

Tài liệu tham khảo 44

(3)

Lời Mở Đầu

Trong mt vi nm gn đây, ngành cơng nghệ thơng tin tồn giới phát triển mạnh mẽ với tốc độ nhanh Song song với điều phải đối mặt với thách thức bùng nổ l-ợng thông tin Tuy nhiên, thực tế diễn phổ biến có l-ợng liệu lớn nh-ng thơng tin hữu ích trích từ liệu mà thực có ít, t-ợng thể qua liệu, hiểu biết thực l-ợng liệu mà có cịn hạn chế

Xuất phát từ thực tế mà vài năm gần nhà nghiên cứu ứng dụng tin học phải nghiên cứu, tìm kiếm ph-ơng pháp để khai thác triệt để thông tin có sở liệu Và hàng loạt ph-ơng pháp đ-ợc nhà nghiên cứu đề xuất nh- lý thuyết tập mờ, lý thuyết tập thô, tính tốn hạt Trong ph-ơng pháp này, ph-ơng pháp tập thơ đ-ợc nhiều nhóm khoa học giới quan tâm nghiên cứu phát triển Điều lý giải lý thuyết tập thơ đ-ợc xây dựng toán học vững chắc, cung cấp cơng cụ hữu ích để giải toán phân lớp liệu, phát luật , đặc biệt phục vụ cho việc nghiên cứu hệ thống thông minh khai thác liệu

Y0 t-ởng lý thuyết tập thơ lần đ-ợc nhà toán học Ba Lan Z.Pawlak đề xuất vào năm 1982 Tiếp theo sau đó, nhà khoa học khắp nơi giới đóng góp nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thơ ứng dụng Một số tốn lĩnh vực nh- ngân hàng, tài chính, y học đ-ợc giải thành công nhờ công cụ tập thô

Kiến thức sở lý thuyết tập thô cổ điển phép toán xấp xỉ trên, xấp xỉ d-ới dựa phân hoạch đ-ợc tạo quan hệ t-ơng đ-ơng Chính kiến thức sở làm cho việc tiếp cận tập thô đơn giản dễ hiểu Với đặc tính xử lý đ-ợc liệu mơ hồ, không chắn tập thơ tỏ hữu ích việc giải toán thực tế Từ bảng liệu lớn với liệu d- thừa, khơng hồn hảo, liệu liên tục, lý thuyết tập thô cho phép khai phá tri thức từ khối liệu nhằm phát luật tiềm ẩn từ khối liệu ny

Trong luận văn tốt nghiệp trình bày số kiến thức lý thuyết tập thô, tìm hiểu toán phát luật cầu nối-lớp hệ thông tin dựa vào tập thô, xây dựng ch-ơng trình thử nghiệm Về cấu trúc, khóa luận tốt nghiệp đ-ợc tổ chức nh- sau:

Ch-ơng 1: Khóa luận trình bày kiến thức tập thô theo quan điểm Pawlak.

(4)

C¸c ký hiƯu RX R−xÊp xØ d-íi cđa tËp X RX Rxấp xỉ tập X àR

X(x) Hàm thành viên thô x tập X theo quan hệ t-ơng đ-ơng R.

αR(X) §é chÝnh xác xấp xỉ tập X theo quan hệ t-ơng đ-ơng R. àR(X) Độ thô tập X theo quan hệ t-ơng đ-ơng R.

R(F) Độ xác xấp xỉ phân lớpF theo quan hệ t-ơng đ-ơng R.

R(F) Chất l-ợng xấp xỉ phân lớp F theo quan hệ t-ơng đ-ơng R.

(U,R) Khụng gian xấp xỉ xác định quan hệ hai R tập đối t-ợng U.

S = (U, A) Hệ định

(5)

TËp th« Pawlak

Trong ch-ơng này, luận văn trình bày số khái niệm lý thuyết tập thô cổ điển (tập thô theo quan điểm Pawlak): cặp toán tử xấp xỉ, tính chất số đo liên quan, phân lớp xấp xỉ phân lớp, cặp toán tử xấp xỉ theo tính hạt mức ý nghÜa thuéc tÝnh

1.1 Kh«ng gian xÊp xØ - To¸n tư xÊp xØ

1.1.1 BiĨu diƠn tri thøc kh«ng gian xÊp xØ

Trong lý thuyết tập thô, gọi U tập đối t-ợng hữu hạn, khác rỗng; X U đ-ợc gọi khái niệm (concept) nhóm (category) trongU Họ khái niệm U đ-ợc gọi tri thức trừu t-ợng (abstract knowledge) Luận văn quan tâm đến lớp khái niệm trongU với dạng phân hoạch cụ thể sở liệuU

VÝ dơ, cho hä c¸c tËp C = {C1, C2, , Cn}, Ci U, Ci 6= ∅, Ci∩Cj = víi ∀i 6=

j;i, j = 1, n vµ n

S

i=1

Ci =U.

Vì tính chuẩn hóa nên tập đ-ợc xem lớp khái niệm Trong tr-ờng hợp tổng quát, để xét U cần dùng nhiều họ phân hoạch không dựa vào phân hoạch Họ phân hoạchU đ-ợc định nghĩa nh- tri thức củaU Do đó, tri thức phản ánh toàn tất loại ph-ơng pháp phân hoạch sở trí tuệ nhân tạo Chúng ta sử dụng quan hệ t-ơng đ-ơng để phân hoạch quan hệ t-ơng đ-ơng phân hoạch U thành lớp t-ơng đ-ơng khác lớp t-ơng đ-ơng thỏa mãn khái niệm phân hoạch Giả sử R họ quan hệ t-ơng đ-ơng trênU, U/R họ tất lớp t-ơng đ-ơng (hoặc phân hoạchU thành cụm) Và (U,R) đ-ợc gọi không gian xấp xỉ

Xét không gian xấp xỉ K = (U,R)trong :

U tập hữu hạn (6=) đối t-ng

ã R họ quan hệ t-ơng đ-ơng (hoặc \Bất khả phân" - IND) trênU

(6)

Sử dụng ký hiệu,[x]R lớp t-ơng đ-ơng chứa x ∈U ứng với quan hệ bất khả phân R trênU

Cho P (∅ 6=P ⊆ R) ta biÕt r»ng IN D(P) \

R∈P

R quan hệ bất khả phân U Khi tập IN D(K) ≡ {IN D(P) : ∅ 6= P ⊆ R} gọi họ tất quan hệ bất khả phân xác định s tri thcK.

P - tri thức bản: tập P (các quan hệ bất khả phân), 6=P R, gọi P - tri thức

Với tập P - tri thức bản,

U/I N D(P)≡ {[x]I N D(P):x∈U}

đ-ợc gọi P - tri thức (tập đối t-ợng) U (cơ sở tri thức) K lớp t-ơng đ-ơng[x]I N D(P) quan hệIN D(P) gọi khái niệm tri thức P

Đặc biệt, với Q R

IN D(Q) =Q

khi đóQ đ-ợc gọi Q - tri thức sở lớp t-ơng đ-ơng Q đ-ợc gọi Q -khái niệm sở tri thức R

NhËn xÐt : Chóng ta thÊy tËp

{[x]R |x∈U, R∈ R}

lµ tËp tất khái niệm sở tri thứcR Từ tập hình thành khái niệm tri thức P R

[x]I N D(P)=

\

R∈P

[x]R

Nghĩa là, khái niệm P - tri thức đ-ợc tạo thành giao tất khái niệm sở R - tri thức sở thuộc P

Ngoài ra, hä

[

P:∅6=P⊆R

{[x]I N D(P):x∈U}

gọi họ khái niệm c¬ së tri thøcK = (U,R)

Hay cã thĨ biểu diễn họ qua \tích hợp" khái niệm sở tri thức R

nh- sau

[

P:∅6=P⊆R

{\

R∈P

(7)

Tập xác - Tập thô

Nhắc lại quan niệm việc nhận biết phạm trù (tức tập đối t-ợng) sở tri thức theo Pawlak Theo quan điểm phạm trù mơ hồ (hoặc xác định đ-ợc) dựa sở tri thức cho nh- khơng thể biểu diễn xác qua khái niệm sở tri thức sn cú

Cụ thể là, với sở tri thức K = (U,R), mộtP - tri thức bản: IN D(P)∈IN D(K)

và tập X U Khi ú nh ngha

Định nghĩa 1.1.1. ([5]) (Tập thô theo một P- tri thức bản)

ã X gọi P - xác nh- hợp khái niệm tri thc P.

ã Ng-ợc lại X gọi P - th«.

NhËn xÐt: Cã thĨ thÊy X P - xác nh- biểu diÔn X = [

x∈U

[x]I N D(P)=

[

x∈U

\

R∈P

[x]R

tức đ-ợc biểu diễn xác qua khái niệm sở tri thứcR Trong hình (a) minh họa cho tập P - thô: X hình (b) tập P - xác: Y

(a)X=ABCDX7 (b)Y =X6X7X8

Hình 1.1: Minh họa tập thô - tËp chÝnh x¸c

Để ý tậpXP - thơ đối vớiP - tri thức bản, tập xác sở tri thứcK nh- có tồn Q - tri thức (IN D(Q)∈IN D(K)) cho tập A, B, C, D X7 đ-ợc biểu diễn qua khái niệm sở tri thức R

theoQ.

Xấp xỉ d-ới trên

(8)

thức sẵn có), lẽ tự nhiên ng-ời ta nghĩ đến việc xác định \xấp xỉ" phạm trù theo sở tri thức

Víi X ⊆UR quan hệ t-ơng đ-ơng U, xấp xỉ d-ới xấp xỉ X theo quan hệ t-ơng đ-ơngR hai tập ký hiệu RX, RX ([2]) t-¬ng øng cho bëi

RX ={x∈U : [x]R⊆X}

Tập RX bao gồm tất phần tử U ch¾c ch¾n thc vỊ X øng víi quan hƯ R. RX ={x∈U : [x]R∩X 6=∅}

TËp RX bao gồm phần tử U có khả đ-ợc phân loại vào phần tử thuộc X ứng với quan hƯR.

Ví dụ 1.1.1. Cho K = (U, R), đó U = {1,2,3,4}, R IN D(K) là quan hệ t-ơng đ-ơng vàU/R={E1, E2, E3}, tri thức hạt sở là E1 ={1,4}, E2 ={2},

E3 ={3} ChoX ={1,2}:

RX =E2 ={2}.

RX =E1∪E2 ={1,2,4}.

Từ hai tập xấp xỉ Pawlak định nghĩa tập ([2]):

P OSR(X) =RX gọi vùngR - d-ơng X

ã N EGR(X) =U RX gọi vùngR - âm cđa X

BN DR(X) =RX−RX gọi vùngR - biên X Do tập đối t-ợngU đ-ợc chia thành vùng:

- Vùng R - d-ơng củaX K: P OSR(X) ={x∈U : [x]R⊆X} chứa đối t-ợng chắn thuộc vềX dựa quan hệ t-ơng đ-ơng R.

Hình 1.2: Minh họa xấp xỉ đóRX =X1∪X2∪X3∪X7∪X8∪X9∪X10∪X11

A∪B∪C∪D∪E∪F,BN DR(X) =X1∪X2∪X3∪X7∪X10∪X11∪A∪B∪C∪D∪E∪F,

(9)

- Vùng R - âm X K: N EGR(X) = {x U : [x]R∩X = ∅} chứa đối t-ợng không thuộc X dựa quan hệ t-ơng đ-ơng R.

- Vùng R - biên X K: BN DR(X) ={x∈U : [x]R∩X 6=∅ ∧[x]R∩Xc 6=∅} đối t-ợng định thuộc X hay không dựa quan hệ t-ơng đ-ơngR.

VÝ dơ 1.1.2. Trë l¹i vÝ dô 1.1.1, P OSR(X) = RX = {2}, N EGR(X) = U −RX = {3}, BN DR(X) =RX−RX ={1,4}.

Định nghĩa 1.1.2. (R - thô) X đ-ợc gọi là R - thô nh- RX 6=RX Ng-ợc lại X gọi là tậpR - xác.

Ví dụ 1.1.3. Trở lại ví dụ 1.1.1, vì RX ={2} 6=RX ={1,4,2} Vậy X là R - thô. Bốn loại tập thô bản ([2])

Dựa vào khái niệm xấp xỉ d-ới xấp xỉ trên, ng-ời ta phân tập thô thành bốn loại quan trọng khác sau đây:

ã X l thụ xỏc nh đ-ợc theo R RX 6= , RX 6= U, nghĩa ta định đối t-ợng U thuộc X đối t-ợng U thuộc (U −X) theo quan hệ t-ơng đ-ơng R.

X khơng xác định đ-ợc phần theo R RX = , RX 6=U, tức dựa vào quan hệ t-ơng đ-ơng R ta định phần tử U thuộc (U −X)

X khơng xác định đ-ợc phần theo R RX 6= , RX = U, nghĩa dựa vào quan hệ t-ơng đ-ơng R ta định phần tử U thuộc X

X hồn tồn khơng xác định đ-ợc theoR nếuRX =, RX =U, nghĩa ta định phần tử U thuộc vềX hay (U−X)theo quan hệ t-ơng đ-ơng R.

TÝnh chÊt cña xÊp xØ ([2]) RX ⊆X ⊆RX

2 R∅=R∅=;RU =RU =U R(X ∪Y) =RX ∪RY

(10)

9 R(Xc) =RcX 10 R(Xc) =RcX

11 R RX =RRX =RX 12 R RX =RRX =RX

Ký hiệuXc phần bù củaX Xc =U −X.

Chứng minh: 1) • ∀x∈RX [x]⊆X (theo định nghĩa xấp xỉ d-ới) màx∈[x]

x ∈X VËy RX ⊆X (1)

• ∀x∈X [x]∩X 6= (vìx∈[x]∩X) x∈RX VậyX ⊆RX. (2)

Tõ (1), (2) ⇒RX ⊆X ⊆RX.

2) Theo tÝnh chÊt (1) R∅ ⊆ ∅∅ ⊆R∅ ⇒R∅=∅.

Giả sử R∅ 6= Khi ∃x ∈R∅ ⇒[x]∩ ∅ 6= (định nghĩa xấp xỉ trên), điều mâu thuẫn [x]∩ ∅= Nên R∅=∅.

VËy R∅=R∅=∅.

Theo tÝnh chÊt (1)⇒RU ⊆U. ()

∀x∈U [x]⊆U, x∈RU ⇒U ⊆RU. (∗∗)

Tõ ()vµ (∗∗) ⇒RU =U.

Tõ 1) RU URU U Hiển nhiên RU =U VậyRU =RU =U.

3) ∀x ∈R(X ∪Y)[x](X ∪Y)6=∅ ⇔([x]∩X)([x]∩Y)6=∅ ⇔[x]∩X 6= ∅ ∨[x]∩Y 6=∅ ⇔x∈RX∨x∈RY ⇔x ∈RX∪RY, R(X ∪Y) =RX∪RY. 4) ∀x ∈R(X ∩Y)[x]⊆X ∩Y [x]⊆X [x]⊆Y ⇔x∈RX ∩RY, R(X ∩Y) =RX ∩RY.

5) V× X ⊆Y ⇔X∩Y =X Theo tÝnh chÊt (4) ta cãR(X∩Y) =RX ⇔RX∩RY =

RX ⇒RX ⊆RY

6) V×X ⊆Y ⇔X∪Y =Y Theo tÝnh chÊt (3) ta cãR(X∪Y) =RY ⇔RX∪RY =

RY ⇒RX RY.

7)

X X ∪Y Y X ∪Y

RX R(X ∪Y)

RY R(X ∪Y) ⇒RX ∪RY ⊆R(X ∪Y).

8)

X∩Y X X∩Y Y

R(X ∩Y) RX

R(X ∩Y) RY ⇒R(X ∩Y)⊆RX ∩RY. 9) ∀x ∈RX [x]⊆X [x]∩Xc =∅ ⇔x /∈R(Xc)⇔x∈Rc(Xc), đó RX =Rc(Xc) Vậy R(Xc) =RcX.

(11)

VËy R(Xc) =Rc X. 11) (a) R RX =RX.

Tõ tÝnh chÊt (1) ta cã: R RX ⊆RX ()

• ∀x∈RX, [x]⊆X (định nghĩa xấp xỉ d-ới), R[x]⊆RX (tính chất (5))

R[x] = [x][x]RX, nên xR RX hay RX ⊆R RX. (∗∗)

Tõ ()vµ (∗∗)⇒R RX =RX. (1)

(b) RRX =RX.

Tõ tÝnh chÊt (1) RX ⊆RRX. ()

• ∀x∈RRX,[x]∩RX 6=, nghĩa là:∃y∈[x] hay y∈RX, đó [y]⊆X, mà

[x] = [y][x]⊆X hay x∈RX ⇒RX ⊇RRX. (∗∗)

Tõ ()vµ (∗∗)⇒RRX =RX. (2)

Tõ (1) vµ(2) ta cã R RX =RRX =RX.

12) (a) R RX =RX.

Tõ tÝnh chÊt (1) RX ⊆R RX. ()

• ∀x∈R RX, đó[x]∩RX 6=, ∃y∈[x], y∈RX [y]∩X 6= mà [x] = [y], [x]∩X 6=, nghĩa là: x∈RX ⇒RX ⊇R RX. (∗∗)

Tõ ()vµ (∗∗)⇒R RX =RX. (1)

(b) RRX =RX.

Tõ tÝnh chÊt (1) RRX ⊆RX. ()

• ∀x∈RX, đó[x]∩X 6= ∃y∈[x], y∈RX vì[x]∩X = [y]∩X 6=([x] = [y]),

nghÜa lµ: [x]⊆RXx∈RRX ⇒RRX RX. (∗∗)

Tõ ()vµ (∗∗)⇒RRX =RX. (2)

Tõ (1) vµ(2) ta cã R RX =RRX =RX.

Độ xác xấp xỉ

Tính xác định tậpX đ-ợc đo độ xác định xấp xỉ : X 6=, X ⊆U αR(X) |R(X)|

|R(X)|

Trong đó,|X| lực l-ợng (số phần tử) X Hiển nhiên, 0≤αR(X)1, thấy

αR(X) = miền biên X rỗng tập X xác đối vớiR.

αR(X)<1 X đ-ợc gọi thơ R. Ngồi cịn đo theo độ thơ, định nghĩa nh- sau

µR(X)1−αR(X)

(12)

VÝ dơ 1.1.4. Trë l¹i vÝ dơ 1.1.1, ta cã

RX ={2}, RX ={1,2,4} ⇒αR(X) = |RX| |RX| =

1

.

⇒µR(X) = 3.

Hàm thành viên thô

nh ngha 1.1.3. Hàm thành viên thô đối t-ợng x∈U đối với tập X theo R là: àRX(x) = |[x]R∩X|

|[x]R| ,

hiển nhiên, 0àR

X(x)1.

Hm thành viên thơ cịn dùng để định nghĩa xấp xỉ miền biên tập:

RX ={x U :àR

X(x) = 1}.

ã RX ={x U :àRX(x)>0}.

ã BN DR(X) ={xU : 0< µR

X(x)<1}.

1.1.2 Sù ph©n líp - XÊp xỉ phân lớp Sự phân lớp

Cho không gian xấp xỉK = (U, R), vớiX UP, Q hai quan hệ t-ơng đ-ơng U Đặt ([4]):

P OSP(Q) = [

X∈U/Q P X

và gọi miền d-ơng tri thức phân lớp U/Q, tức tập tất đối t-ợng U mà đ-ợc phân lớp vào lớp U/Q dựa vào tri thức hạt c s U/P

Xấp xỉ phân lớp tính chất

Cho không gian xấp xỉK = (U, R),Rlà quan hệ t-ơng đ-ơng U vàF ={X1, X2, , Xn}

là phân lớp U Khi đó:

RF ={RX1, RX2, , RXn}gọi xấp xỉ d-ới phân lớp F

RF ={RX1, RX2, , RXn}gäi xấp xỉ phân lớp F

Chỳng ta s cú hai o sau:

ã Độ xác xấp xỉ phân lớp F theoR R(F) =

P

|RXi|

P

(13)

ã Chất l-ợng xấp xỉ phân lớp F theo R γR(F) =

P

|RXi| |U|

Độ xác xấp xỉ phân lớpF theoR thể tỉ lệ đ-ợc phân hoạch xác đối t-ợng Chất l-ợng xấp xỉ phân lớp F theo R thể tỉ số tất đối t-ợng trongU mà đ-ợc phân lớp thích hợp theo F dựa vào tri thức R.

TÝnh chÊt 1.1.1. ([2]) ChoF ={X1, X2, , Xn}, n >1là phân hoạch U vàRlà quan

hệ t-ơng đ-ơng Nếu i {1,2, , n}:RXi 6=∅ ⇒ ∀j 6=i, RXj 6=U, j ∈ {1,2, , n}.

Chøng minh: NÕuRXi 6=∅,∃x∈Xi : [x]R⊆Xi [x]R∩Xj =∅,∀j 6=i

RXj [x]R =

RXj 6=U (∀j 6=i)

TÝnh chÊt 1.1.2. ([2]) ChoF ={X1, X2, , Xn}, n >1là phân hoạch U vàRlà quan

hệ t-ơng đ-ơng Nếu i {1,2, , n}:RXi =U ⇒ ∀j 6=i, RXj =∅, j ∈ {1,2, , n}.

Chứng minh: Nếu RXi =U, với x∈ U, ta có [x]R∩Xi 6= Nên [x]R ⊆Xj không đúng, ∀j 6=i, đó RXj =∅,∀j 6=i.

C¸c tÝnh chÊt sau ®-ỵc suy trùc tiÕp tõ hai TÝnh chÊt 1.1.1 vµ TÝnh chÊt 1.1.2

TÝnh chÊt 1.1.3. ([2]) Cho F = {X1, X2, , Xn}, n > là phân hoạch U và R

quan hệ t-ơng đ-ơng Nếu i {1,2, , n}:RXi 6=∅ ⇒RXi 6=U,∀i∈ {1,2, , n}. TÝnh chÊt 1.1.4. ([2]) Cho F = {X1, X2, , Xn}, n > lµ phân hoạch U và R

quan h t-ơng đ-ơng Nếu∀i∈ {1,2, , n}:RXi =U, đóRXi =∅,∀i∈ {1,2, , n}.

1.2 Tính hạt mô hình tập thô

1.2.1 XÊp xØ theo h¹t

Cho khơng gian xấp xỉ K = (U, R), U tập hữu hạn (6= ) đối t-ợng, R quan hệ t-ơng đ-ơng trênU, X ⊆U Khi cặp tốn tử xấp xỉ d-ới theo tính hạt đ-ợc định nghĩa nh- sau:

XÊp xØ d-íi cđaX:

R(X) = [

[x]R|[x]R⊆X [x]R

(14)

ã Xấp xỉ củaX:

R(X) = [

[x]R|[x]R∩X6=∅ [x]R

(hợp tất lớp t-ơng đ-ơng chứax theo quan hệ t-ơng đ-ơng R không tách rờiX) Do theo tính hạt tập đối t-ợng U đ-ợc chia thành vùng:

- Vïng R - d-ơng X K: P OSR(X) = {[x]U/R : [x]X} hợp tất lớp t-ơng đ-ơng chứa x theo quan hệ t-ơng đ-ơng R thuộc tập X

- Vùng R - âm X trênK: N EGR(X) ={[x]U/R : [x]X =} hợp tất lớp t-ơng đ-ơng chứa x theo quan hệ t-ơng đ-ơng R không chứa tập X

- Vùng R- biªn cđaX trªnK: BN DR(X) ={[x]∈U/R : [x]∩X 6=[x]Xc 6=} hợp tất lớp t-ơng đ-ơng chứax theo quan hệ t-ơng đ-ơngR chắn chøa tËpX

Ví dụ 1.2.1. Trở lại ví dụ 1.1.1, khác với xấp xỉ đ-ợc tính ví dụ tr-ớc đó, xấp xỉ theo tính hạt đ-ợc tính nh- sau :

R(X) =E2 ={{2}}.

R(X) =E1E2 ={{1,4},{2}}.

Vùng d-ơng của X là: P OSR(X) =E2 ={{2}}.

Vùng âm của X là: N EGR(X) =E3 ={{3}}.

Vùng biên của X là: BN DR(X) =E1 ={{1,4}}.

DƠ dµng thÊy r»ng

R(X)⊆X ⊆R(X)

X tập thô sở tri thứcK nh- với tri thức bảnR BN DR(X)≡R(X)−R(X)6=∅.

1.2.2 Mức ý nghĩa thuộc tính Hệ định([4])

Một hệ định hệ thông tin A = (U, A) tập thuộc tính đ-ợc phân lớp

A=C+D

(\+": ký hiệu cho hai tập rời nhau) C gọi tập thuộc tính điều kiện D gọi tập thuộc tính định

Ta viết lại hệ thông tin A = (U, C, D) gọi hệ định.

Ví dụ 1.2.2. Cho hệ thơng tin A = (U, C, D) biểu diễn sở tri thức bệnh cúm đ-ợc thể bảng 1.1 bảng định (hệ định).

(15)

Tập đối t-ợng là

U = {x1, x2, x3, x4, x5, x6}

TËp thc tÝnh ®iỊu kiƯn

C = {Đau đầu, Đau cơ, Nhiệt độ}

Tập thuộc tính định D = {Cúm}.

Bảng 1.1: Bảng định

Tính qn - Khơng quán bảng định

Xét tập hợp đối t-ợng (U) Giả sử định (D) gán cho đối t-ợng U đ-ợc xác định dựa giá trị tập thuộc tính điều kiện định

C Khi định đặt cho đối t-ợng U hình thành dựa nguyên lý tự nhiên nh- sau:

Nguyên lý P: ([4]) \Trên tập điều kiện xác định đối t-ợng với điều kiện nh- phải bị tác động định nh- nhau"

Khi đó:

Một bảng định quán: bảng định đảm bảo ngun lý P

Ng-ợc lại gọi bảng định không quán.

Một bảng định không quán chứa liệu \dị th-ờng", tức định khác đối t-ợng có điều kiện nh- nhau, vi phạm tính \cơng bằng" triết lý P Thông th-ờng hạn chế nhận thức, ph-ơng tiện, thiết bị kỹ thuật đo, tâm sinh lý ng-ời hoạt động sống mà ng-ời hay tạo hành động, đoán, định, xử lý làm vi phạm P

Ví dụ 1.2.3. Bảng định ví dụ 1.2.2 khơng quán.

Vì hai đối t-ợng x2 x5 có giá trị thuộc tính điều kiện (Có, Khơng, Cao)

(16)

Møc ý nghÜa thuéc tÝnh

Cho bảng định A = (U,CD), phân lớp F =U/D ={C1, C2, , Ct}

Gọiaj, ∀j ∈ {1,2, , n} thuộc tính điều kiện Tập thuộc tính ý nghĩa đ-ợc xác định cơng thức sau ([1]):

sF,C(aj) =rC(F)−rC\{aj}(F).

Trong đó:

rC(F) =

|P OSC(F)|

|U| = |

t

S

k=1

CCk| |U| =

t

P

k=1

|CCk| |U| .

NÕuA nhÊt quán rC(F) =

|U| |U| = 1. sF,C(aj) = 1−rC\{aj}(F).

Møc ý nghÜa thuéc tÝnh theo h¹t

Cho bảng địnhA = (U,CD), phân lớp F =U/D ={C1, C2, , Ct}

Møc ý nghÜa thuéc tÝnh ai theo h¹t ([1]):

sF,U/C(ai) =rU/C(F)−rU/{C\{ai}}(F).

Trong đó:

rU/C(F) =

|P OSU/C(F)|

|U/C| = |

t

S

k=1

U/C(Ck)|

|U/C| =

t

P

k=1

|U/C(Ck)| |U/C| .

NÕu sF,U/C(ai) = 0, ∀i ∈ {1,2, , n} thuộc tính ai, i {1,2, , n} không

(17)

Bài toán khai thác luật cầu nối-lớp dựa vào tập thô

Nhận dạng đối t-ợng tách biệt hệ thống đ-ợc mô tả liệu (chẳng hạn hệ thông tin, hệ định, sở liệu, nguồn liệu thông tin Web ) nhánh quan trọng khai thác liệu Các đối t-ợng tách biệt điểm liệu \nằm xa" phần lớn tập điểm liệu lại hệ (trong lý thuyết thống kê gọi điểm liệu dị th-ờng dị biệt), mối liên kết dị biệt lớp đối t-ợng khác hệ Việc khai thác đối t-ợng tách biệt hệ thống đ-ợc ứng dụng rộng rãi nhiều toán thực nh-: tiếp thị bán hàng, phát gian lận tài ngân hàng, nhận dạng tội phạm hình sự, tổng hợp hóa chất cơng nghệ hóa học Đặc biệt, có nhiều ph-ơng pháp đ-ợc đề nghị phát triển để khai thác mối liên kết dị biệt lớp đối t-ợng khác hệ Luật cầu nối-lớp dạng mối liên kết dị biệt dựa vào tập thơ đ-ợc đề xuất lần nhóm tác giả Zhang, S., Chen, F., Wu, X., C vào năm 2006 Đại thể với hai phân hoạchF ={C1, C2, , Cn}

F0của tập mặt hàng I sở liệu giao dịch T, luật cầu kí hiệu là A→B, tập mặt hàng A thuộc lớpCi1, Ci2, , Cit tập F, tập mặt hàng

B thc c¸c lípCj1, Cj2, , Cjs khác F phần tử củaA, B thc vµo mét líp nµo

đó phân hoạch F0, đ-ợc gọi luật cầu nối-lớp Một luật cầu nối-lớp thích đáng (đáng quan tâm) nh- thỏa mãn ba yêu cầu

(a) A →B lµ luật kết hợp (trên tập phổ biến)

(b) Khoảng cách hai vùng cầu: Ci1, Ci2, , Cit vàCj1, Cj2, , Cjs không lớn (c) Mức độ ảnh h-ởng A Ci1, Ci2, , Cit B trongCj1, Cj2, , Cjs cao

Có thể xem luật cầu nối-lớp đáng quan tâm nh- dạng t-ơng quan riêng theo F0giữa hai lớp khái niệm khác của F trong hệ Đặc tính dạng t-ơng quan này phụ thuộc hồn tồn vào dạng thức khoảng cách đ-ợc sử dụng nh- loại ảnh h-ởng đ-ợc quan tâm (độ đo mức ảnh h-ởng) Ph-ơng pháp phát luật cầu nối-lớp đáng quan tâm chủ yếu gồm hai giai đoạn: tìm tập tất luật cầu nối-lớp ứng viên, giai đoạn hai xác định luật cầu nối-lớp đáng quan tâm Vấn đề then chốt để tìm luật cầu nối-lớp ứng viên giai đoạn xác định tập bắc cầu lớp F Vấn đề giai đoạn thứ hai xác định luật cầu nối-lớp đáng quan tâm từ luật cầu ứng viên Những vấn đề đ-ợc nói rõ nội dung ch-ơng

(18)

2.1 Ph¸t hiƯn c¸c lt cầu nối-lớp ứng viên

Khỏi nim lut cu ni-lp ứng viên đ-ợc xây dựng dựa tập bắc cầu lớp ràng buộc độ hỗ trợ độ tin cậy theo nghĩa t-ơng tự nh- luật kết hợp

Xét hệ định S = (U, A), U tập hữu hạn (6=) đối t-ợng, tậpA≡CD gồm hữu hạn phần tử gọi tập thuộc tính: C, D (CD =) t-ơng ứng gọi tập thuộc tính điều kiện tập thuộc tính định Giá trị thuộc tính a∈A đối t-ợng i U kí hiệu a(i) (a(i) Va), đây Va gọi tập miền giá trị thuộc tính a Giả sử đối t-ợng trong U có giá trị thuộc tính a C null(tr-ờng hợp nh- xem đối t-ợng khơng có thuộc tính này) Để đơn giản ta kí hiệunull=

Các quan hệ t-ơng đ-ơng U hệ định đ-ợc xét là: B ⊆A,

i, j ∈U :i∼B j ⇐⇒a(i) =a(j),∀a∈B (1) Tập th-ơng U/B quan hệB phân hoạch cña U.

2.1.1 Xác định tập bắc cầu

Kí hiệu R quan hệ t-ơng đ-ơng t-ơng ứng với tập lớp định S, tức là phân hoạch F ≡U/D cho quan hệ t-ơng đ-ơngR0 khác U t-ơng ứng với phân hoạch F0≡U/B(B C) Các tập bắc cầu (sinh bởi F0) lớp định phân hoạchF đ-ợc định nghĩa nh- sau

Định nghĩa 2.1.1. ([3]) (Tập bắc cầu lớp) TậpC0F0 là tạo cầu nối hai

lớp khác nhauC1, C2 F nếu

C0∩C1 6=

C0∩C

2 6=

Khi tập bắc cầu sinh bởi C0 giữa hai lớp C1, C2 kí hiệu là BridgingC0(C1;C2) đ-ợc xác

định nh- sau

BridgingC0(C1;C2) ={C0∩C1;C0∩C2}.

Từ ta sử dụng khái niệm xấp xỉ d-ới theo tính hạt khơng gian xấp xỉK = (U, R) đ-ợc giới thiệu ch-ơng

Bổ đề 2.1.1. ([3]) Cho C ∈F vàC0∈F0 Khi đó: C0⊆C⇐⇒R(C0) ={C}.

Chứng minh: ([3]) Nếu C0 C thì từ định nghĩa xấp xỉ suy raC ∈R(C0) Ngoài do giả thiết chiều thuận ta có: ∀Cb ∈F,Cb6=C suy raC /b∈R(C0) Do R(C0) ={C}

Chiều ng-ợc lại đ-ợc từ nhận xét rằng, C0 6 C thì tồn tại Cb F,Cb 6=C :

(C0\C)∩Cb 6=, suy C0∩Cb 6= nên Cb ∈R(C0) Mệnh đề sau đ-ợc suy trực tiếp từ bổ đề

(19)

Tõ ta có phát biểu t-ơng đ-ơng

Mnh 2.1.2. ([3]) Tập C0 F0 là tạo cầu nối hai lớp khác của F khi và ch khi|R(C0)|>1.

Tính chất sau hiển nhiên

Tính chất 2.1.1. ([3]) Cho tậpC0∈F0 và giả sử |R(C0)|>1 Khi tập bắc cầu sinh bởiC0 là: BridgingC

0(C1;C2) (∀C1, C2 ∈R(C0), C1 6=C2).

XÐt kh«ng gian xấp xỉK = (U, R)nh- giả sửF =U/R={C1, C2, , Ct}(t >

1), F0= U/R0 ={C10, C20, , Cs0} (s 1) Kết sau cho phạm vi số l-ợng tập bắc cầu đ-ợc sinh từ tập phân hoạch F0

Mnh 2.1.3. ([3]) Cho P(F0) số l-ợng tập bắc cầu sinh tập phân hoạchF0 và đặt

m(F0) ={k :|R(Ck0)|>1} (2) (a) Ta cã

|m(F0)| ≤X(F0)≤ |m(F0)|.t(t−1)

2 (3)

Đặc biệt X

(F0) =|m(F0)| |R(Ck0)| = (∀k∈m(F

))

X

(F0) =|m(F0)|.t(t−1)

2 ⇐⇒ |R(C

0

k)|=t (∀k ∈m(F

))

(b) 0≤ |m(F0)| s

ã |m(F0)|= 0 F F0

• |m(F0)|=s ⇐⇒ |R(C0

k)|>1 (∀k = 1, , s).

Trong quan hệ là quan hệ thứ tự thông th-ờng tập tất phân hoạch của U, tức là: F, F0là hai phân hoạch U thì

F F0⇐⇒ ∀C0∈F0,∃C ∈F :C0⊆C và ta nóiF0 là \mịn hơn" F (hoặc F \thô" hơn F0).

Chøng minh: ([3]) Đặt mk = |R(C0

k)| (k m(F

0)) Từ định nghĩa 2.1.1 tập bắc cầu mệnh đề 2.1.2, ta thấy: với k m(F0) s cú C2

mk tập bắc cầu sinh Ck0 k1, k2 m(F0), k1 6=k2 Ck01 6=C

0

k2 nªn BridgingCk01(Ci;Cj)

6

=BridgingC0

k2(Cu;Cv)

Do

X

(F0) = X

k∈m(F0)

Cm2k =

X

k∈m(F0)

(|R(Ck0)| −1)|R(C

k)| (4)

Để ý2≤ |R(Ck0)| ≤t(∀k∈m(F0)), nên ta suy bất đẳng thức

|m(F0)| ≤X(F0)≤ |m(F0)|.t(t−1)

2 .

(20)

X

k∈m(F0)

((mk−1)mk

2 1) = 0⇐⇒mk = (∀k∈m(F

0

)).

X

k∈m(F0)

((t−1)t

2

(mk 1)mk

2 ) = 0⇐⇒

(t−1)t

2

(mk−1)mk

2 =

(∀k ∈m(F0))⇐⇒t=mk (∀k∈m(F0))

Khẳng định (b) đ-ợc suy trực tiếp từ định nghĩa m(F0) và mệnh đề 2.1.1.

Ví dụ sau minh họa thủ tục xác định tập bắc cầu khơng gian xấp xỉ Ví dụ 2.1.1. Cho K = (U, R) trong đó U = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} F =

U/R= {C1, C2, C3}, tập tri thức hạt sở là C1 = {x1, x3, x10}, C2 ={x2, x6},

C3 = {x4, x7}, C4 = {x5}, C5 = {x8}, C6 = {x9} Mét ph©n líp thứ hai dựa vào quan hệ

t-ơng đ-ơngR0trênUlàF0=U/R0={C0

1, C

0

2, C

0

3}, đóC

0

1 ={x1, x3, x4, x7, x10}, C20 =

{x2, x6, x8, x9}, C30 = {x5} Ta tính xấp xỉ cho phân lớp F0 R(F0) ≡ {R(C10),

R(C20), R(C

0

3)} và loại tập C

0

k không thể tạo cầu nối lớp Kết xác định các tập bắc cầu nh- sau: R(C0

1) = {C1, C3} : (|m1| = 2), R(C20) = {C2, C5, C6}: (|m2| =

3), R(C30) ={C4}: (|m3|= 1) Do đóC30 khơng thể tạo cầu nối Số l-ng bc cu trong

tr-ờng hợp làP(F0) = 4.

ã Các tập bắc cầu sinh bởi C10 lµ:

BridgingC0

1(C1;C3) ={{x1, x3, x10};{x4, x7}}.

ã Các tập bắc cầu sinh bởi C0

2 lµ:

BridgingC0

2(C2;C5) ={{x2, x6};{x8}};BridgingC

0

2(C5;C6) ={{x8};{x9}}

BridgingC20(C2;C6) ={{x2, x6};{x9}}.

H×nh 2.1: Các tập bắc cầu lớp tập C0

k tạo cầu nối (thể bëi

(21)

2.1.2 Xác định luật cầu nối-lớp ứng viên

Với tập bắc cầuBridgingC0(C1;C2)tìm đ-ợc ta tiến hành xác định luật

cầu nối-lớp ứng viên nh- sau: iC0C1,j C0C2

nÕu

supp(i, j) |{a∈C :a(i) =a(j)6= 0}|

|C| ≥minsupp (5)

conf(i→j) |{a C :a(i) =a(j)6= 0}|

|{a∈C:a(i)6= 0}| ≥minconf (6)

thì (i j) luật cầu nối-lớp ứng viên từ C1 đến C2 T-ơng tự ta có luật cầu nối-lớp

ứng viên(j →i) từ C2 đến C1 nh- điều kiện (5) conf(j →i) minconf đ-ợc

thỏa mãn Các tham số minsupp, minconf ng-ỡng qui định tr-c

2.2 Phát luật cầu nối-lớp cốt yÕu

Mục đề cập vấn đề phát luật cầu nối-lớp đáng quan tâm từ tập luật cầu nối-lớp ứng viên Đ-a định nghĩa luật cầu nối-lớp cốt yếu đánh giá phạm vi ca cỏc ng-ng xỏc nh lut

Các luật cầu nối-lớp cốt yếu đ-ợc phát từ tập luật cầu nối-lớp ứng viên dựa yêu cầu là:

Có độ t-ơng tự cao hai lớp C1, C2 luật cầu nối-lớp ứng viên (i→j) từ C1 đến

C2

Mức ảnh h-ởng hai đầu cầu i j C0∩C

1 C0C2 t-ơng ứng tập

bắc cầu BridgingC0(C1;C2) lµ cao

Để đánh giá độ t-ơng tự đối t-ợng ta sử dụng độ đo sau Độ t-ơng tự hai đối t-ợng

Kí hiệu Sim(i, j) hàm đo độ t-ơng tự củai, j ∈U. Sim(i, j)đ-ợc xác định công thức sau:

(a)

Sima(i, j) |{a∈C:a(i) =a(j)6= 0}|

|{a∈C :a(i)= 06 }|+|{a∈C :a(j)6= 0}| − |{a∈C :a(i) =a(j)6= 0}|

Y0 nghÜa: Sima(i, j) cho biÕt tØ lÖ thuéc tính chung có ởijtrên số thuộc tính có ij.

(b)

Simb(i, j) |{a∈C :a(i) =a(j)}| 2.|C| − |{a∈C :a(i) =a(j)}|

(22)

(c)

Simc(i, j) |{a∈C :a(i) =a(j)}| |C|

Y0nghÜa: Simc(i, j)cho biết tỉ lệ thuộc tính có giá trị nh- củaijtrên số thuộc tính

Tớnh cht 2.2.1. Các số đo độ t-ơng tự thỏa: (a) 0≤Sim(i, j)1.

(b) Sim(i, j) =Sim(j, i). (c) Sim(i, i) =

TÝnh chÊt 2.2.2. §Ĩ ý ta thÊy:

Simb(i, j) = |{a∈C :a(i) =a(j)}| 2.|C| − |{a∈C :a(i) =a(j)}| |{a∈C: a(i) =a(j)}|

|C| =Simc(i, j)

ã|{aC :a(i) =a(j)= 06 }| ≤ |{a∈C:a(i) =a(j)}|

•|{a∈C :a(i)= 06 }|+|{a∈C:a(j)6= 0}| − |{a∈C:a(i) =a(j)6= 0}| 2.|C| − |{a∈C :a(i) =a(j)6= 0}|

NhËn xÐt: §èi víi Sima(i, j) ta cã:

Sima(i, j) |{a C :a(i) =a(j)6= 0}|

|{a C:a(i)6= 0}| = conf(i →j)

(t-¬ng tù cho conf(j →i))

Simc(i, j) |{a∈C: a(i) =a(j)6= 0}|

|C| = supp(i, j).

Độ t-ơng tự hai lớp

Độ t-ơng tự hai lớp C1, C2 ∈F đ-ợc xác định

Sim(C1, C2)

1 |C1|.|C2|

X

u∈C1

X

v∈C2

Sim(u, v). (7) Độ t-ơng tự hai lớp lớn khoảng cách hai lớp đ-ợc thu hẹp Khoảng cách hai lớp mà lớn hai lớp có khác biệt

Mức ảnh h-ởng luật cÇu nèi-líp

Cho (i j) luật cầu nối-lớp ứng viên từ C1 đến C2 sinh C0 F0 Xét phân bố

x¸c xuÊt

pi(u) = PSim(u, i)

v∈C0∩C

1

Sim(v, i); u∈C

0

C1 (8)

(23)

H(i)≡ − P

u∈C0∩C

1

pi(u) logpi(u). (9)

Entropy H(i) đo mức ảnh h-ởng đối t-ợng i với đối t-ợng phần giao C0∩C

1

T-ơng tự ta có entropy phân bèpj(w)(w∈C0∩C2)lµ

H(j)≡ − X

w∈C0∩C

2

pj(w) logpj(w).

Các entropy phân bố xác xuất (8) có tính chất sau

Tớnh cht 2.2.3. Giả sử (i→j) luật cầu nối-lớp ứng viên từ C1 đến C2 sinh bởiC0∈F0.

Khi đó0≤H(i) log|C0∩C1|

(a) H(i) = ⇐⇒ |C0∩C1|= 1. (10)

(b) H(i) = log|C0∩C

1| ⇐⇒Sim(u, i) = 1(∀u∈C0∩C1). (11)

Phân bố xác xuất pi(u)(u C0C

1) biểu thị tỉ lệ mức độ t-ơng tự gia i vi cỏc

phần tửu khác C0C

1, nên entropyH(i) đo mức tác động (theo tính t-ơng tự) i

đối với phần tử u khác tập C0∩C1 Từ (11) cho thấy H(i) lớn phân bố

càng gần tính (phân bố đều) Nói cách khác mức độ t-ơng tự i với phần tửu khác tập C0∩C1 gần nh- nhau, tức ảnh h-ởng củai đầu cầu C0∩C1 có

ý nghĩa Điều đ-ợc đặt đầu cầu phíaj tức cho H(j) Từ yêu cầu tự nhiên ta tìm luật cầu nối-lớp cho entropy hai đầu lớn

Từ phân tích độ đo entropy (Tính chất 2.2.1) để tìm tập luật cầu nối-lớp đáng quan tâm từ tập luật cầu nối-lớp ứng viên, ta sử dụng khái nimlut cu ni-lp ct yu nh- sau:

Định nghĩa 2.2.1. ([3]) (lt cÇu nèi-líp cèt u) Lt cÇu nèi-líp øng viªn (i→j) tõC1

đến C2 sinh bởi C0 F0 gọi luật cầu nối-lớp cốt yếu hai lp (C1, C2) nu nh- tha

mÃn điều kiÖn:

(i) Sim(C1, C2)≥minSim

(ii) min{H(i), H(j)} ≥minEntro

Trong minSim, minEntro t-ơng ứng tham số ng-ỡng tối thiểu độ t-ơng tự entropy.

Các cận H(i) vàmin{H(i), H(j)} đ-ợc đánh giá mệnh đề sau:

Mệnh đề 2.2.1. ([3]) Cho (i j) là luật cầu nối - lớp ứng viên từ C1 đến C2 sinh bởi

C0∈F0 Khi đó

logS(i)≤H(i)log p

min(i) (12)

min

k∈{i,j}logS(k)

≤min{H(i), H(j)} ≤

k{i,j}log

1

pmin(k) (13)

ở kÝ hiÖu

S(i) X

u∈C0∩C

1

Sim(u, i); S(j) X

v∈C0∩C

2

(24)

pmin(i)

u∈C0∩C

1

pi(u); pmin(j)

v∈C0∩C

2

pj(v).

Chøng minh: ([3]) Ta viÕt l¹i H(i) nh- sau H(i) = log Y

u∈C0∩C

1

(

pi(u))

pi(u).

Từ có đánh giá

log Y

u∈C0∩C

1

(

pmax(i))

pi(u) ≤H(i)log Y

u∈C0∩C

1

(

pmin(i))

pi(u)

ë ®©y kÝ hiƯu pmax(i) = max

u∈C0∩C

1

pi(u) §Ĩ ý r»ng pi(u) Sim(i, i)

S(i) =

S(i)(∀u∈ C

0 C1)

nªnpmax(i) =

S(i) Điều dẫn đến logS(i)≤H(i)log

pmin(i).

Bất đẳng thức (13) đ-ợc suy nhờ kết hợp với đánh giá t-ơng tự nh- (12) choH(j)

2.3 Thuật toán tìm luật cầu nối-lớp cèt u trªn mét hƯ

quyết định

Cho hệ định S = (U, A), U tập hữu hạn (6=) đối t-ợng, tập ACD, CD =, C, D t-ơng ứng tập thuộc tính điều kiện tập thuộc tính định Kí hiệuR quan hệ t-ơng đ-ơng t-ơng ứng với tập lớp định S, tức phân hoạchF ≡U/D cho quan hệ t-ơng đ-ơng R0 khác trên U t-ơng ứng với phân hoạch F0 U/B(B C) Thuật tốn tìm luật cầu nối-lớp cốt yếu hệ định nh- sau:

Input: Cơ sở liệu bảng định Output: Các luật cầu nối-lớp cốt yếu

B-ớc 1: Thu gọn bảng định theo tập thuộc tính điều kiện C.

B-ớc 2: Xác định phân lớp thứ hai hệ định Tìm tập thuộc tính có ý nghĩa lấy phần bù chúng để làm tập thuộc tính dùng cho phân lớp thứ hai Kí hiệu tập thuộc tính tìm đ-ợc làB

B-ớc 3: Phân hoạch bảng liệu đ-ợc thu gọn theo tập thuộc tính định làF

U/D = {C1, C2, , Ct} , vµ theo tËp thuéc tÝnh BF0 U/B ={C10, C

0

2, , C

0

s}(B C)

B-ớc 4: Tìm tập bắc cầu for each C0

i F do TÝnh R(C0

i)

if |R(Ci0)|>1

∀Cj R(C0

i)l-u lại phần giao Gij =C

0

(25)

endif; endfor;

B-íc 5:

B-ớc 5.1: Sinh luật cầu dựa vào tập phần giao Br ë B-íc

B-íc 5.2: TÝnh c¸c số đo supp, conf cho luật theo công thức (5) vµ (6) B-íc 6:

B-ớc 6.1: Xác định luật cầu nối-lớp ứng viên thỏa minsupp, minconf. for luật (i→j)

if supp(i, j)≥minsuppthen

if conf(i→j) minconf then

L-u luật cầu vào tập luật cầu nối-lớp øng viªn; endif;

endif; endfor;

B-ớc 6.2: Với luật cầu nối-lớp ứng viên tính độ t-ơng tự entropy theo công thức (7) (9)

B-ớc 7: Xác định luật cầu nối-lớp cốt yếu thỏa minSim, minEntro. for luật (i→j)

if Sim(C[i], C[j])≥minSimthen

if min{H(i), H(j)} ≥minEntro then

L-u l¹i luËt (i→j) vào tập luật cầu nối-lớp cốt yếu. endif;

endif; endfor;

(26)

A0p dụng: Tìm luật cầu nối-lớp trong bảng tuần hoàn nguyên tố hóa häc

Trong ch-ơng này, luận văn áp dụng kiến thức tìm hiểu đ-ợc Ch-ơng để khai thác luật cầu nối-lớp sở liệu bảng tuần hồn ngun tố hóa học

3.1 M« tả sở liệu bảng tuần hoàn nguyên tè hãa

häc

Cơ sở liệu bảng tuần hồn ngun tố hóa học bao gồm 118 ghi nguyên tố hóa học, ghi biểu diễn thơng tin ngun tố hóa học gồm thuộc tính nh- điện tích hạt nhân (số thứ tự), kí hiệu nguyên tố, họ, tính kim loại, thể vật chất, quỹ đạo, chu kỳ, phân nhóm Ví dụ sở liệu

(27)

1 Điện tích hạt nhân. (Số thứ tự) Các nguyên tố đ-ợc xếp theo chiều tăng dần điện tích hạt nhân nguyên tử, nguyên tố có giá trị điện tích tăng từ trở lên (liên tục, không gián đoạn), kí hiệu Z Số điện tích hạt nhân (Z) = số proton (P) = số electron (E) nguyên tử trung hòa điện

2 Họ. Các electron nguyên tử nguyên tố đ-ợc xếp theo lớp Mỗi lớp electron lại đ-ợc chia thành phân lớp Các electron thuộc phân lớp có mức l-ợng Kí hiệu phân lớp chữ th-ờng: s, p, d, f Sè ph©n líp cđa mét líp electron b»ng sè thø tù cđa líp Sè electron tèi ®a mét ph©n líp:

- Ph©n líp s chứa tối đa electron - Phân lớp p chứa tối đa electron - Phân lớp d chứa tối ®a 10 electron - Ph©n líp f chøa tèi ®a 14 electron

Cấu hình electron hai lớp ngồi định tính chất hóa học ngun tố (vì t-ợng chèn mức l-ợng) Ví dụ: Fe (Z = 26): 1s2 2s2 2p6 3s2 3p6 4s2 3d6

3 Tính kim loại. Tính kim loại nguyên tố đ-ợc thể sở liệu nh- sau:

- Hydro đ-ợc kí hiệu

- Kim loại kiềm (Alkali metals) đ-ợc kí hiệu

- Kim loại kiềm thổ (Alkali earth metals) đ-ợc kí hiệu - Kim loại chuyển tiếp (Transition metals) đ-ợc kí hiệu - Đất (Lanthanide series) đ-ợc kí hiệu

- Đất (Antinide series) đ-ợc kí hiệu - Poor metals đ-ợc kí hiệu

- Phi kim (Nonmetals) đ-ợc kí hiệu - Khí (Noble gases) đ-ợc kí hiệu

i vi ngun tố khơng có giá trị tính kim loại (giá trị vắng) đ-ợc quy định sở liệu -số thứ tự cột thuộc tính giá trị vắng thứ Ví dụ nguyên tố Uus khơng có giá trị tính kim loại, tức giá trị vắng giá trị vắng tính kim loại nên đ-ợc l-u sở liệu -31 cột tính kim loại

4 Thể vật chất. Có thể vật chất đ-ợc thể sở liệu nh- sau: - Rắn (Solid) đ-ợc quy định

- Lỏng (Liquid) đ-ợc quy định - Khí (Gas) đ-ợc quy định

- Tổng hợp (Synthetic) đ-ợc quy định

Còn ngun tố khơng có giá trị thể vật chất (giá trị vắng) đ-ợc quy định sở liệu -số thứ tự cột thuộc tính giá trị vắng thứ Ví dụ nguyên tố Uus khơng có giá trị thể vật chất, tức giá trị vắng giá trị vắng thể vật chất nên đ-ợc l-u sở liệu -41 cột thể vật chất

5 Quỹ đạo. Các quỹ đạo đ-ợc mô tả nh- đám mây mật độ electron Là electron lớp ngồi Ví dụ cấu hình electron Fe có lớp ngồi 3d6 nên đ-ợc l-u

(28)

6 Chu kỳ. Các nguyên tử nguyên tố chu kỳ có số lớp electron số thứ tự chu kỳ chứa chúng Trong bảng tuần hoàn nguyên tố hóa học có chu kỳ

- Chu kỳ ngắn: chu kỳ 1, 2, - Chu kỳ dài: chu kỳ 4, 5, 6,

7 Phân nhóm. Nhóm bao gồm nguyên tè cã cïng sè electron hãa trÞ Sè thø tù nhóm số electron hóa trị mà nguyên tố có Mỗi nhóm đ-ợc chia thành phân nhóm: phân nhóm phân nhóm phụ

- Phân nhóm (nhóm A): bao gồm nguyên tố s p - Phân nhóm phụ (nhóm B): bao gồm nguyên tố d f

tin hnh việc phát luật cầu nối-lớp luận văn dùng thuộc tính số thứ tự (điện tích hạt nhân) làm mục (tức làU ={1,2, ,118}) tập thuộc tính định gồm hai thuộc tính D = {Chu Ky, Phan Nhom}, tập thuộc tính điều kiện gồm thuộc tính cịn lại C= {Ho, Tinh Kim Loai, The Vat Chat, Quy Dao}

Cơ sở liệu Bảng tuần hồn ngun tố hóa học bao gồm 118 nguyên tố hóa học, chúng đ-ợc phân thành lớp xét theo thuộc tính định Chu Ky từ chu kỳ đến chu kỳ 7, chúng đ-ợc phân thành 16 lớp xét theo thuộc tính định Phan Nhom là: 1A, 1B, 2A, 2B, 3A, 3B, 4A, 4B, 5A, 5B, 6A, 6B, 7A, 7B, 8A, 8B Xét thấy sở liệu không quán xuất đối t-ợng gây dị th-ờng liệu bảng liệu, ví dụ hai dòng liệu sau:

Hai nguyên tố B C có giá trị thuộc tính điều kiện (p, 7, 1, 2p) nh-ng có thuộc tính định khác (2, 3A) (2, 4A) t-ơng ứng Do bảng liệu khơng qn

3.2 KÕt qu¶ thùc nghiƯm

Tiến hành thử nghiệm sở liệu nh- trình bày mục 3.1 ch-ơng trình đ-ợc xây dựng theo thuật tốn trình bày Ch-ơng 2, kết thu đ-ợc nh- sau:

B-íc 1. Sau thu gọn bảng liệu theo tập thuộc tính điều kiện thu đ-ợc 45 hạt rút

gọn (

U), hạt nhỏ gồm nguyên tố, hạt lớn gồm 13 nguyên tố

B-íc 2. Các tập thuộc tính ý nghĩa tìm đ-ợc là:

(29)

{Ho, The Vat Chat}, B0

3 = {Ho} Ơ' lấy phần bùB10 tËp thuéc tÝnh dïng cho ph©n

lớp thứ hai, đặt lại B = B10

B-ớc 3. Kết phân hoạch bảng liệu thu gọn B-ớc theo thuộc tính định Chu Ky thu đ-ợcU˜/Dgồm có hạt, tức làF ≡U /D˜ ={C1, C2, , C7}t-ơng ứng với

chu kỳ Và kết phân hoạch bảng liệu thu gän theo tËp thc tÝnh dïng cho ph©n líp thứ hai{Ho, Tinh Kim Loai, The Vat Chat}thu đ-ợc 19 h¹t, hayF0≡U /B˜ ={C10, C

0

2, , C

0

19}

B-íc 4. Tìm đ-ợc số l-ợng lớp tạo cầu |m(F0)| = Số l-ợng tập bắc cầu

P

(F0) = 64.

B-ớc 5. Sinh đ-ợc 128 lt cÇu nèi-líp

B-ớc 6. Với ng-ỡng minsupp = 0.75,minconf = 0.75 tìm đ-ợc 128 luật cầu nối-lớp ứng viên Độ t-ơng tự, entropy luật phạm vi cho ng-ỡngminSim, minEntro đ-ợc tính b-ớc

B-ớc 7. Với luật cầu nối-lớp ứng viên ng-ỡng tối thiểu minSim, minEntrotìm đ-ợc b-ớc số luật cầu nối-lớp cốt yếu đ-ợc thống kê theo ng-ỡngminSim, minEntro thay đổi Sau bảng thống kê số luật cầu nối-lớp cốt yếu theo số ng-ỡng minSim, minEntro.

B¶ng 3.1: Sù phụ thuộc số l-ợng luật cầu nối-lớp cốt yếu vào ng-ỡng minSim, minEntro

Bảng 3.1 cho kết phụ thuộc số l-ợng luật cầu nối-lớp cốt yếu vào giá trị ng-ỡng minSim, minEntro Kết xét cho tr-ờng hợp số tập tạo cầu

(30)

trong khong: minEntro∈ [1; 3.321928) (đ-ợc đánh giá theo công thức (12), mệnh đề 2.2.1 Ch-ơng 2)

Với giả định phân lớp sở liệu Bảng Tuần Hồn Các Ngun Tố Hóa Học khả hợp lẽ tự nhiên liên kết lớp khơng nhiều Do ta quan tâm nhóm luật cầu nối-lớp cốt yếu t-ơng ứng (a), (b), (c) bảng 3.1 Nhóm luật cầu nối-lớp cốt yếu đ-ợc cho cụ thể bảng 3.2

Bảng 3.2: Các luật cầu nối-lớp cốt yếu đ-ợc xác định

Minh häa viƯc tÝnh mét lt cÇu nèi-líp cèt yếu bảng nh- sau: chẳng hạn luật Sc

Y nhãm (a) Ta cã \Sc" thuéc líp Chu Ky ≡C4 ={K, Ca, Sc, Ti, V, Cr, Mn, Fe,

Co, Ni, Cu, Zn, Ga, Ge, As, Se, Br, Kr}vµ \Y" thc líp Chu Ky 5≡C5={Rb, Sr, Y, Zr, Nb,

Mo, Ru, Rh, Pd, Ag, Cd, Tc, In, Sn, Sb, Te, I, Xe}, víi tËp C0

9 = {Sc, Ti, V, Cr, Mn, Fe, Co,

Ni, Cu, Zn, Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd, La, Hf, Ta, W, Re, Os, Ir, Pt, Au, Ac} ta tÝnh xÊp xØ trªn cđa theo F =U/D nhận đ-ợc |R(C0

9)| = 4, C4, C5 R(C90) nên (theo

Tính chất 2.1.1 Ch-ơng 2) tồn tập bắc cầuBridgingC0

9(C4;C5)={C

9∩C4;C 9∩C5}

giữa hai lớp (Định nghĩa 2.1.1 Ch-ơng 2) C0

9∩C4 = {Sc, Ti, V, Cr, Mn, Fe, Co, Ni, Cu, Zn}

C0

9∩C5 = {Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd}

Tõ sở liệu Bảng Tuần Hoàn Các Nguyên Tố Hóa Học ta tính supp conf theo công thức (5) (6) Ch-ơng t-ơng ứng

supp(Sc, Y)=

4 = 0.75; conf(Sc Y)=

3

4 = 0.75;

conf(Y Sc)=

4 = 0.75;

(31)

trị nh- chúng, độ t-ơng tự hai lớpC4, C5 (cơng thức (7) Ch-ơng

2)vµ entropy (công thức (9) Ch-ơng 2) tính đ-ợc lµ

Sim(C4, C5) = 0.39506172839; H(Sc) = 3.321928094; H(Y) = 3.169925001

Ta cã Sim(C4, C5) minSim = 0.395058125 vµ min{H(Sc), H(Y)} = 3.169925001

minEntro= 2.98 nên \Sc Y" luật cầu nối-lớp cốt yếu Hình 3.1 minh họa mối liên kết từ lớp C4 sang lớp C5 đ-ợc xác định luật cầu nối-lớp cốt yếu \Sc Y"

H×nh 3.1: CÊu tróc lt cÇu nèi-líp cèt u \Sc Y" tõ líp C4 sang lípC5

Trong b¶ng 3.2, cã thĨ thÊy nhóm (a) gồm luật cầu nối-lớp lớp Chu kỳ (C5)

và Chu kỳ (C6) (chẳng h¹n luËt \Y La", \Zr Hf", ), nhãm (b) luật cầu

nối-lớp lớp Chu kỳ (C4) lớp Chu kỳ (C6) (chẳng hạn \Sc La", \Ti Ta", ),

nhóm (c) luật cầu nối-lớp lớp Chu kỳ (C4) lớp Chu kỳ (C5) (chẳng hạn

\Sc Y", ) Trong lớp lại luật cầu nối-lớp cốt yếu đ-ợc phát

(32)

Sự biến thiên số l-ợng luật cầu nối-lớp cốt yếu giá trị ng-ỡng minSim (khi cố định giá trị ng-ỡngminEntro) đ-ợc thể qua Hình 3.2 Với minEntro = 1, số l-ợng luật cầu nối-lớp cốt yếu giảm từ 24 xuống t-ơng ứng vớiminSim tăng từ 0.064453125 tới 0.395058125; khiminEntro= 1.44, số l-ợng luật cầu nối-lớp cốt yếu giảm từ xuống t-ơng ứng vớiminSimtăng từ 0.064453125 tới 0.328937125

T-ơng tự, biến thiên số l-ợng luật cầu nối-lớp cốt yếu giá trị ng-ỡng minEntro(khi cố định giá trị ng-ỡng minSim) đ-ợc thể đồ thị Hình 3.3

(33)

Kết luận h-ớng phát triển

Khúa lun l b-ớc tìm hiểu lý thuyết tập thơ luật cầu nối-lớp hệ định dựa vào tính tốn hạt Sau thời gian học tập nghiên cứu, luận văn đạt đ-ợc kết sau:

ã Trình bày tổng quan tập thô cổ điển theo quan điểm Pawlak, tính hạt mô hình tập thô

ã Trỡnh by c s lý thuyết khai thác luật cầu nối-lớp thuật toán tìm luật cầu nối-lớp cốt yếu hệ định dựa vào tính hạt tập thơ

Xây dựng ch-ơng trình thử nghiệm tìm luật cầu nối-lớp với sở liệu Bảng Tuần Hồn Các Ngun Tố Hóa Học Kết thử nghiệm minh chứng cho tính việc khai thác luật cầu nối-lớp dựa mơ hình tập thơ theo tính hạt đ-ợc chứng minh tr-ớc

(34)

Phơ lơc

Ch-ơng trình đ-ợc xây dựng ngơn ngữ lập trình C# ph-ơng pháp lập trình h-ớng đối t-ợng có cấu trúc sau:

Tõ b¶ng liệu ban đầu

ã Đ-a bảng thu gọn dựa tập thuộc tính điều kiện

ã Phân hoạch bảng thu gọn theo: - Chu Ky

- Tập thuộc tính ý nghĩa

ã Tìm tập cầu hai phân hoạch

ã Sinh luật cầu dựa tập cầu vừa tìm đ-ợc

ã Tìm luật cầu ứng viên dựa luật cầu vừa sinh đ-ợc thỏa giá trị minsupp, minconf.

ã Tìm luật cầu cốt yếu dựa luật cầu ứng viên vừa tìm đ-ợc bên thỏa ng-ỡngminSim, minEntro.

Ch-ơng trình th-c có cấu trúc nh- sau:

ã Lớp l-u trữ biến toàn cục ch-ơng trình Global:

Các biến thuộc líp nµy cã ý nghÜa nh- sau:

- FileName biến kiểu string dùng để l-u tên file text cần đọc ghi

liÖu

- nobjs biến kiểu long dùng để l-u số đối t-ợng (số nguyên tố hóa học)

së d÷ liƯu

- nattr biến kiểuint l-u số thuộc tính đối t-ợng

- ndecattr biến kiểuint l-u số thuộc tính định

(35)

- [,] R biến mảng hai chiều kiểu string l-u bảng liệu ban đầu - [] Symbollà biến mảng kiểu string l-u kí hiệu nguyên tố hóa học

- [] attr name biến mảng kiểu string l-u tên thuộc tính nguyên tố hóa học

- [,] attr biến mảng hai chiỊu kiĨu string l-u kÕt qu¶ sau thu gän bảng liệu ban đầu, biến có cấu trúc nh- biÕn [,] R.

- [] IDattrlà biến mảng l-u số đối t-ợng bảng thu gọn [,] attr.

ã Lớp chứa thao tác sở liệu gốc Database:

Nghĩa hµm líp nµy nh- sau:

- ReadFile(string FileName, int SoDTuong, int SoTTinh, int SoTTinhQDinh)

hàm đọc sở liệu từ file text.txt để ch-ơng trình thao tác sở liệu

- Reduct(int[] Cond, int n cond, out Equiv class UC) thu gọn bảng liệu gốc

dựa vào mảng thuộc tính đ-a vàoCond

- Write UC ID(string FileName, Equiv class UC) hàm ghi kết thu gọn

hàmReduct theo ID nguyên tố file *.txt

-Write UC Name(string FileName, Equiv class UC)cịng nh- hµmWrite UC ID

nh-ng ghi file *.txt theo kÝ hiƯu cđa nguyªn tè hãa häc

-WriteFile attr(string FileName)ghi kết hàmReductra file *.txt bao gồm

toàn bé thc tÝnh cđa nguyªn tè

- Compare 2File(string File1, string File2) so s¸nh hai file txt

- Display() xuất bảng liệu gốc hình

(36)

ã Lớp chứa thao tác liên quan tíi tri thøc c¬ së cđa mét tËp Set:

Mỗi đối t-ợng lớp thể tri thức sở tập Các biến thuộc lớp có ý nghĩa nh- sau:

C¸c biÕn:

- nmember lµ biÕn kiĨu long thĨ hiƯn sè nguyên tố tri thức sở

-[] o biến mảng chiều kiểulongl-u ID nguyên tố tri thức sở

Các hàm:

- Set()hàm khởi tạo Set xác số nguyên tố thuộc tri thức sở

đang làm việc vớinmember = 0,o = null

- Set(long n)hàm khởi tạo Set biết xác số nguyên tố thuộc tri thức sở

đang làm việc mảng chiềuođ-ợc khởi gán nvíinmember = n, o = new long[n]

- Intersect(Set X)hàm giao tập hành this với tập X

-Intersect(Set X, long n)hàm giao tập hànhthisvới tËpXnh-ng cã thªm

(37)

-Approx Upper(Equiv class UB, out Set trace)thực thao tác xấp xỉ tri thức sở this với phân lớp UB, kết l-u vào trace.

-Approx Lower(Equiv class UB, out Set trace)t-ơng tự hàm nh-ng thực hiƯn xÊp xØ d-íi mét tri thøc c¬ së

- Copy Set(out Set Terminal) hàm hỗ trợ cho hai hµm Approx Upper, Ap-prox Lowertrong viƯc hđy vïng nhí kh«ng sư dơng

- Copy Arr Set(Set[] S, out Set[] T) thùc hiƯn viƯc chÐp d÷ liƯu từ mảng tập S sang mảng tập T

- Display() xuÊt tËp

- Display name() xuÊt tập theo ID bảng liệu thu gọn - Display nameR() xt tËp theo kÝ hiƯu cđa tõng nguyªn tè

-Write Name(ref FileStream fs, ref StreamWriter sw, string FileName), Write ID ( ref FileStream fs, ref StreamWriter sw, string FileName), Write ID attr(ref FileStream fs, ref StreamWriter sw, string FileName) hàm hỗ trợ cho hàm ghi file lớp đ-ợc trình bày sau

ã Lớp chứa thao tác liên quan tới phân lớp Equiv class:

Các biến:

- nclass biến kiểulong l-u số l-ợng mảng tËp mét Equiv class

- [] c lµ biến kiểu mảng chiều phần tử mộtSet Equiv class

Các hàm:

- Equiv class() khởi tạo Equiv class không cần tham số

(38)

-Partition(string[,] dataR, long SoDTuong, int[] cond, int n cond, out Equiv class UB) phân hoạch dataRdựa mảng thuộc tính điều kiện cond, kết đ-ợc l-u vµoUB

- Copy Equiv(out Equiv class Copy) hµm hỗ trợ cho hàmPartitiontrong việc

hủy vùng nhớ kh«ng sư dơng

- Approx Upper Equiv(Equiv class UB, out Set[] trace) tÝnh xÊp xØ trªn cđa mét

phân lớp dựa UB

- Approx Lower Equiv(Equiv class UB, out Set[] UB trace) tÝnh xÊp xØ d-íi

một phân lớp dựa trênUB

- Copy arr Equiv(Equiv class[] S, out Equiv class[] T) hỗ trợ cho hàm tính

xấp xỉ

- Display Approx(Equiv class UB, Set[] Trace) xuÊt kÕt qu¶ xÊp xØ hình

-Write Approx(string FileName,Equiv class UB, Set[] Trace, int[] B1, int[] B2)

ghi kÕt qu¶ xÊp xØ file *.txt

-Compare Objs(string[] a, string[] b, int[] cond)so sánh hai mảng chiều kiểu

string

- TestNumber(string a, out int b)chuyển chuỗi số a thành kiểu số nguyên b

- Input B(out int[] B) cho ng-ời dùng chọn thuộc tính để phân hoạch

- Write equiv(string FileName, int[] B) xuÊt kÕt phân hoạch đ-ợc file *.txt

- Write equiv attr(string FileName, int[] B) xuÊt theo chØ sè cña cét thu gän

file text

- Display() xuất phân hoạch theo ID nguyên tố

- Display name() xuất phân hoạch theo kí hiệu nguyên tè

Lớp tính độ đo Calcs:

Các hàm lớp dùng để tính tốn độ đo có liên quan tới luật cầu nối-lớp, cụ thể nh-:

- Sim a(int i, int j)hàm dùng để tính độ t-ơng tự hai đối t-ợng i j theo

(39)

- Sim b(int i, int j) tính độ t-ơng tự hai đối t-ợng ij theo công thức Sim b trình bày ch-ơng

- Sim c(int i, int j) tính độ t-ơng tự hai đối t-ợng i j theo công thức Sim c

đã trình bày ch-ơng

- Sim(Set C1, Set C2, Equiv class RC)dùng hàm để tính độ t-ơng t ca hai

lớpC1C2 dựa vào phân hoạch RC

-prob(Set C1, long i, ref Equiv class RC, ref double[] P, out int p) tÝnh ph©n bè

xác xuất đối t-ợngi với phần tử u khác trongC1

(40)

entropy đối t-ợngi.

- In(int x, int[] B) mục đích kiểm trax có thuộc B.

- sub(int[] TapBiTru, int[] TapTru, out int[] Hieu) t×m hiƯu cđa hai tËp

- r(Equiv class C, int[] B, int n B)hµm tÝnh møc chÊt l-ợng xấp xỉ phân lớp C theo B

- Find max(double []s) tìm phần tử lớn m¶ngs.

- Find(Equiv class C, ref int[] B, ref int n B, ref int[] maxs, ref int n maxs) tÝnh møc ý nghÜa thuéc tÝnh

- find alpha(Equiv class C, ref Set[] b, ref double[] alpha, ref int k) xác định ng-ỡng cho alpha

-Find B(ref Equiv class C, ref int[] B,ref int m, double alpha)xác định tập thuộc tính B cho phân lớp thứ hai

- TestNumber(string a, out int b)chuyển chuỗi số a sang sè nguyªn b - TestNumber(string a, out float b)chuyển chuỗi số a sang số thực b

-calc prob(ref Equiv class RC, ref int[] a, ref double[] P, out int n) tÝnh x¸c xt cđa tõng thc tÝnh

-Find B hprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[] B, out int m)tìm nhóm thuộc tính có xác xuất cao

- Find B lprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[] B, out int m)tìm nhóm thuộc tính có xác xuất thấp

ã Lớp khai thác luật cầu nối - lớp Bridge:

Các đối t-ợng lớp đ-ợc l-u thành struct

Brid tập cầu Trong đó, biến nclass l-u số phần tử Brid, biến [] cname mảng chiều kiểu int l-u số tri thức hạt, biến bridname kiểu int l-u số tri thức hạt,[] Hlà mảng cácSet, phần tử thứ i trongHl-u lại phần tử thuộc phần giao bridname với tri thức hạt thứ i mà mảng cname l-u lại Tiếp theo structBrid set tập tập cầu

Cụ thể, biếnnbridkiểuint l-u lại số phần tử củaBrid set,[] Br mảng cácBrid Để thể luật cÇu nèi-líp ta cã cÊu tróc sau:

Rule l-u tồn thuộc tính liên quan tới luật cầu nối-lớp Trong đó, br kiểu

intl-u chØ sè cđa mét tri thøc h¹tCi0∈U/B; biÕnlclasskiĨu intl-u l¹i tri thøc hạt mà phần

t bờn trỏi ca lut cu thuộc vào; t-ơng tự biến rclass kiểu int l-u lại tri thức hạt mà phần tử bên phải luật cầu thuộc vào; left kiểu long đối t-ợng bên trái luật cầu; right

(41)

supp luật; biếnsim kiểu double l-u lại độ t-ơng tự luật; HR, HL kiểu double l-u lại entropy bên phải, bên trái t-ơng ứng luật cầu Và cuối tập luật

BiÕn nrulekiÓu longcho biÕt số luật cầu [] r mảng chiều luật cầu Sau

là hàm lớp Bridge

Y0 nghĩa hàm lớp lµ:

- Find Bridge Set(Equiv class UF, Equiv class UB, out Brid set BRIDGE1) tìm

các tập cầu từ hai phân hoạchUFUB

- Display Bridge set(Brid set BRIDGE) xuất tập cầu hình

- Write Bridge set(string FileName, Brid set BRIDGE) ghi c¸c tËp cÇu file

(42)

- Calc supp(long l, long r, ref int suppl, ref int suppr, ref int supp)tính supp cho luật cầu

- Bridge Rule(Brid set BRIDGE, out Rule Set R) hàm dùng để sinh luật cầu

nèi-líp mét phÝa

-Display Rule Set(ref Rule Set R)xuất luật cầu nối-lớp phía vừa tìm đ-ợc

ở hàmBridge Rule

- Write Rule Name(ref FileStream fs, ref StreamWriter sw, string FileName,

Rule r, Equiv class RC) ghi c¸c luật cầu theo kí hiệu nguyên tố file text

- Write Rule Set(string FileName, ref Rule Set R)ghi tập luật cầu nối-lớp

file text

-Find Class name(Brid set BRIDGE, int cname, int x) mục đích hỗ trợ cho hàm

Calc Sim Entropy

- Calc Sim Entropy(ref Rule Set R, Brid set BRIDGE, ref Equiv class C, ref

Equiv class RC, ref double minH, ref double maxH)tính sim entropy tập luật

cầu ứng viên

- Find Candidate Rule Set(ref Rule Set R, double minsupp, double minconf,

Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, out Rule Set CR, out double

minH, out double maxH) tìm luật cầu ứng viên

- Display Rule Set1(ref Rule Set R)xuất luật cầu vừa tìm đ-ợc với đầy đủ

độ đo luật

- Write Rule Set1(ref FileStream fs,ref StreamWriter sw, string FileName, ref

Rule Set R, Equiv class RC)ghi luật cầu nối-lớp file text với kí hiƯu cđa nguyªn tè

- Find Min(double a, double b) tìm phần tử nhỏ nhất, mục đích hỗ trợ cho hàm

tiÕp theo

- Find Essential Class Bridge Rule(ref Rule Set CR, Brid set BRIDGE, ref

Equiv class RC, double minsim, double minentropy, out Rule Set ER)tìm luật cầu nối-lớp

(43)

- FindMinMaxSim(ref Rule Set R, out double Min minsim, out double

Max minsim) tìm phạm vi cho minSimcủa tập luật cầu nèi-líp

- ThongKe LuatCau TheoNguong(string FileName, ref Rule Set R, Brid set

BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double Maxentr)

thống kê luật cầu nối-lớp theo ng-ỡng minSimminEntro thay đổi với ID nguyên tố bảng liệu ban đầu

- ThongKe LuatCau TheoNguong Detail(string FileName, ref Rule Set R,

Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double

Maxentr) thống kê luật cầu nối-lớp theo ng-ỡng minSim minEntro thay đổi

(44)

[1] Đặng Ph-ớc Huy, Thuật toán phát hiƯn lt cÇu nèi-líp, 2011 [2] Z Pawlak, Rough Sets, Kluwer Academic Publishers, 1991.

[3] Tạ Thị Thu Ph-ợng, Huỳnh Bảo Tuyên, Đặng Ph-ớc Huy, Một số vấn đề khai thác luật cầu nối-lớp dựa vào tập thô, 2011.

[4] Tạ Thị Thu Ph-ợng, Sự phụ thuộc thuộc tính hệ định: Sử dụng mụ hỡnh thụ, 2011.

[5] Huỳnh Bảo Tuyên, TËp th« - TËp th« dung sai, 2011.

Ngày đăng: 27/05/2021, 19:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan