1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ

82 515 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 1,64 MB

Nội dung

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG --- NGUYỄN QUỲNH LAN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP RÚT G

Trang 1

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN

THÔNG

-

NGUYỄN QUỲNH LAN

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY

Trang 2

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

LỜI CẢM ƠN

Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam Người đã tận tình dày công hướng dẫn và giúp đỡ em hoàn thành luận văn này

Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo, giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình

em làm luận văn

Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho

em trong suốt thời gian học tập và nghiên cứu

Cuối cùng xin chân thành cảm ơn bàn bè, người thân và gia đình luôn là người đồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn

Thái Nguyên, tháng 08 năm 2013

Nguyễn Quỳnh Lan

Trang 3

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là sản phẩm tìm hiểu, nghiên cứu của mình Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu trách nhiệm về luận văn của mình

Nguyễn Quỳnh Lan

Trang 4

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

MỤC LỤC

MỤC LỤC i

Danh mục các thuật ngữ iii

Bảng các ký hiệu, từ viết tắt iv

Danh sách bảng v

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 3

1.1 Bảng quyết định đầy đủ 3

1.2 Hệ thông tin 3

1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 3

1.3.1 Hệ thông tin đầy đủ 3

1.3.2 Mô hình tập thô truyền thống 5

1.3.3 Tập rút gọn và tập lõi 7

1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 9

1.4.1 Hệ thông tin không đầy đủ 9

1.4.2 Bảng quyết định không đầy đủ 11

1.4.3 Tập rút gọn của bảng quyết định không đầy đủ 11

1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric 12

1.5.1 Metric trên họ các tri thức và tính chất 12

1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 12

1.5.1.2 Metric trên họ các tri thức 14

1.5.1.3 Một số tính chất của metric trên bảng quyết định 15

1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 18

Trang 5

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….…… 18

1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 19

1.6 Kết luận chương 1……… 27

Chương 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28 2.1 Giới thiệu 28

2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất… …… 29

2.2.1 Entropy Liang mở rộng của tập thuộc tính 29

2.2.2 Entropy Liang mở rộng có điều kiện 30

2.2.3 Một số tính chất của entropy Liang mở rộng 32

2.3 Metric trên họ các phủ và các tính chất 37

2.3.1 Metric trên họ các phủ 37

2.3.2 Một số tính chất chất của metric 40

2.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric……… … 43

2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 43

2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 44

2.5 Kết luận chương 2 52

Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 53

3.1 Mô tả dữ liệu 53

3.2 Xây dựng chương trình 57

3.3 Kết quả thực nghiệm 59

3.4 Nhận xét 60

KẾT LUẬN 61

TÀI LIỆU THAMKHẢO……….62

PHỤ LỤC……… 64

Trang 6

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Danh mục các thuật ngữ

Thuật ngữ tiếng việt Thuật ngữ tiếng anh

Trang 7

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng các ký hiệu, từ viết tắt

Ký hiệu, từ viết tắt Diễn giải

hệ thông tin không đầy đủ

biết P trong hệ thông tin không đầy đủ

thuộc tính P Trong hệ thông tin không đầy đủ là phủ sinh bởi tâp thuộc tính P

đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp

không đầy đủ dựa trên entropy Liang mở rộng

Trang 8

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

DANH SÁCH BẢNG

Bảng 1.1 Bảng thông tin về bệnh cúm 6

Bảng 1.2 Bảng quyết định về bệnh cúm 9

Bảng 1.3 Bảng thông tin về các xe hơi 12

Bảng 1.4 Bảng quyết định về bệnh cảm cúm 19

Bảng 1.5 Bảng quyết định minh họa ví dụ 1.5 22

Bảng 2.1 Bảng hệ thông tin không đầy đủ về các xe hơi 37

Bảng 2.3 Bảng quyết định không đầy đủ minh họa ví dụ 2.3 49

Bảng 2.4 Bảng quyết định không đầy đủ về các xe hơi 52

Bảng 3.1 Bảng quyết định không đầy đủ về các xe hơi 56

Bảng 3.2 Kết quả thực hiện thuật toán Thuật toán 2.2………65

Bảng 3.3 Tập rút gọn của Thuật toán 2.2……… 65

Trang 9

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

MỞ ĐẦU

Mười năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôi

động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô

Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các

phương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là:

Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại

số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropy

thông tin, phương pháp sử dụng các độ đo trong tính toán hạt

Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các

thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định không đầy

đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảm

thông tin phân lớp của bảng quyết định đó Đối với một bảng quyết định không đầy

đủ có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực hành thường không

đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêu

chuẩn đánh giá nào đó là đủ

Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể

khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lượng dữ

liệu lớn Thuật toán khá đơn giản về mặt thực thi Nên em quyết định lựa chọn đề

tài luận văn: “Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng

quyết định không đầy đủ”

Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng

quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phương pháp rút gọn thuộc tính

trong bảng quyết định không đầy đủ

Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng

quyết định không đầy đủ với kích thước trung bình và lớn

Trang 10

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Phương pháp nghiên cứu

- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng minh dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố

- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán

Ý nghĩa khoa học của đề tài

-Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có đóng góp trong thực tiễn

-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến thức cơ bản trong bảng quyết định không đầy đủ

Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần kết luận, danh mục tài liệu tham khảo và phụ lục

Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng

quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai, trình bày phương pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy

đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phương pháp

rút gọn thuộc tính trong bảng quyết định đầy đủ

Chương 2: Trình bày phương pháp xây dựng một metric trên họ các phủ trong

hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phương pháp

rút gọn thuộc tính trong bảng quyết định không đầy đủ

Chương 3: Chương trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,

xây dựng chương trình, và kết quả thực nghiệm của thuật toán

Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát triển của luận văn

Trang 11

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG

QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

1.1 Bảng quyết định đầy đủ

Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng

là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là DS = (U, C∪D, V, f) với

Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,

d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS được

gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy

đủ Trong luận văn này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định

1.2 Hệ thông tin

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng 1 bảng dữ liệu gồm p cột tương ứng với p thuộc tính và n hàng ứng với n đối tượng

1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.3.1 Hệ thông tin đầy đủ

Một cách hình thức, hệ thông tin được định nghĩa như sau:

Định nghĩa 1.1.[1] Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập

hữu hạn, khác rỗng các đối tượng, A là một tập hữu hạn, khác rỗng các thuộc tính,

Trang 12

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

a AV với Va là tập giá trị các thuộc tính a∈A; f: U x A Va là hàm thông tin, mọi a∈A, u∈U f(u,a)∈Va

Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tượng u là a(u) thay vì

f(u,a) Nếu B= {b1, b2, ,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị bi(u) bởi B(u) Như vậy, nếu u và v là hai đối tượng, thì ta viết B(u)=B(v), nếu bi(u)=bi(v) với mọi i= 1, ,k

Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u) thiếu giá trị (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại IS được gọi là hệ thông tin đầy đủ Chúng ta tự hiểu hệ thông tin đầy đủ được gọi tắt là hệ thông tin

Xét hệ thông tin IS = (U, A, V, f) Mỗi tập con các thuộc tính P⊆A xác định một quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:

IND(P) là quan hệ P – không phân biệt được Dễ thấy rằng IND (P) là một quan hệ tương đương trên U Nếu (u,v)∈IND(P) thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND(P) xác định một phân hoạch U/P chứa đối tượng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}

Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A

1) Phân hoạch U/P và phân hoạch U/Q là như nhau (viết U/P=U/Q), khi và chỉ khi u ∈U, [u]P=[u]Q

Trang 13

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

u ∈U, [u]P ⊆[u]Q

Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A

1) Nếu P⊆Q thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một số lớp thuộc U/Q

2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q

1.3.2 Mô hình tập thô truyền thống

Cho hệ thông tin IS=(U, A, V, f), và tập đối tượng X⊆U Với một tập thuộc tính

B⊆A cho trước chúng ta có các lớp tương đương của phân hoạch U/B, thế thì một tập

đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế nào?

Để biểu diễn X thông qua các lớp tương đương của U/B (còn gọi là biểu diễn

X bằng tri thức có sẵn trong B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U/B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B, được gọi là B xấp xỉ dưới và B xấp xỉ trên của X, ký hiệu lần lượt là BX

BX={u ∈U /[u]B ⊆X }

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

hai tập xấp xỉ nêu trên, ta định nghĩa các tập

Trang 14

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

B miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc

X, còn B miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại

gọi là tập thô (rough set)

Với B,D ⊆A, ta gọi B miền dương của D là tập được xác định như sau:

Trang 15

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

nhƣng phân biệt đƣợc về thân nhiệt

Các lớp không phân biệt đƣợc bởi B={Đau đầu, Thân nhiệt} là:

Định nghĩa 1.3 (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,

C∪D, V,f) Thuộc tính c∈C đƣợc gọi là không cần thiết (dispensable) trong DS dựa

Trang 16

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

trên miền dương nếu POSC(D)=POS(C-{c})(D) Ngược lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu là PCORE (C) Khi đó, thuộc tính cần thiết chính

2) Mọi r∈R, POSR-{r} (D)≠POSC (D)

Thì R là một tập rút gọn của C dựa trên miền dương

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu PRED(C) là họ tất cả các tập rút gọn Pawlak của C Khi đó PCORE (C)

=

( )

R PRED C R

Định nghĩa 1.5 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng a

là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R

Định nghĩa 1.6 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng a

là thuộc tính dư thừa của DS nếu

a∈C-( )

R PRED D R

Ví dụ 1.2 Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2

Trang 17

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

nhiệt} Nhƣ vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duy nhất Các thuộc tính không cần thiết bao gồm:

+Thuộc tính Mệt mỏi là thuộc tính dƣ thừa vì không tham gia vào rút gọn nào

+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng

dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh Tức là:

POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})

POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})

1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mở rộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do Marzena Kryszkiewicz [6] đề xuất

1.4.1 Hệ thông tin không đầy đủ

Trang 18

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Như đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈A

sao cho a(u) thiếu giá trị IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giá trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS= (U, A, V, f )

Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ) Với tập thuộc tính P⊆A ta định nghĩa một quan hệ nhị phân trên U như sau:

Quan hệ SIM(P) không phải là quan hệ tương đương vì chúng có tính phản xạ, đối xứng nhưng không có tính bắc cầu SIM (P) là một quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U Theo [6], SIM (P)=∩a∈PSIM({a})

Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) } SP(u) là tập lớn nhất các đối tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ SIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM (P) không phải

là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau

và ∪u∈U SP(u)= U Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tính

Trang 19

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1) Phủ U/SIM(P) và phủ U/SIM(Q) là như nhau (viết U/SIM(P) = U/SIM(Q)) khi và chỉ khi u∈U, SP(u)=SQ(u)

2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi u∈U, SP(u)⊆SQ(u)

{u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}

Tính chất 1.2 [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)

3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U

Tương tự hệ thông tin đầy đủ, các tập P- xấp xỉ dưới và P- xấp xỉ trên của X trong

hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX được xác định như sau:

Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= PX -

PX và P- Miền ngoài của X là tập: U-PX

Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ

IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá),

a2 (KM đã đi), a3 (Kích thước), a4 (Tốc độ tối đa)

Trang 20

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bảng 1.3 Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa

1.4.2 Bảng quyết định không đầy đủ

Như đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại

u∈U và c∈C sao cho c(u) thiếu gái trị thì DS được gọi là bảng quyết định không đầy

đủ Ta biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là IDS=(U,

C∪D,V, f) với mọi d∈D, „*‟ Vd Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy nhất {d} [6]

1.4.3 Tập rút gọn của bảng quyết định không đầy đủ

Trang 21

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định

không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm

quyết định suy rộng của tất cả các đối tượng

Định nghĩa 1.8 [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng

quyết định không đầy đủ IDS=(U C∪D, V, f) và tập thuộc tính R⊆C Nếu:

Thì R được gọi là một tập rút gọn của C.Tập rút gọn định nghĩa như trên còn

gọi là tập rút gọn Kryszkiewic

1.5 Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric

1.5.1 Metric trên họ các tri thức và các tính chất

1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn

Định nghĩa 1.9 Cho tập U là tập hữu hạn các đối tượng và X, Y U Biểu thức:

X Y được gọi là khoảng cách Jaccard ( Jaccacrd distance)

đo độ tương tự giữa hai tập hợp X và Y Hiển nhiên D(X, Y)+J(X,Y)=1

Định lý 1.1 Cho U là tập hữu hạn các đối tượng và P(U) là tập các tập con của U

Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,Z P(U) thoả mãn

các điều kiện sau:

Trang 22

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

(P1) D(X,Y) 0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y

Nếu J(X,Y) J(X,Z) hoặc J(Y,Z) J(X,Z) thì hiển nhiên (3.1) thoả mãn Do

đó, ta cần chứng minh (3.1) đối với trường hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)

Trang 23

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1.5.1.2 Metric trên họ các tri thức

(knowledge) K(P)={[ui]p u i U} trên U Ký hiệu họ tất cả các tri thức trên U là

Trang 24

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

(U) Dựa vào khoảng cách Jaccard giữa hai tập, định lý sau xây dựng một metric

1.5.1.3 Một số tính chất của metric trên bảng quyết định

U/C và U/D

Trang 25

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Mệnh đề 1.1 Cho bảng quyết định DS=(U,C D V f, , ), giả sử U/C ={C C1 , 2 , ,C m}

Trang 26

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Mệnh đề 1.2 Cho bảng quyết định DS=(U, C D, V, f) Giả sử d j(K(C), K(C, D)

Mệnh đề 1.3 (Tính phản đơn điệu) Cho bảng quyết định DS=(U, C D, V, f) và

D)) Dấu đẳng thức d K Q K Q j( ( ), ( D)) d K P K P j( ( ), ( D)) xảy ra khi và chỉ khi ( \ ) ( \ )

*Trình bày chứng minh:

(DS 1 ) 1- (DS 2 ) Do đó theo Mệnh đề 1.2 ta có d j (K(Q), K(Q D)) j

d (K(P), K(P D))

chỉ khi H(D Q ) = H(D P )

Mệnh đề 1.3 Cho thấy tập thuộc tính P càng lớn thì khoảng cách giữa hai tri thức K (P) và K (P D) càng nhỏ, hay K(P) càng gần (càng tương tự) K(P D),

Trang 27

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

nghĩa là khả năng phân lớp dựa trên P vào các lớp quyết định sinh bởi D càng lớn,

và ngƣợc lại

Ví dụ 1.4 Xét bảng quyết định về bệnh cúm DS = ( U,C {d} ,V, f ) cho ở bảng 1.4

với U = {u 1 ,u 2 ,u 3 ,u 4 ,u 5 ,u 6 }, C ={a 1 , a 2 , a 3 } với a 1 (Đau đầu), a 2 (Đau cơ), a 3 (Thân

i

2 1

j

2

i j i

1-2 1

i

2 1

j

2

i j i

Trang 28

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1.5.2.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric

Định nghĩa 1.10 (Tập lõi dựa trên metric) Cho bảng quyết định DS = (U,C D,V,

f), thuộc tính c C gọi là không cần thiết (dispensable) trong DS dựa trên metric

thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa trên metric và ký hiệu là MCORE (C)

Định nghĩa 1.11 (Tập rút gọn dựa trên metric ) Cho bảng quyết định

1) d J (K (R), K (R D)) = d J (K(C),K(C D))

2) r R, d J (K (R-{r}),K((R-{r}) D)) d J (K(C),K(C D))

Thì R là một tập rút gọn của C dựa trên mertic Ký hiệu MRED(C) là họ tất cả các tập rút gọn của C dựa trên metric

1.5.2.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric

Định nghĩa 1.12 (Độ quan trọng của thuộc tính dựa trên metric) Cho bảng quyết

định DS = (U, C D,V, f), B C và b C-B Độ quan trọng của thuộc tính b đối với B đƣợc định nghĩa bởi:

SIGB (b) = dj (K(B),K(B D))-dj (K(B {b}),K(B {b} D)) với giả thiết

i

cách càng lớn, hay thuộc tính b càng quan trọng và ngƣợc lai Độ quan trọng của

Trang 29

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

thuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính b, và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm tập rút gọn của bảng quyết định

Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai hướng tiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Trong phần này, luận văn trình bày thuật toán heuristic tìn tập rút gọn tính lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán là xuất phát từ tập lõi, lần lượt bổ xung vào tập lõi các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn Thuật toán sử dụng chiến lược Thêm-Xóa[13]

Thuật toán 1.1.[2] Thuật toán tìm lõi sử dụng metric

Đầu vào: Bảng quyết định DS = (U,C D,V, f)

Đầu ra: Tập lõi MCORE (C)

*Phân tích độ phức tạp thời gian của thuật toán 1.1

Sử dụng thuật toán trong [10] để tính U/C , độ phức tạp thời gian là O(|C||U|)

Trang 30

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

phức tạp thời gian của vòng lặp For từ dòng lệnh thứ 3 đến dòng lệnh thứ 7 là O(|C|2|U|) độ phức tạp thời gian của thuật toán 1.1 là O(|C|2

i 1

m i

2

i j i

U/C - {a1) = U/{a2, a3}= {{u1, u2},{u3, u4, u5}, {u6},{u7}} = U /C do đó

dj(K(C-{a1}),((K(C-{a1}) {d})=dj(K({a2,a3}),K({a2,a3,d}))=dj(K(C),

U/C - { a2} =U/{ a1, a3}={{ u1, u2},{ u3, u4, u5},{ u6},{u7}}=U/C do đó

Trang 31

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

dj(K(C -a2}), K(C - a2}) {d}))=dj(K{a1, a3}),K({a1, a3, d}))=dj(K(C),

U/C-{a3}=U/{a1,a2}={{u1, u2, u3,u4,u5},{u6, u7}}

dj(K(C –a3}), K(C – a3}) {d}))=dj(K{a1, a2}),K({a1, a2, d}))

i 1

n j

2 '

1 ' 1

J

R - 1

U 1k

i 1

n J

2 '

1 ' 1

J

văn trình bày thuật toán tính phân hoạch U/R {a} khi biết phân hoạch U/R nhƣ sau

Thuật toán 1.2.[2] Tính phân hoạch U/R {a}

Đầu vào : Phân hoạch U/R={R1,R2, ,RK }, thuộc tính a R

Đầu ra: Phân hoạch U/R {a}

3 Begin

Trang 32

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

4 Tính phân hoạch R i / {a};

5 TMP = TMP R i / {a};

6 End;

7 Return (TMP);

* Trình bày chứng minh tính đúng đắn của thuật toán 1.2

Tại bước 4, phân hoạch Ri / {a} chứa các lớp tương đương X = [ui] a với

ui Ri, [ui]R=Ri, nghĩa là X=[ui] a =[ui] a [ui]R Theo tính chất 1.1 của Pawlak Z, [ui] a [ui]R = [ui]R a nên X= [ui]R a Như vậy tập TMP thu

* Độ phức tạp thời gian của thuật toán 1.2

o R i thì độ phức tạp thời gian của Thuật toán 1.2 là

1

k i

O R i =O U

tính các phép giao Ri Aj , i=1 k, j=1 l với độ phức tạp thời gian là O( U 2) Do

lớn hơn độ phức tạp của Thuật toán 1.2 Sở dĩ độ phức tạp thời gian của Thuật toán 1.2 nhỏ hơn là vì Thuật toán 1.2 không phải tính các phép giao Ri Ajtrong

Ví dụ 1.6 Xét bảng quyết định DS=(U,C {d},V,f) cho ở ví dụ 1.5 Giả sử R={a3} và phân hoạch U/R=U/{a3}={{u1,u2,u7},{u3,u4,u5,u6}}, áp dụng Thuật toán 1.2 tính phân hoạch U/{a2,a3} (với a={a2}) ta có:

Trang 33

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1.TMP =

2.Xét R1={u1,u2,u7}, tính R1/{a2}={{u1,u2},{u7}} và TMP= {{u1,u2},{u7}} Xét R2={u3,u4,u5,u6}, tính R2/{a2}={{u3,u4,u5},{u6}} và TMP = {{u1,u2}, {u3,u4,u5}, {u6},{u7}} Vậy U/{a2,a3} = TMP = {{u1,u2}, {u3,u4,u5}, {u6}, {u7}}

Thuật toán 1.3.[2] Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng metric Đầu vào: Bảng quyết định DS=(U,C D,V,f)

Đầu ra: R là một tập rút gọn tốt nhất của C

1 Tìm tập lõi MCORE (C) theo Thuật toán 1.1;

Trang 34

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

* Trình bày chứng minh tính đúng đắn của thuật toán 1.3

Với bước thêm dần vào R các thuộc tính có độ quan trọng lớn nhất, tập thuộc

tính R thu được từ câu lệnh từ 3 đến 13 thoả mãn điều kiện bảo toàn khoảng cách

dJ K R K R( ), ( D) d J K C K C( ), ( D)

Với bước loại bỏ các thuộc tính dư thừa, câu lệnh từ 14 đến 19 đảm bảo tập R

là tối thiểu, nghĩa là r R, d J K R( { }) ,r K (R { })r D) d J K C K C( ), ( D)

Theo Định nhĩa 1.3, R là tập rút gọn dựa trên metric

* Độ phức tạp thời gian của Thuật toán 1.3

Xét vòng lặp While từ dòng lệnh số 3 đến dòng lệnh số 13, theo công thức

(1.9) để tính SIGR(a) ta chỉ cần tính hoạch U R/ {a} vì phân hoạch U R/ đã được

biết U R/ là O U nên độ phức tạp thời gian để tính tất cả các SIGR a là:

Trang 35

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

hiện R* lần, mỗi lần ta phải tính d J K R K R( ), ( D) với độ phức tạp thời gian

O R U Do đó, độ phức tạp thời gian của dòng lệnh 15 là O ( *

phức tạp thời gian để tính tất cả các SIG a là:

phức tạp thời gian của thuật toán là O(C2 U )

* Đánh giá Thuật toán 1.3 dựa trên lý thuyết

Với phương pháp rút gọn thuộc tính sử dụng entropy Shannon (trong nhóm phương pháp Entropy Shannon), thuật toán MIBARK trong [11] có độ phức tạp

C U + U3), O (C U 2+ U3) Do đó về lý thuyết, độ phức tạp thời gian Thuật toán 1.3 (thuật toán sử dụng metric) nhỏ hơn các thuật toán sử dụng entropy Shannon

Trang 36

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Độ phức tạp thời gian của các thuật toán tìm tập rút gọn phụ thuộc vào độ phức tạp của việc tính phân hoạch U/C Nếu cùng sử dụng thuật toán tính U/C trong [10]:

1) Độ phức tạp thời gian của Thuật toán 1.3 nhỏ hơn độ phức tạp các thuật toán sử dụng entropy Shannon vì Thuật toán 1.3 sử dụng kết quả đã được tính ở bước trước U/ R để tính U/ R {a}

2) Thuật toán 1.3 không phải tính toán các biểu thức logarit nên khối lượng tính toán nhỏ hơn các thuật toán sử dụng entropy Shannon

Do đó, Thuật toán 1.3 hiệu quả hơn các thuật toán sử dụng entropy Shannon

Ví dụ 1.7 Xét bảng quyết định DS=(U,C {d}, V, f ) cho ở Ví dụ 1.5 Từ Ví

dụ 1.5 ta đã tính tập lõi MCORE(C) = {a3} và dj ( K(C), K(C {d})) =1

3 Thực hiện các bước Thuật toán 1.3 tìm một tập tút gọn tốt nhất ,ta có:

Trang 37

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Do a1và a2 có độ quan trọng như nhau nên chọn bất kì a1 hoặc a2, giả sử chọn a1, khi đó và R a a1, 3 và theo tính toán ở Ví dụ 1.5:

1, 3 , 1, 3, ,

một tập rút gọn tốt nhất của C dựa trên metric

1.6 Kết luận chương 1

Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ,

mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ

Trang 38

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT

ĐỊNH KHÔNG ĐẦY ĐỦ

2.1 Giới thiệu

Dữ liệu trong thực tế thường không đầy đủ, dư thừa hoặc không chính xác, gây ảnh hưởng không tốt trong quá trình phát hiện tri thức từ dữ liệu Ý tưởng “rút gọn” được sử dụng cho phép loại bỏ những thông tin dư thừa mà vẫn giữ được đầy

đủ ý nghĩa của tập dữ liệu đang xét Vì vậy, việc tìm tập rút gọn của bảng quyết định không đầy đủ được đặt ra là hoàn toàn tự nhiên và cần thiết Cũng đã thu được một số kết quả khi nghiên cứu về vấn đề này trên bảng quyết định đầy đủ Tiếp nối cho những kết quả trước đây, em mở rộng nghiên cứu, tìm hiểu tập rút gọn trên bảng quyết định thiếu thông tin Cụ thể, trong luận văn này em sẽ trình bày một thuật toán heuristic tìm tập rút gọn tốt nhất của bảng quyết định không đầy đủ

Trong chương 1 đã trình bày, hệ thông tin không đầy đủ là hệ thông tin có giá trị thiếu trên miền giá trị thuộc tính Từ mô hình tập thô dung sai trên hệ thông tin không đầy đủ do Marzena Kryszkiewicz [6] đề xuất, nhiều nhóm nhà khoa học trên thế giới đã quan tâm nghiên cứu các độ đo không chắc chắn và đề xuất các phương pháp tìm tập rút gọn Trong hệ thông tin không đầy đủ: Jiye Liang và các cộng sự [8] đề xuất thuật toán tìm tập rút sử dụng entropy thô với độ phức tạp O(|A|2|U|) Trên bảng quyết định không đầy đủ: Huang Bing và các cộng sự đề xuất thuật toán tìm tập rút gọn sử dụng độ đo lượng thông tin của tri thức với độ phức tạp O(|C|-

3

gọn sử dụng ma trận dung sai với độ phức tạp O(|C|3|U|2)

Như đã trình bày ở trên, kỹ thuật sử dụng metric đã được sử dụng hiệu quả vào việc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trong bảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số khái niệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chất

Trang 39

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

của chúng Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế

Chương này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủ dựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ các phủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng, chương này trình bày một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ

Nội dung được trình bày trong chương 2 chủ yếu được nghiên cứu, tìm hiểu ở tài liệu [4]

2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất

Xuất phát từ entropy Liang trên hệ thông tin đầy đủ, phần này tìm hiểu entropy Liang mở rộng trên hệ thông tin không đầy đủ và chứng minh một số tính chất

2.2.1 Entropy Liang mở rộng của tập thuộc tính

Định nghĩa 2.1 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P ⊆ A và

U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} Entropy Liang mở rộng của P được định nghĩa bởi:

IE P

S u

Trong đó | SP(u) | chỉ lực lượng tập SP(u) Nếu U/SIM (P)=ω thì IE(P) đạt giá

trị lớn nhất là 1-1/ |U| Nếu U/SIM(P) =δ thì IE(P) đạt giá trị nhỏ nhất là 0

Như vậy 0 ≤ IE(P) ≤ 1-1/|U|

Trang 40

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Mệnh đề 2.1 sau đây cho thấy entropy Liang E(P) trường hợp riêng của entropy Liang mở rộng

Mệnh đề 2.1 Cho hệ thông tin đầy đủ IS = ( U, A, V, f ), P ⊆ A và U/P

Định nghĩa 2.2 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P, Q ⊆ A giả sử

U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} và U/SIM(Q) = { SQ (u1), SQ (u2), , SQ

(u|U|)} Entropy Liang mở rộng của P ∪ Q được định nghĩa bởi

P

P Q

( ) ( )( )

i Q i i

Ngày đăng: 26/02/2015, 01:33

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w