1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng

64 310 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 908,43 KB

Nội dung

LỜI CAM ĐOAN Tôi xin cam đoan đề tài "Nghiên cứu một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng” là công trình nghiên cứu được tôi thực hiện dưới sự

Trang 1

LỜI CẢM ƠN

Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người đã tận tình hướng dẫn và giúp đỡ em hoàn thành luận văn này

Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ thông tin đã dạy bảo, giúp

đỡ và truyền đạt kiến thức cho em trong suốt khóa học và quá trình em làm luận văn

Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã tận tình dạy bảo, động viên, giúp đỡ và tạo điều kiện cho em trong suốt thời gian học tập và nghiên cứu

Cuối cùng xin chân thành cảm ơn bạn bè, người thân và gia đình luôn là người đồng hành, động viên, chhia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn

Học viên

` Phạm Văn Dương

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài "Nghiên cứu một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng” là công trình nghiên cứu được tôi thực hiện

dưới sự hướng dẫn của giáo viên hướng dẫn khoa học

Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu trách nhiệm

về luận văn của mình

Học viên

Phạm Văn Dương

Trang 3

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC CÁC THUẬT NGỮ v

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT vi

DANH SÁCH BẢNG viii

DANH SÁCH HÌNH ix

MỞ ĐẦU 1

Chương 1: NHỮNG KHÁI NIỆM CƠ BẢN VỀ CÁC PHƯƠNG PHÁP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH 3

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 3

1.1.1 Hệ thông tin đầy đủ 3

1.1.2 Mô hình tập thô truyền thống 4

1.1.3 Bảng quyết định đầy đủ 7

1.1.4 Tập rút gọn và tập lõi 7

1.1.5 Ma trận phân biệt 9

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 10

1.2.1 Hệ thông tin không đầy đủ 10

1.2.2 Mô hình tập thô dung sai 14

1.2.3 Bảng quyết định không đầy đủ 17

1.3 Tình hình nghiên cứu các phương pháp rút gọn thuộc tính 18

1.3.1 Các phương pháp rút gọn đã được nghiên cứu 18

1.3.2 Mối liên hệ giữa các khái niệm tập rút gọn 19

1.3.3 Phân nhóm và mối liên hệ giữa các phương pháp 21

1.3.4 Luật quyết định của bảng quyết định không đầy đủ và các độ đo cổ điển 22

1.3.5 Các độ đo đánh giá hiệu năng tập luật và các tính chất 25

Trang 4

1.3.6 Sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các

tập rút gọn 27

Chương 2 PHƯƠNG PHÁP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 31

2.1 Mở đầu 31

2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất 31 2.2.1 Entropy Liang mở rộng của tập thuộc tính 32

2.2.2 Entropy Liang mở rộng có điều kiện 33

2.2.3 Một số tính chất của entropy Liang mở rộng 34

2.3 Rút gọn thuộc tính trong hệ quyết định không đầy đủ sử dụng ma trận phân biệt và hàm phân biệt mở rộng 37

2.4 Thuật toán rút gọn thuộc tính 42

Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 45

3.1 Cấu trúc lớp chương trình 45

3.2 Thiết kế phần mềm thực nghiệm 47

3.2.1 Yêu cầu hệ thống 47

3.2.2 Dữ liệu thử nghiệm 47

3.2.3 Chuẩn bị dữ liệu 47

3.2.4 Một số giao diện chương trình 49

3.2.5 Kết quả thực nghiệm 51

KẾT LUẬN 52

TÀI LIỆU THAM KHẢO 53 PHỤ LỤC Error! Bookmark not defined

Trang 5

DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin đầy đủ Complete Information System

Hệ thông tin không đầy đủ Incomplete Information System

Bảng quyết định đầy đủ Complete Decision Table

Bảng quyết định không đầy đủ Incomplete Decision Table

Rút gọn thuộc tính Attribute Reduction

Ma trận phân biệt Indiscernibility Matrix

Tập tối thiểu của thuộc tính a Minimal set of the attribute a

Họ các tập tối thiểu của thuộc tính a Family of all minimal sets of attribute a

Trang 6

SIM B Quan hệ dung sai trên tập thuộc tính B

Trang 7

thông tin không đầy đủ

IE Q P Entropy Liang mở rộng có điều kiện của Q khi đã biết

P trong hệ thông tin không đầy đủ

 

sinh bởi tập thuộc tính P Trong hệ thông tin không

đầy đủ, ký hiệu K P  là phủ sinh bởi tập thuộc tính P

J

đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp

E

không đầy đủ dựa trên entropy Liang mở rộng

Trang 8

DANH SÁCH BẢNG

Bảng 1.1 Bảng thông tin về bệnh cúm 5

Bảng 1.2 Bảng quyết định về bệnh cúm 9

Bảng 1.3 Bảng thông tin về các xe hơi 13

Bảng 1.4 Bảng quyết định về các xe hơi 18

Bảng 1.5 Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ 19

Bảng 2.1 Hệ thông tin không đầy đủ về các xe hơi 35

Bảng 2.2 Bảng quyết định không đầy đủ về tivi 38

Trang 9

DANH SÁCH HÌNH

Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ 20

Hình 3.1: Giao diện lớp MaxtrixDiscern 45

Hình 3.2: Giao diện lớp SqlExecute 45

Hình 3.3: Giao diện lớp ImportData 46

Hình 3.4: Giao diện lớp MainForm 46

Hình 3.5 Dữ liệu adult-stretch gốc 48

Hình 3.6 Dữ liệu adult-stretch sau khi chuyển đổi 49

Hình 3.7 Giao diện chọn tệp dữ liệu 50

Hình 3.8 Kết quả thử nghiệm với bộ dữ liệu adult-stretch 50

Hình 3.9 Lưu kết quả rút gọn thành dạng tệp 51

Trang 10

MỞ ĐẦU

Những năm trở lại đây, chúng ta đã chứng kiến sự phát triển mạnh

mẽ và sôi động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là: Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropy mở rộng, phương pháp sử dụng các độ đo trong tính toán hạt

Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định không đầy đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảm thông tin phân lớp của bảng quyết định đó Đối với một bảng quyết định không đầy đủ có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêu chuẩn đánh giá nào đó là đủ

Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có

khối lượng dữ liệu lớn Nên em đã lựa chọn đề tài luận văn: “Nghiên cứu

một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng”

Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính

trong bảng quyết định không đầy đủ

Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các

bảng quyết định không đầy đủ với kích thước trung bình và lớn

Phương pháp nghiên cứu:

Trang 11

- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng minh dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố

- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán

Ý nghĩa khoa học của đề tài:

- Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có đóng góp trong thực tiễn

- Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến thức cơ bản trong việc rút gọn thuộc tính trên bảng quyết định không đầy đủ

Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần

kết luận, danh mục tài liệu tham khảo và phụ lục

Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy

đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai, trình bày một số phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ

Chương 2: Trình bày phương pháp rút gọn trên bảng quyết định

không đầy đủ sử dụng ma trận phân biệt và hàm phân biệt mở rộng

Chương 3: Chương trình thực nghiệm trình bày các nội dung: Mô tả

dữ liệu, xây dựng chương trình, và kết quả thực nghiệm của thuật toán Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát triển của luận văn

Trang 12

Chương 1: NHỮNG KHÁI NIỆM CƠ BẢN VỀ CÁC PHƯƠNG PHÁP

RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.1.1 Hệ thông tin đầy đủ

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu

gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách

hình thức, hệ thông tin được định nghĩa như sau

Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS U A V f, , , trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc

tượng, thì ta viết B u B v  nếu b u i b v i  với mọi i 1, ,k

Xét hệ thông tin ISU A V f, , ,  Mỗi tập con các thuộc tính PA xác

định một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

IND Pu vU U  a P a ua v

 

IND P là quan hệ P-không phân biệt được Dễ thấy rằng IND P  là một

quan hệ tương đương trên U Nếu u v, IND P  thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND P  xác

định một phân hoạch trên U, ký hiệu là U IND P/   hay U P/ Ký hiệu lớp tương

Trang 13

đương trong phân hoạch U P/ chứa đối tượng u là  u P, khi đó

1.1.2 Mô hình tập thô truyền thống

Cho hệ thông tin ISU A V f, , ,  và tập đối tượng XU Với một tập thuộc tính BA cho trước, chúng ta có các lớp tương đương của phân hoạch

/

U B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương

đương này như thế nào?

Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương

của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X

bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp

xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và

B-xấp xỉ trên của X, ký hiệu là lượt là BXBX , được xác định như sau:

 

BXu U u X BX uU u BX  .

Trang 14

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn

tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 

B

BN XBXBX : B-miền biên của X , UBX : B-miền ngoài của X

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc

X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

viết lại

BX  U YU B YX , BX  UYU B Y/ X  .

Trong trường hợp BN B X   thì X được gọi là tập chính xác (exact

set), ngược lại X được gọi là tập thô (rough set)

Với B D, A , ta gọi B-miền dương của D là tập được xác định như sau

Trang 15

U Đau đầu Thân nhiệt Cảm cúm

2) Tập X là B-không xác định trong nếu BX  BXU

3) Tập X là B-không xác định ngoài nếu BX  BXU

4) Tập X là B-không xác định hoàn toàn nếu BX  BXU

Trang 16

1.1.3 Bảng quyết định đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là

DSU CD V f với CD 

Xét bảng quyết định DSU C, D V f, ,  với giả thiết  u U,  d D,

 

d u đầy đủ giá trị DS được gọi là bảng quyết định đầy đủ Trong luận văn

này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định

Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C,

tức là với mọi u v U C u,  ,  C v  kéo theo D u D v  Ngược lại thì gọi là không nhất quán hay mâu thuẫn Theo định nghĩa miền dương, bảng quyết định

là nhất quán khi và chỉ khi POS C DU Trong trường hợp bảng không nhất quán thì POS C D chính là tập con cực đại của U sao cho phụ thuộc hàm CD

đúng

1.1.4 Tập rút gọn và tập lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba

nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute)

và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính

không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi

xuất hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư

thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc

phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút

gọn nào của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện

Trang 17

trong một tập rút gọn nào đó của bảng quyết định Chúng ta sẽ đưa ra các định nghĩa chính xác trong phần tiếp theo

Định nghĩa 1.3 [11] (Tập lõi dựa trên miền dương) Cho bảng quyết

định DSU C, D V f, ,  Thuộc tính cC được gọi là không cần thiết (dispensable) trong DS dựa trên miền dương nếu POS C DPOS(C c) D ;

Ngược lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu

PCORE C  Khi đó, thuộc tính cần thiết chính là thuộc tính lõi

Theo Định nghĩa 1.3, thuộc tính không cần thiết là thuộc tính dư thừa hoặc thuộc tính rút gọn

Định nghĩa 1.4 [11] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DSU C D V f,  , ,  và tập thuộc tính RC Nếu

1) POS R( )DPOS C( )D

2)  r R POS, R r ( )DPOS C( )D

thì R là một tập rút gọn của C dựa trên miền dương

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu

Định nghĩa 1.5 Cho bảng quyết định DSU C, D V f, ,  và aC Ta

nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn

 

RPRED C sao cho aR

Định nghĩa 1.6 Cho bảng quyết định DSU C, D V f, ,  và aC Ta

nói rằng a là thuộc tính dư thừa của DS nếu

Trang 18

Bảng này có hai tập rút gọn là R 1 = {Đau cơ, Thân nhiệt} và R 2 =

{Đau đầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và

Thân nhiệt là thuộc lõi duy nhất Các thuộc tính không cần thiết bao gồm:

 Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn

nào

 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều

có mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh Tức là

1.1.5 Ma trận phân biệt

Ma trận phân biệt do Andrzej Skowron và các cộng sự [4] đề xuất là

công cụ sử dụng để tìm tập rút của bảng quyết định Xét bảng quyết định

Trang 19

2) Với mọi rR, R r không thỏa mãn 1)

thì R được gọi là một tập rút gọn của C thu được bởi phương pháp sử dụng

ma trận phân biệt, gọi tắt là tập rút gọn dựa trên ma trận phân biệt Ký hiệu

 

SRED C là họ tất cả các tập rút gọn của C dựa trên ma trận phân biệt

Định nghĩa 1.8 [4, 6] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định DSU C, D V f, , , Mm i jn n

là ma trận phân biệt của DS

Thuộc tính cC được gọi là không cần thiết (dispensable) trong DS dựa trên

ma trận phân biệt nếu C c m i j   với mọi m   i j Ngược lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS

được gọi là tập lõi dựa trên ma trận phân biệt và được ký hiệu là SCORE C  Theo [6],  

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

1.2.1 Hệ thông tin không đầy đủ

Hệ thông tin là một cặp ISU A,  trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính Mỗi thuộc

tính aA xác định một ánh xạ: a U: V a với V a là tập giá trị của thuộc tính aA

Trang 20

Với mọi uU a, A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là

 

a u Nếu Bb b1 , 2 , ,b kA là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị b u i  bởi B u  Như vậy, nếu u và v là hai đối tượng, thì ta viết

B uB v nếu b u i b v i  với mọi i 1, ,k

Với hệ thông tin IS U A, , nếu tồn tại u U và aA sao cho a u 

chứa giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy

đủ, trái lại IS được gọi là hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu được

ký hiệu là ‘*’ và hệ thông tin không đầy đủ là IIS U A, 

Xét hệ thông tin không đầy đủ IISU A, , với tập thuộc tính PA ta

định nghĩa một quan hệ nhị phân trên U như sau

SIM Pu vU U  a P a ua va u  a v

Quan hệ SIM P  không phải là quan hệ tương đương vì chúng có tính

phản xạ, đối xứng nhưng không có tính bắc cầu SIM P  là một quan hệ dung

sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U Theo

[7], SIM P  I a PSIM  a

Gọi S P u là tập v U u v  , SIM P   S P u là tập lớn nhất các đối

tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi

là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai

sinh bởi quan hệ SIM(P) trên U là U SIM P/  , khi đó các lớp dung sai trong

 

/

U SIM P không phải là một phân hoạch của U mà hình thành một phủ của

U vì chúng có thể giao nhau và Uu US P uU Ký hiệu tập tất cả các phủ của

U sinh bởi các tập con thuộc tính PACOVER U 

Trang 21

Trên COVER U  ta định nghĩa một quan hệ thứ tự bộ phận COVER U p , 

U SIM PU SIM Q ) khi và chỉ khi  u U S, P uS Q u

2) U SIM P/   mịn hơn U SIM P/   (viết U SIM P/   p U SIM Q/  ) khi

Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X

trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PXPX, được xác định

Trang 22

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập

P

BN XPXPX và P-miền ngoài của X là tập UPX

Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin

không đầy đủ IISU A,  với U  { ,u u u u u u1 2, 3, 4, 5, 6}, A { ,a a a a1 2, 3, 4}với a 1 (Đơn giá), a 2 (Km đã đi), a 3 (Kích thước), a 4 (Tốc độ tối đa)

Bảng 1.3 Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích

Trang 23

1.2.2 Mô hình tập thô dung sai

Trong phần này, tác giả tóm tắt một số khái niệm cơ bản về mô hình tập thô dung sai do Marzena Kryszkiewicz [7] đề xuất và một số kết quả nghiên cứu về mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ Với mỗi tập con thuộc tính PA , ta định nghĩa một quan hệ nhị phân trên

U như sau:

SIM Pu v    U U a P f u af v af u a  f v a

 

SIM P là quan hệ dung sai (tolerance relation) trên U vì chúng có tính phản

xạ, đối xứng nhưng không có tính bắc cầu Dễ thấy SIM P  I a PSIM  a  Ký hiệu U SIM P/  S P u u U  với S P u v U u v  , SIM P   S P u là tập

các đối tượng không phân biệt được với u đối với quan hệ dung sai trên tập thuộc tính P, còn được gọi là một lớp dung sai hay một hạt thông tin Rõ ràng

các lớp dung sai trong U SIM P/   không phải là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau, nghĩa là S P u   với mọi uU và Uu US u P U.

Với BA, XU, B-xấp xỉ dưới của X là tập

   được gọi là hàm quyết định suy rộng của IDS Nếu

| A( ) | 1u  với mọi uU thì IDS là nhất quán, trái lại IDS là không nhất

Trang 24

quán Theo định nghĩa miền dương, IDS nhất quán khi và chỉ khi

 

( )

A

POS dU , trái lại IDS là không nhất quán

Tập rút gọn là khái niệm cốt yếu trong mô hình tập thô dung sai Trong trường

hợp tổng quát, tập rút gọn là tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định Tiếp theo, tác giả trình bày một số khái niệm về tập rút gọn của bảng quyết định không đầy đủ

Kryszkiewicz [7] đưa ra khái niệm đầu tiên về tập rút gọn, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các đối tượng

Định nghĩa 1.10 [7] Cho bảng quyết định không đầy đủ

RR, tồn tại uU sao cho R' u  A u

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng

Zuqiang Meng và các cộng sự [14] đưa ra khái niệm về tập rút gọn dựa trên miền dương

Định nghĩa 1.11 [14] Cho bảng quyết định không đầy đủ

Trang 25

Trong [2], Nguyễn Long Giang và các tác giả đã sử dụng metric để định nghĩa tập rút gọn và xây dựng thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ

Với PA, giả sử ta có hai phủ

thì R được gọi là một tập rút gọn của IDS dựa trên metric

Định nghĩa 1.13 Cho bảng quyết định không đầy đủ

Trang 26

ma trận phân biệt Nguyễn Long Giang và cộng sự [9] định nghĩa tập rút gọn dựa trên ma trận dung sai

1.2.3 Bảng quyết định không đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều

ứng dụng là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt

được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là

DSU CD với CD 

Xét bảng quyết định DSU C, D với giả thiết  u U,  d D, d u 

đầy đủ giá trị, nếu tồn tại uUcC sao cho c u  thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết

định đầy đủ Ta biểu diễn bảng quyết định không đầy đủ là IDSU C, D

với  d D, '* ' V d Không mất tính chất tổng quát, giả thiết D chỉ gồm một

thuộc tính quyết định duy nhất  d

Cho bảng quyết định không đầy đủ IDSU A,  d Với BA,

uU, B( )u d v v  S u B( ) gọi là hàm quyết định suy rộng, nếu | A( ) | 1u

với mọi uU thì IDS là nhất quán, trái lại IDS là không nhất quán

Tương tự trong bảng quyết định đầy đủ, với BA, miền dương của

 d đối với B, ký hiệu là POS B( d ), được định nghĩa

Trang 27

thêm vào thuộc tính quyết định d (Gia tốc), với U  { ,u u u u u u1 2, 3, 4, 5, 6},

Tốc độ Gia tốc

 {Tốt, Tuyệt hảo}, A( )u6 {Tốt, Tuyệt hảo}

Do đó, IDS là bảng quyết định không nhất quán

1.3 Tình hình nghiên cứu các phương pháp rút gọn thuộc tính

1.3.1 Các phương pháp rút gọn đã được nghiên cứu

Cho bảng quyết định không đầy đủ IDSU A,  d  và tập con thuộc tính điều kiện RA Theo tiếp cận lý thuyết tập thô, tập thuộc tính R được gọi là tập rút gọn của bảng quyết định DS nếu R bảo toàn “khả năng phân lớp” của

Trang 28

DS, nghĩa là việc phân lớp đối tượng dựa trên tập thuộc tính R tương đương với

tập thuộc tính A Khả năng phân lớp được “lượng hóa” bằng độ chắc chắn của

tập luật quyết định sẽ trình bày ở phần sau Mỗi phương pháp rút gọn thuộc tính đều đưa ra một độ đo nhằm lượng hóa khả năng phân lớp và đưa ra định nghĩa tập rút gọn dựa trên độ đo được chọn Trong mục này, tác giả trình bày vắn tắt các khái niệm về các tập rút gọn của các phương pháp rút gọn thuộc tính Kryszkiewicz [7] đưa ra khái niệm đầu tiên về tập rút gọn, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả các đối tượng

1.3.2 Mối liên hệ giữa các khái niệm tập rút gọn

Trong mục này, tác giả tổng kết các kết quả nghiên cứu mối liên hệ giữa các khái niệm tập rút gọn đã của bảng quyết định không đầy đủ nhất quán và không nhất quán trong công trình số [9] Để mô tả một cách ngắn gọn, tác giả ký hiệu các tập rút gọn ở Bảng 3.1 như sau:

Bảng 1.5 Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ

Ký hiệu

P

R Tập rút gọn dựa trên miền dương

RTập rút gọn dựa trên hàm quyết định suy rộng

Trang 29

1) Nếu bảng quyết định nhất quán, các tác giả trong [9, 12, 14] đã chỉ

ra R P, R, R, R M, R I, R TM, R là tương đương nhau

2) Nếu bảng quyết định không nhất quán:

- Các tác giả trong công trình [12] đã chứng minh R tương đương với R

- Các tác giả trong công trình [5] đã chứng minh R tương đương với R M

- Các tác giả trong công trình [9] đã chứng minh R I tương đương với R TM

- Các tác giả trong công trình [9] đã chứng minh R P là tập con của R,

nghĩa là: nếu R là một tập rút gọn dựa trên hàm quyết định suy rộng thì tồn tại R PR với R P là một tập rút gọn dựa trên miền dương

- Các tác giả trong công trình [9] đã chứng minh R là tập con của R I ,

nghĩa là: nếu R I là một tập rút gọn dựa trên lượng thông tin thì tồn tại

I

R R với R là một tập rút gọn dựa trên hàm quyết định suy rộng

- Các tác giả trong công trình [9] đã chứng minh R là tập con của R,

nghĩa là: nếu R là một tập rút gọn phân bố thì tồn tại RR với R là một tập rút gọn dựa trên hàm quyết định suy rộng

Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không nhất quán được biểu diễn bằng sơ đồ sau:

Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ

Trang 30

1.3.3 Phân nhóm và mối liên hệ giữa các phương pháp

Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [9] đã thực hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn của các nhóm Cụ thể:

Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm:

Nhóm 1: Bao gồm tập rút gọn R P

Nhóm 2: Bao gồm các tập rút gọn R, R, R M

Nhóm 3: Bao gồm các tập rút gọn R I, R TM

Nhóm 4: Bao gồm tập rút gọn R

Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:

 Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn

Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc

tính trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm

tương ứng

Đế đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính,

cộng đồng nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về

thời gian thực hiện thuật toán heuristic tìm một tập rút gọn tốt nhất và 2) chất lượng phân lớp của tập rút gọn Các công bố về rút gọn thuộc tính

đều tính toán độ phức tạp thời gian thuật toán tìm tập rút gọn Do đó, hoàn

Trang 31

toàn có thể so sánh được tính hiệu quả của các phương pháp về tiêu chuẩn thời gian

Việc đánh giá chất lượng phân lớp của tập rút gọn dựa vào số lượng thuộc tính của tập rút gọn và chất lượng phân lớp của từng thuộc tính Về mặt định tính, tập rút gọn có số thuộc tính càng ít thì chất lượng phân lớp càng cao Tuy nhiên, điều này chưa hẳn đã chính xác vì chất lượng phân lớp của từng thuộc tính khác nhau Tóm lại, ta cần phải sử dụng độ đo mang tính định lượng để đánh giá chất lượng phân lớp của tập rút gọn Trong lý thuyết tập thô, các nhà nghiên cứu sử dụng ba độ đo để đánh giá tính đúng

đắn và tính hiệu quả của một phương pháp rút gọn thuộc tính: độ chắc chắn (certainty measure), độ nhất quán (consistency measure) và độ hỗ trợ

(support measure), cụ thể là: tập rút gọn của phương pháp rút gọn thuộc tính phải bảo toàn độ chính xác, độ nhất quán của tập luật quyết định Độ hỗ trợ

sử dụng để đánh giá chất lượng phân lớp của tập rút gọn Độ hỗ trợ của tập luật quyết định dựa trên tập rút gọn càng cao thì chất lượng phân lớp của tập rút gọn đó càng cao

1.3.4 Luật quyết định của bảng quyết định không đầy đủ và các độ đo

YU dS u A iY j , ký hiệu des SA u i  và des Y j lần lượt là các

mô tả của lớp dung sai S u A i và lớp tương đương Y j Chú ý rằng nếu giá trị

 i

a u   thì bỏ giá trị này ra khỏi des SA u i  vì quy ước giá trị * bằng tất cả các giá trị khác Một luật quyết định đơn có dạng Z ij:des SA u i des Y j

Trang 32

Giống như luật quyết định trong bảng quyết định đầy đủ, độ chắc chắn, độ

hỗ trợ và độ bao phủ của luật quyết định đơn Z ij tương ứng là:

Tốc độ tối đa d

11 :

Z (a 1 , Cao) (a 2 , Thấp) (a 3 , Đầy đủ) (a 4 , Thấp) (d, Tốt)

21 :

Z (a 1 , Thấp) (a 3 , Đầy đủ) (a 4 , Thấp) (d, Tốt)

Ngày đăng: 25/05/2016, 22:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Long Giang, Nghiêm Hải Lâm (2008), “Một thuật toán hiệu quả rút gọn thuộc tính trong bảng quyết định”, Kỷ yếu hội thảo Một số vấn đề chọn lọc về CNTT và TT, Huế, tr. 257-267 Sách, tạp chí
Tiêu đề: Một thuật toán hiệu quả rút gọn thuộc tính trong bảng quyết định”, "Kỷ yếu hội thảo Một số vấn đề chọn lọc về CNTT và TT
Tác giả: Nguyễn Long Giang, Nghiêm Hải Lâm
Năm: 2008
[2] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng metric”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”, Cần Thơ, 10/2011, Tr. 249-266 Sách, tạp chí
Tiêu đề: Một phương pháp mới rút gọn thuộc tính trong bảng quyết định sử dụng metric”, "Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc về CNTT và TT”
Tác giả: Nguyễn Long Giang, Nguyễn Thanh Tùng
Năm: 2012
[3] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73-85.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Về một metric trên họ các phân hoạch của một tập hợp hữu hạn”, "Tạp chí Tin học và Điều khiển học
Tác giả: Nguyễn Thanh Tùng
Năm: 2010
[4] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp. 331-362 Sách, tạp chí
Tiêu đề: The Discernibility Matrices and Functions in Information Systems”, "Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory
Tác giả: Andrzej Skowron and Rauszer C
Năm: 1992
[5] Huasheng ZOU, Changsheng ZHANG, “Efficient Algorithm for Knowledge Reduction in Incomplete Information System”, Journal of Computational Information Systems 8: 6, 2012, pp.2531-2538 Sách, tạp chí
Tiêu đề: Efficient Algorithm for Knowledge Reduction in Incomplete Information System”, "Journal of Computational Information Systems 8: 6
[7] Kryszkiewicz M. (1998), “Rough set approach to incomplete information systems”, Information Science, Vol. 112, pp. 39-49 Sách, tạp chí
Tiêu đề: Rough set approach to incomplete information systems”, "Information Science
Tác giả: Kryszkiewicz M
Năm: 1998
[8] Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol. 33, pp. 169-171 Sách, tạp chí
Tiêu đề: A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, "Computer Science
Tác giả: Li X.H. and Shi K.Q
Năm: 2006
[9] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence and Applications, Volume 252:Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp. 417-426 Sách, tạp chí
Tiêu đề: Relationships Among the Concepts of Reduct in Incomplete Decision Tables
Tác giả: Nguyen Long Giang, Vu Van Dinh
Năm: 2013
[10] Pawlak Z. (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp. 661-688 Sách, tạp chí
Tiêu đề: Rough set theory and its applications to data analysis”, "Cybernetics and systems 29
Tác giả: Pawlak Z
Năm: 1998
[11] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers Sách, tạp chí
Tiêu đề: Rough sets: Theoretical Aspects of Reasoning About Data
Tác giả: Pawlak Z
Năm: 1991
[12] Renpu Li, Dao Huang, “Reducts in incomplete decision tables”, Proceedings of the First international conference on Advanced Data Mining and Applications, ADMA’05, 2005, pp. 165-174 Sách, tạp chí
Tiêu đề: Reducts in incomplete decision tables”, "Proceedings of the First international conference on Advanced Data Mining and Applications
[13] Zhou X.Z. and Huang B. (2003), “Rough set-based attribute reduction under incomplete Information Systems”, Journal of Sách, tạp chí
Tiêu đề: Rough set-based attribute reduction under incomplete Information Systems”
Tác giả: Zhou X.Z. and Huang B
Năm: 2003

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w