nghiên cứu một số phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô

Trên thế giới và tại Việt Nam, một số nhóm tác giả đã nghiên cứu mối liên hệ giữa các loạitập rút gọn của một số phương pháp rút gọn thuộc tính và nghiên cứu một số độ đođánh giá hiệu nă

Trang 1

VIỆN CÔNG NGHỆ THÔNG TIN

NGUYỄN LONG GIANG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ

DỮ LIỆU THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ

Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH

VÀ HỆ THỐNG TÍNH TOÁN

Mã số: 62.46.35.01

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1.GS.TS Vũ Đức Thi

2 PGS.TS Nguyễn Thanh Tùng

HÀ NỘI - 2012

Trang 2

MỤC LỤC i

Danh mục các thuật ngữ iv

Bảng các ký hiệu, từ viết tắt v

Danh sách bảng vii

Danh sách hình vẽ viii

MỞ ĐẦU 1

Chương 1 CÁC KHÁI NIỆM CƠ BẢN 7

1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 7

1.1.1 Hệ thông tin đầy đủ 7

1.1.2 Mô hình tập thô truyền thống 8

1.1.3 Bảng quyết định đầy đủ 10

1.1.4 Tập rút gọn và tập lõi 10

1.1.5 Ma trận phân biệt và hàm phân biệt 12

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 13

1.2.1 Hệ thông tin không đầy đủ 13

1.2.2 Bảng quyết định không đầy đủ 15

1.2.3 Tập rút gọn của bảng quyết định không đầy đủ 16

1.3 Cơ sở dữ liệu quan hệ 17

1.3.1 Một số khái niệm cơ bản 17

1.3.2 Một số thuật toán cơ bản 19

Chương 2 SO SÁNH, ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ 23

2.1 Mở đầu 23

2.2 Mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn khác nhau 28

2.2.1 Các định nghĩa về tập rút gọn dựa trên entropy thông tin 28

2.2.2 Mối liên hệ giữa tập rút gọn Entropy Shannon với tập rút gọn Pawlak 31

2.2.3 Mối liên hệ giữa tập rút gọn dựa trên entropy Shannon với ma trận phân biệt 33

2.2.4 Mối liên hệ giữa tập rút gọn dựa trên độ khác biệt của tri thức với tập rút gọn Entropy Liang 37

2.2.5 Tổng kết mối liên hệ giữa các loại tập rút gọn và phân loại các phương pháp 39

Trang 3

2.3.2 Các độ đo đánh giá hiệu năng tập luật quyết định 42

2.3.3 Độ nhất quán mới của tập luật quyết định 43

2.3.4 Sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định 47

2.4 Tiêu chuẩn đánh giá các phương pháp rút gọn thuộc tính 49

2.4.1 Lựa chọn nhóm phương pháp rút gọn thuộc tính 49

2.4.2 Tiêu chuẩn đánh giá các phương pháp rút gọn thuộc tính 50

2.5 Kết luận chương 2 51

Chương 3 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ SỬ DỤNG METRIC 52

3.1 Mở đầu 52

3.2 Metric trên họ các tri thức và các tính chất 53

3.2.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 53

3.2.2 Metric trên họ các tri thức 55

3.2.3 Một số tính chất của metric trên bảng quyết định 56

3.3 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 59

3.3.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric 59

3.3.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 59

3.3.3 Mối liên hệ giữa tập rút gọn dựa trên metric và tập rút gọn Entropy Shannon66 3.3.4 Thuật toán tìm tập rút gọn theo tham số độ chắc chắn của tập luật 66

3.4 Thực nghiệm các thuật toán tìm tập rút gọn 68

3.4.1 Thực nghiệm thuật toán tìm tập rút gọn tốt nhất sử dụng metric 68

3.4.2 Thực nghiệm thuật toán tìm tập rút gọn theo tham số độ chắc chắn 70

3.5 Thực nghiệm các phương pháp phân lớp dựa trên tập rút gọn 72

3.5.1 Thực nghiệm phương pháp phân lớp sử dụng tập thô 72

3.5.2 Thực nghiệm phương pháp phân lớp bằng cây quyết định 73

Chương 4 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ SỬ DỤNG METRIC 77

4.1 Mở đầu 77

4.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất 78

Trang 4

4.2.3 Một số tính chất của entropy Liang mở rộng 80

4.3 Metric trên họ các phủ và các tính chất 84

4.3.1 Metric trên họ các phủ 84

4.3.2 Một số tính chất của metric 87

4.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric 90

4.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 90

4.4.2 Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 90

4.4.3 Mối liên hệ giữa tập rút gọn dựa trên metric với tập rút gọn Kryszkiewicz 96

4.4.4 Mối liên hệ giữa tập rút gọn dựa trên metric với tập rút gọn dựa trên lượng thông tin 98

4.5 Thực nghiệm thuật toán 99

Chương 5 MỘT SỐ THUẬT TOÁN TRÊN BẢNG QUYẾT ĐỊNH NHẤT QUÁN 102

5.1 Mở đầu 102

5.2 Thuật toán tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán 102

5.2.1 Đặt vấn đề 102

5.2.2 Thuật toán 103

5.2.3 Thực nghiệm thuật toán 106

5.3 Thuật toán tìm họ tất cả các tập rút gọn của bảng quyết định nhất quán 106

5.4 Thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định nhất quán 109

5.5 Thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 110

KẾT LUẬN 115

Danh mục các công trình của tác giả 117

Tài liệu tham khảo 118

Phụ lục 125

Trang 5

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Hệ thông tin đầy đủ Complete Information System

Hệ thông tin không đầy đủ Incomplete Information System

Hệ thông tin không nhất quán Inconsistent Information System

Bảng quyết định đầy đủ Complete Decision Table

Bảng quyết định không đầy đủ Incomplete Decision Table

Bảng quyết định không nhất quán Inconsistent Decision Table

Quan hệ không phân biệt được Indiscernibility Relation

Rút gọn thuộc tính Attribute Reduction

Ma trận phân biệt Indiscernibility Matrix

Hàm phân biệt Indiscernibility Function

Tập tối thiểu của thuộc tính a Minimal set of the attribute a

Họ các tập tối thiểu của thuộc tính a Family of all minimal sets of attribute a Hàm biểu diễn khoảng cách giữa hai

tập hợp trong [17]

Metric

Trang 6

Ký hiệu, từ viết tắt Diễn giải

SIM B Quan hệ dung sai trên tập thuộc tính B

 u B Lớp tương đương chứa u của quan hệ IND B 

Trang 7

IE P Entropy Liang mở rộng của tập thuộc tính P trong hệ

thông tin không đầy đủ

IE Q P Entropy Liang mở rộng có điều kiện của Q khi đã biết P

trong hệ thông tin không đầy đủ

 

K P Trong hệ thông tin đầy đủ, ký hiệu K P  là tri thức sinh

bởi tập thuộc tính P Trong hệ thông tin không đầy đủ,

ký hiệu K P  là phủ sinh bởi tập thuộc tính P.

J

d K P K Q Khoảng cách giữa K P  và K Q trong hệ thông tin đầy

đủ dựa trên khoảng cách Jaccard giữa hai tập hợp

E

d K P K Q Khoảng cách giữa K P  và K Q  trong hệ thông tin

không đầy đủ dựa trên entropy Liang mở rộng

Trang 8

Bảng 1.1 Bảng thông tin về bệnh cúm 9

Bảng 1.2 Bảng quyết định về bệnh cúm 11

Bảng 1.3 Bảng thông tin về các xe hơi 15

Bảng 1.4 Bảng quyết định về các xe hơi 16

Bảng 2.1 Bảng quyết định minh họa Ví dụ 2.1 32

Bảng 2.3 Ma trận phân biệt của Ví dụ 2.3 36

Bảng 3.1 Bảng quyết định về bệnh cảm cúm 59

Bảng 3.3 Kết quả thực hiện Thuật toán 3.3 và Thuật toán CEBARKCC 70

Bảng 3.4 Tập rút gọn của Thuật toán 3.3 và Thuật toán CEBARKCC 70

Bảng 3.5 Kết quả thực hiện Thuật toán 3.3 trên các bộ số liệu lớn 71

Bảng 3.6 Sự thay đổi tập rút gọn theo ngưỡng độ chắc chắn  72

Bảng 3.7 Tập rút gọn tốt nhất của bộ số liệu Soybean-small 73

Bảng 3.8 Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô 74

Bảng 3.9 Các luật phân lớp trên bảng quyết định ban đầu sử dụng cây quyết định 75

Bảng 3.10 Các luật phân lớp trên bảng quyết định rút gọn sử dụng cây quyết định 76

Bảng 4.1 Hệ thông tin không đầy đủ về các xe hơi 84

Bảng 4.2 Bảng quyết định không đầy đủ minh họa Ví dụ 4.3 93

Bảng 4.3 Bảng quyết định không đầy đủ về các xe hơi 95

Bảng 4.4 Kết quả thực hiện Thuật toán 4.2 và Thuật toán IQBARK 101

Bảng 4.5 Tập rút gọn của Thuật toán 4.2 và Thuật toán IQBARK 101

Bảng 4.6 Kết quả thực hiện Thuật toán 4.2 trên các bộ số liệu lớn 102

Bảng 5.1 Bảng quyết định ở Ví dụ 5.1 107

Bảng 5.2 Kết quả thử nghiệm Thuật toán 5.1 108

Bảng 5.3 Bảng quyết định ở Ví dụ 5.2 110

Bảng 5.4 Bảng quyết định được xây dựng từ Thuật toán 5.4 116

Trang 9

Hình 3.1 Sự thay đổi tập rút gọn theo ngưỡng độ chắc chắn  73 Hình 3.2 Cây quyết định tương ứng với bảng quyết định ban đầu 75 Hình 3.3 Cây quyết định tương ứng với bảng quyết định rút gọn 76

Trang 10

MỞ ĐẦU

Lý thuyết tập thô - do Zdzislaw Pawlak [42] đề xuất vào những năm đầu thậpniên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyếtcác bài toán phân lớp, phát hiện luật…chứa dữ liệu mơ hồ không chắc chắn Từ khixuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trìnhkhai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc các trithức tiềm ẩn trong dữ liệu và đánh giá kết quả thu được

Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin

đối tượng cần quan sát là tập rõ, ngược lại là tập thô Các tập xấp xỉ là cơ sở để đưa

ra các kết luận từ dữ liệu Bảng quyết định là một hệ thông tin IS với tập thuộc tính

A được chia thành hai tập con khác rỗng rời nhau C và D, lần lượt được gọi là tậpthuộc tính điều kiện và tập thuộc tính quyết định Nói cách khác, DS U C, D

với CD Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị

dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị củathuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộc hàm C D làđúng, trái lại là không nhất quán

Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô Mụctiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tínhcốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định, rút gọn thuộc tính làtìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp củabảng quyết định Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau

Trang 11

Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉcần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ Vìvậy, mỗi phương pháp rút gọn thuộc tính đều đề xuất một thuật toán heuristic tìmtập rút gọn Các thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó cóthể áp dụng đối với các bài toán có khối lượng dữ liệu lớn.

Mười năm trở lại đây đã chứng kiến sự phát triển mạnh mẽ và sôi động củalĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô Trong xu thế

đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các phương pháprút gọn thuộc tính trong bảng quyết định Các phương pháp chính là: phương phápdựa trên miền dương [18, 29, 41, 42, 67], phương pháp sử dụng các phép toán trongđại số quan hệ [20, 61], phương pháp sử dụng ma trận phân biệt [11, 19, 65, 69],

phương pháp sử dụng entropy thông tin [39, 52, 55, 56, 57, 58, 59, 60, 63], phươngpháp sử dụng các độ đo trong tính toán hạt [12, 24, 26, 27, 28, 70, 71] Tại ViệtNam, luận án tiến sĩ của tác giả Hoàng Thị Lan Giao [1] đã đề xuất các thuật toánheuristic tìm tập rút gọn và tìm tập rút gọn xấp xỉ của bảng quyết định nhất quán,bao gồm thuật toán sử dụng các phép toán trong đại số quan hệ và thuật toán sửdụng ma trận phân biệt Luận án tiến sĩ của tác giả Nguyễn Đức Thuần [2] đề xuấtthuật toán heuristic tìm tập rút gọn của bảng quyết định đầy đủ nhất quán dựa vàophủ tập thô

Với mục tiêu tìm kiếm một phương pháp phù hợp, hiệu quả rút gọn thuộc tính

trong bảng quyết định, vấn đề trước tiên là cần đưa ra tiêu chuẩn lựa chọn các

phương pháp phù hợp với lớp bài toán cần giải quyết và tiêu chuẩn so sánh, đánh giá các phương pháp Tiêu chuẩn lựa chọn các phương pháp phù hợp là tập rút gọn

của phương pháp phải bảo toàn độ chắc chắn của bảng quyết định Việc lựa chọncác phương pháp phù hợp được thực hiện bằng việc nghiên cứu sự thay đổi giá trịcác độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn Tiêu chuẩn so

sánh, đánh giá các phương pháp là số lượng thuộc tính tập rút gọn của phương

pháp và độ phức tạp của thuật toán tìm tập rút gọn Việc so sánh số lượng thuộc

tính tập rút gọn của phương pháp được thực hiện bằng việc nghiên cứu mối liên hệ

Trang 12

giữa các tập rút gọn Tập rút gọn của phương pháp càng ít thuộc tính thì độ hỗ trợcủa tập luật dựa trên tập rút gọn đó càng cao và phương pháp đó càng hiệu quả Độphức tạp thuật toán tìm tập rút gọn của phương pháp càng nhỏ thì phương pháp đócàng hiệu quả Từ hai tiêu chuẩn này, ta có thể chứng minh được phương pháp cần

tìm kiếm là phù hợp và hiệu quả hơn các phương pháp đã có hay không Trên thế

giới và tại Việt Nam, một số nhóm tác giả đã nghiên cứu mối liên hệ giữa các loạitập rút gọn của một số phương pháp rút gọn thuộc tính và nghiên cứu một số độ đođánh giá hiệu năng tập luật quyết định [2, 6, 37, 48, 61, 64] Tuy nhiên trên cả bảng

quyết định nhất quán và không nhất quán, các tác giả trên chưa nghiên cứu đầy đủ mối liên hệ giữa các loại tập rút gọn và chưa nghiên cứu đầy đủ sự thay đổi giá trị

các độ đo đánh giá hiệu năng tập luật quyết định dựa trên các loại tập rút gọn này.Trong các bài toán thực tế, các hệ thông tin thường thiếu giá trị trên các thuộctính, gọi là các hệ thông tin không đầy đủ Xuất phát từ mô hình tập thô mở rộngdựa trên quan hệ dung sai trong hệ thông tin không đầy đủ do Kryszkiewicz [23] đềxuất, nhiều nhóm nhà khoa học trên thế giới đã quan tâm nghiên cứu các độ đokhông chắc chắn [31, 32, 44, 45] và sử dụng các độ đo này để giải quyết bài toánrút gọn thuộc tính [13, 21, 28, 34] Trên lớp bài toán rút gọn thuộc tính trongbảng quyết định không đầy đủ, vấn đề các nhà nghiên cứu tiếp tục quan tâm là cảitiến các các phương pháp đã có hoặc xây dựng các phương pháp mới hiệu quả hơntheo các tiêu chuẩn đánh giá được chọn

Cho bảng quyết định nhất quán DS U C,  d , tập thuộc tính RC được

gọi là một tập rút gọn của tập thuộc tính điều kiện C nếu R là tập tối thiểu thỏamãn phụ thuộc hàm R  d Xét quan hệ r trên tập thuộc tính C d , tập thuộctính RC d được gọi là một tập tối thiểu của thuộc tính  d nếu R là tập tốithiểu thỏa mãn phụ thuộc hàm R d Do đó, khái niệm tập rút gọn của bảng quyết định tương đương với khái niệm tập tối thiểu của thuộc tính {d} trên quan

hệ, và một số bài toán trong bảng quyết định liên quan đến tập rút gọn có thể được

Trang 13

giải quyết bằng một số kết quả liên quan đến tập tối thiểu của một thuộc tính trong

cơ sở dữ liệu quan hệ; bao gồm bài toán tìm tập tất cả các thuộc tính rút gọn, bàitoán tìm họ tất cả các tập rút gọn, bài toán trích lọc các tri thức dưới dạng các phụthuộc hàm từ bảng quyết định, bài toán xây dựng bảng quyết định từ tập phụ thuộchàm cho trước Cho đến nay, hướng tiếp cận này chưa được nhiều tác giả quan tâmnghiên cứu

Từ các nội dung đã trình bày ở trên, luận án đặt ra các vấn đề nghiên cứu sau:

1) Trên bảng quyết định đầy đủ, vấn đề đầu tiên là nghiên cứu đầy đủ mối

liên hệ giữa các loại tập rút gọn của các phương pháp rút gọn thuộc tính và nghiêncứu đầy đủ sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định dựatrên các loại tập rút gọn này Mục đích nghiên cứu trước tiên là lựa chọn cácphương pháp phù hợp với lớp bài toán cần giải quyết, sau đó là so sánh, đánh giá

các phương pháp theo các tiêu chuẩn khác nhau Dựa trên các kết quả này, vấn đề

nghiên cứu tiếp theo là tìm kiếm một phương pháp mới hiệu quả hơn các phương

pháp đã có theo các tiêu chuẩn đánh giá được chọn

2) Trên bảng quyết định không đầy đủ, vấn đề nghiên cứu đặt ra là tìm kiếmmột phương pháp rút gọn thuộc tính hiệu quả hơn các phương pháp đã có theo cáctiêu chuẩn đánh giá được chọn

3) Trên bảng quyết định nhất quán, vấn đề nghiên cứu đặt ra là xây dựng cácthuật toán có ý nghĩa liên quan đến tập rút gọn sử dụng một số kết quả liên quanđến tập tối thiểu của một thuộc tính trong cơ sở dữ liệu quan hệ

Mục tiêu của luận án tập trung nghiên cứu bốn vấn đề chính Vấn đề thứ

nhất là so sánh, đánh giá các phương pháp rút gọn thuộc tính trong bảng quyết định

đầy đủ theo các tiêu chuẩn khác nhau Vấn đề thứ hai là đề xuất phương pháp mới

rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric và chứng minhphương pháp mới hiệu quả hơn các phương pháp đã có dựa trên kết quả nghiên cứu

của vấn đề thức nhất Vấn đề thứ ba là đề xuất phương pháp mới rút gọn thuộc tính

trong bảng quyết định không đầy đủ sử dụng metric và chứng minh phương pháp

Trang 14

mới hiệu quả hơn các phương pháp đã có theo các tiêu chuẩn đánh giá được chọn.

Vấn đề thứ tư là đề xuất một số thuật toán trong bảng quyết định nhất quán sử dụng

một số kết quả trong cơ sở dữ liệu quan hệ

Đối tượng nghiên cứu của luận án là các bảng quyết định đầy đủ và các

bảng quyết định không đầy đủ với kích thước trung bình và kích thước lớn.

Phạm vi nghiên cứu của luận án tập trung vào bài toán rút gọn thuộc tính

trong bước tiền xử lý số liệu Ngoài ra, luận án nghiên cứu thêm phương pháp trích

lọc tri thức từ bảng dữ liệu dưới dạng phụ thuộc hàm trong bước khai phá dữ liệu ởchương 5

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu

thực nghiệm Về nghiên cứu lý thuyết: các định lý, mệnh đề trong luận án đượcchứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đãcông bố Về nghiên cứu thực nghiệm: luận án thực hiện cài đặt các thuật toán, chạythử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI, so sánh và đánhgiá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết, từ đó kết luận tínhđúng đắn của kết quả nghiên cứu

Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo Chương 1 trình bày các khái niệm cơ bản

về mô hình tập thô truyền thống, mô hình tập thô mở rộng dựa trên quan hệ dung sai

và cơ sở dữ liệu quan hệ Chương 1 cũng trình bày một số thuật toán cơ bản trong cơ

sở dữ liệu quan hệ được sử dụng để xây dựng các thuật toán trên bảng quyết địnhnhất quán trong chương 5

Các đóng góp chính của luận án được trình bày trong chương 2, chương 3,chương 4 và chương 5

Chương 2 trình bày kết quả nghiên cứu về mối liên hệ giữa các loại tập rút gọncủa các phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ và sự thay đổigiá trị các độ đo đánh giá hiệu năng tập luật quyết định dựa trên các loại tập rút gọnnày Trên cơ sở đó, chương 2 phân loại các phương pháp rút gọn thuộc tính trong

Trang 15

bảng quyết định không nhất quán thành 3 nhóm, lựa chọn nhóm phương pháp phù

hợp với lớp bài toán cần giải quyết và đánh giá các phương pháp trong 3 nhóm dựa

trên hai tiêu chuẩn: số lượng thuộc tính tập rút gọn của phương pháp và độ phức tạp

thuật toán tìm tập rút gọn

Chương 3 trình bày phương pháp xây dựng một metric trên họ các tri thứctrong hệ thông tin đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn Sửdụng metric được xây dựng, chương 3 đề xuất một phương pháp mới rút gọn thuộctính trong bảng quyết định đầy đủ Dựa trên lý thuyết, thực nghiệm và dựa trên kếtquả nghiên cứu của chương 2, chương 3 chứng minh phương pháp sử dụng metric

hiệu quả hơn các phương pháp khác trên cả hai tiêu chuẩn đánh giá: số lượng thuộc tính tập rút gọn của phương pháp và độ phức tạp thuật toán tìm tập rút gọn.

Chương 4 trình bày phương pháp xây dựng một metric trên họ các phủ trong hệthông tin không đầy đủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng,chương 4 đề xuất phương pháp mới rút gọn thuộc tính trong bảng quyết định không đầy

đủ Bằng lý thuyết và thực nghiệm, chương 4 chứng minh phương pháp sử dụng metric

hiệu quả hơn phương pháp sử dụng độ đo lượng thông tin và phương pháp sử dụng ma

trận dung sai theo tiêu chuẩn đánh giá độ phức tạp thuật toán tìm tập rút gọn.

Chương 5 đề xuất bốn thuật toán trên bảng quyết định nhất quán dựa trên một

số kết quả trong cơ sở dữ liệu quan hệ Thuật toán 5.1 tìm tập tất cả các thuộc tính

rút gọn của bảng quyết định với độ phức tạp thời gian là đa thức Đây là thuật toánthực sự có ý nghĩa trong tiền xử lý dữ liệu vì cho phép xác định và loại bỏ tất cả cácthuộc tính dư thừa thực sự trong bảng dữ liệu trước khi thực hiện các nhiệm vụ khai

phá dữ liệu tiếp theo Thuật toán 5.2 tìm họ tất cả các tập rút gọn của bảng quyết định Thuật toán 5.3 trích lọc tất cả các tri thức dưới dạng phụ thuộc hàm từ bảng quyết định cho trước Thuật toán 5.4 xây dựng bảng quyết định từ tập các phụ thuộc hàm cho trước Độ phức tạp thời gian của Thuật toán 5.2, Thuật toán 5.3 và Thuật

toán 5.4 đều là hàm mũ.

Trang 16

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển

và những vấn đề quan tâm của tác giả

Trang 17

Chương 1 CÁC KHÁI NIỆM CƠ BẢN 1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.1.1 Hệ thông tin đầy đủ

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình thức, hệ

thông tin được định nghĩa như sau

Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS U A V f, , , trong đó U là tập hữu

hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính; a

u a thay vì f u a ,  Nếu Bb b1, , ,2 b k A là một tập con các thuộc tính thì ta

ký hiệu bộ các giá trị u b i bởi u B  Như vậy, nếu u và v là hai đối tượng, thì ta

viết u B v B  nếu u b i v b i với mọi i1, ,k

Nếu với mọi u U và a A , u a  đều chứa giá trị khác rỗng thì hệ thông tin

được gọi là hệ thông tin đầy đủ Trong luận án này, hệ thông tin đầy đủ được gọi tắt

là hệ thông tin và được ký hiệu là IS U A V f, , , 

Xét hệ thông tin IS U A V f, , ,  Với mỗi tập con các thuộc tính PA, tồn

tại một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

Trang 18

hoạch trên U, ký hiệu là U IND P/   hay U P/ Ký hiệu lớp tương đương trong phânhoạch U P/ chứa đối tượng u là  u P, khi đó  u P v U u v  , IND P  

Định nghĩa 1.2 [43] Cho hệ thông tin IS U A V f, , ,  và P Q, A Ta nói:

1) Phân hoạch U P/ và phân hoạch U Q / là như nhau (viết U P U Q/  / ),khi và chỉ khi  u U,  u P  u Q

2) Phân hoạch U P/ mịn hơn phân hoạch U Q/ (viết U P U Q/  / ) khi và chỉkhi  u U,  u P  u Q

Tính chất 1.1 [43]Xét hệ thông tin ISU A V f, , ,  và P Q, A

1) Nếu PQ thì U Q U P/  / , mỗi lớp của U P/ là một lớp hoặc hợp củamột số lớp thuộc U Q/

2) Với mọi u U ta có  u P Q  u P u Q

1.1.2 Mô hình tập thô truyền thống

Cho hệ thông tin ISU A V f, , ,  và tập đối tượng X U Với một tập thuộctính BA cho trước, chúng ta có các lớp tương đương của phân hoạch U B/ , thế thì

một tập đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế

nào?

Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương

đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X

bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp xỉ tập

đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX, được xác định như sau:

 

BX  u U u X BX u U u  BX 

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

BX bao gồm các phần tử của U có khả năng được phân loại vào X dựa vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 

B

BN X BX BX : B-miền biên của X , U BX : B-miền ngoài của X.

Trang 19

Dễ thấy miền biên của X là tập chứa các đối tượng có thể thuộc X, còn

B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp

của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại

u B v B ta đều có u D v D  Nói cách khác, POS D B( )u U u  B  u D

Ví dụ 1.1 Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng 1.1

Trang 20

2) Tập X là B-không xác định trong nếu BX và BX U

3) Tập X là B-không xác định ngoài nếu BX  và BX U

4) Tập X là B-không xác định hoàn toàn nếu BX  và BX U

1.1.3 Bảng quyết định đầy đủ

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứngdụng là bảng quyết định

Bảng quyết định đầy đủ là một dạng đặc biệt của hệ thông tin đầy đủ, trong

đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: tập các thuộc tính điều

kiện C và tập các thuộc tính quyết định D Trong luận án này, bảng quyết định đầy

CD

Bảng quyết định DS được gọi là nhất quán khi và chỉ khi phụ thuộc hàm CD

nghiệm đúng, nghĩa là với mọi u v U u C,  ,   v C  kéo theo u D v D  Ngược lại

DS là không nhất quán Dễ thấy bảng quyết định DS là nhất quán khi và chỉ khi

 

C

POS D U Trong trường hợp bảng không nhất quán thì POS D C  chính là tập con

cực đại của U sao cho phụ thuộc hàm C D đúng

1.1.4 Tập rút gọn và tập lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc tính

lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu, không thể

thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính không cần thiết là thuộctính dư thừa mà việc loại bỏ thuộc tính này không ảnh hưởng đến việc phân lớp dữ

Trang 21

liệu Các thuộc tính không cần thiết được phân thành hai nhóm: Thuộc tính dư thừa

thực sự và thuộc tính rút gọn Thuộc tính dư thừa thực sự là những thuộc tính dư

thừa mà việc loại bỏ tất cả các thuộc tính như vậy không ảnh hưởng đến việc phân

lớp dữ liệu Thuộc tính rút gọn, với một tổ hợp thuộc tính nào đó, nó là thuộc tính

dư thừa và với một tổ hợp các thuộc tính khác nó có thể là cốt yếu

Định nghĩa 1.3 [42] (Tập lõi dựa trên miền dương) Cho bảng quyết định

DS U CD V f Thuộc tính c C được gọi là không cần thiết (dư thừa) trong

DS dựa trên miền dương nếu POS D C POS(C c ) D ; Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên

miền dương và được ký hiệu là PCORE C  Lúc đó, thuộc tính cần thiết còn đượcgọi là thuộc tính lõi

Định nghĩa 1.4 [42] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định

DSU C D V f và tập thuộc tính RC Nếu

1) POS D R( )POS D C( )

2)  r R POS, R r ( )D POS D C( )

thì R là một tập rút gọn của C dựa trên miền dương.

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu

Định nghĩa 1.5 Cho bảng quyết định DSU C, D V f, ,  và a C Ta nói rằng a

là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R PRED C   sao cho a R

Định nghĩa 1.6 Cho bảng quyết định DSU C, D V f, ,  và a C Ta nói rằng a

là thuộc tính dư thừa thực sự của DS nếu  

Trang 22

U Mệt mỏi Đau đầu Đau cơ Thân nhiệt Cảm cúm

Bảng này có hai tập rút gọn là R 1 = {Đau cơ, Thân nhiệt} và R 2 = {Đau đầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc

tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:

 Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào rút gọn

nào

 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt

trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là,

từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩnđoán đúng bệnh Tức là

POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})

POS {Đau đầu, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm}).

1.1.5 Ma trận phân biệt và hàm phân biệt

Ma trận phân biệt do Andrzej Skowron và các cộng sự [11] đề xuất là công cụ

sử dụng để tìm tập rút của bảng quyết định Xét bảng quyết định

Trang 23

Định nghĩa 1.7 [11, 19] (Tập rút gọn dựa trên ma trận phân biệt) Cho bảng quyếtđịnh DSU C, D V f, , , M m i j n n



 là ma trận phân biệt của DS và tập thuộc

tínhRC Nếu

1) Rm i j  với mọi m  i j

2) Với mọi r R , R  r không thỏa mãn 1)

thì R được gọi là một tập rút gọn của C dựa trên ma trận phân biệt Ký hiệu

 

SRED C là họ tất cả các tập rút gọn dựa trên ma trận phân biệt

Định nghĩa 1.8 [11, 19] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định

DS U CD V f , M m i j n n



 là ma trận phân biệt của DS Thuộc tính c C

được gọi là không cần thiết (dư thừa) trong DS dựa trên ma trận phân biệt nếu

 

C c m i j  với mọi m  i j Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên ma trận phân biệt và

được ký hiệu là SCORE C  Theo [19], SCORE C  R SRED C R.

1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Trong phần này, chúng tôi trình bày các khái niệm cơ bản về mô hình tập thô mởrộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do MarzenaKryszkiewicz [23] đề xuất

1.2.1 Hệ thông tin không đầy đủ

Như đã trình bày ở mục 1.1.1, với hệ thông tin ISU A V f, , , , nếu tồn tại

u U và a A sao cho u a  chứa giá trị thiếu thì IS được gọi là hệ thông tin

không đầy đủ Ta biểu diễn giá trị thiếu là ‘*’ và hệ thông tin không đầy đủ là

IIS U A V f

Xét hệ thông tin không đầy đủ IIS U A V f, , , ), với tập thuộc tính PA ta

định nghĩa một quan hệ nhị phân trên U như sau

Trang 24

    ,  ,       '*'   '*'

SIM P  u v U U  a P u a v a  u a   v a 

Quan hệ SIM P   không phải là quan hệ tương đương vì chúng có tính phản

xạ, đối xứng nhưng không có tính bắc cầu và được gọi là quan hệ dung sai (tolerance

relation), hay quan hệ tương tự (similarity relation) trên U Theo [23],

SIM P  SIM a

Gọi S u P  là tập v U u v  , SIM P   S u P  là tập lớn nhất các đối tượng

không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớp

dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ

SIM(P) trên U là U SIM P , /   khi đó các lớp dung sai trong U SIM P/   không phải

là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau và

hiển nhiên u U S u P U Ký hiệu tập tất cả các phủ của U sinh bởi các tập con

U SIM P U SIM Q ) khi và chỉ khi  u U S u, P S u Q 

2) U SIM P/   mịn hơn U SIM P/   (viết U SIM P/   U SIM Q/  ) khi

Trang 25

2) Nếu PQA thì U SIM Q/  U SIM P/  .

3) Nếu P Q, A thì S P Q  u S u P S u Q với  u U

Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X trong

hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX, được xác định như sau

BN X BX BX và B-miền ngoài của X là tập U BX

Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ

IIS U A V f với U { , , , , , }u u u u u u1 2 3 4 5 6 , A{ , , , }a a a a1 2 3 4 với a 1 (Đơn giá), a 2

(Km đã đi), a 3 (Kích thước), a 4 (Tốc độ tối đa)

Bảng 1.3 Bảng thông tin về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa

Xét tập đối tượng X { , , , }u u u u1 2 4 6 , khi đó PX u u1, 2 và PX u u u u u1, , , ,2 4 5 6

1.2.2 Bảng quyết định không đầy đủ

Bảng quyết định không đầy đủ là hệ thông tin không đầy đủ IIS, trong đó tập các thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được

Trang 26

gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Bảng quyết định khôngđầy đủ được biểu diễn là IDS U C, D V f, , với CD và  d D,'*'V d.

Không mất tính chất tổng quát giả thiết D chỉ gồm một thuộc tính quyết định duy

nhất  d [23]

Cho bảng quyết định không đầy đủ IDSU C,  d V f, ,  Với BC,

u U , B( )u  f v v S u d   B( ) gọi là hàm quyết định suy rộng, nếu |C( ) | 1u  vớimọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán [23]. Tương tựtrong bảng quyết định đầy đủ, với BC, miền dương của  d đối với B, ký hiệu

là POS B( d ), được định nghĩa POS B( d ){BX X U|  / { }}d , khi đó IDS là nhất

quán khi và chỉ khi POS B( d ) U

Ví dụ 1.4 Xét bảng quyết định không đầy đủ IDSU C,  d V f, ,  cho ở Bảng 1.4được xây dựng từ hệ thông tin không đầy đủ ở Ví dụ 1.3 bằng cách thêm vào thuộc

tính quyết định d (Gia tốc), với U { , , , , , }u u u u u u1 2 3 4 5 6 , C { , , , }a a a a1 2 3 4 , D{ }d

Bảng 1.4 Bảng quyết định về các xe hơi

Ô tô Đơn giá Km đã đi Kích thước Tốc độ Gia tốc

 {Tốt, Tuyệt hảo}, C( )u6 {Tốt, Tuyệt hảo}.

Do đó, IDS là bảng quyết định không nhất quán.

Trang 27

1.2.3 Tập rút gọn của bảng quyết định không đầy đủ

Trong [23], Marzena Kryszkiewicz định nghĩa tập rút gọn trong bảng quyếtđịnh không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toànhàm quyết định suy rộng của tất cả các đối tượng

Định nghĩa 1.10 [23] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảngquyết định không đầy đủ IDSU C, D V f, , và tập thuộc tính RC Nếu

1) R u C u với mọi u U

2) với mọi '

R R, tồn tại u U sao cho R' u C u

thì R được gọi là một tập rút gọn của C.

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Kryszkiewicz

1.3 Cơ sở dữ liệu quan hệ

1.3.1 Một số khái niệm cơ bản

Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quan hệ củaE.F Codd Các khái niệm này có thể xem trong [14, 15, 16, 53]

Cho Ra1, ,a n là tập hữu hạn, khác rỗng các thuộc tính, mỗi thuộc tính

Cho rh1, ,h m là một quan hệ trên tập thuộc tính Ra1, ,a n Phụ thuộc

hàm (PTH) trên R là một dãy ký tự có dạng A B với A, B  R PTH A B thỏa

mãn quan hệ r trên R nếu h h i, jr   a A h a  i h a j     b B h b  i h b j   .

Đặt F r  A B A B, : , R A,  B là họ đầy đủ các PTH thỏa mãn quan hệ r Ký

hiệu P R  là tập các tập con của R Cho F P R P R  Ta nói rằng F là một họ

f trên R nếu với mọi A B C D, , , R

  1 A A, F

Trang 28

   , A được gọi là bao

đóng của A trên s Dễ thấy A B F

   , A r được gọi là bao đóng của A trên quan hệ r

Cho r là một quan hệ, sR F,  là một SĐQH và AR Khi đó A là một khóa của r (tương ứng của s) nếu A R A R F

thiểu của r (tương ứng của s) nếu A là một khóa của r (tương ứng của s) và bất kỳ một tập con thực sự của A không là khóa của r (tương ứng của s) Ký hiệu K và r s

K tương ứng là tập tất cả các khóa tối thiểu của r và s.

K được gọi là họ các tập tối thiểu của thuộc tính a trên r.

Gọi K P R  là một hệ Sperner trên R nếu với mọi A B , K kéo theo

AB Dễ thấy , , r, s

r s a a

K K K K là các hệ Sperner trên R Với tập K là một hệ

Sperner trên R, ta định nghĩa tập K  1 như sau:

Trang 29

Dễ thấy K  1 cũng là một hệ Sperner trên R Nếu K là một hệ Sperner trên R đóng vai trò là tập các khóa tối thiểu của quan hệ r (hoặc SĐQH s) thì K  1 là họ tất

cả các tập không phải khóa lớn nhất của r (hoặc của s), gọi là tập các phản khóa.

Nếu K là một hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính

a trên r (hoặc trên s), hay r

K K ) là họ tất cả các tập lớn nhất không phải là tập tối thiểu của thuộc

tính a, được định nghĩa như sau [15]

M được gọi là hệ bằng nhau cực đại của r.

1.3.2 Một số thuật toán cơ bản

Thuật toán 1.1 [14] Tính bao đóng của tập thuộc tính trên quan hệ.

Đầu vào: rh1, ,h m là một quan hệ trên R, AR

 trong trường hợp ngược lại

Dễ thấy, độ phức tạp thuật toán là đa thức theo kích thước của r.

Thuật toán 1.2 [53] Tìm tập K  1

Đầu vào: K B1, ,B m là hệ Sperner trên R.

Đầu ra: K  1

Trang 30

Bước 1: Đặt K1R  a a B:  1 Hiển nhiên K1 B1 1.

Bước q 1 (q<m): Giả thiết rằng K q F q X1, ,X tq , ở đây X1, ,X tq chứa

1

q

B  và F q  AK q:B q1A Đối với mỗi i i 1, ,t q ta tìm tập B q11 trên X i

tương tự nhưK1 Ký pháp của chúng là 1i, , i i

Rõ ràng, K và K  1 xác định duy nhất lẫn nhau và thuật toán không phụ

thuộc vào thứ tự của dãy B 1 ,…,B m Đặt  1, , 

O R t u với u q I q  t q nếu I q t q và u q = 1 nếu I q t q

- Trong mỗi bước của thuật toán, K q là hệ Sperner trên R Theo [16],

kích thước của hệ Sperner bất kỳ trên R không vượt quá

C n với nR Do đó, độ phức tạp thời gian của

Thuật toán 1.2 là hàm số mũ theo n.

- Trường hợp I q I mq1, ,m1, độ phức tạp của Thuật toán 1.2 không

Trang 31

- Nếu K là hệ Sperner trên R đóng vai trò là tập khóa tối thiểu của quan

hệ r (hoặc SĐQH s) thì Thuật toán 1.2 thực hiện tìm tập phản khóa K  1

- Nếu K là hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính a trên r (hoặc trên s), hay r

Trang 32

Theo [16], độ phức tạp thời gian của Thuật toán 1.4 là

K K với I t u q, ,q q như trong Thuật toán 1.2

- Tương tự Thuật toán 1.2, độ phức tạp thời gian của Thuật toán 1.4 là

hàm số mũ theo n.

- Trường hợp I q  1 q 1, ,m 1

K   , độ phức tạp của thuật toán là

 2 12 

O R K  K , độ phức tạp này là đa thức theo R,K 1 và K Nếu

K là đa thức theo R,K 1 thì Thuật toán 1.4 là hiệu quả Nếu K là

nhỏ thì Thuật toán 1.4 rất hiệu quả.

Nhận xét

- Nếu K  1 là hệ Sperner trên R đóng vai trò là tập phản khóa của quan hệ

r (hoặc SĐQH s) thì Thuật toán 1.4 thực hiện tìm tập khóa tối thiểu K

- Nếu K  1 là hệ Sperner trên R đóng vai trò là tập  r 1

Thuật toán 1.5 Tìm một tập tối thiểu của thuộc tính a trên s.

Đầu vào: Cho sRa1, ,a n,F là SĐQH, a a1

Đầu ra: s

a A K

L i L i ngược lại

Trang 33

Khi đó A L n  .

Theo [15], độ phức tạp của Thuật toán 1.5 là  2 

O R F

Thuật toán 1.6 [15]Tìm họ các tập tối thiểu của thuộc tính a trên s.

Đầu vào: Cho sR F, là SĐQH và a R

Nếu số lượng phần tử của K a s đối với sR F,  là đa thức theo kích thước của s

thì thuật toán hiệu quả, đặc biệt khi s

a

K nhỏ

Chương 2 SO SÁNH, ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ2.1. Mở đầu

Mục tiêu của rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhấtcủa tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định Dựavào tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất Với mục tiêu

đó, có rất nhiều các phương pháp rút gọn thuộc tính khác nhau đã được đề xuất dựa

Trang 34

trên các tiêu chuẩn khác nhau Đối với một bảng quyết định có thể có nhiều tập rútgọn khác nhau Độ phức tạp của thuật toán tìm tất cả các tập rút gọn là hàm mũ của

số thuộc tính điều kiện Tuy nhiên, trong thực hành không đòi hỏi tìm tất cả các tậprút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giánào đó là đủ Do đó, các phương pháp rút gọn thuộc tính đều thực hiện:

1) Đưa ra khái niệm tập rút gọn của phương pháp.

2) Đưa ra khái niệm độ quan trọng của thuộc tính Ý nghĩa độ quan trọng thuộc

tính của tất cả các phương pháp đều giống nhau, đều đặc trưng cho khả năng đónggóp của thuộc tính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng cànglớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại

3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu

chuẩn đánh giá là độ quan trọng của thuộc tính (tập rút gọn có chất lượng phân lớptốt nhất) Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể ápdụng đối với các bài toán có dữ liệu lớn Các thuật toán heuristic tìm tập rút gọnthường được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếp cận từ dưới

lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Dựa vào nhận xét tập

lõi xuất hiện trong mọi tập rút gọn nên các thuật toán xây dựng theo hướng tiếp cận

bottom-up được chia thành hai nhóm: các thuật toán tính toán lõi và các thuật toán

không tính toán lõi Ý tưởng chung của các thuật toán tính toán lõi là xuất phát từ tập

lõi, bổ sung dần dần các thuộc tính có độ quan trọng lớn nhất vào tập lõi cho đến khi

thu được tập rút gọn Các thuật toán không tính toán lõi xuất phát từ tập rỗng và bổ

sung dần các thuộc tính có độ quan trọng lớn nhất cho cho đến khi thu được tập rút

gọn Các thuật toán được xây dựng theo hướng tiếp cận buttom-up xuất phát từ tập

thuộc tính điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ nhấtcho đến khi thu được tập rút gọn Cả hai hướng tiếp cận này đều đòi hỏi phải sắpxếp danh sách các thuộc tính theo thứ tự giảm dần hoặc tăng dần của độ quan trọngtại mỗi bước lặp

Trang 35

Mười năm trở lại đây đã chứng kiến sự phát triển mạnh mẽ và sôi động củalĩnh vực nghiên cứu về các phương pháp rút gọn thuộc tính, bao gồm các phươngpháp chính như sau.

Phương pháp rút gọn thuộc tính dựa trên miền dương

Kể từ khi Pawlak [42] đưa ra định nghĩa tập rút gọn dựa trên miền dương, một

số công trình nghiên cứu đã xây dựng thuật toán tính miền dương POS D C , từ đóxây dựng thuật toán tìm tập rút gọn dựa trên miền dương Sử dụng phương pháp sắpxếp nhanh (Quick-sort) để sắp xếp các đối tượng theo giá trị thuộc tính, NguyenSinh Hoa và Nguyen Hung Sơn [41] xây dựng thuật toán tính miền dương với độphức tạp O C U log U  và thuật toán tìm tập rút gọn với độ phức tạp

O C U log U Dựa trên ý tưởng này, Xu Zhangyan và các cộng sự [67] sử dụngphương pháp sắp xếp theo cơ số (Radix-sort) để xây dựng thuật toán tính miềndương với độ phức tạp giảm xuống còn O C U  và thuật toán tìm tập rút gọn với

Max O C U O C U C Trong [18], các tác giả

đã chỉ ra tập rút gọn của thuật toán trong [67] vẫn còn thuộc tính dư thừa và xâydựng thuật toán cải tiến với độ phức tạp  2 

O C U cũng bằng phương pháp sort Bằng phương pháp sử dụng hàm băm, Liu và các cộng sự [29] đề xuất thuậttoán tính miền dương với độ phức tạp O U và thuật toán tìm tập rút gọn với độ

/

O C U C trên một số lớp bài toán cụ thể

Phương pháp rút gọn thuộc tính sử dụng các phép toán trong đại số quan hệ

Trong [20], Hu Xiaohua và các cộng sự đưa ra khái niệm tập lõi và tập rút gọndựa trên các phép toán trong đại số quan hệ, từ đó xây dựng thuật toán tìm tập lõi

và tập rút gọn của bảng quyết định Trong [1], tác giả Hoàng Thị Lan Giao đã phântích nhược điểm của khái niệm tập lõi trong [20] và đề xuất khái niệm mới về tậplõi, tập rút gọn của bảng quyết định nhất quán Trên cơ sở đó xây dựng thuật toán

Trang 36

tìm tập lõi và tập rút gọn dựa vào các phép toán trong đại số quan hệ với độ phức

O C U log U

Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt

Trong [11], Skowron đưa ra khái niệm ma trận phân biệt, hàm phân biệt và sửdụng chúng để tìm tập rút gọn của bảng quyết định Dựa trên ma trận phân biệt củaSkowron, Hu Xiaohua và Nick Cercone [19]đề xuất thuật toán tìm tập rút gọn, tập lõicủa bảng quyết định Trong [69], Ye Dong Yi và các cộng sự chứng minh thuật toán

sử dụng ma trận phân biệt của Hu Hu Xiaohua và Nick Cercone thường không tìmđược chính xác tập rút gọn và tập lõi của bảng quyết định không nhất quán, trên cơ sở

đó các tác giả đề xuất ma trận phân biệt cải tiến và xây dựng thuật toán tìm tập rút gọnvới độ phức tạp  2 2

O C U Trong [65], Xu Zhangyan và các cộng sự đề xuất thuậttoán tìm tập rút gọn trong bảng quyết định dựa trên ma trận phân biệt đơn giản hóa

Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt

Kể từ khi Zadeh [70] giới thiệu mô hình tính toán hạt, nhiều nhà nghiên cứu đã

sử dụng mô hình này để giải quyết bài toán rút gọn thuộc tính trong hệ thông tin.Trong [27, 28, 71], các tác giả đã đề xuất các thuật toán heuristic tìm tập rút gọn sửdụng độ đo phép kết hạt bởi thuộc tính làm tiêu chuẩn đánh giá độ quan trọng củathuộc tính Các thuật toán này được chứng minh là hiệu quả và có thể áp dụng trongcác bảng dữ liệu lớn Dựa trên độ đo sự khác biệt giữa các tri thức, Li Jin-hai [26] đềxuất thuật toán heuristic tìm tập rút gọn với độ phức tạp  3 2

O C U và xây dựngthuật toán heuristic cải tiến trong [24] với độ phức tạp  2 

O C U log U

Phương pháp rút gọn thuộc tính sử dụng entropy thông tin

Entropy thông tin do Shannon giới thiệu lần đầu vào năm 1948 (gọi tắt làentropy Shannon) là một đại lượng toán học dùng để đo độ không chắc chắc củamột đại lượng ngẫu nhiên Trong những năm gần đây, entropy Shannon là mộttrong những công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính trong hệ

Trang 37

thông tin Nhóm nghiên cứu đầu tiên đề xuất thuật toán heuristic tìm tập rút gọn sửdụng entropy Shannon có điều kiện là Miao Duoqian và các cộng sự [39], trong đócác tác giả sử dụng entropy tương hỗ để đánh giá độ quan trọng của thuộc tính vàxây dựng thuật toán heuristic tìm tập rút gọn của bảng quyết định MIBARK với độ

O C U U MIBARK thuộc nhóm thuật toán heuristic tính toán lõi.Những đóng góp đáng chú ý tiếp theo trong nghiên cứu phương pháp tìm tập rútgọn sử dụng entropy Shannon phải kể đến các công trình của Wang Guo Yin và cáccộng sự [56, 57, 58, 59, 60] Trong các công trình này, các tác giả đã đưa ra kháiniệm tập rút gọn và tập lõi của bảng quyết định dựa trên entropy Shannon có điềukiện và đề xuất hai thuật toán heuristic tìm tập rút gọn của bảng quyết định: thuậttoán CEBARKCC và thuật toán CEBARKNC [59] CEBARKCC là thuật toánheuristic tính toán lõi với độ phức tạp  2 3

O C U U , CEBARKNC là thuật toánheuristic không tính toán lõi với độ phức tạp  2 3

O C U C U Trong cả hai thuậttoán, độ quan trọng của thuộc tính đều được xây dựng trực tiếp từ công thức tínhentropy có điều kiện Trong [55, 56], các tác giả đã phân tích nhược điểm của địnhnghĩa độ quan trọng của thuộc tính trong [59] và đề xuất định nghĩa độ quan trọngmới, từ đó xây dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy Shannon

có điều kiện Tuy nhiên, các tác giả này chưa đánh giá thuật toán đề xuất với cácthuật toán khác tìm tập rút gọn sử dụng entropy Shannon có điều kiện về lý thuyết

và thực nghiệm Trong [52, 63], các tác giả đã cải tiến các phân hoạch trong côngthức tính toán entropy Shannon có điều kiện và xây dựng các thuật toán tìm tập rútgọn của bảng quyết định

Theo tiếp cận định lượng, mục tiêu của rút gọn thuộc tính là tìm tập con của tậpthuộc tính điều kiện mà bảo toàn độ chắc chắn của bảng quyết định, hay độ chắcchắn của tập luật quyết định Việc nghiên cứu sự thay đổi giá trị của các độ đo đánhgiá hiệu năng tập luật quyết định dựa trên các tập rút gọn của các phương pháp khácnhau cho phép lựa chọn các phương pháp phù hợp với lớp bài toán cần giải quyết, là

các phương pháp mà tập rút gọn bảo toàn độ chắc chắn của tập luật quyết định Việc

Trang 38

so sánh, đánh giá các phương pháp rút gọn thuộc tính được thực hiện dựa trên hai

tiêu chuẩn là số lượng thuộc tính tập rút gọn của phương pháp đó và độ phức tạp

của thuật toán heuristic tìm tập rút gọn Tập rút gọn của phương pháp càng ít thuộc

tính thì độ hỗ trợ của tập luật dựa trên tập rút gọn đó càng cao và phương pháp đócàng hiệu quả Độ phức tạp thuật toán heuristic của phương pháp càng nhỏ thìphương pháp đó càng hiệu quả

Về hướng nghiên cứu các độ đo đánh giá hiệu năng tập luật quyết định,Yuhua Qian và các cộng sự [48] đã phân tích nhược điểm các độ đo truyền thốngtrong lý thuyết tập thô, từ đó đưa ra các độ đo mới đánh giá hiệu năng tập luậtquyết định Trong [2], tácgiả Nguyễn Đức Thuần đã phân tích nhược điểm độ nhấtquán của Qian và các cộng sự, trên cơ sở đó đưa ra độ nhất quán mới Tuy nhiên,

các tác giả nêu trên chưa nghiên cứu đầy đủ sự thay đổi giá trị các độ đo đánh giá

hiệu năng tập luật quyết định trên các tập rút gọn thu được bởi các phương phápkhác nhau trên bảng quyết định không nhất quán

Về hướng nghiên cứu mối liên hệ giữa các loại tập rút gọn dựa trên các tiêuchuẩn khác nhau, một số tác giả đã công bố kết quả nghiên cứu, điển hình là: XuZhangyan và các cộng sự [64] nghiên cứu mối liên hệ giữa tập rút gọn dựa trênentropy Liang và tập rút gọn dựa trên ma trận phân biệt; Wang Xiongbin và cáccộng sự [61] nghiên cứu mối liên hệ giữa tập rút gọn dựa trên các phép toán đại số

và tập rút gọn dựa trên entropy Shannon có điều kiện; Luo Ping và các cộng sự [37]

chứng minh tập rút gọn dựa trên entropy Liang không tương đương với tập rút gọnPawlak và tập rút gọn dựa trên entropy Shannon có điều kiện trong bảng quyết định

không nhất quán Tuy nhiên, cho đến nay chưa có công trình nào nghiên cứu đầy

đủ mối liên hệ giữa các loại tập rút gọn theo các tiêu chuẩn khác nhau trên bảng

quyết định nhất quán và không nhất quán

Chương này trình bày các nội dung sau:

Trang 39

(1) Nghiên cứu mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn khác nhau, từ đó phân loại các phương pháp rút gọn thuộc tính trong bảng quyết định không nhất quán thành 3 nhóm.

(2) Đề xuất độ nhất quán mới của bảng quyết định và nghiên cứu sự thay đổi

giá trị các độ đo đánh giá hiệu năng tập luật quyết định dựa trên 3 loại tập rút gọn

của 3 nhóm phương pháp ở (1)

(3) Từ các kết quả nghiên cứu ở (1) và (2), chương này đưa ra kết quả lựachọn nhóm phương pháp rút gọn thuộc tính phù hợp với lớp bài toán cần giải quyết

và kết quả so sánh, đánh giá các phương pháp dựa trên hai tiêu chuẩn: số lượng

thuộc tính tập rút gọn của phương pháp và độ phức tạp của thuật toán heuristic tìm tập rút gọn.

2.2. Mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn

khác nhau

Trong phần này, luận án trình bày kết quả nghiên cứu về mối liên hệ giữa bốnloại tập rút gọn của bảng quyết định:

1) Tập rút gọn dựa trên miền dương (tập rút gọn Pawlak)

2) Tập rút gọn dựa trên entropy Shannon có điều kiện

3) Tập rút gọn dựa trên ma trận phân biệt

4) Tập rút gọn dựa trên độ khác biệt giữa các tri thức

Kết hợp với các kết quả đã công bố, phần này đưa ra một bức tranh tổng thể

về mối liên hệ giữa các loại tập rút gọn trong bảng quyết định

2.2.1 Các định nghĩa về tập rút gọn dựa trên entropy thông tin

Định nghĩa 2.1 [62] Cho bảng quyết định DS U C, D V f, ,  và tập thuộc tính

PC Giả sử U P/ { , , , }P P1 2 P m Entropy Shannon của P được định nghĩa bởi

2 1

với |X| biểu diễn lực lượng của tập X Nếu U P U/  thì H P đạt giá trị nhỏ nhất là

0, còn nếu X i  u i với u iU i, 1, ,U thì H P  đạt giá trị lớn nhất là log U2

Do đó 0 H P  log U2

Trang 40

Định nghĩa 2.2 [62] Cho bảng quyết định DSU C, D V f, ,  Giả sử

1 2

D khi đã biết Cđược định nghĩa bởi

với quy ước 0.log 0 02 

Nếu bảng quyết định DS nhất quán thì dễ dàng suy ra H D C ( | ) 0, trái lại

Mệnh đề 2.1 nói lên tính phản đơn điệu của entropy Shannon có điều kiện,

nghĩa là tập thuộc tính điều kiện Q càng nhỏ (phân hoạch sinh bởi Q càng thô) thì

H D Q càng lớn và ngược lại

Định nghĩa 2.3 [57] (Tập lõi dựa trên entropy Shannon có điều kiện) Cho bảng quyếtđịnh DS U C, D V f, , , thuộc tính a C được gọi là không cần thiết (dư thừa)

trong DS dựa trên entropy Shannon có điều kiện nếu H D C H D C   a ; Ngược

lại, a gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõidựa trên entropy Shannon có điều kiện và ký hiệu là HCORE C 

Định nghĩa 2.4 [57] (Tập rút gọn Entropy Shannon) Cho bảng quyết định

DS U CD V f và tập thuộc tính RC Nếu

1) H D R H D C 

2)  r R H D R, (    r )H D C( )