Trên thế giới và tại Việt Nam, một số nhóm tác giả đã nghiên cứu mối liên hệ giữa các loạitập rút gọn của một số phương pháp rút gọn thuộc tính và nghiên cứu một số độ đođánh giá hiệu nă
Trang 1VIỆN CÔNG NGHỆ THÔNG TIN
NGUYỄN LONG GIANG
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ
DỮ LIỆU THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ
Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH
VÀ HỆ THỐNG TÍNH TOÁN
Mã số: 62.46.35.01
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.GS.TS Vũ Đức Thi
2 PGS.TS Nguyễn Thanh Tùng
HÀ NỘI - 2012
Trang 2MỤC LỤC i
Danh mục các thuật ngữ iv
Bảng các ký hiệu, từ viết tắt v
Danh sách bảng vii
Danh sách hình vẽ viii
MỞ ĐẦU 1
Chương 1 CÁC KHÁI NIỆM CƠ BẢN 7
1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 7
1.1.1 Hệ thông tin đầy đủ 7
1.1.2 Mô hình tập thô truyền thống 8
1.1.3 Bảng quyết định đầy đủ 10
1.1.4 Tập rút gọn và tập lõi 10
1.1.5 Ma trận phân biệt và hàm phân biệt 12
1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 13
1.2.1 Hệ thông tin không đầy đủ 13
1.2.2 Bảng quyết định không đầy đủ 15
1.2.3 Tập rút gọn của bảng quyết định không đầy đủ 16
1.3 Cơ sở dữ liệu quan hệ 17
1.3.1 Một số khái niệm cơ bản 17
1.3.2 Một số thuật toán cơ bản 19
Chương 2 SO SÁNH, ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ 23
2.1 Mở đầu 23
2.2 Mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn khác nhau 28
2.2.1 Các định nghĩa về tập rút gọn dựa trên entropy thông tin 28
2.2.2 Mối liên hệ giữa tập rút gọn Entropy Shannon với tập rút gọn Pawlak 31
2.2.3 Mối liên hệ giữa tập rút gọn dựa trên entropy Shannon với ma trận phân biệt 33
2.2.4 Mối liên hệ giữa tập rút gọn dựa trên độ khác biệt của tri thức với tập rút gọn Entropy Liang 37
2.2.5 Tổng kết mối liên hệ giữa các loại tập rút gọn và phân loại các phương pháp 39
Trang 32.3.2 Các độ đo đánh giá hiệu năng tập luật quyết định 42
2.3.3 Độ nhất quán mới của tập luật quyết định 43
2.3.4 Sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định 47
2.4 Tiêu chuẩn đánh giá các phương pháp rút gọn thuộc tính 49
2.4.1 Lựa chọn nhóm phương pháp rút gọn thuộc tính 49
2.4.2 Tiêu chuẩn đánh giá các phương pháp rút gọn thuộc tính 50
2.5 Kết luận chương 2 51
Chương 3 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ SỬ DỤNG METRIC 52
3.1 Mở đầu 52
3.2 Metric trên họ các tri thức và các tính chất 53
3.2.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 53
3.2.2 Metric trên họ các tri thức 55
3.2.3 Một số tính chất của metric trên bảng quyết định 56
3.3 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 59
3.3.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric 59
3.3.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 59
3.3.3 Mối liên hệ giữa tập rút gọn dựa trên metric và tập rút gọn Entropy Shannon66 3.3.4 Thuật toán tìm tập rút gọn theo tham số độ chắc chắn của tập luật 66
3.4 Thực nghiệm các thuật toán tìm tập rút gọn 68
3.4.1 Thực nghiệm thuật toán tìm tập rút gọn tốt nhất sử dụng metric 68
3.4.2 Thực nghiệm thuật toán tìm tập rút gọn theo tham số độ chắc chắn 70
3.5 Thực nghiệm các phương pháp phân lớp dựa trên tập rút gọn 72
3.5.1 Thực nghiệm phương pháp phân lớp sử dụng tập thô 72
3.5.2 Thực nghiệm phương pháp phân lớp bằng cây quyết định 73
3.6 Kết luận chương 3 76
Chương 4 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ SỬ DỤNG METRIC 77
4.1 Mở đầu 77
4.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất 78
Trang 44.2.3 Một số tính chất của entropy Liang mở rộng 80
4.3 Metric trên họ các phủ và các tính chất 84
4.3.1 Metric trên họ các phủ 84
4.3.2 Một số tính chất của metric 87
4.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric 90
4.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 90
4.4.2 Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 90
4.4.3 Mối liên hệ giữa tập rút gọn dựa trên metric với tập rút gọn Kryszkiewicz 96
4.4.4 Mối liên hệ giữa tập rút gọn dựa trên metric với tập rút gọn dựa trên lượng thông tin 98
4.5 Thực nghiệm thuật toán 99
4.6 Kết luận chương 4 101
Chương 5 MỘT SỐ THUẬT TOÁN TRÊN BẢNG QUYẾT ĐỊNH NHẤT QUÁN 102
5.1 Mở đầu 102
5.2 Thuật toán tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán 102
5.2.1 Đặt vấn đề 102
5.2.2 Thuật toán 103
5.2.3 Thực nghiệm thuật toán 106
5.3 Thuật toán tìm họ tất cả các tập rút gọn của bảng quyết định nhất quán 106
5.4 Thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định nhất quán 109
5.5 Thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 110
5.6 Kết luận chương 5 114
KẾT LUẬN 115
Danh mục các công trình của tác giả 117
Tài liệu tham khảo 118
Phụ lục 125
Trang 5Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
Hệ thông tin đầy đủ Complete Information System
Hệ thông tin không đầy đủ Incomplete Information System
Hệ thông tin không nhất quán Inconsistent Information System
Bảng quyết định đầy đủ Complete Decision Table
Bảng quyết định không đầy đủ Incomplete Decision Table
Bảng quyết định không nhất quán Inconsistent Decision Table
Quan hệ không phân biệt được Indiscernibility Relation
Rút gọn thuộc tính Attribute Reduction
Ma trận phân biệt Indiscernibility Matrix
Hàm phân biệt Indiscernibility Function
Tập tối thiểu của thuộc tính a Minimal set of the attribute a
Họ các tập tối thiểu của thuộc tính a Family of all minimal sets of attribute a Hàm biểu diễn khoảng cách giữa hai
tập hợp trong [17]
Metric
Trang 6Ký hiệu, từ viết tắt Diễn giải
SIM B Quan hệ dung sai trên tập thuộc tính B
u B Lớp tương đương chứa u của quan hệ IND B
Trang 7IE P Entropy Liang mở rộng của tập thuộc tính P trong hệ
thông tin không đầy đủ
IE Q P Entropy Liang mở rộng có điều kiện của Q khi đã biết P
trong hệ thông tin không đầy đủ
K P Trong hệ thông tin đầy đủ, ký hiệu K P là tri thức sinh
bởi tập thuộc tính P Trong hệ thông tin không đầy đủ,
ký hiệu K P là phủ sinh bởi tập thuộc tính P.
J
d K P K Q Khoảng cách giữa K P và K Q trong hệ thông tin đầy
đủ dựa trên khoảng cách Jaccard giữa hai tập hợp
E
d K P K Q Khoảng cách giữa K P và K Q trong hệ thông tin
không đầy đủ dựa trên entropy Liang mở rộng
Trang 8Bảng 1.1 Bảng thông tin về bệnh cúm 9
Bảng 1.2 Bảng quyết định về bệnh cúm 11
Bảng 1.3 Bảng thông tin về các xe hơi 15
Bảng 1.4 Bảng quyết định về các xe hơi 16
Bảng 2.1 Bảng quyết định minh họa Ví dụ 2.1 32
Bảng 2.2 Bảng quyết định minh họa Ví dụ 2.3 35
Bảng 2.3 Ma trận phân biệt của Ví dụ 2.3 36
Bảng 3.1 Bảng quyết định về bệnh cảm cúm 59
Bảng 3.2 Bảng quyết định minh họa Ví dụ 3.2 61
Bảng 3.3 Kết quả thực hiện Thuật toán 3.3 và Thuật toán CEBARKCC 70
Bảng 3.4 Tập rút gọn của Thuật toán 3.3 và Thuật toán CEBARKCC 70
Bảng 3.5 Kết quả thực hiện Thuật toán 3.3 trên các bộ số liệu lớn 71
Bảng 3.6 Sự thay đổi tập rút gọn theo ngưỡng độ chắc chắn 72
Bảng 3.7 Tập rút gọn tốt nhất của bộ số liệu Soybean-small 73
Bảng 3.8 Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô 74
Bảng 3.9 Các luật phân lớp trên bảng quyết định ban đầu sử dụng cây quyết định 75
Bảng 3.10 Các luật phân lớp trên bảng quyết định rút gọn sử dụng cây quyết định 76
Bảng 4.1 Hệ thông tin không đầy đủ về các xe hơi 84
Bảng 4.2 Bảng quyết định không đầy đủ minh họa Ví dụ 4.3 93
Bảng 4.3 Bảng quyết định không đầy đủ về các xe hơi 95
Bảng 4.4 Kết quả thực hiện Thuật toán 4.2 và Thuật toán IQBARK 101
Bảng 4.5 Tập rút gọn của Thuật toán 4.2 và Thuật toán IQBARK 101
Bảng 4.6 Kết quả thực hiện Thuật toán 4.2 trên các bộ số liệu lớn 102
Bảng 5.1 Bảng quyết định ở Ví dụ 5.1 107
Bảng 5.2 Kết quả thử nghiệm Thuật toán 5.1 108
Bảng 5.3 Bảng quyết định ở Ví dụ 5.2 110
Bảng 5.4 Bảng quyết định được xây dựng từ Thuật toán 5.4 116
Trang 9Hình 3.1 Sự thay đổi tập rút gọn theo ngưỡng độ chắc chắn 73 Hình 3.2 Cây quyết định tương ứng với bảng quyết định ban đầu 75 Hình 3.3 Cây quyết định tương ứng với bảng quyết định rút gọn 76
Trang 10MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [42] đề xuất vào những năm đầu thậpniên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyếtcác bài toán phân lớp, phát hiện luật…chứa dữ liệu mơ hồ không chắc chắn Từ khixuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trìnhkhai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc các trithức tiềm ẩn trong dữ liệu và đánh giá kết quả thu được
Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin
đối tượng cần quan sát là tập rõ, ngược lại là tập thô Các tập xấp xỉ là cơ sở để đưa
ra các kết luận từ dữ liệu Bảng quyết định là một hệ thông tin IS với tập thuộc tính
A được chia thành hai tập con khác rỗng rời nhau C và D, lần lượt được gọi là tậpthuộc tính điều kiện và tập thuộc tính quyết định Nói cách khác, DS U C, D
với CD Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị
dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị củathuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộc hàm C D làđúng, trái lại là không nhất quán
Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô Mụctiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tínhcốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định, rút gọn thuộc tính làtìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp củabảng quyết định Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau
Trang 11Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉcần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ Vìvậy, mỗi phương pháp rút gọn thuộc tính đều đề xuất một thuật toán heuristic tìmtập rút gọn Các thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó cóthể áp dụng đối với các bài toán có khối lượng dữ liệu lớn.
Mười năm trở lại đây đã chứng kiến sự phát triển mạnh mẽ và sôi động củalĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô Trong xu thế
đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các phương pháprút gọn thuộc tính trong bảng quyết định Các phương pháp chính là: phương phápdựa trên miền dương [18, 29, 41, 42, 67], phương pháp sử dụng các phép toán trongđại số quan hệ [20, 61], phương pháp sử dụng ma trận phân biệt [11, 19, 65, 69],
phương pháp sử dụng entropy thông tin [39, 52, 55, 56, 57, 58, 59, 60, 63], phươngpháp sử dụng các độ đo trong tính toán hạt [12, 24, 26, 27, 28, 70, 71] Tại ViệtNam, luận án tiến sĩ của tác giả Hoàng Thị Lan Giao [1] đã đề xuất các thuật toánheuristic tìm tập rút gọn và tìm tập rút gọn xấp xỉ của bảng quyết định nhất quán,bao gồm thuật toán sử dụng các phép toán trong đại số quan hệ và thuật toán sửdụng ma trận phân biệt Luận án tiến sĩ của tác giả Nguyễn Đức Thuần [2] đề xuấtthuật toán heuristic tìm tập rút gọn của bảng quyết định đầy đủ nhất quán dựa vàophủ tập thô
Với mục tiêu tìm kiếm một phương pháp phù hợp, hiệu quả rút gọn thuộc tính
trong bảng quyết định, vấn đề trước tiên là cần đưa ra tiêu chuẩn lựa chọn các
phương pháp phù hợp với lớp bài toán cần giải quyết và tiêu chuẩn so sánh, đánh giá các phương pháp Tiêu chuẩn lựa chọn các phương pháp phù hợp là tập rút gọn
của phương pháp phải bảo toàn độ chắc chắn của bảng quyết định Việc lựa chọncác phương pháp phù hợp được thực hiện bằng việc nghiên cứu sự thay đổi giá trịcác độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn Tiêu chuẩn so
sánh, đánh giá các phương pháp là số lượng thuộc tính tập rút gọn của phương
pháp và độ phức tạp của thuật toán tìm tập rút gọn Việc so sánh số lượng thuộc
tính tập rút gọn của phương pháp được thực hiện bằng việc nghiên cứu mối liên hệ
Trang 12giữa các tập rút gọn Tập rút gọn của phương pháp càng ít thuộc tính thì độ hỗ trợcủa tập luật dựa trên tập rút gọn đó càng cao và phương pháp đó càng hiệu quả Độphức tạp thuật toán tìm tập rút gọn của phương pháp càng nhỏ thì phương pháp đócàng hiệu quả Từ hai tiêu chuẩn này, ta có thể chứng minh được phương pháp cần
tìm kiếm là phù hợp và hiệu quả hơn các phương pháp đã có hay không Trên thế
giới và tại Việt Nam, một số nhóm tác giả đã nghiên cứu mối liên hệ giữa các loạitập rút gọn của một số phương pháp rút gọn thuộc tính và nghiên cứu một số độ đođánh giá hiệu năng tập luật quyết định [2, 6, 37, 48, 61, 64] Tuy nhiên trên cả bảng
quyết định nhất quán và không nhất quán, các tác giả trên chưa nghiên cứu đầy đủ mối liên hệ giữa các loại tập rút gọn và chưa nghiên cứu đầy đủ sự thay đổi giá trị
các độ đo đánh giá hiệu năng tập luật quyết định dựa trên các loại tập rút gọn này.Trong các bài toán thực tế, các hệ thông tin thường thiếu giá trị trên các thuộctính, gọi là các hệ thông tin không đầy đủ Xuất phát từ mô hình tập thô mở rộngdựa trên quan hệ dung sai trong hệ thông tin không đầy đủ do Kryszkiewicz [23] đềxuất, nhiều nhóm nhà khoa học trên thế giới đã quan tâm nghiên cứu các độ đokhông chắc chắn [31, 32, 44, 45] và sử dụng các độ đo này để giải quyết bài toánrút gọn thuộc tính [13, 21, 28, 34] Trên lớp bài toán rút gọn thuộc tính trongbảng quyết định không đầy đủ, vấn đề các nhà nghiên cứu tiếp tục quan tâm là cảitiến các các phương pháp đã có hoặc xây dựng các phương pháp mới hiệu quả hơntheo các tiêu chuẩn đánh giá được chọn
Cho bảng quyết định nhất quán DS U C, d , tập thuộc tính RC được
gọi là một tập rút gọn của tập thuộc tính điều kiện C nếu R là tập tối thiểu thỏamãn phụ thuộc hàm R d Xét quan hệ r trên tập thuộc tính C d , tập thuộctính RC d được gọi là một tập tối thiểu của thuộc tính d nếu R là tập tốithiểu thỏa mãn phụ thuộc hàm R d Do đó, khái niệm tập rút gọn của bảng quyết định tương đương với khái niệm tập tối thiểu của thuộc tính {d} trên quan
hệ, và một số bài toán trong bảng quyết định liên quan đến tập rút gọn có thể được
Trang 13giải quyết bằng một số kết quả liên quan đến tập tối thiểu của một thuộc tính trong
cơ sở dữ liệu quan hệ; bao gồm bài toán tìm tập tất cả các thuộc tính rút gọn, bàitoán tìm họ tất cả các tập rút gọn, bài toán trích lọc các tri thức dưới dạng các phụthuộc hàm từ bảng quyết định, bài toán xây dựng bảng quyết định từ tập phụ thuộchàm cho trước Cho đến nay, hướng tiếp cận này chưa được nhiều tác giả quan tâmnghiên cứu
Từ các nội dung đã trình bày ở trên, luận án đặt ra các vấn đề nghiên cứu sau:
1) Trên bảng quyết định đầy đủ, vấn đề đầu tiên là nghiên cứu đầy đủ mối
liên hệ giữa các loại tập rút gọn của các phương pháp rút gọn thuộc tính và nghiêncứu đầy đủ sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định dựatrên các loại tập rút gọn này Mục đích nghiên cứu trước tiên là lựa chọn cácphương pháp phù hợp với lớp bài toán cần giải quyết, sau đó là so sánh, đánh giá
các phương pháp theo các tiêu chuẩn khác nhau Dựa trên các kết quả này, vấn đề
nghiên cứu tiếp theo là tìm kiếm một phương pháp mới hiệu quả hơn các phương
pháp đã có theo các tiêu chuẩn đánh giá được chọn
2) Trên bảng quyết định không đầy đủ, vấn đề nghiên cứu đặt ra là tìm kiếmmột phương pháp rút gọn thuộc tính hiệu quả hơn các phương pháp đã có theo cáctiêu chuẩn đánh giá được chọn
3) Trên bảng quyết định nhất quán, vấn đề nghiên cứu đặt ra là xây dựng cácthuật toán có ý nghĩa liên quan đến tập rút gọn sử dụng một số kết quả liên quanđến tập tối thiểu của một thuộc tính trong cơ sở dữ liệu quan hệ
Mục tiêu của luận án tập trung nghiên cứu bốn vấn đề chính Vấn đề thứ
nhất là so sánh, đánh giá các phương pháp rút gọn thuộc tính trong bảng quyết định
đầy đủ theo các tiêu chuẩn khác nhau Vấn đề thứ hai là đề xuất phương pháp mới
rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric và chứng minhphương pháp mới hiệu quả hơn các phương pháp đã có dựa trên kết quả nghiên cứu
của vấn đề thức nhất Vấn đề thứ ba là đề xuất phương pháp mới rút gọn thuộc tính
trong bảng quyết định không đầy đủ sử dụng metric và chứng minh phương pháp
Trang 14mới hiệu quả hơn các phương pháp đã có theo các tiêu chuẩn đánh giá được chọn.
Vấn đề thứ tư là đề xuất một số thuật toán trong bảng quyết định nhất quán sử dụng
một số kết quả trong cơ sở dữ liệu quan hệ
Đối tượng nghiên cứu của luận án là các bảng quyết định đầy đủ và các
bảng quyết định không đầy đủ với kích thước trung bình và kích thước lớn.
Phạm vi nghiên cứu của luận án tập trung vào bài toán rút gọn thuộc tính
trong bước tiền xử lý số liệu Ngoài ra, luận án nghiên cứu thêm phương pháp trích
lọc tri thức từ bảng dữ liệu dưới dạng phụ thuộc hàm trong bước khai phá dữ liệu ởchương 5
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm Về nghiên cứu lý thuyết: các định lý, mệnh đề trong luận án đượcchứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đãcông bố Về nghiên cứu thực nghiệm: luận án thực hiện cài đặt các thuật toán, chạythử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI, so sánh và đánhgiá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết, từ đó kết luận tínhđúng đắn của kết quả nghiên cứu
Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo Chương 1 trình bày các khái niệm cơ bản
về mô hình tập thô truyền thống, mô hình tập thô mở rộng dựa trên quan hệ dung sai
và cơ sở dữ liệu quan hệ Chương 1 cũng trình bày một số thuật toán cơ bản trong cơ
sở dữ liệu quan hệ được sử dụng để xây dựng các thuật toán trên bảng quyết địnhnhất quán trong chương 5
Các đóng góp chính của luận án được trình bày trong chương 2, chương 3,chương 4 và chương 5
Chương 2 trình bày kết quả nghiên cứu về mối liên hệ giữa các loại tập rút gọncủa các phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ và sự thay đổigiá trị các độ đo đánh giá hiệu năng tập luật quyết định dựa trên các loại tập rút gọnnày Trên cơ sở đó, chương 2 phân loại các phương pháp rút gọn thuộc tính trong
Trang 15bảng quyết định không nhất quán thành 3 nhóm, lựa chọn nhóm phương pháp phù
hợp với lớp bài toán cần giải quyết và đánh giá các phương pháp trong 3 nhóm dựa
trên hai tiêu chuẩn: số lượng thuộc tính tập rút gọn của phương pháp và độ phức tạp
thuật toán tìm tập rút gọn
Chương 3 trình bày phương pháp xây dựng một metric trên họ các tri thứctrong hệ thông tin đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn Sửdụng metric được xây dựng, chương 3 đề xuất một phương pháp mới rút gọn thuộctính trong bảng quyết định đầy đủ Dựa trên lý thuyết, thực nghiệm và dựa trên kếtquả nghiên cứu của chương 2, chương 3 chứng minh phương pháp sử dụng metric
hiệu quả hơn các phương pháp khác trên cả hai tiêu chuẩn đánh giá: số lượng thuộc tính tập rút gọn của phương pháp và độ phức tạp thuật toán tìm tập rút gọn.
Chương 4 trình bày phương pháp xây dựng một metric trên họ các phủ trong hệthông tin không đầy đủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng,chương 4 đề xuất phương pháp mới rút gọn thuộc tính trong bảng quyết định không đầy
đủ Bằng lý thuyết và thực nghiệm, chương 4 chứng minh phương pháp sử dụng metric
hiệu quả hơn phương pháp sử dụng độ đo lượng thông tin và phương pháp sử dụng ma
trận dung sai theo tiêu chuẩn đánh giá độ phức tạp thuật toán tìm tập rút gọn.
Chương 5 đề xuất bốn thuật toán trên bảng quyết định nhất quán dựa trên một
số kết quả trong cơ sở dữ liệu quan hệ Thuật toán 5.1 tìm tập tất cả các thuộc tính
rút gọn của bảng quyết định với độ phức tạp thời gian là đa thức Đây là thuật toánthực sự có ý nghĩa trong tiền xử lý dữ liệu vì cho phép xác định và loại bỏ tất cả cácthuộc tính dư thừa thực sự trong bảng dữ liệu trước khi thực hiện các nhiệm vụ khai
phá dữ liệu tiếp theo Thuật toán 5.2 tìm họ tất cả các tập rút gọn của bảng quyết định Thuật toán 5.3 trích lọc tất cả các tri thức dưới dạng phụ thuộc hàm từ bảng quyết định cho trước Thuật toán 5.4 xây dựng bảng quyết định từ tập các phụ thuộc hàm cho trước Độ phức tạp thời gian của Thuật toán 5.2, Thuật toán 5.3 và Thuật
toán 5.4 đều là hàm mũ.
Trang 16Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển
và những vấn đề quan tâm của tác giả
Trang 17Chương 1 CÁC KHÁI NIỆM CƠ BẢN 1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống
1.1.1 Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Một cách hình thức, hệ
thông tin được định nghĩa như sau
Định nghĩa 1.1 Hệ thông tin là một bộ tứ IS U A V f, , , trong đó U là tập hữu
hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính; a
u a thay vì f u a , Nếu Bb b1, , ,2 b k A là một tập con các thuộc tính thì ta
ký hiệu bộ các giá trị u b i bởi u B Như vậy, nếu u và v là hai đối tượng, thì ta
viết u B v B nếu u b i v b i với mọi i1, ,k
Nếu với mọi u U và a A , u a đều chứa giá trị khác rỗng thì hệ thông tin
được gọi là hệ thông tin đầy đủ Trong luận án này, hệ thông tin đầy đủ được gọi tắt
là hệ thông tin và được ký hiệu là IS U A V f, , ,
Xét hệ thông tin IS U A V f, , , Với mỗi tập con các thuộc tính PA, tồn
tại một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
Trang 18hoạch trên U, ký hiệu là U IND P/ hay U P/ Ký hiệu lớp tương đương trong phânhoạch U P/ chứa đối tượng u là u P, khi đó u P v U u v , IND P
Định nghĩa 1.2 [43] Cho hệ thông tin IS U A V f, , , và P Q, A Ta nói:
1) Phân hoạch U P/ và phân hoạch U Q / là như nhau (viết U P U Q/ / ),khi và chỉ khi u U, u P u Q
2) Phân hoạch U P/ mịn hơn phân hoạch U Q/ (viết U P U Q/ / ) khi và chỉkhi u U, u P u Q
Tính chất 1.1 [43]Xét hệ thông tin ISU A V f, , , và P Q, A
1) Nếu PQ thì U Q U P/ / , mỗi lớp của U P/ là một lớp hoặc hợp củamột số lớp thuộc U Q/
2) Với mọi u U ta có u P Q u P u Q
1.1.2 Mô hình tập thô truyền thống
Cho hệ thông tin ISU A V f, , , và tập đối tượng X U Với một tập thuộctính BA cho trước, chúng ta có các lớp tương đương của phân hoạch U B/ , thế thì
một tập đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế
nào?
Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương
đương của U B/ (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X
bởi hợp của một số hữu hạn các lớp tương đương của U B/ Có hai cách xấp xỉ tập
đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX, được xác định như sau:
BX u U u X BX u U u BX
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có khả năng được phân loại vào X dựa vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
B
BN X BX BX : B-miền biên của X , U BX : B-miền ngoài của X.
Trang 19Dễ thấy miền biên của X là tập chứa các đối tượng có thể thuộc X, còn
B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp
của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
u B v B ta đều có u D v D Nói cách khác, POS D B( )u U u B u D
Ví dụ 1.1 Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng 1.1
Trang 202) Tập X là B-không xác định trong nếu BX và BX U
3) Tập X là B-không xác định ngoài nếu BX và BX U
4) Tập X là B-không xác định hoàn toàn nếu BX và BX U
1.1.3 Bảng quyết định đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứngdụng là bảng quyết định
Bảng quyết định đầy đủ là một dạng đặc biệt của hệ thông tin đầy đủ, trong
đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: tập các thuộc tính điều
kiện C và tập các thuộc tính quyết định D Trong luận án này, bảng quyết định đầy
CD
Bảng quyết định DS được gọi là nhất quán khi và chỉ khi phụ thuộc hàm CD
nghiệm đúng, nghĩa là với mọi u v U u C, , v C kéo theo u D v D Ngược lại
DS là không nhất quán Dễ thấy bảng quyết định DS là nhất quán khi và chỉ khi
C
POS D U Trong trường hợp bảng không nhất quán thì POS D C chính là tập con
cực đại của U sao cho phụ thuộc hàm C D đúng
1.1.4 Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc tính
lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu, không thể
thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính không cần thiết là thuộctính dư thừa mà việc loại bỏ thuộc tính này không ảnh hưởng đến việc phân lớp dữ
Trang 21liệu Các thuộc tính không cần thiết được phân thành hai nhóm: Thuộc tính dư thừa
thực sự và thuộc tính rút gọn Thuộc tính dư thừa thực sự là những thuộc tính dư
thừa mà việc loại bỏ tất cả các thuộc tính như vậy không ảnh hưởng đến việc phân
lớp dữ liệu Thuộc tính rút gọn, với một tổ hợp thuộc tính nào đó, nó là thuộc tính
dư thừa và với một tổ hợp các thuộc tính khác nó có thể là cốt yếu
Định nghĩa 1.3 [42] (Tập lõi dựa trên miền dương) Cho bảng quyết định
DS U CD V f Thuộc tính c C được gọi là không cần thiết (dư thừa) trong
DS dựa trên miền dương nếu POS D C POS(C c ) D ; Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên
miền dương và được ký hiệu là PCORE C Lúc đó, thuộc tính cần thiết còn đượcgọi là thuộc tính lõi
Định nghĩa 1.4 [42] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định
DSU C D V f và tập thuộc tính RC Nếu
1) POS D R( )POS D C( )
2) r R POS, R r ( )D POS D C( )
thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu
Định nghĩa 1.5 Cho bảng quyết định DSU C, D V f, , và a C Ta nói rằng a
là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R PRED C sao cho a R
Định nghĩa 1.6 Cho bảng quyết định DSU C, D V f, , và a C Ta nói rằng a
là thuộc tính dư thừa thực sự của DS nếu
Trang 22U Mệt mỏi Đau đầu Đau cơ Thân nhiệt Cảm cúm
Bảng này có hai tập rút gọn là R 1 = {Đau cơ, Thân nhiệt} và R 2 = {Đau đầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc
tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:
Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào rút gọn
nào
Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt
trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là,
từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩnđoán đúng bệnh Tức là
POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})
POS {Đau đầu, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm}).
1.1.5 Ma trận phân biệt và hàm phân biệt
Ma trận phân biệt do Andrzej Skowron và các cộng sự [11] đề xuất là công cụ
sử dụng để tìm tập rút của bảng quyết định Xét bảng quyết định
Trang 23Định nghĩa 1.7 [11, 19] (Tập rút gọn dựa trên ma trận phân biệt) Cho bảng quyếtđịnh DSU C, D V f, , , M m i j n n
là ma trận phân biệt của DS và tập thuộc
tínhRC Nếu
1) Rm i j với mọi m i j
2) Với mọi r R , R r không thỏa mãn 1)
thì R được gọi là một tập rút gọn của C dựa trên ma trận phân biệt Ký hiệu
SRED C là họ tất cả các tập rút gọn dựa trên ma trận phân biệt
Định nghĩa 1.8 [11, 19] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định
DS U CD V f , M m i j n n
là ma trận phân biệt của DS Thuộc tính c C
được gọi là không cần thiết (dư thừa) trong DS dựa trên ma trận phân biệt nếu
C c m i j với mọi m i j Ngược lại, c được gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên ma trận phân biệt và
được ký hiệu là SCORE C Theo [19], SCORE C R SRED C R.
1.2 Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Trong phần này, chúng tôi trình bày các khái niệm cơ bản về mô hình tập thô mởrộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do MarzenaKryszkiewicz [23] đề xuất
1.2.1 Hệ thông tin không đầy đủ
Như đã trình bày ở mục 1.1.1, với hệ thông tin ISU A V f, , , , nếu tồn tại
u U và a A sao cho u a chứa giá trị thiếu thì IS được gọi là hệ thông tin
không đầy đủ Ta biểu diễn giá trị thiếu là ‘*’ và hệ thông tin không đầy đủ là
IIS U A V f
Xét hệ thông tin không đầy đủ IIS U A V f, , , ), với tập thuộc tính PA ta
định nghĩa một quan hệ nhị phân trên U như sau
Trang 24 , , '*' '*'
SIM P u v U U a P u a v a u a v a
Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính phản
xạ, đối xứng nhưng không có tính bắc cầu và được gọi là quan hệ dung sai (tolerance
relation), hay quan hệ tương tự (similarity relation) trên U Theo [23],
SIM P SIM a
Gọi S u P là tập v U u v , SIM P S u P là tập lớn nhất các đối tượng
không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớp
dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ
SIM(P) trên U là U SIM P , / khi đó các lớp dung sai trong U SIM P/ không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau và
hiển nhiên u U S u P U Ký hiệu tập tất cả các phủ của U sinh bởi các tập con
U SIM P U SIM Q ) khi và chỉ khi u U S u, P S u Q
2) U SIM P/ mịn hơn U SIM P/ (viết U SIM P/ U SIM Q/ ) khi
Trang 252) Nếu PQA thì U SIM Q/ U SIM P/ .
3) Nếu P Q, A thì S P Q u S u P S u Q với u U
Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX, được xác định như sau
BN X BX BX và B-miền ngoài của X là tập U BX
Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS U A V f với U { , , , , , }u u u u u u1 2 3 4 5 6 , A{ , , , }a a a a1 2 3 4 với a 1 (Đơn giá), a 2
(Km đã đi), a 3 (Kích thước), a 4 (Tốc độ tối đa)
Bảng 1.3 Bảng thông tin về các xe hơi
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa
Xét tập đối tượng X { , , , }u u u u1 2 4 6 , khi đó PX u u1, 2 và PX u u u u u1, , , ,2 4 5 6
1.2.2 Bảng quyết định không đầy đủ
Bảng quyết định không đầy đủ là hệ thông tin không đầy đủ IIS, trong đó tập các thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được
Trang 26gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Bảng quyết định khôngđầy đủ được biểu diễn là IDS U C, D V f, , với CD và d D,'*'V d.
Không mất tính chất tổng quát giả thiết D chỉ gồm một thuộc tính quyết định duy
nhất d [23]
Cho bảng quyết định không đầy đủ IDSU C, d V f, , Với BC,
u U , B( )u f v v S u d B( ) gọi là hàm quyết định suy rộng, nếu |C( ) | 1u vớimọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán [23]. Tương tựtrong bảng quyết định đầy đủ, với BC, miền dương của d đối với B, ký hiệu
là POS B( d ), được định nghĩa POS B( d ){BX X U| / { }}d , khi đó IDS là nhất
quán khi và chỉ khi POS B( d ) U
Ví dụ 1.4 Xét bảng quyết định không đầy đủ IDSU C, d V f, , cho ở Bảng 1.4được xây dựng từ hệ thông tin không đầy đủ ở Ví dụ 1.3 bằng cách thêm vào thuộc
tính quyết định d (Gia tốc), với U { , , , , , }u u u u u u1 2 3 4 5 6 , C { , , , }a a a a1 2 3 4 , D{ }d
Bảng 1.4 Bảng quyết định về các xe hơi
Ô tô Đơn giá Km đã đi Kích thước Tốc độ Gia tốc
{Tốt, Tuyệt hảo}, C( )u6 {Tốt, Tuyệt hảo}.
Do đó, IDS là bảng quyết định không nhất quán.
Trang 271.2.3 Tập rút gọn của bảng quyết định không đầy đủ
Trong [23], Marzena Kryszkiewicz định nghĩa tập rút gọn trong bảng quyếtđịnh không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toànhàm quyết định suy rộng của tất cả các đối tượng
Định nghĩa 1.10 [23] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảngquyết định không đầy đủ IDSU C, D V f, , và tập thuộc tính RC Nếu
1) R u C u với mọi u U
2) với mọi '
R R, tồn tại u U sao cho R' u C u
thì R được gọi là một tập rút gọn của C.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Kryszkiewicz
1.3 Cơ sở dữ liệu quan hệ
1.3.1 Một số khái niệm cơ bản
Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quan hệ củaE.F Codd Các khái niệm này có thể xem trong [14, 15, 16, 53]
Cho Ra1, ,a n là tập hữu hạn, khác rỗng các thuộc tính, mỗi thuộc tính
Cho rh1, ,h m là một quan hệ trên tập thuộc tính Ra1, ,a n Phụ thuộc
hàm (PTH) trên R là một dãy ký tự có dạng A B với A, B R PTH A B thỏa
mãn quan hệ r trên R nếu h h i, jr a A h a i h a j b B h b i h b j .
Đặt F r A B A B, : , R A, B là họ đầy đủ các PTH thỏa mãn quan hệ r Ký
hiệu P R là tập các tập con của R Cho F P R P R Ta nói rằng F là một họ
f trên R nếu với mọi A B C D, , , R
1 A A, F
Trang 28 , A được gọi là bao
đóng của A trên s Dễ thấy A B F
, A r được gọi là bao đóng của A trên quan hệ r
Cho r là một quan hệ, sR F, là một SĐQH và AR Khi đó A là một khóa của r (tương ứng của s) nếu A R A R F
thiểu của r (tương ứng của s) nếu A là một khóa của r (tương ứng của s) và bất kỳ một tập con thực sự của A không là khóa của r (tương ứng của s) Ký hiệu K và r s
K tương ứng là tập tất cả các khóa tối thiểu của r và s.
K được gọi là họ các tập tối thiểu của thuộc tính a trên r.
Gọi K P R là một hệ Sperner trên R nếu với mọi A B , K kéo theo
AB Dễ thấy , , r, s
r s a a
K K K K là các hệ Sperner trên R Với tập K là một hệ
Sperner trên R, ta định nghĩa tập K 1 như sau:
Trang 29Dễ thấy K 1 cũng là một hệ Sperner trên R Nếu K là một hệ Sperner trên R đóng vai trò là tập các khóa tối thiểu của quan hệ r (hoặc SĐQH s) thì K 1 là họ tất
cả các tập không phải khóa lớn nhất của r (hoặc của s), gọi là tập các phản khóa.
Nếu K là một hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính
a trên r (hoặc trên s), hay r
K K ) là họ tất cả các tập lớn nhất không phải là tập tối thiểu của thuộc
tính a, được định nghĩa như sau [15]
M được gọi là hệ bằng nhau cực đại của r.
1.3.2 Một số thuật toán cơ bản
Thuật toán 1.1 [14] Tính bao đóng của tập thuộc tính trên quan hệ.
Đầu vào: rh1, ,h m là một quan hệ trên R, AR
trong trường hợp ngược lại
Dễ thấy, độ phức tạp thuật toán là đa thức theo kích thước của r.
Thuật toán 1.2 [53] Tìm tập K 1
Đầu vào: K B1, ,B m là hệ Sperner trên R.
Đầu ra: K 1
Trang 30Bước 1: Đặt K1R a a B: 1 Hiển nhiên K1 B1 1.
Bước q 1 (q<m): Giả thiết rằng K q F q X1, ,X tq , ở đây X1, ,X tq chứa
1
q
B và F q AK q:B q1A Đối với mỗi i i 1, ,t q ta tìm tập B q11 trên X i
tương tự nhưK1 Ký pháp của chúng là 1i, , i i
Rõ ràng, K và K 1 xác định duy nhất lẫn nhau và thuật toán không phụ
thuộc vào thứ tự của dãy B 1 ,…,B m Đặt 1, ,
O R t u với u q I q t q nếu I q t q và u q = 1 nếu I q t q
- Trong mỗi bước của thuật toán, K q là hệ Sperner trên R Theo [16],
kích thước của hệ Sperner bất kỳ trên R không vượt quá
C n với nR Do đó, độ phức tạp thời gian của
Thuật toán 1.2 là hàm số mũ theo n.
- Trường hợp I q I mq1, ,m1, độ phức tạp của Thuật toán 1.2 không
Trang 31- Nếu K là hệ Sperner trên R đóng vai trò là tập khóa tối thiểu của quan
hệ r (hoặc SĐQH s) thì Thuật toán 1.2 thực hiện tìm tập phản khóa K 1
- Nếu K là hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính a trên r (hoặc trên s), hay r
Trang 32Theo [16], độ phức tạp thời gian của Thuật toán 1.4 là
K K với I t u q, ,q q như trong Thuật toán 1.2
- Tương tự Thuật toán 1.2, độ phức tạp thời gian của Thuật toán 1.4 là
hàm số mũ theo n.
- Trường hợp I q 1 q 1, ,m 1
K , độ phức tạp của thuật toán là
2 12
O R K K , độ phức tạp này là đa thức theo R,K 1 và K Nếu
K là đa thức theo R,K 1 thì Thuật toán 1.4 là hiệu quả Nếu K là
nhỏ thì Thuật toán 1.4 rất hiệu quả.
Nhận xét
- Nếu K 1 là hệ Sperner trên R đóng vai trò là tập phản khóa của quan hệ
r (hoặc SĐQH s) thì Thuật toán 1.4 thực hiện tìm tập khóa tối thiểu K
- Nếu K 1 là hệ Sperner trên R đóng vai trò là tập r 1
Thuật toán 1.5 Tìm một tập tối thiểu của thuộc tính a trên s.
Đầu vào: Cho sRa1, ,a n,F là SĐQH, a a1
Đầu ra: s
a A K
L i L i ngược lại
Trang 33Khi đó A L n .
Theo [15], độ phức tạp của Thuật toán 1.5 là 2
O R F
Thuật toán 1.6 [15]Tìm họ các tập tối thiểu của thuộc tính a trên s.
Đầu vào: Cho sR F, là SĐQH và a R
Nếu số lượng phần tử của K a s đối với sR F, là đa thức theo kích thước của s
thì thuật toán hiệu quả, đặc biệt khi s
a
K nhỏ
Chương 2 SO SÁNH, ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ2.1. Mở đầu
Mục tiêu của rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhấtcủa tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định Dựavào tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất Với mục tiêu
đó, có rất nhiều các phương pháp rút gọn thuộc tính khác nhau đã được đề xuất dựa
Trang 34trên các tiêu chuẩn khác nhau Đối với một bảng quyết định có thể có nhiều tập rútgọn khác nhau Độ phức tạp của thuật toán tìm tất cả các tập rút gọn là hàm mũ của
số thuộc tính điều kiện Tuy nhiên, trong thực hành không đòi hỏi tìm tất cả các tậprút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giánào đó là đủ Do đó, các phương pháp rút gọn thuộc tính đều thực hiện:
1) Đưa ra khái niệm tập rút gọn của phương pháp.
2) Đưa ra khái niệm độ quan trọng của thuộc tính Ý nghĩa độ quan trọng thuộc
tính của tất cả các phương pháp đều giống nhau, đều đặc trưng cho khả năng đónggóp của thuộc tính vào việc phân lớp tập đối tượng Thuộc tính có độ quan trọng cànglớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu
chuẩn đánh giá là độ quan trọng của thuộc tính (tập rút gọn có chất lượng phân lớptốt nhất) Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể ápdụng đối với các bài toán có dữ liệu lớn Các thuật toán heuristic tìm tập rút gọnthường được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếp cận từ dưới
lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Dựa vào nhận xét tập
lõi xuất hiện trong mọi tập rút gọn nên các thuật toán xây dựng theo hướng tiếp cận
bottom-up được chia thành hai nhóm: các thuật toán tính toán lõi và các thuật toán
không tính toán lõi Ý tưởng chung của các thuật toán tính toán lõi là xuất phát từ tập
lõi, bổ sung dần dần các thuộc tính có độ quan trọng lớn nhất vào tập lõi cho đến khi
thu được tập rút gọn Các thuật toán không tính toán lõi xuất phát từ tập rỗng và bổ
sung dần các thuộc tính có độ quan trọng lớn nhất cho cho đến khi thu được tập rút
gọn Các thuật toán được xây dựng theo hướng tiếp cận buttom-up xuất phát từ tập
thuộc tính điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ nhấtcho đến khi thu được tập rút gọn Cả hai hướng tiếp cận này đều đòi hỏi phải sắpxếp danh sách các thuộc tính theo thứ tự giảm dần hoặc tăng dần của độ quan trọngtại mỗi bước lặp
Trang 35Mười năm trở lại đây đã chứng kiến sự phát triển mạnh mẽ và sôi động củalĩnh vực nghiên cứu về các phương pháp rút gọn thuộc tính, bao gồm các phươngpháp chính như sau.
Phương pháp rút gọn thuộc tính dựa trên miền dương
Kể từ khi Pawlak [42] đưa ra định nghĩa tập rút gọn dựa trên miền dương, một
số công trình nghiên cứu đã xây dựng thuật toán tính miền dương POS D C , từ đóxây dựng thuật toán tìm tập rút gọn dựa trên miền dương Sử dụng phương pháp sắpxếp nhanh (Quick-sort) để sắp xếp các đối tượng theo giá trị thuộc tính, NguyenSinh Hoa và Nguyen Hung Sơn [41] xây dựng thuật toán tính miền dương với độphức tạp O C U log U và thuật toán tìm tập rút gọn với độ phức tạp
O C U log U Dựa trên ý tưởng này, Xu Zhangyan và các cộng sự [67] sử dụngphương pháp sắp xếp theo cơ số (Radix-sort) để xây dựng thuật toán tính miềndương với độ phức tạp giảm xuống còn O C U và thuật toán tìm tập rút gọn với
Max O C U O C U C Trong [18], các tác giả
đã chỉ ra tập rút gọn của thuật toán trong [67] vẫn còn thuộc tính dư thừa và xâydựng thuật toán cải tiến với độ phức tạp 2
O C U cũng bằng phương pháp sort Bằng phương pháp sử dụng hàm băm, Liu và các cộng sự [29] đề xuất thuậttoán tính miền dương với độ phức tạp O U và thuật toán tìm tập rút gọn với độ
/
O C U C trên một số lớp bài toán cụ thể
Phương pháp rút gọn thuộc tính sử dụng các phép toán trong đại số quan hệ
Trong [20], Hu Xiaohua và các cộng sự đưa ra khái niệm tập lõi và tập rút gọndựa trên các phép toán trong đại số quan hệ, từ đó xây dựng thuật toán tìm tập lõi
và tập rút gọn của bảng quyết định Trong [1], tác giả Hoàng Thị Lan Giao đã phântích nhược điểm của khái niệm tập lõi trong [20] và đề xuất khái niệm mới về tậplõi, tập rút gọn của bảng quyết định nhất quán Trên cơ sở đó xây dựng thuật toán
Trang 36tìm tập lõi và tập rút gọn dựa vào các phép toán trong đại số quan hệ với độ phức
O C U log U
Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt
Trong [11], Skowron đưa ra khái niệm ma trận phân biệt, hàm phân biệt và sửdụng chúng để tìm tập rút gọn của bảng quyết định Dựa trên ma trận phân biệt củaSkowron, Hu Xiaohua và Nick Cercone [19]đề xuất thuật toán tìm tập rút gọn, tập lõicủa bảng quyết định Trong [69], Ye Dong Yi và các cộng sự chứng minh thuật toán
sử dụng ma trận phân biệt của Hu Hu Xiaohua và Nick Cercone thường không tìmđược chính xác tập rút gọn và tập lõi của bảng quyết định không nhất quán, trên cơ sở
đó các tác giả đề xuất ma trận phân biệt cải tiến và xây dựng thuật toán tìm tập rút gọnvới độ phức tạp 2 2
O C U Trong [65], Xu Zhangyan và các cộng sự đề xuất thuậttoán tìm tập rút gọn trong bảng quyết định dựa trên ma trận phân biệt đơn giản hóa
Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt
Kể từ khi Zadeh [70] giới thiệu mô hình tính toán hạt, nhiều nhà nghiên cứu đã
sử dụng mô hình này để giải quyết bài toán rút gọn thuộc tính trong hệ thông tin.Trong [27, 28, 71], các tác giả đã đề xuất các thuật toán heuristic tìm tập rút gọn sửdụng độ đo phép kết hạt bởi thuộc tính làm tiêu chuẩn đánh giá độ quan trọng củathuộc tính Các thuật toán này được chứng minh là hiệu quả và có thể áp dụng trongcác bảng dữ liệu lớn Dựa trên độ đo sự khác biệt giữa các tri thức, Li Jin-hai [26] đềxuất thuật toán heuristic tìm tập rút gọn với độ phức tạp 3 2
O C U và xây dựngthuật toán heuristic cải tiến trong [24] với độ phức tạp 2
O C U log U
Phương pháp rút gọn thuộc tính sử dụng entropy thông tin
Entropy thông tin do Shannon giới thiệu lần đầu vào năm 1948 (gọi tắt làentropy Shannon) là một đại lượng toán học dùng để đo độ không chắc chắc củamột đại lượng ngẫu nhiên Trong những năm gần đây, entropy Shannon là mộttrong những công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính trong hệ
Trang 37thông tin Nhóm nghiên cứu đầu tiên đề xuất thuật toán heuristic tìm tập rút gọn sửdụng entropy Shannon có điều kiện là Miao Duoqian và các cộng sự [39], trong đócác tác giả sử dụng entropy tương hỗ để đánh giá độ quan trọng của thuộc tính vàxây dựng thuật toán heuristic tìm tập rút gọn của bảng quyết định MIBARK với độ
O C U U MIBARK thuộc nhóm thuật toán heuristic tính toán lõi.Những đóng góp đáng chú ý tiếp theo trong nghiên cứu phương pháp tìm tập rútgọn sử dụng entropy Shannon phải kể đến các công trình của Wang Guo Yin và cáccộng sự [56, 57, 58, 59, 60] Trong các công trình này, các tác giả đã đưa ra kháiniệm tập rút gọn và tập lõi của bảng quyết định dựa trên entropy Shannon có điềukiện và đề xuất hai thuật toán heuristic tìm tập rút gọn của bảng quyết định: thuậttoán CEBARKCC và thuật toán CEBARKNC [59] CEBARKCC là thuật toánheuristic tính toán lõi với độ phức tạp 2 3
O C U U , CEBARKNC là thuật toánheuristic không tính toán lõi với độ phức tạp 2 3
O C U C U Trong cả hai thuậttoán, độ quan trọng của thuộc tính đều được xây dựng trực tiếp từ công thức tínhentropy có điều kiện Trong [55, 56], các tác giả đã phân tích nhược điểm của địnhnghĩa độ quan trọng của thuộc tính trong [59] và đề xuất định nghĩa độ quan trọngmới, từ đó xây dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy Shannon
có điều kiện Tuy nhiên, các tác giả này chưa đánh giá thuật toán đề xuất với cácthuật toán khác tìm tập rút gọn sử dụng entropy Shannon có điều kiện về lý thuyết
và thực nghiệm Trong [52, 63], các tác giả đã cải tiến các phân hoạch trong côngthức tính toán entropy Shannon có điều kiện và xây dựng các thuật toán tìm tập rútgọn của bảng quyết định
Theo tiếp cận định lượng, mục tiêu của rút gọn thuộc tính là tìm tập con của tậpthuộc tính điều kiện mà bảo toàn độ chắc chắn của bảng quyết định, hay độ chắcchắn của tập luật quyết định Việc nghiên cứu sự thay đổi giá trị của các độ đo đánhgiá hiệu năng tập luật quyết định dựa trên các tập rút gọn của các phương pháp khácnhau cho phép lựa chọn các phương pháp phù hợp với lớp bài toán cần giải quyết, là
các phương pháp mà tập rút gọn bảo toàn độ chắc chắn của tập luật quyết định Việc
Trang 38so sánh, đánh giá các phương pháp rút gọn thuộc tính được thực hiện dựa trên hai
tiêu chuẩn là số lượng thuộc tính tập rút gọn của phương pháp đó và độ phức tạp
của thuật toán heuristic tìm tập rút gọn Tập rút gọn của phương pháp càng ít thuộc
tính thì độ hỗ trợ của tập luật dựa trên tập rút gọn đó càng cao và phương pháp đócàng hiệu quả Độ phức tạp thuật toán heuristic của phương pháp càng nhỏ thìphương pháp đó càng hiệu quả
Về hướng nghiên cứu các độ đo đánh giá hiệu năng tập luật quyết định,Yuhua Qian và các cộng sự [48] đã phân tích nhược điểm các độ đo truyền thốngtrong lý thuyết tập thô, từ đó đưa ra các độ đo mới đánh giá hiệu năng tập luậtquyết định Trong [2], tácgiả Nguyễn Đức Thuần đã phân tích nhược điểm độ nhấtquán của Qian và các cộng sự, trên cơ sở đó đưa ra độ nhất quán mới Tuy nhiên,
các tác giả nêu trên chưa nghiên cứu đầy đủ sự thay đổi giá trị các độ đo đánh giá
hiệu năng tập luật quyết định trên các tập rút gọn thu được bởi các phương phápkhác nhau trên bảng quyết định không nhất quán
Về hướng nghiên cứu mối liên hệ giữa các loại tập rút gọn dựa trên các tiêuchuẩn khác nhau, một số tác giả đã công bố kết quả nghiên cứu, điển hình là: XuZhangyan và các cộng sự [64] nghiên cứu mối liên hệ giữa tập rút gọn dựa trênentropy Liang và tập rút gọn dựa trên ma trận phân biệt; Wang Xiongbin và cáccộng sự [61] nghiên cứu mối liên hệ giữa tập rút gọn dựa trên các phép toán đại số
và tập rút gọn dựa trên entropy Shannon có điều kiện; Luo Ping và các cộng sự [37]
chứng minh tập rút gọn dựa trên entropy Liang không tương đương với tập rút gọnPawlak và tập rút gọn dựa trên entropy Shannon có điều kiện trong bảng quyết định
không nhất quán Tuy nhiên, cho đến nay chưa có công trình nào nghiên cứu đầy
đủ mối liên hệ giữa các loại tập rút gọn theo các tiêu chuẩn khác nhau trên bảng
quyết định nhất quán và không nhất quán
Chương này trình bày các nội dung sau:
Trang 39(1) Nghiên cứu mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn khác nhau, từ đó phân loại các phương pháp rút gọn thuộc tính trong bảng quyết định không nhất quán thành 3 nhóm.
(2) Đề xuất độ nhất quán mới của bảng quyết định và nghiên cứu sự thay đổi
giá trị các độ đo đánh giá hiệu năng tập luật quyết định dựa trên 3 loại tập rút gọn
của 3 nhóm phương pháp ở (1)
(3) Từ các kết quả nghiên cứu ở (1) và (2), chương này đưa ra kết quả lựachọn nhóm phương pháp rút gọn thuộc tính phù hợp với lớp bài toán cần giải quyết
và kết quả so sánh, đánh giá các phương pháp dựa trên hai tiêu chuẩn: số lượng
thuộc tính tập rút gọn của phương pháp và độ phức tạp của thuật toán heuristic tìm tập rút gọn.
2.2. Mối liên hệ giữa các loại tập rút gọn dựa trên các tiêu chuẩn
khác nhau
Trong phần này, luận án trình bày kết quả nghiên cứu về mối liên hệ giữa bốnloại tập rút gọn của bảng quyết định:
1) Tập rút gọn dựa trên miền dương (tập rút gọn Pawlak)
2) Tập rút gọn dựa trên entropy Shannon có điều kiện
3) Tập rút gọn dựa trên ma trận phân biệt
4) Tập rút gọn dựa trên độ khác biệt giữa các tri thức
Kết hợp với các kết quả đã công bố, phần này đưa ra một bức tranh tổng thể
về mối liên hệ giữa các loại tập rút gọn trong bảng quyết định
2.2.1 Các định nghĩa về tập rút gọn dựa trên entropy thông tin
Định nghĩa 2.1 [62] Cho bảng quyết định DS U C, D V f, , và tập thuộc tính
PC Giả sử U P/ { , , , }P P1 2 P m Entropy Shannon của P được định nghĩa bởi
2 1
với |X| biểu diễn lực lượng của tập X Nếu U P U/ thì H P đạt giá trị nhỏ nhất là
0, còn nếu X i u i với u iU i, 1, ,U thì H P đạt giá trị lớn nhất là log U2
Do đó 0 H P log U2
Trang 40Định nghĩa 2.2 [62] Cho bảng quyết định DSU C, D V f, , Giả sử
1 2
D khi đã biết Cđược định nghĩa bởi
với quy ước 0.log 0 02
Nếu bảng quyết định DS nhất quán thì dễ dàng suy ra H D C ( | ) 0, trái lại
Mệnh đề 2.1 nói lên tính phản đơn điệu của entropy Shannon có điều kiện,
nghĩa là tập thuộc tính điều kiện Q càng nhỏ (phân hoạch sinh bởi Q càng thô) thì
H D Q càng lớn và ngược lại
Định nghĩa 2.3 [57] (Tập lõi dựa trên entropy Shannon có điều kiện) Cho bảng quyếtđịnh DS U C, D V f, , , thuộc tính a C được gọi là không cần thiết (dư thừa)
trong DS dựa trên entropy Shannon có điều kiện nếu H D C H D C a ; Ngược
lại, a gọi là cần thiết Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõidựa trên entropy Shannon có điều kiện và ký hiệu là HCORE C
Định nghĩa 2.4 [57] (Tập rút gọn Entropy Shannon) Cho bảng quyết định
DS U CD V f và tập thuộc tính RC Nếu
1) H D R H D C
2) r R H D R, ( r )H D C( )