Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,05 MB
Nội dung
1 MỤC LỤC MỤC LỤC Danh mục thuật ngữ Danh sách bảng .3 MỞ ĐẦU Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 1.1 Rút gọn thuộc tính theo tiếp cận mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.2 Rút gọn thuộc tính mô hình tập thô truyền thống 10 1.2 Rút gọn thuộc tính theo tiếp cận mô hình tập thô dung sai 13 1.2.1 Hệ thông tin không đầy đủ mô hình tập thô dung sai 13 1.2.2 Rút gọn thuộc tính mô hình tập thô dung sai 17 Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG MÔ HÌNH TẬP THÔ DUNG SAI 26 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming mô hình tập thô dung sai 27 2.1.1 Khoảng cách Hamming hai phủ 27 2.1.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming 30 2.1.3 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming 37 2.2 Trích lọc luật dựa mô hình tập thô dung sai 38 2.2.1 Luật định mô hình tập thô dung sai 38 3.4.1 Thuật toán trích lọc luật mô hình tập thô dung sai 40 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 42 3.1 Bài toán 42 3.2 Phân tích, lựa chọn công cụ 43 3.2.1 Mô tả phương pháp sử dụng độ đo lượng thông tin 43 3.2.2 Lựa chọn công cụ cài đặt 44 3.3 Một số kết thử nghiệm 44 3.3.1 Kết thử nghiệm rút gọn thuộc tính sử dụng khoảng cách Hamming 44 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai 47 KẾT LUẬN 49 Tài liệu tham khảo 50 Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Hệ thông tin không quán Inconsistent Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Bảng định không quán Inconsistent Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.2 Bảng định bệnh cúm 12 Bảng 1.3 Bảng thông tin xe 15 Bảng 1.4 Bảng định xe 17 Bảng 2.1 Hệ thông tin không đầy đủ xe 28 Bảng 2.2 Bảng định không đầy đủ xe 34 Bảng 2.3 Bảng định không đầy đủ xe 38 Bảng 3.1 Kết thực Thuật toán HDBAR Thuật toán IQBAR 45 Bảng 3.2 Tập rút gọn Thuật toán HDBAR Thuật toán IQBAR 45 Bảng 3.3 Kết thực Thuật toán HDBAK Thuật toán IQBAK 46 số liệu lớn 46 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small 47 Bảng 3.5 Các luật phân lớp bảng định rút gọn 48 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [16] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thô khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tím tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính, gọi bảng định không đầy đủ Trên bảng định không đầy đủ, Kryszkiewicz [10] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công trình [6, 7, 8, 11, 13, 12, 23] Tuy nhiên, kết nghiên cứu phương pháp rút gọn thuộc tính trích lọc luật bảng định không đầy đủ nhiều hạn chế Luận văn đặt hai mục tiêu chính: 1) Tổng hợp công bố phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai, bao gồm: phân nhóm phương pháp nghiên cứu mối liên hệ giữ nhóm; nghiên cứu độ đo đánh giá hiệu tập luật định Trên sở đó, luận văn đề xuất độ đo cải tiến đánh giá hiệu tập luật định nghiên cứu thay đổi giá trị độ đo tập rút gọn nhằm đánh giá phương pháp rút gọn thuộc tính mặt định lượng 2) Tổng hợp công bố phương pháp rút gọn thuộc tính sử dụng khoảng cách Từ đó, xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming (một khoảng cách đơn giản hiệu quả) thử nghiệm phương pháp số liệu mẫu từ kho liệu UCI Đối tượng nghiên cứu luận văn bảng định không đầy đủ với kích thước trung bình kích thước lớn Phạm vi nghiên cứu luận văn tập trung vào toán rút gọn thuộc tính bước tiền xử lý số liệu trình khai phá liệu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: mệnh đề chứng minh chặt chẽ dựa vào kiến thức kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI, so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm mô hình tập thô truyền thống, phương pháp rút gọn thuộc tính mô hình tập thô truyền thống mô hình tập thô mở rộng dựa quan hệ dung sai, phương pháp rút gọn thuộc tính mô hình tập thô dung sai Tổng kết công bố phương pháp rút gọn thuộc tính, mối liên hệ, phân nhóm phương pháp Chương đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming Trích lọc luật định từ tập rút gọn theo phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming Chương cài đặt, thử nghiệm, đánh giá phương pháp số liệu mẫu từ kho liệu UCI Cuối cùng, phần kết luận nêu đóng góp luận văn, hướng phát triển Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Mô hình tập thô truyền thống Pawlak đề xuất [16] công cụ hiệu để giải toán phân lớp hệ thông tin đầy đủ dựa quan hệ tương đương Tuy nhiên thực tế, hệ thông tin thường thiếu giá trị miền giá trị thuộc tính, gọi hệ thông tin không đầy đủ Trong hệ thông tin không đầy đủ, Kryszkiewicz [10] xem người mở rộng quan hệ tương đương thành quan hệ dung sai xây dựng mô hình tập thô mở rộng dựa quan hệ dung sai, gọi mô hình tập thô dung sai Trong chương này, trình bày khái niệm mô hình tập thô truyền thống mô hình tập thô dung sai 1.1 Rút gọn thuộc tính theo tiếp cận mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1) Hệ thông tin đầy đủ Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa sau Định nghĩa 1.1 Hệ thông tin tứ IS U , A,V , f U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính; V Va với a A Va tập giá trị thuộc tính a A ; f : U A Va hàm thông tin, a A, u U f u, a Va Với u U , a A , ta ký hiệu giá trị thuộc tính a đối tượng u a u thay f u, a Nếu B b1 , b2 , , bk A tập thuộc tính ta ký hiệu giá trị bi u B u Như vậy, u v hai đối tượng, ta viết B u B v bi u bi v với i 1, , k Cho hệ thông tin IS U , A,V , f , tồn u U a A cho a u thiếu giá trị (missing value) IS gọi hệ thông tin không đầy đủ, trái lại IS gọi hệ thông tin đầy đủ Trong luận văn này, hệ thông tin đầy đủ gọi tắt hệ thông tin Xét hệ thông tin IS U , A,V , f Mỗi tập thuộc tính P A xác định quan hệ hai U, ký hiệu IND P , xác định IND P u, v U U a P, a u a v IND P quan hệ P-không phân biệt Dễ thấy IND P quan hệ tương đương U Nếu u, v IND P hai đối tượng u v không phân biệt thuộc tính P Quan hệ tương đương IND P xác định phân hoạch U, ký hiệu U / IND P hay U / P Ký hiệu lớp tương đương phân hoạch U / P chứa đối tượng u u P , u P v U u , v IND P 2) Mô hình tập thô truyền thống Cho hệ thông tin IS U , A,V , f tập đối tượng X U Với tập thuộc tính B A cho trước, có lớp tương đương phân hoạch U / B , tập đối tượng X biểu diễn thông qua lớp tương đương nào? Trong lý thuyết tập thô, để biểu diễn X thông qua lớp tương đương U / B (còn gọi biểu diễn X tri thức có sẵn B), người ta xấp xỉ X hợp số hữu hạn lớp tương đương U / B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , gọi B-xấp xỉ B-xấp xỉ X, ký hiệu lượt BX BX , xác định sau: BX u U u B X , BX u U u B X Tập BX bao gồm tất phần tử U chắn thuộc vào X, tập BX bao gồm phần tử U thuộc vào X dựa tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa tập BN B X BX BX : B-miền biên X , U BX : B-miền X B-miền biên X tập chứa đối tượng thuộc không thuộc X, B-miền X chứa đối tượng chắn không thuộc X Sử dụng lớp phân hoạch U/B, xấp xỉ X viết lại BX Y U / B Y X , BX Y U / B Y X Trong trường hợp BN B X X gọi tập xác (exact set), ngược lại X gọi tập thô (rough set) Với B, D A , ta gọi B-miền dương D tập xác định sau POS B ( D) BX X U / D Rõ ràng POS B ( D) tập tất đối tượng u cho với v U mà u B v B ta có u D v D Nói cách khác, POS B ( D ) u U u B u D Ví dụ 1.1 Xét hệ thông tin biểu diễn triệu chứng cúm bệnh nhân cho Bảng 1.1 Bảng 1.1 Bảng thông tin bệnh cúm U Đau đầu Thân nhiệt Cảm cúm u1 Có Bình thường Không u2 Có Cao Có u3 Có Rất cao Có u4 Không Bình thường Không u5 Không Cao Không u6 Không Rất cao Có u7 Không Cao Có u8 Không Rất cao Không u , u , u , u , u , u , u , u U / {Thân nhiệt} = u , u , u , u , u , u , u , u U / {Cảm cúm} = u , u , u , u , u , u , u , u U / {Đau đầu, Cảm cúm} = u , u , u , u , u , u , u , u Ta có: U / {Đau đầu} = 1 4 5 7 3 6 8 Như vậy, bệnh nhân u2 , u3 không phân biệt đau đầu cảm cúm, phân biệt thân nhiệt Các lớp không phân biệt B = {Đau đầu, Thân nhiệt} là: 10 u1 , u , u , u , u , u , u , u Đặt X {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7 Khi đó: BX u2 , u3 BX u2 , u3 , u5 , u6 , u7 , u8 Như vậy, B-miền biên X tập hợp BN B X u5 , u6 , u7 , u8 Nếu đặt D = {Cảm cúm} U / D X u1, u4 , u5 , u8 ; X u2 , u3 , u6 , u7 , BX u1 , u4 ; BX u2 , u3 , POS B ( D ) BX u , u , u , u X U / D Với khái niệm tập xấp xỉ phân hoạch U / B , tập thô chia thành bốn lớp bản: 1) Tập X B-xác định thô BX BX U 2) Tập X B-không xác định BX BX U 3) Tập X B-không xác định BX BX U 4) Tập X B-không xác định hoàn toàn BX BX U 1.1.2 Rút gọn thuộc tính mô hình tập thô truyền thống 1) Bảng định Một lớp đặc biệt hệ thông tin có vai trò quan trọng nhiều ứng dụng bảng định Bảng định hệ thông tin DS với tập thuộc tính A chia thành hai tập khác rỗng rời C D , gọi tập thuộc tính điều kiện tập thuộc tính định Tức DS U , C D, V , f với CD Xét bảng định DS U , C D, V , f với giả thiết u U , d D , d u đầy đủ giá trị, tồn u U c C cho c u thiếu giá trị DS gọi bảng định không đầy đủ, trái lại DS gọi bảng định đầy đủ Bảng định DS gọi quán D phụ thuộc hàm vào C, tức với u, v U , C u C v kéo theo D u D v Ngược lại gọi không quán hay mâu thuẫn Theo định nghĩa miền dương, bảng định quán POSC D U Trong trường hợp bảng không quán POSC D tập cực đại U cho phụ thuộc hàm C D 37 Kết tính toán trùng với kết tính toán ví dụ [7] 2.1.3 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming Mệnh đề 2.2 Cho bảng định không đầy đủ IDS U , A d tập thuộc tính B A Ta có d K B , K B d d K A , K A d I B d I A d Chứng minh Xét bảng định không đầy đủ IDS U , A d với U u1 , u2 , , un B A Từ d K B , K B d d K A , K A d , B B d , A A d ta có: U S B ui S u B d i U i 1 U U S A ui S u Ad i U i 1 U U U U U 1 1 SBd ui 1 SB ui 1 SAd ui 1 SA ui U i1 U i1 U i1 U i1 Theo định nghĩa lượng thông tin mục 2.2.1 ta có: I B d I B I A d I A I B d I A d Từ Mệnh đề 2.2 suy ra, tập rút gọn bảng định không đầy đủ dựa khoảng cách Hamming tập rút gọn bảng định không đầy đủ dựa lượng thông tin Theo phương pháp phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn, dễ thấy phương pháp rút gọn sử dụng khoảng cách thuộc Nhóm phương pháp 3, nghĩa nhóm gồm phương pháp 38 2.2 Trích lọc luật dựa mô hình tập thô dung sai 2.2.1 Luật định mô hình tập thô dung sai Cho bảng định không đầy đủ IDS U, A d với U u1, , un , giả sử U / SIM A {SA u1 , , SA un } U / d {Y1,Y2 , ,Ym} Với SA ui U / SIM A , Y j U / d SA ui Y j , ký hiệu des S A ui des Y j mô tả lớp dung sai SA ui lớp tương đương Y j Chú ý giá trị a ui bỏ giá trị khỏi des S A ui quy ước giá trị * tất giá trị khác Một luật định đơn có dạng Zij : des S A ui des Y j [20] Giống luật định bảng định đầy đủ, độ chắn, độ hỗ trợ độ bao phủ luật định đơn Zij tương ứng là: Zij S A ui Y j / S A ui s Zij S A ui Y j / U Z ij S A ui Y j / Y j Ví dụ 2.3 Xét bảng định không đầy đủ IDS U , A d mô tả ô tô cho Bảng 2.3 với U u1 , u2 , u3 , u4 , u5 , u6 , A a1 , a2 , a3 với a1 (Đơn giá), a2 (Km đi), a3 (Kích thước), a4 (Tốc độ tối đa) Bảng 2.3 Bảng định không đầy đủ xe Ô tô Đơn giá Km Kích thước Tốc độ tối đa d u1 Cao Thấp Đầy đủ Thấp Tốt u2 Thấp * Đầy đủ Thấp Tốt u3 * * Gọn nhẹ Thấp Xấu 39 u4 Cao * Đầy đủ Cao Tốt u5 * * Đầy đủ Cao Tuyệt hảo u6 Thấp Cao Đầy đủ * Tốt Ta có U / SIM ( A) {S A (u1 ), S A (u2 ), S A (u3 ), S A (u4 ), S A (u5 ), S A (u6 )} , với S A (u1 ) {u1} , S A (u2 ) {u2 , u6 } , S A (u3 ) {u3 } , S A (u4 ) {u4 , u5 } , S A (u5 ) {u4 , u5 , u6 } , S A (u6 ) {u2 , u5 , u6 } U / d Y1 , Y2 , Y3 với Y1 {u1 , u2 , u4 , u6 } , Y2 {u3} , Y3 {u5 } Các luật định là: Z11 : (a1, Cao) (a2, Thấp) (a3, Đầy đủ) (a4, Thấp) (d, Tốt) Z 21 : (a1, Thấp) (a3, Đầy đủ) (a4, Thấp) (d, Tốt) Z 32 : (a3, Gọn nhẹ) (a4, Thấp) (d, Xấu) Z 41 : (a1, Cao) (a3, Đầy đủ) (a4, Cao) (d, Tốt) Z 43 : (a1, Cao) (a3, Đầy đủ) (a4, Cao) (d, Tuyệt hảo) Z 51 : (a3, Đầy đủ) (a4, Cao) (d, Tốt) Z 53 : (a3, Đầy đủ) (a4, Cao) (d, Tuyệt hảo) Z 61 : (a1, Thấp) (a2, Cao) (a3, Đầy đủ) (d, Tốt) Z 63 : (a1, Thấp) (a2, Cao) (a3, Đầy đủ) (d, Tuyệt hảo) Các độ đo luật định đơn là: Z11 : Z11 1, s Z11 / 6, Z11 / , Z 21 : Z 21 1, s Z 21 / 3, Z 21 / , Z 32 : Z 32 1, s Z 32 / 6, Z 32 , 40 Z 41 : Z 41 / 2, s Z 41 / 6, Z 41 / , Z 43 : Z 43 / 2, s Z 43 / 6, Z 43 , Z51 : Z 51 / 3, s Z 51 / 3, Z51 / , Z 53 : Z53 / 3, s Z 53 / 6, Z 53 , Z 61 : Z 61 / 3, s Z 61 / 3, Z 61 / , Z 63 : Z 63 / 3, s Z 63 / 6, Z 63 3.4.1 Thuật toán trích lọc luật mô hình tập thô dung sai Cho bảng định không đầy đủ IDS U , A d với U u1 , , un , giả sử U / SIM A { S A u i ui U , i n} S A ui U / SIM A , Y j U / d , i n, j m U / d {Y1 , Y2 , , Ym } SA ui Y j Với Thuật toán RuleExtract hiển thị luật định dạng RULE Zij Zij : des SA ui desYj với độ chắn Zij S A ui Y j / S A ui đỗ hỗ trợ s Zij S A ui Y j / U tương ứng Thuật toán sau thực trích lọc luật định hiển thị độ đo luật dựa vào định nghĩa luật định lý thuyết tập thô Thuật toán RuleExtract Input: Bảng định không đầy đủ IDS U , A d Output: Hiển thị danh sách luật với độ chắn độ hỗ trợ s Tính phủ U / SIM A ; For each SA ui U / SIM A Begin 41 Tính phân hoạch S A ui / d ; For each Y j S A ui / d Begin Sinh luật Zij : des S A ui des Y j Tính Zij S A ui Y j / S A ui ; Tính s Zij S A ui Y j / U ; 10 Hiển thị luật Zij , độ chắn Zij , độ hỗ trợ s Zij ; 11 End; 12 End; 13 Return 42 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Bài toán Cho trước bảng định không đầy đủ với kích thước trung bình kích thước lớn, nhiệm vụ phần thử nghiệm đánh giá đặt là: 1) Cài đặt thử nghiệm, đánh giá thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming 2) Cài đặt thử nghiệm thuật toán sinh luật định RULEEXTRACT tập rút gọn tìm thuật toán sử dụng khoảng cách Hamming Bao gồm bước sau: Bước Cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách Hamming (Thuật toán HDBAR), đánh giá thời gian thực kết thực thuật toán HDBAR với thuật toán công bố số liệu thử nghiệm để so sánh, bao gồm: - Lựa chọn thuật toán tìm tập rút gọn bảng định không đầy đủ sử dụng độ đo lượng thông tin [7], gọi tắt Thuật toán IQBAR (Information Quantity Based Attribute Reduction), để so sánh với thuật toán tìm tập rút gọn sử dụng khoảng cách Hamming (Thuật toán 2.1), gọi tắt Thuật toán HDBAR (Hamming Distance Based Attribute Reduction) độ phức tạp Thuật toán Thuật toán IQBAR tương đương với độ phức tạp thuật toán sử dụng ma trận dung sai [8, 23] Tuy nhiên, Thuật toán IQBAR lưu trữ ma trận dung sai nên hiệu mặt lưu trữ - Cài đặt thuật toán HDBAR Thuật toán IQBAR Bước 2: Chạy thử nghiệm thuật toán HDBAR IQBAR số liệu từ kho liệu UCI để tiến hành so sánh, đánh giá Bước 3: Cài đặt thực thuật toán trích lọc luật RULEEXTRACT tập rút gọn tìm Thuật toán HDBAR 43 3.2 Phân tích, lựa chọn công cụ Trước hết, trình bày thuật toán IQBAR [7] 3.2.1 Mô tả phương pháp sử dụng độ đo lượng thông tin Trong [7], Huang B cộng đưa khái niệm tập rút gọn dựa lượng thông tin (information quantity) Với B A , lượng thông tin B {d} I B d I B d I B với I B 1 n U S u B i i 1 U u1 , u2 , , un Tập rút gọn dựa khoảng cách Hamming định nghĩa sau: Cho bảng định không đầy đủ IDS U, Ad Nếu R A thỏa mãn: 1 I R d I Ad ; R' R, I R ' d I A d R gọi tập rút gọn IDS dựa lượng thông tin Trong công trình [7], Huang B tác giả trình bày thuật toán tìm tập rút gọn tốt sử dụng khoảng cách Hamming, gọi Thuật toán IQBAR Thuật toán IQBAR Tìm tập rút gọn bảng định không đầy đủ sử dụng lượng thông tin [7] (Information Quantity Based Algorithm for Reduction of Knowledge) Input: Bảng định không đầy đủ IDS U , A d Output: Một tập rút gọn R R ; Tính I R d , I A d ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While I R d I A d 44 Begin For each b A R tính SIGR b I B d I B bd ; Chọn bm A R cho SIGR mm Max SIGR b ; R R bm ; bA R End; // Loại bỏ thuộc tính dư thừa R có 10 For each b R If I R bd I A d then R R b ; 11 Return R ; 3.2.2 Lựa chọn công cụ cài đặt Tôi sử dụng công cụ ngôn ngữ lập trình C# môi trường hệ điều hành Windows XP Professional để thực cài đặt thuật toán HDBAR IQBAR 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm rút gọn thuộc tính sử dụng khoảng cách Hamming Sau cài đặt, tiến hành thử nghiệm Thuật toán HDBAR Thuật toán IQBAR số liệu vừa nhỏ lấy từ kho liệu UCI [25] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán 45 Bảng 3.1 Kết thực Thuật toán HDBAR Thuật toán IQBAR STT Bộ số liệu U Thuật toán Thuật toán IQBAR HDBAR C R t R t Hepatitis.data 155 19 1.296 0.89 Lung-cancer.data 32 56 0.187 0.171 Automobile.data 205 25 5 1.687 Anneal.data 798 38 179 86.921 Congressional Voting 435 16 15 25.562 15 16.734 15 29.703 15.687 Records Credit Approval 690 Bảng 3.2 Tập rút gọn Thuật toán HDBAR Thuật toán IQBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán IQBAR Thuật toán HDBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 3, 4, 5, 8, 9, 33, 34, 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, 10, {1, 2, 3, 4, 5, 7, 8, 9, 10, Voting Records 11, 12, 13, 14, 15, 16} 11, 12, 13, 14, 15, 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} 46 Kết thử nghiệm cho thấy Trên số liệu chọn, tập rút gọn thu Thuật toán HDBAR Thuật toán IQBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần Thời gian thực Thuật toán HDBAR nhanh Thuật toán IQBAR, Thuật toán HDBAR hiệu Thuật toán IQBAR Tiếp theo, tiến hành thử nghiệm Thuật toán HDBAR số liệu kích thước lớn Kết thử nghiệm mô tả bảng sau: Bảng 3.3 Kết thực Thuật toán HDBAK Thuật toán IQBAK số liệu lớn STT U Bộ số liệu Thuật toán Thuật toán IQBAR HDBAR C R t R t Census-Income.data 299285 40 21 11415 21 5206 Adult.data 48842 14 1270 675 Dorothea.data 1950 1000 92 2867 92 1247 00 Poker-hand- 1000000 11 8977 4376 581012 54 17 14289 17 7256 testing.data CovType.data Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán HDBAR nhỏ nhiều Thuật toán IQBAR, số liệu kích thước lớn, Thuật toán HDBAR hiệu 47 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai Để tiến hành thử nghiệm, cài đặt Thuật toán RuleExtract ngôn ngữ C# Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [22] Soybeansmall.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 1) Thử nghiệm Thuật toán DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện, DS độ chắn bảng định với tập thuộc tính ban đâu, DS ' độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.4 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small STT Bộ số liệu U C Tập thuộc tính DS ban đầu Soybean- 47 35 {c1,…,c35} Tập thuộc DS ' tính rút gọn {c4, c22} small.data 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng mô hình tập thô dung sai với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mô tả Bảng 3.5, đó: tổng số luật phân lớp 7, độ dài luật 2, độ chắn s độ hỗ trợ luật 48 Bảng 3.5 Các luật phân lớp bảng định rút gọn STT Các luật bảng định rút gọn s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 49 KẾT LUẬN 1) Những kết luận văn Luận văn tập trung vào hướng nghiên cứu lý thuyết Nội dung nghiên cứu luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần đề xuất phương án Luận văn đạt hai kết chính: (1) Trên sở tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính bảng định không đầy đủ, bao gồm phương pháp rút gọn thuộc tính phân nhóm phương pháp, luận văn xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming sở kế thừa phương pháp rút gọn thuộc tính dựa metric entropy có (2) Cài đặt thử nghiệm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming phương pháp trích lọc luật số liệu thử nghiệm từ kho liệu UCI Phương pháp sử dụng khoảng cách Hamming không hiệu phương pháp sử dụng khoảng cách entropy Liang [13], nhiên ý nghĩa phần làm phong phú thêm phương pháp rút gọn thuộc tính sử dụng khoảng cách 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định thay đổi sử dụng độ đo khoảng cách 50 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Long Giang, Nguyễn Thanh Tùng (2009), “Nghiên cứu mối liên hệ ba khái niệm tập rút gọn lý thuyết tập thô”, Kỷ yếu hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT TT”, Đồng Nai, tr 282293 [3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2012), “Một phương pháp rút gọn thuộc tính bảng định sử dụng metric”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT TT”, Cần Thơ, 10/2011, Tr 249-266 [4] Nguyễn Long Giang, Phạm Hoàng Tuyên (2013), “Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc CNTT TT”, Hà Nội, 12/2012, Tr 295-301 [5] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 7385 Tài liệu tiếng Anh [1] Chin K.S., Liang J.Y and Dang C.Y (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp 264-268 [2] Huang B., He X and Zhou X.Z (2004), “Rough Computational methods based on tolerance matrix”, Acta Automatica Sinica, Vol 30, Vab 2004 Li X.H and Shi K.Q (2006), “A knowledge granulation-based algorithm [3] for attribute reduction under incomplete information systems”, Computer Science, Vol 33, pp 169-171 51 ... rút gọn thuộc tính mô hình tập thô truyền thống mô hình tập thô mở rộng dựa quan hệ dung sai, phương pháp rút gọn thuộc tính mô hình tập thô dung sai Tổng kết công bố phương pháp rút gọn thuộc tính, ... tập rút gọn Mô tả RP Tập rút gọn dựa miền dương R Tập rút gọn dựa hàm định suy rộng R Tập rút gọn ấn định RM Tập rút gọn dựa ma trận phân biệt RI Tập rút gọn dựa lượng thông tin RTM Tập rút gọn. .. dung sai xây dựng mô hình tập thô mở rộng dựa quan hệ dung sai, gọi mô hình tập thô dung sai Trong chương này, trình bày khái niệm mô hình tập thô truyền thống mô hình tập thô dung sai 1.1 Rút gọn