MỞ ĐẦU Lý thuyết tập thô do Pawlak [31] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tìm tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất. Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô của Pawlak [31] là chủ đề nghiên cứu sôi động trong hai thập kỷ qua. Cho đến nay, có rất nhiều phương pháp rút gọn thuộc tính đã được đề xuất bởi các nhóm nghiên cứu theo các hướng tiếp cận khác nhau như: hướng tiếp cận dựa trên miền dương, hướng tiếp cận dựa trên ma trận, hướng tiếp cận dựa trên độ đo entropy, hướng tiếp cận tính toán hạt, hướng tiếp cận dựa trên độ đo khoảng cách... Phương pháp rút gọn thuộc tính dựa trên miền dương do Pawlak [48] đề xuất, phương pháp này đã xây dựng thuật toán tính miền dương . Về sau, các công bố trong [31][49][11][25] đã tiếp tục cải DPOS C tiến thuật toán này. Phương pháp rút gọn thuộc tính sử dụng các phép toán trong đại số quan hệ do Hu Xiaohua và các cộng sự [14] đưa ra, phương pháp này xây dựng thuật toán tìm tập lõi và tập rút gọn của bảng quyết định. Tuy nhiên khái niệm tập lõi có nhược điểm và đã được tác giả trong luận án [1] khắc phục. Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt do Skowron [8] đề xuất được xây dựng trên khái niệm ma trận phân biệt, hàm phân biệt. Phương pháp này cũng đã được Ye Dong Yi và các cộng sự [51] khắc phục nhược điểm tìm tập rút gọn và tập lõi trong bảng quyết định không nhất quán. Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt được Zadeh [53] giới thiệu về mô hình tính toán hạt và đã được các tác giả [21], [22], [54] đề xuất các thuật toán heuristic tìm tập rút gọn sử dụng độ đo phép kết hạt bởi thuộc tính làm tiêu chuẩn đánh giá độ quan trọng của thuộc tính. Phương pháp rút gọn thuộc tính sử dụng entropy thông tin do các tác giả Wang Guo Yin và các cộng sự [43], [45], [46], [47], [48] phát triển từ khái niệm Entropy thông tin Shannon giới thiệu vào năm 1948. Tuy nhiên, các tác giả trong [42], [43], đã phân tích nhược điểm của định nghĩa độ quan trọng của thuộc tính trong [47] và đề xuất định nghĩa độ quan trọng mới, từ đó xây dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy Shannon có điều kiện. Phương pháp rút gọn thuộc tính sử dụng metric do tác giả trong luận án[2] đề xuất dựa trên cơ sở khái niệm metric do R.López de Mántaras [38] xây dựng. Song song với việc đề xuất các phương pháp rút gọn thuộc tính, các nhà nghiên cứu tập trung vào đề xuất các độ đo làm tiêu chuẩn định lượng để so sánh, đánh giá các phương pháp rút gọn thuộc tính. Trong luận án [2] tác giả đã tìm mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn, dựa vào đó đã phân các phương pháp rút gọn làm 3 nhóm: Nhóm 1: Nhóm phương pháp tìm tập rút gọn Pawlak; Nhóm 2: Nhóm phương pháp tìm tập rút gọn Entropy Shannon (bao gồm phương pháp sử dụng entropy Shannon và phương pháp sử dụng các phép toán trong đại số quan hệ); Nhóm 3: Nhóm phương pháp tìm tập rút gọn Entropy Liang (Bao gồm phương pháp sử dụng entropy Liang, phương pháp sử dụng ma trận phân biệt và phương pháp sử dụng độ khác biệt của tri thức). Dựa vào ba độ đo độ chắc chắn, độ nhất quán và độ hỗ trợ của Yuhua Qian [36], tác giả trong luận án [2] cũng đã đề xuất độ nhất quán mới, nhằm so sánh, đánh giá các nhóm phương pháp rút gọn thuộc tính. Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ. Trên bảng quyết định không đầy đủ, Kryszkiewicz [18] đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Giống như các phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống được trình bày trong luận án [2], các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai đã công bố là các phương pháp heuristic, đều thực hiện các bước sau đây: 1) Đưa ra khái niệm tập rút gọn dựa trên độ đo được xây dựng. 2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng đóng góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại. 3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (khả năng phân lớp của thuộc tính) Trong mấy năm gần đây các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai đã được các nhà khoa học quan tâm nghiên cứu và đã thu được một số kết quả đáng kể. Các phương pháp điển hình có thể kể đến là: Kryszkiewicz [18] định nghĩa tập rút gọn dựa trên hàm quyết định suy rộng và đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quyết định suy rộng. Zuqiang Meng và các cộng sự [56] đưa ra khái niệm về tập rút gọn dựa trên miền dương và đề xuất phương pháp rút gọn thuộc tính dựa trên miền dương. Theo hướng tiếp cận tính toán hạt (granular computing), Huang B và các cộng sự [16] đưa ra khái niệm tập rút gọn dựa trên độ đo lượng thông tin (information quantity) và đề xuất phương pháp rút gọn thuộc tính dựa trên độ đo lượng thông tin. Theo hướng tiếp cận mở rộng khái niệm ma trận phân biệt trong lý thuyết tập thô truyền thống, Huasheng ZOU và cộng sự [17] đưa ra khái niệm tập rút gọn dựa trên ma trận phân biệt và đề xuất phương pháp rút gọn thuộc tính dựa trên ma trận phân biệt . Cũng theo hướng tiếp cận này, các tác giả trong [19] đưa ra khái niệm tập rút gọn dựa trên ma trận dung sai (tolerance matrix) và xây dựng phương pháp rút gọn thuộc tính dựa trên ma trận dung sai. Ngoài ra, có thể kể đến các phương pháp rút gọn thuộc tính trong các công trình [29], [31], các tác giả này đã đưa ra khái niệm tập rút gọn phân bố (distribution reduct), tập rút gọn ấn định (assignment reduct) và xây dựng phương pháp rút gọn thuộc tính dựa trên hàm phân bố, hàm ấn định. Theo hướng tiếp cận độ đo khoảng cách (metric), tác giả trong luận án [2] xây dựng độ đo metric và đề xuất phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ dựa trên metric được xây dựng. Giống như cách tiếp cận trong lý thuyết tập thô truyền thống, để tiến hành so sánh, đánh giá các phương pháp rút gọn thuộc tính theo các hướng tiếp cận khác nhau nhằm tìm ra một phương pháp hiệu quả với một bài toán thực tế, các nhà nghiên cứu tập trung giải quyết hai vấn đề: vấn đề thứ nhất là tìm kiếm mối liên hệ giữa các khái niệm tập rút gọn của các phương pháp nhằm phân nhóm các phương pháp; vấn đề thứ hai là đề xuất các độ đo hiệu quả nhằm đánh giá các phương pháp về mặt định lượng.
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - VŨ VĂN ĐỊNH RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI LUẬN ÁN TIẾN SỸ TOÁN HỌC HÀ NỘI – 2016 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… VŨ VĂN ĐỊNH RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI LUẬN ÁN TIẾN SỸ TOÁN HỌC Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62 46 01 10 Người hướng dẫn khoa học: GS.TS Vũ Đức Thi PGS.TS Ngô Quốc Tạo HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án tiến sĩ công trình nghiên cứu thực Các thông tin số liệu sử dụng luận án hoàn toàn trung thực xác Tất giúp đỡ cho việc thực luận án xin phép cảm ơn Các thông tin trích dẫn luận án ghi rõ nguồn gốc Tác giả luận án Vũ Văn Định LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ lòng biết ơn sâu sắc đến GS.TS Vũ Đức Thi, PGS.TS Ngô Quốc Tạo, TS Nguyễn Long Giang, người Thầy không ngại gian khó tận tình giúp đỡ hướng dẫn suốt trình nghiên cứu hoàn thành luận án Tôi xin chân thành cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học Công nghệ Việt Nam, Học viện Khoa học Công nghệ thuộc Viện Hàn lâm Khoa học Công nghệ Việt Nam, Phòng quản lý đào tạo, phòng ban chức tập thể Nhà khoa học Viện Công nghệ thông tin Học viện Khoa học Công nghệ giúp đỡ suốt trình học tập nghiên cứu Tôi xin bày tỏ lòng biết ơn đến Ban giám hiệu, lãnh đạo đơn vị Trường Đại học Điện lực hỗ trợ, tạo điều kiện tốt cho suốt trình thực luận án Tôi xin chân thành cảm ơn tới lãnh đạo đồng nghiệp Khoa Công nghệ thông tin, Phòng Khảo thí Đảm bảo chất lượng giáo dục trường Đại học Điện lực động viên giúp đỡ thời gian học tập nghiên cứu Cuối bày tỏ lòng biết ơn đến gia đình người thân tôi, người sát cánh bên để động viên, giúp đỡ vượt qua khó khăn để hoàn thành luận án MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ .6 BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH, BẢNG MỞ ĐẦU CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ .18 1.1 Hệ thông tin mô hình tập thô truyền thống 18 1.1.1 Hệ thông tin 18 1.1.2 Mô hình tập thô truyền thống .19 1.1.3 Bảng định đầy đủ 21 1.1.4 Tập rút gọn tập lõi 22 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung sai 23 1.2.1 Hệ thông tin không đầy đủ .23 1.2.2 Mô hình tập thô dung sai .24 1.2.3 Bảng định không đầy đủ .27 1.3 Các khái niệm tập rút gọn bảng định không đầy đủ .29 1.3.1 Tập rút gọn dựa hàm định suy rộng .29 1.3.2 Tập rút gọn dựa miền dương 30 1.3.3 Tập rút gọn dựa độ đo lượng thông tin 30 1.3.4 Tập rút gọn dựa ma trận phân biệt 30 1.3.5 Tập rút gọn dựa ma trận dung sai 31 1.3.6 Tập rút gọn dựa hàm phân bố, hàm ấn định 32 1.3.7 Tập rút gọn dựa metric 32 1.4 Kết luận chương 33 CHƯƠNG ĐỀ XUẤT PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 34 2.1 Mở đầu 34 2.2 Đề xuất phân nhóm phương pháp rút gọn thuộc tính 35 2.2.1 Bảng ký hiệu tập rút gọn bảng định không đầy đủ 36 2.2.2 Mối liên hệ khái niệm tập rút gọn RD , RI , RTM .37 2.2.3 Mối liên hệ R RP 40 2.2.4 Mối liên hệ RD R .41 2.2.5 Mối liên hệ R R .44 2.2.6 Đề xuất phân nhóm phương pháp rút gọn thuộc tính .45 2.3 Đánh giá phương pháp rút gọn thuộc tính 48 2.3.1 Luật định độ đo đánh giá hiệu 48 2.3.2 Đề xuất độ đo đánh giá hiệu tập luật định 54 2.3.3 Nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn 57 2.3.4 Thử nghiệm thay đổi giá trị độ đo đề xuất tập rút gọn 60 2.3.5 Lựa chọn, đánh giá phương pháp rút gọn thuộc tính 65 2.4 Kết luận chương 67 CHƯƠNG ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 68 3.1 Mở đầu 68 3.2 Chọn tập đối tượng đại diện cho toán rút gọn thuộc tính .68 3.2.1 Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ .69 3.2.2 Chọn tập đối tượng đại diện cho bảng định không đầy đủ 73 3.3 Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện 78 3.3.1 Độ đo lượng thông tin mở rộng .79 3.3.2 Xây dựng lượng thông tin mở rộng có điều kiện 80 3.3.3 Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện82 3.3.4 Thử nghiệm đánh giá kết 87 3.4 Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ 91 3.4.1 Ma trận quan hệ hàm quan hệ 92 3.4.2 Rút gọn thuộc tính sử dụng hàm quan hệ 95 3.4.3 Thử nghiệm đánh giá kết 98 3.5 Kết luận chương 100 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 104 DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Hệ thông tin không đầy đủ Incomplete Information System Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Tập thô dung sai Tolerance Rough Set Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Ma trận quan hệ Relational Matrix Hàm quan hệ Relations Function Lượng thông tin mở rộng Extended information quantity Luật định Decision Rule BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải IIS U , A Hệ thông tin không đầy đủ IDS U , A d Bảng định không đầy đủ U Số đối tượng A Số thuộc tính điều kiện bảng định u a Giá trị đối tượng u thuộc tính a SIM A Quan hệ dung sai tập thuộc tính A SA u Lớp dung sai đối tượng u tập thuộc tính A U/A Phân hoạch U sinh tập thuộc tính A U / SIM A Phủ U sinh tập thuộc tính A COVER U Họ tất phủ U A (u ) Hàm định suy rộng đối tượng u A AX A xấp xỉ X AX A xấp xỉ X BN P X B - miền biên X POS A D A miền dương D I B /d Lượng thông tin tập thuộc tính B thuộc tính định d CEI R d Lượng thông tin mở rộng tập thuộc tính R thuộc tính định d MC A Họ khối đồng cực đại tập A DIS R Hàm quan hệ IDS R DANH MỤC HÌNH, BẢNG Hình 1.1 Mối quan hệ tập rút gọn 46 Hình 2.1 Sự thay đổi độ hỗ trợ tập rút gọn 64 Hình 3.1 Sự thay đổi độ hỗ trợ hai tập rút gọn hai thuật toán EIQBAR MBAR 90 Bảng 1.1 Bảng định bệnh cúm .21 Bảng 1.2 Bảng thông tin xe .24 Bảng 1.3 Bảng định xe 28 Bảng 2.1 Ký hiệu tập rút gọn bảng định không đầy đủ 36 Bảng 2.2 Bảng định minh họa Ví dụ 2.1 41 Bảng 2.3 Bảng định minh họa Ví dụ 2.2 43 Bảng 2.4 Bảng định không đầy đủ tivi 49 Bảng 2.5 Kết thử nghiệm thay đổi độ đo đánh giá hiệu 63 Bảng 2.6 Kết thử nghiệm thay đổi độ đo đánh giá hiệu 63 Bảng 3.1 Bảng thông tin xe 72 Bảng 3.2 Bảng định không đầy đủ xe 77 Bảng 3.3 Bảng định không đầy đủ mô tả xe .86 Bảng 3.5 Tập rút gọn thuật toán MBAR Thuật toán EIQBAR 89 Bảng 3.6 Kết tính toán độ chắn, độ quán độ hỗ trợ tập rút gọn 90 Bảng 3.7 Bảng định không đầy đủ mô tả tivi 92 Bảng 3.8 Kết thực thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR 99 Bảng 3.9 Tập rút gọn thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR 99 98 Giả sử k số thuộc tính điều kiện n số đối tượng Dễ thấy độ phức tạp để tính M A O kn , độ phức tạp tính DIS A O kn Xét vòng lặp While từ dòng lệnh đến dòng lệnh 7, độ phức tạp để tính tất SIGR a k k 1 1 * kn k * k 1 / * kn O k 3n Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn k k 1 k * k 1 / O k Do đó, độ phức tạp vòng lặp While O k 3n Tương tự, độ phức tạp vòng lặp For O k 2n Vì vậy, độ phức tạp Thuật toán RBAR O k 3n Ví dụ 3.7 Xét bảng định không đầy đủ IDS U , A d cho Ví dụ 3.4 Áp dụng Thuật toán RBAR tìm tập rút gon R ta có: Đặt R tính: SIGout a1 DIS a1 DIS DIS a1 SIGout a2 DIS a2 DIS DIS a2 SIGout a3 DIS a3 DIS DIS a3 10 SIGout a DIS a DIS DIS a Chọn thuộc tính a3 có độ quan trọng lớn R a3 Từ Ví dụ 3.5 ta có DIS A 13 , DIS R DIS ( A) Chuyển vòng lặp thứ tính: a1 DIS a1 , a3 DIS a3 10 10 SIGaout a DIS a , a3 DIS a3 10 10 SIGaout a DIS a3 , a DIS a3 13 10 SIGaout Chọn thuộc tính a4 có độ quan trọng lớn nhất, R a3 , a4 99 Ta thấy DIS a3 , a DIS ( A) 13 , chuyển đến vòng lặp For thực kiểm tra tập R thu Theo tính toán trên, DIS a DIS ( A) DIS a3 DIS ( A) Do thuật toán kết thúc R a3 , a4 rút gọn “tốt nhất” A 3.4.3 Thử nghiệm đánh giá kết Luận án chọn thuật toán MBAR tìm tập rút gọn bảng định không đầy đủ sử dụng metric [2] Thuật toán EIQBAR tìm tập rút gọn sử dụng lượng thông tin mở rộng để so sánh với Thuật toán RBAR tìm tập rút gọn sử dụng hàm quan hệ thời gian thực kết thực Bởi vì: - Tập rút gọn Thuật toán RBAR (thuộc Nhóm 2) tối thiểu tập rút gọn Thuật toán MBAR (thuộc Nhóm 3) - Tập rút gọn Thuật toán RBAR (thuộc Nhóm 2) tương đương với tập rút gọn Thuật toán EIQBAR (thuộc Nhóm 2) Để tiến hành thử nghiệm, Ta thực công việc sau: 1) Cài đặt thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR ngôn ngữ C# Thuật toán MBAR, Thuật toán EIQBAR sử dụng thuật toán [17] để tính lớp dung sai S B ui với ui U 2) Trên máy tính PC với cấu hình Core i3 4150, GB nhớ RAM, sử dụng hệ điều hành Windows 7, chạy thử nghiệm ba thuật toán với số liệu lấy từ kho liệu UCI [40] (Mô tả liệu chi tiết mục 2.3.4) Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s), thuộc tính điều kiện đánh số 1, 2,…, C Kết thực ba thuật toán mô tả Bảng 3.8 Bảng 3.9 sau 100 Bảng 3.8 Kết thực thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR STT Bộ số liệu U Thuật toán Thuật toán Thuật toán MBAR EIQBAR RBAR C t R t R t R Hepatitis.data 155 19 1.296 1.29 1.56 Lung-cancer.data 32 56 0.171 0.17 0.98 Automobile.data 205 26 1.687 1.68 1.92 Anneal.data 798 38 179 178 196 Congressional 435 16 15 16.7 15 16.73 15 18.45 690 15 15.7 15.68 17.02 Voting Records Credit Approval Bảng 3.9 Tập rút gọn thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR STT Tập liệu Tập rút gọn Tập rút gọn Tập rút gọn MBAR EIQBAR RBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 17} {1, 2, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 8, 9, 13, 14, 20, {1, 4, 13, 14, 20, {1, 4, 13, 14, 20, 21, 24} Anneal.data 21} {1, 3, 4, 5, 8, 9, 33, {1, 3, 4, 5, 8, 9, {1, 3, 4, 5, 8, 9, 34, 35} 21} 34} 34} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, {1, 2, 3, 4, 5, 7, 8, Voting Records 10, 11, 12, 13, 14, 9, 10, 11, 12, 13, 9, 10, 11, 12, 13, Credit Approval 15, 16} 14, 15, 16} 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} {1, 3, 4, 5, 8} {1, 3, 4, 5, 8} 101 Kết thử nghiệm cho thấy: Trên liệu, tập rút gọn thu Thuật toán EIQBAR Thuật toán RBAR Điều phù hợp với nghiên cứu lý thuyết, phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng (Thuật toán EIQBAR) phương pháp rút gọn thuộc tính sử dụng hàm quan hệ (Thuật toán RBAR) thuộc Nhóm Trên số liệu quán Lung-cancer.data, Congressional Voting Records, tập rút gọn thu Thuật toán RBAR Thuật toán MBAR Tuy nhiên, với số liệu lại, tập rút gọn thu Thuật toán RBAR tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết Thời gian thực Thuật toán EIQBAR Thuật toán MBAR tương đương Tuy nhiên, thời gian thực Thuật toán RBAR lớn thời gian thực Thuật toán EIQBAR Bởi vì, độ phức tạp thời gian Thuật toán RBAR cao so với Thuật toán EIQBAR Sở dĩ cao Thuật toán EIQBAR sử dụng công thức cải tiến tính S Ra u i với u i U S R u i tính bước trước [17] Còn Thuật toán 3.4 tính ma trận quan hệ trực tiếp từ lớp dung sai S R ui với u i U 3.5 Kết luận chương Chương luận án thực nội dung nghiên cứu sau: (1) Theo hướng tiếp cận rút gọn liệu, chương đề xuất kỹ thuật chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ bảng định không đầy đủ nhằm giảm thiểu thời gian thực thuật toán tìm tập rút gọn bảng định có dung lượng liệu lớn Kết công bố công trình [CT3] 102 (2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng chứng minh phương pháp đề xuất thuộc Nhóm (trong phân nhóm phương pháp rút gọn thuộc tính trình bày Chương 2) Kết công bố công trình [CT5] (3) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ chứng minh phương pháp đề xuất thuộc Nhóm (trong phân nhóm phương pháp rút gọn thuộc tính trình bày Chương 2) Kết công bố công trình [CT4] Các kết nghiên cứu góp phần làm phong phú thêm hướng nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ 103 KẾT LUẬN 1) Những kết luận án: Luận án tập trung giải toán rút gọn thuộc tính bảng định không đầy đủ bước tiền xử lý liệu với kết sau: (1) Phân nhóm phương pháp rút gọn thuộc tính dựa vào kết nghiên cứu mối liên hệ khái niệm tập rút gọn dựa nguyên tắc: phương pháp có tập rút gọn giống phân vào nhóm Luận án phương pháp rút gọn thuộc tính phân thành bốn nhóm: Nhóm 1, Nhóm 2, Nhóm 3, Nhóm Luận án nghiên cứu mối liên hệ tập rút gọn nhóm phương pháp Kết phân nhóm sở để đánh giá phương pháp rút gọn thuộc tính Kết công bố công trình [CT1] (2) Đề xuất độ đo đánh giá hiệu tập luật định (độ chắn, độ quán, độ hỗ trợ) Nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn bốn nhóm phương pháp Trên sở đó, lựa chọn đánh giá phương pháp rút gọn thuộc tính nhóm dựa tiêu chuẩn khả phân lớp tập rút gọn Kết công bố công trình [CT2] (3) Theo hướng tiếp cận rút gọn liệu, luận án đề xuất kỹ thuật chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ bảng định không đầy đủ nhằm giảm thiểu thời gian thực thuật toán tìm tập rút gọn bảng định có dung lượng liệu lớn Kết công bố công trình [CT3] (4) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng Lượng thông tin mở rộng xây dựng dựa khoảng cách Jaccard hai tập hợp hữu hạn Chứng minh phương pháp đề xuất sử dụng lượng thông tin mở rộng thuộc Nhóm Kết công bố công trình [CT5] 104 (5) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ Hàm quan hệ xây dựng theo ma trận quan hệ dựa tiếp cận ma trận phân biệt lý thuyết tập thô truyền thống Chứng minh phương pháp đề xuất sử dụng hàm quan hệ thuộc Nhóm Kết công bố công trình [CT4] 2) Hướng phát triển luận án: Tiếp tục nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ hiệu Tiếp tục nghiên cứu giải toán rút gọn thuộc tính trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính theo hướng tiếp cận tính toán gia tăng nhiều độ đo khác nhằm tìm kiếm phương pháp hiệu 105 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CT1 Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and Applications (FAIA), Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp 417-426 CT2 Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr 394-402 CT3 Nguyễn Long Giang, Vũ Văn Định, “Chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VII - Nghiên cứu ứng dụng CNTT - FAIR7, Thái Nguyên, 20-21/06/2014, Tr 5159 CT4 Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp 375-388 CT5 Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang, “Phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách phân hoạch”, Chuyên san công trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí thông tinm khoa học công nghệ thông tin &Truyền thông Kỳ 3, Tập V-2, số 14(34), 2015 106 TÀI LIỆU THAM KHẢO [1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số lôgic phát luật theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [3] Phùng Thị Thu Hiền (2014), “Nghiên cứu rút gọn tập thuộc tính hệ định giá trị tập”, Luận án Tiến sĩ Toán học, Học viện kỹ thuật quân [4] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, “Một phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng metric”, Tạp chí Tin học Điều khiển học, T.28, S.2, 2012, tr 129-140 [5] Nguyễn Long Giang, Vũ Đức Thi (2011), “Thuật toán tìm tất rút gọn bảng định”, Tạp chí Tin học Điều khiển học, T.27, S.3, tr 199-205 [6] Nguyễn Long Giang, Vũ Văn Định,“Chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ”,Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VII-Nghiên cứu ứng dụng CNTT-FAIR7,Thái Nguyên, 20-21/06/2014,Tr.51-59 [7] Nguyễn Long Giang, Vũ Văn Định, “Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT FAIR6, Huế, 20-21/06/2013, Tr 394-402 107 Tài liệu tiếng Anh [8] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [9] Chen D.G, Zhao S.Y., Zhang L., Yang Y.P and Zhang X (2011), “Sample pair selection for attribute reduction with rough set”, IEEE Transaction on Knowledge and Data Engineering, 29 March 2011 [10] Chin K.S., Liang J.Y and Dang C.Y (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp 264268 [11] Ge H., Li L.S and Yang C.J (2009), “Improvement to Quick Attribution Reduction Algorithm”, Journal of Computers, Vol.30, No.2, pp 308-312 [12] Grzymala-Busse J.W (2011), “Mining Incomplete Data - A Rough Set Approach”, RSKT 2011: 1-7 [13] Hu X.H and Cercone N (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp 323-338 [14] Hu X.H., Lin T.Y and Han J.C (2004), “A new rough sets model based on database systems”, Fundamenta Informaticae, 59(1), pp 135-152 [15] Huang B., He X and Zhou X.Z (2004), “Rough Computational methods based on tolerance matrix”, Acta Automatica Sinica, Vol 30, Vab 2004, pp 363-370 [16] Huang B., Li H X and Zhou X Z (2005), “Attribute Reduction 108 Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [17] Huasheng ZOU, Changsheng ZHANG, “Efficient Algorithm for Knowledge Reduction in Incomplete Information System”, Journal of Computational Information Systems 8: 6, 2012, pp 2531-2538 [18] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [19] Lang G M., Lia Q G., Data compression of dynamic set-valued information systems, CoRR abs/1209.6509, 2012 [20] Li X.H and Shi K.Q (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol 33, pp 169-171 [21] Li J.H and Shi K.Q (2006), “A algorithm for attribute reduction based on knowledge granularity”, Computer Applications, Vol 26, No 6, pp 76-77 [22] Li X.H and Shi K.Q (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol 33, pp 169-171 [23] Liang J.Y and Qian Y.H (2006), “Axiomatic approach of knowledge granulation in information system”, Lecture Notes in Artificial Intelligence 4304, pp 1074-1078 [24] Liang J.Y and Qian Y.H (2008), “Information granules and entropy theory in information systems”, Information Sciences, Vol 51, pp 118 [25] Liu Y., Xiong R and Chu J (2009), “Quick Attribute Reduction Algorithm with Hash”, Chinese Journal of Computers, Vol.32, No.8, pp 1493-1499 [26] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision 109 Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [27] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99110 [28] Long Giang Nguyen, Van Dinh Vu, “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp 417-426 [29] Liang J.Y and Xu Z.B (2002), “The algorithm on knowledge reduction in incomplete information systems”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10 (1), pp 95-103 [30] Luo P., He Q and Shi Z.Z (2005), “Theoretical study on a new information entropy and its use in attribute reduction”, ICCI, pp 73-79 [31] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [32] Pawlak Z (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp 661-688 [33] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373–400 [34] Qian Y.H and Liang J.Y (2006), “Combination Entropy and 110 Combination Granulation in Incomplete Information System”, RSKT 2006, pp 184-190 [35] Qian Y.H and Liang J.Y (2008), “New method for measuring uncertainty in incomplete information systems”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems [36] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181202 [37] Renpu Li, Dao Huang, “Reducts in incomplete decision tables”, Proceedings of the First international conference on Advanced Data Mining and Applications, ADMA’05, 2005, pp 165-174 [38] R.López de Mántaras (1991), “A distance-based attribute selection measure for decision tree induction”, Machine Learning Vol 6, pp.8192 [39] Skowron A., Rauszer C., The Discernibility Matrices and Functions in Information systems, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, 1992, pp 331-362 [40] The UCI machine learning repository, http://archive.ics.uci.edu/ml/datasets.html [41] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, "Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems", Serdica Journal of Computing (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp 375-388 [42] Wang B.Y and Zhang S.M (2007), “A Novel Attribute Reduction 111 Algorithm Based on Rough Set and Information Entropy Theory”, 2007 International Conference on Computational Intelligence and Security Workshops, IEEE CISW, pp.81-84 [43] Wang C.R and OU F.F (2008), “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [44] Wang C Z., Wua C X., Chenb D G., Duc W J., Some properties of relation information systems under homomorphisms, Applied Mathematics Letters 21, 2008, pp 940–945 [45] Wang G.Y (2001), “Algebra view and information view of rough sets theory”, In: Dasarathy BV,editor Data mining and knowledge discovery: Theory, tools, and technology III, Proceedings of SPIE, pp 200-207 [46] Wang G.Y (2003), “Rough reduction in algebra view and information view”, International Journal of Intelligent System 18, pp 679-688 [47] Wang G.Y., Yu H and Yang D.C (2002), “Decision table reduction based on conditional information entropy”, Journal of Computers, Vol 25 No 7, pp 759-766 [48] Wang G.Y., Yu H., Yang D.C and Wu Z.F (2001), “Knowledge Reduction Based on Rough Set and Information Entropy”, Proc Of the World Multi-conference on Systemics, Cybernetics and Informatics, Orlando, Florida, pp 555-560 [49] Xu Z.Y., Liu Z.P., Yang B.R and Song W (2006), “A quick attribute reduction algorithm with complexity of Max O C U , O C U / C ”, Journal of Computers, Vol.29, No.3, pp 391-399 [50] Yao Y.Y., Zhao Y., Wang J., On reduct construction algorithms, Proceedings of International Conference on Rough Sets and 112 Knowledge Technology, 2006, pp 297-304 [51] Ye D.Y and Chen Z.J (2002), “A new discernibility matrix and computation of a core”, Acta Electronica Sinica, Vol 30, No 7, pp 1086-1088 [52] Y Leung, D.Y Li, Maximal consistent block technique for rule acquisition in incomplete information systems, Information Sciences 153 (2003) 85–106 [53] Zadeh L.A (1997), “Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic”, Fuzzy Sets and System, 90, pp 111-127 [54] Zhao M., Luo K and Qin Z (2008), “Algorithm for attribute reduction based on granular computing”, Computer Engineering and Applications, Vol 44, No 30, pp 157-159 [55] Zhou, X.Z., Huang, B., “Rough Set-based Attribute Reduction under Incomplete Information Systems”, Journal of Nanjing University of Science and Technology, 27(2003), pp 630-635 [56] Zuqiang Meng, Zhongzhi Shi, “A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough sets”, Information Sciences, Vol 179, 2009, pp 2774-2793