Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,66 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ====== TRẦN THỊ PHƢƠNG LIÊN NGHIÊN CỨU CÁC PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ====== TRẦN THỊ PHƢƠNG LIÊN NGHIÊN CỨU CÁC PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC SĨ MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS Nguyễn Long Giang HÀ NỘI, 2015 LỜI CÁM ƠN Trong thời gian qua để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS.Nguyễn long Giang tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 21 tháng 11 năm 2015 Học viên Trần Thị Phƣơng Liên LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên Trần Thị Phƣơng Liên i MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC i DANH MỤC CÁC THUẬT NGỮ iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC HÌNH VẼ v MỞ ĐẦU Chƣơng CÁC KHÁI NIỆM CƠ BẢN 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ 1.1.2 Bảng định đầy đủ 1.1.3 Tập rút gọn tập lõi 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung sai .8 1.2.1 Hệ thông tin không đầy đủ 1.1.2 Bảng định không đầy đủ Chƣơng RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 11 2.1 Rút gọn thuộc tính trích lọc luật bảng định không đầy đủ 11 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tính 11 2.1.2 Luật định độ đo đánh giá hiệu 16 2.1.3 Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tính 20 2.2 Xây dựng phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách 22 2.2.1 Xây dựng khoảng cách hai tập thuộc tính .23 2.2.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 27 2.2.3 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 32 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .33 3.1 Bài toán 33 ii 3.2 Phân tích, lựa chọn công cụ .33 3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông tin 34 3.2.2 Lựa chọn công cụ cài đặt 35 3.3 Một số kết thử nghiệm .35 3.3.1 Kết thử nghiệm rút gọn thuộc tính sử dụng khoảng cách 35 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai 37 3.4 Ứng dụng toán chuẩn đoán bệnh viêm gan B .39 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B 39 3.4.2 Mô tả liệu 39 3.4.3 Kết thực 40 KẾT LUẬN 44 TÀI LIỆU THAM KHẢO 45 PHỤ LỤC iii DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance iv DANH MỤC CÁC BẢNG Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.2 Bảng định không đầ đủ xe .10 Bảng 2.1 Các phương pháp rút gọn thuộc tính công trình [3, 8, 14] 13 Bảng 2.2 Bảng định không đầy đủ xe 17 Bảng 2.3 Bảng định không đầy đủ xe 30 Bảng 3.1 Kết thực Thuật toán DBAR Thuật toán IQBAR 36 Bảng 3.2 Tập rút gọn Thuật toán DBAR Thuật toán IQBAR .36 Bảng 3.3 Kết thực Thuật toán DBAK Thuật toán IQBAK số liệu lớn .37 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small .38 Bảng 3.5 Các luật phân lớp bảng định rút gọn 38 v DANH MỤC CÁC HÌNH VẼ Hình 2.1 Mối liên hệ tập rút gọn bảng định không đầy đủ 15 Hình 3.1 Kết rút gọn thuộc tính 42 Hình 3.2 Kết sinh luật định .43 MỞ ĐẦU Lý chọn đề tài Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa liệu nhằm tìm thuộc tính cốt lõi Dựa vào tập thuộc tính cốt lõi tìm được, thuật toán khai phá liệu đạt hiệu cao Với lớp toán trích lọc luật bảng định, rút gọn thuộc tính trình tìm tập rút gọn (reduct) tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp bảng định Dựa vào tập rút gọn, việc sinh luật định đạt hiệu cao Lý thuyết tập thô truyền thống Pawlak [11] xem công cụ hiệu để giải toán rút gọn thuộc tính sinh luật bảng định đầy đủ Tuy nhiên với toán thực tế, miền giá trị thuộc tính bảng định thường không đầy đủ giá trị Ví dụ lĩnh vực y tế, bác sỹ thu thập đầy đủ triệu trứng bệnh nhân để phục vụ chuẩn đoán bệnh Các bảng định gọi bảng định không đầy đủ (Incomplete Decision Table) Để giải toán rút gọn thuộc tính trích lọc luật bảng định không đầy đủ, công trình nghiên cứu Kryszkiewicz [5] thực mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm rút gọn thuộc tính trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công trình [2], [3], [4], [6], [7], [8], [9], [10] Như trình bày trên, rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Do đó, việc nghiên cứu phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao Hơn nữa, mô hình tập thô dung sai chứng minh công cụ hiệu để giải toán rút gọn thuộc tính, việc tiếp tục nghiên cứu nhằm tìm phương pháp mới, 35 10 For each b R If I R bd I A d then R R b ; 11 Return R ; 3.2.2 Lựa chọn công cụ cài đặt Tôi sử dụng công cụ ngôn ngữ lập trình C# môi trường hệ điều hành Windows XP Professional để thực cài đặt thuật toán rút gọn thuộc tính DBAR, IQBAR thuật toán trích lọc luật định RuleExtract Cả hai thuật toán DBAR IQBAR sử dụng đơn vị tính toán sở lớp dung sai S A ui với ui U Tôi sử dụng thuật toán cải tiến công trình [7] để cài đặt thuật toán tính lớp dung sai S A ui với ui U cho hai thuật toán DBAR IQBAR Do đó, lý thuyết độ phức tạp thời gian hai thuật toán DBAR IQBAR 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm rút gọn thuộc tính sử dụng khoảng cách Sau cài đặt, tiến hành chạy thử nghiệm Thuật toán DBAR Thuật toán IQBAR số liệu vừa nhỏ lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán 36 Bảng 3.1 Kết thực Thuật toán DBAR Thuật toán IQBAR STT U Bộ số liệu Thuật toán Thuật toán IQBAR DBAR C R R t t Hepatitis.data 155 19 1.3 1.296 Lung-cancer.data 32 56 0.175 0.171 Automobile.data 205 25 1.7 1.687 Anneal.data 798 38 179 178 Congressional 435 16 15 16.5 13 16.734 690 15 16.2 15.687 Voting Records Credit Approval Bảng 3.2 Tập rút gọn Thuật toán DBAR Thuật toán IQBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán IQBAR Thuật toán DBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, 10, {1, 2, 3, 4, 5, 8, 10, 11, Voting Records 11, 12, 13, 14, 15, 16} 12, 13, 14, 15, 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy: Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán DBAR Thuật toán IQBAR Tuy nhiên, với số liệu Anneal.data, Congressional Voting Records, tập rút gọn thu Thuật toán DBAR tối thiểu tập rút gọn thu Thuật toán IQBAR Điều phù hợp với kết nghiên cứu lý thuyết 37 Thời gian thực Thuật toán DBAR Thuật toán IQBAR tương đương Tiếp theo, tiến hành thử nghiệm Thuật toán DBAR Thuật toán IQBAR số liệu kích thước lớn Kết thử nghiệm mô tả bảng sau: Bảng 3.3 Kết thực Thuật toán DBAK Thuật toán IQBAK số liệu lớn TT STT Bộ số liệu U Thuật toán Thuật toán IQBAR DBAR C R t t R Census-Income.data 299285 40 21 5212 17 5206 Adult.data 48842 14 686 675 Dorothea.data 1950 1000 92 1256 78 1247 00 Poker-hand- 1000000 11 4385 4376 581012 54 17 7262 15 7256 testing.data CovType.data Trên số liệu có kích thước lớn, với số liệu Census-Income.data, Dorothea.data, CovType.data, tập rút gọn thu Thuật toán DBAR tối thiểu tập rút gọn thu Thuật toán IQBAR Điều phù hợp với kết nghiên cứu lý thuyết Thời gian thực thuật toán xấp xỉ 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai Để tiến hành thử nghiệm, cài đặt Thuật toán RuleExtract ngôn ngữ C# Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [13] Soybeansmall.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 38 1) Thử nghiệm Thuật toán DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện, DS độ chắn bảng định với tập thuộc tính ban đâu, DS ' độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.4 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small STT Bộ số liệu U C Tập thuộc DS tính ban đầu Soybean- 47 35 {c1,…,c35} Tập thuộc DS ' tính rút gọn {c4, c22} small.data 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng mô hình tập thô dung sai với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mô tả Bảng 3.5, đó: tổng số luật phân lớp 7, độ dài luật 2, độ chắn s độ hỗ trợ luật Bảng 3.5 Các luật phân lớp bảng định rút gọn STT Các luật bảng định rút gọn s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 39 Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 3.4 Ứng dụng toán chuẩn đoán bệnh viêm gan B 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B Viêm gan siêu vi B loại virut công gan, gây bệnh viêm gan Tổ chức Y tế Thế giới thông kê có khoảng 350 triệu người nhiễm virut viêm gan B Việt Nam có khoảng 20% dân số nhiễm virut viêm gan B Những người nhiễm virut viêm gan B không kiểm soát điều trị tốt gây viêm gan, xơ gan ung thư gan Như biết, từ bảng định có nhiều đối tượng, tập luật định rút trích lớn Để rút gọn tập luật định mà không làm tính đặc trưng bảng định ta rút gọn tập thuộc tính Dựa sở nghiên cứu lý thuyết chương “Rút gọn thuộc tính trích lọc luật bảng định không đầy đủ”, luận văn thử nghiệm thuật toán vào triệu chứng bệnh Viêm gan B 3.4.2 Mô tả liệu Chương trình tìm luật rút gọn cho thuộc tính điều kiện từ đưa luật định để dùng vào sở tri thức hệ chuyên gia nhằm mục đích chuẩn đoán bệnh Số thuộc tính rút gọn phải nhỏ số thuộc tính ban đầu có giá trị việc đưa luật định Luật tạo có số thuộc tính nhỏ không ảnh hưởng đến việc đưa định Số liệu thực nghiệm lấy từ kho liệu UCI[13] với liệu viêm gan Hepatitis.data để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh viêm gan cho bệnh nhân Thông tin thuộc tính 40 Class: DIE, LIVE AGE: 10, 20, 30, 40, 50, 60, 70, 80 SEX: male, female STEROID: no, yes ANTIVIRALS: no, yes FATIGUE: no, yes MALAISE: no, yes ANOREXIA: no, yes LIVER BIG: no, yes 10 LIVER FIRM: no, yes 11 SPLEEN PALPABLE: no, yes 12 SPIDERS: no, yes 13 ASCITES: no, yes 14 VARICES: no, yes 15 BILIRUBIN: 0.39, 0.80, 1.20, 2.00, 3.00, 4.00 16 ALK PHOSPHATE: 33, 80, 120, 160, 200, 250 17 SGOT: 13, 100, 200, 300, 400, 500, 18 ALBUMIN: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0 19 PROTIME: 10, 20, 30, 40, 50, 60, 70, 80, 90 20 HISTOLOGY: no, yes 3.4.3 Kết thực Chương trình tiến hành khai phá liệu sở liệu bệnh nhân bị viêm gan Dữ liệu đầu vào với liệu viêm gan Hepatitis.data có cấu trúc sau: - Các thuộc tính điều kiện tương ứng với 19 triệu chứng thu thập từ bệnh nhân có biểu viêm gan, kí hiệu: {c1, c2, c3, …c19} - Mỗi dòng thông tin bệnh nhân, dòng bệnh nhân thể thuộc tính, hai thuộc tính “dấu cách” Với thuộc tính có giá trị cách dấu “,” 41 - Thuộc tính “?” có giá trị {0, 1, 2} - Thuộc tính cuối thuộc tính định mang giá trị {1}- Có bệnh, {0}- Không có bệnh Các thuộc tính tương ứng với số đại lượng dùng để xác định tình trạng bệnh bệnh nhân: - c1: Age- số tuổi bệnh nhân 10 đến 80 Lớp 0: [10-23], Lớp 1: [23- 46], Lớp 2: [46-80] - c2: Sex- Giới tính: = Male, = Female - c3: Steroid- Thuốc kháng viêm: = No, = Yes - c4: Antiviral- Thuốc kháng viruts: = No, = Yes - c5: Fatigue- Mệt mỏi: 0= No, = Yes - c6: Malaise- Khó ở: 0= No, = Yes - c7: Anorexia- Chán ăn: 0= No, = Yes - c8: Liver big- Gan sưng to: 0= No, = Yes - c9: Liver firm- Viêm gan: 0= No, = Yes - c10: Spleen palpable- Viêm lách: 0= No, = Yes - c11: Spiders- Mạch máu hình nhện da: 0= No, = Yes - c12: Ascites- Hạch ổ bụng: 0= No, = Yes - c13: Varices- Giãn tĩnh mạch: 0= No, = Yes - c14: Bilirubin- Sắc tố da (vàng da): Lớp 0: [0.39-1.20], Lớp 1: [1.20- 2.40], Lớp 2:[2.40- 4.00] - c15: Alk phosphate- Huyết tương: Lớp 0: [33-72.3], Lớp 1: [72.3- 144.6], Lớp 2: [144.6- 250] - c16: SGOT- Enzym men gan: Lớp 0: [13- 162.3], Lớp 1: [162.3- 324.6], Lớp 2: [324.6- 500] - c17: Albumin- Nồng độ albumin: Lớp 0: [2.1- 3.0], Lớp 1: [3.8- 4.5], Lớp 2: [5.0- 6.0] - c18: Protime- Tình trạng đông máu người bệnh: từ 10 đến 90 Lớp 0: [10-26.7], Lớp 1: [26.7- 53.4], Lớp 2: [53.4- 90] 42 - c19: Histology- Tiền sử mắc bệnh: 0= No, = Yes - d: Class- Lớp định: = Live, = Die Sau nạp liệu viêm gan Hepatitis.data với thuộc tính nêu vào chương trình thu kết tập rút gọn thuộc tính sinh tập luật định cho theo hình 3.1 3.2 Hình 3.1 Kết rút gọn thuộc tính 43 Hình 3.2 Kết sinh luật định Đánh giá kết quả: Sau kết thúc chương trình dựa vào thuật toán “Rút gọn thuộc tính bảng định không đầy đủ”, chương trình thu kết sau: Từ tập thuộc tính điều kiện chương trình thu tập rút gọn có số thuộc tính điều kiện nhỏ số thuộc tính điều kiện ban đầu Như vậy, thay phải dựa vào 19 thuộc tính ban đầu để đưa kết luận bệnh nhân có mắc bệnh hay không mắc bệnh ta dựa vào thuộc tính rút gọn bảng định để đưa kết luận bệnh nhân có mắc bệnh hay không Điều hiệu việc chuẩn đoán bệnh 44 KẾT LUẬN 1) Những kết luận văn Kết luận văn bao gồm: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính bảng định không đầy đủ, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào mối liên hệ tập rút gọn - Đánh giá phương pháp rút gọn thuộc tính dựa vào độ đo đánh giá hiệu tập luật định (2) Dựa vào phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách định nghĩa qua Entropy Liang công trình [7], luận văn xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách khác, khoảng cách tập thuộc tính điều kiện thuộc tính định định nghĩa qua khoảng cách Jaccard hai tập hợp hữu hạn Luận văn thử nghiệm phương pháp số liệu mẫu từ kho liệu thử nghiệm UCI [13] Trên sở đó, thử nghiệm phương pháp rút gọn thuộc tính trích lọc luật toán chuẩn đoán bệnh viêm gan B (trên tập số liệu thử nghiệm) 2) Hƣớng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định không đầy đủ trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính 45 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 7385 [3] Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 2021/06/2013, Tr 394-402 Tài liệu tiếng Anh [4] Huang B., Li H X and Zhou X Z (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [5] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in 46 Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp 417-426 [9] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [10] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [11] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373–400 [12] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [13] The UCI machine learning repository, [14] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), No 4, pp 375-388 PHỤ LỤC Một số giao diện chƣơng trình thử nghiệm Giao diện chƣơng trình Giao diện chọn liệu thử nghiệm, ví dụ số liệu IRIS.DATA Giao diện rút gọn thuộc tính sử dụng thuật toán DBAR Giao diện xem bảng định sau rút gọn Giao diện trích lọc luật định [...]... quả nghiên cứu về các phương pháp rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ, bao gồm: tổng hợp và phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn; tổng hợp các kết quả nghiên cứu về luật quyết định và các độ đo đánh giá hiệu năng; tổng hợp các kết quả nghiên cứu về so sánh, đánh giá các phương pháp rút gọn thuộc tính Các kết quả này được công bố trong các. .. 3 không so sánh được với các phương pháp thuộc Nhóm 4 do tập rút gọn RD và tập rút gọn R không có mối quan hệ 22 2.2 Xây dựng phƣơng pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách Trong phần 2.1, luận văn đã tổng kết các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và luật quyết định trong bảng quyết định không đầy đủ, bao gồm: kết quả về phân nhóm các phương. .. bảng quyết định không đầy đủ Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [7, 8, 14], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng 13 Bảng 2.1 Các phương pháp rút gọn thuộc tính trong công... tài Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng 2 Mục đích nghiên cứu (Các kết quả cần đạt đƣợc) Mục đích của luận văn trước hết là tổng kết các kết quả nghiên cứu về lĩnh vực rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai Trên cơ sở đó, luận văn đề xuất phương pháp rút gọn thuộc tính. .. định không đầy đủ nhất quán 2) Tập rút gọn R1 làm giảm độ chắc chắc của tập luật đối với bảng quyết định không đầy đủ không nhất quán, do đó phương pháp miền dương thuộc Nhóm 1 không phù hợp với các bảng quyết định không đầy đủ không nhất quán 3) Tập rút gọn R2 , tập rút gọn R3 và tập rút gọn R4 đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất quán Do đó, các phương. .. tƣợng và phạm vi nghiên cứu - Đối tượng nghiên cứu: Các bảng quyết định không đầy đủ (thiếu giá trị) với kích thước trung bình và kích thước lớn trong lĩnh vực nghiên cứu và bảng quyết định đầy đủ - Phạm vi nghiên cứu: Nghiên cứu bài toán rút gọn thuộc tính trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức 5 Phƣơng pháp nghiên cứu - Nghiên cứu lý thuyết: Nghiên cứu các. .. trên các tập rút gọn R1 , R2 , R3 , R4 của các nhóm phương pháp 1, phương pháp 2, phương pháp 3, phương pháp 4 tương ứng 1) Tập rút gọn R1 (tập rút gọn của phương pháp miền dương) làm giảm độ độ chắc chắn, giảm độ nhất quán và tăng độ hỗ trợ của tập luật đối với bảng quyết định không đầy đủ không nhất quán 2) Tập rút gọn R2 (tập rút gọn của các phương pháp sử dụng hàm quyết định suy rộng, phương pháp. .. pháp rút gọn thuộc tính Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra định nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn Do đó, có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính Vì vậy, việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn như nhau... phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: xây dựng độ đo khoảng cách; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm tập rút gọn; phân nhóm, đánh giá phương pháp với các phương pháp đã công bố 2.1 Rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ 2.1.1 Tổng kết, phân nhóm các phƣơng pháp rút. .. đủ, các tác giả trong công trình [7] đã xây dựng công thức tính khoảng cách giữa hai phủ (sinh bởi hai tập thuộc tính) dựa vào độ đo Entropy Liang mở rộng, từ đó đề xuất phương pháp rút gọn thuộc tính trong hệ thông tin không đầy đủ và bảng quyết định không đầy đủ Tiếp tục hướng nghiên cứu về kỹ thuật sử dụng khoảng cách, trong phần này luận văn xây dựng phương pháp rút gọn thuộc tính trong bảng quyết