Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,79 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO NGUY ỄN HẢI NAM VIỆN ĐẠI HỌC MỞ HÀ NỘI CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THƠ NGUYỄN HẢI NAM KHĨA HÀ NỘI - 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ NGUYỄN HẢI NAM CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN LONG GIANG HÀ NỘI - 2016 LỜI CAM ĐOAN Tác giả xin cam đoan rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thơ trình bày luận văn tác giả thực hướng dẫn TS Nguyễn Long Giang Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 15 tháng 11 năm 2016 Tác giả Nguyễn Hải Nam LỜI CẢM ƠN Trước hết xin gửi lời cảm ơn chân thành đến tập thể thầy cô trường Viện Đại học Mở Hà Nội quan tâm tổ chức giảng dạy khóa cao học công nghệ thông tin tạo môi trường thuận lợi cho học tập nghiên cứu chuyên sâu lĩnh vực Công nghệ thông tin Tôi xin cảm ơn bạn bè đồng nghiệp động viên, giúp đỡ tạo điều kiện thuận lợi cho tơi q trình thực luận văn Đặc biệt xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học TS Nguyễn Long Giang tận tình bảo, hướng dẫn cho tơi trình nghiên cứu thực luận văn Cuối cùng, tơi biết ơn gia đình tạo điều kiện thuận lợi cho yên tâm suốt thời gian nghiên cứu hoàn thành luận văn cao học Hà Nội, ngày 15 tháng 11 năm 2016 Tác giả Nguyễn Hải Nam MỤC LỤC MỤC LỤC Danh mục thuật ngữ Danh sách bảng .8 MỞ ĐẦU Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 12 1.1 Hệ thông tin 12 1.2 Mô hình tập thơ 12 1.3 Bảng định 15 1.4 Tập rút gọn tập lõi 15 1.5 Ma trận phân biệt hàm phân biệt 17 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH 19 2.1 Tổng quan rút gọn thuộc tính trích lọc luật bảng định 19 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tính 19 2.1.2 Luật định độ đo đánh giá hiệu 23 2.1.3 So sánh, đánh giá phương pháp rút gọn thuộc tính 27 2.2 Rút gọn thuộc tính bảng định sử dụng khoảng cách 29 2.2.1 Xây dựng độ đo khoảng cách 30 2.2.2 Xây dựng khoảng cách hai tri thức tính chất 31 2.2.3 Xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách 34 2.2.4 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 39 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 40 3.1 Nhiệm vụ thử nghiệm 40 3.2 Lựa chọn công cụ cài đặt thử nghiệm 40 3.2.1 Thuật tốn tìm tập rút gọn sử dụng entropy Liang 40 3.2.2 Lựa chọn công cụ cài đặt 42 3.3 Kết thử nghiệm 42 3.3.1 Số liệu thử nghiệm 42 3.3.2 Môi trường thử nghiệm 43 3.3.3 Kết thử nghiệm 43 3.3.4 Kết thử nghiệm trích lọc luật theo tiếp cận tập thô 47 3.4 Ứng dụng toán chuẩn đoán bệnh viêm gan 50 3.4.1 Phát biểu toán 50 3.4.2 Mô tả liệu 50 3.4.3 Kết thực 51 KẾT LUẬN 56 Tài liệu tham khảo 57 Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Bảng định Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm .14 Bảng 1.2 Bảng định bệnh cúm 16 Bảng 2.1 Các phương pháp rút gọn thuộc tính tài liệu [1, 2] 20 Bảng 2.2 Bảng định xe .24 Bảng 2.3 Bảng định minh họa thuật tốn tìm tập rút gọn 37 Bảng 3.1 Các số liệu thử nghiệm kích thước vừa nhỏ 42 Bảng 3.2 Các số liệu kích thước lớn 42 Bảng 3.3 Kết thực Thuật toán EBAR Thuật toán DBAR 46 Bảng 3.4 Tập rút gọn Thuật toán EBAR Thuật toán DBAR 46 Bảng 3.5 Kết thực Thuật toán EBAK Thuật toán DBAK 47 số liệu lớn 47 Bảng 3.6 Tập rút gọn tốt số liệu Soybean-small 49 Bảng 3.7 Các luật phân lớp bảng định rút gọn sử dụng tập thô .49 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [7] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thơ khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tím tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo tồn thơng tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thơ tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác Các phương pháp điển hình tổng kết tài liệu [1] là: phương pháp dựa miền dương, phương pháp dựa ma trận phân biệt, phương pháp sử dụng độ đo entropy lý thuyết thông tin, phương pháp sử dụng độ đo tính tốn hạt, phương pháp sử dụng độ đo khoảng cách… Với mong muốn tổng hợp kết nghiên cứu phương pháp rút gọn thuộc tính bảng định theo tiếp cận tập thơ, sở xây dựng phương pháp sử dụng độ đo khoảng cách, luận văn đặt hai mục tiêu sau đây: 1) Tổng hợp phương pháp rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận lý thuyết tập thô tài liệu [1, 2], bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính mối liên hệ phương pháp dựa vào định nghĩa tập rút gọn - Trích lọc luật bảng định, bao gồm: luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn đánh giá phương pháp dựa tiêu chuẩn chất lượng phân lớp (độ hỗ trợ) tập luật 2) Xây dựng thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: xây dựng độ đo khoảng cách cơng thức tính khoảng cách hai tập thuộc tính; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách; xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có thử nghiệm phương pháp số liệu mẫu từ kho liệu UCI [12] Trên sở đó, luận văn thử nghiệm phương pháp với toán thực tiễn chuẩn đoán bệnh viêm gan Đối tượng nghiên cứu luận văn bảng định với kích thước trung bình kích thước lớn Phạm vi nghiên cứu luận văn tập trung vào tốn rút gọn thuộc tính bước tiền xử lý số liệu trích lọc luật bước khai phá liệu trình khai phá liệu khám phá tri thức Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: mệnh đề chứng minh chặt chẽ dựa vào kiến thức kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [12], so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] sử dụng chương chương • Thực thuật tốn DBAR • So sánh thời gian thực kết thực hai thuật toán cập nhật vào bảng kết thử nghiệm • Xem tập rút gọn tìm • Sinh luật định 2) Tổng kết kết thử nghiệm Kết thử nghiệm hai thuật toán tổng kết lại Bảng 3.3 Bảng 3.4 Trong đó, với liệu thử nghiệm, ký hiệu U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.3 Kết thực Thuật toán EBAR Thuật toán DBAR STT Bộ số liệu U Thuật toán Thuật toán EBAR DBAR C R t R t Hepatitis.data 155 19 1.296 0.89 Lung-cancer.data 32 56 0.187 0.171 Automobile.data 205 25 5 1.687 Anneal.data 798 38 179 86.921 Congressional 435 16 15 25.562 15 16.734 690 15 29.703 15.687 Voting Records Credit Approval Bảng 3.4 Tập rút gọn Thuật toán EBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán EBAR Thuật toán DBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 33, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, 10, {1, 2, 3, 4, 5, 7, 8, 9, 10, Voting Records 11, 12, 13, 14, 15, 16} 11, 12, 13, 14, 15, 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy − Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán EBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần − Thời gian thực Thuật toán DBAR nhanh Thuật tốn EBAR, Thuật tốn DBAR hiệu Thuật toán EBAR Tiếp theo, chúng tơi tiến hành thử nghiệm Thuật tốn DBAR Thuật tốn EBAR số liệu kích thước lớn Kết thử nghiệm mô tả Bảng 3.5 Bảng 3.5 Kết thực Thuật toán EBAK Thuật toán DBAK số liệu lớn ST U Bộ số liệu T Thuật toán Thuật toán EBAR DBAR C R R t t Census-Income.data 299285 40 21 11415 21 5206 Adult.data 48842 14 1270 675 Dorothea.data 1950 1000 92 2867 92 1247 00 Poker-hand- 1000000 11 8977 4376 581012 54 17 14289 17 7256 testing.data CovType.data Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật tốn EBAR, số liệu kích thước lớn, Thuật toán DBAR hiệu 3.3.4 Kết thử nghiệm trích lọc luật theo tiếp cận tập thô Cho bảng định DS = (U , C ∪ D ) , giả sử U / C = {X1, X , , X m} U / D ={Y1,Y2 , ,Yn} Với Xi ∈U / C , Yj ∈U / C Xi ∩Yj ≠ ∅ Thuật toán RuleExtract tài liệu [1] hiển thị luật định dạng Zij : des ( X i ) → des (Y j ) với độ chắn µ ( Zij ) = X i ∩ Y j / X i đỗ hỗ trợ s ( Z ij ) = X i ∩ Y j / U tương ứng Thuật toán RuleExtract [1] Input: Bảng định DS = (U, C∪D, V, f) Output: Hiển thị danh sách luật với độ chắn µ độ hỗ trợ s Tính phân hoạch U / C ; For each X i ∈ U / C Begin Tính X i / D ; For each Y j ∈ X i / D Begin Sinh luật Zij : des ( X i ) → des (Y j ) Tính µ ( Z ij ) = Y j / X i ; Tính s ( Zij ) = Y j / U ; 10 Hiển thị luật Z ij , độ chắn µ ( Zij ) , độ hỗ trợ s ( Z ij ) ; 11 End; 12 End; 13 Return Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô cài đặt ngôn ngữ C# Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [12] Soybean-small.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 1) Thử nghiệm Thuật tốn DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tượng, C số thuộc tính điều kiện, α ( DS ) độ chắn bảng định với tập thuộc tính ban đâu, α ( DS ' ) độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm mô tả Bảng 3.6 Bảng 3.6 Tập rút gọn tốt số liệu Soybean-small STT Bộ số liệu U Tập thuộc C tính ban đầu Soybean- 47 35 Tập thuộc α ( DS ) {c1,…,c35} α ( DS ' ) tính rút gọn 1 {c4, c22} small.data 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm mô tả Bảng 3.7, đó: tổng số luật phân lớp 7, độ dài luật 2, µ độ chắn s độ hỗ trợ luật Bảng 3.7 Các luật phân lớp bảng định rút gọn sử dụng tập thô STT Các luật bảng định rút gọn µ s c4(1) and c22(1) ==> D1 0.12766 c4(1) and c22(0) ==> D1 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(1) and c22(3) ==> D2 0.08511 c4(0) and c22(1) ==> D3 0.21277 c4(1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 3.4 Ứng dụng toán chuẩn đoán bệnh viêm gan 3.4.1 Phát biểu toán Viêm gan siêu vi B loại virut công gan, gây bệnh viêm gan Tổ chức Y tế Thế giới thông kê có khoảng 350 triệu người nhiễm virut viêm gan B Việt Nam có khoảng 20% dân số nhiễm virut viêm gan B Những người nhiễm virut viêm gan B khơng kiểm sốt điều trị tốt gây viêm gan, xơ gan ung thư gan Như biết, từ bảng định có nhiều đối tượng, tập luật định rút trích lớn Để rút gọn tập luật định mà khơng làm tính đặc trưng bảng định ta rút gọn tập thuộc tính Dựa sở nghiên cứu lý thuyết chương xây dựng “Thuật tốn rút gọn thuộc tính bảng định sử dụng khoảng cách”, luận văn thử nghiệm thuật toán vào triệu chứng bệnh Viêm gan B 3.4.2 Mô tả liệu Chương trình tìm luật rút gọn cho thuộc tính điều kiện từ đưa luật định để dùng vào sở tri thức hệ chuyên gia nhằm mục đích chuẩn đốn bệnh Số thuộc tính rút gọn phải nhỏ số thuộc tính ban đầu có giá trị việc đưa luật định Luật tạo có số thuộc tính nhỏ không ảnh hưởng đến việc đưa định Số liệu thực nghiệm lấy từ kho liệu UCI [12] với liệu viêm gan hepatitis.data để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh viêm gan cho bệnh nhân Thơng tin thuộc tính AGE: 10, 20, 30, 40, 50, 60, 70, 80 SEX: male, female STEROID: no, yes ANTIVIRALS: no, yes FATIGUE: no, yes MALAISE: no, yes ANOREXIA: no, yes LIVER BIG: no, yes LIVER FIRM: no, yes SPLEEN PALPABLE: no, yes SPIDERS: no, yes ASCITES: no, yes VARICES: no, yes BILIRUBIN: 0.39, 0.80, 1.20, 2.00, 3.00, 4.00 ALK PHOSPHATE: 33, 80, 120, 160, 200, 250 SGOT: 13, 100, 200, 300, 400, 500, ALBUMIN: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0 PROTIME: 10, 20, 30, 40, 50, 60, 70, 80, 90 HISTOLOGY: no, yes 3.4.3 Kết thực Chương trình thực rút gọn thuộc tính trích lọc luật định bảng định bệnh nhân bị viêm gan mô tả Dữ liệu đầu vào file dạng csv với liệu viêm gan hepatitis.data có cấu trúc sau: - Các thuộc tính điều kiện tương ứng với 19 triệu chứng thu thập từ bệnh nhân có biểu viêm gan, kí hiệu: {c1, c2, c3, …c19} - Mỗi dòng thơng tin bệnh nhân, dòng bệnh nhân thể thuộc tính, hai thuộc tính “dấu cách” Với thuộc tính có giá trị cách dấu “,” - Thuộc tính “?” có giá trị {0, 1, 2} - Thuộc tính cuối thuộc tính định mang giá trị {1}- Có bệnh, {0}- Khơng có bệnh Các thuộc tính tương ứng với số đại lượng dùng để xác định tình trạng bệnh bệnh nhân: - c1: Age- số tuổi bệnh nhân 10 đến 80 Lớp 0: [10-23], Lớp 1: [23- 46], Lớp 2: [46-80] - c2: Sex- Giới tính: = Male, = Female - c3: Steroid- Thuốc kháng viêm: = No, = Yes - c4: Antiviral- Thuốc kháng viruts: = No, = Yes - c5: Fatigue- Mệt mỏi: 0= No, = Yes - c6: Malaise- Khó ở: 0= No, = Yes - c7: Anorexia- Chán ăn: 0= No, = Yes - c8: Liver big- Gan sưng to: 0= No, = Yes - c9: Liver firm- Viêm gan: 0= No, = Yes - c10: Spleen palpable- Viêm lách: 0= No, = Yes - c11: Spiders- Mạch máu hình nhện da: 0= No, = Yes - c12: Ascites- Hạch ổ bụng: 0= No, = Yes - c13: Varices- Giãn tĩnh mạch: 0= No, = Yes - c14: Bilirubin- Sắc tố da ( vàng da): Lớp 0: [0.39-1.20], Lớp 1: [1.20- 2.40], Lớp 2:[2.40- 4.00] - c15: Alk phosphate- Huyết tương: Lớp 0: [33-72.3], Lớp 1: [72.3- 144.6], Lớp 2: [144.6- 250] - c16: SGOT- Enzym men gan: Lớp 0: [13- 162.3], Lớp 1: [162.3- 324.6], Lớp 2: [324.6- 500] - c17: Albumin- Nồng độ albumin: Lớp 0: [2.1- 3.0], Lớp 1: [3.8- 4.5], Lớp 2: [5.0- 6.0] - c18: Protime- Tình trạng đông máu người bệnh: từ 10 đến 90 Lớp 0: [10-26.7], Lớp 1: [26.7- 53.4], Lớp 2: [53.4- 90] - c19: Histology- Tiền sử mắc bệnh: 0= No, = Yes d: Class- Lớp định: = Live, = Die Sau nạp liệu viêm gan hepatitis.data với thuộc tính nêu vào chương trình thu kết tập rút gọn thuộc tính sinh tập luật định sau 1) Kết tập rút gọn tập liệu bệnh viêm gan 2) Kết tập luật định tập liệu bệnh viêm gan Sau kết thúc chương trình dựa vào thuật tốn “Rút gọn thuộc tính bảng định đầy đủ”, chương trình thu kết sau: Từ tập thuộc tính điều kiện chương trình thu tập rút gọn có số thuộc tính điều kiện nhỏ số thuộc tính điều kiện ban đầu Như vậy, thay phải dựa vào 19 thuộc tính ban đầu để đưa kết luận bệnh nhân có mắc bệnh hay khơng mắc bệnh ta dựa vào thuộc tính rút gọn bảng định để đưa kết luận bệnh nhân có mắc bệnh hay khơng Điều hiệu việc chuẩn đoán bệnh KẾT LUẬN 1) Những kết luận văn Kết luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần xây dựng phương pháp dựa độ đo khoảng cách xây dựng (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận tập thô, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn - Luật định độ đo đánh giá hiệu tập luật định - Sự thay đổi độ đo đánh giá hiệu tập rút gọn, từ đánh giá nhóm phương pháp dựa tiêu chuẩn chất lượng phân lớp tập rút gọn (độ hỗ trợ tập luật) (2) Theo hướng tiếp cận khoảng cách, luận văn xây dựng độ đo khoảng cách, xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách thử nghiệm phương pháp số liệu mẫu từ kho liệu thử nghiệm UCI [12] Phương pháp sử dụng khoảng cách thuộc nhóm 3, tập rút gọn tương đương với phương pháp thuộc nhóm Trên sở đó, luận văn thử nghiệm phương pháp rút gọn thuộc tính sinh luật toán thực tế chuẩn đoán bệnh viêm gan với số liệu mẫu từ kho liệu UCI 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thơ”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin, 2012 [2] Nguyễn Long Giang, Phạm Hồng Tun, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Hà Nội 11/2012, 2013, Tr 295301 Tài liệu tiếng Anh [3] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [4] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333338 [7] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [8] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181202 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95–108 [11] Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol 29, no 3, pp 391-398, 2006 [12] The UCI machine learning repository, ... tất tập rút gọn bảng định Thuộc tính dư thừa thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập liệu, thuộc tính dư thừa khơng xuất tập rút gọn bảng định Thuộc tính rút gọn thuộc. .. phương pháp rút gọn thuộc tính Mục tiêu rút gọn thuộc tính bảng định theo tiếp cận tập thô sử dụng công cụ tập thơ để tìm tập nhỏ tập thuộc tính điều kiện mà bảo tồn thơng tin phân lớp bảng định Dựa... rút gọn thuộc tính 1) Lựa chọn nhóm phương pháp phù hợp Mục tiêu rút gọn thuộc tính bảng định tìm tập nhỏ tập thuộc tính điều kiện mà bảo tồn khả phân lớp bảng định Theo tiếp cận độ đo, rút gọn