Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
2,76 MB
Nội dung
1 LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới TS Nguyễn Long Giang, người thầy dìu dắt hướng dẫn suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban giám hiệu thầy cô Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái nguyên tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo Viện Công nghệ Thông tin - Viện hàn lâm khoa học Công nghệ Việt Nam, người thầy dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Xin cảm ơn Trung tâm Quản lý Chất lượng – Trường Đại học Công nghiệp Hà Nội tạo điều kiện để học hoàn thành tốt khoá học Mặc dù cố gắng nhiều, chắn trình học tập luận văn không khỏi thiếu sót Em mong thông cảm bảo tận tình thầy cô bạn Thái Nguyên, tháng …… năm 2014 Lê Trường Giang MỤC LỤC LỜI CẢM ƠN MỤC LỤC Danh mục thuật ngữ Bảng ký hiệu, từ viết tắt MỞ ĐẦU Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 10 1.1.Các khái niệm lý thuyết tập thô 10 1.1.1.Hệ thông tin tập thô 10 1.1.2.Bảng định 13 1.2.Rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô .15 1.2.1.Tổng kết phương pháp rút gọn thuộc tính bảng định 15 1.2.2.Kết phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn 19 1.2.3.Kết lựa chọn, so sánh, đánh giá phương pháp .20 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 23 2.1.Phương pháp rút gọn thuộc tính sử dụng khoảng cách 23 2.1.1.Khoảng cách hai tập hợp hữu hạn .23 2.1.2.Khoảng cách hai tri thức tính chất 24 2.1.3.Tập rút gọn bảng định dựa khoảng cách 27 2.1.4.Thuật toán tìm tập rút gọn sử dụng khoảng cách 28 2.2.Thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách bổ sung đối tượng 33 2.2.1.Công thức gia tăng tính khoảng cách bổ sung đối tượng 33 2.2.2.Thuật toán gia tăng tìm tập rút gọn bổ sung đối tượng .35 2.3.Thuật toán tìm tập rút gọn sử dụng khoảng cách loại bỏ đối tượng 39 2.3.1.Công thức tính khoảng cách loại bỏ đối tượng 39 2.3.2.Thuật toán tìm tập rút gọn loại bỏ đối tượng 41 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 43 3.1.Bài toán 43 3.2.Phân tích, lựa chọn công cụ 44 3.2.1.Thuật toán rút gọn thuộc tính sử dụng entropy Liang .44 3.2.2.Mô tả thuật toán gia tăng tìm tập rút gọn bổ sung tập đối tượng 45 3.2.3.Lựa chọn công cụ cài đặt 46 3.3.Một số kết thử nghiệm 46 3.3.1.Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách 46 3.3.2.Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách 48 KẾT LUẬN 53 Tài liệu tham khảo 54 Danh mục công trình tác giả 56 Phụ lục 57 Danh mục thuật ngữ Thuật ngữ tiếng Việt Tập thô Hệ thông tin Bảng định Bảng định quán Bảng định không quán Quan hệ không phân biệt Xấp xỉ Xấp xỉ Rút gọn thuộc tính Tập rút gọn Tập lõi Ma trận phân biệt Hàm phân biệt Luật định Khoảng cách Thuật ngữ tiếng Anh Rough Set Information System Decision Table Consistent Decision Table Inconsistent Decision Table Indiscernibility Relation Lower Approximation Upper Approximation Attribute Reduction Reduct Core Indiscernibility Matrix Indiscernibility Function Decision Rule Distance Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt IS = ( U , A, V , f ) DS = ( U , C ∪ D, V , f ) U C A u ( a) IND ( B ) [ u] B U /B BX BX BN B ( X ) POS B ( D ) RED ( C ) CORE ( C ) K ( P) Diễn giải Hệ thông tin Bảng định Số đối tượng Số thuộc tính điều kiện bảng định Số thuộc tính hệ thông tin Giá trị đối tượng u thuộc tính a Quan hệ B − không phân biệt Lớp tương đương chứa u quan hệ IND ( B ) Phân hoạch U sinh tập thuộc tính B B − xấp xỉ X B − xấp xỉ X B - miền biên X B − miền dương D Họ tất tập rút gọn bảng định Tập lõi bảng định Tri thức sinh tập thuộc tính P hệ thông tin Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm .12 Bảng 1.2: Bảng định bệnh cúm 14 Bảng 1.3 Bảng định bệnh cúm 17 Bảng 1.4 Ký hiệu tập rút gọn bảng định .19 Bảng 2.1 Bảng định minh họa thuật toán tìm tập rút gọn 31 Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR 47 Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR 47 Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK .48 số liệu lớn 48 Bảng 3.4 04 số liệu thử nghiệm 49 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu 50 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR 51 MỞ ĐẦU Lựa chọn thuộc tính, gọi trích chọn đặc trưng, toán quan trọng khai phá liệu học máy Lựa chọn thuộc tính sử dụng lý thuyết tập thô [9] gọi rút gọn thuộc tính Rút gọn thuộc tính bảng định toán tìm tập nhỏ tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp bảng định, gọi tập rút gọn Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thô tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác miền dương, ma trận phân biệt, độ đo entropy lý thuyết thông tin, độ đo tính toán hạt, độ đo khoảng cách Tuy nhiên, hầu hết nghiên cứu rút gọn thuộc tính thực bảng định với tập đối tượng tập thuộc tính cố định, không thay đổi Trong thực tế, bảng định bị cập nhật thay đổi với trường hợp: bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, cập nhật tập đối tượng tồn Mỗi thay đổi vậy, lại phải thực lại thuật toán tìm tập rút gọn toàn tập đối tượng, chi phí thời gian thực thuật toán tìm tập rút gọn lớn Trong năm gần đây, số công trình nghiên cứu xây dựng phương pháp gia tăng rút gọn thuộc tính bảng định thay đổi dựa độ đo khác [3, 4, 6, 10, 11, 12] Trong [3, 4, 12], tác giả xây dựng phương pháp gia tăng tìm tập rút gọn dựa miền dương ma trận phân biệt bổ sung tập đối tượng Trong [10], tác giả xây dựng công thức tính độ đo entropy (entropy Shannon, entropy Liang, entropy kết hợp) bổ sung, loại bỏ thuộc tính Tuy nhiên, công thức tính toán entropy [10] phức tạp Về hướng tiếp cận rút gọn thuộc tính sử dụng độ đo khoảng cách định nghĩa qua khái niệm lý thuyết tập thô, [1, 7] tác giả sử dụng độ đo khoảng cách Jaccard để giải toán rút gọn thuộc tính bảng đinh Tuy nhiên, tác giả [1, 7] giải toán rút gọn thuộc tính trường hợp bảng định cố định, không thay đổi Mục tiêu luận văn xây dựng phương pháp rút gọn thuộc tính bảng định thay đổi dựa vào độ đo khoảng cách hai trường hợp: bổ sung đối tượng loại bỏ đối tượng có Đối tượng nghiên cứu luận văn bảng định với liệu thay đổi bổ sung loại bỏ đối tượng Phạm vi nghiên cứu: Với công cụ lý thuyết tập thô, đề tài tập trung nghiên cứu phương pháp gia tăng tìm tập rút gọn bảng định bổ sung loại bỏ tập đối tượng Phương pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: Nghiên cứu kết công bố xây dựng công thức tính toán gia tăng bổ sung loại bỏ đối tượng, sở đề xuất thuật toán hiệu Về nghiên cứu thực nghiệm: Cài đặt thử nghiệm thuật toán, thuật toán gia tăng tìm tập rút gọn sử dụng khoảng cách số liệu mẫu lấy từ kho liệu UCI [14] nhằm đánh giá tính hiệu phương pháp gia tăng so với phương pháp truyền thống Bố cục luận văn gồm phần mở đầu, ba chương nội dung, phần kết luận mục tài liệu tham khảo Chương 1: Trình bày số khái niệm lý thuyết tập thô kết nghiên cứu phương pháp rút gọn thuộc tính bảng định theo tiếp cận heuristic, kết nghiên cứu phân nhóm, so sánh đánh giá phương pháp Chương 2: Trình bày bước xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách Trên sở đó, chương trình bày nội dung xây dựng thuật toán tìm tập rút gọn bảng định thay đổi trường hợp bổ sung loại bỏ đối tượng theo hướng tiếp cận tính toán gia tăng Chương 3: Trình bày kết thử nghiệm đánh giá thuật toán tìm tập rút gọn theo hướng tiếp cận gia tăng trường hợp bổ sung loại bỏ đối tượng So sánh kết thực so với phương pháp truyền thống tính toán lại tập rút gọn toàn tập đối tượng để thấy rõ tính hiệu phương pháp gia tăng Phần kết luận: Tóm tắt kết đạt luận văn hướng phát triển tác giả luận văn 10 Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Chương trình bày số khái niệm lý thuyết tập thô kết nghiên cứu công bố phương pháp rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô, bao gồm: Tổng quan phương pháp, phân nhóm phương pháp so sánh, đánh giá phương pháp Chương kiến thức tảng để nghiên cứu phương pháp rút gọn thuộc tính bảng định thay đổi trình bày chương 1.1 Các khái niệm lý thuyết tập thô 1.1.1 Hệ thông tin tập thô Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa tứ IS = ( U , A,V , f ) U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc Va với V tập giá trị thuộc tính a ∈ A ; f : U × A → V hàm tính; V = aU a a ∈A thông tin, ∀a ∈ A, u ∈ U f ( u, a ) ∈Va Với u ∈ U , a ∈ A , ta ký hiệu giá trị thuộc tính a đối tượng u a ( u ) thay f ( u , a ) Nếu B = { b1 , b2 , , bk } ⊆ A tập thuộc tính ta ký hiệu giá trị bi ( u ) B ( u ) Như vậy, u v hai đối tượng, ta viết B ( u ) = B ( v ) bi ( u ) = bi ( v ) với i = 1, , k Xét hệ thông tin IS = ( U , A,V , f ) Mỗi tập thuộc tính P ⊆ A xác định quan hệ hai U, ký hiệu IND ( P ) , xác định { } IND ( P ) = ( u , v ) ∈ U × U ∀a ∈ P, a ( u ) = a ( v ) 45 R gọi tập rút gọn DS dựa entropy Liang Thuật toán tìm tập rút gọn sử dụng entropy Liang, gọi tắt thuật toán NEBAR, mô tả sau: Thuật toán NEBAR Tìm tập rút gọn bảng định sử dụng entropy Liang [5] (New Entropy Based Attribute Reduction) Bảng định DS = ( U , C ∪ D,V , f ) Đầu vào: Đầu ra: Một tập rút gọn R R = ∅ ; Tính E ( D R ) , E ( D C ) ; // Thêm dần vào R thuộc tính có độ quan trọng lớn While E ( D R ) ≠ E ( D C ) Begin For each b ∈ C − R tính SIGR ( b ) = E ( D R ) − E ( D R ∪ { b} ) ; { SIGR ( b ) } ; Chọn bm ∈ C − R cho SIGR ( mm ) = bMax ∈C − R R = R ∪ { bm } ; End; // Loại bỏ thuộc tính dư thừa R có For each b ∈ R 10.If E ( D R − { b} ) = E ( D C ) then R = R − { b} ; 11 Return R ; 3.2.2 Mô tả thuật toán gia tăng tìm tập rút gọn bổ sung tập đối tượng Thuật toán OSIDBAR (Object Set Incremental Distance Based Attribute Reduction) Thuật toán gia tăng tìm tập rút gọn dựa khoảng cách bổ sung đối tượng 46 Đầu vào: Bảng định DS = ( U , C ∪ D,V , f ) , tập rút gọn RU U tập đối tượng X Đầu ra: Tập rút gọn RU ∪ X U ∪ X For x ∈ X Begin // Gọi thuật toán tìm tập rút gọn bổ sung đối tượng x Tính R = IDBAR ( U , { x} ) ; U := U ∪ { x} End; Return R; 3.2.3 Lựa chọn công cụ cài đặt Chúng sử dụng công cụ ngôn ngữ lập trình C# môi trường hệ điều hành Windows 8.1 để thực cài đặt Thuật toán DBAR Thuật toán OSIDBAR Bộ số liệu thử nghiệm lấy từ kho liệu UCI [14] 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách Sau cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR), tiến hành thử nghiệm hai thuật toán số liệu vừa nhỏ lấy từ kho liệu UCI [14] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán 47 (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Hepatitis.data Lung-cancer.data Automobile.data Anneal.data Congressional U 155 32 205 798 435 C 19 56 25 38 16 Thuật toán Thuật toán NEBAR R t 1.296 0.187 179 15 25.562 DBAR R t 0.89 0.171 1.687 86.921 15 16.734 Voting Records Credit Approval 690 15 29.703 15.687 Bảng 3.2 Tập rút gọn Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Hepatitis.data Lung- Thuật toán NEBAR {1, 2, 4, 17} {3, 4, 9, 43} Thuật toán DBAR {1, 2, 4, 17} {3, 4, 9, 43} cancer.data Automobile.data Anneal.data {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Congressional 35} {1, 2, 3, 4, 5, 7, 8, 9, 35} {1, 2, 3, 4, 5, 7, 8, 9, Voting 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, Records.data 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy 16} {1, 2, 3, 4, 5, 6, 8} − Trên số liệu chọn, tập rút gọn thu Thuật toán DBAR Thuật toán NEBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần 48 − Thời gian thực Thuật toán DBAR nhanh Thuật toán NEBAR, Thuật toán DBAR hiệu Thuật toán NEBAR Tiếp theo, tiến hành thử nghiệm Thuật toán DBAR Thuật toán NEBAR số liệu kích thước lớn Kết thử nghiệm mô tả bảng sau: Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK số liệu lớn ST T ST Bộ số liệu U Thuật toán Thuật toán NEBAR R t DBAR R t C T Census- 299285 40 21 11415 21 5206 Income.data Adult.data Dorothea.data 48842 1950 14 100 92 1270 2867 92 675 1247 100000 000 11 8977 4376 Poker-hand- testing.data CovType.data 581012 54 17 14289 17 7256 Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật toán NEBAR, số liệu kích thước lớn, Thuật toán DBAR hiệu 3.3.2 Kết thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng khoảng cách Sau cài đặt thuật toán rút gọn thuộc tính dựa khoảng cách nguyên thủy (DBAR) thuật toán gia tăng bổ sung tập đối tượng (OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán 04 số liệu thử nghiệm lấy từ kho liệu UCI [14] Với số liệu thử nghiệm, luận văn lấy ngẫu nhiên 80% số đối tượng cho bảng định ban đầu 49 Bảng 3.4 04 số liệu thử nghiệm Số đối STT Bộ số liệu tượng U Hepatitis.data Automobile.data Anneal.data Credit Approval 155 205 798 690 Số đối tượng bảng định ban đầu (80%) 124 164 638 552 Số thuộc tính C 19 25 38 15 Môi trường thử nghiệm máy tính LAPTOP với cấu hình Pentium Core i3 2.13 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows 8.1 1) Thực thuật toán DBAR để tìm tập rút gọn bảng định ban đầu, luận văn thu kết Bảng 3.5 50 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu STT Bộ số liệu Hepatitis.data Automobile.data Anneal.data Credit Approval Số đối Số thuộc Số thuộc tượng tính tính U điều tập rút 124 164 638 552 kiện C 19 25 38 15 Tập rút gọn gọn 4 {1, 2, 4, 17} {1, 13, 14, 21} {1, 3, 4, 5, 8, 33, 34} {1, 3, 4, 5, 8} 2) Thực bổ sung 20% số đối tượng lại cho số liệu Tiến hành thử nghiệm thuật toán DBAR toàn 100% tập đối tượng thử nghiệm thuật toán gia tăng OSIDBAR bổ sung thêm 20% số đối tượng cho số liệu Kết thực hai thuật toán mô tả Bảng 3.6 Bảng 3.7 51 Bảng 3.6 Kết thực thuật toán DBAR thuật toán gia tăng OSIDBAR Số STT Bộ số liệu Hepatitis.data Automobile.data Anneal.data Credit Approval Thuật toán đối Số tượn thuộ g sau c tính bổ điều sung kiện 20% 155 205 798 690 19 25 38 15 Thuật toán OSIDBAR R t DBAR R t 9 0.62 1.2 26.252 6.726 0.89 1.687 86.921 15.687 Bảng 3.7 Tập rút gọn Thuật toán DBAR Thuật toán OSIDBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán DBAR Thuật toán Hepatitis.data Automobile.data Anneal.data {1, 2, 4, 17} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, OSIDBAR {1, 2, 4, 17} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Credit Approval 35} {1, 2, 3, 4, 5, 6, 8} 35} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy: − Trên số liệu chọn, sau bổ sung nốt 20% số đối tượng lại vào số liệu, tập rút gọn thu Thuật toán DBAR 52 Thuật toán OSIDBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần − Thời gian thực thuật toán gia tăng OSIDBAR nhanh thuật toán truyền thống DBAR, thuật toán gia tăng OSIDBAR hiệu thuật toán DBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần 53 KẾT LUẬN 1) Những kết luận văn: Luận văn đạt kết sau đây: − Tổng hợp kết hướng nghiên cứu rút gọn thuộc tính bảng định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống Pawlak − Đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách sở cải tiến phương pháp rút gọn thuộc tính sử dụng metric (khoảng cách Jaccard) [1, 7], bao gồm bước định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn dựa khoảng cách xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách, chứng minh phương pháp đề xuất thuộc Nhóm phương pháp − Xây dựng công thức tính toán khoảng cách bổ sung loại bỏ đối tượng, sở xây dựng thuật toán tìm tập rút gọn bổ sung, loại bỏ đối tượng − Thử nghiệm tính hiệu phương pháp sử dụng khoảng cách so với phương pháp khác nhóm tính hiệu phương pháp gia tăng so với phương pháp không tính toán gia tăng 2) Hướng phát triển luận văn: − Tiếp tục nghiên cứu thuật toán tìm tập rút gọn bảng định trường hợp bổ sung loại bỏ tập thuộc tính − Tìm hiểu nhu cầu thực tế, tham khảo ý kiến chuyên gia để xây dựng chương trình áp dụng kỹ thuật nghiên cứu, bổ xung số yếu tố khác để hoàn thiện đánh giá chi tiết lại thuật toán 54 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012 Tài liệu tiếng Anh [2] [3] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 Guan L H, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, 2009, [4] pp 421-425 Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based on elementary sets”, Proceedings of the 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular [5] Computing, Regina, Canada, 2005, pp 185-193 Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, [6] International Journal of General Systems 31, 2002, pp 331-342 Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):294 - [7] 308 Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333- [8] 338 Pawlak Z (1982), “Rough sets”, International Journal of Computer 55 [9] and Information Sciences, 11(5): 341-356 Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, [10] Kluwer Aca-demic Publishers, 1991 Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, [11] pp 95–108 Feng Wang, Jiye Liang, Chuangyin Dang., “Attribute reduction for [12] dynamic data sets”, Applied Soft Computing, 2013, 13(1):676-689 Zhang C S, Jing Ruan J.,Tan Y H., “An Improved Incremental Updating Algorithm for Core Based on Positive Region”, Journal of [13] Computational Information Systems 7: 9, 2011, pp 3127-3133 Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, [14] Journal of Computer, Vol 29, no 3, pp 391-398, 2006 The UCI machine learning repository, 56 Danh mục công trình tác giả Lê Trường Giang, Nguyễn Long Giang (2014), “Rút gọn thuộc tính bảng định thay đổi”, Tạp chí Khoa học Công nghệ, T16 S.21, tr 8-14 57 Phụ lục Một số giao diện chương trình thử nghiệm - Giao diện chương trình Chọn file liệu UCI để nạp liệu - Bước tiến hành nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: - Chức nạp liệu từ UCI sau 58 - Sau nạp liệu từ UCI phần mềm hiển thị menu để người dùng thực thao tác Tách tệp liệu, gộp tệp liệu chạy thuật toán - Kết thử nghiệm với thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 171 mili giây 59 - Kết thử nghiệm với thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) tập tin soybean-small.data số thuộc tính sau rút gọn thời gian thực 37 mili giây [...]... của khoảng cách Jaccard trong [1, 7] Trên cơ sở đó, luận văn xây dựng các công thức tính khoảng cách khi bổ sung, loại bỏ đối tượng và xây dựng phương pháp rút gọn sử dụng khoảng cách trong hai trường hợp này 23 Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 2.1.1 Khoảng cách giữa hai tập hợp hữu hạn Một khoảng cách. .. tập rút gọn thuộc Nhóm 3, nghĩa là các phương pháp thuộc Nhóm 2 hiệu quả hơn các phương pháp thuộc Nhóm 3 theo tiêu chuẩn chất lượng phân lớp của tập rút gọn Từ các kết quả nghiên cứu đã công bố về các phương pháp rút gọn thuộc tính trong bảng quyết định nêu trên, chương 2 của luận văn đề xuất phương pháp rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách Khoảng cách trong luận văn sử dụng. .. rút gọn, các phương pháp rút gọn thuộc tính cũng được phân thành 3 nhóm tương ứng: Nhóm 1: Bao gồm phương pháp tìm tập rút gọn Pawlak Nhóm 2: Bao gồm phương pháp sử dụng entropy Shannon, phương pháp sử dụng các phép toán trong đại số quan hệ và phương pháp sử dụng metric Nhóm 3: Bao gồm phương pháp sử dụng entropy Liang, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng độ khác biệt của tri... phụ thuộc hàm C → D là đúng 15 1.2 Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô 1.2.1 Tổng kết về các phương pháp rút gọn thuộc tính trong bảng quyết định Mục tiêu của rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô là sử dụng công cụ tập thô để tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định Dựa vào tập rút. .. 6) Phương pháp sử dụng entropy Liang tìm tập rút gọn dựa trên entropy Liang 7) Phương pháp sử dụng metric được xây dựng dựa trên khoảng cách Jaccard 19 1.2.2 Kết quả phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn Trong [1], tác giả đã tổng kết và công bố mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính, trên cơ sở đó phân nhóm các phương pháp rút gọn thuộc tính. .. như các phương pháp khác, phương pháp rút gọn thuộc tính dựa trên khoảng cách cũng thực hiện các bước: đưa ra khái niệm tập rút gọn dựa trên khoảng cách, độ quan trọng của thuộc tính dựa trên khoảng cách và xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên độ quan trọng của thuộc tính 2.1.3 Tập rút gọn của bảng quyết định dựa trên khoảng cách Định nghĩa 2.1 Cho bảng quyết định DS... sau: Nếu bảng quyết định nhất quán, các tập rút gọn bảo toàn độ chắc chắn, độ nhất quán bằng 1 và tăng độ hỗ trợ của tập luật quyết định Nếu bảng quyết định không nhất quán: 1) Tập rút gọn của các phương pháp thuộc Nhóm 1 (tập rút gọn miền dương) làm giảm độ chắc chắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định 2) Tập rút gọn của các phương pháp thuộc Nhóm 2 bảo toàn độ chắc chắn, độ nhất... attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong. .. phương pháp Như đã trình bày trong mục 1.2.1, rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn khả năng phân lớp của bảng quyết định Theo tiêu chuẩn định lượng, rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn độ chắc chắn của tất cả các luật phân lớp vào các lớp quyết định Do đó, các phương. .. miền dương (tập rút gọn nguyên thủy theo định nghĩa của Pawlak) 2) Phương pháp sử dụng ma trận phân biệt và hàm phân biệt của Skowron tìm tập rút gọn dựa trên ma trận phân biệt 3) Phương pháp sử dụng entropy Shannon tìm tập rút gọn dựa trên entropy Shannon 4) Phương pháp sử dụng các phép toán trong đại số quan hệ tìm tập rút gọn 5) Phương pháp sử dụng tính toán hạt tìm tập rút gọn dựa trên độ khác biệt ... dựng phương pháp rút gọn sử dụng khoảng cách hai trường hợp 23 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách. .. sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách Trên... đề xuất phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách Khoảng cách luận văn sử dụng cải tiến khoảng cách Jaccard [1, 7] Trên sở đó, luận văn xây dựng công thức tính khoảng cách bổ