Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
2,76 MB
Nội dung
1 LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới TS Nguyễn Long Giang, người thầy dìu dắt hướng dẫn suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban giám hiệu thầy cô Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái nguyên tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo Viện Công nghệ Thông tin - Viện hàn lâm khoa học Công nghệ Việt Nam, người thầy dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Xin cảm ơn Trung tâm Quản lý Chất lượng – Trường Đại học Công nghiệp Hà Nội tạo điều kiện để học hoàn thành tốt khoá học Mặc dù cố gắng nhiều, chắn trình học tập luận văn không khỏi thiếu sót Em mong thông cảm bảo tận tình thầy cô bạn Thái Nguyên, tháng …… năm 2014 Lê Trường Giang MỤC LỤC LỜI CẢM ƠN MỤC LỤC Danh mục thuật ngữ Bảng ký hiệu, từ viết tắt MỞ ĐẦU Chương RÚTGỌNTHUỘCTÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 10 1.1.Các khái niệm lý thuyết tập thô 10 1.1.1.Hệ thông tin tập thô 10 1.1.2.Bảng định 13 1.2.Rút gọnthuộctínhbảngđịnh theo tiếp cận lý thuyết tập thô .15 1.2.1.Tổng kết phươngpháprútgọnthuộctínhbảngđịnh 15 1.2.2.Kết phân nhóm phươngpháprútgọnthuộctính dựa vào tập rútgọn 19 1.2.3.Kết lựa chọn, so sánh, đánh giáphươngpháp .20 Chương RÚTGỌNTHUỘCTÍNHTRONGBẢNGQUYẾTĐỊNH THAY ĐỔI SỬDỤNGKHOẢNGCÁCH 23 2.1.Phương pháprútgọnthuộctínhsửdụngkhoảngcách 23 2.1.1.Khoảng cách hai tập hợp hữu hạn .23 2.1.2.Khoảng cách hai tri thức tính chất 24 2.1.3.Tập rútgọnbảngđịnh dựa khoảngcách 27 2.1.4.Thuật toán tìm tập rútgọnsửdụngkhoảngcách 28 2.2.Thuật toán giatăng tìm tập rútgọnsửdụngkhoảngcách bổ sung đối tượng 33 2.2.1.Công thức giatăngtínhkhoảngcách bổ sung đối tượng 33 2.2.2.Thuật toán giatăng tìm tập rútgọn bổ sung đối tượng .35 2.3.Thuật toán tìm tập rútgọnsửdụngkhoảngcách loại bỏ đối tượng 39 2.3.1.Công thức tínhkhoảngcách loại bỏ đối tượng 39 2.3.2.Thuật toán tìm tập rútgọn loại bỏ đối tượng 41 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 43 3.1.Bài toán 43 3.2.Phân tích, lựa chọn công cụ 44 3.2.1.Thuật toán rútgọnthuộctínhsửdụng entropy Liang .44 3.2.2.Mô tả thuật toán giatăng tìm tập rútgọn bổ sung tập đối tượng 45 3.2.3.Lựa chọn công cụ cài đặt 46 3.3.Một số kết thử nghiệm 46 3.3.1.Kết thử nghiệm thuật toán tìm tập rútgọnsửdụngkhoảngcách 46 3.3.2.Kết thử nghiệm thuật toán giatăngrútgọnthuộctínhsửdụngkhoảngcách 48 KẾT LUẬN 53 Tài liệu tham khảo 54 Danh mục công trình tác giả 56 Phụ lục 57 Danh mục thuật ngữ Thuật ngữ tiếng Việt Tập thô Hệ thông tin BảngđịnhBảngđịnh quán Bảngđịnh không quán Quan hệ không phân biệt Xấp xỉ Xấp xỉ Rútgọnthuộctính Tập rútgọn Tập lõi Ma trận phân biệt Hàm phân biệt Luật địnhKhoảngcách Thuật ngữ tiếng Anh Rough Set Information System Decision Table Consistent Decision Table Inconsistent Decision Table Indiscernibility Relation Lower Approximation Upper Approximation Attribute Reduction Reduct Core Indiscernibility Matrix Indiscernibility Function Decision Rule Distance Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt IS = ( U , A, V , f ) DS = ( U , C ∪ D, V , f ) U C A u ( a) IND ( B ) [ u] B U /B BX BX BN B ( X ) POS B ( D ) RED ( C ) CORE ( C ) K ( P) Diễn giải Hệ thông tin Bảngđịnh Số đối tượng Số thuộctính điều kiện bảngđịnh Số thuộctính hệ thông tin Giá trị đối tượng u thuộctính a Quan hệ B − không phân biệt Lớp tương đương chứa u quan hệ IND ( B ) Phân hoạch U sinh tập thuộctính B B − xấp xỉ X B − xấp xỉ X B - miền biên X B − miền dương D Họ tất tập rútgọnbảngđịnh Tập lõi bảngđịnh Tri thức sinh tập thuộctính P hệ thông tin Danh sách bảngBảng 1.1 Bảng thông tin bệnh cúm .12 Bảng 1.2: Bảngđịnh bệnh cúm 14 Bảng 1.3 Bảngđịnh bệnh cúm 17 Bảng 1.4 Ký hiệu tập rútgọnbảngđịnh .19 Bảng 2.1 Bảngđịnh minh họa thuật toán tìm tập rútgọn 31 Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR 47 Bảng 3.2 Tập rútgọn Thuật toán NEBAR Thuật toán DBAR 47 Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK .48 số liệu lớn 48 Bảng 3.4 04 số liệu thử nghiệm 49 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu 50 Bảng 3.6 Kết thực thuật toán DBAR thuật toán giatăng OSIDBAR 51 MỞ ĐẦU Lựa chọn thuộc tính, gọi trích chọn đặc trưng, toán quan trọng khai phá liệu học máy Lựa chọn thuộctínhsửdụng lý thuyết tập thô [9] gọi rútgọnthuộctínhRútgọnthuộctínhbảngđịnh toán tìm tập nhỏ tập thuộctính điều kiện mà bảo toàn thông tin phân lớp bảng định, gọi tập rútgọnTrong hai thập kỷ trở lại đây, chủ đề nghiên cứu rútgọnthuộctính theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thô tham gia [1] Có nhiều phươngpháprútgọnthuộctính khác đề xuất sửdụngđộđo khác miền dương, ma trận phân biệt, độđo entropy lý thuyết thông tin, độđotính toán hạt, độđokhoảngcách Tuy nhiên, hầu hết nghiên cứu rútgọnthuộctính thực bảngđịnh với tập đối tượng tập thuộctính cố định, không thay đổi Trong thực tế, bảngđịnh bị cập nhật thay đổi với trường hợp: bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, cập nhật tập đối tượng tồn Mỗi thay đổi vậy, lại phải thực lại thuật toán tìm tập rútgọn toàn tập đối tượng, chi phí thời gian thực thuật toán tìm tập rútgọn lớn Trong năm gần đây, số công trình nghiên cứu xây dựngphươngphápgiatăngrútgọnthuộctínhbảngđịnh thay đổi dựa độđo khác [3, 4, 6, 10, 11, 12] Trong [3, 4, 12], tác giả xây dựngphươngphápgiatăng tìm tập rútgọn dựa miền dương ma trận phân biệt bổ sung tập đối tượng Trong [10], tác giả xây dựng công thức tínhđộđo entropy (entropy Shannon, entropy Liang, entropy kết hợp) bổ sung, loại bỏ thuộctính Tuy nhiên, công thức tính toán entropy [10] phức tạp Về hướng tiếp cận rútgọnthuộctínhsửdụngđộđokhoảngcáchđịnh nghĩa qua khái niệm lý thuyết tập thô, [1, 7] tác giảsửdụngđộđokhoảngcách Jaccard để giải toán rútgọnthuộctínhbảngđinh Tuy nhiên, tác giả [1, 7] giải toán rútgọnthuộctính trường hợp bảngđịnh cố định, không thay đổi Mục tiêu luận văn xây dựngphươngpháprútgọnthuộctínhbảngđịnh thay đổi dựa vào độđokhoảngcách hai trường hợp: bổ sung đối tượng loại bỏ đối tượng có Đối tượng nghiên cứu luận văn bảngđịnh với liệu thay đổi bổ sung loại bỏ đối tượng Phạm vi nghiên cứu: Với công cụ lý thuyết tập thô, đề tài tập trung nghiên cứu phươngphápgiatăng tìm tập rútgọnbảngđịnh bổ sung loại bỏ tập đối tượng Phươngpháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: Nghiên cứu kết công bố xây dựng công thức tính toán giatăng bổ sung loại bỏ đối tượng, sở đề xuất thuật toán hiệu Về nghiên cứu thực nghiệm: Cài đặt thử nghiệm thuật toán, thuật toán giatăng tìm tập rútgọnsửdụngkhoảngcách số liệu mẫu lấy từ kho liệu UCI [14] nhằm đánh giátính hiệu phươngphápgiatăng so với phươngpháp truyền thống Bố cục luận văn gồm phần mở đầu, ba chương nội dung, phần kết luận mục tài liệu tham khảo Chương 1: Trình bày số khái niệm lý thuyết tập thô kết nghiên cứu phươngpháprútgọnthuộctínhbảngđịnh theo tiếp cận heuristic, kết nghiên cứu phân nhóm, so sánh đánh giáphươngpháp Chương 2: Trình bày bước xây dựngphươngpháprútgọnthuộctínhsửdụngđộđokhoảng cách, bao gồm định nghĩa độđokhoảng cách, định nghĩa tập rútgọnđộ quan trọngthuộctính dựa khoảngcách thuật toán heuristic tìm tập rútgọn tốt sửdụngkhoảngcách Trên sở đó, chương trình bày nội dung xây dựng thuật toán tìm tập rútgọnbảngđịnh thay đổi trường hợp bổ sung loại bỏ đối tượng theo hướng tiếp cận tính toán giatăng Chương 3: Trình bày kết thử nghiệm đánh giá thuật toán tìm tập rútgọn theo hướng tiếp cận giatăng trường hợp bổ sung loại bỏ đối tượng So sánh kết thực so với phươngpháp truyền thống tính toán lại tập rútgọn toàn tập đối tượng để thấy rõ tính hiệu phươngphápgiatăng Phần kết luận: Tóm tắt kết đạt luận văn hướng phát triển tác giả luận văn 10 Chương RÚTGỌNTHUỘCTÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Chương trình bày số khái niệm lý thuyết tập thô kết nghiên cứu công bố phươngpháprútgọnthuộctínhbảngđịnh theo tiếp cận lý thuyết tập thô, bao gồm: Tổng quan phương pháp, phân nhóm phươngpháp so sánh, đánh giáphươngpháp Chương kiến thức tảng để nghiên cứu phươngpháprútgọnthuộctínhbảngđịnh thay đổi trình bày chương 1.1 Các khái niệm lý thuyết tập thô 1.1.1 Hệ thông tin tập thô Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộctính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa tứ IS = ( U , A,V , f ) U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc Va với V tập giá trị thuộctính a ∈ A ; f : U × A → V hàm tính; V = aU a a ∈A thông tin, ∀a ∈ A, u ∈ U f ( u, a ) ∈Va Với u ∈ U , a ∈ A , ta ký hiệu giá trị thuộctính a đối tượng u a ( u ) thay f ( u , a ) Nếu B = { b1 , b2 , , bk } ⊆ A tập thuộctính ta ký hiệu giá trị bi ( u ) B ( u ) Như vậy, u v hai đối tượng, ta viết B ( u ) = B ( v ) bi ( u ) = bi ( v ) với i = 1, , k Xét hệ thông tin IS = ( U , A,V , f ) Mỗi tập thuộctính P ⊆ A xác định quan hệ hai U, ký hiệu IND ( P ) , xác định { } IND ( P ) = ( u , v ) ∈ U × U ∀a ∈ P, a ( u ) = a ( v ) 45 R gọi tập rútgọn DS dựa entropy Liang Thuật toán tìm tập rútgọnsửdụng entropy Liang, gọi tắt thuật toán NEBAR, mô tả sau: Thuật toán NEBAR Tìm tập rútgọnbảngđịnhsửdụng entropy Liang [5] (New Entropy Based Attribute Reduction) Bảngđịnh DS = ( U , C ∪ D,V , f ) Đầu vào: Đầu ra: Một tập rútgọn R R = ∅ ; Tính E ( D R ) , E ( D C ) ; // Thêm dần vào R thuộctính có độ quan trọng lớn While E ( D R ) ≠ E ( D C ) Begin For each b ∈ C − R tính SIGR ( b ) = E ( D R ) − E ( D R ∪ { b} ) ; { SIGR ( b ) } ; Chọn bm ∈ C − R cho SIGR ( mm ) = bMax ∈C − R R = R ∪ { bm } ; End; // Loại bỏ thuộctính dư thừa R có For each b ∈ R 10.If E ( D R − { b} ) = E ( D C ) then R = R − { b} ; 11 Return R ; 3.2.2 Mô tả thuật toán giatăng tìm tập rútgọn bổ sung tập đối tượng Thuật toán OSIDBAR (Object Set Incremental Distance Based Attribute Reduction) Thuật toán giatăng tìm tập rútgọn dựa khoảngcách bổ sung đối tượng 46 Đầu vào: Bảngđịnh DS = ( U , C ∪ D,V , f ) , tập rútgọn RU U tập đối tượng X Đầu ra: Tập rútgọn RU ∪ X U ∪ X For x ∈ X Begin // Gọi thuật toán tìm tập rútgọn bổ sung đối tượng x Tính R = IDBAR ( U , { x} ) ; U := U ∪ { x} End; Return R; 3.2.3 Lựa chọn công cụ cài đặt Chúng sửdụng công cụ ngôn ngữ lập trình C# môi trường hệ điều hành Windows 8.1 để thực cài đặt Thuật toán DBAR Thuật toán OSIDBAR Bộ số liệu thử nghiệm lấy từ kho liệu UCI [14] 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm thuật toán tìm tập rútgọnsửdụngkhoảngcách Sau cài đặt thuật toán rútgọnthuộctínhsửdụngkhoảngcách (DBAR) thuật toán rútgọnthuộctínhsửdụng entropy Liang (NEBAR), tiến hành thử nghiệm hai thuật toán số liệu vừa nhỏ lấy từ kho liệu UCI [14] Môi trường thử nghiệm máy tính LAPTOP với cấu hình Intel Core i3 2.13 GHz CPU, 2GB nhớ RAM, sửdụng hệ điều hành Windows 8.1 Với số liệu, giảsử U số đối tượng, C số thuộctính điều kiện, R số thuộctính tập rút gọn, t thời gian thực thuật toán 47 (đơn vị giây s) Các thuộctính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Hepatitis.data Lung-cancer.data Automobile.data Anneal.data Congressional U 155 32 205 798 435 C 19 56 25 38 16 Thuật toán Thuật toán NEBAR R t 1.296 0.187 179 15 25.562 DBAR R t 0.89 0.171 1.687 86.921 15 16.734 Voting Records Credit Approval 690 15 29.703 15.687 Bảng 3.2 Tập rútgọn Thuật toán NEBAR Thuật toán DBAR STT Bộ số liệu Tập rútgọn Tập rútgọn Hepatitis.data Lung- Thuật toán NEBAR {1, 2, 4, 17} {3, 4, 9, 43} Thuật toán DBAR {1, 2, 4, 17} {3, 4, 9, 43} cancer.data Automobile.data Anneal.data {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Congressional 35} {1, 2, 3, 4, 5, 7, 8, 9, 35} {1, 2, 3, 4, 5, 7, 8, 9, Voting 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, Records.data 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy 16} {1, 2, 3, 4, 5, 6, 8} − Trên số liệu chọn, tập rútgọn thu Thuật toán DBAR Thuật toán NEBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần 48 − Thời gian thực Thuật toán DBAR nhanh Thuật toán NEBAR, Thuật toán DBAR hiệu Thuật toán NEBAR Tiếp theo, tiến hành thử nghiệm Thuật toán DBAR Thuật toán NEBAR số liệu kích thước lớn Kết thử nghiệm mô tả bảng sau: Bảng 3.3 Kết thực Thuật toán NEBAK Thuật toán DBAK số liệu lớn ST T ST Bộ số liệu U Thuật toán Thuật toán NEBAR R t DBAR R t C T Census- 299285 40 21 11415 21 5206 Income.data Adult.data Dorothea.data 48842 1950 14 100 92 1270 2867 92 675 1247 100000 000 11 8977 4376 Poker-hand- testing.data CovType.data 581012 54 17 14289 17 7256 Với số liệu có kích thước lớn, rõ ràng thời gian thực Thuật toán DBAR nhỏ nhiều Thuật toán NEBAR, số liệu kích thước lớn, Thuật toán DBAR hiệu 3.3.2 Kết thử nghiệm thuật toán giatăngrútgọnthuộctínhsửdụngkhoảngcách Sau cài đặt thuật toán rútgọnthuộctính dựa khoảngcách nguyên thủy (DBAR) thuật toán giatăng bổ sung tập đối tượng (OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán 04 số liệu thử nghiệm lấy từ kho liệu UCI [14] Với số liệu thử nghiệm, luận văn lấy ngẫu nhiên 80% số đối tượng cho bảngđịnh ban đầu 49 Bảng 3.4 04 số liệu thử nghiệm Số đối STT Bộ số liệu tượng U Hepatitis.data Automobile.data Anneal.data Credit Approval 155 205 798 690 Số đối tượng bảngđịnh ban đầu (80%) 124 164 638 552 Số thuộctính C 19 25 38 15 Môi trường thử nghiệm máy tính LAPTOP với cấu hình Pentium Core i3 2.13 GHz CPU, 2GB nhớ RAM, sửdụng hệ điều hành Windows 8.1 1) Thực thuật toán DBAR để tìm tập rútgọnbảngđịnh ban đầu, luận văn thu kết Bảng 3.5 50 Bảng 3.5 Kết thực thuật toán DBAR số liệu ban đầu STT Bộ số liệu Hepatitis.data Automobile.data Anneal.data Credit Approval Số đối Số thuộc Số thuộc tượng tínhtính U điều tập rút 124 164 638 552 kiện C 19 25 38 15 Tập rútgọngọn 4 {1, 2, 4, 17} {1, 13, 14, 21} {1, 3, 4, 5, 8, 33, 34} {1, 3, 4, 5, 8} 2) Thực bổ sung 20% số đối tượng lại cho số liệu Tiến hành thử nghiệm thuật toán DBAR toàn 100% tập đối tượng thử nghiệm thuật toán giatăng OSIDBAR bổ sung thêm 20% số đối tượng cho số liệu Kết thực hai thuật toán mô tả Bảng 3.6 Bảng 3.7 51 Bảng 3.6 Kết thực thuật toán DBAR thuật toán giatăng OSIDBAR Số STT Bộ số liệu Hepatitis.data Automobile.data Anneal.data Credit Approval Thuật toán đối Số tượn thuộ g sau c tính bổ điều sung kiện 20% 155 205 798 690 19 25 38 15 Thuật toán OSIDBAR R t DBAR R t 9 0.62 1.2 26.252 6.726 0.89 1.687 86.921 15.687 Bảng 3.7 Tập rútgọn Thuật toán DBAR Thuật toán OSIDBAR STT Bộ số liệu Tập rútgọn Tập rútgọn Thuật toán DBAR Thuật toán Hepatitis.data Automobile.data Anneal.data {1, 2, 4, 17} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, OSIDBAR {1, 2, 4, 17} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, Credit Approval 35} {1, 2, 3, 4, 5, 6, 8} 35} {1, 2, 3, 4, 5, 6, 8} Kết thử nghiệm cho thấy: − Trên số liệu chọn, sau bổ sung nốt 20% số đối tượng lại vào số liệu, tập rútgọn thu Thuật toán DBAR 52 Thuật toán OSIDBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần − Thời gian thực thuật toán giatăng OSIDBAR nhanh thuật toán truyền thống DBAR, thuật toán giatăng OSIDBAR hiệu thuật toán DBAR Kết phù hợp với kết nghiên cứu lý thuyết trình bày phần 53 KẾT LUẬN 1) Những kết luận văn: Luận văn đạt kết sau đây: − Tổng hợp kết hướng nghiên cứu rútgọnthuộctínhbảngđịnh đầy đủ theo tiếp cận lý thuyết tập thô truyền thống Pawlak − Đề xuất phươngpháprútgọnthuộctínhsửdụngkhoảngcách sở cải tiến phươngpháprútgọnthuộctínhsửdụng metric (khoảng cách Jaccard) [1, 7], bao gồm bước định nghĩa độđokhoảng cách, định nghĩa tập rútgọn dựa khoảngcách xây dựng thuật toán heuristic tìm tập rútgọn tốt sửdụngkhoảng cách, chứng minh phươngpháp đề xuất thuộc Nhóm phươngpháp − Xây dựng công thức tính toán khoảngcách bổ sung loại bỏ đối tượng, sở xây dựng thuật toán tìm tập rútgọn bổ sung, loại bỏ đối tượng − Thử nghiệm tính hiệu phươngphápsửdụngkhoảngcách so với phươngpháp khác nhóm tính hiệu phươngphápgiatăng so với phươngpháp không tính toán giatăng 2) Hướng phát triển luận văn: − Tiếp tục nghiên cứu thuật toán tìm tập rútgọnbảngđịnh trường hợp bổ sung loại bỏ tập thuộctính − Tìm hiểu nhu cầu thực tế, tham khảo ý kiến chuyên gia để xây dựng chương trình áp dụng kỹ thuật nghiên cứu, bổ xung số yếu tố khác để hoàn thiện đánh giá chi tiết lại thuật toán 54 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012 Tài liệu tiếng Anh [2] [3] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 Guan L H, “An incremental updating algorithm of attribute reduction set in decision tables”, FSKD'09 Proceedings of the 6th international conference on Fuzzy systems and knowledge discovery, Vol 2, 2009, [4] pp 421-425 Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction based on elementary sets”, Proceedings of the 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular [5] Computing, Regina, Canada, 2005, pp 185-193 Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, [6] International Journal of General Systems 31, 2002, pp 331-342 Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental approach to feature selection applying rough set technique”, IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):294 - [7] 308 Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333- [8] 338 Pawlak Z (1982), “Rough sets”, International Journal of Computer 55 [9] and Information Sciences, 11(5): 341-356 Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, [10] Kluwer Aca-demic Publishers, 1991 Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, [11] pp 95–108 Feng Wang, Jiye Liang, Chuangyin Dang., “Attribute reduction for [12] dynamic data sets”, Applied Soft Computing, 2013, 13(1):676-689 Zhang C S, Jing Ruan J.,Tan Y H., “An Improved Incremental Updating Algorithm for Core Based on Positive Region”, Journal of [13] Computational Information Systems 7: 9, 2011, pp 3127-3133 Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, [14] Journal of Computer, Vol 29, no 3, pp 391-398, 2006 The UCI machine learning repository, 56 Danh mục công trình tác giả Lê Trường Giang, Nguyễn Long Giang (2014), “Rút gọnthuộctínhbảngđịnh thay đổi”, Tạp chí Khoa học Công nghệ, T16 S.21, tr 8-14 57 Phụ lục Một số giao diện chương trình thử nghiệm - Giao diện chương trình Chọn file liệu UCI để nạp liệu - Bước tiến hành nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: - Chức nạp liệu từ UCI sau 58 - Sau nạp liệu từ UCI phần mềm hiển thị menu để người dùng thực thao tác Tách tệp liệu, gộp tệp liệu chạy thuật toán - Kết thử nghiệm với thuật toán rútgọnthuộctínhsửdụng entropy Liang (NEBAR) tập tin soybean-small.data số thuộctính sau rútgọn thời gian thực 171 mili giây 59 - Kết thử nghiệm với thuật toán rútgọnthuộctínhsửdụngkhoảngcách (DBAR) tập tin soybean-small.data số thuộctính sau rútgọn thời gian thực 37 mili giây ... dựng phương pháp rút gọn sử dụng khoảng cách hai trường hợp 23 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH 2.1 Phương pháp rút gọn thuộc tính sử dụng khoảng cách. .. sử dụng độ đo khoảng cách, bao gồm định nghĩa độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách Trên... đề xuất phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách Khoảng cách luận văn sử dụng cải tiến khoảng cách Jaccard [1, 7] Trên sở đó, luận văn xây dựng công thức tính khoảng cách bổ