Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 117 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
117
Dung lượng
1,93 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… NGUYỄN VĂN THIỆN MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CƠNG NGHỆ THƠNG TIN Hà Nội – 2018 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… NGUYỄN VĂN THIỆN MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THƠ MỜ LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CƠNG NGHỆ THƠNG TIN Chuyên ngành : Hệ thống thông tin Mã số: 48 01 04 Ngƣời hƣớng dẫn khoa học: PGS.TS Nguyễn Long Giang TS Nguyễn Nhƣ Sơn Hà Nội – 2018 i MỤC LỤC MỤC LỤC .i Danh mục thuật ngữ iii Bảng ký hiệu, từ viết tắt iv Danh sách bảng v Danh sách hình vẽ vi MỞ ĐẦU Chương TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THƠ MỜ 1.1 Một số khái niệm lý thuyết tập thô 1.1.1 Hệ thông tin bảng định 1.1.2 Quan hệ tương đương 1.1.3 Các tập xấp xỉ tập thô 1.2 Một số khái niệm lý thuyết tập thô mờ 1.2.1 Quan hệ tương đương mờ 1.2.2 Ma trận tương đương mờ 10 1.2.3 Phân hoạch mờ 12 1.2.4 Các tập xấp xỉ mờ tập thô mờ .15 1.3 Tổng quan rút gọn thuộc tính 16 1.3.1 Rút gọn thuộc tính 16 1.3.2 Tiếp cận filter, wrapper rút gọn thuộc tính .17 1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ 19 1.4.1 Rút gọn thuộc tính bảng định mờ theo tiếp cận tập thô mờ 20 1.4.2 Rút gọn thuộc tính trực tiếp bảng định theo tiếp cận tập thô mờ 22 1.4.3 Phương pháp gia tăng rút gọn thuộc tính bảng định thay đổi theo tiếp cận tập thô mờ .30 1.5 Tóm tắt đóng góp luận án 35 1.6 Kết luận 35 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ PHỤ THUỘC MỜ VÀ KHOẢNG CÁCH MỜ 36 2.1 Mở đầu 36 ii 2.2 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ 37 2.2.1 Rút gọn thuộc tính sử dụng độ phụ thuộc theo tiếp cận filter 37 2.2.2 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter 39 2.2.3 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter-wrapper .44 2.2.4 Thực nghiệm thuật toán .46 2.3 Rút gọn thuộc tính sử dụng khoảng cách mờ 53 2.3.1 Xây dựng khoảng cách mờ hai tập mờ 54 2.3.2 Xây dựng khoảng cách mờ hai phân hoạch mờ .57 2.3.3 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter 60 2.3.4 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper .64 2.3.5 Thực nghiệm thuật toán .67 2.4 Kết luận chương 71 Chương RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH MỜ 73 3.1 Mở đầu 73 3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ bổ sung tập đối tượng 75 3.2.1 Cơng thức gia tăng tính khoảng cách mờ bổ sung tập đối tượng 75 3.2.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng 78 3.2.3 Thực nghiệm thuật toán 82 3.3 Thuật tốn filter-wrapper tìm tập rút gọn loại bỏ tập đối tượng 89 3.3.1 Công thức cập nhật khoảng cách mờ loại bỏ tập đối tượng 89 3.3.2 Thuật tốn filter-wrapper tìm tập rút gọn loại bỏ tập đối tượng 92 3.4 Kết luận chương 96 KẾT LUẬN .97 Danh mục cơng trình tác giả 98 Tài liệu tham khảo 99 iii Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô mờ Fuzzy Rough Set Hệ thông tin Information System Bảng định Decision Tables Bảng định mờ Fuzzy Decision Tables Quan hệ tương đương Equivalence Relation Quan hệ tương đương mờ Fuzzy Equivalence Relation Phân hoạch mờ Fuzzy Partition Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes Xấp xỉ mờ Fuzzy Lower Approximation Xấp xỉ mờ Fuzzy Upper Approximation Miền dương mờ Fuzzy Positive Region Độ phụ thuộc mờ thuộc tính Fuzzy Dependency Degree Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Phương pháp gia tăng Incremental Methods Khoảng cách mờ Fuzzy Distance Lọc Filter Đóng gói Wrapper iv Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt IS U , A Diễn giải Hệ thông tin DS U , C D Bảng định U Số đối tượng C Số thuộc tính điều kiện bảng định u a Giá trị đối tượng u thuộc tính a IND B Quan hệ tương đương B U/P u B Phân hoạch U P Lớp tương đương chứa u phân hoạch U / P R Quan hệ tương đương mờ R RP Quan hệ tương đương mờ R tập thuộc tính P M RP Ma trận tương đương mờ R P RP Phân hoạch mờ R P xi P Lớp tương đương mờ xi thuộc phân hoạch mờ RP xi P Lực lượng lớp tương đương mờ xi P RP X Tập xấp xỉ mờ X R P RP X Tập xấp xỉ mờ X R P POSR P RQ Miền dương mờ R Q R P R D Độ phụ thuộc mờ P D dựa quan hệ R P P D R P , RQ Khoảng cách mờ hai phân hoạch mờ R P RQ v Danh sách bảng Bảng 1.1 Bảng định Ví dụ 1.1 14 ản ảng định mờ 21 Bảng 2.1 Bảng định Ví dụ 2.1 42 Bảng 2.2 Bộ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR 47 Bảng 2.3 Độ xác phân lớp F_FRSAR RSAR 49 Bảng 2.4 Độ xác phân lớp GAIN_RATIO_AS_FRS F_FRSAR 50 Bảng 2.5 Độ xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS 52 Bảng 2.6 Thời gian thực FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS 53 Bảng 2.7 Bảng định Ví dụ 2.3 63 Bảng 2.8 Bộ liệu thử nghiệm thuật toán FW_FDAR 68 Bảng 2.9 Độ xác phân lớp FW_FDAR, FEBAR, FPDAR 70 Bảng 2.10 Thời gian thực FW_FDAR, FEBAR, FPDAR 71 Bảng 3.1 Bộ liệu thử nghiệm thuật toán IFW_FDAR_AdObj 83 Bảng 3.2 Thời gian thực IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) 85 Bảng 3.3 Độ xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR 86 Bảng 3.4 Thời gian thực IFW_FDAR_AdObj, IV-FS-FRS-2, IARM 87 Bảng 3.5 Độ xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM 88 vi Danh sách hình vẽ Hình 1.1 Quy trình rút gọn thuộc tính 18 Hình 1.2 Cách tiếp cận filter wrapper rút gọn thuộc tính 19 Hình 2.1 Độ xác phân lớp F_FRSAR RSAR 49 Hình 2.2 Độ xác phân lớp GAIN_RATIO_AS_FRS F_FRSAR 51 MỞ ĐẦU Với phát triển mạnh mẽ công nghệ thông tin, sở liệu ngày gia tăng dung lượng liệu số lượng thuộc tính, gây nhiều khó khăn cho việc thực thi thuật toán khai phá liệu Vấn đề đặt phải tìm cách rút gọn số lượng thuộc tính mà không làm mát thông tin cần thiết phục vụ nhiệm vụ khai phá liệu Do đó, rút gọn thuộc tính (còn gọi rút gọn chiều hay rút gọn đặc trưng) đề tài thu hút quan tâm nhiều nhà nghiên cứu thuộc lĩnh vực nhận dạng thống kê, học máy, khai phá liệu Rút gọn thuộc tính tốn quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộc tính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật tốn khai phá liệu Hiện có hai cách tiếp cận tốn rút gọn thuộc tính [43, 44]: filter (lọc) wrapper (đóng gói) Cách tiếp cận filter thực việc rút gọn thuộc tính độc lập với thuật khai phá liệu sử dụng sau Các thuộc tính chọn dựa độ quan trọng chúng việc phân lớp liệu Trong đó, cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Lý thuyết tập thô (Rough set) Pawlak đề xuất [101] cơng cụ hiệu giải tốn rút gọn thuộc tính cộng đồng nghiên cứu tập thô thực lâu Các phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống tập thô dung sai nghiên cứu đầy đủ luận án tiến sĩ [4, 5, 6, 11, 13], bao gồm phương pháp như: phương pháp dựa miền dương, phương pháp sử dụng ma trận không phân biệt được, phương pháp sử dụng entropy thông tin, phương pháp sử dụng độ đo tinh toán hạt, phương pháp sử dụng metric (khoảng cách) Gần đây, luận án tiến sĩ [7] nghiên cứu phương pháp gia tăng tìm tập rút gọn bảng định thay đổi theo tiếp cận tập thô truyền thống Tuy nhiên, phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống, tập thô dung sai luận án tiến sĩ nêu nghiên cứu liên quan theo hướng tiếp cận filter thực bảng định có miền giá trị rời rạc (bảng định sau thực phương pháp rời rạc hóa liệu) Các phương pháp rời rạc hóa liệu khơng bảo tồn khác ban đầu đối tượng liệu gốc Do đó, phương pháp rút gọn thuộc tính theo tiếp cận tập thơ, tập thơ dung sai trình bày giảm thiểu độ xác mơ hình phân lớp liệu gốc Nhằm nâng cao độ xác mơ hình phân lớp, nhà nghiên cứu đề xuất phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ Lý thuyết tập thô mờ (Fuzzy rough set) Dubois cộng [22, 23] đề xuất kết hợp lý thuyết tập thô lý thuyết tập mờ nhằm xấp xỉ tập mờ dựa quan hệ tương đương mờ (fuzzy equivalent relation) xác định miền giá trị thuộc tính Ban đầu, tập thơ mờ cơng cụ giải tốn rút gọn thuộc tính bảng định mờ [40, 41, 76, 77, 78, 79, 81] Về sau, nhà nghiên cứu tập trung giải tốn rút gọn thuộc tính trực tiếp bảng định gốc (bảng định không qua bước rời rạc hóa liệu) theo tiếp cận tập thơ mờ nhằm nâng cao độ xác mơ hình phân lớp Các phương pháp rút gọn thuộc tính bảng định gốc theo tiếp cận tập thô mờ nghiên cứu mở rộng phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống nghiên cứu lâu Đây phương pháp heuristic theo tiếp cận filter, bao gồm bước xây dựng độ đo, định nghĩa tập rút gọn độ quan trọng thuộc tính sử dụng độ đo xây dựng, sở xây dựng thuật tốn heuristic tìm tập rút gọn theo tiêu chuẩn độ quan trọng thuộc tính Việc đánh giá độ xác mơ hình phân lớp thực sau tìm tập rút gọn Cho đến nay, nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp bảng định gốc theo tiếp cận tập thơ mờ tập trung vào phương pháp như: phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, số nhà nghiên cứu đề xuất phương pháp mở rộng dựa độ đo khác định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Kết thử nghiệm