Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống và tập thô dung sai được nghiên cứu khá đầy đủ trong các luận án tiến sĩ [4, 5, 6, 11, 13], bao gồm các phương pháp
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
…… ….***…………
NGUYỄN VĂN THIỆN
MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN
THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ
LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2018
Trang 2…… ….***…………
NGUYỄN VĂN THIỆN
MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ
LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN
Chuyên ngành : Hệ thống thông tin
Trang 3MỤC LỤC
MỤC LỤC i
Danh mục các thuật ngữ iii
Bảng các ký hiệu, từ viết tắt iv
Danh sách bảng v
Danh sách hình vẽ vi
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ 7 1.1 Một số khái niệm trong lý thuyết tập thô 7
1.1.1 Hệ thông tin và bảng quyết định 7
1.1.2 Quan hệ tương đương 7
1.1.3 Các tập xấp xỉ và tập thô 8
1.2 Một số khái niệm trong lý thuyết tập thô mờ 9
1.2.1 Quan hệ tương đương mờ 9
1.2.2 Ma trận tương đương mờ 10
1.2.3 Phân hoạch mờ 12
1.2.4 Các tập xấp xỉ mờ và tập thô mờ 15
1.3 Tổng quan về rút gọn thuộc tính 16
1.3.1 Rút gọn thuộc tính 16
1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính 17
1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ 19
1.4.1 Rút gọn thuộc tính trên bảng quyết định mờ theo tiếp cận tập thô mờ 20
1.4.2 Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ 22
1.4.3 Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ 30
1.5 Tóm tắt các đóng góp của luận án 35
1.6 Kết luận 35
Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ PHỤ THUỘC MỜ VÀ KHOẢNG CÁCH MỜ 36
2.1 Mở đầu 36
Trang 42.2 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ 37
2.2.1 Rút gọn thuộc tính sử dụng độ phụ thuộc theo tiếp cận filter 37
2.2.2 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter 39
2.2.3 Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter-wrapper 44
2.2.4 Thực nghiệm các thuật toán 46
2.3 Rút gọn thuộc tính sử dụng khoảng cách mờ 53
2.3.1 Xây dựng khoảng cách mờ giữa hai tập mờ 54
2.3.2 Xây dựng khoảng cách mờ giữa hai phân hoạch mờ 57
2.3.3 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter 60
2.3.4 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper 64
2.3.5 Thực nghiệm các thuật toán 67
2.4 Kết luận chương 2 71
Chương 3 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH MỜ 73
3.1 Mở đầu 73
3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi bổ sung tập đối tượng 75 3.2.1 Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng 75
3.2.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng 78 3.2.3 Thực nghiệm thuật toán 82
3.3 Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng 89
3.3.1 Công thức cập nhật khoảng cách mờ khi loại bỏ tập đối tượng 89
3.3.2 Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng 92
3.4 Kết luận chương 3 96
KẾT LUẬN 97
Danh mục các công trình của tác giả 98
Tài liệu tham khảo 99
Trang 5Danh mục các thuật ngữ
Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
Bảng quyết định mờ Fuzzy Decision Tables Quan hệ tương đương Equivalence Relation
Quan hệ tương đương mờ Fuzzy Equivalence Relation
Ma trận tương đương mờ Fuzzy Equivalence Matrix Lớp tương đương mờ Fuzzy equivalence Classes
Độ phụ thuộc mờ của thuộc tính Fuzzy Dependency Degree Rút gọn thuộc tính Attribute Reduction
Phương pháp gia tăng Incremental Methods
Trang 6 x i P Lớp tương đương mờ của x i thuộc phân hoạch mờ
Trang 7Danh sách bảng
Bảng 1.1 Bảng quyết định Ví dụ 1.1 14
ản ảng quyết định mờ 21
Bảng 2.1 Bảng quyết định Ví dụ 2.1 42
Bảng 2.2 Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR 47
Bảng 2.3 Độ chính xác phân lớp của F_FRSAR và RSAR 49
Bảng 2.4 Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR 50
Bảng 2.5 Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS 52
Bảng 2.6 Thời gian thực hiện FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS 53
Bảng 2.7 Bảng quyết định Ví dụ 2.3 63
Bảng 2.8 Bộ dữ liệu thử nghiệm thuật toán FW_FDAR 68
Bảng 2.9 Độ chính xác phân lớp FW_FDAR, FEBAR, FPDAR 70
Bảng 2.10 Thời gian thực hiện FW_FDAR, FEBAR, FPDAR 71
Bảng 3.1 Bộ dữ liệu thử nghiệm thuật toán IFW_FDAR_AdObj 83
Bảng 3.2 Thời gian thực hiện IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) 85
Bảng 3.3 Độ chính xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR 86
Bảng 3.4 Thời gian thực hiện IFW_FDAR_AdObj, IV-FS-FRS-2, IARM 87
Bảng 3.5 Độ chính xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM 88
Trang 8Danh sách hình vẽ
Hình 1.1 Quy trình rút gọn thuộc tính 18
Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính 19
Hình 2.1 Độ chính xác phân lớp của F_FRSAR và RSAR 49
Hình 2.2 Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR 51
Trang 9MỞ ĐẦU
Với sự phát triển mạnh mẽ của công nghệ thông tin, các cơ sở dữ liệu ngày càng gia tăng về dung lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các thuật toán khai phá dữ liệu Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu Do đó, rút gọn thuộc tính (còn gọi là rút gọn chiều hay rút gọn đặc trưng) là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói) Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật khai phá dữ liệu sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc phân lớp dữ liệu Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn
để lựa chọn các tập con thuộc tính
Lý thuyết tập thô (Rough set) do Pawlak đề xuất [101] là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống
và tập thô dung sai được nghiên cứu khá đầy đủ trong các luận án tiến sĩ [4, 5, 6, 11, 13], bao gồm các phương pháp cơ bản như: phương pháp dựa trên miền dương, phương pháp sử dụng ma trận không phân biệt được, phương pháp sử dụng entropy thông tin, phương pháp sử dụng các độ đo trong tinh toán hạt, phương pháp sử dụng metric (khoảng cách) Gần đây, luận án tiến sĩ [7] nghiên cứu các phương pháp gia tăng tìm tập rút gọn của bảng quyết định thay đổi theo tiếp cận tập thô truyền thống Tuy nhiên, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, tập thô dung sai trong các luận án tiến sĩ nêu trên và các nghiên cứu liên quan đều
Trang 10theo hướng tiếp cận filter và thực hiện trên các bảng quyết định có miền giá trị rời rạc (bảng quyết định sau khi thực hiện các phương pháp rời rạc hóa dữ liệu) Các phương pháp rời rạc hóa dữ liệu không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ liệu gốc Do đó, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai được trình bày ở trên giảm thiểu độ chính xác của mô hình phân lớp trên dữ liệu gốc Nhằm nâng cao độ chính xác của mô hình phân lớp, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc tính Ban đầu, tập thô mờ là công cụ giải quyết bài toán rút gọn thuộc tính trên bảng quyết định mờ [40, 41, 76, 77, 78, 79, 81] Về sau, các nhà nghiên cứu tập trung giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) theo tiếp cận tập thô
mờ nhằm nâng cao độ chính xác của mô hình phân lớp Các phương pháp rút gọn thuộc tính trong bảng quyết định gốc theo tiếp cận tập thô mờ là các nghiên cứu mở rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống đã được nghiên cứu lâu nay Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, một số nhà nghiên cứu đề xuất các phương pháp mở rộng dựa trên các độ đo khác nhau được định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Kết quả thử nghiệm trên
Trang 11các bộ số liệu mẫu cho thấy, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo
tiếp cận tập thô truyền thống Tuy nhiên, các phương pháp đề xuất đều theo tiếp cận filter, tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo
đảm có độ chính xác phân lớp cao nhất, nghĩa là tập rút gọn của các phương pháp filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp Do đó,
luận án nghiên cứu các thuật toán theo hướng tiếp cận lai ghép filter-wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp Giai đoạn filter tìm các ứng viên cho tập rút gọn
dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất
Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống
và các mô hình tập thô mở rộng gặp nhiều thách thức Trường hợp các bảng quyết định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện Do đó, việc chia nhỏ bảng quyết định để tìm tập rút gọn trên từng phần là giải pháp đặt ra Tuy nhiên, việc tính toán tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải quyết Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Các thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết định Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38,
49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công
Trang 12thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm tập rút gọn trên bảng quyết định theo tiếp cận tập thô mờ trong các trường hợp: bổ sung và loại bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97,
98, 99] Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi
trên các bảng dữ liệu kích thước lớn Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận filter truyền thống Tập rút gọn tìm được chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp Do đó với hướng nghiên cứu gia tăng, luận án
đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ theo tiếp cận tập thô mờ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp
Mục tiêu của luận án tập trung nghiên cứu hai vấn đề chính
1) Nghiên cứu các thuật toán filter-wrapper tìm tập rút gọn sử dụng độ đo khoảng cách mờ cải tiến và các độ đo khác nhằm giảm thiểu số lượng thuộc tính của tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độ chính xác của mô hình phân lớp
2) Nghiên cứu các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi sử dụng độ đo khoảng cách mờ nhằm giảm thiểu thời gian thực hiện so với các thuật toán không gia tăng và giảm thiểu số lượng thuộc tính tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình), cải thiện độ chính xác của mô hình phân lớp
Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:
1) Đề xuất hai thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định
theo tiếp cận tập thô mờ: Thuật toán sử dụng độ phụ thuộc mờ và thuật toán sử dụng khoảng cách mờ Độ đo khoảng cách mờ được xây dựng là mở rộng của độ đo
khoảng cách trong công trình [48] Các đóng góp này được trình bày ở chương 2 của luận án
Trang 132) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng sử dụng độ đo khoảng cách mờ được xây dựng trong chương 2 Các đóng góp này được trình bày ở chương 3 của luận án.
Đối tượng nghiên cứu của luận án là các phương pháp rút gọn thuộc tính
theo tiếp cận tập thô mờ và các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm
1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính theo
tiếp cận tập thô mờ đã công bố, phân tích ưu điểm, nhược điểm và các vấn đề còn tồn tại của các nghiên cứu liên quan Trên cơ sở đó, đề xuất các độ đo cải tiến và các thuật toán theo hướng tiếp cận lai ghép filter-wrapper Các đề xuất, cải tiến được chứng minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề
2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử
nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô truyền thống, mô hình tập thô mờ và tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được
Các đóng góp chính của luận án được trình bày trong chương 2, chương 3 Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ; thứ hai là xây
Trang 14dựng một độ đo khoảng cách mờ và đề xuất thuật toán filter-wrapper tìm tập rút gọn
sử dụng khoảng cách mờ được xây dựng theo tiếp cận tập thô mờ Cả hai đề xuất đều nhằm mục tiêu giảm thiểu số thuộc tính của tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các phương pháp filter trước đây
Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập thuộc tính Cả hai thuật toán đề xuất đều sử dụng độ đo khoảng cách mờ đề xuất ở chương 2 và đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng và giảm thiểu số thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các thuật toán gia tăng khác đã công bố
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển
và những vấn đề quan tâm của tác giả
Trang 15Chương 1 TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH
THEO TIẾP CẬN TẬP THÔ MỜ 1.1 Một số khái niệm trong lý thuyết tập thô
Lý thuyết tập thô truyền thống do Z.Pawlak [101] đề xuất là công cụ toán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn Phương pháp
tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp Khi đó, mọi tập đối tượng đều được xấp xỉ
bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tập thô truyền thống của Z.Pawlak [101], là cơ sở nền tảng cho lý thuyết tập thô mờ được trình bày ở phần 1.2
1.1.1 Hệ thông tin và bảng quyết định
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng Một cách hình thức, hệ
thông tin là một cặp IS U A, trong đó U là tập hữu hạn, khác rỗng các đối tượng, gọi là tập vũ trụ; A là tập hữu hạn, khác rỗng các thuộc tính
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định Bảng quyết định DS U C, D là một dạng đặc biệt
của hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: Tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C D
1.1.2 Quan hệ tương đương
Xét hệ thông tin IS U A, , mỗi tập con thuộc tính P A xác định một
quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
IND P u v, U U a P a u, a v (1.1)
Trang 16Với a u là giá trị thuộc tính a tại đối tượng u IND P gọi là quan hệ P-không phân biệt được trên U Dễ thấy rằng IND P là một quan hệ tương đương trên U Nếu
u v, IND P thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P
Quan hệ tương đương IND P xác định một phân hoạch trên U, ký hiệu là U IND P/
hay U P/ , trong đó mỗi thành phần trong phân hoạch U P/ là một lớp tương đương Ký hiệu lớp tương đương trong phân hoạch U P/ chứa đối tượng u là u P , khi đó
u P v U u v , IND P Ký hiệu phân hoạch sinh bởi thuộc tính aP là U/ a , khi đó ta có:
Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương
của U P/ , người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của
/
U P Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính P, được gọi là xấp xỉ dưới và P-xấp xỉ trên của X, ký hiệu lần lượt là PX và PX , được xác định như sau:
P-
Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P
Từ hai tập xấp xỉ nêu trên, ta định nghĩa P-miền biên của X là tập
P
PN X PX PX và P-miền ngoài của X là tập U PX Dễ thấy, P-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn P-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp của phân hoạch U /P,
các xấp xỉ dưới và trên của X có thể viết lại
Trang 17là P-miền dương của Q Dễ thấy POS Q P( ) là tập các đối tượng trong U được phân lớp
đúng vào các lớp của U Q/ sử dụng tập thuộc tính P Rõ ràng, POS Q P( ) là tập tất cả
các đối tượng u sao cho với mọi v U mà u P v P ta đều có u Q v Q Nói một cách hình thức, P( )
Q P
POS Q u U u u
1.2 Một số khái niệm trong lý thuyết tập thô mờ
Lý thuyết tập thô truyền thống của Pawlak [101] sử dụng quan hệ tương đương
để xấp xỉ tập hợp Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D Dubois và các cộng sự [22, 23] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập mờ Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyết định Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp
cận tập thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảng quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là
rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp Luận án nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm
cơ bản về mô hình tập thô mờ trên bảng quyết định Các khái niệm này được sử dụng trong các chương sau của luận án
1.2.1 Quan hệ tương đương mờ
Định nghĩa 1.1 [32, 71] Cho bảng quyết định DSU C, D, một quan hệ R
xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau với mọi x y z U, ,
Trang 181) Tính phản xạ (reflexive): R x x , 1;
2) Tính đối xứng (symetric): R x y , R y x , ;
3)Tính bắc cầu max-min (max-min transitive): R x z , minR x y , ,R y z, ;
với R x y , là giá trị quan hệ giữa hai đối tương x và y
Mệnh đề 1.1 [72] Cho bảng quyết định DSU C, D và quan hệ tương đương
mờ R Ký hiệu R , P R Q tương ứng là quan hệ R xác định trên tập thuộc tính P, Q Khi đó, với mọi x y, U ta có:
Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương
mờ giữa các đối tượng của bảng quyết định và được định nghĩa như sau:
Định nghĩa 1.2 Cho bảng quyết định DSU C, D với U x x1, 2, ,x n và
Trang 19với p ij R Px x i, j là giá trị của quan hệ giữa hai đối tượng x i và x j trên tập thuộc
1) Trong các công trình [54, 68, 76], các tác giả sử dụng quan hệ tương đương
mờ theo công thức (1.4) trên thuộc tính aC có miền giá trị số
1 4 * max min max min 0.25 ,
Trang 20Trên các thuộc tính aC có miền giá trị định danh (nominal) hoặc nhị phân (binary), các tác giả sử dụng quan hệ tương đương Quan hệ tương đương được xem
là quan hệ tương đương mờ theo công thức (1.6) như sau:
Xét bảng quyết định DSU C, D với P Q, C Theo Mệnh đề 1.1 ta
có R P a P R a và R P Q R PR Q , nghĩa là với mọi x y, U ,
Định nghĩa 1.3 Cho bảng quyết định DSU C, D với PC, U x x1 , 2 , ,x n
và R P là quan hệ tương đương mờ trên P Khi đó phân hoạch mờ trên U sinh bởi
Trang 21Với lớp tương đương mờ x i P, hàm thuộc của các của các đối tượng x jU
Gọi là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương
đương mờ trên các tập thuộc tính, khi đó được gọi là một không gian phân hoạch
mờ trên U Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ
tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính Mỗi tập thuộc tính
tương đương mờ R P với 1/ 1 /
x và khi đó phân hoạch mờ R P
được gọi là mịn nhất, ký hiệu là Khi đó x1 , , x n với
Định nghĩa 1.5 [93] Xét hai phân hoạch mờ R P , R Q , quan hệ thứ tự bộ
Trang 22Ví dụ 1.1 Xét bảng quyết định DSU C, D cho ở Bảng 1.1 với
Giả sử quan hệ tương đương mờ được sử dụng là công thức (1.12), theo Định
nghĩa 1.2, ma trận tương đương mờ của thuộc tính c1 là
1
1 0.0841 0 0.5349 0.0841 1 0 0
Trên thuộc tính D, sử dụng quan hệ tương đương mờ theo công thức (1.13) (quan hệ
tương đương) Khi đó, ma trận tương đương mờ của thuộc tính quyết định D là
1 0 0 0
0 1 1 1
0 1 1 1 ( )
Trang 23Cho bảng quyết định DSU C, D Giả sử R P là một quan hệ tương
đương mờ xác định trên tập thuộc tính PC Theo Định nghĩa 1.3, x i P là một tập mờ đóng vai trò là một lớp tương đương mờ của đối tượng x iU Hàm thuộc của
Định nghĩa 1.6 [66, 70, 85, 87] Cho X là một tập mờ trên U và R P là một quan hệ tương đương mờ trên tập thuộc tính PC Khi đó, tập xấp xỉ dưới mờ R X P và tập xấp xỉ trên mờ R X P của X là các tập mờ và hàm thuộc của các đối tượng x Uđược xác định như sau:
với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F
là các lớp tương đương mờ của phân hoạch mờ U /R P
Với các tập xấp xỉ dưới mờ và xấp xỉ trên mờ xác định bởi Định nghĩa 1.6, bộ
, P
P
Trang 24X được xem như là một tập mờ trên U với hàm thuộc của đối tượng yU được
định nghĩa: X y 1 với yX và X y 0 với yX Do đó, mô hình tập thô mờ là xấp xỉ các tập mờ (hoặc tập rõ) bằng các tập xấp xỉ dưới mờ và xấp xỉ trên mờ
Trong lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa
là hợp của tất cả các tập xấp xỉ dưới Trong lý thuyết tập thô mờ, miền dương mờ được định nghĩa như sau
Định nghĩa 1.7 [66] Cho bảng quyết định DSU C, D và R P,R Q tương ứng là hai quan hệ tương đương mờ xác định trên P Q, C Khi đó, miền dương mờ của
Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng
dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các thuật toán khai phá dữ liệu Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều - dimension reduction, rút gọn đặc trưng - feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thu được Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute
Trang 25selection) và biến đổi thuộc tính (Attribute transformation) Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc tính ban đầu của tập dữ liệu Trong khi đó, biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất Trong luận án này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính
1.3.2 Tiếp cận filter, wrapper trong rút gọn thuộc tính
Rút gọn thuộc tính theo tiếp cận lựa chọn thuộc tính, gọi tắt là rút gọn
thuộc tính, là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm M thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại một cách
tối ưu theo một tiêu chuẩn nhất định Việc tìm ra một tập con thuộc tính tốt nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực hiện; nhiều bài toán liên quan đến vấn đề này là những bài toán NP - khó Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:
(1) Tạo lập tập con,
(2) Đánh giá tập con,
(3) Kiểm tra điều kiện dừng,
(4) Kiểm chứng kết quả
Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các
tập con để đánh giá, lựa chọn Giả sử có M thuộc tính trong tập dữ liệu ban đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là 2M
Với số ứng viên
này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc
không thể Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần lượt tạo ra các tập con để so sánh Mỗi tập con sinh ra bởi một thủ tục sẽ được đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất
Trang 26trước đó Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ Quá trình tìm kiếm tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a)
đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựa chọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khác nhau
Dừng Tiếp tục
Hình 1.1 Quy trình rút gọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính
tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác
Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật khai phá dữ liệu sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộc tính Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này
Trang 27Ngược lại với cách tiếp cận filter, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính
Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm
là không sử dụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao
Sự đánh giá
Tập con được lựa chọn
Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper, một số cách tiếp cận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper [67, 91]
1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp
cận tập thô mờ
Lý thuyết tập thô (Rough set) do Pawlak đề xuất [101] là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô được nghiên
Trang 28cứu khá đầy đủ trong luận án tiến sĩ [6], bao gồm các phương pháp cơ bản như: phương pháp dựa trên miền dương, phương pháp sử dụng ma trận không phân biệt được, phương pháp sử dụng entropy thông tin, phương pháp sử dụng các độ đo trong tinh toán hạt, phương pháp sử dụng metric (khoảng cách) Với các bảng quyết định không đầy đủ, Kryszkiewicz [62] đề xuất mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô sung sai Dựa trên mô hình tập thô dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô được nghiên cứu
mở rộng trong luận án tiến sĩ [13] Luận án tiến sĩ [11] nghiên cứu các phương pháp rút gọn thuộc tính trên bảng quyết định tập giá trị theo tiếp cận mô hình tập thô dung sai Gần đây, luận án tiến sĩ [7] nghiên cứu các phương pháp gia tăng tìm tập rút gọn của bảng quyết định thay đổi theo tiếp cận tập thô truyền thống Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai trong các luận án tiến
sĩ [4, 5, 6, 7, 11, 13] và các nghiên cứu liên quan đều theo hướng tiếp cận filter và thực hiện trên các bảng quyết định có miền giá trị rời rạc (bảng quyết định sau khi thực hiện các phương pháp rời rạc hóa dữ liệu) Các phương pháp rời rạc hóa dữ liệu không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ liệu gốc Do
đó, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai được trình bày ở trên giảm thiểu độ chính xác của mô hình phân lớp trên dữ liệu gốc
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc tính Ban đầu, lý thuyết tập thô mờ là công cụ giải quyết bài toán rút gọn thuộc tính trên bảng quyết định mờ Về sau, các nhà nghiên cứu tập trung giải quyết bài toán rút gọn thuộc tính theo tiếp cận tập thô mờ nhằm nâng cao
độ chính xác của mô hình phân lớp
Bảng quyết định mờ là cấu trúc phổ biến trong lĩnh vực trích lọc hệ luật mờ ứng dụng trong các hệ học mờ và điều khiển mờ Bảng quyết định mờ được xem là bảng quyết định mà giá trị thuộc tính là các tập mờ (fuzzy set) Bảng quyết định
Trang 29 ,
DS U CD với U u1 , ,u9, C ={Thời tiết, Nhiệt độ, Độ ẩm}, D ={Quyết
định} cho ở Bảng 1.2 dưới đây là một ví dụ minh họa về bảng quyết định mờ [40]
Cho bảng quyết định mờ DS U C, D, khi đó với mỗi aC, phân hoạch
mờ U a/ là tập các giá trị (biến ngôn ngữ) của thuộc tính a Ví dụ với thuộc tính
“Nhiệt độ” trong Bảng 1.2, phân hoạch mờ U / Nhiệt độ = {Nóng, Trung bình, Lạnh}, trong đó “Nóng”, “Trung bình” hoặc “Lạnh” là các biến ngôn ngữ hay các tập mờ Giá trị của đối tượng trên các tập mờ chính là giá trị của hàm thuộc, ví dụ: μ
Nóng (u 1 ) = 0.9 Phân hoạch mờ trên tập thuộc tính điều kiện PC được xác định bởi công thức [77] U P/ a P U: / a với
Ví dụ: P = “Nhiệt độ, Độ ẩm”, khi đó U / Nhiệt độ = {Nóng, Trung bình, Lạnh},
U / Độ ẩm = {Thấp, Cao} và U / P = {NóngThấp, NóngCao, Trung bìnhThấp,
Trang 30Trung bìnhCao, LạnhThấp, LạnhCao} Hàm thuộc của lớp tương đương mờ
được định nghĩa dựa trên lý thuyết tập mờ:
xỉ dưới mờ, xấp xỉ trên mờ và miền dương mờ dựa vào các toán tử xấp xỉ trong lý thuyết tập thô mờ [22, 23] Trên cơ sở đó, xây dựng các phương pháp rút gọn thuộc tính trên bảng quyết định mờ
Ban đầu, nhóm nghiên cứu của R Jensen, Q Shen và các cộng sự [76, 77, 78, 79] đề xuất thuật toán Fuzzy-Rough QUICKREDUCT tìm tập rút gọn của bảng quyết định mờ Rajen B Bhatt và các công sự phân tích các nhược điểm về tính hội
tụ của các thuật toán của nhóm R Jensen, Q Shen trong [82] và cải tiến độ phức tạp thuật toán QUICKREDUCT bằng giải pháp cải tiến công thức tính xấp xỉ dưới mờ trong [81] Xu và các cộng sự [40, 41] xây dựng entropy Shannon mờ dựa trên các phân hoạch mờ, trên cơ sở đó xây dựng thuật toán tìm tập rút gọn dựa trên entropy
mờ Các thuật toán này đều phải tính tất cả các phân hoạch mờ trên tập thuộc tính điều kiện Trong khi đó, độ phức tạp thời gian tính tất cả các phân hoạch mờ là hàm
mũ theo số thuộc tính điều kiện Do đó, độ phức tạp của các thuật toán theo hướng tiếp cận này, trong trường hợp tổng quát là hàm mũ Vì vậy, hướng tiếp cận này
không thu hút sự quan tâm nghiên cứu trong mấy năm gần đây Luận án không giải quyết bài toán này
thô mờ
Rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (không qua rời rạc hóa
dữ liệu) theo tiếp cận tập thô mờ là chủ đề nghiên cứu sôi động trong mấy năm gần đây vì tính hiệu quả trong việc nâng cao độ chính xác của mô hình phân lớp Đây cũng là chủ đề nghiên cứu của luận án
Trang 311.4.2.1 Các n hiên cứu liên quan
Các phương pháp rút gọn thuộc tính trong bảng quyết định gốc theo tiếp cận tập thô mờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã được nghiên cứu lâu nay Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử dụng miền dương mờ, phương pháp sử dụng ma trận phân biệt mờ, phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cách mờ và một số phương pháp mở rộng gần đây
- Phương pháp sử dụng miền dương mờ:
Hu và các cộng sự [72] đề xuất các tập xấp xỉ dưới mờ, xấp xỉ trên mờ và
miền dương mờ ngưỡng k dựa vào một quan hệ tương đương mờ trên miền giá trị
thuộc tính Trên cơ sở đó, các tác giả xây dựng độ phụ thuộc mờ ngưỡng k và xây dựng thuật toán heuristic FAR-VPFRS tìm tập rút gọn của bảng quyết định lai (bảng quyết định có miền giá trị số và phân loại) sử dụng độ phụ thuộc mờ ngưỡng
k Jensen và các cộng sự [80] sử dụng quan hệ tương đương mờ trên miền giá trị thuộc tính để tính toán các tập xấp xỉ dưới mờ, miền biên mờ, trên cơ sở đó xây dựng các thuật toán heuristic tìm tập rút gọn, là cải tiến của Fuzzy-Rough QUICKREDUCT sử dụng quan hệ tương đương mờ Qian và các cộng sự [92] đề xuất các phiên bản cải tiến của các tập xấp xỉ mờ (FA), trên cơ sở đó đề xuất thuật toán FA_FPR tìm tập rút gọn dựa vào các tập xấp xỉ mờ nhằm giảm thiểu thời gian thực hiện Các tác giả trong [2] xây dựng thuật toán heuristic tìm tập rút gọn của bảng quyết định miền giá trị số sử dụng miền dương mờ trong lý thuyết tập thô mờ truyền thống, miền dương mờ được tính bởi một quan hệ mờ trên miền giá trị thuộc
tính
Trang 32- Phương pháp sử dụng ma trận phân biệt mờ:
Tsang và các cộng sự [42] đã mở rộng khái niệm ma trận phân biệt trong lý thuyết tập thô truyền thống thành ma trận phân biệt mờ và xây dựng thuật toán tìm tất cả các tập rút gọn của bảng quyết định Chen và các cộng sự [29] đề xuất mô
hình tập thô mở rộng T L và xây dựng thuật toán tìm tất cả các tập rút gọn sử dụng
ma trận phân biệt mờ dựa trên mô hình tập thô mở rộng Tsang và các cộng sự [34]xây dựng hàm phân biệt mờ dựa trên ma trận phân biệt mờ và quan hệ tương đương
mờ Dựa trên hàm phân biệt mờ, các tác giả xây dựng thuật toán tìm tất cả các tập rút gọn của bảng quyết định Chen và các cộng sự [30]đề xuất thuật toán heuristic tìm một tập rút gọn cục bộ của bảng quyết định sử dụng ma trận phân biệt mờ trong công trình[42] He và các cộng sự [69]đề xuất thuật toán heuristic FRSTL tìm một tập rút gọn của bảng quyết định sử dụng ma trận phân biệt mờ trong [42] Chen và các cộng sự [30] đề xuất thuật toán heuristic SPS tìm một tập rút gọn sử dụng cặp đối tượng phân biệt Cặp đối tượng phân biệt được xây dựng dựa trên ma trận phân biệt mờ trong [42]
- Phương pháp sử dụng entropy mờ:
Entropy thông tin là độ đo được sử dụng khá phổ biến trong các phương pháp rút gọn thuộc tính theo tiếp cận tập thô Theo tiếp cận tập thô mờ, một số nhóm nghiên cứu đã mở rộng entropy thành entropy mờ và xây dựng các thuật toán tìm tập rút gọn Hu và các cộng sự [70, 75] xây dựng entropy mờ sử dụng quan hệ tương đương mờ trong tập thô mờ và khám phá một số tính chất của entropy mờ
Hu và các cộng sự [71] định nghĩa tập rút gọn, độ quan trọng thuộc tính và xây dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy mờ trong [70] Trong công trình [74], Hu và các cộng sự chỉ ra hạn chế của entropy mờ trong [71] không thỏa mãn tính chất phản đơn điệu đối với tập thuộc tính điều kiện (tập thuộc tính càng nhỏ thì entropy mờ có điều kiện càng lớn) Do đó, độ quan trọng của thuộc tính định nghĩa trong [71] không thỏa mãn luôn dương theo tiếp cận tập thô truyền thống Dai và các cộng sự [45] xây dựng độ đo lượng thông tin tăng thêm mờ
Trang 33(Fuzzy Gain Ratio) dựa trên lượng thông tin tăng thêm (Gain Ratio) trong lý thuyết thông tin Sử dụng lượng thông tin tăng thêm, các tác giả xây dựng thuật toán heuristic GAIN_RATION_AS_FRS tìm tập rút gọn của bảng quyết định gốc có miền giá trị số Zhang và các cộng sự [91] xây dựng độ đo entropy mờ mở rộng, còn gọi là entropy mờ ngưỡng (hay -entropy mờ) Các tác giả đã chứng minh tập rút gọn dựa trên -entropy mờ tương đương với tập rút gọn dựa trên miền dương
mờ Hơn nữa, các tác giả đã chứng minh được tính phản đơn điệu của -entropy mờ theo lực lượng tập thuộc tính nhằm khắc phục được nhược điểm của entropy mờ truyền thống trong [70, 71] Từ đó, các tác giả đã xây dựng công thức tính độ quan trọng của thuộc tính và thuật toán heuristic tìm tập rút gọn xấp xỉ của bảng quyết định Mở rộng các phương pháp sử dụng độ đo lượng thông tin tương hỗ (mutual information), Yu và các cộng sự [33] xây dựng độ đo thông tin tương hỗ mờ và đề xuất thuật toán FMIL tìm tập rút gọn Zhao và các cộng sự [55] xây dựng entropy kết hợp mờ dựa trên entropy kết hợp trong lý thuyết tập thô, trên cơ sở đó đề xuất thuật toán EMIC tìm tập rút gọn
- Phương pháp sử dụng khoảng cách mờ:
Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng
sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58] Theo tiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất thành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số Trong công trình [8], các tác giả xây dựng độ đo khoảng cách Jaccard mờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và chứng minh một số tính chất của nó Trong công trình [3], các tác giả đã sử dụng khoảng cách Jaccard mờ trong [8] để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc có miền giá trị số, sử dụng một quan hệ tương đương mờ
Trang 34định nghĩa trước trên miền giá trị thuộc tính Trong công trình [18], các tác giả xây dựng độ đo khoảng cách phân hoạch mờ và sử dụng khoảng cách phân hoạch mờ giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số
sở đó đề xuất thuật toán tìm tập rút gọn sử dụng miền dương mờ nhằm giảm thiểu
số lượng thuộc tính tập rút gọn Với hướng tiếp cận lựa chọn tập đối tượng đại diện nhằm giảm thiểu không gian đối tượng, Zhang và các cộng sự [90] đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ nhằm nâng cao độ chính xác phân lớp và giảm thời gian thực hiện Wang và các cộng sự[21]đề xuất mô hình tập thô mờ mở rộng dựa trên quan hệ mờ tham số , trên cơ sở
đó xây dựng thuật toán tìm tập rút gọn sử dụng độ phụ thuộc mờ Độ chính xác của
mô hình phân lớp được cải thiện do điều chỉnh tham số Arunkumar và các cộng
Trang 35sự [19] đề xuất thuật toán heuristic tìm tập rút gọn sử dụng các độ đo tương tự như lượng thông tin tăng thêm (information gain), hàm phân biệt Trên cơ sở đó thử nghiệm thuật toán trên dữ liệu biểu hiện gien của bệnh ung thư phổi Tsang và các cộng sự [35] đề xuất mô hình tập thô mờ dựa trên trọng số (weight) và xây dựng thuật toán tìm tập rút gọn dựa trên trọng số của miền dương mờ Maji và cộng sự [68] đề xuất thuật toán heuristic fuzzy-rough MRMS tìm tập rút gọn theo tiếp cận tập thô mờ dựa trên tiêu chuẩn lựa chọn thuộc tính là độ phụ thuộc, độ liên quan, độ quan trọng lớn nhất và độ dư thừa nhỏ nhất Wang và các cộng sự [59] cải tiến độ
đo thông tin tương hỗ mờ trong [33] và sử dụng độ đo cải tiến tích hợp vào thuật toán fuzzy-rough MRMS trong [68] để xây dựng thuật toán tìm tập rút gọn
1.4.2.2 Các điểm chung của các n hiên cứu liên quan
Từ các nghiên cứu liên quan được trình bày ở phần 1.4.2.1, chúng tôi tổng kết
các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau:
1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trong các công bố
2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phân lớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện Tuy nhiên, các mục tiêu này khó thực hiện đồng thời Do đó, với từng bài toán cụ thể mà lựa chọn mục tiêu phù hợp Nhìn chung, các phương pháp đã đề xuất đều cố gắng nâng cao độ chính xác mô hình phân lớp so với các phương pháp trước đó
3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristic theo tiếp cận filter Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ
đo, (2) xây dựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3)
Trang 36xây dựng thuật toán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính
4) Ý tưởng chung của các thuật toán heuristic là xuất phát từ tập rỗng, lần lượt
bổ sung vào tập rỗng các thuộc tính có độ quan trọng lớn nhất cho đến khi bảo toàn
độ đo Cho bảng quyết định DSU C, D, giả sử ký hiệu độ đo đánh giá quan hệ
giữa tập thuộc tính điều kiện C và CD là Measure C C , D, SIG aB là độ quan
trọng của thuộc tính a đối với tập thuộc tính B Khi đó, khuôn dạng chung của các
thuật toán heuristic tìm tập rút gọn đối với các công bố nêu trên được mô tả bởi
Thuật toán HARA như sau:
Thuật toán HARA (Heuristic Attribute Reduction Algorithm): Thuật toán heuristic
tìm tập rút gọn của bảng quyết định
Đầu vào: Bảng quyết định DSU C, D
Đầu ra: Một tập rút gọn RC
1 ước khởi tạo: R ;
2 Tính độ đo ban đầu Measure C C , D;
3 While Measure R R , DMeasure C C , D do
Trang 37khoảng cách mờ Độ phức tạp thời gian để tính độ đo là 2
tập dữ liệu được tính bởi độ chính xác phân lớp trên R Mặt khác, theo tính chất
phản đơn điệu của độ đo ta có:
B a a được sử dụng để xây dựng bộ phân lớp, công
bố [91] cho thấy, độ chính xác phân lớp trên 1 , ,
B a a chưa chắc đã tốt hơn trên B k Nếu B k có độ chính xác phân lớp tốt hơn, khi đó số lượng thuộc tính của
B a a của các phương pháp filter chưa tối
ưu về số lượng thuộc tính và độ chính xác phân lớp
Trang 382) Các phương pháp rút gọn thuộc tính nêu trên đều xây dựng một độ đo và sử dụng độ đo để tìm tập rút gọn Việc lựa chọn độ đo không ảnh hưởng đến độ phức tạp thời gian của thuật toán, tuy nhiên công thức tính toán độ đo sẽ ảnh hưởng đến thời gian thực hiện của thuật toán Do đó, việc lựa chọn độ đo có công thức tính toán đơn giản nhằm giảm thiểu thời gian thực hiện là hướng nghiên cứu cải tiến có thể thực hiện
4 4 Các đề xuất của luận án
Từ hai vấn đề còn tồn tại nêu trên, luận án xây dựng hai độ đo: độ phụ thuộc
mờ trong tập thô mờ và khoảng cách mờ do tác giả xây dựng Độ đo khoảng cách
mờ là cải tiến của các độ đo khoảng cách mờ đã công bố Dựa trên hai độ đo được xây dựng, luận án xây dựng thuật toán tìm tập rút gọn xấp xỉ của bảng quyết định theo tiếp cận lai ghép filter-wrapper, là sự kết hợp của tiếp cận lọc (filter) và đóng gói (wrapper) Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giai đoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất
đổi theo tiếp cận tập thô mờ
Trong bối cảnh hiện nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức Trường hợp các bảng quyết định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện Do đó, việc chia nhỏ bảng quyết định để tìm tập rút gọn trên từng phần là giải pháp đặt ra Tuy nhiên, việc tính toán tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải quyết Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn Với trường hợp bảng quyết định bị thay đổi, thuật toán gia tăng không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã có dựa
Trang 39trên thành phần dữ liệu bị thay đổi Với trường hợp bảng quyết định có kích thước lớn, thuật toán gia tăng tìm tập rút gọn trên một thành phần bị chia nhỏ, sau đó thực hiện cập nhật lại tập rút gọn khi bổ sung các thành phần còn lại Về lý thuyết, thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn
1.4.3.1 Các n hiên cứu liên quan đến phươn pháp ia tăn tìm tập rút ọn theo tiếp cận tập thô truyền thốn và tập thô dun sai
Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng; bổ sung và loại
bỏ thuộc tính; cập nhật tập đối tượng
Với trường hợp bổ sung một đối tượng, Guan [56] đề xuất thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt Liu [102] đề xuất thuật toán gia tăng tìm tập rút gọn tối thiểu của hệ thông tin Hu và các cộng sự [36]đề xuất thuật toán gia tăng tìm tập rút gọn sử dụng miền dương Sau đó, Hu và các cộng sự [37] đề xuất thuật toán gia tăng tìm tất cả các tập rút gọn sử dụng ma trận phân biệt mở rộng Yang và các cộng sự [96] đề xuất thuật toán gia tăng tìm tập rút gọn dựa trên việc cập nhật ma trận phân biệt Zhang và các cộng sự [20] đề xuất thuật toán gia tăng tìm tập lõi sử dụng ma trận phân biệt Chen và các cộng sự [28] đề xuất thuật toán gia tăng tìm tập rút gọn dựa trên mô hình tập thô độ chính xác thay đổi sử dụng chiến lược thêm, xóa tập thuộc tính Li và các cộng sự [66]đề xuất phương pháp gia tăng tìm tập rút gọn dựa trên mô hình tập thô láng giềng gần nhất
Với trường hợp bổ sung tập đối tượng, Liang và cộng sự [49] xây dựng các công thức gia tăng tính entropy Shannon, entropy Liang và Entropy kết hợp Trên
cơ sở đó, các tác giả xây dựng các thuật toán gia tăng tìm tập rút gọn Shu và các cộng sự [86] xây dựng thuật toán gia tăng tìm tập rút gọn trong bảng quyết định không đầy đủ dựa vào công thức gia tăng tính miền dương
Trang 40Với trường hợp bổ sung và loại bỏ tập đối tượng, Jing và các cộng sự [95] đề xuất công thức tính toán gia tăng hạt thông tin, từ đó xây dựng các thuật toán gia tăng tìm tập rút gọn
Với trường hợp bổ sung tập thuộc tính, Wang và các cộng sự [38] phát triển cácthuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng các công thức entropy Shannon, entropy Liang và Entropy kết hợp
Với trường hợp bổ sung và loại bỏ tập thuộc tính, Liu và các cộng sự [31] xây dựng các công thức tính toán gia tăng các tập xấp xỉ dưới, xấp xỉ trên trong mô hình tập thô xác xuất Shu và các cộng sự [87] đề xuất hai thuật toán gia tăng cập nhật tập rút gọn dựa trên tính toán gia tăng miền dương trong bảng quyết định không đầy
đủ Các tác giả trong [54, 83]đề xuất thuật toán gia tăng tìm các tập rút gọn xấp xỉ
Với hợp cập nhật tập đối tượng, Wang và các cộng sự [39]xây dựng các công thức tính toán gia tăng entropy Shannon, entropy Liang và Entropy kết hợp, trên cơ
sở đó đề xuất các thuật toán gia tăng tìm tập rút gọn Shu và các cộng sự [86, 88]phát triển thuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng lớp dung sai và miền dương trong bảng quyết định không đầy đủ
Mới đây, Wei và các cộng sự [89] đề xuất phương pháp gia tăng tính các ma trận phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn dựa trên
ma trận phân biệt
Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính Trong các thuật toán gia tăng đã trình bày ở trên, các tác giả đều xây dựng các công thức gia tăng tính toán độ đo Sử dụng độ đo, các tác giả xây dựng các thuật toán gia tăng tìm tập rút gọn theo tiếp cận heuristic Các thuật toán này không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã
có dựa trên thành phần dữ liệu bị thay đổi Kết quả thực nghiệm cho thấy các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng