Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ

Một phần của tài liệu MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ (Trang 30 - 38)

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.2. Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ

Rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (không qua rời rạc hóa dữ liệu) theo tiếp cận tập thô mờ là chủ đề nghiên cứu sôi động trong mấy năm gần đây vì tính hiệu quả trong việc nâng cao độ chính xác của mô hình phân lớp. Đây cũng là chủ đề nghiên cứu của luận án.

1.4.2.1. Các n hiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định gốc theo tiếp cận tập thô mờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã được nghiên cứu lâu nay. Đây là các phương pháp heuristic theo tiếp cận filter, bao gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính. Việc đánh giá độ chính xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử dụng miền dương mờ, phương pháp sử dụng ma trận phân biệt mờ, phương pháp sử dụng entropy mờ, phương pháp sử dụng khoảng cách mờ và một số phương pháp mở rộng gần đây.

- Phương pháp sử dụng miền dương mờ:

Hu và các cộng sự [72] đề xuất các tập xấp xỉ dưới mờ, xấp xỉ trên mờ và miền dương mờ ngưỡng k dựa vào một quan hệ tương đương mờ trên miền giá trị thuộc tính. Trên cơ sở đó, các tác giả xây dựng độ phụ thuộc mờ ngưỡng k và xây dựng thuật toán heuristic FAR-VPFRS tìm tập rút gọn của bảng quyết định lai (bảng quyết định có miền giá trị số và phân loại) sử dụng độ phụ thuộc mờ ngưỡng k. Jensen và các cộng sự [80] sử dụng quan hệ tương đương mờ trên miền giá trị thuộc tính để tính toán các tập xấp xỉ dưới mờ, miền biên mờ, trên cơ sở đó xây dựng các thuật toán heuristic tìm tập rút gọn, là cải tiến của Fuzzy-Rough QUICKREDUCT sử dụng quan hệ tương đương mờ. Qian và các cộng sự [92] đề xuất các phiên bản cải tiến của các tập xấp xỉ mờ (FA), trên cơ sở đó đề xuất thuật toán FA_FPR tìm tập rút gọn dựa vào các tập xấp xỉ mờ nhằm giảm thiểu thời gian thực hiện. Các tác giả trong [2] xây dựng thuật toán heuristic tìm tập rút gọn của bảng quyết định miền giá trị số sử dụng miền dương mờ trong lý thuyết tập thô mờ truyền thống, miền dương mờ được tính bởi một quan hệ mờ trên miền giá trị thuộc tính.

- Phương pháp sử dụng ma trận phân biệt mờ:

Tsang và các cộng sự [42] đã mở rộng khái niệm ma trận phân biệt trong lý thuyết tập thô truyền thống thành ma trận phân biệt mờ và xây dựng thuật toán tìm tất cả các tập rút gọn của bảng quyết định. Chen và các cộng sự [29] đề xuất mô hình tập thô mở rộng TL và xây dựng thuật toán tìm tất cả các tập rút gọn sử dụng ma trận phân biệt mờ dựa trên mô hình tập thô mở rộng. Tsang và các cộng sự [34]

xây dựng hàm phân biệt mờ dựa trên ma trận phân biệt mờ và quan hệ tương đương mờ. Dựa trên hàm phân biệt mờ, các tác giả xây dựng thuật toán tìm tất cả các tập rút gọn của bảng quyết định. Chen và các cộng sự [30] đề xuất thuật toán heuristic tìm một tập rút gọn cục bộ của bảng quyết định sử dụng ma trận phân biệt mờ trong công trình [42]. He và các cộng sự [69] đề xuất thuật toán heuristic FRSTL tìm một tập rút gọn của bảng quyết định sử dụng ma trận phân biệt mờ trong [42]. Chen và các cộng sự [30] đề xuất thuật toán heuristic SPS tìm một tập rút gọn sử dụng cặp đối tượng phân biệt. Cặp đối tượng phân biệt được xây dựng dựa trên ma trận phân biệt mờ trong [42].

- Phương pháp sử dụng entropy mờ:

Entropy thông tin là độ đo được sử dụng khá phổ biến trong các phương pháp rút gọn thuộc tính theo tiếp cận tập thô. Theo tiếp cận tập thô mờ, một số nhóm nghiên cứu đã mở rộng entropy thành entropy mờ và xây dựng các thuật toán tìm tập rút gọn. Hu và các cộng sự [70, 75] xây dựng entropy mờ sử dụng quan hệ tương đương mờ trong tập thô mờ và khám phá một số tính chất của entropy mờ.

Hu và các cộng sự [71] định nghĩa tập rút gọn, độ quan trọng thuộc tính và xây dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy mờ trong [70]. Trong công trình [74], Hu và các cộng sự chỉ ra hạn chế của entropy mờ trong [71] không thỏa mãn tính chất phản đơn điệu đối với tập thuộc tính điều kiện (tập thuộc tính càng nhỏ thì entropy mờ có điều kiện càng lớn). Do đó, độ quan trọng của thuộc tính định nghĩa trong [71] không thỏa mãn luôn dương theo tiếp cận tập thô truyền thống. Dai và các cộng sự [45] xây dựng độ đo lượng thông tin tăng thêm mờ

(Fuzzy Gain Ratio) dựa trên lượng thông tin tăng thêm (Gain Ratio) trong lý thuyết thông tin. Sử dụng lượng thông tin tăng thêm, các tác giả xây dựng thuật toán heuristic GAIN_RATION_AS_FRS tìm tập rút gọn của bảng quyết định gốc có miền giá trị số. Zhang và các cộng sự [91] xây dựng độ đo entropy mờ mở rộng, còn gọi là entropy mờ ngưỡng  (hay -entropy mờ). Các tác giả đã chứng minh tập rút gọn dựa trên -entropy mờ tương đương với tập rút gọn dựa trên miền dương mờ. Hơn nữa, các tác giả đã chứng minh được tính phản đơn điệu của -entropy mờ theo lực lượng tập thuộc tính nhằm khắc phục được nhược điểm của entropy mờ truyền thống trong [70, 71]. Từ đó, các tác giả đã xây dựng công thức tính độ quan trọng của thuộc tính và thuật toán heuristic tìm tập rút gọn xấp xỉ của bảng quyết định. Mở rộng các phương pháp sử dụng độ đo lượng thông tin tương hỗ (mutual information), Yu và các cộng sự [33] xây dựng độ đo thông tin tương hỗ mờ và đề xuất thuật toán FMIL tìm tập rút gọn. Zhao và các cộng sự [55] xây dựng entropy kết hợp mờ dựa trên entropy kết hợp trong lý thuyết tập thô, trên cơ sở đó đề xuất thuật toán EMIC tìm tập rút gọn.

- Phương pháp sử dụng khoảng cách mờ:

Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58]. Theo tiếp cận tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất thành các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số. Trong công trình [8], các tác giả xây dựng độ đo khoảng cách Jaccard mờ giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và chứng minh một số tính chất của nó. Trong công trình [3], các tác giả đã sử dụng khoảng cách Jaccard mờ trong [8] để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc có miền giá trị số, sử dụng một quan hệ tương đương mờ

định nghĩa trước trên miền giá trị thuộc tính. Trong công trình [18], các tác giả xây dựng độ đo khoảng cách phân hoạch mờ và sử dụng khoảng cách phân hoạch mờ giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số.

- Một số phương pháp khác

Gần đây, một số nhóm nghiên cứu đề xuất các mô hình tập thô mờ mở rộng và các thuật toán tìm tập rút gọn nhằm cải tiến độ chính xác của mô hình phân lớp. Li và các cộng sự [100] xây dựng mô hình tập thô mờ mở rộng dựa trên tỷ lệ các lớp khác nhau. Dựa trên mô hình này, các tác giả đề xuất thuật toán heuristic SPS tìm tập rút gọn của bảng quyết định sử dụng cặp đối tượng phân biệt được (được đề xuất trong [30]). Dai và các cộng sự [46] xây dựng độ đo cặp đối tượng phân biệt cực đại dựa vào ma trận phân biệt mờ. Sử dụng độ đo này, các tác giả đề xuất hai thuật toán heuristic tìm tập rút gọn: thuật toán RMDPS và WRMDPS. Kết quả thử nghiệm cho thấy, độ chính xác phân lớp của hai thuật toán đề xuất cao hơn thuật toán SPS sử dụng cặp đối tượng phân biệt trong [30]. Dai và các cộng sự [47] đề xuất mô hình tập thô mờ mở rộng trên hệ thông tin không đầy đủ khoảng giá trị.

Trên cơ sở đó, xây dựng độ đo entropy mờ và đề xuất thuật toán heuristic tìm tập rút gọn sử dụng entropy mờ. Tiwari và các cộng sự [14] đề xuất mô hình tập thô mờ trực giác dựa trên quan hệ trội. Dựa trên mô hình này, các tác giả xây dựng hàm thuộc mới và đề xuất thuật toán tìm tập rút gọn sử dụng hàm thuộc mới. Sheeja và các cộng sự [85] đề xuất mô hình tập thô mờ mở rộng dựa trên độ phân kỳ, trên cơ sở đó đề xuất thuật toán tìm tập rút gọn sử dụng miền dương mờ nhằm giảm thiểu số lượng thuộc tính tập rút gọn. Với hướng tiếp cận lựa chọn tập đối tượng đại diện nhằm giảm thiểu không gian đối tượng, Zhang và các cộng sự [90] đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ nhằm nâng cao độ chính xác phân lớp và giảm thời gian thực hiện. Wang và các cộng sự [21] đề xuất mô hình tập thô mờ mở rộng dựa trên quan hệ mờ tham số , trên cơ sở đó xây dựng thuật toán tìm tập rút gọn sử dụng độ phụ thuộc mờ. Độ chính xác của mô hình phân lớp được cải thiện do điều chỉnh tham số . Arunkumar và các cộng

sự [19] đề xuất thuật toán heuristic tìm tập rút gọn sử dụng các độ đo tương tự như lượng thông tin tăng thêm (information gain), hàm phân biệt. Trên cơ sở đó thử nghiệm thuật toán trên dữ liệu biểu hiện gien của bệnh ung thư phổi. Tsang và các cộng sự [35] đề xuất mô hình tập thô mờ dựa trên trọng số (weight) và xây dựng thuật toán tìm tập rút gọn dựa trên trọng số của miền dương mờ. Maji và cộng sự [68] đề xuất thuật toán heuristic fuzzy-rough MRMS tìm tập rút gọn theo tiếp cận tập thô mờ dựa trên tiêu chuẩn lựa chọn thuộc tính là độ phụ thuộc, độ liên quan, độ quan trọng lớn nhất và độ dư thừa nhỏ nhất. Wang và các cộng sự [59] cải tiến độ đo thông tin tương hỗ mờ trong [33] và sử dụng độ đo cải tiến tích hợp vào thuật toán fuzzy-rough MRMS trong [68] để xây dựng thuật toán tìm tập rút gọn.

1.4.2.2. Các điểm chung của các n hiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.2.1, chúng tôi tổng kết các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như sau:

1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống. Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu mẫu trong các công bố.

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác phân lớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện. Tuy nhiên, các mục tiêu này khó thực hiện đồng thời. Do đó, với từng bài toán cụ thể mà lựa chọn mục tiêu phù hợp. Nhìn chung, các phương pháp đã đề xuất đều cố gắng nâng cao độ chính xác mô hình phân lớp so với các phương pháp trước đó.

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp heuristic theo tiếp cận filter. Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn. Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ đo, (2) xây dựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3)

xây dựng thuật toán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của thuộc tính.

4) Ý tưởng chung của các thuật toán heuristic là xuất phát từ tập rỗng, lần lượt bổ sung vào tập rỗng các thuộc tính có độ quan trọng lớn nhất cho đến khi bảo toàn độ đo. Cho bảng quyết định DSU C, D, giả sử ký hiệu độ đo đánh giá quan hệ giữa tập thuộc tính điều kiện CCDMeasure C C , D, SIG aB  là độ quan trọng của thuộc tính a đối với tập thuộc tính B . Khi đó, khuôn dạng chung của các thuật toán heuristic tìm tập rút gọn đối với các công bố nêu trên được mô tả bởi Thuật toán HARA như sau:

Thuật toán HARA (Heuristic Attribute Reduction Algorithm): Thuật toán heuristic tìm tập rút gọn của bảng quyết định.

Đầu vào: Bảng quyết định DSU C, D

Đầu ra: Một tập rút gọn RC 1. ước khởi tạo: R  ;

2. Tính độ đo ban đầu Measure C C , D;

3. While Measure R R , DMeasure C C , D do 4. Begin

5. Với mỗi a C R tính

SIG aB Measure R R , DMeasure R  a R,  aD

1. Chọn am C R sao cho B mB  

a C R

SIG a Max SIG a

   ; 2. R R  am ;

3. End;

Với các nghiên cứu liên quan trình bày ở mục A, Measure C C , D là độ quan trọng mờ của thuộc tính, miền dương mờ, entropy mờ, ma trận phân biệt mờ,

khoảng cách mờ...Độ phức tạp thời gian để tính độ đo là O C U 2 với C U, tương

ứng là số thuộc tính điều kiện và số đối tượng của bảng quyết định. Vòng lặp While lựa chọn thuộc tính có độ quan trọng lớn nhất với độ phức tạp là O C U 2 2. Do đó,

độ phức tạp thời gian của các thuật toán trong các công bố ở phần AO C U 2 2.

1.4.2.3. Các vấn đề còn tồn tại:

1) Tập rút gọn của các phương pháp theo hướng tiếp cận filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

Xét bảng quyết định DSU C, D với Ca a1, 2,...,am . Đặt

 , 

Measure C C D

  . Theo Thuật toán HARA, giả sử các thuộc tính

1, 2,...

i i

a a được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc tính cho đến khi tồn tại t1, 2,...m sao cho   1, 2,...,  , 1, 2,...,  

t t

i i i i i i

Measure a a a a a aD . Kết thúc thuật toán, ta thu được tập rút gọn  1, 2,..., 

i i it

Ra a a , độ chính xác phân lớp trên tập dữ liệu được tính bởi độ chính xác phân lớp trên R. Mặt khác, theo tính chất phản đơn điệu của độ đo ta có:

   

i1 , i1      i1, i2 , i1, i2  ...   i1,..., it , i1,..., it 

Measure a aDMeasure a a a aD  Measure a a a aD  Với ngưỡng   cho trước, đặt  1,..., 

k i ik

Ba a thỏa mãn Measure B Bk, kD và

   

 1 , 1 

k k

k i k i

Measure BaBa  D  . Khi đó, Bk được gọi là tập rút gọn xấp xỉ ngưỡng . Nếu Bk và  1,..., 

k t

k i i

Baa được sử dụng để xây dựng bộ phân lớp, công bố [91] cho thấy, độ chính xác phân lớp trên  1,..., 

k t

k i i

Baa chưa chắc đã tốt hơn trên Bk. Nếu Bk có độ chính xác phân lớp tốt hơn, khi đó số lượng thuộc tính của Bk sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn. Do đó, tập rút gọn  1,..., 

k t

k i i

Baa của các phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

2) Các phương pháp rút gọn thuộc tính nêu trên đều xây dựng một độ đo và sử dụng độ đo để tìm tập rút gọn. Việc lựa chọn độ đo không ảnh hưởng đến độ phức tạp thời gian của thuật toán, tuy nhiên công thức tính toán độ đo sẽ ảnh hưởng đến thời gian thực hiện của thuật toán. Do đó, việc lựa chọn độ đo có công thức tính toán đơn giản nhằm giảm thiểu thời gian thực hiện là hướng nghiên cứu cải tiến có thể thực hiện.

4 4 Các đề xuất của luận án

Từ hai vấn đề còn tồn tại nêu trên, luận án xây dựng hai độ đo: độ phụ thuộc mờ trong tập thô mờ và khoảng cách mờ do tác giả xây dựng. Độ đo khoảng cách mờ là cải tiến của các độ đo khoảng cách mờ đã công bố. Dựa trên hai độ đo được xây dựng, luận án xây dựng thuật toán tìm tập rút gọn xấp xỉ của bảng quyết định theo tiếp cận lai ghép filter-wrapper, là sự kết hợp của tiếp cận lọc (filter) và đóng gói (wrapper). Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ, giai đoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn xấp xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất.

Một phần của tài liệu MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ (Trang 30 - 38)

Tải bản đầy đủ (PDF)

(117 trang)