ĐẠI SỐ GIA TỬ SỬ DỤNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG
Các phương pháp trút rút hệ luật mờ từ dữ liệu cho bài tốn phân lớp dựa trên luật ngơn ngữ mờ đều gặp khĩ khăn trong việc sinh tập luật khởi đầu vì số lượng luật được sinh ra rất lớn với tập dữ liệu cĩ số chiều lớn. Đối với tiếp cận dựa trên lý thuyết tập mờ, số lượng luật ứng cử được sinh ra phụ thuộc vào số từ ngơn ngữ được sử dụng cho mỗi thuộc tính và số chiều của dữ liệu, tức là tổ hợp của tất cả các từ ngơn ngữ được thiết kế cho tập dữ liệu, mỗi tổ hợp sinh ra một luật. Số luật được
sinh ra sẽ là ∑ , với K là số từ ngơn ngữ được sử dụng cho mỗi thuộc tính, n
là số thuộc tính. Số lượng luật này là rất lớn.
Đối với tiếp cận ĐSGT, số lượng luật ứng cử được sinh ra khơng phụ thuộc vào số từ ngơn ngữ được sử dụng nhưng vẫn phụ thuộc vào số chiều của dữ liệu. Chẳng hạn, sinh các luật ngơn ngữ mờ cĩ độ dài nhỏ hơn hoặc bằng λ thì số tổ hợp để sinh tiền đề luật là ∑ , do đĩ số luật cần xem xét được sinh ra là | | × ∑ , Số luật này vẫn cịn khá lớn nên làm chậm quá trình sinh luật khi số chiều dữ liệu tăng lên. Số luật này bao gồm các luật khơng nhất quán, tức các luật cĩ cùng tiền đề nhưng khác nhãn lớp. Số lượng các luật khơng nhất quán phụ thuộc vào sự phân bố của dữ liệu. Sau khi loại bỏ các luật khơng nhất quán thì thu được tập luật ứng cử, tuy nhiên số lượng vẫn cịn khá lớn. Ví dụ, với tập dữ liệu Sonar cĩ 60 thuộc tính và 208 mẫu dữ liệu. Số tổ hợp để sinh luật cĩ độ dài nhỏ hơn hoặc bằng 3 là ∑ = 36.050, số luật tối đa được sinh ra là 208 × ∑ = 7.498.400 luật. Cĩ nhiều kỹ thuật được đề xuất áp dụng nhằm làm giảm số luật được sinh ra nhưng vẫn đảm bảo được chất lượng của hệ phân lớp ở mức chấp nhận được. Trong [3] đã áp dụng thuật tốn di truyền ổn định trạng thái SGERD được đề xuất trong [92] để trích rút hệ luật mờ trong phương pháp thiết kế FLRBC trên cơ sở phương pháp luận ĐSGT và đã giảm đáng kể thời gian sinh luật. Tuy nhiên, như đã được chỉ ra trong [41], phương pháp này cho kết quả khơng tốt trên tập kiểm tra khi được so sánh với các phương pháp khác. Với mục tiêu làm giảm số chiều của các tập dữ liệu cĩ số chiều lớn trước khi thực hiện sinh luật sử dụng ĐSGT, luận án đề xuất ứng dụng kỹ thuật lựa chọn đặc trưng (feature selection) với trọng số động được đề xuất trong [116]. Lựa chọn đặc trưng là kỹ thuật lựa chọn một tập nhỏ các đặc trưng (thuộc tính) từ tập các đặc trưng gốc sao cho chúng chứa thơng tin cĩ tính phân biệt nhất. Tính ưu việt của phương pháp lựa chọn đặc trưng được đề xuất trong [116] là khơng những giữ lại những thuộc tính phù hợp nhất mà cịn giữ lại những thuộc tính hữu ích theo nhĩm. Bằng việc sử dụng hai khái niệm trong lý thuyết thơng tin cơ bản là thơng tin tương hỗ (mutual information – MI) và thơng tin tương hỗ cĩ điều kiện (conditional mutual information - CMI), một giản đồ mới cho việc phân tích tính hợp lý, phụ thuộc lẫn nhau và dư thừa của các thuộc tính được giới thiệu trong [116].
3.2.1. Một số khái niệm cơ bản về lý thuyết thơng tin
Tiểu mục này giới thiệu một cách ngắn gọn một số khái niệm cơ bản về lý thuyết thơng tin [116]: entropy và thơng tin tương hỗ được sử dụng để đo tính khơng chắc chắn của các biến ngẫu nhiên và thơng tin được chia sẻ bởi chúng. Giả
( ) = − ∑ ∈ ( ) log( ( )). (3.9) trong đĩ, p(x) = Pr(X = x) là hàm phân phối xác suất của X.
X và Y là một cặp biến ngẫu nhiên rời rạc, entropy hợp H(X, Y) được định nghĩa như sau:
( , ) = − ∑ ∈ ∑ ∈ ( , )log ( ( , )) (3.10) trong đĩ, p(x, y) là một phân phối xác suất hợp mơ hình hĩa quan hệ giữa các biến.
Khi entropy của biến X với điều kiện biến Y, ta cĩ entropy cĩ điều kiện H(X|Y) được định nghĩa như sau:
( | ) = − ∑ ∈ ∑ ∈ ( , )log ( ( | )) (3.11) Thơng tin tương hỗ (MI) của hai biến ngẫu nhiên X và Y là độ đo sự phụ thuộc tương hỗ của chúng và được định nghĩa như sau:
( ; ) = ∑ ∑ ( , )log ( ( , ) ( ) ( )) ∈
∈ (3.12)
Biểu thức trên cĩ thể được viết lại dưới dạng các entropy hợp và entropy cĩ điều kiện như sau:
I(X; Y) = H(X) – H(X|Y) = H(Y) – H(Y|X) (3.13) Vì vậy, MI giữa X và Y cĩ thể được hiểu là sự giảm bớt độ khơng chắc chắn về
X sau khi quan sát Y.
Thơng tin tương hỗ cĩ điều kiện (CMI) được định nghĩa như là lượng thơng tin được chia sẻ bởi các biến X và Y, khi biết Z và được định nghĩa một cách hình thức như sau: ( ; | ) = ∑ ∑ ∑ ( , , )log ( ( ) ( , , ) ( , ) ( , )) ∈ ∈ ∈ (3.14)
CMI cĩ thể được hiểu là sự giảm bớt độ khơng chắc chắn của X bởi Y khi biết
Z.
3.2.2. Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động
Lựa chọn đặc trưng là một cách giúp làm giảm một lượng lớn các thuộc tính của tập dữ liệu bằng việc lựa chọn một tập nhỏ các thuộc tính từ tập các thuộc tính gốc nhằm làm tăng hiệu quả của các thuật tốn học. Tiểu mục này trình bày kỹ thuật lựa chọn đặc trưng sử dụng trọng số động được đề xuất trong [116]. Kỹ thuật này khơng những loại bỏ các thuộc tính (đặc trưng) dư thừa, tức cĩ mối quan hệ lẫn
nhau cao với các thuộc tính được lựa chọn, như các phương pháp khác, mà cịn xem xét các thuộc tính cĩ tính phân biệt yếu nếu xét theo từng cá thể nhưng cĩ tính phân biệt mạnh nếu xét theo nhĩm bằng việc đề xuất một giản đồ cho việc phân tích tính hợp lý, phụ thuộc lẫn nhau và dư thừa của các thuộc tính.
Phân tích tính hợp lý được sử dụng để khắc phục nhược điểm của thơng tin tương hỗ cĩ xu thế thiên vị các thuộc tính cĩ nhiều giá trị hơn bằng việc sử dụng thước đo đối xứng, được định nghĩa như sau:
( , ) = 2 × ( ; )
( ) ( ) (0 ≤ ( , ) ≤ 1) (3.15) Tính dư thừa và phụ thuộc lẫn nhau của các thuộc tính ứng viên được đánh giá bởi việc tổ hợp MI và CMI. Một thuộc tính cĩ một hay nhiều thuộc tính khác cĩ mối quan hệ phụ thuộc với nĩ được xem như bị dư thừa và tính hợp lý của nĩ với nhãn lớp cĩ thể bị giảm bởi lượng tri thức của bất kỳ một trong các thuộc tính cĩ quan hệ với nĩ. Vì vậy, một thuộc tính fi được xem như bị dư thừa với thuộc tính fj nếu thỏa bất đẳng thức sau:
; ≤ ( ; ) (3.16)
Tỷ lệ dư thừa tương đối giữa hai thuộc tính RR(i, j) biểu thị tỷ lệ giảm của tính hợp lý giữa thuộc tính fi và nhãn lớp bởi thuộc tính fj và được định nghĩa như sau:
( , ) = 2 × ; ( ) ( ; )
( ) (−1 ≤ ( , ) ≤ 0) (3.17) Hai thuộc tính fi và fj là phụ thuộc lẫn nhau nếu thỏa bất đẳng thức sau:
; ≥ ( ; ) (3.18)
Tỷ lệ phụ thuộc lẫn nhau IR(i, j) giữa fi và fj biểu thị tỷ lệ tăng của tính hợp lý giữa fi và nhãn lớp bởi cĩ sự tham gia của thuộc tính mới được định nghĩa như sau:
( , ) = 2 × ; ( ; )
( ) ( ) (0 ≤ ( , ) ≤ 1) (3.19) Cả RR(i, j) và IR(i, j) được hợp nhất thành tỷ lệ phụ thuộc lẫn nhau CR(i, j):
( , ) = ( , ) nếu ; > ( ; )
( , ) nếu ; ≤ ( ; ) (3.20)
Dựa trên hệ đo thơng tin ở trên, một thuật tốn lựa chọn đặc trưng dựa trên trọng số động cho việc xếp hạng các thuộc tính, viết tắt là DWFS đã được đề xuất trong [116]. Sau đây là chi tiết thuật tồn dưới dạng mã giả:
Thuật tốn 3.6. DWFS //mơ phỏng thuật tốn trong [116].
Đầu vào: Tập dữ liệu huấn luyện D với khơng gian thuộc tính F và lớp C.
Đầu ra: Tập con S được lựa chọn cĩ thuộc tính.
Begin
Khởi tạo các biến: k = 1, = ∅;
Khởi tạo trọng số w(f) cho từng thuộc tính f trong F bằng 1; Tính giá trị U(f, class) cho từng thuộc tính f trong F;
While ≤ do
For từng thuộc tính ứng viên ∈ do
Tính ( ) = ( , ) × ( ); End;
Chọn thuộc tính ứng viên fj cĩ J(f) lớn nhất;
Thêm fj vào trong tập thuộc tính được lựa chọn = ∪ { }; F = F \ {fj};
For từng thuộc tính ứng viên ∈ do
Tính tỷ lệ phụ thuộc lẫn nhau CR(i, j); ( ) = ( ) × (1 + ( , ));
End;
k = k + 1; End.
Độ phức tạp của thuật tốn DWFS là ( × ) như đã được chứng minh trong [116], trong đĩ, n là số thuộc tính gốc và số thuộc tính được lựa chọn.
3.2.3. Ứng dụng thuật DWFS trong thiết kế FLRBC trên cơ sở ĐSGT
Tiểu mục này trình bày một tiếp cận xử lý các tập dữ liệu cĩ số chiều lớn cho bài tốn thiết kế FLRBC với ngữ nghĩa tính tốn của các từ được xác định dựa trên
ĐSGT bằng việc ứng dụng thuật tốn DWFS để lựa chọn các thuộc tính cĩ tính phân biệt cao nhất. Vì vậy, phương pháp hai giai đoạn thiết kế FLRBC theo tiếp cận ĐSGT được bổ sung thêm một giai đoạn tiền xử lý như sau:
1) Với mỗi tập dữ liệu cụ thể, các thuộc tính cĩ giá trị liên tục được phân hoạch thành các cụm bằng việc áp dụng kỹ thuật phân cụm mờ c-means với hàm chỉ số hợp lệ cụm (cluster validity index function) PBMF [99, 100] và sau đĩ áp dụng thuật tốn DWFS để lựa chọn một tập con các thuộc tính cĩ tính phân biệt nhất.
2) Thiết kế tối ưu các từ ngơn ngữ cùng với ngữ nghĩa dựa trên tập mờ của chúng cho từng thuộc tính của tập dữ liệu huấn luyện chỉ bao gồm các thuộc tính được lựa chọn ở giai đoạn 1, được gọi tắt là tập huấn luyện được chọn.
3) Trích rút tập luật tối ưu cho FLRBC từ tập huấn luyện được lựa chọn với các tham số ngữ nghĩa tối ưu thu được từ giai đoạn 2.
Trong giai đoạn 1, các thuộc tính cĩ giá trị liên tục được phân cụm bằng kỹ thuật phân cụm mờ c-means do Thuật tốn DWFS sử dụng lý thuyết entropy thơng tin và các entry được tính dựa trên các biến ngẫu nhiên rời rạc. Sau quá trình phân cụm, các dữ liệu thực được phân hoạch thành v > 0 cụm và mỗi cụm được gán một số thứ tự nhằm thu được các giá trị rời rạc của thuộc tính được xử lý.
Cho Y = {y1, …, ym} là tập giá trị của thuộc tính thứ j. Kỹ thuật phân cụm c- means tối ưu hàm mục tiêu sau:
= ∑ ∑ , − , 1 < <∞, (3.21) với v là số cụm, , độ thuộc của yi trong cụm j, vj là tâm của cụm, > 1 là số mũ mờ hĩa làm cho các phân hoạch mờ hơn hoặc ít mờ hơn. Độ thuộc , và tâm cụm
vj được cập nhật bởi quá trình tối ưu.
, = ∑ ∝ (3.22) =∑ , × ∑ , (3.23)
Quá trình tối ưu dừng lại khi đạt số lần lặp tối đa hoặc | ( )− | < , trong đĩ, 0 < < 1 và k là lần lặp hiện thời.
Phương pháp tính chỉ số PBMF [99, 100] được sử dụng cho việc tối ưu số cụm và được định nghĩa như sau:
= × × (3.24)
trong đĩ, = ∑ − và e là tâm của dữ liệu và = , − . Sơ đồ kỹ thuật phân cụm c-means với hàm PBMF được thể hiện trong Hình 3.3.
Hai giai đoạn cuối là hai giai đoạn thiết kế FLRBC với ngữ nghĩa dựa trên ĐSGT đối với tập huấn luyện chỉ bao gồm các thuộc tính được lựa chọn thay vì tập dữ liệu gốc.
3.2.4. Kết quả thực nghiệm và thảo luận
Tiểu mục này trình bày các kết quả thực nghiệm ứng dụng kỹ thuật lựa chọn đặc trưng như một kỹ thuật tiền xử lý dữ liệu đối với phương pháp thiết kế FLRBC theo tiếp cận ĐSGT AX và ĐSGT AXmrtp đối với một số tập dữ liệu nhiều chiều và so sánh tương ứng với các kết quả thực nghiệm đối với các tập dữ liệu gốc về thời gian sinh luật và chất lượng của hệ phân lớp. Các tập dữ liệu cĩ số chiều lớn được sử dụng trong thực nghiệm được thể hiện trọng Bảng 3.7.
Đầu tiên, kỹ thuật tiền xử lý lựa chọn đặc trưng được thực hiện để lựa chọn ra tập con các thuộc tính cĩ tính phân biệt nhất từ tập thuộc tính gốc. Hai phương pháp
tính số thuộc tính được lựa chọn được áp dụng là √ + 1 và √2 + 1, trong đĩ
n là số thuộc tính, và các tập dữ liệu cĩ số chiều tương ứng được ký hiệu là Sn và
S2n, tập dữ liệu gốc được ký hiệu là N. Để việc giảm số chiều dữ liệu cĩ ý nghĩa, số thuộc tính được lựa chọn tối đa là 30, khi đĩ hai tập dữ liệu Sn và S2n cĩ thể trùng nhau và ta chỉ chọn một trong chúng. Sau khi kết thúc giai đoạn này, số thuộc tính được lựa chọn đối với từng tập dữ liệu được thể hiện trong Bảng 3.8.
Bảng 3.7. Các tập dữ liệu cĩ số chiều lớn được sử dụng trong thực nghiệm.
STT Tập dữ liệu Số thuộc tính Số lớp Số mẫu
1 Bands 19 2 365 2 Dermatology 34 6 358 3 Hepatitis 19 2 80 4 Ionosphere 34 2 351 5 Sonar 60 2 208 6 Spambase 57 2 4597 7 Spectfheart 44 2 267 8 Wdbc 30 2 569
Bảng 3.8. Số thuộc tính được lựa chọn sau tiến trình lựa chọn đặc trưng.
STT Tập dữ liệu Viết tắt Số thuộc tính gốc Sn S2n
1 Bands Ban 19 6 8 2 Dermatology Der 34 7 10 3 Hepatitis Hep 19 6 8 4 Ionosphere Ion 34 7 10 5 Sonar Son 60 9 12 6 Spambase Spa 57 9 12 7 Spectfheart Spe 44 8 11 8 Wdbc Wdb 30 7 9
Chương trình thực nghiệm được cài đặt bằng ngơn ngữ lập trình C#. Với thủ tục sinh tập luật khởi đầu dựa trên ĐSGT AX, chương trình được thực thi đơn luồng
(tuần tự) trên máy tính Intel Core i3-3110M, 2.4-GHz CPU, 4GB RAM và hệ điều hành Microsoft Windows 7 64-bit. Với ĐSGT AXmrtp, chương trình được thực thi đơn luồng trên máy tính Intel Core i3-550, 3.2GHz CPU, 2 GB RAM và hệ điều hành Microsoft Windows XP 32-bit.
Thời gian thực thi với đơn vị giây của thủ tục sinh tập luật khởi đầu cĩ áp dụng và khơng áp dụng kỹ thuật lựa chọn đặc trưng dựa trên ĐSGT AX được thể hiện
L2 và L3 tương ứng là thời gian thực thi của thủ tục sinh tập luật khởi đầu tương ứng với độ dài tối đa của luật là 2 và 3 và các ký tự “” và “-“ lần lượt thể hiện thời gian sinh luật rất bé (nhỏ hơn 1 giây) và tương đối lớn nên chưa thu được kết quả.
Bảng 3.9. So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX cĩ áp dụng và khơng áp dụng kỹ thuật lựa chọn đặc trưng.
STT Tập dữ liệu N Sn S2n L2 L3 L2 L3 L2 L3 1 Bands 20 1.215 1 2 2 16 2 Dermatology 148 27.663 5 4 6 3 Hepatitis 1 112 7 4 Ionosphere 734 143.646 2 21 14 136 5 Sonar 7.164 - 2 30 9 270 6 Spambase 12.884 - 6 34 14 155 7 Spectfheart 1.373 245.917 7 3 52 8 Wdbc 298 48.074 3 2 17
Bảng 3.10. So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AXmrtp cĩ áp dụng và khơng áp dụng kỹ thuật lựa chọn đặc trưng.
STT Tập dữ liệu N Sn S2n L2 L3 L2 L3 L2 L3 1 Bands 18 1.365 1 4 2 Dermatology 174 33.420 7 3 Hepatitis 2 72 4 Ionosphere 823 138.851 3 3 31 5 Sonar 6.828 - 1 8 4 33 6 Spambase 14.701 - 11 25 29 825 7 Spectfheart 687 238.327 3 1 28 8 Wdbc 436 38.232 2 15
Như được thể hiện trong Bảng 3.9 và Bảng 3.10, thời gian thực thi của thủ tục sinh tập luật khởi đầu sau khi áp dụng kỹ thuật lựa chọn đặc trưng giảm rất nhiều, đặc biệt trong trường hợp độ dài tối đa của luật bằng 3 (L3). Chẳng hạn, trong Bảng 3.9, thời gian sinh tập luật khởi đầu từ tập dữ liệu Dermatology gốc trong trường hợp L3 là 07:41:03 hay 27.663 giây, lớn hơn 5.532 và 4.610 lần tương ứng so với thời gian sinh luật từ các tập dữ liệu Sn và S2n sau khi áp dụng kỹ thuật lựa chọn đặc trưng.
Kết quả thực nghiệm về độ chính xác của FLRBC được thiết kế trên cơ sở ĐSGT AX và ĐSGT AXmrtp đối với tập dữ liệu gốc và các tập dữ liệu đã áp dụng kỹ