Tập dữ liệu mẫu cho bài toán phân lớp các loại men sinh học (Yeast) do giáo sư K. Nakai thu thập tại Viện phân tử và tế bào sinh học, Đại học Osaka, Nhật Bản, và được công bố trong [76]. Nhiều tác giả nghiên cứu đã sử dụng tập dữ liệu này để thử nghiệm các mơ hình cho bài tốn phân lớp [64], [58], [47]. Tập dữ liệu gồm 1484 mẫu chia thành 10 lớp và có 8 thuộc tính đó là:
1. (MCG) - McGeoch's method for signal sequence recognition. 2. (GVH) - Heijne's method for signal sequence recognition.
3. (ALM) - Score of the ALOM membrane spanning region prediction
program.
4. (MIT) - Score of discriminant analysis of the amino acid content of the N-
terminal region (20 residues long) of mitochondrial and non-mitochondrial proteins.
5. (ERL) - Presence of "HDEL" substring (thought to act as a signal for
retention in the endoplasmic reticulum lumen). Binary attribute.
6. (POX) - Peroxisomal targeting signal in the C-terminus.
7. (VAC) - Score of discriminant analysis of the amino acid content of
vacuolar and extracellular proteins.
8. (NUC) - Score of discriminant analysis of nuclear localization signals of
nuclear and non-nuclear proteins.
Bảng 4.12 thể hiện phân bố số lượng các mẫu dữ liệu theo từng lớp, Hình 4.8 thể hiện sự phân bố dữ liệu trên các lớp theo từng cặp thuộc tính: 4.8a cho cặp thuộc tính MCG và GVH, 4.8b cho cặp thuộc tính ALM và MIT, 4.8c cho cặp thuộc
tính VAC và NUC. Đối với cặp thuộc tính ERL và POX có hầu hết các mẫu dữ liệu
bằng 0 hoặc 1. Trực quan trên biểu đồ phân bố dữ liệu cho thấy bài toán rất phức
tạp, các mẫu dữ liệu ở các lớp chồng chéo lên nhau, hầu như khơng có thuộc tính nào thể hiện tính trội hơn hẳn để phân lớp. Hơn nữa, số lượng mẫu trong tập dữ liệu khá lớn cùng với sự phân bố các mẫu dữ liệu không cân bằng nhau, tỷ số chênh lệch
130
phân bố này rất lớn, lên đến 463/5. Đây cũng là bài tốn có số lớp khá lớn (10 lớp). Những thách thức không nhỏ đối với bất kỳ mơ hình phân lớp nào.
Bảng 4.12: Số lượng các mẫu dữ liệu trong mỗi lớp của bài toán YEAST
Lớp Mô tả Số mẫu
CYT Cytosolic or cytoskeletal 463
ERL Endoplasmic reticulum lumen 5
EXC Extracellular 37
ME1 Membrane protein, cleaved signal 44
ME2 Membrane protein, uncleaved signal 51
ME3 Membrane protein, no N-terminal signal 163
MIT Mitochondrial 244 NUC Nuclear 429 POX Peroxisomal 20 VAC Vacuolar 30 (a) (b) (c)
131
Áp dụng thuật toán FPO-SGA để tối ưu bộ tham số gia tử theo phương pháp
sinh luật dựa trên hệ phân hoạch các khoảng tính mờ trong ĐS2GT (thuật tốn
IFRG2) và phương pháp sàng luật khơng cân bằng (vì tỷ lệ chênh lệch số mẫu giữa
các lớp quá lớn) theo tiêu chuẩn SR3. Hệ luật được sinh để đánh giá bộ tham số tối ưu là S20 (20 luật), sử dụng trọng số luật CF3 và phương pháp lập luận single-
winner-rule. Các tham số chạy FPO-SGA gồm kích thước quần thể tại mỗi thế hệ Np = 100, số thế hệ tiến hóa Gmax = 150, ràng buộc tham số là 0.2 ≤ fm(c-), µ(L) ≤
0.8 và 1 ≤ kj ≤ 2. Kết quả tham số tối ưu thể hiện trong Bảng 4.13 sau.
Bảng 4.13: Tham số mờ gia tử tối ưu (PARyeast) theo thuật toán IFRG2 của bài toán
YEAST Thuộc tính fmj(c-) fmj(c+) µj(L) µj(V) kj MCG 0.528529 0.471471 0.396943 0.603057 1 GVH 0.441752 0.558248 0.338875 0.661125 1 ALM 0.436463 0.563537 0.341487 0.658513 2 MIT 0.764595 0.235405 0.572735 0.427265 1 ERL 0.519181 0.480819 0.529925 0.470075 1 POX 0.427810 0.572190 0.458303 0.541697 1 VAC 0.500003 0.499997 0.585536 0.414464 2 NUC 0.224894 0.775106 0.628089 0.371911 1
Tiếp theo chúng ta sẽ ứng dụng thử nghiệm trong hai trường hợp CV10 và
CV20 theo sơ đồ RBO-SGA. Sinh một tập luật đủ lớn S900 = HAFRG(PARyeast,
IFRG2, 900) và áp dụng thuật tốn RBO-SGA để tìm hệ luật tối ưu. Số luật tối đa để tìm kiếm tối ưu là Nmax = 30, trọng số hàm fitness là wp = 0.99, wn = 0.009 và wa
= 0.001. Kích thước quần thể tại mỗi thế hệ Np = 500, số thế hệ tiến hóa Gmax = 150.
Đánh giá kết quả trên hệ luật tìm được trong các trường hợp thử nghiệm thể hiện
trong Bảng 4.14. Trong trường hợp CV10, hiệu quả trên tập kiểm tra (PTe) của [64] cao hơn [47] nhưng không đáng kể (58.26/57.42), trong khi đó kết quả của RBO-
SGA tốt hơn đáng kể (60.09%), cả hiệu quả trên tập dữ liệu để sinh luật (PTr). Số luật của RBO-SGA lớn hơn [47] (30/22.45). Nhìn chung các kết quả của RBO-SGA
132
tốt hơn so với các phương pháp được so sánh. Điều này chứng tỏ hiệu quả của
phương pháp RBO-SGA, hệ luật đạt được khá đơn giản nhưng hiệu quả phân lớp
tăng lên khá rõ rệt.
Bảng 4.14: Kết quả thử nghiệm sơ đồ RBO-SGA theo thuật toán IFRG2 của bài
toán YEAST, so sánh với các phương pháp FRBCS khác
Phương pháp PNr PRl PTr (%) PTe (%)
10-folds cross validation (CV10)
N.G. Pavlidis và cộng sự [64] / / / 58.26
H. Ishibuchi và cộng sự [47] 22.45 2.92 63.23 57.42
Sơ đồ RBO-SGA 30.0 2.86 64.39 60.09
5-folds cross validation (CV20)
Sơ đồ RBO-SGA 30.0 2.93 64.94 59.96
2-folds cross validation (CV50)
L. Sanchez và cộng sự [73] / / / 56.66
Sơ đồ RBO-SGA 30.0 2.92 66.04 58.56