Bài toán phân lớp các loại men sinh họ c YEAST- 123docz.net

Tập dữ liệu mẫu cho bài toán phân lớp các loại men sinh học (Yeast) do giáo sư K. Nakai thu thập tại Viện phân tử và tế bào sinh học, Đại học Osaka, Nhật Bản, và được công bố trong [76]. Nhiều tác giả nghiên cứu đã sử dụng tập dữ liệu này để thử nghiệm các mơ hình cho bài tốn phân lớp [64], [58], [47]. Tập dữ liệu gồm 1484 mẫu chia thành 10 lớp và có 8 thuộc tính đó là:

1. (MCG) - McGeoch's method for signal sequence recognition. 2. (GVH) - Heijne's method for signal sequence recognition.

3. (ALM) - Score of the ALOM membrane spanning region prediction

program.

4. (MIT) - Score of discriminant analysis of the amino acid content of the N-

terminal region (20 residues long) of mitochondrial and non-mitochondrial proteins.

5. (ERL) - Presence of "HDEL" substring (thought to act as a signal for

retention in the endoplasmic reticulum lumen). Binary attribute.

6. (POX) - Peroxisomal targeting signal in the C-terminus.

7. (VAC) - Score of discriminant analysis of the amino acid content of

vacuolar and extracellular proteins.

8. (NUC) - Score of discriminant analysis of nuclear localization signals of

nuclear and non-nuclear proteins.

Bảng 4.12 thể hiện phân bố số lượng các mẫu dữ liệu theo từng lớp, Hình 4.8 thể hiện sự phân bố dữ liệu trên các lớp theo từng cặp thuộc tính: 4.8a cho cặp thuộc tính MCG và GVH, 4.8b cho cặp thuộc tính ALM và MIT, 4.8c cho cặp thuộc

tính VAC và NUC. Đối với cặp thuộc tính ERL và POX có hầu hết các mẫu dữ liệu

bằng 0 hoặc 1. Trực quan trên biểu đồ phân bố dữ liệu cho thấy bài toán rất phức

tạp, các mẫu dữ liệu ở các lớp chồng chéo lên nhau, hầu như khơng có thuộc tính nào thể hiện tính trội hơn hẳn để phân lớp. Hơn nữa, số lượng mẫu trong tập dữ liệu khá lớn cùng với sự phân bố các mẫu dữ liệu không cân bằng nhau, tỷ số chênh lệch

130

phân bố này rất lớn, lên đến 463/5. Đây cũng là bài tốn có số lớp khá lớn (10 lớp). Những thách thức không nhỏ đối với bất kỳ mơ hình phân lớp nào.

Bảng 4.12: Số lượng các mẫu dữ liệu trong mỗi lớp của bài toán YEAST

Lớp Mô tả Số mẫu

CYT Cytosolic or cytoskeletal 463

ERL Endoplasmic reticulum lumen 5

EXC Extracellular 37

ME1 Membrane protein, cleaved signal 44

ME2 Membrane protein, uncleaved signal 51

ME3 Membrane protein, no N-terminal signal 163

MIT Mitochondrial 244 NUC Nuclear 429 POX Peroxisomal 20 VAC Vacuolar 30 (a) (b) (c)

131

Áp dụng thuật toán FPO-SGA để tối ưu bộ tham số gia tử theo phương pháp

sinh luật dựa trên hệ phân hoạch các khoảng tính mờ trong ĐS2GT (thuật tốn

IFRG2) và phương pháp sàng luật khơng cân bằng (vì tỷ lệ chênh lệch số mẫu giữa

các lớp quá lớn) theo tiêu chuẩn SR3. Hệ luật được sinh để đánh giá bộ tham số tối ưu là S20 (20 luật), sử dụng trọng số luật CF3 và phương pháp lập luận single-

winner-rule. Các tham số chạy FPO-SGA gồm kích thước quần thể tại mỗi thế hệ Np = 100, số thế hệ tiến hóa Gmax = 150, ràng buộc tham số là 0.2 ≤ fm(c-), µ(L) ≤

0.8 và 1 ≤ kj ≤ 2. Kết quả tham số tối ưu thể hiện trong Bảng 4.13 sau.

Bảng 4.13: Tham số mờ gia tử tối ưu (PARyeast) theo thuật toán IFRG2 của bài toán

YEAST Thuộc tính fmj(c-) fmj(c+) µj(L) µj(V) kj MCG 0.528529 0.471471 0.396943 0.603057 1 GVH 0.441752 0.558248 0.338875 0.661125 1 ALM 0.436463 0.563537 0.341487 0.658513 2 MIT 0.764595 0.235405 0.572735 0.427265 1 ERL 0.519181 0.480819 0.529925 0.470075 1 POX 0.427810 0.572190 0.458303 0.541697 1 VAC 0.500003 0.499997 0.585536 0.414464 2 NUC 0.224894 0.775106 0.628089 0.371911 1

Tiếp theo chúng ta sẽ ứng dụng thử nghiệm trong hai trường hợp CV10 và

CV20 theo sơ đồ RBO-SGA. Sinh một tập luật đủ lớn S900 = HAFRG(PARyeast,

IFRG2, 900) và áp dụng thuật tốn RBO-SGA để tìm hệ luật tối ưu. Số luật tối đa để tìm kiếm tối ưu là Nmax = 30, trọng số hàm fitness là wp = 0.99, wn = 0.009 và wa

= 0.001. Kích thước quần thể tại mỗi thế hệ Np = 500, số thế hệ tiến hóa Gmax = 150.

Đánh giá kết quả trên hệ luật tìm được trong các trường hợp thử nghiệm thể hiện

trong Bảng 4.14. Trong trường hợp CV10, hiệu quả trên tập kiểm tra (PTe) của [64] cao hơn [47] nhưng không đáng kể (58.26/57.42), trong khi đó kết quả của RBO-

SGA tốt hơn đáng kể (60.09%), cả hiệu quả trên tập dữ liệu để sinh luật (PTr). Số luật của RBO-SGA lớn hơn [47] (30/22.45). Nhìn chung các kết quả của RBO-SGA

132

tốt hơn so với các phương pháp được so sánh. Điều này chứng tỏ hiệu quả của

phương pháp RBO-SGA, hệ luật đạt được khá đơn giản nhưng hiệu quả phân lớp

tăng lên khá rõ rệt.

Bảng 4.14: Kết quả thử nghiệm sơ đồ RBO-SGA theo thuật toán IFRG2 của bài

toán YEAST, so sánh với các phương pháp FRBCS khác

Phương pháp PNr PRl PTr (%) PTe (%)

10-folds cross validation (CV10)

N.G. Pavlidis và cộng sự [64] / / / 58.26

H. Ishibuchi và cộng sự [47] 22.45 2.92 63.23 57.42

Sơ đồ RBO-SGA 30.0 2.86 64.39 60.09

5-folds cross validation (CV20)

Sơ đồ RBO-SGA 30.0 2.93 64.94 59.96

2-folds cross validation (CV50)

L. Sanchez và cộng sự [73] / / / 56.66

Sơ đồ RBO-SGA 30.0 2.92 66.04 58.56

Bài toán phân lớp các loại men sinh họ c YEAST

Giới thiệu bài toán phân lớp

Áp dụng thuật toán sinh luật IFRG1