Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Cơng nghệ 25 (2009) 84-93 Tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật toán Random Forest Nguyễn Hà Nam* Khoa Công Nghệ Thông Tin, Trường ðH Công Nghệ, ðHQGHN, 144 Xuân Thủy, Hà Nội, Việt Nam Nhận ngày tháng năm 2007 Tóm tắt Phân tích thành phần (PCA) phương pháp tiếng hiệu trình làm giảm số thuộc tính tập liệu đầu vào Hiện phương pháp hàm nhân ñã ñược dùng ñể tăng khả áp dụng PCA giải toán phi tuyến Phương pháp ñã ñược Scholkhof ñồng nghiệp ơng đưa với tên gọi KPCA Trong báo chúng tơi trình bày cách tiếp cận dựa hàm nhân để chọn thuộc tính tốt để tăng khả phân lớp thuật toán Random Forest (RF) Chúng tơi sử dụng giải thuật di truyền để tìm hàm nhân tối ưu cho việc tìm cách chuyển ñổi phi tuyến tốt nhằm làm tăng khả phân lớp RF Cách tiếp cận chúng tơi tăng khả phân lớp giải thuật RF Khơng tăng khả phân lớp cho thuật tốn RF, phương pháp đề nghị cho thấy khả phân lớp tốt số phương pháp trích chọn cơng bố Từ khóa: PCA, Hàm nhân, KPCA, Random Forest, trích chọn thuộc tính Giới thiệu ∗ dù nhiều kỹ thuật khai phá liệu dựa số tảng lý thuyết khác ñã ñược phát triển ứng dụng từ lâu, thực tế cho thấy kết phụ thuộc nhiều vào đặc tính liệu khả xử lý liệu thô nhóm nghiên cứu Một điều hiển nhiên với phương pháp đáp ứng xử lý tốt vài liệu ứng dụng cụ thể Trong khai phá liệu phương pháp trích chọn đóng vai trị quan trọng tiền xử lý số liệu Hướng tiếp cận làm tăng hiệu thu nhận tri thức ngành tin sinh, xử lý liệu web, xử lý tiếng nói, hình ảnh với đặc tính có nhiều thuộc tích (vài trăm vài trăm ngàn thuộc tính) thường có số lượng Trong lĩnh vực nghiên cứu khai phá liệu nói chung nghiên cứu thuật tốn phân lớp nói riêng, vấn đề xử lý liệu lớn ngày trở thành vấn ñề cấp thiết đóng vai trị chủ đạo việc giải toán thực tế Phần lớn thuật tốn phân lớp phát triển giải ñược với lượng số liệu giới hạn với ñộ phức tạp liệu biết trước Trong lượng liệu mà thu thập ñược ngày trở nên phong phú ña dạng nhờ phát triển mạnh mẽ khoa học kỹ thuật Mặc _ ∗ Tel.: 84-4-37547813 E-mail: namnh@vnu.edu.vn 84 N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 tương ñối nhỏ mẫu dùng ñể huấn luyện (thường vài trăm) Phương pháp trích chọn giúp giảm kích cỡ khơng gian liệu, loại bỏ thuộc tính khơng liên quan thuộc tính nhiễu Phương pháp có ảnh hưởng ñến ứng dụng tăng tốc ñộ thuật toán khai phá liệu, cải thiện chất lượng liệu tăng hiệu suất khai phá liệu, kiểm sốt kết thuật tốn Phương pháp ñã ñược giới thiệu từ năm 1970 tài liệu xác suất thống kê, học máy khai phá liệu [1-7] Phân tích thành phần (PCA) [4] phương pháp tiếng hiệu trình làm giảm số thuộc tính tập liệu đầu vào Gần ñây phương pháp hàm nhân ñã ñược áp dụng ñể ứng dụng PCA vào giải tốn phi tuyến tính Phương pháp Scholkhof đồng nghiệp ơng đưa với tên gọi KPCA [9] Trong báo trình bày cách tiếp cận dựa hàm nhân để chọn thuộc tính tốt ñể tăng khả phân lớp thuật tốn Random Forest (RF) Trong phương pháp đề nghị, chúng tơi sử dụng giải thuật di truyền để tìm hàm nhân tối ưu cho việc tìm cách chuyển ñổi phi tuyến tốt nhằm làm tăng khả phân lớp RF Cơ sở lý thuyết 85 dựng thuộc tính cơng việc quan trọng việc xử lý số liệu Khi xây dựng liệu cần phải đảm bảo khơng ñể nhiều thông tin không tốn mặt chi phí Phần thứ hai có mục tiêu tìm thuộc tính đại diện cho ñối tượng, loại bỏ thuộc tính thừa gây nhiễu nhằm tăng hiệu suất thuật toán khai phá liệu Có nhiều phương pháp hướng tiếp cận khác bao gồm phương pháp kinh ñiển [1-3] với liệu tương ñối nhỏ hướng tiếp cận ñại [5-7] Tuy chúng có số u cầu chung sau: • Giảm liệu cần lưu trữ tăng tốc độ thuật tốn (tính tốn liệu đó) • Giảm thuộc tính nhằm tiết kiệm khơng gian lưu trữ • Tăng cường hiệu thuật tốn: nhằm thu tỷ lệ dự đốn cao • Có tri thức liệu: thu tri thức liệu thông qua phương pháp bóc tách liệu để tạo hay biểu diễn liệu dễ dàng Về phân loại phương pháp trích chọn theo cách tiếp cận khác filter/wrapper, ñược trình bày kỹ tài liệu [1,2] Lược ñồ thực hai cách tiếp cận ñược giản lược hóa hình vẽ ñây 2.1 Giới thiệu trích chọn nội dung Về việc bóc tách thuộc tính đặc trưng bao gồm hai phần xây dựng thuộc tính lựa chọn thuộc tính đặc trưng Xây Hình Hướng tiếp cận filter (các thuộc tính chọn ñộc lập với thuật toán khai phá liệu) [1] 86 N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Cơng nghệ 25 (2009) 84-93 Hình Hướng tiếp cận wrapper (các thuộc tính chọn phụ thuộc theo nghĩa với thuật tốn khai phá liệu) [1] Hình Ba cách tiếp cận trích chọn nội dung Phần tơ màu xám cho biết thành phần mà hướng tiếp cận sử dụng để đưa kết cuối N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 87 ðể thực thuật tốn trích chọn, cần phải thực số công việc sau: phương pháp tối ưu ñặc biệt Giải thuật di truyền số phương pháp đặc biệt • Phương pháp để sinh tập thuộc tính đặc trưng (có thể hiểu tương ứng với chiến lược tìm kiếm) Thuật tốn di truyền, thuật tốn tiến hóa nói chung, hình thành dựa quan niệm cho rằng: q trình tiến hóa tự nhiên hồn hảo nhất, hợp lý tự mang tính tối ưu Quan niệm xem tiên đề khơng chứng minh ñược, phù hợp với thực tế khách quan Q trình tiến hóa thể tính tối ưu chỗ, hệ sau tốt hơn, phát triển hơn, hồn thiện hệ trước Tiến hóa tự nhiên trì nhờ hai q trình bản: sinh sản chọn lọc tự nhiên Xuyên suốt q trình tiến hóa tự nhiên, hệ ln sinh để bổ sung thay cho hệ cũ Cá thể phát triển hơn, thích ứng với mơi trường tồn tại, cá thể khơng thích ứng với mơi trường bị ñào thải Sự thay ñổi môi trường ñộng lực thúc đẩy q trình tiến hóa Ngược lại, tiến hóa tác động trở lại góp phần làm thay đổi mơi trường • ðịnh nghĩa hàm đánh giá (đưa tiêu chí để xác định thuộc tính hay nhóm thuộc tính tốt hay khơng tốt) • Ước lượng hàm đánh giá (kiểm chứng lại xem hàm đánh giá có thực phù hợp hiệu với liệu khơng) Hình vẽ thể khác cách tiếp cận Filter, Wrapper Embedded [8] Hai phương pháp (a) (b) mơ tả kỹ tài liệu [1,2] Phương pháp (c) tương ñối giống cách tiếp cận (b) có điểm khác biệt ghép phần sinh tập thuộc tính vào phần đánh giá huấn luyện 2.2 Thuật tốn di truyền Có lớp tốn hay mà người ta chưa tìm thuật tốn tương đối nhanh để giải chúng Nhiều toán lớp toán quy hoạch mà thường nảy sinh ứng dụng cụ thể ðối với dạng tốn này, ta thường tìm thuật tốn cho kết gần tối ưu Ta dùng thuật tốn xác suất để xử lý chúng, thuật tốn khơng đảm bảo cho kết tối ưu Tuy nhiên, ta giảm nhiểu tỷ lệ sai kết cách chọn ngẫu nhiên ñủ nhiều “lời giải có thể” Nói cách đơn giản, việc giải tốn xem việc tìm kiếm lời giải tối ưu khơng gian lời giải Vì đích “lời giải tốt nhất”, ta coi cơng việc q trình tối ưu hóa ðối với không gian nhỏ, phương pháp “vét cạn” cổ điển đủ dùng; cịn khơng gian lớn ñòi hỏi Trong thuật giải di truyền, cá thể liên tục sinh q trình tiến hóa nhờ lai ghép hệ cha mẹ Một cá thể mang tính trạng cha mẹ (di truyền), mang tính trạng hồn tồn (đột biến) Di truyền đột biến hai chế có vai trị quan trọng tiến hóa, đột biến xảy với xác suất nhỏ nhiều so với tượng di truyền Các thuật tốn tiến hóa, có đặc điểm khác biệt, mơ bốn q trình bản: Lai ghép, đột biến, sinh sản chọn lọc tự nhiên Như trình tiến hóa lâu có điều kiện cho cá thể tốt ñược sinh ra, chất lượng cá thể ñược nâng lên 88 N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 2.3 Thuật toán KPCA Phương pháp PCA [4, 9, 10] phương pháp ñược sử dụng phổ biến tương ñối hiệu ñể biến ñổi từ liệu có số lượng thuộc tính lớn nhiễu có độ tương quan với thành liệu có số chiều nhỏ dựa phép biến ñổi tuyến tính [11] Tuy nhiên nhiều ứng dụng thực tế, hiệu phương pháp hạn chế tảng xây dựng thuật tốn dựa liệu tuyến tính [12] ðể áp dụng thuật tốn vào liệu phi tuyến, có nhiều nghiên cứu ứng dụng kỹ thuật khác ñể biến đổi liệu cho thành liệu cho tuyến tính Nghiên cứu Kramer [13] vào năm 1991 tìm cách phát triển thuật toán PCA phi tuyến dựa mạng nơ ron Tuy nhiên mạng tương đối phức tạp khó tìm giá trị tối ưu có lớp Nghiên cứu Dong McAvoy [12] sử dụng mạng nơ ron với giả thiết phi tuyến liệu đầu vào tương ứng với tổ hợp tuyến tính số đại lượng ngẫu nhiên tách thành tổng hàm đại lượng Cách thức chuyển đổi ñó thực ñược với số hạn chế toán phi tuyến Trong khoảng năm cuối kỳ trước, phương pháp PCA phi tuyến ñã ñược xây dựng phát triển, có tên KPCA (PCA dựa hàm nhân) Scholkopf đồng nghiệp ơng [9,10] Phương pháp thực biến ñổi phi tuyến hệ tọa độ cách tìm phần tử có liên hệ phi tuyến với giá trị ñầu vào Giả sử giá trị ñầu vào xk nằm khơng gian Rm với k=1,…, n, tính ma trận tương quan (covariance matrix) giá trị đầu vào n ∑ ( x − µ )( x i Cov( xi , x j ) = i i , j =0 n −1 j −µj) (1) Sau giải hệ phương trình để tìm giá trị ñặc trưng λ véc tơ ñặc trưng λv = Cv Ý tưởng phương pháp hàm nhân [14] tính tốn tương tự thực khơng gian tích vơ hướng F có liên quan tới khơng gian giá trị đầu vào thơng qua biến đổi phi tuyến Φ: Rm F x X Ta biểu diễn ma trận tương quan không gian F sau, với giả sử liệu ñã ñược chuyển tâm trục tọa ñộ n ∑ (Φ ( x )Φ ( x ) T j Cov(Φ ( xi ), Φ( x j )) = i, j =0 j ) (2) n −1 tương tự tính giá trị ñặc trưng tương tự với PCA truyền thống với hàm nhân có dạng sau K i , j = Φ ( x j )Φ ( x j )T (3) 2.4 Thuật toán Random Forest Random forest [15] thuật tốn đặc biệt dựa kỹ thuật lắp ghép (ensemble techniques [4]) Về mặt chất thuật tốn RF xây dựng dựa tảng thuật toán phân lớp CART sử dụng kỹ thuật có tên gọi bagging [4] Kỹ thuật cho phép lựa chọn nhóm nhỏ thuộc tính nút ñể phân chia cho mức phân lớp Bằng cách chia nhỏ không gian tìm kiếm thành nhỏ cho phép thuật tốn phân loại cách nhanh chóng cho dù khơng gian thuộc tính lớn Các tham số đầu vào thuật tốn ñơn giản bao gồm số thuộc tính ñược chọn lần phân chia (mtry) Giá trị mặc ñịnh tham số bậc hai p với p số lượng thuộc tính Tương tự thuật tốn CART, RF sử dụng cơng thức Gini [4] cơng thức tính tốn việc phân chia Số lượng N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 tạo khơng hạn chế khơng dụng kỹ thuật để hạn chế mở rộng Chúng ta phải lựa chọn tham số cho biết số lượng (ntree) ñược sinh cho ñảm bảo thuộc tính kiểm tra vài lần Thuật tốn sử dụng kỹ thuật OOB (out-of -bag) [15] để xây dựng tập huấn luyện phương pháp kiểm tra Nội dung kết nghiên cứu 3.1 Mơ hình đề nghị Kiến trúc hệ thống bao gồm ba phần chính: tiền xử lý số liệu, q trình học để tìm tập tham số tối ưu cuối mơ đun phân lớp số liệu chưa ñược sử dụng q trình trước 89 bao gồm số mẫu bệnh nhân ung thư số khác bình thường Tiếp theo, chúng tơi sử dụng thuật tốn di truyền để tìm hệ số tốt để xây dựng hàm nhân theo cơng thức (4) trình bày phần 3.2 Hàm nhân ñược sử dụng KPCA cách để biến đổi khơng gian ban đầu thành khơng gian với hy vọng phân lớp dễ dàng hiệu dựa mơ đun phân lớp RF Ở thuật tốn di truyền ñược sử dụng ñể tạo giá trị thực β nằm khoảng (0, 1) Bộ giá trị ñược sử dụng ñể xây dựng cơng thức hàm nhân nhằm biến đổi từ khơng gian số liệu ban đầu vào khơng gian thơng qua mơ đun KPCA Phép biến đổi ñánh giá thông qua tỷ lệ lỗi phân lớp ñược tạo mơ đun RF Q trình tìm hệ số β thực dựa q trình thực thủ tục thuật toán di truyền với hàm định giá dựa RF Q trình ñược lặp lại ñạt ñược kết tối ưu Sau kết thúc trình tìm tập hệ số dựa thuật toán di truyền, kết chuyển đầy đủ sang mơ ñun phân lớp với liệu chưa ñược phân loại trước 3.2 Xây dựng hàm nhân phương pháp học Hình Kiến trúc tổng thể phương pháp đề nghị (KPCA-RF) với mơ hình học để tìm hàm nhân tốt Trong mơ đun tiền xử lý, chúng tơi sử dụng kỹ thuật t-test [3,4] nhằm làm giảm số lượng thuộc tính để làm giảm bớt khối lượng tính tốn giảm độ nhiễu liệu Sau liệu phân chia thành tập liệu huấn luyện tập liệu kiểm tra Như trình bày phần trên, việc chuyển đổi khơng gian phi tuyến ban đầu thành khơng gian tuyến tính để dễ dàng thực thuật tốn PCA thực cách dễ dàng hiệu thông qua hàm nhân ðã có nhiều hàm nhân xây dựng công bố cho ứng dụng cụ thể khác nhau, nhiên việc chọn hàm nhân ñủ tốt cho ứng dụng hay loại số liệu cụ thể ln ln thách thức khơng nhỏ nhà nghiên cứu [10] Ở chúng tơi dựa vào số kết trình bày tài liệu [10,14] ñể giới thiệu 90 N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 cách thức xây dựng hàm nhân phù hợp cho việc xử lý số liệu tin sinh học Hàm nhân xây dựng ñược biểu diễn sau 4.2 Bộ liệu ung thư ruột kết m K c = ∑ βi × K i project.org), mơ đun KPCA RF ñược tải từ ñịa (4) i =1 Thỏa mãn m β ∈ [0,1] , ∑ βi = i =1 Trong Ki hàm nhân ñã ñược xây dựng trước ñó, hệ số βi thể ảnh hưởng hàm nhân thứ i vào hàm nhân ðể chứng minh hàm nhân vừa xây dựng thỏa mãn ñiều kiện hàm nhân sử dụng bổ đề 3.12 nội dung định lý Mercer trình bày [14] Hệ số β đóng vai trị quan trọng việc tạo hàm nhân phù hợp với liệu đầu vào Trong q trình học, cấu trúc tập liệu huấn luyện ñược học cách tự động thơng qua viêc thay đổi hệ số Như trình bày phần trước, chúng tơi sử dụng thuật tốn di truyền để tìm hệ số β phù hợp cho tối thiểu hóa lỗi phát sinh q trình học Kết thảo luận 4.1 Môi trường thực nghiệm Tất thực nghiệm ñược thực máy tính Pentium IV 1.8GHz Phương pháp đề nghị thực ngơn ngữ R, ngơn ngữ chun dùng xác suất thống kê (có thể tải ñịa http://www.r- Bộ liệu ung thư ruột kết (Colon Tumor cancer) Bộ liệu ung thư ruột kết [16] bao gồm thơng tin gen trích từ hệ thống DNA microarray Bộ liệu bao gồm 62 mẫu với 22 mẫu người bình thường 40 mẫu người có bệnh có tổng số 2000 thuộc tính Chúng tơi chọn ngẫu nhiên 40 mẫu làm tập huấn luyện 22 mẫu lại ñược sử dụng làm tập kiểm tra 4.3 Quy trình thực nghiệm kết ðầu tiên chúng tơi thực việc thu gọn liệu sử dụng t-test, giải thuật di truyền ñược sử dụng ñể tìm hàm nhân phù hợp cho KPCA nhằm chuyển ñổi không gian tối ưu cho việc áp dụng phân lớp RF Thực nghiệm ñã ñược thực 50 lần ñể kiểm tra ổn ñịnh phương pháp ñề nghị Kỹ thuật t-test ñược áp dụng ñể lựa chọn khoảng 1000 thuộc tính tốt sau ñược dùng liệu ñầu vào chương trình KPCA_RF Hình vẽ so sánh kết thuật toán RF nguyên gốc thuật toán học chúng tơi thơng qua 50 lần thực nghiệm Trung bình thuật toán RF cho kết 77.64% với phương sai 9.62%, cịn thuật tốn KPCA-RF cho kết đốn nhận 81.09% với phương sai 9.82% Kết cho thấy thuật tốn đề nghị chúng tơi ñã cho kết tốt hẳn so với thuật tốn RF sở ban đầu N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Cơng nghệ 25 (2009) 84-93 91 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 RF Pred Kpca Pred Hình So sánh kết đốn nhận thuật tốn RF với thuật tốn cải tiến KPCA-RF thơng qua 50 lần thực nghiệm ðường nét đậm thể kết thuật tốn chúng tơi, cịn ñường mảnh thể kết thuật toán RF Bảng cho biết kết dự đốn số nghiên cứu có hướng tiếp cận trích chọn nội dung cơng bố So sánh với kết tỷ lệ dự đốn hệ thống đề nghị ñã ñạt ñược kết tương ñối khả quan Bảng So sánh kết phân lớp với số nghiên cứu trước ñây với phương pháp ñề nghị liệu Các phương pháp Bootstrapped GA\SVM [17] Combined kernel for SVM [18] KPCA-RF Tỷ lệ dự ñoán ñúng (%) 80.0 75.33±7.0 81.09+9.85.2 việc xử lý số liệu với số chiều tương ñối lớn với số lượng mẫu huấn luyện tương ñối nhỏ Phương pháp đề nghị chúng tơi nhằm giảm thời gian tính tốn giảm độ nhiễu liệu đầu vào cách áp dụng kỹ thuật hàm nhân PCA Chúng tơi xây dựng hàm nhân phương pháp tìm hàm nhân tối ưu thơng qua việc sử dụng giải thuật di truyền Cách tiếp cận chúng tơi tăng khả phân lớp giải thuật RF thể thơng qua hình Khơng tăng khả phân lớp cho thuật tốn RF, phương pháp đề nghị cịn cho thấy khả phân lớp tốt số phương pháp trích chọn cơng bố (Bảng 1) Kết luận Trong báo giới thiệu phương pháp nhằm mục tiêu giảm số lượng thuộc tính liệu ñầu vào trước áp dụng phương pháp phân lớp biết Về RF phương pháp tương ñối tốt Lời cảm ơn Cơng trình tài trợ phần từ ñề tài mang mã số: QG.08.01, ðại học Quốc gia Hà Nội 92 N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 References (Adaptive Computation and Machine Learning), MIT press, 2002 [1] R Kohavi, G.H John, Wrappers for Feature Subset Selection, Artificial Intelligence Vol 97 (1997) 273 [2] A.L Blum, P Langley, Selection of Relevant Features and Examples in Machine Learning, Artificial Intelligence Vol 97 (1997) 245 [3] Pang-Ning Tan, Michael Steinbach, and Vipin Kumar, Introduction to Data Mining, Addison Wesley; 1st edition, May 2, 2005 [4] R O Duda, P E Hart, D G Stork, Pattern Classification (2nd Edition), John Wiley & Sons Inc, 2001 [5] Luis Carlos Molina, Luis Belanche, Àngela Nebot: Feature Selection Algorithms, A Survey and Experimental Evaluation, Technical report, Universitat Politècnica de Catalunya Departament de Llenguatges i Sistemes Informátics, France, 2002 [6] H Liu, L Yu, Feature Selection for Data Mining, Technical report, Department of Computer Science and Engineering Arizona State University, America, 2002 [7] I Guyon, A Elisseeff, An introduction to variable and feature selection Journal of Machine Learning Research (2003) 1157 [8] I Guyon, J Weston, S Barnhill, V Vapnik, Gene Selection for Cancer Classification using Support Vector Machines, Machine Learning, Vol 46 (2002) 389 [9] B Scholkopf, A.J Smola, K Muller, Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation 10 (5), 1998 [10] B Scholkopf, A.J Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond [11] B.M Wise, N.B Gallagher, The process chemometrics approach to process monitoring and fault detection, Journal of Process Control (1996) [12] D Dong, T.J McAvoy, Nonlinear principal component analysis based on principal curves and neural networks, Computers and Chemical Engineering 20 (1996) 65 [13] M.A Kramer, Nonlinear principal component analysis using autoassociateive neural networks, A.I.Ch.E Journal 37 (1991) 233 [14] N Cristianini, J Shawe-Taylor, An introduction to Support Vector Machines and other kernelbased learning methods, Cambridge, (2000) [15] L Breiman, Random forest, Technical report, Statistics Department University of California Berkeley (2001) [16] U Alon, N Barkai, D Notterman, K Gish, S Ybarra, D Mack, A Levine.: Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays, Proceedings of National Academy of Sciences of the United States of American (1999) [17] Xue-wen Chen, Gene Selection for Cancer Classification Using Bootstrapped Genetic Algorithms and Support Vector Machines, IEEE Computer Society Bioinformatics Conference (2003) [18] H.N Nguyen, S.Y Ohn, J Park, K.S Park, Combined Kernel Function Approach in SVM for Diagnosis of Cancer, Proceedings of the First International Conference on Natural Computation (2005) N.H Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên Công nghệ 25 (2009) 84-93 93 Optimization of KPCA by GA for selecting relevant features to improving the effection of Random Forest classifier Nguyen Ha Nam Falcuty of Information Technology, College of Technology, Vietnam National University, Hanoi, 144 XuanThuy, Hanoi, Vietnam This paper proposed a combination of kernel functions Kernel Principle Component Analysis and its learning method which is help to not only transform the input space to a lower dimension feature space but also increase the classification performance We defined the combined kernel function as the weighted sum of a set of difference types of basis kernel function consisting of polynomial, gausian and neural kernels, which is trained by a novel learning method based on genetic algorithm The weights of basis kernel functions in the combined kernel are determined in learning phase and used as the parameters in the decision model in the classification phase The unified kernel and the learning method were applied to obtain the optimal decision model for the classification of a public data set for diagnosis of cancer diseases The experiment showed fast convergence in learning phase and resulted in the optimal decision model with the better performance than other kernels Therefore, the proposed kernel function has the greater flexibility in representing a problem space than other kernel functions Keywords: PCA, Kernel function, KPCA, Random Forest, Feature Selection ... 2.1 Giới thiệu trích chọn nội dung Về việc bóc tách thuộc tính đặc trưng bao gồm hai phần xây dựng thuộc tính lựa chọn thuộc tính đặc trưng Xây Hình Hướng tiếp cận filter (các thuộc tính chọn độc... bày cách tiếp cận dựa hàm nhân ñể chọn thuộc tính tốt để tăng khả phân lớp thuật toán Random Forest (RF) Trong phương pháp đề nghị, chúng tơi sử dụng giải thuật di truyền để tìm hàm nhân tối ưu. .. chất thuật toán RF xây dựng dựa tảng thuật tốn phân lớp CART sử dụng kỹ thuật có tên gọi bagging [4] Kỹ thuật cho phép lựa chọn nhóm nhỏ thuộc tính nút ñể phân chia cho mức phân lớp Bằng cách