Luận án tiến sĩ công nghệ thông tin nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU Hà Nội – 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tơi thực hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực chưa cơng bố cơng trình khác trước Tác giả Hà Văn Sang i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Hai Thầy tận tụy dạy, giúp đỡ từ định hướng nghiên cứu đến việc giải vấn đề khó khăn q trình nghiên cứu Không lĩnh vực nghiên cứu khoa học, Thầy cịn bảo cho tơi nhiều điều sống Đó học vơ q giá hữu ích cho thân tơi thời gian tới Tôi xin gửi lời cảm ơn tới tập thể Thầy, Cô giáo, nhà khoa học khoa CNTT truyền đạt cho kiến thức quý báu tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy, Cơ giáo Bộ mơn Tin học Tài kế tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, người đồng nghiệp tạo điều kiện giúp đỡ mặt thời gian xếp cơng việc q trình tơi làm nghiên cứu sinh Tôi gửi lời cảm ơn tất bạn bè, người giúp đỡ hỗ trợ tơi suốt q trình nghiên cứu Cuối cùng, tơi vơ biết ơn gia đình, bố mẹ tơi, anh chị em, đặc biệt vợ tôi, người động viên, tạo điều kiện thuận lợi để tơi hồn thành chương trình nghiên cứu sinh Hà Văn Sang Hà Nội, 1-12-2017 ii TĨM TẮT Rút gọn đặc trưng ngày sử dụng rộng rãi nhằm tăng hiệu giảm chi phí q trình phân tích liệu Mục tiêu việc rút gọn đặc trưng xác định giảm bớt đặc trưng liệu gốc dựa việc biến đổi không gian đặc trưng lựa chọn đặc trưng quan trọng, loại bỏ đặc trưng khơng liên quan, dư thừa nhằm giảm kích thước liệu, từ cải thiện hiệu quả, độ xác mơ hình phân tích liệu Các kỹ thuật rút gọn đặc trưng áp dụng rộng rãi nhiều ứng dụng khác như: cho điểm tín dụng, phân tích liệu ung thư, tìm kiếm thông tin, phân lớp văn Tuy nhiên, không tồn kỹ thuật rút gọn đặc trưng mà hiệu miền liệu Trong luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích cải tiến số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu kỹ thuật phân tích liệu có theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng Có nhiều cách tiếp cận rút gọn đặc trưng khác giới thiệu, nhiên cách tiếp cận tồn số hạn chế áp dụng với miền liệu khác Chúng đề xuất phương pháp lựa chọn đặc trưng có tên FRFE (Fast Recursive Feature Elimination) dựa hướng tiếp cận đóng gói (wrapper) với lõi thủ tục loại bỏ đặc trưng đệ quy Để tăng hiệu việc lựa chọn đặc trưng, đề xuất hàm đánh giá (ranking) đặc trưng thủ tục lựa chọn đặc trưng tương ứng Hơn nữa, đặc điểm phương pháp lựa chọn đặc trưng đóng gói chi phí tính tốn cao, áp dụng thư viện xử lý phân tán để cải thiện hiệu thuật toán đề xuất Kết thực nghiệm thuật toán FRFE (được viết ngơn ngữ R) hai liệu tín dụng Đức Úc cho thấy thuật toán đề xuất cải thiện thời gian chạy so với thuật toán sở đạt kết khả quan so với kỹ thuật có Theo hướng tiếp cận trích xuất đặc trưng, chúng tơi đề xuất phương pháp trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Đóng góp phương pháp đề xuất iii xây dựng hàm nhân dựa việc kết hợp có định hướng số hàm nhân [67] Kết thực nghiệm thuật toán C-KPCA bốn liệu ung thư cho thấy thuật toán đề xuất cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Từ khóa: khai phá liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA iv MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VII DANH MỤC HÌNH ẢNH IX DANH MỤC BẢNG BIỂU XI MỞ ĐẦU Tính cấp thiết luận án Mục tiêu luận án Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Đóng góp luận án Bố cục luận án CHƯƠNG TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG 1.1 Rút gọn đặc trưng 1.2 Lựa chọn đặc trưng 1.3 1.4 1.2.1 Mục tiêu lựa chọn đặc trưng 1.2.2 Phân loại kỹ thuật lựa chọn đặc trưng 1.2.3 Các thành phần lựa chọn đặc trưng 1.2.4 Thủ tục lựa chọn đặc trưng 12 1.2.5 Các mơ hình lựa chọn đặc trưng 13 Trích xuất đặc trưng 16 1.3.1 Mục tiêu trích xuất đặc trưng 17 1.3.2 Phân loại kỹ thuật trích xuất đặc trưng 17 Một số nghiên cứu rút gọn đặc trưng 19 1.4.1 Hướng nghiên cứu lựa chọn đặc trưng 19 1.4.2 Hướng nghiên cứu trích xuất đặc trưng 27 1.4.3 Phân tích đánh giá 30 v 1.5 Kết luận chương 31 CHƯƠNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO ĐIỂM TÍN DỤNG 32 2.1 Bài toán cho điểm tín dụng 32 2.2 Các nghiên cứu liên quan 35 2.3 Phương pháp đề xuất 37 2.4 2.5 2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng 37 2.3.2 Đề xuất hàm đánh giá chiến lược tìm kiếm đặc trưng phù hợp 38 2.3.3 Cải tiến tốc độ xử lý thư viện H20 45 Thực nghiệm kết 48 2.4.1 Thiết lập thực nghiệm 48 2.4.2 Dữ liệu thực nghiệm 49 2.4.3 Đánh giá hiệu phân lớp 49 2.4.4 Kết thực nghiệm 53 Kết luận chương 66 CHƯƠNG KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƯ 67 3.1 Bài toán phân tích liệu ung thư 67 3.2 Các nghiên cứu liên quan 69 3.3 Phương pháp giải 71 3.4 3.5 3.3.1 Sơ đồ hệ thống trích xuất đặc trưng 71 3.3.2 Hàm nhân tùy chọn cho PCA 73 3.3.3 Xây dựng hàm nhân tùy chọn 77 Thực nghiệm kết 82 3.4.1 Thiết lập thực nghiệm 82 3.4.2 Dữ liệu thực nghiệm 82 3.4.3 Kết thực nghiệm 84 Kết luận chương 96 KẾT LUẬN 97 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99 TÀI LIỆU THAM KHẢO 100 vi DANH MỤC TỪ VIẾT TẮT Từ viết tắt ACO AUC BG CFS DL DT FCFS FRFE GA ICA IG KDD k-NN LDA LR MLP mRMR OLTP PCA PSO RF RG SA SBE SBG SBS SFG Từ gốc Giải nghĩa Ant Colony Optimization Area under curve Bidirectional Generation Correlation-based Feature Selection Deep Learning Decision Tree Fast Correlation-based Feature Selection Fast Recursive Feature Elimination Genetic Algorithm Independent component analysis Information Gain Knowledge Discovery in Databases k-Nearest Neighbors Linear discriminant analysis Logistic Regression Multi-layer Perceptron minimum Redundancy Maximum Relevance Online transaction processing Principal Component Analysis Particle Swarm Optimization Random Forest Random Generation Simulated Annealing Sequential Backward Elimination Sequential Backward Generation Sequential Sackward Search Sequential Forward Generation Tối ưu đàn kiến Diện tích đường cong Sinh tập từ hai hướng Lựa chọn đặc trưng dựa tương quan Học sâu Cây định Lựa chọn đặc trưng dựa tương quan nhanh Loại bỏ đặc trưng đệ quy nhanh Thuật toán di truyền Phân tích thành phần độc lập Độ lợi thơng tin Khám phá tri thức vii k-láng giềng gần Phân tích biệt thức tuyến tính Hồi qui logistic Perceptron nhiều tầng Phù hợp nhiều nhất-dư thừa Xử lý giao dịch trực tuyến Phân tích thành phần Tối ưu hóa bầy đàn Rừng ngẫu nhiên Sinh tập ngẫu nhiên Thuật tốn mơ tơi luyện Loại bỏ lùi Sinh tập lùi Tìm kiếm lùi Sinh tập tiến SFS SVD SVM Sequential forward search Singular Value Decomposition Support Vector Machine viii Tìm kiếm tiến Phân tích giá trị riêng Máy véc tơ hỗ trợ Tương tự liệu trước, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết sau: Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư tiền liệt tuyến Số đặc trưng 10 15 20 50 100 200 500 K1(Rbf) 0.8755 0.9123 0.9412 0.9451 0.9426 0.9755 0.9593 1.0000 1.0000 K2(Poly) 0.8745 0.9299 0.9515 0.9623 0.9804 0.9902 1.0000 0.9377 0.9078 Hàm nhân K3(Sigmoid) 0.8745 0.9275 0.9510 0.9637 0.9745 0.9902 1.0000 0.9686 0.9245 Combined 0.8289 0.8828 0.9520 0.9641 0.9711 0.9910 1.0000 1.0000 0.9848 Hình 3.7 So sánh độ xác phân lớp với liệu ung thư tuyến tiền liệt 91 Với ung thư tuyến tiền liệt, việc sử dụng đặc trưng trích xuất CKPCA cho độ xác phân lớp ngang cao số trường hợp so với việc sử dụng hàm nhân Bảng 3.15 So sánh kết phân lớp dự đoán liệu ung thư tuyến tiền liệt Độ đo AUC Accuracy Precision Recall Tất đặc trưng RF SVM 92,8 90,2 90,2 90,2 90,3 90,3 90,2 90,2 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 93,8 91,2 91 91,3 83,3 91,2 86,3 91,2 83,5 91,3 86,3 91,2 83,3 91,2 86,3 91,2 Tiến hành so sánh hiệu phân lớp với bốn liệu ung thư cho kết Hình 3.8 92 Hình 3.8 So sánh hiệu phân lớp bốn liệu ung thư 93 Trong thực nghiệm thực bốn liệu ung thư nói trên, phương pháp C-KPCA với hàm nhân đề xuất thường xun cho độ xác dự đốn cao so với phương pháp KPCA truyền thống sử dụng hàm nhân sở Có thể thấy phương pháp C-KPCA cho kết ổn định Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với phương pháp lựa chọn đặc trưng khác Phương pháp PLSDR [52] GEM [38] IWSS3-MB-NB [92] DRF0-CFS [13] BDE-SVMRankf [7] C-KPCA Colon Tumor Số Độ đặc trưng xác 20 83,5 91,2 Leukemia Số Độ đặc trưng xác 20 97,1 91,5 Lymphoma Số Độ đặc trưng xác 20 93,0 93,3 Prostate Số Độ đặc trưng xác 20 91,7 - 5,2 86 6,4 97,1 - - 5,6 91,1 10 15 90,0 75 90,3 13 20 91,18 82,4 72,2 11 93,33 92,9 96,1 113 15 85,29 97,1 92,2 Bảng 3.16 thể độ xác phân lớp phương pháp đề xuất phương pháp lựa chọn đặc trưng phổ biến Với liệu ung thư ruột kết, việc phân lớp sử dụng 15 đặc trưng trích xuất phương pháp C-KPCA chúng tơi cho độ xác cao bốn phương pháp khác là: PLSDR [52], IWSS3MB-NB [92], DRF0-CFS [13] BDE-SVMRankf [7] Trong đó, với liệu bạch cầu kết khơng cao phương pháp khác liệu không phù hợp với phương pháp trích xuất đặc trưng So sánh liệu máu trắng ung thư tiền liệt tuyến, cho thấy với 15 đặc trưng trích xuất độ xác phương pháp đề xuất ln cao phương pháp khác Chúng so sánh kết phương pháp C-KPCA với kết mô hình trích chọn đặc trưng dựa học thưa Lasso, SRC-LatLRR [28], HLR [42] Kết thể Bảng 3.17 Bảng 3.18 94 Bảng 3.17 So sánh C-KPCA với phương pháp khác hai liệu Colon Prostate Phương pháp Colon Tumor Prostate SVM 85,48 91,18 LASSO 85.48 91.91 SRC 85.48 94,85 SRC-LatLRR 90.32 94,12 C-KPCA 90,3 92,2 Kết Bảng 3.17 cho thấy với liệu Colon tumor, phương pháp C-KPCA cho độ xác tương đương phương pháp SRC-LatLRR cao ba phương pháp SVM, LASSO SRC Còn với liệu Prostate, phương pháp CKPCA cho kết cao hai phương pháp SVM LASSO Bảng 3.18 So sánh C-KPCA với phương pháp khác hai liệu Lymphoma Prostate Phương pháp Lymphoma Prostate LASSO 91,11 92,40 L1/2 91,2 92.18 SCAD-L2 92,99 91,33 HLR 94,23 93,68 C-KPCA 96,1 92,2 Phương pháp C-KPCA cho kết cao phương pháp khác so sánh với liệu Lymphoma Từ kết thấy phương pháp C-KPCA thực trích xuất đặc trưng cho kết phân tốt với nhiều liệu ung thư 95 3.5 Kết luận chương Trong chương này, tập trung vào việc tìm hiểu cách tiếp cận hàm nhân đề xuất phương pháp C-KPCA sử dụng hàm nhân kết hợp từ hàm nhân khác Hiệu độ tin cậy hàm nhân xác định thông qua thực nghiệm Cụ thể, phương pháp đề xuất thực nghiệm bốn liệu ung thư dùng phổ biến So sánh kết phân lớp sử dụng hàm nhân tùy chọn ba hàm nhân sở khác cho thấy hàm nhân thường xuyên cho độ xác cao Kết cho thấy độ xác phân lớp sử dụng đặc trưng trích xuất C-KPCA cải thiện so với phương pháp KPCA sử dụng hàm nhân số phương pháp lựa chọn đặc trưng đề xuất trước 96 KẾT LUẬN Với miền ứng dụng rủi ro tín dụng, số lượng đặc trưng khơng nhiều số lượng ghi tương đối lớn so với số đặc trưng Nhiệm vụ phải loại bỏ đặc trưng không liên quan, dư thừa tìm đặc trưng tốt cho trình phân lớp Chúng sử dụng phương pháp lựa chọn đặc trưng FRFE phân lớp rừng ngẫu dựa chế phân tán song song để xây dựng mơ hình đánh giá tín dụng Các kết thực nghiệm cho thấy độ xác phân lớp sử dụng đặc trưng lựa chọn phương pháp đề xuất cải thiện tương đối khả quan Tiêu chí xếp hạng đặc trưng đề xuất nhằm giúp cải tiến độ xác làm giảm thời gian thực kỹ thuật phân lớp Ngoài ra, thời gian chạy giảm xuống đáng kể áp dụng thủ tục xử lý song song Với việc phân tích liệu ung thư có số lượng đặc trưng lớn so với số ghi, chúng tơi đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất chúng tơi xây dựng hàm nhân dựa việc kết hợp số hàm nhân Chúng tiến hành thực nghiệm 04 liệu ung thư so sánh kết sử dụng hàm nhân đề xuất với hàm nhân so sánh với số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phương pháp khác số trường hợp Hướng nghiên cứu Các kết nghiên cứu lựa chọn đặc trưng tập trung xây dựng hàm đánh giá chủ yếu dựa độ xác phân lớp Trong số nghiên cứu gần cho thấy việc sử độ đo AUC tốt so với độ xác phân tích liệu đa lớp không cân bằng, hàm đánh giá sử dụng độ đo nhiên mức độ ảnh hưởng chưa đánh giá cách độc lập Do đó, nghiên cứu tiếp theo, dự kiến tiến hành khảo sát kỹ ảnh hưởng độ đo AUC nhằm tăng hiệu hàm đánh giá 97 Các kết nghiên cứu trích xuất đặc trưng dừng lại việc kết hợp thủ cơng hàm nhân để có hàm nhân cho KPCA phân tích liệu ung thư Chúng khảo sát nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máy nhằm tự động xây dựng hàm nhân dựa việc kết hợp hàm nhân phù hợp với loại liệu cần phân tích 98 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1] Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan (2016) “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016 (Scopus4) [SANGHV2] Ha Van Sang, Nguyen Ha Nam, & Bao, H N T (2017) A hybrid feature selection method for credit scoring EAI Endorsed Trans ContextAware Syst & Appl., 4(11), e2 (DBLP5) Hội thảo quốc tế: [SANGHV3] Van-Sang Ha and Ha-Nam Nguyen (2016) “Credit scoring with a feature selection approach based deep learning”, in MATEC Web of Conferences, vol 54, p 05004.(Scopus) [SANGHV4] Van-Sang Ha and Ha-Nam Nguyen (2016) “C-KPCA: Custom Kernel PCA for Cancer Classification”, in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp 459–467(Scopus; DBLP) [SANGHV5] Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”, in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp 133–142.(Scopus; DBLP) https://www.scopus.com/authid/detail.uri?authorId=57190294285 http://dblp.uni-trier.de/pers/hd/h/Ha:Van=Sang 99 TÀI LIỆU THAM KHẢO Tiếng Việt [1] • Định, V V (2016) Rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận tập thô dung sai Luận án tiến sĩ, Học viện Khoa học Cơng nghệ [2] • Dương, H Đ (2015) Một số phương pháp trích chọn đặc trưng phát đám cháy qua liệu ảnh Luận án tiến sĩ, Học viện Kỹ thuật Quân [3] • Hương, N T L (2016) Rút gọn thuộc tính bảng định động theo tiếp cận tập thô Luận án tiến sĩ, Học viện Khoa học Công nghệ Tiếng Anh [4] Abdou, H., & Pointon, J (2011) Credit scoring, statistical techniques and evaluation criteria : a review of the literature Intelligent Systems in Accounting, Finance and Management, 18(2–3), 59–88 [5] Agarwal, B., & Namita, M (2016) Prominent Feature Extraction for Sentiment Analysis Springer International [6] Alter, O., Brown, P O., & Botstein, D (2000) Singular value decomposition for genome-wide expression data processing and modeling Proceedings of the National Academy of Sciences of the United States of America, 97(18), 10101–6 [7] Apolloni, J., Leguizamón, G., & Alba, E (2016) Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments Applied Soft Computing Journal, 38, 922–932 [8] Aziz, R., Verma, C K., & Srivastava, N (2017) Dimension reduction methods for microarray data: a review AIMS Bioengineering, 4(2), 179–197 [9] Bae, C., Yeh, W C., Chung, Y Y., & Liu, S L (2010) Feature selection with Intelligent Dynamic Swarm and rough set Expert Systems with Applications, 37(10), 7026–7032 [10] Bair, E., Hastie, T., Paul, D., & Tibshirani, R (2006) Prediction by supervised principal components Journal of the American Statistical Association, 101(473), 119– 137 [11] Bellotti, T., & Crook, J (2009) Support vector machines for credit scoring and discovery of significant features Expert Systems with Applications, 36(2 PART 2), 3302–3308 [12] Benabdeslem, K., & Hindawi, M (2014) Efficient semi-supervised feature selection: Constraint, relevance, and redundancy IEEE Transactions on Knowledge and Data Engineering, 26(5), 1131–1143 [13] Bolón-Canedo, V., Sánchez-Maro, N., & Alonso-Betanzos, a (2015) Distributed feature selection: An application to microarray data classification Applied Soft Computing, 30, 136–150 [14] Borg, I., & Groenen, P (2005) Modern Multidimensional Scaling: Theory and Applications In Chapter 10 (pp 100–131) [15] Breiman, L (2001) Random Forests Machine Learning, 45(1), 5–32 [16] Cai, X., Nie, F., & Huang, H (2007) Exact Top- k Feature Selection via l2,0-Norm Constraint Ijcai, 1240–1246 [17] Cangelosi, R., & Goriely, A (2007) Component retention in principal component analysis with application to cDNA microarray data Biology Direct, [18] Chen, W C., Tseng, S S., & Hong, T P (2008) An efficient bit-based feature selection method Expert Systems with Applications, 34(4), 2858–2869 [19] Chen, X., Wang, L., Smith, J D., & Zhang, B (2008) Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes Bioinformatics, 24(21), 2474–2481 [20] Cortes, C., & Vapnik, V (1995) Support-vector networks Machine Learning, 20(3), 273–297 [21] Cristianini, N., & Shawe-Taylor, J (2000) An Introduction to Support Vector Machines and other kernel based learning methods Ai Magazine [22] Dawson, K., Rodriguez, R L., & Malyj, W (2005) Samle phenotype clusters in highdensity oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm BMC Bioinformatics, [23] Diao, R., & Parthaláin, N S Mac (2014) Feature Selection with Harmony Search and its Applications PhD Thesis, Aberystwyth University [24] Du, L., & Shen, Y (2015) Unsupervised Feature Selection with Adaptive Structure Learning International Conference on Knowledge Discovery and Data Mining, 209– 218 [25] Ehler, M., Rajapakse, V N., Zeeberg, B R., Brooks, B P., Brown, J., Czaja, W., & Bonner, R F (2011) Nonlinear gene cluster analysis with labeling for microarray gene expression data in organ development In BMC Proceedings (Vol 5) [26] Eyben, F (2016) Real-time Speech and Music Classification by Large Audio Feature Space Extraction Springer International [27] Fawcett, T (2006) An introduction to ROC analysis Pattern Recognition Letters, 27(8), 861–874 [28] Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q (2014) Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation BioMed Research International, 2014, 1–7 [29] Ghaemi, M., & Feizi-Derakhshi, M.-R (2016) Feature selection using Forest Optimization Algorithm Pattern Recognition, 60, 121–129 [30] Ghamisi, P., & Benediktsson, J A (2015) Feature selection based on hybridization of genetic algorithm and particle swarm optimization IEEE Geoscience and Remote Sensing Letters, 12(2), 309–313 [31] Ghashami, M., & Perry, D J (2016) Streaming Kernel Principal Component Analysis, 41, 1365–1374 [32] Guyon, I., & Elisseeff, A (2003) An introduction to variable and feature selection Journal of Machine Learning Research, 3, 1157–1182 [33] Guyon, I., & Elisseeff, A (2006) An Introduction to Feature Extraction Feature Extraction - Foundations and Applications, 207(10), 740 [34] Hall, M a (1999) Correlation-based Feature Selection for Machine Learning Methodology PhD Thesis, University of Waikato [35] Hall, M., & Smith, L a (1999) Feature Selection for Machine Learning : Comparing a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature International FLAIRS Conference, [36] Hara, S., & Maehara, T (2017) Enumerate Lasso Solutions for Feature Selection Aaai, 1985–1991 [37] Harikrishna, S., Farquad, M A H., & Shabana (2012) Credit Scoring Using Support Vector Machine: A Comparative Analysis Advanced Materials Research, 433–440, 6527–6533 101 [38] Hernandez Hernandez, J., Duval, B., & Hao, J.-K (2007) A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data In Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics (Vol 4447, pp 90–101) [39] Hochstadt, H (1989) Integral equations New York: A Wiley-Interscience Publication [40] Hofmann, T., Schölkopf, B., & Smola, A J (2008) Kernel methods in machine learning The Annals of Statistics, 36(3), 1171–1220 [41] Hua, J., Tembe, W D., & Dougherty, E R (2009) Performance of feature-selection methods in the classification of high-dimension data Pattern Recognition, 42(3), 409– 424 [42] Huang, H H., Liu, X Y., & Liang, Y (2016) Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2 +2regularization PLoS ONE, 11(5), 1–15 [43] Jian, L., Li, J., Shu, K., & Liu, H (2016) Multi-label informed feature selection In IJCAI International Joint Conference on Artificial Intelligence (Vol 2016–Janua, pp 1627–1633) [44] Jiao, N., Miao, D., & Zhou, J (2010) Two novel feature selection methods based on decomposition and composition Expert Systems with Applications, 37(12), 7419–7426 [45] Jonnalagadda, S., & Srinivasan, R (2008) Principal components analysis based methodology to identify differentially expressed genes in time-course microarray data BMC Bioinformatics, [46] Jung, M., & Zscheischler, J (2013) A guided hybrid genetic algorithm for feature selection with expensive cost functions In Procedia Computer Science (Vol 18, pp 2337–2346) [47] Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E (1997) Applications of neural blind separation to signal and image processing In 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol 1, pp 131–134) [48] Kennedy, J., & Eberhart, R (1995) Particle swarm optimization Neural Networks, 1995 Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4 [49] Koutanaei, F N., Sajedi, H., & Khanbabaei, M (2015) A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring Journal of Retailing and Consumer Services, 27, 11–23 [50] Lee, C.-P., & Leu, Y (2011) A novel hybrid feature selection method for microarray data analysis Applied Soft Computing, 11(4), 208–213 [51] Lee, C., & Lee, G G (2006) Information gain and divergence-based feature selection for machine learning-based text categorization Information Processing and Management [52] Li, G Z., Zeng, X Q., Yang, J Y., & Yang, M Q (2007) Partial Least Squares Based Dimension Reduction with Gene Selection for Tumor Classification 2007 IEEE 7th International Symposium on BioInformatics and BioEngineering [53] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R P., Tang, J., & Liu, H (2016) Feature Selection: A Data Perspective, 1–73 [54] Li, Y., Chen, C Y., & Wasserman, W W (2015) Deep feature selection: Theory and application to identify enhancers and promoters In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol 9029, pp 205–217) 102 [55] Liang, D., Tsai, C.-F., & Wu, H.-T (2015) The effect of feature selection on financial distress prediction Knowledge-Based Systems, 73, 289–297 [56] Liang Sun, Shuiwang Ji, J Y (2013) Multi-Label Dimensionality Reduction Chapman and Hall/CRC [57] Lin, W Y., Hu, Y H., & Tsai, C F (2012) Machine learning in financial crisis prediction: A survey IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews [58] Ling, Y., Cao, Q Y., & Zhang, H (2011) Application of the PSO-SVM model for credit scoring Proceedings - 2011 7th International Conference on Computational Intelligence and Security, CIS 2011, 47–51 [59] Liu, H., & Motoda, H (1998) Feature Selection for Knowledge Discovery and Data Mining Springer US [60] Liu, X., Tosun, D., Weiner, M W., & Schuff, N (2013) Locally linear embedding (LLE) for MRI based Alzheimer’s disease classification NeuroImage, 83, 148–157 [61] Liu, Y., & Schumann, M (2005) Data mining feature selection for credit scoring models Journal of the Operational Research Society, 56(9), 1099–1108 [62] M., K., A., S., & S., O (2002) Analysis of DNA microarray data using self-organizing map and kernel based clustering {ICONIP}’02 Proceedings of the 9th International Conference on Neural Information Processing Computational Intelligence for the {E}Age, 2, 755–759 [63] Maldonado, S., & Weber, R (2009) A wrapper method for feature selection using Support Vector Machines Information Sciences, 179(13), 2208–2217 [64] Meyer, P E., Schretter, C., & Bontempi, G (2008) Information-Theoretic Feature Selection in Microarray Data Using Variable Complementarity IEEE Journal of Selected Topics in Signal Processing, 2(3), 261–274 [65] Mylonakis, J., & Diacogiannis, G (2010) Evaluating the likelihood of using linear discriminant analysis as a commercial bank card owners credit scoring model International Business Research, 3(2), 9–21 [66] Nakariyakul, S., & Casasent, D P (2009) An improvement on floating search algorithms for feature subset selection Pattern Recognition, 42(9), 1932–1940 [67] Nello Cristianini, J S.-T (2000) An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge University Press [68] Nixon, M., & Aguado, A (2012) Feature Extraction and Image Processing for Computer Vision Feature Extraction & Image Processing for Computer Vision, Second Edition [69] Nziga, J (2015) Incremental Sparse-PCA Feature Extraction For Data Streams PhD Thesis, Nova Southeastern University [70] Oreski, S., & Oreski, G (2014) Genetic algorithm-based heuristic for feature selection in credit risk assessment Expert Systems with Applications, 41(4), 2052–2064 [71] Orsenigo, C., & Vercellis, C (2012) An effective double-bounded tree-connected Isomap algorithm for microarray data classification Pattern Recognition Letters, 33(1), 9–16 [72] Park, C H., & Lee, M (2008) On applying linear discriminant analysis for multilabeled problems Pattern Recognition Letters, 29(7), 878–887 [73] Pawlak, Z (1996) Rough sets: Theoretical aspects of reasoning about data Control Engineering Practice [74] Peng, H., & Fan, Y (2016) Direct Sparsity Optimization Based Feature Selection for 103 Multi-Class Classification Ijcai, 1918–1924 [75] Peng, H., & Fan, Y (2017) A General Framework for Sparsity Regularized Feature Selection via Iteratively Reweighted Least Square Minimization Proceedings of the 31th Conference on Artificial Intelligence (AAAI 2017), 2471–2477 [76] Peng, H., Long, F., & Ding, C (2005) Feature selection based on mutual information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy IEEE Trans on Pattern Analysis and Machine Intelligence, 27(8), 1226–1238 [77] Peng, Y., Wu, Z., & Jiang, J (2010) A novel feature selection approach for biomedical data classification Journal of Biomedical Informatics, 43(1), 15–23 [78] Piramuthu, S (2006) On preprocessing data for financial credit risk evaluation Expert Systems with Applications [79] Roy, D., Murty, K S R., & Mohan, C K (2015) Feature selection using Deep Neural Networks In 2015 International Joint Conference on Neural Networks (IJCNN) (pp 1–6) [80] Schölkopf, B., Smola, A., & Müller, K.-R (1998) Nonlinear Component Analysis as a Kernel Eigenvalue Problem Neural Computation, 10(5), 1299–1319 [81] Soliz, P., Russell, S R., Abramoff, M D., Murillo, S., Pattichis, M., & Davis, H (2008) Independent Component Analysis for Vision-inspired Classification of Retinal Images with Age-related Macular Degeneration 2008 IEEE Southwest Symposium on Image Analysis and Interpretation, 65–68 [82] Soufan, O., Kleftogiannis, D., Kalnis, P., & Bajic, V B (2015) DWFS: A wrapper feature selection tool based on a parallel Genetic Algorithm PLoS ONE, 10(2) [83] Stańczyk, U., & Jain, L C (2015) Feature Selection for Data and Pattern Recognition Studies in Computational Intelligence (Vol 584) [84] Sun, Y (2007) Iterative RELIEF for feature weighting: Algorithms, theories, and applications IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6), 1035–1051 [85] Swiniarski, R W., & Skowron, A (2003) Rough set methods in feature selection and recognition Pattern Recognition Letters, 24(6), 833–849 [86] Tang, J., Alelyani, S., & Liu, H (2014) Feature Selection for Classification: A Review Data Classification: Algorithms and Applications, 37–64 [87] Tenenbaum, J B., de Silva, V., & Langford, J C (2000) A global geometric framework for nonlinear dimensionality reduction Science (New York, N.Y.), 290(5500), 2319–23 [88] Thomas, L C (2009) Consumer credit models: Pricing, profit and portfolios Consumer Credit Models: Pricing, Profit and Portfolios [89] Unler, A., Murat, A., & Chinnam, R B (2011) Mr2PSO: A maximum relevance minimum redundancy feature selection method based on swarm intelligence for support vector machine classification Information Sciences, 181(20), 4625–4641 [90] Verónica Bolón-Canedo, Noelia Sánchez-Maro, A A.-B (2015) Feature Selection for High-Dimensional Data Springer International [91] Villacampa, O (2015) Feature Selection and Classification Methods for Decision Making: A Comparative Analysis Nova Southeastern University PhD Thesis, Nova Southeastern University [92] Wang, A., An, N., Chen, G., Yang, J., Li, L., & Alterovitz, G (2014) Incremental wrapper based gene selection with Markov blanket 2014 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) 104 [93] Wang, H., Xu, Q., & Zhou, L (2015) Large unbalanced credit scoring using lassologistic regression ensemble PLoS ONE, 10(2) [94] Wang, J., Guo, K., & Wang, S (2010) Rough set and Tabu search based feature selection for credit scoring Procedia Computer Science, 1(1), 2425–2432 [95] Wang, J., Hedar, A.-R., Wang, S., & Ma, J (2012) Rough set and scatter search metaheuristic based feature selection for credit scoring Expert Systems with Applications, 39(6), 6123–6128 [96] Wei, X., & Yu, P S (2016) Unsupervised Feature Selection by Preserving Stochastic Neighbors, 51(6), 995–1003 [97] Xie, J., & Wang, C (2011) Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases Expert Systems with Applications, 38(5), 5809–5815 [98] Xu, Z., Huang, G., Weinberger, K Q., & Zheng, A X (2014) Gradient boosted feature selection Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’14, 522–531 [99] Yang, J., Frangi, A F., Yang, J Y., Zhang, D., & Jin, Z (2005) KPCA plus LDA: A complete kernel fisher discriminant framework for feature extraction and recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(2), 230–244 [100] Yao, P Y P (2009) Feature Selection Based on SVM for Credit Scoring 2009 International Conference on Computational Intelligence and Natural Computing, 2, 44–47 [101] Yusta, S C (2009) Different metaheuristic strategies to solve the feature selection problem Pattern Recognition Letters, 30(5), 525–534 [102] Zainudin, M., Sulaiman, M., Mustapha, N., Perumal, T., Nazri, A., Mohamed, R., & Manaf, S (2017) Feature Selection Optimization using Hybrid Relief-f with Selfadaptive Differential Evolution International Journal of Intelligent Engineering and Systems, 10(3), 21–29 [103] Zhang, M L., Peña, J M., & Robles, V (2009) Feature selection for multi-label naive Bayes classification Information Sciences, 179(19), 3218–3229 [104] Zhao, L., Hu, Q., & Wang, W (2015) Heterogeneous Feature Selection with MultiModal Deep Neural Networks and Sparse Group LASSO IEEE Transactions on Multimedia, 17(11), 1936–1948 [105] Zhou, S (2003) Probabilistic analysis of kernel principal components: mixture modeling and classification IEEE Transactions on Pattern Analysis, (i), 1–26 105

Định dạng
Số trang	119
Dung lượng	3,16 MB