Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NộI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU Hà Nội – 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tơi thực dƣới hƣớng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực chƣa đƣợc cơng bố cơng trình khác trƣớc Tác giả Hà Văn Sang i LỜI CẢM ƠN Luận án đƣợc thực Bộ môn Hệ thống Thông tin-Khoa CNTT, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội, dƣới hƣớng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Trƣớc tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Hai Thầy tận tụy dạy, giúp đỡ từ định hƣớng nghiên cứu đến việc giải vấn đề khó khăn q trình nghiên cứu Không lĩnh vực nghiên cứu khoa học, Thầy cịn bảo cho tơi nhiều điều sống Đó học vơ q giá hữu ích cho thân tơi thời gian tới Tôi xin gửi lời cảm ơn tới tập thể Thầy, Cô giáo, nhà khoa học khoa CNTT truyền đạt cho kiến thức quý báu tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy, Cơ giáo Bộ mơn Tin học Tài kế tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, ngƣời đồng nghiệp tạo điều kiện giúp đỡ mặt thời gian nhƣ xếp cơng việc q trình tơi làm nghiên cứu sinh Tôi gửi lời cảm ơn tất bạn bè, ngƣời giúp đỡ hỗ trợ tơi suốt q trình nghiên cứu Cuối cùng, tơi vơ biết ơn gia đình, bố mẹ tơi, anh chị em, đặc biệt vợ tôi, ngƣời động viên, tạo điều kiện thuận lợi để tơi hồn thành chƣơng trình nghiên cứu sinh Hà Văn Sang Hà Nội, 1-12-2017 ii TĨM TẮT Rút gọn đặc trƣng ngày đƣợc sử dụng rộng rãi nhằm tăng hiệu nhƣ giảm chi phí q trình phân tích liệu Mục tiêu việc rút gọn đặc trƣng xác định giảm bớt đặc trƣng liệu gốc dựa việc biến đổi không gian đặc trƣng lựa chọn đặc trƣng quan trọng, loại bỏ đặc trƣng khơng liên quan, dƣ thừa nhằm giảm kích thƣớc liệu, từ cải thiện hiệu quả, độ xác mơ hình phân tích liệu Các kỹ thuật rút gọn đặc trƣng đƣợc áp dụng rộng rãi nhiều ứng dụng khác nhƣ: cho điểm tín dụng, phân tích liệu ung thƣ, tìm kiếm thông tin, phân lớp văn Tuy nhiên, không tồn kỹ thuật rút gọn đặc trƣng mà hiệu miền liệu Trong luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích cải tiến số kỹ thuật rút gọn đặc trƣng nhằm tăng hiệu kỹ thuật phân tích liệu có theo hai hƣớng tiếp cận lựa chọn đặc trƣng trích xuất đặc trƣng Có nhiều cách tiếp cận rút gọn đặc trƣng khác đƣợc giới thiệu, nhiên cách tiếp cận tồn số hạn chế áp dụng với miền liệu khác Chúng đề xuất phƣơng pháp lựa chọn đặc trƣng có tên FRFE (Fast Recursive Feature Elimination) dựa hƣớng tiếp cận đóng gói (wrapper) với lõi thủ tục loại bỏ đặc trƣng đệ quy Để tăng hiệu việc lựa chọn đặc trƣng, đề xuất hàm đánh giá (ranking) đặc trƣng thủ tục lựa chọn đặc trƣng tƣơng ứng Hơn nữa, đặc điểm phƣơng pháp lựa chọn đặc trƣng đóng gói chi phí tính tốn cao, áp dụng thƣ viện xử lý phân tán để cải thiện hiệu thuật toán đề xuất Kết thực nghiệm thuật toán FRFE (đƣợc viết bằngngơn ngữ R) hai liệu tín dụng Đức Úc cho thấy thuật toán đề xuất cải thiện đƣợc thời gian chạy so với thuật toán sở đạt kết khả quan so với kỹ thuật có Theo hƣớng tiếp cận trích xuất đặc trƣng, đề xuất phƣơng pháp trích xuất đặc trƣng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lƣợng đặc trƣng dựa kỹ thuật hàm nhân PCA Đóng góp phƣơng iii pháp đề xuất xây dựng hàm nhân dựa việc kết hợp có định hƣớng số hàm nhân bản[67] Kết thực nghiệm thuật toán C-KPCA bốn liệu ung thƣ cho thấy thuật toán đề xuất cho kết ổn định tốt so với phƣơng pháp khác nhiều trƣờng hợp Từ khóa: khai phá liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng,rút gọn đặc iv trưng, KPCA MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN .II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VIII DANH MỤC HÌNH ẢNH X DANH MỤC BẢNG BIỂU .XII MỞ ĐẦU .1 Tính cấp thiết luận án Mục tiêu luận án Đối tƣợng phạm vi nghiên cứu .4 Phƣơng pháp nghiên cứu Đóng góp luận án Bố cục luận án .5 CHƢƠNG TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƢNG 1.1 Rút gọn đặc trƣng 1.2 Lựa chọn đặc trƣng 1.3 1.4 1.2.1 Mục tiêu lựa chọn đặc trƣng 1.2.2 Phân loại kỹ thuật lựa chọn đặc trƣng .8 1.2.3 Các thành phần lựa chọn đặc trƣng .9 1.2.4 Thủ tục lựa chọn đặc trƣng 12 1.2.5 Các mơ hình lựa chọn đặc trƣng 13 Trích xuất đặc trƣng .16 1.3.1 Mục tiêu trích xuất đặc trƣng 17 1.3.2 Phân loại kỹ thuật trích xuất đặc trƣng 17 Một số nghiên cứu rút gọn đặc trƣng 19 1.4.1 Hƣớng nghiên cứu lựa chọn đặc trƣng 19 1.4.2 Hƣớng nghiên cứu trích xuất đặc trƣng 28 1.4.3 Phân tích đánh giá 30 v 1.5 Kết luận chƣơng .31 CHƢƠNG KỸ THUẬT LỰA CHỌN ĐẶC TRƢNG TRONG BÀI TOÁN CHO ĐIỂM TÍN DỤNG 2.1 Bài toán cho điểm tín dụng 2.2 Các nghiên cứu liên quan 2.3 Phƣơng pháp đề xuất 2.3.1Sơ đồ hệ thống lựa c 2.3.2Đề xuất hàm đánh g 2.3.3Cải tiến tốc độ xử lý 2.4 Thực nghiệm kết 2.4.1Thiết lập thực nghiệ 2.4.2Dữ liệu thực nghiệm 2.4.3Đánh giá hiệu 2.4.4Kết thực nghiệm 2.5 Kết luận chƣơng CHƢƠNG 3.KỸ THUẬT TRÍCH XUẤT ĐẶC TRƢNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƢ 3.1 Bài tốn phân tích liệu ung thƣ 3.2 Các nghiên cứu liên quan 3.3 Phƣơng pháp giải 3.3.1Sơ đồ hệ thống trích 3.3.2Hàm nhân tùy chọn 3.3.3Xây dựng hàm nhân 3.4 Thực nghiệm kết 3.4.1Thiết lập thực nghiệ 3.4.2Dữ liệu thực nghiệm 3.4.3Kết thực nghiệm 3.5 Kết luận chƣơng KẾT LUẬN DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN TÀI LIỆU THAM KHẢO vi vii DANH MỤC TỪ VIẾT TẮT Từ viết tắt ACO AUC BG CFS DL DT FCFS FRFE GA ICA IG KDD k-NN LDA LR MLP mRMR OLTP PCA PSO RF RG SA SBE SBG SBS SFG SFS viii 92 Hình 3.7 So sánh độ xác phân lớp với liệu ung thƣ tuyến tiền liệt Với ung thƣ tuyến tiền liệt, việc sử dụng đặc trƣng trích xuất CKPCA cho độ xác phân lớp ngang cao số trƣờng hợp so với việc sử dụng hàm nhân Bảng 3.15 So sánh kết phân lớp dự đoán liệu ung thƣ tuyến tiền liệt Độ đo AUC Accuracy Precision Recall Tiến hành so sánh hiệu phân lớp với bốn liệu ung thƣ cho kết nhƣ Hình 3.8 93 Hình 3.8 So sánh hiệu phân lớp bốn liệu ung thƣ Trong thực nghiệm thực bốn liệu ung thƣ nói trên, phƣơng pháp C-KPCA với hàm nhân đƣợc đề xuất thƣờng xuyên cho độ xác dự đốn cao so với phƣơng pháp KPCA truyền thống sử dụng hàm nhân sở Có thể thấy phƣơng pháp C-KPCA cho kết ổn định Bảng 3.16So sánh phƣơng pháp đề xuất(C-KPCA)với phƣơng pháp lựa chọn đặc trƣngkhác Phƣơng pháp PLSDR [52] GEM [38] IWSS3-MB-NB [92] DRF0-CFS [13] BDE-SVMRankf [7] C-KPCA Bảng 3.16 thể độ xác phân lớp phƣơng pháp đề xuất phƣơng pháp lựa chọn đặc trƣng phổ biến Với liệu ung thƣ ruột kết, việc phân lớp sử dụng 15 đặc trƣng đƣợc trích xuất phƣơng pháp CKPCA chúng tơi cho độ xác cao bốn phƣơng pháp khác là: PLSDR [52], IWSS3-MB-NB [92], DRF0-CFS [13] BDE-SVM Rankf[7] Trong đó, với liệu bạch cầu kết khơng đƣợc cao phƣơng pháp khác liệu không phù hợp với phƣơng pháp trích xuất đặc trƣng chúng tơi So sánh liệu máu trắng ung thƣ tiền liệt tuyến, cho thấy với 15 đặc trƣng đƣợc trích xuất độ xác phƣơng pháp đề xuất cao phƣơng pháp khác Chúng so sánh kết phƣơng pháp C-KPCA với kết mơ hình trích chọn đặc trƣng dựa học thƣa nhƣ Lasso, SRC-LatLRR [28], HLR [42] Kết đƣợc thể Bảng 3.17 Bảng 3.18 Bảng 3.17 So sánh C-KPCA với phƣơng pháp khác hai liệu Colon Prostate Kết Bảng 3.17 cho thấy với liệu Colon tumor, phƣơng pháp C-KPCA cho độ xác tƣơng đƣơng phƣơng pháp SRC-LatLRR cao ba phƣơng pháp SVM, LASSO SRC Còn với liệu Prostate, phƣơng pháp CKPCA cho kết cao hai phƣơng pháp SVM LASSO Bảng 3.18 So sánh C-KPCA với phƣơng pháp khác hai liệu Lymphoma Prostate Phƣơng pháp C-KPCA cho kết cao phƣơng pháp khác so sánh với liệu Lymphoma Từ kết thấy phƣơng pháp CKPCA thực trích xuất đặc trƣng cho kết phân tốt với nhiều liệu ung thƣ 3.5 Kết luận chƣơng Trong chƣơng này, chúng tơi tập trung vào việc tìm hiểu cách tiếp cận hàm nhân đề xuất phƣơng pháp C-KPCA sử dụng hàm nhân đƣợc kết hợp từ hàm nhân khác Hiệu độ tin cậy hàm nhân đƣợc xác định thông qua thực nghiệm Cụ thể, phƣơng pháp đề xuất đƣợc thực nghiệm bốn liệu ung thƣ đƣợc dùng phổ biến So sánh kết phân lớp sử dụng hàm nhân tùy chọn ba hàm nhân sở khác cho thấy hàm nhân chúng tơi thƣờng xun cho độ xác cao Kết cho thấy độ xác phân lớp sử dụng đặc trƣng đƣợc trích xuất C-KPCA đƣợc cải thiện so với phƣơng pháp KPCA sử dụng hàm nhân số phƣơng pháp lựa chọn đặc trƣng đƣợc đề xuất trƣớc 96 KẾT LUẬN Với miền ứng dụng rủi ro tín dụng, số lƣợng đặc trƣng không nhiều nhƣng số lƣợng ghi tƣơng đối lớn so với số đặc trƣng Nhiệm vụ phải loại bỏ đặc trƣng khơng liên quan, dƣ thừa tìm đặc trƣng tốt cho q trình phân lớp Chúng tơi sử dụng phƣơng pháp lựa chọn đặc trƣng FRFE phân lớp rừng ngẫu dựa chế phân tán song song để xây dựng mơ hình đánh giá tín dụng Các kết thực nghiệm cho thấy độ xác phân lớp sử dụng đặc trƣng lựa chọn phƣơng pháp đề xuất đƣợc cải thiện tƣơng đối khả quan Tiêu chí xếp hạng đặc trƣng đƣợc đề xuất nhằm giúp cải tiến độ xác nhƣ làm giảm thời gian thực kỹ thuật phân lớp Ngoài ra, thời gian chạy đƣợc giảm xuống đáng kể áp dụng thủ tục xử lý song song Với việc phân tích liệu ung thƣ có số lƣợng đặc trƣng lớn so với số ghi, đề xuất kỹ thuật trích xuất đặc trƣng có tên C-KPCA nhằm làm giảm số lƣợng đặc trƣng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất xây dựng hàm nhân dựa việc kết hợp số hàm nhân Chúng tiến hành thực nghiệm 04 liệu ung thƣ so sánh kết sử dụng hàm nhân đề xuất với hàm nhân nhƣ so sánh với số phƣơng pháp lựa chọn đặc trƣng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phƣơng pháp khác số trƣờng hợp Hƣớng nghiên cứu Các kết nghiên cứu lựa chọn đặc trƣng tập trung xây dựng hàm đánh giá chủ yếu dựa độ xác phân lớp.Trong số nghiên cứu gần đâycho thấyviệc sử độ đo AUC tốt so với độ xác phân tích trênbộ liệu đa lớp không cân bằng, hàm đánh giá sử dụng độ đo nhiên mức độ ảnh hƣởng chƣa đƣợc đánh giá cách độc lập Do đó, nghiên cứu tiếp theo, chúng tơi dự kiến tiến 97 hành khảo sát kỹ ảnh hƣởng độ đo AUC nhằm tăng hiệu hàm đánh giá Các kết nghiên cứu trích xuất đặc trƣng dừng lại việc kết hợp thủ công hàm nhân để có đƣợc hàm nhân cho KPCA phân tích liệu ung thƣ.Chúng khảo sát nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máynhằm tự động xây dựng hàm nhân dựa việc kết hợp hàm nhân phù hợp với loại liệu cần phân tích 98 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1].Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan (2016) “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016 (Scopus4) [SANGHV2] Ha Van Sang, Nguyen Ha Nam, & Bao, H N T (2017) A hybrid feature selection method for credit scoring EAI Endorsed Trans ContextAware Syst & Appl., 4(11), e2.(DBLP5) Hội thảo quốc tế: [SANGHV3] Van-Sang Ha and Ha-Nam Nguyen (2016) “Credit scoring with a feature selection approach based deep learning”,in MATEC Web of Conferences, vol 54, p 05004.(Scopus) [SANGHV4] Van-Sang Ha and Ha-Nam Nguyen (2016) “C-KPCA: Custom Kernel PCA for Cancer Classification”,in Machine Learning and Data Mining th in Pattern Recognition: 12 International Conference, MLDM 2016, Springer International Publishing, pp 459–467(Scopus; DBLP) [SANGHV5] Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”,in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp 133–142.(Scopus; DBLP) https://www.scopus.com/authid/detail.uri?authorId=57190294285 http://dblp.uni-trier.de/pers/hd/h/Ha:Van=Sang 99 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Định, V V (2016) Rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận tập thô dung sai Luận án tiến sĩ, Học viện Khoa học Công nghệ [2] Dƣơng, H Đ (2015) Một số phương pháp trích chọn đặc trưng phát đám cháy qua liệu ảnh Luận án tiến sĩ, Học viện Kỹ thuật Quân [3] Hƣơng, N T L (2016) Rút gọn thuộc tính bảng định động theo tiếp cận tập thô Luận án tiến sĩ, Học viện Khoa học Công nghệ Tiếng Anh [4] Abdou, H., & Pointon, J (2011) Credit scoring, statistical techniques and evaluation criteria : a review of the literature Intelligent Systems in Accounting, Finance and Management, 18(2–3), 59–88 [5] Agarwal, B., & Namita, M (2016) Prominent Feature Extraction for Sentiment Analysis Springer International [6] Alter, O., Brown, P O., & Botstein, D (2000) Singular value decomposition for genome-wide expression data processing and modeling Proceedings of the National Academy of Sciences of the United States of America, 97(18), 10101–6 [7] Apolloni, J., Leguizamón, G., & Alba, E (2016) Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments Applied Soft Computing Journal, 38, 922–932 [8] Aziz, R., Verma, C K., & Srivastava, N (2017) Dimension reduction methods for microarray data: a review AIMS Bioengineering, 4(2), 179–197 [9] Bae, C., Yeh, W C., Chung, Y Y., & Liu, S L (2010) Feature selection with Intelligent Dynamic Swarm and rough set Expert Systems with Applications, 37(10), 7026–7032 [10] Bair, E., Hastie, T., Paul, D., & Tibshirani, R (2006) Prediction by supervised principal components Journal of the American Statistical Association, 101(473), 119– 137 [11] Bellotti, T., & Crook, J (2009) Support vector machines for credit scoring and discovery of significant features Expert Systems with Applications, 36(2 PART 2), 3302–3308 [12] Benabdeslem, K., & Hindawi, M (2014) Efficient semi-supervised feature selection: Constraint, relevance, and redundancy IEEE Transactions on Knowledge and Data Engineering, 26(5), 1131–1143 [13] Bolón-Canedo, V., Sánchez-Maro, N., & Alonso-Betanzos, a (2015) Distributed feature selection: An application to microarray data classification Applied Soft Computing, 30, 136–150 [14] Borg, I., & Groenen, P (2005) Modern Multidimensional Scaling: Theory and Applications In Chapter 10 (pp 100–131) [15] Breiman, L (2001) Random Forests Machine Learning, 45(1), 5–32 [16] Cai, X., Nie, F., & Huang, H (2007) Exact Top- k Feature Selection via l2,0-Norm Constraint Ijcai, 1240–1246 [17] Cangelosi, R., & Goriely, A (2007) Component retention in principal component analysis with application to cDNA microarray data Biology Direct, [18] Chen, W C., Tseng, S S., & Hong, T P (2008) An efficient bit-based feature selection method Expert Systems with Applications, 34(4), 2858–2869 [19] Chen, X., Wang, L., Smith, J D., & Zhang, B (2008) Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes Bioinformatics, 24(21), 2474–2481 [20] Cortes, C., & Vapnik, V (1995) Support-vector networks Machine Learning, 20(3), 273–297 [21] Cristianini, N., & Shawe-Taylor, J (2000) An Introduction to Support Vector Machines and other kernel based learning methods Ai Magazine [22] Dawson, K., Rodriguez, R L., & Malyj, W (2005) Samle phenotype clusters in highdensity oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm BMC Bioinformatics, [23] Diao, R., & Parthaláin, N S Mac (2014) Feature Selection with Harmony Search and its Applications PhD Thesis, Aberystwyth University [24] Du, L., & Shen, Y (2015) Unsupervised Feature Selection with Adaptive Structure Learning International Conference on Knowledge Discovery and Data Mining, 209– 218 [25] Ehler, M., Rajapakse, V N., Zeeberg, B R., Brooks, B P., Brown, J., Czaja, W., & Bonner, R F (2011) Nonlinear gene cluster analysis with labeling for microarray gene expression data in organ development In BMC Proceedings (Vol 5) [26] Eyben, F (2016) Real-time Speech and Music Classification by Large Audio Feature Space Extraction Springer International [27] Fawcett, T (2006) An introduction to ROC analysis Pattern Recognition Letters, 27(8), 861–874 [28] Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q (2014) Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation BioMed Research International, 2014, 1–7 [29] Ghaemi, M., & Feizi-Derakhshi, M.-R (2016) Feature selection using Forest Optimization Algorithm Pattern Recognition, 60, 121–129 [30] Ghamisi, P., & Benediktsson, J A (2015) Feature selection based on hybridization of genetic algorithm and particle swarm optimization IEEE Geoscience and Remote Sensing Letters, 12(2), 309–313 [31] Ghashami, M., & Perry, D J (2016) Streaming Kernel Principal Component Analysis, 41, 1365–1374 [32] Guyon, I., & Elisseeff, A (2003) An introduction to variable and feature selection Journal of Machine Learning Research, 3, 1157–1182 [33] Guyon, I., & Elisseeff, A (2006) An Introduction to Feature Extraction Feature Extraction - Foundations and Applications, 207(10), 740 [34] Hall, M a (1999) Correlation-based Feature Selection for Machine Learning Methodology PhD Thesis, University of Waikato [35] Hall, M., & Smith, L a (1999) Feature Selection for Machine Learning : Comparing a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature International FLAIRS Conference, [36] Hara, S., & Maehara, T (2017) Enumerate Lasso Solutions for Feature Selection Aaai, 1985–1991 [37] Harikrishna, S., Farquad, M A H., & Shabana (2012) Credit Scoring Using Support Vector Machine: A Comparative Analysis Advanced Materials Research, 433–440, 101 6527–6533 [38] Hernandez Hernandez, J., Duval, B., & Hao, J.-K (2007) A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data In Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics (Vol 4447, pp 90–101) [39] Hochstadt, H (1989) Integral equations New York: A Wiley-Interscience Publication [40] Hofmann, T., Schölkopf, B., & Smola, A J (2008) Kernel methods in machine learning The Annals of Statistics, 36(3), 1171–1220 [41] Hua, J., Tembe, W D., & Dougherty, E R (2009) Performance of feature-selection methods in the classification of high-dimension data Pattern Recognition, 42(3), 409–424 [42] Huang, H H., Liu, X Y., & Liang, Y (2016) Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2 +2regularization PLoS ONE, 11(5), 1–15 [43] Jian, L., Li, J., Shu, K., & Liu, H (2016) Multi-label informed feature selection In IJCAI International Joint Conference on Artificial Intelligence (Vol 2016–Janua, pp 1627–1633) [44] Jiao, N., Miao, D., & Zhou, J (2010) Two novel feature selection methods based on decomposition and composition Expert Systems with Applications, 37(12), 7419– 7426 [45] Jonnalagadda, S., & Srinivasan, R (2008) Principal components analysis based methodology to identify differentially expressed genes in time-course microarray data BMC Bioinformatics, [46] Jung, M., & Zscheischler, J (2013) A guided hybrid genetic algorithm for feature selection with expensive cost functions In Procedia Computer Science (Vol 18, pp 2337–2346) [47] Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E (1997) Applications of neural blind separation to signal and image processing In 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol 1, pp 131–134) [48] Kennedy, J., & Eberhart, R (1995) Particle swarm optimization Neural Networks, 1995 Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4 [49] Koutanaei, F N., Sajedi, H., & Khanbabaei, M (2015) A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring Journal of Retailing and Consumer Services, 27, 11–23 [50] Lee, C.-P., & Leu, Y (2011) A novel hybrid feature selection method for microarray data analysis Applied Soft Computing, 11(4), 208–213 [51] Lee, C., & Lee, G G (2006) Information gain and divergence-based feature selection for machine learning-based text categorization Information Processing and Management [52] Li, G Z., Zeng, X Q., Yang, J Y., & Yang, M Q (2007) Partial Least Squares Based Dimension Reduction with Gene Selection for Tumor Classification 2007 IEEE 7th International Symposium on BioInformatics and BioEngineering [53] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R P., Tang, J., & Liu, H (2016) Feature Selection: A Data Perspective, 1–73 [54] Li, Y., Chen, C Y., & Wasserman, W W (2015) Deep feature selection: Theory and application to identify enhancers and promoters In Lecture Notes in Computer 102 Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol 9029, pp 205–217) [55] Liang, D., Tsai, C.-F., & Wu, H.-T (2015) The effect of feature selection on financial distress prediction Knowledge-Based Systems, 73, 289–297 [56] Liang Sun, Shuiwang Ji, J Y (2013) Multi-Label Dimensionality Reduction Chapman and Hall/CRC [57] Lin, W Y., Hu, Y H., & Tsai, C F (2012) Machine learning in financial crisis prediction: A survey IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews [58] Ling, Y., Cao, Q Y., & Zhang, H (2011) Application of the PSO-SVM model for credit scoring Proceedings - 2011 7th International Conference on Computational Intelligence and Security, CIS 2011, 47–51 [59] Liu, H., & Motoda, H (1998) Feature Selection for Knowledge Discovery and Data Mining Springer US [60] Liu, X., Tosun, D., Weiner, M W., & Schuff, N (2013) Locally linear embedding (LLE) for MRI based Alzheimer‟s disease classification NeuroImage, 83, 148–157 [61] Liu, Y., & Schumann, M (2005) Data mining feature selection for credit scoring models Journal of the Operational Research Society, 56(9), 1099–1108 [62] M., K., A., S., & S., O (2002) Analysis of DNA microarray data using selforganizing map and kernel based clustering {ICONIP}’02 Proceedings of the 9th International Conference on Neural Information Processing Computational Intelligence for the {E}-Age, 2, 755–759 [63] Maldonado, S., & Weber, R (2009) A wrapper method for feature selection using Support Vector Machines Information Sciences, 179(13), 2208–2217 [64] Meyer, P E., Schretter, C., & Bontempi, G (2008) Information-Theoretic Feature Selection in Microarray Data Using Variable Complementarity IEEE Journal of Selected Topics in Signal Processing, 2(3), 261–274 [65] Mylonakis, J., & Diacogiannis, G (2010) Evaluating the likelihood of using linear discriminant analysis as a commercial bank card owners credit scoring model International Business Research, 3(2), 9–21 [66] Nakariyakul, S., & Casasent, D P (2009) An improvement on floating search algorithms for feature subset selection Pattern Recognition, 42(9), 1932–1940 [67] Nello Cristianini, J S.-T (2000) An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge University Press [68] Nixon, M., & Aguado, A (2012) Feature Extraction and Image Processing for Computer Vision Feature Extraction & Image Processing for Computer Vision, Second Edition [69] Nziga, J (2015) Incremental Sparse-PCA Feature Extraction For Data Streams PhD Thesis, Nova Southeastern University [70] Oreski, S., & Oreski, G (2014) Genetic algorithm-based heuristic for feature selection in credit risk assessment Expert Systems with Applications, 41(4), 2052– 2064 [71] Orsenigo, C., & Vercellis, C (2012) An effective double-bounded tree-connected Isomap algorithm for microarray data classification Pattern Recognition Letters, 33(1), 9–16 [72] Park, C H., & Lee, M (2008) On applying linear discriminant analysis for multilabeled problems Pattern Recognition Letters, 29(7), 878–887 103 [73] Pawlak, Z (1996) Rough sets: Theoretical aspects of reasoning about data Control Engineering Practice [74] Peng, H., & Fan, Y (2016) Direct Sparsity Optimization Based Feature Selection for Multi-Class Classification Ijcai, 1918–1924 [75] Peng, H., & Fan, Y (2017) A General Framework for Sparsity Regularized Feature Selection via Iteratively Reweighted Least Square Minimization Proceedings of the 31th Conference on Artificial Intelligence (AAAI 2017), 2471–2477 [76] Peng, H., Long, F., & Ding, C (2005) Feature selection based on mutual information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy IEEE Trans on Pattern Analysis and Machine Intelligence, 27(8), 1226–1238 [77] Peng, Y., Wu, Z., & Jiang, J (2010) A novel feature selection approach for biomedical data classification Journal of Biomedical Informatics, 43(1), 15–23 [78] Piramuthu, S (2006) On preprocessing data for financial credit risk evaluation Expert Systems with Applications [79] Roy, D., Murty, K S R., & Mohan, C K (2015) Feature selection using Deep Neural Networks In 2015 International Joint Conference on Neural Networks (IJCNN) (pp 1–6) [80] Schölkopf, B., Smola, A., & Müller, K.-R (1998) Nonlinear Component Analysis as a Kernel Eigenvalue Problem Neural Computation, 10(5), 1299–1319 [81] Soliz, P., Russell, S R., Abramoff, M D., Murillo, S., Pattichis, M., & Davis, H (2008) Independent Component Analysis for Vision-inspired Classification of Retinal Images with Age-related Macular Degeneration 2008 IEEE Southwest Symposium on Image Analysis and Interpretation, 65–68 [82] Soufan, O., Kleftogiannis, D., Kalnis, P., & Bajic, V B (2015) DWFS: A wrapper feature selection tool based on a parallel Genetic Algorithm PLoS ONE, 10(2) [83] Stańczyk, U., & Jain, L C (2015) Feature Selection for Data and Pattern Recognition Studies in Computational Intelligence (Vol 584) [84] Sun, Y (2007) Iterative RELIEF for feature weighting: Algorithms, theories, and applications IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6), 1035–1051 [85] Swiniarski, R W., & Skowron, A (2003) Rough set methods in feature selection and recognition Pattern Recognition Letters, 24(6), 833–849 [86] Tang, J., Alelyani, S., & Liu, H (2014) Feature Selection for Classification: A Review Data Classification: Algorithms and Applications, 37–64 [87] Tenenbaum, J B., de Silva, V., & Langford, J C (2000) A global geometric framework for nonlinear dimensionality reduction Science (New York, N.Y.), 290(5500), 2319–23 [88] Thomas, L C (2009) Consumer credit models: Pricing, profit and portfolios Consumer Credit Models: Pricing, Profit and Portfolios [89] Unler, A., Murat, A., & Chinnam, R B (2011) Mr2PSO: A maximum relevance minimum redundancy feature selection method based on swarm intelligence for support vector machine classification Information Sciences, 181(20), 4625–4641 [90] Verónica Bolón-Canedo, Noelia Sánchez-Maro, A A.-B (2015) Feature Selection for High-Dimensional Data Springer International [91] Villacampa, O (2015) Feature Selection and Classification Methods for Decision Making: A Comparative Analysis Nova Southeastern University PhD Thesis, Nova Southeastern University 104 [92] Wang, A., An, N., Chen, G., Yang, J., Li, L., & Alterovitz, G (2014) Incremental wrapper based gene selection with Markov blanket 2014 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) [93] Wang, H., Xu, Q., & Zhou, L (2015) Large unbalanced credit scoring using lassologistic regression ensemble PLoS ONE, 10(2) [94] Wang, J., Guo, K., & Wang, S (2010) Rough set and Tabu search based feature selection for credit scoring Procedia Computer Science, 1(1), 2425–2432 [95] Wang, J., Hedar, A.-R., Wang, S., & Ma, J (2012) Rough set and scatter search metaheuristic based feature selection for credit scoring Expert Systems with Applications, 39(6), 6123–6128 [96] Wei, X., & Yu, P S (2016) Unsupervised Feature Selection by Preserving Stochastic Neighbors, 51(6), 995–1003 [97] Xie, J., & Wang, C (2011) Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases Expert Systems with Applications, 38(5), 5809–5815 [98] Xu, Z., Huang, G., Weinberger, K Q., & Zheng, A X (2014) Gradient boosted feature selection Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’14, 522–531 [99] Yang, J., Frangi, A F., Yang, J Y., Zhang, D., & Jin, Z (2005) KPCA plus LDA: A complete kernel fisher discriminant framework for feature extraction and recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(2), 230–244 [100] Yao, P Y P (2009) Feature Selection Based on SVM for Credit Scoring 2009 International Conference on Computational Intelligence and Natural Computing, 2, 44–47 [101] Yusta, S C (2009) Different metaheuristic strategies to solve the feature selection problem Pattern Recognition Letters, 30(5), 525–534 [102] Zainudin, M., Sulaiman, M., Mustapha, N., Perumal, T., Nazri, A., Mohamed, R., & Manaf, S (2017) Feature Selection Optimization using Hybrid Relief-f with Selfadaptive Differential Evolution International Journal of Intelligent Engineering and Systems, 10(3), 21–29 [103] Zhang, M L., Peña, J M., & Robles, V (2009) Feature selection for multi-label naive Bayes classification Information Sciences, 179(19), 3218–3229 [104] Zhao, L., Hu, Q., & Wang, W (2015) Heterogeneous Feature Selection with MultiModal Deep Neural Networks and Sparse Group LASSO IEEE Transactions on Multimedia, 17(11), 1936–1948 [105] Zhou, S (2003) Probabilistic analysis of kernel principal components: mixture modeling and classification IEEE Transactions on Pattern Analysis, (i), 1–26 105 ... phù hợp với liệu cần phân tích Với mục tiêu cải tiến hiệu kỹ thuật phân tích liệu, lựa chọn đề tài luận án với tiêu đề: "Nghiên cứu cải tiến kỹ thuật rút gọn đặc trưng cho phân lớp liệu? ?? Đối tƣợng... rằngrút gọn đặc trƣng chủ đề để nhà nghiên cứu nƣớc tiếp tục nghiên cứu phát triển Mục tiêu luận án Mục tiêu luận án nghiên cứu cải tiến số kỹ thuật rút gọn đặc trƣng tiên tiến phân lớp liệu. .. phạm vi nghiên cứu Đối tƣợng nghiên cứu luận án kỹ thuật rút gọn đặc trƣng cho toán phân lớp, theo hai hƣớng tiếp cận lựa chọn đặc trƣng trích xuất đặc trƣng Phạm vi áp dụng kỹ thuật rút gọn đặc

Định dạng
Số trang	140
Dung lượng	1,41 MB