Số đặc trƣng Hàm nhân K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3 3 82,89 84,25 68,73 65,88 5 88,28 84,30 86,03 89,17 10 95,00 84,81 94,12 94,41 15 94,31 84,81 94,12 94,12 20 97,11 87,34 94,41 96,08 50 99,10 87,34 95,88 99,80 100 100,00 86,52 96,13 99,02 200 100,00 88,58 100,00 95,44 500 98,48 86,90 100,00 98,48
Tƣơng tự nhƣ các bộ dữ liệu trƣớc, kết quả cho thấy việc kết hợp các hàm nhân sử dụng tốn tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều trƣờng hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản cĩ kết quả nhƣ sau:
Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thƣ tiền liệt tuyến
Số đặc trƣng K1(Rbf) K2(Poly) Hàm nhân K3(Sigmoid) Combined
3 0.8755 0.8745 0.8745 0.8289 5 0.9123 0.9299 0.9275 0.8828 10 0.9412 0.9515 0.9510 0.9520 15 0.9451 0.9623 0.9637 0.9641 20 0.9426 0.9804 0.9745 0.9711 50 0.9755 0.9902 0.9902 0.9910 100 0.9593 1.0000 1.0000 1.0000 200 1.0000 0.9377 0.9686 1.0000 500 1.0000 0.9078 0.9245 0.9848
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thƣ tuyến tiền liệt
Với bộ ung thƣ tuyến tiền liệt, việc sử dụng các đặc trƣng trích xuất bởi C- KPCA cho độ chính xác phân lớp ngang bằng hoặc cao hơn trong một số trƣờng hợp so với việc sử dụng các hàm nhân cơ bản.
Bảng 3.15 So sánh kết quả phân lớp dự đốn trên bộ dữ liệu ung thƣ tuyến tiền liệt Độ đo Tất cả đặc trƣng 20 đặc trƣng (KPCA) 20 đặc trƣng (C-KPCA)
RF SVM RF SVM RF SVM
AUC 92,8 90,2 93,8 91,2 91 91,3
Accuracy 90,2 90,2 83,3 91,2 86,3 91,2
Precision 90,3 90,3 83,5 91,3 86,3 91,2
Recall 90,2 90,2 83,3 91,2 86,3 91,2
Tiến hành so sánh hiệu năng phân lớp với bốn bộ dữ liệu ung thƣ cho kết quả nhƣ Hình 3.8
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thƣ
Trong các thực nghiệm thực hiện trên bốn bộ dữ liệu ung thƣ nĩi trên, phƣơng pháp C-KPCA với hàm nhân đƣợc đề xuất thƣờng xuyên cho độ chính xác dự đốn cao hơn so với phƣơng pháp KPCA truyền thống sử dụng hàm nhân cơ sở. Cĩ thể thấy phƣơng pháp C-KPCA cho kết quả ổn định hơn.
Bảng 3.16So sánh phƣơng pháp đề xuất(C-KPCA)với các phƣơng pháp lựa chọn đặc trƣngkhác
Colon Tumor Leukemia Lymphoma Prostate
Phƣơng pháp Số đặc trƣng Độ chính xác Số đặc trƣng Độ chính xác Số đặc trƣng Độ chính xác Số đặc trƣng Độ chính xác
PLSDR [52] 20 83,5 20 97,1 20 93,0 20 91,7 GEM [38] 8 91,2 3 91,5 5 93,3 - IWSS3-MB-NB [92] 5,2 86 6,4 97,1 - - 5,6 91,1 DRF0-CFS [13] 10 90,0 13 91,18 11 93,33 113 85,29 BDE-SVMRankf [7] 4 75 6 82,4 3 92,9 3 97,1 C-KPCA 15 90,3 20 72,2 5 96,1 15 92,2
Bảng 3.16 thể hiện độ chính xác phân lớp của phƣơng pháp đề xuất và các phƣơng pháp lựa chọn đặc trƣng phổ biến hiện nay. Với bộ dữ liệu ung thƣ ruột kết, việc phân lớp sử dụng 15 đặc trƣng đƣợc trích xuất bằng phƣơng pháp C-KPCA của chúng tơi cho độ chính xác cao hơn bốn phƣơng pháp khác là: PLSDR [52], IWSS3-MB-NB [92], DRF0-CFS [13] và BDE-SVMRankf[7]. Trong khi đĩ, với bộ dữ liệu bạch cầu thì kết quả khơng đƣợc cao bằng các phƣơng pháp khác do bộ dữ liệu này khơng phù hợp với phƣơng pháp trích xuất đặc trƣng của chúng tơi.
So sánh trên bộ dữ liệu máu trắng và ung thƣ tiền liệt tuyến, cho thấy chỉ với 5 và 15 đặc trƣng đƣợc trích xuất thì độ chính xác của phƣơng pháp đề xuất luơn cao hơn phƣơng pháp khác.
Chúng tơi cũng so sánh kết quả của phƣơng pháp C-KPCA với kết quả của các mơ hình trích chọn đặc trƣng dựa trên học thƣa nhƣ Lasso, SRC-LatLRR [28], HLR [42]. Kết quả đƣợc thể hiện trong Bảng 3.17 và Bảng 3.18.
Bảng 3.17 So sánh C-KPCA với các phƣơng pháp khác trên hai bộ dữ liệu Colon và Prostate
Phƣơng pháp Colon Tumor Prostate
SVM 85,48 91,18
LASSO 85.48 91.91
SRC 85.48 94,85
SRC-LatLRR 90.32 94,12
Kết quả trong Bảng 3.17 cho thấy với bộ dữ liệu Colon tumor, phƣơng pháp C-KPCA cho độ chính xác tƣơng đƣơng phƣơng pháp SRC-LatLRR và cao hơn ba phƣơng pháp SVM, LASSO và SRC. Cịn với bộ dữ liệu Prostate, phƣơng pháp C- KPCA cho kết quả cao hơn hai phƣơng pháp SVM và LASSO.
Bảng 3.18 So sánh C-KPCA với các phƣơng pháp khác trên hai bộ dữ liệu Lymphoma và Prostate
Phƣơng pháp Lymphoma Prostate
LASSO 91,11 92,40
L1/2 91,2 92.18
SCAD-L2 92,99 91,33
HLR 94,23 93,68
C-KPCA 96,1 92,2
Phƣơng pháp C-KPCA cho kết quả cao hơn các phƣơng pháp khác khi so sánh với bộ dữ liệu Lymphoma. Từ các kết quả trên cĩ thể thấy phƣơng pháp C- KPCA thực hiện trích xuất đặc trƣng và cho kết quả phân tốt với nhiều bộ dữ liệu ung thƣ.
3.5 Kết luận chƣơng
Trong chƣơng này, chúng tơi tập trung vào việc tìm hiểu cách tiếp cận hàm nhân và đề xuất phƣơng pháp C-KPCA sử dụng hàm nhân mới đƣợc kết hợp từ các hàm nhân cơ bản khác. Hiệu quả và độ tin cậy của hàm nhân mới này đƣợc xác định thơng qua thực nghiệm. Cụ thể, phƣơng pháp đề xuất đƣợc thực nghiệm trên bốn bộ dữ liệu ung thƣ đang đƣợc dùng phổ biến hiện nay. So sánh kết quả phân lớp sử dụng hàm nhân tùy chọn và ba hàm nhân cơ sở khác cho thấy hàm nhân của chúng tơi thƣờng xuyên cho độ chính xác cao hơn
Kết quả cho thấy độ chính xác phân lớp sử dụng các đặc trƣng đƣợc trích xuất bởi C-KPCA đƣợc cải thiện so với phƣơng pháp KPCA sử dụng các hàm nhân cơ bản và một số phƣơng pháp lựa chọn đặc trƣng đã đƣợc đề xuất trƣớc đây.
KẾT LUẬN
Với miền ứng dụng rủi ro tín dụng, số lƣợng đặc trƣng là khơng quá nhiều nhƣng số lƣợng bản ghi là tƣơng đối lớn so với số đặc trƣng. Nhiệm vụ là phải loại bỏ các đặc trƣng khơng liên quan, dƣ thừa và tìm ra các đặc trƣng tốt cho quá trình phân lớp. Chúng tơi đã sử dụng phƣơng pháp lựa chọn đặc trƣng FRFE và bộ phân lớp rừng ngẫu dựa trên cơ chế phân tán và song song để xây dựng mơ hình đánh giá tín dụng. Các kết quả thực nghiệm cho thấy độ chính xác phân lớp sử dụng các đặc trƣng lựa chọn bởi phƣơng pháp đề xuất đƣợc cải thiện tƣơng đối khả quan. Tiêu chí xếp hạng các đặc trƣng đƣợc đề xuất nhằm giúp cải tiến độ chính xác cũng nhƣ làm giảm thời gian thực hiện của các kỹ thuật phân lớp. Ngồi ra, thời gian chạy đã đƣợc giảm xuống đáng kể do áp dụng các thủ tục xử lý song song.
Với việc phân tích dữ liệu ung thƣ cĩ số lƣợng đặc trƣng lớn hơn so với số bản ghi, chúng tơi đã đề xuất kỹ thuật trích xuất đặc trƣng cĩ tên C-KPCA nhằm làm giảm số lƣợng đặc trƣng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của chúng tơi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản. Chúng tơi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thƣ và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng nhƣ so sánh với một số phƣơng pháp lựa chọn đặc trƣng phổ biến khác. Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phƣơng pháp khác trong một số trƣờng hợp.
Hƣớng nghiên cứu tiếp theo
Các kết quả nghiên cứu về lựa chọn đặc trƣng mới tập trung xây dựng hàm đánh giá chủ yếu dựa trên độ chính xác của các bộ phân lớp.Trong một số nghiên cứu gần đâycho thấyviệc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích trênbộ dữ liệu đa lớp hoặc khơng cân bằng, mặc dù trong hàm đánh giá chúng tơi cũng đã sử dụng độ đo này tuy nhiên mức độ ảnh hƣởng của nĩ chƣa đƣợc đánh giá một cách độc lập. Do đĩ, trong các nghiên cứu tiếp theo, chúng tơi dự kiến sẽ tiến
hành khảo sát kỹ sự ảnh hƣởng của độ đo AUC nhằm tăng hiệu năng của hàm đánh giá.
Các kết quả nghiên cứu về trích xuất đặc trƣng mới chỉ dừng lại ở việc kết hợp thủ cơng các hàm nhân cơ bản để cĩ đƣợc hàm nhân mới cho KPCA trong phân tích dữ liệu ung thƣ.Chúng tơi sẽ khảo sát và nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máynhằm tự động xây dựng hàm nhân mới dựa trên việc kết hợp các hàm nhân cơ bản phù hợp với từng loại dữ liệu cần phân tích.
DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN
Tạp chí quốc tế:
[SANGHV1].Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan. (2016). “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016. (Scopus4)
[SANGHV2]. Ha Van Sang, Nguyen Ha Nam, & Bao, H. N. T. (2017). A hybrid feature selection method for credit scoring. EAI Endorsed Trans. Context- Aware Syst. & Appl., 4(11), e2.(DBLP5)
Hội thảo quốc tế:
[SANGHV3]. Van-Sang Ha and Ha-Nam Nguyen (2016). “Credit scoring with a feature selection approach based deep learning”,in MATEC Web of Conferences, vol. 54, p. 05004.(Scopus)
[SANGHV4]. Van-Sang Ha and Ha-Nam Nguyen. (2016). “C-KPCA: Custom Kernel PCA for Cancer Classification”,in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp. 459–467(Scopus; DBLP)
[SANGHV5]. Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”,in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp. 133–142.(Scopus; DBLP)
4https://www.scopus.com/authid/detail.uri?authorId=57190294285
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. • Định, V. V. (2016). Rút gọn thuộc tính trong bảng quyết định khơng đầy đủ theo tiếp
cận tập thơ dung sai. Luận án tiến sĩ, Học viện Khoa học và Cơng nghệ.
[2]. • Dƣơng, H. Đ. (2015). Một số phương pháp trích chọn đặc trưng và phát hiện đám
cháy qua dữ liệu ảnh. Luận án tiến sĩ, Học viện Kỹ thuật Quân sự.
[3]. • Hƣơng, N. T. L. (2016). Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận
tập thơ. Luận án tiến sĩ, Học viện Khoa học và Cơng nghệ.
Tiếng Anh
[4]. Abdou, H., & Pointon, J. (2011). Credit scoring, statistical techniques and evaluation criteria : a review of the literature. Intelligent Systems in Accounting, Finance and
Management, 18(2–3), 59–88.
[5]. Agarwal, B., & Namita, M. (2016). Prominent Feature Extraction for Sentiment
Analysis. Springer International.
[6]. Alter, O., Brown, P. O., & Botstein, D. (2000). Singular value decomposition for genome-wide expression data processing and modeling. Proceedings of the National
Academy of Sciences of the United States of America, 97(18), 10101–6.
[7]. Apolloni, J., Leguizamĩn, G., & Alba, E. (2016). Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments. Applied
Soft Computing Journal, 38, 922–932.
[8]. Aziz, R., Verma, C. K., & Srivastava, N. (2017). Dimension reduction methods for microarray data: a review. AIMS Bioengineering, 4(2), 179–197.
[9]. Bae, C., Yeh, W. C., Chung, Y. Y., & Liu, S. L. (2010). Feature selection with Intelligent Dynamic Swarm and rough set. Expert Systems with Applications, 37(10), 7026–7032.
[10]. Bair, E., Hastie, T., Paul, D., & Tibshirani, R. (2006). Prediction by supervised principal components. Journal of the American Statistical Association, 101(473), 119–137.
[11]. Bellotti, T., & Crook, J. (2009). Support vector machines for credit scoring and discovery of significant features. Expert Systems with Applications, 36(2 PART 2), 3302–3308.
[12]. Benabdeslem, K., & Hindawi, M. (2014). Efficient semi-supervised feature selection: Constraint, relevance, and redundancy. IEEE Transactions on Knowledge and Data
Engineering, 26(5), 1131–1143.
[13]. Bolĩn-Canedo, V., Sánchez-Marođo, N., & Alonso-Betanzos, a. (2015). Distributed feature selection: An application to microarray data classification. Applied Soft
Computing, 30, 136–150.
[14]. Borg, I., & Groenen, P. (2005). Modern Multidimensional Scaling: Theory and Applications. In Chapter 10 (pp. 100–131).
[15]. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32.
[16]. Cai, X., Nie, F., & Huang, H. (2007). Exact Top- k Feature Selection via l2,0-Norm Constraint. Ijcai, 1240–1246.
[17]. Cangelosi, R., & Goriely, A. (2007). Component retention in principal component analysis with application to cDNA microarray data. Biology Direct, 2.
[18]. Chen, W. C., Tseng, S. S., & Hong, T. P. (2008). An efficient bit-based feature selection method. Expert Systems with Applications, 34(4), 2858–2869.
[19]. Chen, X., Wang, L., Smith, J. D., & Zhang, B. (2008). Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes. Bioinformatics, 24(21), 2474–2481.
[20]. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297.
[21]. Cristianini, N., & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel based learning methods. Ai Magazine.
[22]. Dawson, K., Rodriguez, R. L., & Malyj, W. (2005). Samle phenotype clusters in high-density oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm. BMC Bioinformatics, 6.
[23]. Diao, R., & Parthaláin, N. S. Mac. (2014). Feature Selection with Harmony Search
and its Applications. PhD Thesis, Aberystwyth University.
[24]. Du, L., & Shen, Y. (2015). Unsupervised Feature Selection with Adaptive Structure Learning. International Conference on Knowledge Discovery and Data Mining, 209– 218.
[25]. Ehler, M., Rajapakse, V. N., Zeeberg, B. R., Brooks, B. P., Brown, J., Czaja, W., & Bonner, R. F. (2011). Nonlinear gene cluster analysis with labeling for microarray gene expression data in organ development. In BMC Proceedings (Vol. 5).
[26]. Eyben, F. (2016). Real-time Speech and Music Classification by Large Audio Feature
Space Extraction. Springer International.
[27]. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters,
27(8), 861–874.
[28]. Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q. (2014). Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation. BioMed Research International, 2014, 1–7.
[29]. Ghaemi, M., & Feizi-Derakhshi, M.-R. (2016). Feature selection using Forest Optimization Algorithm. Pattern Recognition, 60, 121–129.
[30]. Ghamisi, P., & Benediktsson, J. A. (2015). Feature selection based on hybridization of genetic algorithm and particle swarm optimization. IEEE Geoscience and Remote
Sensing Letters, 12(2), 309–313.
[31]. Ghashami, M., & Perry, D. J. (2016). Streaming Kernel Principal Component Analysis, 41, 1365–1374.
[32]. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.
Journal of Machine Learning Research, 3, 1157–1182.
[33]. Guyon, I., & Elisseeff, A. (2006). An Introduction to Feature Extraction. Feature
Extraction - Foundations and Applications, 207(10), 740.
[34]. Hall, M. a. (1999). Correlation-based Feature Selection for Machine Learning.
Methodology. PhD Thesis, University of Waikato.
[35]. Hall, M., & Smith, L. a. (1999). Feature Selection for Machine Learning : Comparing a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature.
International FLAIRS Conference, 5.
[36]. Hara, S., & Maehara, T. (2017). Enumerate Lasso Solutions for Feature Selection.
Aaai, 1985–1991.
[37]. Harikrishna, S., Farquad, M. A. H., & Shabana. (2012). Credit Scoring Using Support Vector Machine: A Comparative Analysis. Advanced Materials Research, 433–440,
6527–6533.
[38]. Hernandez Hernandez, J., Duval, B., & Hao, J.-K. (2007). A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data. In Evolutionary
Computation,Machine Learning and Data Mining in Bioinformatics (Vol. 4447, pp.
90–101).
[39]. Hochstadt, H. (1989). Integral equations. New York: A Wiley-Interscience Publication.
[40]. Hofmann, T., Schưlkopf, B., & Smola, A. J. (2008). Kernel methods in machine learning. The Annals of Statistics, 36(3), 1171–1220.
[41]. Hua, J., Tembe, W. D., & Dougherty, E. R. (2009). Performance of feature-selection methods in the classification of high-dimension data. Pattern Recognition, 42(3), 409–424.
[42]. Huang, H. H., Liu, X. Y., & Liang, Y. (2016). Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2 +2regularization.
PLoS ONE, 11(5), 1–15.
[43]. Jian, L., Li, J., Shu, K., & Liu, H. (2016). Multi-label informed feature selection. In
IJCAI International Joint Conference on Artificial Intelligence (Vol. 2016–Janua, pp.
1627–1633).
[44]. Jiao, N., Miao, D., & Zhou, J. (2010). Two novel feature selection methods based on decomposition and composition. Expert Systems with Applications, 37(12), 7419– 7426.
[45]. Jonnalagadda, S., & Srinivasan, R. (2008). Principal components analysis based methodology to identify differentially expressed genes in time-course microarray data. BMC Bioinformatics, 9.
[46]. Jung, M., & Zscheischler, J. (2013). A guided hybrid genetic algorithm for feature selection with expensive cost functions. In Procedia Computer Science (Vol. 18, pp. 2337–2346).
[47]. Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E. (1997). Applications of neural blind separation to signal and image processing. In 1997 IEEE International
Conference on Acoustics, Speech, and Signal Processing (Vol. 1, pp. 131–134).
[48]. Kennedy, J., & Eberhart, R. (1995). Particle swarm optimization. Neural Networks,
1995. Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4.
[49]. Koutanaei, F. N., Sajedi, H., & Khanbabaei, M. (2015). A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring.
Journal of Retailing and Consumer Services, 27, 11–23.
[50]. Lee, C.-P., & Leu, Y. (2011). A novel hybrid feature selection method for microarray data analysis. Applied Soft Computing, 11(4), 208–213.
[51]. Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information Processing and
Management.
[52]. Li, G. Z., Zeng, X. Q., Yang, J. Y., & Yang, M. Q. (2007). Partial Least Squares Based Dimension Reduction with Gene Selection for Tumor Classification. 2007
IEEE 7th International Symposium on BioInformatics and BioEngineering.
[53]. Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., & Liu, H. (2016). Feature Selection: A Data Perspective, 1–73.
[54]. Li, Y., Chen, C. Y., & Wasserman, W. W. (2015). Deep feature selection: Theory and application to identify enhancers and promoters. In Lecture Notes in Computer
Science (including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics) (Vol. 9029, pp. 205–217).
[55]. Liang, D., Tsai, C.-F., & Wu, H.-T. (2015). The effect of feature selection on financial distress prediction. Knowledge-Based Systems, 73, 289–297.
[56]. Liang Sun, Shuiwang Ji, J. Y. (2013). Multi-Label Dimensionality Reduction. Chapman and Hall/CRC.
[57]. Lin, W. Y., Hu, Y. H., & Tsai, C. F. (2012). Machine learning in financial crisis prediction: A survey. IEEE Transactions on Systems, Man and Cybernetics Part C:
Applications and Reviews.
[58]. Ling, Y., Cao, Q. Y., & Zhang, H. (2011). Application of the PSO-SVM model for credit scoring. Proceedings - 2011 7th International Conference on Computational
Intelligence and Security, CIS 2011, 47–51.
[59]. Liu, H., & Motoda, H. (1998). Feature Selection for Knowledge Discovery and Data
Mining. Springer US.
[60]. Liu, X., Tosun, D., Weiner, M. W., & Schuff, N. (2013). Locally linear embedding (LLE) for MRI based Alzheimer‟s disease classification. NeuroImage, 83, 148–157. [61]. Liu, Y., & Schumann, M. (2005). Data mining feature selection for credit scoring
models. Journal of the Operational Research Society, 56(9), 1099–1108.
[62]. M., K., A., S., & S., O. (2002). Analysis of DNA microarray data using self- organizing map and kernel based clustering. {ICONIP}’02. Proceedings of the 9th International Conference on Neural Information Processing. Computational
Intelligence for the {E}-Age, 2, 755–759.
[63]. Maldonado, S., & Weber, R. (2009). A wrapper method for feature selection using Support Vector Machines. Information Sciences, 179(13), 2208–2217.
[64]. Meyer, P. E., Schretter, C., & Bontempi, G. (2008). Information-Theoretic Feature Selection in Microarray Data Using Variable Complementarity. IEEE Journal of
Selected Topics in Signal Processing, 2(3), 261–274.
[65]. Mylonakis, J., & Diacogiannis, G. (2010). Evaluating the likelihood of using linear discriminant analysis as a commercial bank card owners credit scoring model.
International Business Research, 3(2), 9–21.
[66]. Nakariyakul, S., & Casasent, D. P. (2009). An improvement on floating search algorithms for feature subset selection. Pattern Recognition, 42(9), 1932–1940.
[67]. Nello Cristianini, J. S.-T. (2000). An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods. Cambridge University Press.
[68]. Nixon, M., & Aguado, A. (2012). Feature Extraction and Image Processing for
Computer Vision. Feature Extraction & Image Processing for Computer Vision,
Second Edition.
[69]. Nziga, J. (2015). Incremental Sparse-PCA Feature Extraction For Data Streams. PhD Thesis, Nova Southeastern University.
[70]. Oreski, S., & Oreski, G. (2014). Genetic algorithm-based heuristic for feature selection in credit risk assessment. Expert Systems with Applications, 41(4), 2052– 2064.
[71]. Orsenigo, C., & Vercellis, C. (2012). An effective double-bounded tree-connected Isomap algorithm for microarray data classification. Pattern Recognition Letters,
33(1), 9–16.
[72]. Park, C. H., & Lee, M. (2008). On applying linear discriminant analysis for multi- labeled problems. Pattern Recognition Letters, 29(7), 878–887.