Luận án tiến sĩ nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NộI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU Hà Nội – 2018 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thực dƣới hƣớng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực chƣa đƣợc công bố cơng trình khác trƣớc Tác giả Hà Văn Sang i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Luận án đƣợc thực Bộ môn Hệ thống Thông tin-Khoa CNTT, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội, dƣới hƣớng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Trƣớc tiên, xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Hai Thầy tận tụy dạy, giúp đỡ từ định hƣớng nghiên cứu đến việc giải vấn đề khó khăn q trình nghiên cứu Khơng lĩnh vực nghiên cứu khoa học, Thầy bảo cho tơi nhiều điều sống Đó học vơ q giá hữu ích cho thân tơi thời gian tới Tơi xin gửi lời cảm ơn tới tập thể Thầy, Cô giáo, nhà khoa học khoa CNTT truyền đạt cho kiến thức quý báu tạo điều kiện thuận lợi cho trình học tập nghiên cứu Tơi xin gửi lời cảm ơn tới Thầy, Cô giáo Bộ môn Tin học Tài kế tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, ngƣời đồng nghiệp tạo điều kiện giúp đỡ mặt thời gian nhƣ xếp công việc trình tơi làm nghiên cứu sinh Tơi gửi lời cảm ơn tất bạn bè, ngƣời giúp đỡ hỗ trợ tơi suốt q trình nghiên cứu Cuối cùng, tơi vơ biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt vợ tôi, ngƣời động viên, tạo điều kiện thuận lợi để tơi hồn thành chƣơng trình nghiên cứu sinh Hà Văn Sang Hà Nội, 1-12-2017 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT Rút gọn đặc trƣng ngày đƣợc sử dụng rộng rãi nhằm tăng hiệu nhƣ giảm chi phí q trình phân tích liệu Mục tiêu việc rút gọn đặc trƣng xác định giảm bớt đặc trƣng liệu gốc dựa việc biến đổi không gian đặc trƣng lựa chọn đặc trƣng quan trọng, loại bỏ đặc trƣng khơng liên quan, dƣ thừa nhằm giảm kích thƣớc liệu, từ cải thiện hiệu quả, độ xác mơ hình phân tích liệu Các kỹ thuật rút gọn đặc trƣng đƣợc áp dụng rộng rãi nhiều ứng dụng khác nhƣ: cho điểm tín dụng, phân tích liệu ung thƣ, tìm kiếm thơng tin, phân lớp văn Tuy nhiên, không tồn kỹ thuật rút gọn đặc trƣng mà hiệu miền liệu Trong luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích cải tiến số kỹ thuật rút gọn đặc trƣng nhằm tăng hiệu kỹ thuật phân tích liệu có theo hai hƣớng tiếp cận lựa chọn đặc trƣng trích xuất đặc trƣng Có nhiều cách tiếp cận rút gọn đặc trƣng khác đƣợc giới thiệu, nhiên cách tiếp cận tồn số hạn chế áp dụng với miền liệu khác Chúng đề xuất phƣơng pháp lựa chọn đặc trƣng có tên FRFE (Fast Recursive Feature Elimination) dựa hƣớng tiếp cận đóng gói (wrapper) với lõi thủ tục loại bỏ đặc trƣng đệ quy Để tăng hiệu việc lựa chọn đặc trƣng, đề xuất hàm đánh giá (ranking) đặc trƣng thủ tục lựa chọn đặc trƣng tƣơng ứng Hơn nữa, đặc điểm phƣơng pháp lựa chọn đặc trƣng đóng gói chi phí tính tốn cao, áp dụng thƣ viện xử lý phân tán để cải thiện hiệu thuật toán đề xuất Kết thực nghiệm thuật toán FRFE (đƣợc viết bằngngôn ngữ R) hai liệu tín dụng Đức Úc cho thấy thuật tốn đề xuất cải thiện đƣợc thời gian chạy so với thuật toán sở đạt kết khả quan so với kỹ thuật có Theo hƣớng tiếp cận trích xuất đặc trƣng, chúng tơi đề xuất phƣơng pháp trích xuất đặc trƣng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lƣợng đặc trƣng dựa kỹ thuật hàm nhân PCA Đóng góp phƣơng iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com pháp đề xuất xây dựng hàm nhân dựa việc kết hợp có định hƣớng số hàm nhân bản[67] Kết thực nghiệm thuật toán C-KPCA bốn liệu ung thƣ cho thấy thuật toán đề xuất cho kết ổn định tốt so với phƣơng pháp khác nhiều trƣờng hợp Từ khóa: khai phá liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng,rút gọn đặc trưng, KPCA iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VIII DANH MỤC HÌNH ẢNH X DANH MỤC BẢNG BIỂU XII MỞ ĐẦU Tính cấp thiết luận án Mục tiêu luận án Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Đóng góp luận án Bố cục luận án CHƢƠNG TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƢNG 1.1 Rút gọn đặc trƣng 1.2 Lựa chọn đặc trƣng 1.3 1.4 1.2.1 Mục tiêu lựa chọn đặc trƣng 1.2.2 Phân loại kỹ thuật lựa chọn đặc trƣng 1.2.3 Các thành phần lựa chọn đặc trƣng 1.2.4 Thủ tục lựa chọn đặc trƣng 12 1.2.5 Các mơ hình lựa chọn đặc trƣng 13 Trích xuất đặc trƣng 16 1.3.1 Mục tiêu trích xuất đặc trƣng 17 1.3.2 Phân loại kỹ thuật trích xuất đặc trƣng 17 Một số nghiên cứu rút gọn đặc trƣng 19 1.4.1 Hƣớng nghiên cứu lựa chọn đặc trƣng 19 1.4.2 Hƣớng nghiên cứu trích xuất đặc trƣng 28 1.4.3 Phân tích đánh giá 30 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.5 Kết luận chƣơng 31 CHƢƠNG KỸ THUẬT LỰA CHỌN ĐẶC TRƢNG TRONG BÀI TỐN CHO ĐIỂM TÍN DỤNG 32 2.1 Bài tốn cho điểm tín dụng 32 2.2 Các nghiên cứu liên quan 35 2.3 Phƣơng pháp đề xuất 37 2.4 2.5 2.3.1 Sơ đồ hệ thống lựa chọn đặc trƣng 37 2.3.2 Đề xuất hàm đánh giá chiến lƣợc tìm kiếm đặc trƣng phù hợp 38 2.3.3 Cải tiến tốc độ xử lý thƣ viện H20 45 Thực nghiệm kết 48 2.4.1 Thiết lập thực nghiệm 48 2.4.2 Dữ liệu thực nghiệm 49 2.4.3 Đánh giá hiệu phân lớp 49 2.4.4 Kết thực nghiệm 53 Kết luận chƣơng 66 CHƢƠNG KỸ THUẬT TRÍCH XUẤT ĐẶC TRƢNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƢ 68 3.1 Bài tốn phân tích liệu ung thƣ 68 3.2 Các nghiên cứu liên quan 70 3.3 Phƣơng pháp giải 72 3.4 3.5 3.3.1 Sơ đồ hệ thống trích xuất đặc trƣng 72 3.3.2 Hàm nhân tùy chọn cho PCA 74 3.3.3 Xây dựng hàm nhân tùy chọn 78 Thực nghiệm kết 83 3.4.1 Thiết lập thực nghiệm 83 3.4.2 Dữ liệu thực nghiệm 84 3.4.3 Kết thực nghiệm 85 Kết luận chƣơng 96 KẾT LUẬN 97 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99 TÀI LIỆU THAM KHẢO 100 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC TỪ VIẾT TẮT Từ viết tắt ACO AUC BG CFS DL DT FCFS FRFE GA ICA IG KDD k-NN LDA LR MLP mRMR OLTP PCA PSO RF RG SA SBE SBG SBS SFG SFS Từ gốc Giải nghĩa Ant Colony Optimization Area under curve Bidirectional Generation Correlation-based Feature Selection Deep Learning Decision Tree Fast Correlation-based Feature Selection Fast Recursive Feature Elimination Genetic Algorithm Independent component analysis Information Gain Knowledge Discovery in Databases k-Nearest Neighbors Linear discriminant analysis Logistic Regression Multi-layer Perceptron minimum Redundancy Maximum Relevance Online transaction processing Principal Component Analysis Particle Swarm Optimization Random Forest Random Generation Simulated Annealing Sequential Backward Elimination Sequential Backward Generation Sequential Sackward Search Sequential Forward Generation Sequential forward search Tối ƣu đàn kiến Diện tích dƣới đƣờng cong Sinh tập từ hai hƣớng Lựa chọn đặc trƣng dựa tƣơng quan Học sâu Cây định Lựa chọn đặc trƣng dựa tƣơng quan nhanh Loại bỏ đặc trƣng đệ quy nhanh Thuật tốn di truyền Phân tích thành phần độc lập Độ lợi thông tin Khám phá tri thức k-láng giềng gần Phân tích biệt thức tuyến tính Hồi qui logistic Perceptron nhiều tầng Phù hợp nhiều nhất-dƣ thừa Xử lý giao dịch trực tuyến Phân tích thành phần Tối ƣu hóa bầy đàn Rừng ngẫu nhiên Sinh tập ngẫu nhiên Thuật tốn mơ tơi luyện Loại bỏ lùi Sinh tập lùi Tìm kiếm lùi Sinh tập tiến Tìm kiếm tiến viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.6Độ xác phân lớp với liệu lymphoma Kết Hình 3.6 cho thấy trình huấn luyện (train) đánh giá (validation) với số đặc trƣng khoảng từ 10-50 đặc trƣng phƣơng pháp C-KPCA sử dụng hàm nhân tùy chọn cho độ xác cao so với việc sử dụng hàm nhân Độ xác phân lớp kiểm tra (test) phân lớp rừng ngẫu nhiên (RF) máy vector hỗ trợ (SVM) sử dụng tất đặc trƣng đƣợc so sánh với việc sử dụng 20 đặc trƣng trích xuất KPCA C-KPCA thể trongBảng 3.12 Bảng 3.12 So sánh kết phân lớp dự đoán liệu lymphoma Độ đo AUC Accuracy Precision Recall Tất đặc trƣng RF SVM 97,2 88 88,3 93,5 89,9 93,5 88,3 93,5 20 đặc trƣng (KPCA) 20 đặc trƣng (C-KPCA) RF SVM RF SVM 98,5 96,5 99,6 96,5 93,5 97,4 93,5 97,4 93,5 97,4 94 97,4 93,5 97,4 93,5 97,4 91 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.3.4 Bộ liệu ung thư tuyến tiền liệt Cuối cùng, tiến hành lựa chọn, kết hợp ba hàm nhân áp dụng liệu ung thƣ tuyến tiền liệt Kết độ xác phân lớp q trình huấn luyện đánh giá để chọn hàm nhân tốt đƣợc thể bảng Bảng 3.13 Kết huấn luyện lựa chọn hàm nhân với ung thƣ tuyến tiền liệt Số đặc trƣng 10 15 20 50 100 200 500 K1+K2+K3 82,89 88,28 95,00 94,31 97,11 99,10 100,00 100,00 98,48 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 84,25 68,73 84,30 86,03 84,81 94,12 84,81 94,12 87,34 94,41 87,34 95,88 86,52 96,13 88,58 100,00 86,90 100,00 K1+K2*K3 65,88 89,17 94,41 94,12 96,08 99,80 99,02 95,44 98,48 Tƣơng tự nhƣ liệu trƣớc, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trƣờng hợp So sánh hàm nhân tùy chọn với hàm nhân có kết nhƣ sau: Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thƣ tiền liệt tuyến Số đặc trƣng 10 15 20 50 100 200 500 K1(Rbf) 0.8755 0.9123 0.9412 0.9451 0.9426 0.9755 0.9593 1.0000 1.0000 K2(Poly) 0.8745 0.9299 0.9515 0.9623 0.9804 0.9902 1.0000 0.9377 0.9078 Hàm nhân K3(Sigmoid) 0.8745 0.9275 0.9510 0.9637 0.9745 0.9902 1.0000 0.9686 0.9245 Combined 0.8289 0.8828 0.9520 0.9641 0.9711 0.9910 1.0000 1.0000 0.9848 92 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.7 So sánh độ xác phân lớp với liệu ung thƣ tuyến tiền liệt Với ung thƣ tuyến tiền liệt, việc sử dụng đặc trƣng trích xuất CKPCA cho độ xác phân lớp ngang cao số trƣờng hợp so với việc sử dụng hàm nhân Bảng 3.15 So sánh kết phân lớp dự đoán liệu ung thƣ tuyến tiền liệt Độ đo AUC Accuracy Precision Recall Tất đặc trƣng RF SVM 92,8 90,2 90,2 90,2 90,3 90,3 90,2 90,2 20 đặc trƣng (KPCA) 20 đặc trƣng (C-KPCA) RF SVM RF SVM 93,8 91,2 91 91,3 83,3 91,2 86,3 91,2 83,5 91,3 86,3 91,2 83,3 91,2 86,3 91,2 Tiến hành so sánh hiệu phân lớp với bốn liệu ung thƣ cho kết nhƣ Hình 3.8 93 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.8 So sánh hiệu phân lớp bốn liệu ung thƣ Trong thực nghiệm thực bốn liệu ung thƣ nói trên, phƣơng pháp C-KPCA với hàm nhân đƣợc đề xuất thƣờng xuyên cho độ xác dự đoán cao so với phƣơng pháp KPCA truyền thống sử dụng hàm nhân sở Có thể thấy phƣơng pháp C-KPCA cho kết ổn định Bảng 3.16So sánh phƣơng pháp đề xuất(C-KPCA)với phƣơng pháp lựa chọn đặc trƣngkhác Phƣơng pháp Colon Tumor Số Độ đặc trƣng xác Leukemia Số Độ đặc trƣng xác Lymphoma Số Độ đặc trƣng xác Prostate Số Độ đặc trƣng xác 94 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PLSDR [52] GEM [38] IWSS3-MB-NB [92] DRF0-CFS [13] BDE-SVMRankf [7] C-KPCA 20 83,5 91,2 20 97,1 91,5 20 93,0 93,3 20 91,7 - 5,2 86 6,4 97,1 - - 5,6 91,1 10 15 90,0 75 90,3 13 20 91,18 82,4 72,2 11 93,33 92,9 96,1 113 15 85,29 97,1 92,2 Bảng 3.16 thể độ xác phân lớp phƣơng pháp đề xuất phƣơng pháp lựa chọn đặc trƣng phổ biến Với liệu ung thƣ ruột kết, việc phân lớp sử dụng 15 đặc trƣng đƣợc trích xuất phƣơng pháp C-KPCA chúng tơi cho độ xác cao bốn phƣơng pháp khác là: PLSDR [52], IWSS3-MB-NB [92], DRF0-CFS [13] BDE-SVMRankf[7] Trong đó, với liệu bạch cầu kết khơng đƣợc cao phƣơng pháp khác liệu không phù hợp với phƣơng pháp trích xuất đặc trƣng chúng tơi So sánh liệu máu trắng ung thƣ tiền liệt tuyến, cho thấy với 15 đặc trƣng đƣợc trích xuất độ xác phƣơng pháp đề xuất cao phƣơng pháp khác Chúng so sánh kết phƣơng pháp C-KPCA với kết mơ hình trích chọn đặc trƣng dựa học thƣa nhƣ Lasso, SRC-LatLRR [28], HLR [42] Kết đƣợc thể Bảng 3.17 Bảng 3.18 Bảng 3.17 So sánh C-KPCA với phƣơng pháp khác hai liệu Colon Prostate Phƣơng pháp Colon Tumor Prostate SVM 85,48 91,18 LASSO 85.48 91.91 SRC 85.48 94,85 SRC-LatLRR 90.32 94,12 C-KPCA 90,3 92,2 95 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết Bảng 3.17 cho thấy với liệu Colon tumor, phƣơng pháp C-KPCA cho độ xác tƣơng đƣơng phƣơng pháp SRC-LatLRR cao ba phƣơng pháp SVM, LASSO SRC Còn với liệu Prostate, phƣơng pháp CKPCA cho kết cao hai phƣơng pháp SVM LASSO Bảng 3.18 So sánh C-KPCA với phƣơng pháp khác hai liệu Lymphoma Prostate Phƣơng pháp Lymphoma Prostate LASSO 91,11 92,40 L1/2 91,2 92.18 SCAD-L2 92,99 91,33 HLR 94,23 93,68 C-KPCA 96,1 92,2 Phƣơng pháp C-KPCA cho kết cao phƣơng pháp khác so sánh với liệu Lymphoma Từ kết thấy phƣơng pháp CKPCA thực trích xuất đặc trƣng cho kết phân tốt với nhiều liệu ung thƣ 3.5 Kết luận chƣơng Trong chƣơng này, chúng tơi tập trung vào việc tìm hiểu cách tiếp cận hàm nhân đề xuất phƣơng pháp C-KPCA sử dụng hàm nhân đƣợc kết hợp từ hàm nhân khác Hiệu độ tin cậy hàm nhân đƣợc xác định thông qua thực nghiệm Cụ thể, phƣơng pháp đề xuất đƣợc thực nghiệm bốn liệu ung thƣ đƣợc dùng phổ biến So sánh kết phân lớp sử dụng hàm nhân tùy chọn ba hàm nhân sở khác cho thấy hàm nhân thƣờng xuyên cho độ xác cao Kết cho thấy độ xác phân lớp sử dụng đặc trƣng đƣợc trích xuất C-KPCA đƣợc cải thiện so với phƣơng pháp KPCA sử dụng hàm nhân số phƣơng pháp lựa chọn đặc trƣng đƣợc đề xuất trƣớc 96 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Với miền ứng dụng rủi ro tín dụng, số lƣợng đặc trƣng không nhiều nhƣng số lƣợng ghi tƣơng đối lớn so với số đặc trƣng Nhiệm vụ phải loại bỏ đặc trƣng không liên quan, dƣ thừa tìm đặc trƣng tốt cho q trình phân lớp Chúng tơi sử dụng phƣơng pháp lựa chọn đặc trƣng FRFE phân lớp rừng ngẫu dựa chế phân tán song song để xây dựng mơ hình đánh giá tín dụng Các kết thực nghiệm cho thấy độ xác phân lớp sử dụng đặc trƣng lựa chọn phƣơng pháp đề xuất đƣợc cải thiện tƣơng đối khả quan Tiêu chí xếp hạng đặc trƣng đƣợc đề xuất nhằm giúp cải tiến độ xác nhƣ làm giảm thời gian thực kỹ thuật phân lớp Ngoài ra, thời gian chạy đƣợc giảm xuống đáng kể áp dụng thủ tục xử lý song song Với việc phân tích liệu ung thƣ có số lƣợng đặc trƣng lớn so với số ghi, đề xuất kỹ thuật trích xuất đặc trƣng có tên C-KPCA nhằm làm giảm số lƣợng đặc trƣng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất chúng tơi xây dựng hàm nhân dựa việc kết hợp số hàm nhân Chúng tiến hành thực nghiệm 04 liệu ung thƣ so sánh kết sử dụng hàm nhân đề xuất với hàm nhân nhƣ so sánh với số phƣơng pháp lựa chọn đặc trƣng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phƣơng pháp khác số trƣờng hợp Hƣớng nghiên cứu Các kết nghiên cứu lựa chọn đặc trƣng tập trung xây dựng hàm đánh giá chủ yếu dựa độ xác phân lớp.Trong số nghiên cứu gần đâycho thấyviệc sử độ đo AUC tốt so với độ xác phân tích trênbộ liệu đa lớp không cân bằng, hàm đánh giá sử dụng độ đo nhiên mức độ ảnh hƣởng chƣa đƣợc đánh giá cách độc lập Do đó, nghiên cứu tiếp theo, dự kiến tiến 97 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hành khảo sát kỹ ảnh hƣởng độ đo AUC nhằm tăng hiệu hàm đánh giá Các kết nghiên cứu trích xuất đặc trƣng dừng lại việc kết hợp thủ công hàm nhân để có đƣợc hàm nhân cho KPCA phân tích liệu ung thƣ.Chúng tơi khảo sát nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máynhằm tự động xây dựng hàm nhân dựa việc kết hợp hàm nhân phù hợp với loại liệu cần phân tích 98 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1].Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan (2016) “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016 (Scopus4) [SANGHV2] Ha Van Sang, Nguyen Ha Nam, & Bao, H N T (2017) A hybrid feature selection method for credit scoring EAI Endorsed Trans ContextAware Syst & Appl., 4(11), e2.(DBLP5) Hội thảo quốc tế: [SANGHV3] Van-Sang Ha and Ha-Nam Nguyen (2016) “Credit scoring with a feature selection approach based deep learning”,in MATEC Web of Conferences, vol 54, p 05004.(Scopus) [SANGHV4] Van-Sang Ha and Ha-Nam Nguyen (2016) “C-KPCA: Custom Kernel PCA for Cancer Classification”,in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp 459–467(Scopus; DBLP) [SANGHV5] Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”,in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp 133–142.(Scopus; DBLP) https://www.scopus.com/authid/detail.uri?authorId=57190294285 http://dblp.uni-trier.de/pers/hd/h/Ha:Van=Sang 99 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] • Định, V V (2016) Rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận tập thô dung sai Luận án tiến sĩ, Học viện Khoa học Cơng nghệ [2] • Dƣơng, H Đ (2015) Một số phương pháp trích chọn đặc trưng phát đám cháy qua liệu ảnh Luận án tiến sĩ, Học viện Kỹ thuật Quân [3] • Hƣơng, N T L (2016) Rút gọn thuộc tính bảng định động theo tiếp cận tập thô Luận án tiến sĩ, Học viện Khoa học Công nghệ Tiếng Anh [4] Abdou, H., & Pointon, J (2011) Credit scoring, statistical techniques and evaluation criteria : a review of the literature Intelligent Systems in Accounting, Finance and Management, 18(2–3), 59–88 [5] Agarwal, B., & Namita, M (2016) Prominent Feature Extraction for Sentiment Analysis Springer International [6] Alter, O., Brown, P O., & Botstein, D (2000) Singular value decomposition for genome-wide expression data processing and modeling Proceedings of the National Academy of Sciences of the United States of America, 97(18), 10101–6 [7] Apolloni, J., Leguizamón, G., & Alba, E (2016) Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments Applied Soft Computing Journal, 38, 922–932 [8] Aziz, R., Verma, C K., & Srivastava, N (2017) Dimension reduction methods for microarray data: a review AIMS Bioengineering, 4(2), 179–197 [9] Bae, C., Yeh, W C., Chung, Y Y., & Liu, S L (2010) Feature selection with Intelligent Dynamic Swarm and rough set Expert Systems with Applications, 37(10), 7026–7032 [10] Bair, E., Hastie, T., Paul, D., & Tibshirani, R (2006) Prediction by supervised principal components Journal of the American Statistical Association, 101(473), 119–137 [11] Bellotti, T., & Crook, J (2009) Support vector machines for credit scoring and discovery of significant features Expert Systems with Applications, 36(2 PART 2), 3302–3308 [12] Benabdeslem, K., & Hindawi, M (2014) Efficient semi-supervised feature selection: Constraint, relevance, and redundancy IEEE Transactions on Knowledge and Data Engineering, 26(5), 1131–1143 [13] Bolón-Canedo, V., Sánchez-Maro, N., & Alonso-Betanzos, a (2015) Distributed feature selection: An application to microarray data classification Applied Soft Computing, 30, 136–150 [14] Borg, I., & Groenen, P (2005) Modern Multidimensional Scaling: Theory and Applications In Chapter 10 (pp 100–131) [15] Breiman, L (2001) Random Forests Machine Learning, 45(1), 5–32 [16] Cai, X., Nie, F., & Huang, H (2007) Exact Top- k Feature Selection via l2,0-Norm Constraint Ijcai, 1240–1246 [17] Cangelosi, R., & Goriely, A (2007) Component retention in principal component analysis with application to cDNA microarray data Biology Direct, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [18] Chen, W C., Tseng, S S., & Hong, T P (2008) An efficient bit-based feature selection method Expert Systems with Applications, 34(4), 2858–2869 [19] Chen, X., Wang, L., Smith, J D., & Zhang, B (2008) Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes Bioinformatics, 24(21), 2474–2481 [20] Cortes, C., & Vapnik, V (1995) Support-vector networks Machine Learning, 20(3), 273–297 [21] Cristianini, N., & Shawe-Taylor, J (2000) An Introduction to Support Vector Machines and other kernel based learning methods Ai Magazine [22] Dawson, K., Rodriguez, R L., & Malyj, W (2005) Samle phenotype clusters in high-density oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm BMC Bioinformatics, [23] Diao, R., & Parthaláin, N S Mac (2014) Feature Selection with Harmony Search and its Applications PhD Thesis, Aberystwyth University [24] Du, L., & Shen, Y (2015) Unsupervised Feature Selection with Adaptive Structure Learning International Conference on Knowledge Discovery and Data Mining, 209– 218 [25] Ehler, M., Rajapakse, V N., Zeeberg, B R., Brooks, B P., Brown, J., Czaja, W., & Bonner, R F (2011) Nonlinear gene cluster analysis with labeling for microarray gene expression data in organ development In BMC Proceedings (Vol 5) [26] Eyben, F (2016) Real-time Speech and Music Classification by Large Audio Feature Space Extraction Springer International [27] Fawcett, T (2006) An introduction to ROC analysis Pattern Recognition Letters, 27(8), 861–874 [28] Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q (2014) Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation BioMed Research International, 2014, 1–7 [29] Ghaemi, M., & Feizi-Derakhshi, M.-R (2016) Feature selection using Forest Optimization Algorithm Pattern Recognition, 60, 121–129 [30] Ghamisi, P., & Benediktsson, J A (2015) Feature selection based on hybridization of genetic algorithm and particle swarm optimization IEEE Geoscience and Remote Sensing Letters, 12(2), 309–313 [31] Ghashami, M., & Perry, D J (2016) Streaming Kernel Principal Component Analysis, 41, 1365–1374 [32] Guyon, I., & Elisseeff, A (2003) An introduction to variable and feature selection Journal of Machine Learning Research, 3, 1157–1182 [33] Guyon, I., & Elisseeff, A (2006) An Introduction to Feature Extraction Feature Extraction - Foundations and Applications, 207(10), 740 [34] Hall, M a (1999) Correlation-based Feature Selection for Machine Learning Methodology PhD Thesis, University of Waikato [35] Hall, M., & Smith, L a (1999) Feature Selection for Machine Learning : Comparing a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature International FLAIRS Conference, [36] Hara, S., & Maehara, T (2017) Enumerate Lasso Solutions for Feature Selection Aaai, 1985–1991 [37] Harikrishna, S., Farquad, M A H., & Shabana (2012) Credit Scoring Using Support Vector Machine: A Comparative Analysis Advanced Materials Research, 433–440, 101 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6527–6533 [38] Hernandez Hernandez, J., Duval, B., & Hao, J.-K (2007) A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data In Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics (Vol 4447, pp 90–101) [39] Hochstadt, H (1989) Integral equations New York: A Wiley-Interscience Publication [40] Hofmann, T., Schölkopf, B., & Smola, A J (2008) Kernel methods in machine learning The Annals of Statistics, 36(3), 1171–1220 [41] Hua, J., Tembe, W D., & Dougherty, E R (2009) Performance of feature-selection methods in the classification of high-dimension data Pattern Recognition, 42(3), 409–424 [42] Huang, H H., Liu, X Y., & Liang, Y (2016) Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2 +2regularization PLoS ONE, 11(5), 1–15 [43] Jian, L., Li, J., Shu, K., & Liu, H (2016) Multi-label informed feature selection In IJCAI International Joint Conference on Artificial Intelligence (Vol 2016–Janua, pp 1627–1633) [44] Jiao, N., Miao, D., & Zhou, J (2010) Two novel feature selection methods based on decomposition and composition Expert Systems with Applications, 37(12), 7419– 7426 [45] Jonnalagadda, S., & Srinivasan, R (2008) Principal components analysis based methodology to identify differentially expressed genes in time-course microarray data BMC Bioinformatics, [46] Jung, M., & Zscheischler, J (2013) A guided hybrid genetic algorithm for feature selection with expensive cost functions In Procedia Computer Science (Vol 18, pp 2337–2346) [47] Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E (1997) Applications of neural blind separation to signal and image processing In 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol 1, pp 131–134) [48] Kennedy, J., & Eberhart, R (1995) Particle swarm optimization Neural Networks, 1995 Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4 [49] Koutanaei, F N., Sajedi, H., & Khanbabaei, M (2015) A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring Journal of Retailing and Consumer Services, 27, 11–23 [50] Lee, C.-P., & Leu, Y (2011) A novel hybrid feature selection method for microarray data analysis Applied Soft Computing, 11(4), 208–213 [51] Lee, C., & Lee, G G (2006) Information gain and divergence-based feature selection for machine learning-based text categorization Information Processing and Management [52] Li, G Z., Zeng, X Q., Yang, J Y., & Yang, M Q (2007) Partial Least Squares Based Dimension Reduction with Gene Selection for Tumor Classification 2007 IEEE 7th International Symposium on BioInformatics and BioEngineering [53] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R P., Tang, J., & Liu, H (2016) Feature Selection: A Data Perspective, 1–73 [54] Li, Y., Chen, C Y., & Wasserman, W W (2015) Deep feature selection: Theory and application to identify enhancers and promoters In Lecture Notes in Computer 102 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol 9029, pp 205–217) [55] Liang, D., Tsai, C.-F., & Wu, H.-T (2015) The effect of feature selection on financial distress prediction Knowledge-Based Systems, 73, 289–297 [56] Liang Sun, Shuiwang Ji, J Y (2013) Multi-Label Dimensionality Reduction Chapman and Hall/CRC [57] Lin, W Y., Hu, Y H., & Tsai, C F (2012) Machine learning in financial crisis prediction: A survey IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews [58] Ling, Y., Cao, Q Y., & Zhang, H (2011) Application of the PSO-SVM model for credit scoring Proceedings - 2011 7th International Conference on Computational Intelligence and Security, CIS 2011, 47–51 [59] Liu, H., & Motoda, H (1998) Feature Selection for Knowledge Discovery and Data Mining Springer US [60] Liu, X., Tosun, D., Weiner, M W., & Schuff, N (2013) Locally linear embedding (LLE) for MRI based Alzheimer‟s disease classification NeuroImage, 83, 148–157 [61] Liu, Y., & Schumann, M (2005) Data mining feature selection for credit scoring models Journal of the Operational Research Society, 56(9), 1099–1108 [62] M., K., A., S., & S., O (2002) Analysis of DNA microarray data using selforganizing map and kernel based clustering {ICONIP}’02 Proceedings of the 9th International Conference on Neural Information Processing Computational Intelligence for the {E}-Age, 2, 755–759 [63] Maldonado, S., & Weber, R (2009) A wrapper method for feature selection using Support Vector Machines Information Sciences, 179(13), 2208–2217 [64] Meyer, P E., Schretter, C., & Bontempi, G (2008) Information-Theoretic Feature Selection in Microarray Data Using Variable Complementarity IEEE Journal of Selected Topics in Signal Processing, 2(3), 261–274 [65] Mylonakis, J., & Diacogiannis, G (2010) Evaluating the likelihood of using linear discriminant analysis as a commercial bank card owners credit scoring model International Business Research, 3(2), 9–21 [66] Nakariyakul, S., & Casasent, D P (2009) An improvement on floating search algorithms for feature subset selection Pattern Recognition, 42(9), 1932–1940 [67] Nello Cristianini, J S.-T (2000) An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge University Press [68] Nixon, M., & Aguado, A (2012) Feature Extraction and Image Processing for Computer Vision Feature Extraction & Image Processing for Computer Vision, Second Edition [69] Nziga, J (2015) Incremental Sparse-PCA Feature Extraction For Data Streams PhD Thesis, Nova Southeastern University [70] Oreski, S., & Oreski, G (2014) Genetic algorithm-based heuristic for feature selection in credit risk assessment Expert Systems with Applications, 41(4), 2052– 2064 [71] Orsenigo, C., & Vercellis, C (2012) An effective double-bounded tree-connected Isomap algorithm for microarray data classification Pattern Recognition Letters, 33(1), 9–16 [72] Park, C H., & Lee, M (2008) On applying linear discriminant analysis for multilabeled problems Pattern Recognition Letters, 29(7), 878–887 103 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [73] Pawlak, Z (1996) Rough sets: Theoretical aspects of reasoning about data Control Engineering Practice [74] Peng, H., & Fan, Y (2016) Direct Sparsity Optimization Based Feature Selection for Multi-Class Classification Ijcai, 1918–1924 [75] Peng, H., & Fan, Y (2017) A General Framework for Sparsity Regularized Feature Selection via Iteratively Reweighted Least Square Minimization Proceedings of the 31th Conference on Artificial Intelligence (AAAI 2017), 2471–2477 [76] Peng, H., Long, F., & Ding, C (2005) Feature selection based on mutual information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy IEEE Trans on Pattern Analysis and Machine Intelligence, 27(8), 1226–1238 [77] Peng, Y., Wu, Z., & Jiang, J (2010) A novel feature selection approach for biomedical data classification Journal of Biomedical Informatics, 43(1), 15–23 [78] Piramuthu, S (2006) On preprocessing data for financial credit risk evaluation Expert Systems with Applications [79] Roy, D., Murty, K S R., & Mohan, C K (2015) Feature selection using Deep Neural Networks In 2015 International Joint Conference on Neural Networks (IJCNN) (pp 1–6) [80] Schölkopf, B., Smola, A., & Müller, K.-R (1998) Nonlinear Component Analysis as a Kernel Eigenvalue Problem Neural Computation, 10(5), 1299–1319 [81] Soliz, P., Russell, S R., Abramoff, M D., Murillo, S., Pattichis, M., & Davis, H (2008) Independent Component Analysis for Vision-inspired Classification of Retinal Images with Age-related Macular Degeneration 2008 IEEE Southwest Symposium on Image Analysis and Interpretation, 65–68 [82] Soufan, O., Kleftogiannis, D., Kalnis, P., & Bajic, V B (2015) DWFS: A wrapper feature selection tool based on a parallel Genetic Algorithm PLoS ONE, 10(2) [83] Stańczyk, U., & Jain, L C (2015) Feature Selection for Data and Pattern Recognition Studies in Computational Intelligence (Vol 584) [84] Sun, Y (2007) Iterative RELIEF for feature weighting: Algorithms, theories, and applications IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6), 1035–1051 [85] Swiniarski, R W., & Skowron, A (2003) Rough set methods in feature selection and recognition Pattern Recognition Letters, 24(6), 833–849 [86] Tang, J., Alelyani, S., & Liu, H (2014) Feature Selection for Classification: A Review Data Classification: Algorithms and Applications, 37–64 [87] Tenenbaum, J B., de Silva, V., & Langford, J C (2000) A global geometric framework for nonlinear dimensionality reduction Science (New York, N.Y.), 290(5500), 2319–23 [88] Thomas, L C (2009) Consumer credit models: Pricing, profit and portfolios Consumer Credit Models: Pricing, Profit and Portfolios [89] Unler, A., Murat, A., & Chinnam, R B (2011) Mr2PSO: A maximum relevance minimum redundancy feature selection method based on swarm intelligence for support vector machine classification Information Sciences, 181(20), 4625–4641 [90] Verónica Bolón-Canedo, Noelia Sánchez-Maro, A A.-B (2015) Feature Selection for High-Dimensional Data Springer International [91] Villacampa, O (2015) Feature Selection and Classification Methods for Decision Making: A Comparative Analysis Nova Southeastern University PhD Thesis, Nova Southeastern University 104 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [92] Wang, A., An, N., Chen, G., Yang, J., Li, L., & Alterovitz, G (2014) Incremental wrapper based gene selection with Markov blanket 2014 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) [93] Wang, H., Xu, Q., & Zhou, L (2015) Large unbalanced credit scoring using lassologistic regression ensemble PLoS ONE, 10(2) [94] Wang, J., Guo, K., & Wang, S (2010) Rough set and Tabu search based feature selection for credit scoring Procedia Computer Science, 1(1), 2425–2432 [95] Wang, J., Hedar, A.-R., Wang, S., & Ma, J (2012) Rough set and scatter search metaheuristic based feature selection for credit scoring Expert Systems with Applications, 39(6), 6123–6128 [96] Wei, X., & Yu, P S (2016) Unsupervised Feature Selection by Preserving Stochastic Neighbors, 51(6), 995–1003 [97] Xie, J., & Wang, C (2011) Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases Expert Systems with Applications, 38(5), 5809–5815 [98] Xu, Z., Huang, G., Weinberger, K Q., & Zheng, A X (2014) Gradient boosted feature selection Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’14, 522–531 [99] Yang, J., Frangi, A F., Yang, J Y., Zhang, D., & Jin, Z (2005) KPCA plus LDA: A complete kernel fisher discriminant framework for feature extraction and recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(2), 230–244 [100] Yao, P Y P (2009) Feature Selection Based on SVM for Credit Scoring 2009 International Conference on Computational Intelligence and Natural Computing, 2, 44–47 [101] Yusta, S C (2009) Different metaheuristic strategies to solve the feature selection problem Pattern Recognition Letters, 30(5), 525–534 [102] Zainudin, M., Sulaiman, M., Mustapha, N., Perumal, T., Nazri, A., Mohamed, R., & Manaf, S (2017) Feature Selection Optimization using Hybrid Relief-f with Selfadaptive Differential Evolution International Journal of Intelligent Engineering and Systems, 10(3), 21–29 [103] Zhang, M L., Peña, J M., & Robles, V (2009) Feature selection for multi-label naive Bayes classification Information Sciences, 179(19), 3218–3229 [104] Zhao, L., Hu, Q., & Wang, W (2015) Heterogeneous Feature Selection with MultiModal Deep Neural Networks and Sparse Group LASSO IEEE Transactions on Multimedia, 17(11), 1936–1948 [105] Zhou, S (2003) Probabilistic analysis of kernel principal components: mixture modeling and classification IEEE Transactions on Pattern Analysis, (i), 1–26 105 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... rằngrút gọn đặc trƣng chủ đề để nhà nghiên cứu nƣớc tiếp tục nghiên cứu phát triển Mục tiêu luận án Mục tiêu luận án nghiên cứu cải tiến số kỹ thuật rút gọn đặc trƣng tiên tiến phân lớp liệu. .. đặc trưng cho phân lớp liệu? ?? Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu luận án kỹ thuật rút gọn đặc trƣng cho toán phân lớp, theo hai hƣớng tiếp cận lựa chọn đặc trƣng trích xuất đặc. .. gian đặc trƣng - Xây dựng hàm nhân phù hợp với liệu cần phân tích Với mục tiêu cải tiến hiệu kỹ thuật phân tích liệu, lựa chọn đề tài luận án với tiêu đề: "Nghiên cứu cải tiến kỹ thuật rút gọn đặc

Tiêu đề	Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu
Tác giả	Hà Văn Sang
Người hướng dẫn	PGS. TS. Nguyễn Hà Nam, PGS. TS. Nguyễn Hải Châu
Trường học	Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận án tiến sĩ
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	120
Dung lượng	3,22 MB