1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Án Tiến Sĩ Công Nghệ Thông Tin Nghiên Cứu Cải Tiến Các Kỹ Thuật Rút Gọn Đặc Trưng Cho Phân Lớp Dữ Liệu.docx

119 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Cải Tiến Các Kỹ Thuật Rút Gọn Đặc Trưng Cho Phân Lớp Dữ Liệu
Tác giả Hà Văn Sang
Người hướng dẫn PGS. TS. Nguyễn Hà Nam, PGS. TS. Nguyễn Hải Châu
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại luận án
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 119
Dung lượng 2,22 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU Hà Nội – 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tơi thực hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực chưa cơng bố cơng trình khác trước Tác giả Hà Văn Sang i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Hai Thầy tận tụy dạy, giúp đỡ từ định hướng nghiên cứu đến việc giải vấn đề khó khăn q trình nghiên cứu Không lĩnh vực nghiên cứu khoa học, Thầy cịn bảo cho tơi nhiều điều sống Đó học vơ q giá hữu ích cho thân tơi thời gian tới Tôi xin gửi lời cảm ơn tới tập thể Thầy, Cô giáo, nhà khoa học khoa CNTT truyền đạt cho kiến thức quý báu tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy, Cơ giáo Bộ mơn Tin học Tài kế tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, người đồng nghiệp tạo điều kiện giúp đỡ mặt thời gian xếp cơng việc q trình tơi làm nghiên cứu sinh Tôi gửi lời cảm ơn tất bạn bè, người giúp đỡ hỗ trợ tơi suốt q trình nghiên cứu Cuối cùng, tơi vơ biết ơn gia đình, bố mẹ tơi, anh chị em, đặc biệt vợ tôi, người động viên, tạo điều kiện thuận lợi để tơi hồn thành chương trình nghiên cứu sinh Hà Văn Sang Hà Nội, 1-12-2017 ii TĨM TẮT Rút gọn đặc trưng ngày sử dụng rộng rãi nhằm tăng hiệu giảm chi phí q trình phân tích liệu Mục tiêu việc rút gọn đặc trưng xác định giảm bớt đặc trưng liệu gốc dựa việc biến đổi không gian đặc trưng lựa chọn đặc trưng quan trọng, loại bỏ đặc trưng khơng liên quan, dư thừa nhằm giảm kích thước liệu, từ cải thiện hiệu quả, độ xác mơ hình phân tích liệu Các kỹ thuật rút gọn đặc trưng áp dụng rộng rãi nhiều ứng dụng khác như: cho điểm tín dụng, phân tích liệu ung thư, tìm kiếm thông tin, phân lớp văn Tuy nhiên, không tồn kỹ thuật rút gọn đặc trưng mà hiệu miền liệu Trong luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích cải tiến số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu kỹ thuật phân tích liệu có theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng Có nhiều cách tiếp cận rút gọn đặc trưng khác giới thiệu, nhiên cách tiếp cận tồn số hạn chế áp dụng với miền liệu khác Chúng đề xuất phương pháp lựa chọn đặc trưng có tên FRFE (Fast Recursive Feature Elimination) dựa hướng tiếp cận đóng gói (wrapper) với lõi thủ tục loại bỏ đặc trưng đệ quy Để tăng hiệu việc lựa chọn đặc trưng, đề xuất hàm đánh giá (ranking) đặc trưng thủ tục lựa chọn đặc trưng tương ứng Hơn nữa, đặc điểm phương pháp lựa chọn đặc trưng đóng gói chi phí tính tốn cao, áp dụng thư viện xử lý phân tán để cải thiện hiệu thuật toán đề xuất Kết thực nghiệm thuật toán FRFE (được viết ngơn ngữ R) hai liệu tín dụng Đức Úc cho thấy thuật toán đề xuất cải thiện thời gian chạy so với thuật toán sở đạt kết khả quan so với kỹ thuật có Theo hướng tiếp cận trích xuất đặc trưng, chúng tơi đề xuất phương pháp trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Đóng góp phương pháp đề xuất iii xây dựng hàm nhân dựa việc kết hợp có định hướng số hàm nhân [67] Kết thực nghiệm thuật toán C-KPCA bốn liệu ung thư cho thấy thuật toán đề xuất cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Từ khóa: khai phá liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA iv MỤC LỤC LỜI CAM ĐOAN .I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VII DANH MỤC HÌNH ẢNH .IX DANH MỤC BẢNG BIỂU XI MỞ ĐẦU Tính cấp thiết luận án Mục tiêu luận án Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Đóng góp luận án Bố cục luận án CHƯƠNG TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG 1.1 Rút gọn đặc trưng 1.2 Lựa chọn đặc trưng 1.3 1.4 1.2.1 Mục tiêu lựa chọn đặc trưng 1.2.2 Phân loại kỹ thuật lựa chọn đặc trưng 1.2.3 Các thành phần lựa chọn đặc trưng 1.2.4 Thủ tục lựa chọn đặc trưng 12 1.2.5 Các mơ hình lựa chọn đặc trưng 13 Trích xuất đặc trưng 16 1.3.1 Mục tiêu trích xuất đặc trưng 17 1.3.2 Phân loại kỹ thuật trích xuất đặc trưng 17 Một số nghiên cứu rút gọn đặc trưng 19 1.4.1 Hướng nghiên cứu lựa chọn đặc trưng 19 1.4.2 Hướng nghiên cứu trích xuất đặc trưng 27 1.4.3 Phân tích đánh giá 30 v 1.5 Kết luận chương 31 CHƯƠNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TỐN CHO ĐIỂM TÍN DỤNG 32 2.1 Bài tốn cho điểm tín dụng 32 2.2 Các nghiên cứu liên quan 35 2.3 Phương pháp đề xuất 37 2.4 2.5 2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng 37 2.3.2 Đề xuất hàm đánh giá chiến lược tìm kiếm đặc trưng phù hợp 38 2.3.3 Cải tiến tốc độ xử lý thư viện H20 45 Thực nghiệm kết 48 2.4.1 Thiết lập thực nghiệm 48 2.4.2 Dữ liệu thực nghiệm 49 2.4.3 Đánh giá hiệu phân lớp 49 2.4.4 Kết thực nghiệm 53 Kết luận chương 66 CHƯƠNG KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƯ 67 3.1 Bài tốn phân tích liệu ung thư 67 3.2 Các nghiên cứu liên quan 69 3.3 Phương pháp giải 71 3.4 3.5 3.3.1 Sơ đồ hệ thống trích xuất đặc trưng 71 3.3.2 Hàm nhân tùy chọn cho PCA 73 3.3.3 Xây dựng hàm nhân tùy chọn 77 Thực nghiệm kết 82 3.4.1 Thiết lập thực nghiệm 82 3.4.2 Dữ liệu thực nghiệm 82 3.4.3 Kết thực nghiệm 84 Kết luận chương 96 KẾT LUẬN 97 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99 TÀI LIỆU THAM KHẢO 100 vi DANH MỤC TỪ VIẾT TẮT Từ viết tắt ACO AUC BG CFS DL DT FCFS FRFE GA ICA IG KDD k-NN LDA LR MLP mRMR OLTP PCA PSO RF RG SA SBE SBG SBS SFG Từ gốc Giải nghĩa Ant Colony Optimization Area under curve Bidirectional Generation Correlation-based Feature Selection Deep Learning Decision Tree Fast Correlation-based Feature Selection Fast Recursive Feature Elimination Genetic Algorithm Independent component analysis Information Gain Knowledge Discovery in Databases k-Nearest Neighbors Linear discriminant analysis Logistic Regression Multi-layer Perceptron minimum Redundancy Maximum Relevance Online transaction processing Principal Component Analysis Particle Swarm Optimization Random Forest Random Generation Simulated Annealing Sequential Backward Elimination Sequential Backward Generation Sequential Sackward Search Sequential Forward Generation Tối ưu đàn kiến Diện tích đường cong Sinh tập từ hai hướng Lựa chọn đặc trưng dựa tương quan Học sâu Cây định Lựa chọn đặc trưng dựa tương quan nhanh Loại bỏ đặc trưng đệ quy nhanh Thuật toán di truyền Phân tích thành phần độc lập Độ lợi thơng tin Khám phá tri thức vii k-láng giềng gần Phân tích biệt thức tuyến tính Hồi qui logistic Perceptron nhiều tầng Phù hợp nhiều nhất-dư thừa Xử lý giao dịch trực tuyến Phân tích thành phần Tối ưu hóa bầy đàn Rừng ngẫu nhiên Sinh tập ngẫu nhiên Thuật tốn mơ tơi luyện Loại bỏ lùi Sinh tập lùi Tìm kiếm lùi Sinh tập tiến SFS SVD SVM Sequential forward search Singular Value Decomposition Support Vector Machine viii Tìm kiếm tiến Phân tích giá trị riêng Máy véc tơ hỗ trợ

Ngày đăng: 15/05/2023, 10:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1]. Định, V. V. (2016). Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai. Luận án tiến sĩ, Học viện Khoa học và Công nghệ Sách, tạp chí
Tiêu đề: Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếpcận tập thô dung sai
Tác giả: Định, V. V
Năm: 2016
[19]. Chen, X., Wang, L., Smith, J. D., & Zhang, B. (2008). Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes. Bioinformatics, 24(21), 2474–2481.[ [ [ Sách, tạp chí
Tiêu đề: Bioinformatics, 24
Tác giả: Chen, X., Wang, L., Smith, J. D., & Zhang, B
Năm: 2008
20]. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297 Sách, tạp chí
Tiêu đề: Machine Learning, 20
Tác giả: Cortes, C., & Vapnik, V
Năm: 1995
22]. Dawson, K., Rodriguez, R. L., & Malyj, W. (2005). Samle phenotype clusters in high- density oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm. BMC Bioinformatics, 6.[ [ Sách, tạp chí
Tiêu đề: BMC Bioinformatics, 6
Tác giả: Dawson, K., Rodriguez, R. L., & Malyj, W
Năm: 2005
23]. Diao, R., & Parthaláin, N. S. Mac. (2014). Feature Selection with Harmony Search and its Applications. PhD Thesis, Aberystwyth University Sách, tạp chí
Tiêu đề: Feature Selection with Harmony Search andits Applications
Tác giả: Diao, R., & Parthaláin, N. S. Mac
Năm: 2014
24]. Du, L., & Shen, Y. (2015). Unsupervised Feature Selection with Adaptive Structure Learning. International Conference on Knowledge Discovery and Data Mining, 209– Sách, tạp chí
Tiêu đề: International Conference on Knowledge Discovery and Data Mining
Tác giả: Du, L., & Shen, Y
Năm: 2015
26]. Eyben, F. (2016). Real-time Speech and Music Classification by Large Audio Feature Space Extraction. Springer International Sách, tạp chí
Tiêu đề: Real-time Speech and Music Classification by Large Audio FeatureSpace Extraction
Tác giả: Eyben, F
Năm: 2016
27]. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874 Sách, tạp chí
Tiêu đề: Pattern Recognition Letters,27
Tác giả: Fawcett, T
Năm: 2006
28]. Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q. (2014). Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation. BioMed Research International, 2014, 1–7.[ [ Sách, tạp chí
Tiêu đề: BioMed Research International, 2014
Tác giả: Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q
Năm: 2014
29]. Ghaemi, M., & Feizi-Derakhshi, M.-R. (2016). Feature selection using Forest Optimization Algorithm. Pattern Recognition, 60, 121–129 Sách, tạp chí
Tiêu đề: Pattern Recognition, 60
Tác giả: Ghaemi, M., & Feizi-Derakhshi, M.-R
Năm: 2016
30]. Ghamisi, P., & Benediktsson, J. A. (2015). Feature selection based on hybridization of genetic algorithm and particle swarm optimization. IEEE Geoscience and Remote Sensing Letters, 12(2), 309–313.[ [ [ [ [ Sách, tạp chí
Tiêu đề: IEEE Geoscience and RemoteSensing Letters, 12
Tác giả: Ghamisi, P., & Benediktsson, J. A
Năm: 2015
31]. Ghashami, M., & Perry, D. J. (2016). Streaming Kernel Principal Component Analysis, 41, 1365–1374 Sách, tạp chí
Tiêu đề: 41
Tác giả: Ghashami, M., & Perry, D. J
Năm: 2016
32]. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.Journal of Machine Learning Research, 3, 1157–1182 Sách, tạp chí
Tiêu đề: Journal of Machine Learning Research, 3
Tác giả: Guyon, I., & Elisseeff, A
Năm: 2003
33]. Guyon, I., & Elisseeff, A. (2006). An Introduction to Feature Extraction. Feature Extraction - Foundations and Applications, 207(10), 740 Sách, tạp chí
Tiêu đề: FeatureExtraction - Foundations and Applications, 207
Tác giả: Guyon, I., & Elisseeff, A
Năm: 2006
34]. Hall, M. a. (1999). Correlation-based Feature Selection for Machine Learning.Methodology. PhD Thesis, University of Waikato Sách, tạp chí
Tiêu đề: Correlation-based Feature Selection for Machine Learning.Methodology
Tác giả: Hall, M. a
Năm: 1999
35]. Hall, M., & Smith, L. a. (1999). Feature Selection for Machine Learning ꢁ : Comparing a Correlation-based Filter Approach to the Wrapper CFS ꢁ : Correlation-based Feature.International FLAIRS Conference, 5.[ [ Sách, tạp chí
Tiêu đề: International FLAIRS Conference
Tác giả: Hall, M., & Smith, L. a
Năm: 1999
36]. Hara, S., & Maehara, T. (2017). Enumerate Lasso Solutions for Feature Selection.Aaai, 1985–1991 Sách, tạp chí
Tiêu đề: Aaai
Tác giả: Hara, S., & Maehara, T
Năm: 2017
37]. Harikrishna, S., Farquad, M. A. H., & Shabana. (2012). Credit Scoring Using Support Vector Machine: A Comparative Analysis. Advanced Materials Research, 433–440, 6527–6533 Sách, tạp chí
Tiêu đề: Advanced Materials Research, 433"–"440
Tác giả: Harikrishna, S., Farquad, M. A. H., & Shabana
Năm: 2012
[38]. Hernandez Hernandez, J., Duval, B., & Hao, J.-K. (2007). A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data. In Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics (Vol. 4447, pp.90–101).[ [ [ Sách, tạp chí
Tiêu đề: EvolutionaryComputation,Machine Learning and Data Mining in Bioinformatics
Tác giả: Hernandez Hernandez, J., Duval, B., & Hao, J.-K
Năm: 2007
39]. Hochstadt, H. (1989). Integral equations. New York: A Wiley-Interscience Publication Sách, tạp chí
Tiêu đề: Integral equations
Tác giả: Hochstadt, H
Năm: 1989

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w