1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Án Tiến Sĩ Công Nghệ Thông Tin Nghiên Cứu Cải Tiến Các Kỹ Thuật Rút Gọn Đặc Trưng Cho Phân Lớp Dữ Liệu.docx

119 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU Hà Nội – 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tơi thực hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu kết trình bày luận án trung thực chưa cơng bố cơng trình khác trước Tác giả Hà Văn Sang i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Trước tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Hai Thầy tận tụy dạy, giúp đỡ từ định hướng nghiên cứu đến việc giải vấn đề khó khăn q trình nghiên cứu Không lĩnh vực nghiên cứu khoa học, Thầy cịn bảo cho tơi nhiều điều sống Đó học vơ q giá hữu ích cho thân tơi thời gian tới Tôi xin gửi lời cảm ơn tới tập thể Thầy, Cô giáo, nhà khoa học khoa CNTT truyền đạt cho kiến thức quý báu tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy, Cơ giáo Bộ mơn Tin học Tài kế tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, người đồng nghiệp tạo điều kiện giúp đỡ mặt thời gian xếp cơng việc q trình tơi làm nghiên cứu sinh Tôi gửi lời cảm ơn tất bạn bè, người giúp đỡ hỗ trợ tơi suốt q trình nghiên cứu Cuối cùng, tơi vơ biết ơn gia đình, bố mẹ tơi, anh chị em, đặc biệt vợ tôi, người động viên, tạo điều kiện thuận lợi để tơi hồn thành chương trình nghiên cứu sinh Hà Văn Sang Hà Nội, 1-12-2017 ii TĨM TẮT Rút gọn đặc trưng ngày sử dụng rộng rãi nhằm tăng hiệu giảm chi phí q trình phân tích liệu Mục tiêu việc rút gọn đặc trưng xác định giảm bớt đặc trưng liệu gốc dựa việc biến đổi không gian đặc trưng lựa chọn đặc trưng quan trọng, loại bỏ đặc trưng khơng liên quan, dư thừa nhằm giảm kích thước liệu, từ cải thiện hiệu quả, độ xác mơ hình phân tích liệu Các kỹ thuật rút gọn đặc trưng áp dụng rộng rãi nhiều ứng dụng khác như: cho điểm tín dụng, phân tích liệu ung thư, tìm kiếm thông tin, phân lớp văn Tuy nhiên, không tồn kỹ thuật rút gọn đặc trưng mà hiệu miền liệu Trong luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích cải tiến số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu kỹ thuật phân tích liệu có theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng Có nhiều cách tiếp cận rút gọn đặc trưng khác giới thiệu, nhiên cách tiếp cận tồn số hạn chế áp dụng với miền liệu khác Chúng đề xuất phương pháp lựa chọn đặc trưng có tên FRFE (Fast Recursive Feature Elimination) dựa hướng tiếp cận đóng gói (wrapper) với lõi thủ tục loại bỏ đặc trưng đệ quy Để tăng hiệu việc lựa chọn đặc trưng, đề xuất hàm đánh giá (ranking) đặc trưng thủ tục lựa chọn đặc trưng tương ứng Hơn nữa, đặc điểm phương pháp lựa chọn đặc trưng đóng gói chi phí tính tốn cao, áp dụng thư viện xử lý phân tán để cải thiện hiệu thuật toán đề xuất Kết thực nghiệm thuật toán FRFE (được viết ngơn ngữ R) hai liệu tín dụng Đức Úc cho thấy thuật toán đề xuất cải thiện thời gian chạy so với thuật toán sở đạt kết khả quan so với kỹ thuật có Theo hướng tiếp cận trích xuất đặc trưng, chúng tơi đề xuất phương pháp trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Đóng góp phương pháp đề xuất iii xây dựng hàm nhân dựa việc kết hợp có định hướng số hàm nhân [67] Kết thực nghiệm thuật toán C-KPCA bốn liệu ung thư cho thấy thuật toán đề xuất cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Từ khóa: khai phá liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA iv MỤC LỤC LỜI CAM ĐOAN .I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VII DANH MỤC HÌNH ẢNH .IX DANH MỤC BẢNG BIỂU XI MỞ ĐẦU Tính cấp thiết luận án Mục tiêu luận án Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Đóng góp luận án Bố cục luận án CHƯƠNG TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG 1.1 Rút gọn đặc trưng 1.2 Lựa chọn đặc trưng 1.3 1.4 1.2.1 Mục tiêu lựa chọn đặc trưng 1.2.2 Phân loại kỹ thuật lựa chọn đặc trưng 1.2.3 Các thành phần lựa chọn đặc trưng 1.2.4 Thủ tục lựa chọn đặc trưng 12 1.2.5 Các mơ hình lựa chọn đặc trưng 13 Trích xuất đặc trưng 16 1.3.1 Mục tiêu trích xuất đặc trưng 17 1.3.2 Phân loại kỹ thuật trích xuất đặc trưng 17 Một số nghiên cứu rút gọn đặc trưng 19 1.4.1 Hướng nghiên cứu lựa chọn đặc trưng 19 1.4.2 Hướng nghiên cứu trích xuất đặc trưng 27 1.4.3 Phân tích đánh giá 30 v 1.5 Kết luận chương 31 CHƯƠNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TỐN CHO ĐIỂM TÍN DỤNG 32 2.1 Bài tốn cho điểm tín dụng 32 2.2 Các nghiên cứu liên quan 35 2.3 Phương pháp đề xuất 37 2.4 2.5 2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng 37 2.3.2 Đề xuất hàm đánh giá chiến lược tìm kiếm đặc trưng phù hợp 38 2.3.3 Cải tiến tốc độ xử lý thư viện H20 45 Thực nghiệm kết 48 2.4.1 Thiết lập thực nghiệm 48 2.4.2 Dữ liệu thực nghiệm 49 2.4.3 Đánh giá hiệu phân lớp 49 2.4.4 Kết thực nghiệm 53 Kết luận chương 66 CHƯƠNG KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƯ 67 3.1 Bài tốn phân tích liệu ung thư 67 3.2 Các nghiên cứu liên quan 69 3.3 Phương pháp giải 71 3.4 3.5 3.3.1 Sơ đồ hệ thống trích xuất đặc trưng 71 3.3.2 Hàm nhân tùy chọn cho PCA 73 3.3.3 Xây dựng hàm nhân tùy chọn 77 Thực nghiệm kết 82 3.4.1 Thiết lập thực nghiệm 82 3.4.2 Dữ liệu thực nghiệm 82 3.4.3 Kết thực nghiệm 84 Kết luận chương 96 KẾT LUẬN 97 DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99 TÀI LIỆU THAM KHẢO 100 vi DANH MỤC TỪ VIẾT TẮT Từ viết tắt ACO AUC BG CFS DL DT FCFS FRFE GA ICA IG KDD k-NN LDA LR MLP mRMR OLTP PCA PSO RF RG SA SBE SBG SBS SFG Từ gốc Giải nghĩa Ant Colony Optimization Area under curve Bidirectional Generation Correlation-based Feature Selection Deep Learning Decision Tree Fast Correlation-based Feature Selection Fast Recursive Feature Elimination Genetic Algorithm Independent component analysis Information Gain Knowledge Discovery in Databases k-Nearest Neighbors Linear discriminant analysis Logistic Regression Multi-layer Perceptron minimum Redundancy Maximum Relevance Online transaction processing Principal Component Analysis Particle Swarm Optimization Random Forest Random Generation Simulated Annealing Sequential Backward Elimination Sequential Backward Generation Sequential Sackward Search Sequential Forward Generation Tối ưu đàn kiến Diện tích đường cong Sinh tập từ hai hướng Lựa chọn đặc trưng dựa tương quan Học sâu Cây định Lựa chọn đặc trưng dựa tương quan nhanh Loại bỏ đặc trưng đệ quy nhanh Thuật toán di truyền Phân tích thành phần độc lập Độ lợi thơng tin Khám phá tri thức vii k-láng giềng gần Phân tích biệt thức tuyến tính Hồi qui logistic Perceptron nhiều tầng Phù hợp nhiều nhất-dư thừa Xử lý giao dịch trực tuyến Phân tích thành phần Tối ưu hóa bầy đàn Rừng ngẫu nhiên Sinh tập ngẫu nhiên Thuật tốn mơ tơi luyện Loại bỏ lùi Sinh tập lùi Tìm kiếm lùi Sinh tập tiến SFS SVD SVM Sequential forward search Singular Value Decomposition Support Vector Machine viii Tìm kiếm tiến Phân tích giá trị riêng Máy véc tơ hỗ trợ

Ngày đăng: 15/05/2023, 10:15

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w