1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

121 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả
Tác giả Võ Đức Quang
Người hướng dẫn PGS.TS. Trần Đình Khang
Trường học Đại học Bách khoa Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại Luận án tiến sĩ
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 121
Dung lượng 1,56 MB

Nội dung

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2024 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHƠNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐỐN ĐỒNG TÁC GIẢ Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH KHANG HÀ NỘI−2024 LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày luận án cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu Đại học Bách khoa Hà Nội hướng dẫn PGS.TS Trần Đình Khang Các số liệu, kết trình bày luận án hoàn toàn trung thực Các kết sử dụng tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày tháng 02 năm 2024 Nghiên cứu sinh Võ Đức Quang GIÁO VIÊN HƯỚNG DẪN KHOA HỌC PGS.TS Trần Đình Khang i LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh hành trình dài đầy khó khăn thử thách Trên hành trình đó, bên cạnh nỗ lực thân, thiếu đồng hành dẫn dắt Thầy Cơ kính mến, hỗ trợ giúp đỡ người đồng nghiệp, người bạn, người thân gia đình Tơi thực biết ơn xin trân trọng gửi lời cảm ơn sâu sắc tới người dành cho tơi giúp đỡ, chia sẻ quý giá suốt khoảng thời gian qua Đầu tiên, xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Khang, người Thầy hướng dẫn, đồng hành, dạy, nhắc nhở động viên tơi nhiều suốt q trình nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy giáo, Cô giáo giảng dạy Trường Công nghệ Thông tin Truyền thông - Đại học Bách khoa Hà Nội truyền đạt cho kiến thức quý giá, giúp mở rộng kiến thức, gợi mở ý tưởng nghiên cứu để hoàn thành luận án Tôi xin gửi lời cảm ơn đến đồng nghiệp Trường Đại học Vinh, em sinh viên hỗ trợ, chia sẻ, giúp đỡ nhiệt tình người Cuối cùng, tơi muốn nói lời biết ơn chân thành đến gia đình thân yêu, người thân bạn bè động viên, ủng hộ tơi suốt q trình nghiên cứu giúp tơi vượt qua giai đoạn khó khăn để đạt số kết bước đầu hôm ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG viii DANH MỤC THUẬT TOÁN x MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 11 1.1 Bài toán phân lớp với liệu không cân 11 1.2 Một số thuật toán liên quan 14 1.2.1 Thuật toán SVM 14 1.2.2 Thuật toán Weighted-SVM 15 1.2.3 Fuzzy SVM-CIL 16 1.2.4 Thuật toán AdaBoost 17 1.2.5 Thuật toán CNN 19 1.2.6 Phương pháp Cây định 20 1.2.7 K-nearest neighbors Tomek link 21 1.3 Bài toán dự đoán đồng tác giả 23 1.3.1 Giới thiệu 23 1.3.2 Mơ hình hóa toán 26 1.4 Phương pháp phân lớp cho toán dự đoán đồng tác giả 29 1.5 Phương pháp thực nghiệm đánh giá 32 1.5.1 Tập liệu thử nghiệm 32 1.5.2 Độ đo đánh giá 35 1.5.3 Môi trường kịch thử nghiệm 37 1.6 Kết luận Chương 38 iii CHƯƠNG CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG 39 2.1 Đặt vấn đề 39 2.2 Đề xuất thuật toán Im.AdaBoost 41 2.2.1 Phân tích thuật toán AdaBoost 41 2.2.2 Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân 43 2.2.3 Phương pháp tính trọng số tin cậy phân lớp thành viên nhạy cảm với nhãn dương 45 2.2.4 Mơ tả thuật tốn Im.AdaBoost kết hợp với WSVM 47 2.3 Thử nghiệm 49 2.3.1 Thử nghiệm liệu UCI 50 2.3.2 Thử nghiệm cho toán dự đoán đồng tác giả 52 2.4 Kết luận Chương 65 CHƯƠNG ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL 67 3.1 Đặt vấn đề 67 3.2 Đề xuất thuật tốn trọng số mờ thích nghi 69 3.2.1 Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM 69 3.2.2 Phương pháp điều chỉnh trọng số mờ cho mẫu nhạy cảm 71 3.2.3 Thuật toán phân lớp với trọng số mờ thích nghi 73 3.3 Thử nghiệm 75 3.3.1 Thử nghiệm liệu UCI 77 3.3.2 Thử nghiệm cho toán dự đoán đồng tác giả 83 3.3.3 Thử nghiệm so sánh thuật toán đề xuất 92 3.4 Kết luận Chương 94 KẾT LUẬN 96 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ 98 TÀI LIỆU THAM KHẢO 99 iv DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt AA Adamic-Adar Độ đo liên kết AA ACT Average Commute Time Độ đo liên kết ACT AdaBoost Adaptive Boosting Thuật toán học kết hợp thích nghi AdaBoost.SVM Adaptive Boosting with SVM AdaBoost kết hợp với SVM AdaBoost.W-SVM Adaptive Boosting with W-SVM AdaBoost kết hợp với W-SVM AdaBoost.DT Adaptive Boosting with Decision- AdaBoost kết hợp với DecisionTree Tree ASN Academic Social Network Mạng xã hội học thuật AUC Area Under Curve Diện tích đường cong ROC CAR CAR-based Common Neighbor In- Độ đo CAR dex) CC Common Country Độ đo liên kết cộng đồng CNN Convolutional neural network Mạng nơ-ron tích chập CN Common Neighbor Độ đo liên kết CN ENN Edited Nearest Neighbor Thuật toán giảm mẫu ENN FSVM Fuzzy Support Vector Machine Máy véc-tơ hỗ trợ mờ FSVM-CIL Fuzzy Support Vector Machines for Máy véc-tơ hỗ trợ mờ cho học liệu Class Imbalance Learning không cân G-mean Geometric Mean Độ đo trung bình hình học HSM Hierarchical structure model Mô hình cấu trúc phân cấp JC Jaccard Coefficient Độ đo liên kết JC KNN K -Nearest Neighbors K -láng giềng gần LDP local directed path Độ đo liên kết LDP LP Link Prediction Dự đoán liên kết MAG Microsoft Academic Graph Cơ sở liệu khoa học MAG MF Matrix Forest Index Độ đo liên kết MF NCL Neighborhood Cleaning Rule Thuật toán giảm mẫu NCL OSS One Sided Selection Thuật toán giảm mẫu OSS PA Preferential Attachment Độ đo liên kết PA RA Resource Allocation Độ đo liên kết RA ROC Receiver operating characteristics Đường cong đặc tính RWR Random Walk with Restart Độ đo liên kết RWR SBM Stochastic block model Mơ hình khối ngẫu nhiên SPRD Scholarly Paper Recommendation Cơ sở liệu khoa học SPRD Dataset v SVM Support Vector Machine Máy véc-tơ hỗ trợ SMOTE Synthetic Minority Over-sampling Kỹ thuật tạo mẫu tổng hợp cho lớp thiểu Technique số SP Specificity Độ đo đặc hiệu SE Sensitivity Độ đo nhạy cảm SW Similar Work Độ đo liên kết SW TLP Tomek Link Pair Cặp Tomek link W-SVM Weight Support Vector Machine Máy véc-tơ hỗ trợ có trọng số vi DANH MỤC HÌNH VẼ 1.1 Các trường hợp ξ Soft-SVM 15 1.2 Minh họa kiến trúc CNN-1D 20 1.3 Minh họa cặp TLPs 22 1.4 Tổng quan quy trình giải tốn mạng ASN 23 1.5 Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp 31 2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM 48 2.2 Các giá trị Gmean θ thu Im.AdaBoost.WSVM 55 2.3 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm I 58 2.4 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm II 61 2.5 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm III 64 3.1 Vị trí tương đối mẫu hai lớp 70 3.2 Minh họa cho bốn trường hợp mẫu nhạy cảm TLPs 72 vii DANH MỤC BẢNG 1.1 Bảng ứng viên đồng tác giả 31 1.2 Thống kê liệu báo thu thập từ năm 2000 đến năm 2017 34 1.3 Mô tả liệu UCI 34 2.1 Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM 52 2.2 Kết phân lớp tập liệu UCI 53 2.3 Mô tả liệu đồng tác giả 54 2.4 Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM 56 2.5 Kết phân lớp tập liệu Nhóm I 57 2.6 Kết phân lớp tập liệu Nhóm II 60 2.7 Kết phân lớp tập liệu Nhóm III 63 3.1 Cài đặt FSVM-CIL với hàm tính trọng số mờ 76 3.2 So sánh kết phân lớp FSVM-CILlin cen_2c FSVM-CIL liệu UCI 78 3.3 So sánh kết phân lớp phương pháp F-AWA áp dụng vào FSVM-CIL liệu UCI 80 3.4 So sánh kết phân lớp AFW-CIL FSVM-CIL cho liệu chuẩn UCI 81 3.5 Mô tả liệu đồng tác giả 84 3.6 Kết phân lớp FSVM-CIL FSVM-CILlin cen_2c cho liệu đồng tác giả Nhóm I 85 3.7 Kết phân lớp FSVM-CIL FSVM-CILlin cen_2c cho liệu đồng tác giả Nhóm II 86 3.8 Kết phân lớp FSVM-CIL điều chỉnh F-AWA cho liệu đồng tác giả Nhóm I 88 3.9 Kết phân lớp FSVM-CIL điều chỉnh F-AWA cho liệu đồng tác giả Nhóm II 89 viii

Ngày đăng: 05/03/2024, 18:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w