1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

182 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải Tiến Thuật Toán Phân Lớp Cho Dữ Liệu Không Cân Bằng Và Ứng Dụng Trong Dự Đoán Đồng Tác Giả
Tác giả Võ Đức Quang
Người hướng dẫn PGS.TS. Trần Đình Khang
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại luận án tiến sĩ
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 182
Dung lượng 2,63 MB

Nội dung

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2024 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH KHANG HÀ NỘI−2024 LỜI CAM ĐOAN Tơi xin cam đoan kết trình bày luận án cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu Đại học Bách khoa Hà Nội hướng dẫn PGS.TS Trần Đình Khang Các số liệu, kết trình bày luận án hồn tồn trung thực Các kết sử dụng tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày tháng 02 năm 2024 Nghiên cứu sinh Võ Đức Quang GIÁO VIÊN HƯỚNG DẪN KHOA HỌC PGS.TS Trần Đình Khang i LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh hành trình dài đầy khó khăn thử thách Trên hành trình đó, bên cạnh nỗ lực thân, thiếu đồng hành dẫn dắt Thầy Cơ kính mến, hỗ trợ giúp đỡ người đồng nghiệp, người bạn, người thân gia đình Tơi thực biết ơn xin trân trọng gửi lời cảm ơn sâu sắc tới người dành cho giúp đỡ, chia sẻ quý giá suốt khoảng thời gian qua Đầu tiên, xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Khang, người Thầy hướng dẫn, đồng hành, dạy, nhắc nhở động viên tơi nhiều suốt q trình nghiên cứu Tôi xin gửi lời cảm ơn tới Thầy giáo, Cô giáo giảng dạy Trường Công nghệ Thông tin Truyền thông - Đại học Bách khoa Hà Nội truyền đạt cho kiến thức quý giá, giúp mở rộng kiến thức, gợi mở ý tưởng nghiên cứu để hoàn thành luận án Tôi xin gửi lời cảm ơn đến đồng nghiệp Trường Đại học Vinh, em sinh viên hỗ trợ, chia sẻ, giúp đỡ nhiệt tình người Cuối cùng, tơi muốn nói lời biết ơn chân thành đến gia đình thân yêu, người thân bạn bè động viên, ủng hộ tơi suốt q trình nghiên cứu giúp tơi vượt qua giai đoạn khó khăn để đạt số kết bước đầu hôm ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG viii DANH MỤC THUẬT TOÁN .x MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 11 1.1 Bài toán phân lớp với liệu không cân .11 1.2 Một số thuật toán liên quan 14 1.2.1 Thuật toán SVM 14 1.2.2 Thuật toán Weighted-SVM 15 1.2.3 Fuzzy SVM-CIL 16 1.2.4 Thuật toán AdaBoost .17 1.2.5 Thuật toán CNN 19 1.2.6 Phương pháp Cây định 20 1.2.7 K-nearest neighbors Tomek link 21 1.3 Bài toán dự đoán đồng tác giả .23 1.3.1 Giới thiệu .23 1.3.2 Mơ hình hóa tốn 26 1.4 Phương pháp phân lớp cho toán dự đoán đồng tác giả 29 1.5 Phương pháp thực nghiệm đánh giá 32 1.5.1 Tập liệu thử nghiệm 32 1.5.2 Độ đo đánh giá 35 1.5.3 Môi trường kịch thử nghiệm .37 1.6 Kết luận Chương .38 iii CHƯƠNG CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG .39 2.1 Đặt vấn đề 39 2.2 Đề xuất thuật toán Im.AdaBoost 41 2.2.1 Phân tích thuật toán AdaBoost .41 2.2.2 Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân 43 2.2.3 Phương pháp tính trọng số tin cậy phân lớp thành viên nhạy cảm với nhãn dương 45 2.2.4 Mơ tả thuật tốn Im.AdaBoost kết hợp với WSVM 47 2.3 Thử nghiệm .49 2.3.1 Thử nghiệm liệu UCI 50 2.3.2 Thử nghiệm cho toán dự đoán đồng tác giả .52 2.4 Kết luận Chương 65 CHƯƠNG ĐỀ XUẤT THUẬT TỐN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL .67 3.1 Đặt vấn đề 67 3.2 Đề xuất thuật toán trọng số mờ thích nghi 69 3.2.1 Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM .69 3.2.2 Phương pháp điều chỉnh trọng số mờ cho mẫu nhạy cảm .71 3.2.3 Thuật toán phân lớp với trọng số mờ thích nghi 73 3.3 Thử nghiệm .75 3.3.1 Thử nghiệm liệu UCI 77 3.3.2 Thử nghiệm cho toán dự đoán đồng tác giả .83 3.3.3 Thử nghiệm so sánh thuật toán đề xuất .92 3.4 Kết luận Chương 94 KẾT LUẬN 96 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ .98 TÀI LIỆU THAM KHẢO 99 iv DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắtt tắtt Tiết tắtng Anh Tiết tắtng Việtt AA Adamic-Adar Độ đo liê đo liên kết AA t AA ACT Average Commute Time Độ đo liê đo liên kết AA t ACT AdaBoost Adaptive Boosting Thuật toán t toán học kết hc kết AA t hợp tuần p thn tự thích thích nghi AdaBoost.SVM Adaptive Boosting with SVM AdaBoost kết AA t hợp tuần p với SVMi SVM AdaBoost.W-SVM Adaptive Boosting with W-SVM AdaBoost kết AA t hợp tuần p với SVMi W-SVM AdaBoost.DT Adaptive Boosting with Decision- AdaBoost kết AA t hợp tuần p với SVMi DecisionTree Tree ASN Academic Social Network Mạng xã hng xã hộ đo liêi học kết hc thuật toán t AUC Area Under Curve Diện tích n tích SVMi đường congng cong ROC CAR CAR-based Common Neighbor In- Độ đo liê đo CAR dex) CC Common Country Độ đo liê đo liên kết AA t cộ đo liêng đồngng CNN Convolutional neural network Mạng xã hng nơ-ron tí-ron tích chật tốn p CN Common Neighbor Độ đo liê đo liên kết AA t CN ENN Edited Nearest Neighbor Thuật toán t toán giảm mẫu Em mẫu ENN u ENN FSVM Fuzzy Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần mờng cong FSVM-CIL Fuzzy Support Vector Machines for Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần mờng cong cho học kết hc liệu liện tích u Class Imbalance Learning không cân bằngng G-mean Geometric Mean Độ đo liê đo trung bình hình học kết hc HSM Hierarchical structure model Mơ hình cấu trúc u trúc phân JC Jaccard Coefficient cấu trúc p Độ đo liê đo liên kết AA t JC KNN K -Nearest Neighbors K -láng giềng gần ng gần tự thn nhấu trúc t LDP local directed path Độ đo liê đo liên kết AA t LDP LP Link Prediction Dự thích đốn liên kết AA t MAG Microsoft Academic Graph Cơ-ron tí sở liệ liệu liện tích u khoa học kết hc MAG MF Matrix Forest Index Độ đo liê đo liên kết AA t MF NCL Neighborhood Cleaning Rule Thuật toán t toán giảm mẫu Em mẫu ENN u NCL OSS One Sided Selection Thuật toán t toán giảm mẫu Em mẫu ENN u OSS PA Preferential Attachment Độ đo liê đo liên kết AA t PA RA Resource Allocation Độ đo liê đo liên kết AA t RA ROC Receiver operating characteristics Đường congng cong đặc tính c tính RWR Random Walk with Restart Độ đo liê đo liên kết AA t RWR SBM Stochastic block model Mơ hình khối ngẫu i ngẫu ENN u nhiên SPRD Scholarly Paper Recommendation Cơ-ron tí sở liệ liệu liện tích u khoa học kết hc SPRD Dataset v SVM Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần SMOTE Synthetic Minority Over-sampling Kỹ thuật toán t tạng xã ho mẫu ENN u tổng hợp ng hợp tuần p cho lới SVMp thiểu u Technique sối ngẫu SP Specificity Độ đo liê đo đặc tính c tích u SE Sensitivity Độ đo liê đo nhạng xã hy cảm mẫu Em SW Similar Work Độ đo liê đo liên kết AA t SW TLP Tomek Link Pair Cặc tính p Tomek link W-SVM Weight Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần có trọc kết hng sối ngẫu vi DANH MỤC HÌNH VẼ 1.1 Các trường hợp ξ Soft-SVM .15 1.2 Minh họa kiến trúc CNN-1D .20 1.3 Minh họa cặp TLPs 22 1.4 Tổng quan quy trình giải tốn mạng ASN 23 1.5 Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp 31 2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM .48 2.2 Các giá trị Gmean θ thu Im.AdaBoost.WSVM 55 2.3 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm I 58 2.4 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm II .61 2.5 Các giá trị Gmean, SE, SP xác định cho liệu Nhóm III 64 3.1 Vị trí tương đối mẫu hai lớp 70 3.2 Minh họa cho bốn trường hợp mẫu nhạy cảm TLPs 72 vii DANH MỤC BẢNG 1.1 Bảng ứng viên đồng tác giả 31 1.2 Thống kê liệu báo thu thập từ năm 2000 đến năm 2017 34 1.3 Mô tả liệu UCI .34 2.1 Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM 52 2.2 Kết phân lớp tập liệu UCI 53 2.3 Mô tả liệu đồng tác giả 54 2.4 Các giá trị tốt tham số θ cho thuật toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM Im.AdaBoost.WSVM 56 2.5 Kết phân lớp tập liệu Nhóm I 57 2.6 Kết phân lớp tập liệu Nhóm II 60 2.7 Kết phân lớp tập liệu Nhóm III 63 3.1 Cài đặt FSVM-CIL với hàm tính trọng số mờ 76 viii

Ngày đăng: 05/03/2024, 18:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w