Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

110 20 0
Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Minh Chuẩn NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Minh Chuẩn NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Hà Nội - 2018 LỜI CAM ĐOAN Tơi xin cam đoan tất nội dung luận án “Nghiên cứu phát triển số độ đo liên kết toán khuyến nghị cộng tác” cơng trình nghiên cứu riêng tơi, hướng dẫn PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Tất kết quả, số liệu luận án trung thực chưa công bố cơng trình Hà Nội, ngày tháng năm 2018 TM TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS Lê Thanh Hương Phạm Minh Chuẩn LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin Truyền thông, Bộ môn Hệ thống thông tin tạo điều kiện thuận lợi cho tơi q trình học tập Trường Tơi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Thầy ln tận tình giúp đỡ, đưa lời khuyên, định hướng khoa học q báu để tơi triển khai hồn thành cơng việc nghiên cứu Đồng thời tơi xin cảm ơn PGS.TS Lê Hồng Sơn Trung tâm Tính tốn Hiệu cao – ĐH KHTN – ĐHQGHN tạo điều kiện, giúp đỡ tơi hồn thành luận án Xin chân thành cảm ơn thầy cô, đồng nghiệp Bộ môn Hệ thống Thông tin, Viện Công nghệ Thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội nơi học tập, thực đề tài nghiên cứu nhiệt tình giúp đỡ động viên tơi suốt trình nghiên cứu Xin cám ơn bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện CNTT & TT, đặc biệt bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài CNTT K58 hỗ trợ việc thu thập liệu để phục vụ cho q trình thực nghiệm Cảm ơn Khoa Cơng nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi công tác tạo điều kiện cho tơi suốt q trình nghiên cứu hoàn thành luận án Xin gửi lời cám ơn đến thầy cô, nhà khoa học, đồng nghiệp bạn bè thân hữu động viên giúp đỡ tơi q trình nghiên cứu Cuối tơi muốn bày tỏ lịng biết ơn sâu sắc tới gia đình, nơi ni dưỡng nguồn động lực để tơi vượt trở ngại khó khăn để hoàn thành luận án Nghiên cứu sinh Phạm Minh Chuẩn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU 10 TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 15 1.1 Bài toán khuyến nghị cộng tác mạng đồng tác giả 15 1.1.1 Mạng xã hội mạng đồng tác giả 15 1.1.2 Bài toán khuyến nghị cộng tác 19 1.1.3 Tổng quan độ đo liên kết mạng đồng tác giả 25 1.2 Một số kiến thức liên quan 33 1.2.1 Các phương pháp phân lớp 33 1.2.2 Phân cụm mờ phân cụm bán giám sát mờ 37 1.2.3 Phân tích theo chủ đề 40 1.3 Kết luận 42 CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ 43 2.1 Độ đo liên kết dựa trọng số mở rộng 43 2.2 Các độ đo liên kết dựa nội dung báo 45 2.3 Thuật tốn tính độ đo liên kết đánh giá độ phức tạp thuật toán 50 2.4 Đánh giá độ đo liên kết mạng đồng tác giả 58 2.4.1 Chuẩn bị liệu 58 2.4.2 Kịch thực nghiệm 60 2.4.3 Kết thực nghiệm 63 2.5 Kết luận 77 BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 78 3.1 Giới thiệu 78 3.2 Khuyến nghị cộng tác 79 3.3 Khuyến nghị cộng tác tăng cường 88 3.3 Kết luận 96 KẾT LUẬN VÀ KIẾN NGHỊ 97 TÀI LIỆU THAM KHẢO 99 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 108 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AA Adamic & Adar Độ đo liên kết AA Khu vực đường cong ROC AUC Area under the ROC curve Một thước đo để đánh giá xem xét tất ngưỡng phân lớp CN Common Neighbours Độ đo liên kết láng giềng chung JC Jaccard Coefficient Độ đo liên kết dựa hệ số Jaccard LDA Latent Dirichlet Allocation Phương pháp phân tích chủ đề OSN Online Social Network Mạng xã hội trực tuyến OHUSN Online HomogeneousUndirected Social Networks Mạng xã hội vô hướng đồng trực tuyến SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu SVM Support Vector Machines Máy véc-tơ hỗ trợ WAA Weighted Adamic & Adar Độ đo liên kết trọng số dựa AA WCN Weighted Common Neighbours Độ đo liên kết trọng số dựa láng giềng chung WJC Weighted Jaccard Coefficient Độ đo liên kết trọng số dựa JC TF-IDF Term Frequency - Inverse Document Frequency Trọng số từ SPIRES Stanford Public Information Retrieval System Hệ thống truy xuất thông tin công khai Stanford NCSTRL Networked Computer Science Technical Reference Library Mạng thư viện tham chiếu khoa học máy tính AMC Applied Mathematics and Computation Tạp chí tốn ứng dụng tính tốn BJ Biophysical Journal Tạp chí lý sinh CF Collaborative Filtering Lọc cộng tác CB Content-based Dựa nội dung KMC Keywords match count Đếm từ khóa chung AKMC Abtract keywords match count Đếm từ chung nội dung tóm tắt FCM Fuzzy C-means Phân cụm mờ SSSFC Semi-Supervised Standard Fuzzy Clustering Phân cụm bán giám sát mờ SMOTE Synthetic Minority Over-sampling Technique Phương pháp lấy mẫu dựa ‘Over-sampling’ GBOOST Grandient Boosting Thuật toán phân lớp Gboost XGBOOST eXtreme Grandient Boosting Thuật toán phân lớp mở rộng XGboost DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách quan hệ cộng tác báo 18 Bảng 1.2 Các phương pháp phân lớp sử dụng 32 Bảng 2.1 Thống kê liệu 59 Bảng 2.2 Thống kê tập liệu 60 Bảng 2.3 Kịch thực nghiệm với độ đo liên kết trọng số 60 Bảng 2.4 Kịch thực nghiệm với độ đo liên kết dựa nội dung báo 61 Bảng 2.5 Các tổ hợp độ đo liên kết sử dụng phân lớp với kịch 62 Bảng 2.6 Các tổ hợp độ đo liên kết sử dụng phân lớp với kịch 62 Bảng 2.7 Giá trị Recall@N với tham số tối ưu AMC 65 Bảng 2.8 Giá trị Recall ứng với tham số tối ưu BJ 67 Bảng 2.9 Giá trị số đánh giá AMC tổ hợp độ đo liên kết trọng số mở rộng 69 Bảng 3.1 Thống kê tập liệu 83 Bảng 3.2 Tập đặc trưng thực nghiệm khuyến nghị cộng tác 83 Bảng 3.3 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 84 Bảng 3.4 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.5 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.6 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.7 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 85 Bảng 3.8 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.9 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.10 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.11 So sánh giá trị số F1-measure trọng số cộng tác theo công thức (1.1) (3.1) ứng với tác giả khuyến nghị 95 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Tiếp cận dự đốn liên kết dựa độ đo liên kết 16 Hình 1.2 Tiếp cận dự đoán liên kết dựa phân lớp 17 Hình 1.3 Minh họa mạng đồng tác giả với liệu Bảng 1.1 từ năm 2000 đến 2002 dạng đồ thị 18 Hình 1.4 Trực quan cho mơ hình LDA 41 Hình 2.1 Minh họa độ đo liên kết mở rộng 46 Hình 2.2 So sánh số đánh giá Recall@N độ đo liên kết trọng số AMC 63 Hình 2.3 So sánh số đánh giá Recall@N độ đo liên kết trọng số BJ 63 Hình 2.4 Giá trị Recall@N với số lượng chủ đề tham số  LDAcosin AMC 64 Hình 2.5 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng AMC 65 Hình 2.6 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng AMC 65 Hình 2.7 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng AMC 66 Hình 2.8 Giá trị Recall ứng với số lượng chủ đề tham số  độ đo liên kết LDAcosin BJ 66 Hình 2.9 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng BJ 67 Hình 2.10 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng BJ 68 Hình 2.11 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng BJ 68 Hình 2.12 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) AMC 69 Hình 2.13 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight2, Weight2_#) AMC 70 Hình 2.14 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight3, Weight3_#) AMC 70 Hình 2.15 So sánh giá trị AUC ứng với tổ hợp độ đo liên kết (Weight#, Weight#_#) AMC 71 Hình 2.16 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) BJ 72 ...iện đáng kế so với độ đo liên kết trọng số Hình 2.5 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng AMC Hình 2.6 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng ...với dự đo? ?n dựa độ đo liên kết, thực nghiệm với độ đo liên kết trọng số, độ đo liên kết dựa nội dung báo độ đo liên kết kết hợp Kịch mô tả Bảng 2.3 Bảng 2.4 Trong đó, lựa chọn N cặp tác giả để dự đ... dự đốn liên kết Hình 2.9 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng BJ 67 Hình 2.10 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng BJ Hình 2.11 So sánh độ

Ngày đăng: 27/02/2021, 11:05

Tài liệu cùng người dùng

Tài liệu liên quan