Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

108 113 0
Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1. Lý do chọn đề tài MỞ ĐẦU Ngày nay, với sự phát triển của mạng xã hội liên quan đến thông tin cá nhân của nhiều người, việc gợi ý tự động cho người sử dụng các thông tin cũng như các sản phẩm có thể họ muốn mua hoặc quan tâm, các cá nhân có cùng sở thích hoặc cùng lĩnh vực nghiên cứu với họ là một việc khả thi và đem lại nhiều lợi ích cho con người. Các hệ gợi ý hay còn gọi là hệ khuyến nghị đã được quan tâm nghiên cứu và phát triển nhanh chóng trong thời gian gần đây, đặc biệt các hệ khuyến nghị trong thương mại điện tử đem lại nhiều lợi nhuận cho các nhà bán sản phẩm. Bên cạnh các hệ khuyến nghị trong thương mại điện tử, các hệ khuyến nghị liên quan đến khoa học kỹ thuật cũng được quan tâm nghiên cứu. Ví dụ, LinkedIn và ResearchGate khuyến nghị các công việc mà ai đó (hoặc người dùng nào đó) có thể ứng tuyển, thông báo các thông tin liên quan đến các nhà khoa học có các công trình nghiên cứu được tham chiếu trong các bài báo khoa học, v.v. Tuy nhiên, việc khuyến nghị các tác giả có các nghiên cứu liên quan đến nhau để hợp tác trong tương lai còn chưa được đưa vào trong các mạng xã hội này. Đây cũng là những khuyến nghị rất có giá trị giúp cho các nhà nghiên cứu tăng cường hợp tác để tạo ra các công trình khoa học mới trong tương lai. Bài toán khuyến nghị các nhà nghiên cứu có tiềm năng hợp tác còn được gọi với tên là bài toán khuyến nghị cộng tác trong mạng đồng tác giả. Trong luận án này, khái niệm “khuyến nghị cộng tác” (“Collaborations Recommendation” được sử dụng trong [54]) mang hàm ý về sự khuyến nghị hợp tác trong việc xuất bản bài báo khoa học giữa các nhà nghiên cứu (tác giả). Ở đây, mạng đồng tác giả là một mạng xã hội trong đó các nút là các nhà khoa học, các cạnh là các mối cộng tác khoa học giữa các nhà khoa học. Bài toán khuyến nghị cộng tác trong mạng đồng tác giả được phát biểu như sau: Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t, với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác (Collaboration) với tác giả u trong tương lai (từ thời điểm t’ > t). Các vấn đề nghiên cứu trong mạng đồng tác giả luôn thú vị bởi tính phức tạp chung của bài toán khuyến nghị cộng tác. Mặt khác, việc xây dựng được một mô hình khuyến nghị cộng tác nghiên cứu sẽ thúc đẩy quá trình giao lưu và hợp tác trong nghiên cứu khoa học. Đây là một thách thức cần vượt qua nhưng cũng hứa hẹn nhiều ứng dụng thực tế.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Minh Chuẩn NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Hà Nội - 2018 LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận án “Nghiên cứu phát triển số độ đo liên kết toán khuyến nghị cộng tác” cơng trình nghiên cứu riêng tơi, hướng dẫn PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Tất kết quả, số liệu luận án trung thực chưa cơng bố cơng trình Hà Nội, ngày tháng năm 2018 TM TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS Lê Thanh Hương Phạm Minh Chuẩn LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin Truyền thông, Bộ môn Hệ thống thông tin tạo điều kiện thuận lợi cho tơi q trình học tập Trường Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Thầy ln tận tình giúp đỡ, đưa lời khuyên, định hướng khoa học quý báu để tơi triển khai hồn thành cơng việc nghiên cứu Đồng thời tơi xin cảm ơn TS Lê Hồng Sơn Trung tâm Tính tốn Hiệu cao – ĐH KHTN – ĐHQGHN tạo điều kiện, giúp đỡ tơi hồn thành luận án Xin chân thành cảm ơn thầy cô, đồng nghiệp Bộ môn Hệ thống Thông tin, Viện Công nghệ Thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội nơi học tập, thực đề tài nghiên cứu nhiệt tình giúp đỡ động viên tơi suốt q trình nghiên cứu Xin cám ơn bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện CNTT & TT, đặc biệt bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài CNTT K58 hỗ trợ việc thu thập liệu để phục vụ cho trình thực nghiệm Cảm ơn Khoa Công nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi công tác tạo điều kiện cho suốt trình nghiên cứu hồn thành luận án Xin gửi lời cám ơn đến thầy cô, nhà khoa học, đồng nghiệp bạn bè thân hữu động viên giúp đỡ tơi q trình nghiên cứu Cuối tơi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi ni dưỡng nguồn động lực để vượt trở ngại khó khăn để hồn thành luận án Nghiên cứu sinh Phạm Minh Chuẩn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU 11 TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 16 1.1 Bài toán khuyến nghị cộng tác mạng đồng tác giả 16 1.1.1 Mạng xã hội mạng đồng tác giả 16 1.1.2 Bài toán khuyến nghị cộng tác 20 1.1.3 Tổng quan độ đo liên kết mạng đồng tác giả 26 1.2 Một số kiến thức liên quan 34 1.2.1 Các phương pháp phân lớp 34 1.2.2 Phân cụm mờ phân cụm bán giám sát mờ 38 1.2.3 Phân tích theo chủ đề 41 1.3 Kết luận 43 CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ 44 2.1 Độ đo liên kết dựa trọng số mở rộng 44 2.2 Các độ đo liên kết dựa nội dung báo 46 2.3 Thuật tốn tính độ đo liên kết đánh giá độ phức tạp thuật toán 50 2.4 Đánh giá độ đo liên kết mạng đồng tác giả 58 2.4.1 Chuẩn bị liệu 58 2.4.2 Kịch thực nghiệm 60 2.4.3 Kết thực nghiệm 63 2.5 Kết luận 77 BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 78 3.1 Giới thiệu 78 3.2 Khuyến nghị cộng tác 79 3.3 Khuyến nghị cộng tác tăng cường 88 3.3 Kết luận 96 KẾT LUẬN VÀ KIẾN NGHỊ 97 TÀI LIỆU THAM KHẢO 99 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 108 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AA Adamic & Adar Độ đo liên kết AA AUC Area under the curve Tiêu chí đánh giá phân lớp CN Common Neighbours Độ đo liên kết láng giềng chung JC Jaccard Coefficient Độ đo liên kết JC LDA Latent Dirichlet Allocation Phương pháp phân tích chủ đề OSN Online Social Network Mạng xã hội trực tuyến OHUSN Online HomogeneousUndirected Social Networks Mạng xã hội vô hướng đồng trực tuyến SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu SVM Support Vector Machines Máy véc-tơ hỗ trợ WAA Weighted Adamic & Adar Độ đo liên kết trọng số dựa AA WCN Weighted Common Neighbours Độ đo liên kết trọng số dựa láng giềng chung WJC Weighted Jaccard Coefficient Độ đo liên kết trọng số dựa JC TF-IDF Term Frequency - Inverse Document Frequency Trọng số từ SPIRES Stanford Public Information Retrieval System Hệ thống truy xuất thông tin công khai Stanford NCSTRL Networked Computer Science Technical Reference Library Mạng thư viện tham chiếu khoa học máy tính AMC Applied Mathematics and Computation Tạp chí tốn ứng dụng tính tốn BJ Biophysical Journal Tạp chí lý sinh CF Collaborative Filtering Lọc cộng tác CB Content-based Dựa nội dung KMC Keywords match count Đếm từ khóa chung AKMC Abtract keywords match count Đếm từ chung nội dung tóm tắt FCM Fuzzy C-means Phân cụm mờ SSSFC Semi-Supervised Standard Fuzzy Clustering Phân cụm bán giám sát mờ DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách quan hệ cộng tác báo 19 Bảng 1.2 Các phương pháp phân lớp sử dụng 33 Bảng 2.1 Thống kê liệu 59 Bảng 2.2 Thống kê tập liệu 60 Bảng 2.3 Kịch thực nghiệm với độ đo liên kế 60 Bảng 2.4 Kịch thực nghiệm với độ đo liên kết mở rộng 61 Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng phân lớp với kịch 62 Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng phân lớp với kịch 62 Bảng 2.7 Giá trị Recall@N với tham số tối ưu AMC 65 Bảng 2.8 Giá trị Recall ứng với tham số tối ưu BJ 67 Bảng 2.9 Giá trị số đánh giá AMC tổ hợp độ đo liên kết trọng số mở rộng 69 Bảng 3.1 Thống kê tập liệu 83 Bảng 3.2 Tập đặc trưng thực nghiệm khuyến nghị cộng tác 83 Bảng 3.3 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 84 Bảng 3.4 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.5 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.6 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.7 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 85 Bảng 3.8 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.9 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.10 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.11 So sánh giá trị số F1-measure trọng số cộng tác theo công thức (1.1) (3.1) ứng với tác giả khuyến nghị 95 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Tiếp cận dự đoán liên kết dựa độ đo liên kết 17 Hình 1.2 Tiếp cận dự đoán liên kết dựa phân lớp 18 Hình 1.3 Minh họa mạng đồng tác giả với liệu Bảng 1.1 từ năm 2000 đến 2002 dạng đồ thị 19 Hình 1.4 Quá trình sinh LDA (Nguồn [10]) 42 Hình 2.1 Minh họa độ đo liên kết mở rộng 46 Hình 2.2 So sánh số đánh giá Recall@N độ đo liên kết trọng số AMC 63 Hình 2.3 So sánh số đánh giá Recall@N độ đo liên kết trọng số BJ 63 Hình 2.4 Giá trị Recall@N với số lượng chủ đề tham số  LDAcosin AMC 64 Hình 2.5 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng AMC 65 Hình 2.6 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng AMC 65 Hình 2.7 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng AMC 66 Hình 2.8 Giá trị Recall ứng với số lượng chủ đề tham số  độ đo liên kết LDAcosin BJ 66 Hình 2.9 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng BJ 67 Hình 2.10 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng BJ 68 Hình 2.11 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng BJ 68 Hình 2.12 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) AMC 69 Hình 2.13 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight2, Weight2_#) AMC 70 Hình 2.14 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight3, Weight3_#) AMC 70 Hình 2.15 So sánh giá trị AUC ứng với tổ hợp độ đo liên kết (Weight#, Weight#_#) AMC 71 Hình 2.16 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) BJ 72 Hình 2.17 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight2, Weight2_#) BJ 72 Hình 2.18 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight3, Weight3_#) BJ 73 Hình 2.19 So sánh giá trị AUC tổ hợp độ đo liên kết (Weight#, Weight#_#) BJ 73 Hình 2.20 Giá trị F1-measure tổ hợp độ đo liên kết Weight#_P_LDAcosin AMC theo số lượng chủ đề 74 Hình 2.21 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight#, Weight#_P_LDAcosin) AMC 74 Hình 2.22 So sánh giá trị AUC tổ hợp độ đo liên kết (Weight#, Weight#_P_LDAcosin) AMC 75 Hình 3.1 Minh họa giao diện khuyến nghị cộng tác 78 Hình 3.2 Các bước khuyến nghị cộng tác dựa phân lớp 80 Hình 3.3 Các bước thực khuyến nghị cộng tác dựa phân cụm bán giám sát mờ 81 Hình 3.4 So sánh giá trị số đánh giá Recall TBC khuyến nghị cộng tác dựa Classifier SSSFC 86 Hình 3.5 So sánh giá trị số đánh giá Precision TBC khuyến nghị cộng tác dựa Classifier SSSFC 87 Hình 3.6 So sánh giá trị số đánh giá F1-measure TBC khuyến nghị cộng tác dựa Classifier SSSFC 87 Hình 3.7 Các bước thực khuyến nghị cộng tác tăng cường 88 Hình 3.8 Kết trung bình chung F1-measure giá trị ngưỡng   thực nghiệm trường hợp trọng số cộng tác tính theo cơng thức (1.1) 93 Hình 3.9 Kết trung bình chung F1-measure giá trị ngưỡng   thực nghiệm trường hợp trọng số cộng tác tính theo cơng thức (3.1) 93 Hình 3.10 Kết trung bình chung Recall, Precision F1-measure hai trường hợp 94 10 ... xuất độ đo liên kết kết hợp độ đo liên kết dựa trọng số dựa nội dung báo Đề xuất phương pháp khuyến nghị cộng tác mạng đồng tác giả - Sử dụng độ đo liên kết mở rộng để khuyến nghị cộng tác dựa... tham số  độ đo liên kết LDAcosin BJ 66 Hình 2.9 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng BJ 67 Hình 2.10 So sánh độ đo liên kết trọng số. .. CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ 44 2.1 Độ đo liên kết dựa trọng số mở rộng 44 2.2 Các độ đo liên kết dựa nội dung báo 46 2.3 Thuật tốn tính độ đo liên kết

Ngày đăng: 31/05/2018, 15:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan