MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, với sự phát triển của mạng xã hội liên quan đến thông tin cá nhân của nhiều người, việc gợi ý tự động cho người sử dụng các thông tin cũng như các sản phẩm có thể họ muốn mua hoặc quan tâm, các cá nhân có cùng sở thích hoặc cùng lĩnh vực nghiên cứu với họ là một việc khả thi và đem lại nhiều lợi ích cho con người. Các hệ gợi ý hay còn gọi là hệ khuyến nghị đã được quan tâm nghiên cứu và phát triển nhanh chóng trong thời gian gần đây, đặc biệt các hệ khuyến nghị trong thương mại điện tử đem lại nhiều lợi nhuận cho các nhà bán sản phẩm. Bên cạnh các hệ khuyến nghị trong thương mại điện tử, các hệ khuyến nghị liên quan đến khoa học kỹ thuật cũng được quan tâm nghiên cứu. Ví dụ, LinkedIn và ResearchGate khuyến nghị các công việc mà ai đó (hoặc người dùng nào đó) có thể ứng tuyển, thông báo các thông tin liên quan đến các nhà khoa học có các công trình nghiên cứu được tham chiếu trong các bài báo khoa học, v.v. Tuy nhiên, việc khuyến nghị các tác giả có các nghiên cứu liên quan đến nhau để hợp tác trong tương lai còn chưa được đưa vào trong các mạng xã hội này. Đây cũng là những khuyến nghị rất có giá trị giúp cho các nhà nghiên cứu tăng cường hợp tác để tạo ra các công trình khoa học mới trong tương lai. Bài toán khuyến nghị các nhà nghiên cứu có tiềm năng hợp tác còn được gọi với tên là bài toán khuyến nghị cộng tác trong mạng đồng tác giả. Trong luận án này, khái niệm “khuyến nghị cộng tác” (“Collaborations Recommendation” được sử dụng trong [54]) mang hàm ý về sự khuyến nghị hợp tác trong việc xuất bản bài báo khoa học giữa các nhà nghiên cứu (tác giả). Ở đây, mạng đồng tác giả là một mạng xã hội trong đó các nút là các nhà khoa học, các cạnh là các mối cộng tác khoa học giữa các nhà khoa học. Bài toán khuyến nghị cộng tác trong mạng đồng tác giả được phát biểu như sau: Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t, với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác (Collaboration) với tác giả u trong tương lai (từ thời điểm t’ > t). Các vấn đề nghiên cứu trong mạng đồng tác giả luôn thú vị bởi tính phức tạp chung của bài toán khuyến nghị cộng tác. Mặt khác, việc xây dựng được một mô hình khuyến nghị cộng tác nghiên cứu sẽ thúc đẩy quá trình giao lưu và hợp tác trong nghiên cứu khoa học. Đây là một thách thức cần vượt qua nhưng cũng hứa hẹn nhiều ứng dụng thực tế. Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng xã hội, trong đó các độ đo liên kết giữa các cặp nút (tác giả) giữ vai trò quan trọng, làm cơ sở để xác định khả năng hình thành liên kết (hợp tác) trong tương lai giữa các cặp nút (tác giả). Hướng tiếp cận phổ biến là chuyển bài toán dự đoán liên kết về bài toán phân lớp nhị phân [5] với lớp 1 là cặp nút có liên kết và lớp 0 là cặp nút không có liên kết. Ba yếu tố chính ảnh hưởng đến độ chính xác của phân lớp bao gồm: phương pháp học máy, tập đặc trưng (được xác định dựa trên giá trị độ đo liên kết) sử dụng trong phương pháp học máy, tỷ lệ nhãn 0 hoặc 1 được dùng để phân lớp. Bài toán dự báo liên kết đã được nhiều nghiên cứu quan tâm [23, 37, 39, 65, 66, 70, 82, 92, 96, 97, 98]. Các nghiên cứu trước đây về khuyến nghị cộng tác thường sử dụng một số độ đo liên kết đã được đề xuất trong mạng xã hội để xây dựng tập đặc trưng. Thực nghiệm được tiến hành trong các nghiên cứu đó đã chứng minh tính hiệu quả của các độ đo liên kết này trong việc cải thiện độ chính xác đối với bài toán khuyến nghị cộng tác [5, 67, 70, 75, 92] Tuy nhiên, mạng đồng tác giả là một mạng xã hội có nhiều đặc trưng riêng so với các mạng xã hội nói chung. Ví dụ, mức độ cộng tác giữa hai tác giả cùng viết chung các bài báo phụ thuộc vào số lượng bài báo, số lượng tác giả, thứ tự của các tác giả và thời gian công bố của các bài báo mà hai tác giả đã viết chung. Ngoài ra, một nhân tố rất quan trọng có thể ảnh hưởng đến việc cộng tác giữa các tác giả trong tương lai là sự tương đồng về lĩnh vực nghiên cứu. Hai tác giả có thể nghiên cứu nhiều lĩnh vực khác nhau và nếu một số hướng nghiên cứu chính có sự tương đồng cao thì tiềm năng cộng tác trong việc viết chung các bài báo khoa học trong tương lai càng lớn. Để đánh giá mức độ tương đồng về lĩnh vực nghiên cứu giữa hai tác giả đã có một số nghiên cứu dựa trên cách thức khác nhau. Các nghiên cứu trong [5, 75, 92] dựa trên tập các từ xuất hiện trong tên và nội dung tóm tắt của bài báo. Nghiên cứu [87] dựa trên việc biểu diễn thông tin tên của tập các bài báo được viết bởi mỗi tác giả thông qua véc-tơ trọng số TF-IDF còn nghiên cứu trong [54] lại dựa trên phân loại tên các bài báo vào các lĩnh vực khác nhau để tính mức độ tương quan tổng thể giữa hai tác giả. Có thể nhận thấy, các phương pháp đã đề xuất để đánh giá mức độ tương đồng, tương quan giữa hai tác giả dựa trên một số thông tin của các bài báo khoa học như là tên, tập từ khóa, hay nội dung tóm tắt đã phản ánh một phần mức độ tương đồng dựa trên ngữ nghĩa giữa hai tác giả. Tuy nhiên, trên thực tế, mỗi nhà nghiên cứu khi công bố các bài báo khoa học ở các tạp chí hoặc hội thảo có thể có cách hành văn khác nhau, trong đó một số từ ngữ đồng nghĩa được sử dụng có thể phản ánh ý nghĩa tương tự nhau hoặc cùng có hàm ý về một số chủ đề nghiên cứu nào đó. Chính vì thế, cần phải có một cách thức nào đó để biểu diễn mỗi bài báo dựa trên thông tin bao gồm tên và nội dung tóm tắt, sao cho có thể phản ánh một cách đầy đủ nhất sự tương đồng về mặt ngữ nghĩa giữa hai bài báo hoặc hai tập bài báo, làm cơ sở để mở rộng các độ đo liên kết giữa hai tác giả, từ đó cải thiện độ chính xác đối với bài toán khuyến nghị cộng tác trong mạng đồng tác giả.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Minh Chuẩn NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Thanh Hương PGS.TS Trần Đình Khang Hà Nội - 2018 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU 11 TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 16 1.1 Bài toán khuyến nghị cộng tác mạng đồng tác giả 16 1.1.1 Mạng xã hội mạng đồng tác giả 16 1.1.2 Bài toán khuyến nghị cộng tác 20 1.1.3 Tổng quan độ đo liên kết mạng đồng tác giả 26 1.2 Một số kiến thức liên quan 34 1.2.1 Các phương pháp phân lớp 34 1.2.2 Phân cụm mờ phân cụm bán giám sát mờ 38 1.2.3 Phân tích theo chủ đề 41 1.3 Kết luận 43 CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ 44 2.1 Độ đo liên kết dựa trọng số mở rộng 44 2.2 Các độ đo liên kết dựa nội dung báo 46 2.3 Thuật tốn tính độ đo liên kết đánh giá độ phức tạp thuật toán 50 2.4 Đánh giá độ đo liên kết mạng đồng tác giả 58 2.4.1 Chuẩn bị liệu 58 2.4.2 Kịch thực nghiệm 60 2.4.3 Kết thực nghiệm 63 2.5 Kết luận 77 BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 78 3.1 Giới thiệu 78 3.2 Khuyến nghị cộng tác 79 3.3 Khuyến nghị cộng tác tăng cường 88 3.3 Kết luận 96 KẾT LUẬN VÀ KIẾN NGHỊ 97 TÀI LIỆU THAM KHẢO 99 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 108 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AA Adamic & Adar Độ đo liên kết AA AUC Area under the curve Tiêu chí đánh giá phân lớp CN Common Neighbours Độ đo liên kết láng giềng chung JC Jaccard Coefficient Độ đo liên kết JC LDA Latent Dirichlet Allocation Phương pháp phân tích chủ đề OSN Online Social Network Mạng xã hội trực tuyến OHUSN Online HomogeneousUndirected Social Networks Mạng xã hội vô hướng đồng trực tuyến SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu SVM Support Vector Machines Máy véc-tơ hỗ trợ WAA Weighted Adamic & Adar Độ đo liên kết trọng số dựa AA WCN Weighted Common Neighbours Độ đo liên kết trọng số dựa láng giềng chung WJC Weighted Jaccard Coefficient Độ đo liên kết trọng số dựa JC TF-IDF Term Frequency - Inverse Document Frequency Trọng số từ SPIRES Stanford Public Information Retrieval System Hệ thống truy xuất thông tin công khai Stanford NCSTRL Networked Computer Science Technical Reference Library Mạng thư viện tham chiếu khoa học máy tính AMC Applied Mathematics and Computation Tạp chí tốn ứng dụng tính tốn BJ Biophysical Journal Tạp chí lý sinh CF Collaborative Filtering Lọc cộng tác CB Content-based Dựa nội dung KMC Keywords match count Đếm từ khóa chung AKMC Abtract keywords match count Đếm từ chung nội dung tóm tắt FCM Fuzzy C-means Phân cụm mờ SSSFC Semi-Supervised Standard Fuzzy Clustering Phân cụm bán giám sát mờ DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách quan hệ cộng tác báo 19 Bảng 1.2 Các phương pháp phân lớp sử dụng 33 Bảng 2.1 Thống kê liệu 59 Bảng 2.2 Thống kê tập liệu 60 Bảng 2.3 Kịch thực nghiệm với độ đo liên kế 60 Bảng 2.4 Kịch thực nghiệm với độ đo liên kết mở rộng 61 Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng phân lớp với kịch 62 Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng phân lớp với kịch 62 Bảng 2.7 Giá trị Recall@N với tham số tối ưu AMC 65 Bảng 2.8 Giá trị Recall ứng với tham số tối ưu BJ 67 Bảng 2.9 Giá trị số đánh giá AMC tổ hợp độ đo liên kết trọng số mở rộng 69 Bảng 3.1 Thống kê tập liệu 83 Bảng 3.2 Tập đặc trưng thực nghiệm khuyến nghị cộng tác 83 Bảng 3.3 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 84 Bảng 3.4 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.5 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 84 Bảng 3.6 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.7 Số chủ đề tối ưu ứng với tổ hợp đặc trưng liệu 85 Bảng 3.8 Giá trị số Recall trung bình ứng với tổ hợp đặc trưng liệu 85 Bảng 3.9 Giá trị số Precision trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.10 Giá trị số F1-measure trung bình ứng với tổ hợp đặc trưng liệu 86 Bảng 3.11 So sánh giá trị số F1-measure trọng số cộng tác theo công thức (1.1) (3.1) ứng với tác giả khuyến nghị 95 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Tiếp cận dự đoán liên kết dựa độ đo liên kết 17 Hình 1.2 Tiếp cận dự đốn liên kết dựa phân lớp 18 Hình 1.3 Minh họa mạng đồng tác giả với liệu Bảng 1.1 từ năm 2000 đến 2002 dạng đồ thị 19 Hình 1.4 Quá trình sinh LDA (Nguồn [10]) 42 Hình 2.1 Minh họa độ đo liên kết mở rộng 46 Hình 2.2 So sánh số đánh giá Recall@N độ đo liên kết trọng số AMC 63 Hình 2.3 So sánh số đánh giá Recall@N độ đo liên kết trọng số BJ 63 Hình 2.4 Giá trị Recall@N với số lượng chủ đề tham số LDAcosin AMC 64 Hình 2.5 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng AMC 65 Hình 2.6 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng AMC 65 Hình 2.7 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng AMC 66 Hình 2.8 Giá trị Recall ứng với số lượng chủ đề tham số độ đo liên kết LDAcosin BJ 66 Hình 2.9 So sánh độ đo liên kết trọng số (#CN) với độ đo liên kết mở rộng BJ 67 Hình 2.10 So sánh độ đo liên kết trọng số (#AA) với độ đo liên kết mở rộng BJ 68 Hình 2.11 So sánh độ đo liên kết trọng số (#JC) với độ đo liên kết mở rộng BJ 68 Hình 2.12 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) AMC 69 Hình 2.13 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight2, Weight2_#) AMC 70 Hình 2.14 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight3, Weight3_#) AMC 70 Hình 2.15 So sánh giá trị AUC ứng với tổ hợp độ đo liên kết (Weight#, Weight#_#) AMC 71 Hình 2.16 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight1, Weight1_#) BJ 72 Hình 2.17 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight2, Weight2_#) BJ 72 Hình 2.18 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight3, Weight3_#) BJ 73 Hình 2.19 So sánh giá trị AUC tổ hợp độ đo liên kết (Weight#, Weight#_#) BJ 73 Hình 2.20 Giá trị F1-measure tổ hợp độ đo liên kết Weight#_P_LDAcosin AMC theo số lượng chủ đề 74 Hình 2.21 So sánh tiêu chí đánh giá tổ hợp độ đo liên kết (Weight#, Weight#_P_LDAcosin) AMC 74 Hình 2.22 So sánh giá trị AUC tổ hợp độ đo liên kết (Weight#, Weight#_P_LDAcosin) AMC 75 Hình 3.1 Minh họa giao diện khuyến nghị cộng tác 78 Hình 3.2 Các bước khuyến nghị cộng tác dựa phân lớp 80 Hình 3.3 Các bước thực khuyến nghị cộng tác dựa phân cụm bán giám sát mờ 81 Hình 3.4 So sánh giá trị số đánh giá Recall TBC khuyến nghị cộng tác dựa Classifier SSSFC 86 Hình 3.5 So sánh giá trị số đánh giá Precision TBC khuyến nghị cộng tác dựa Classifier SSSFC 87 Hình 3.6 So sánh giá trị số đánh giá F1-measure TBC khuyến nghị cộng tác dựa Classifier SSSFC 87 Hình 3.7 Các bước thực khuyến nghị cộng tác tăng cường 88 Hình 3.8 Kết trung bình chung F1-measure giá trị ngưỡng thực nghiệm trường hợp trọng số cộng tác tính theo cơng thức (1.1) 93 Hình 3.9 Kết trung bình chung F1-measure giá trị ngưỡng thực nghiệm trường hợp trọng số cộng tác tính theo cơng thức (3.1) 93 Hình 3.10 Kết trung bình chung Recall, Precision F1-measure hai trường hợp 94 10 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mạng xã hội liên quan đến thông tin cá nhân nhiều người, việc gợi ý tự động cho người sử dụng thông tin sản phẩm họ muốn mua quan tâm, cá nhân có sở thích lĩnh vực nghiên cứu với họ việc khả thi đem lại nhiều lợi ích cho người Các hệ gợi ý hay gọi hệ khuyến nghị quan tâm nghiên cứu phát triển nhanh chóng thời gian gần đây, đặc biệt hệ khuyến nghị thương mại điện tử đem lại nhiều lợi nhuận cho nhà bán sản phẩm Bên cạnh hệ khuyến nghị thương mại điện tử, hệ khuyến nghị liên quan đến khoa học kỹ thuật quan tâm nghiên cứu Ví dụ, LinkedIn ResearchGate khuyến nghị cơng việc mà (hoặc người dùng đó) ứng tuyển, thơng báo thơng tin liên quan đến nhà khoa học có cơng trình nghiên cứu tham chiếu báo khoa học, v.v Tuy nhiên, việc khuyến nghị tác giả có nghiên cứu liên quan đến để hợp tác tương lai chưa đưa vào mạng xã hội Đây khuyến nghị có giá trị giúp cho nhà nghiên cứu tăng cường hợp tác để tạo cơng trình khoa học tương lai Bài tốn khuyến nghị nhà nghiên cứu có tiềm hợp tác gọi với tên tốn khuyến nghị cộng tác mạng đồng tác giả Trong luận án này, khái niệm “khuyến nghị cộng tác” (“Collaborations Recommendation” sử dụng [54]) mang hàm ý khuyến nghị hợp tác việc xuất báo khoa học nhà nghiên cứu (tác giả) Ở đây, mạng đồng tác giả mạng xã hội nút nhà khoa học, cạnh mối cộng tác khoa học nhà khoa học Bài toán khuyến nghị cộng tác mạng đồng tác giả phát biểu sau: Cho thông tin tác giả viết chung báo khoa học đến thời điểm t, với tác giả u đó, cần tìm danh sách tác giả có tiềm cộng tác (Collaboration) với tác giả u tương lai (từ thời điểm t’ > t) Các vấn đề nghiên cứu mạng đồng tác giả ln thú vị tính phức tạp chung toán khuyến nghị cộng tác Mặt khác, việc xây dựng mơ hình khuyến nghị cộng tác nghiên cứu thúc đẩy trình giao lưu hợp tác nghiên cứu khoa học Đây thách thức cần vượt qua hứa hẹn nhiều ứng dụng thực tế Bài toán khuyến nghị cộng tác bắt nguồn từ toán dự đoán liên kết mạng xã hội, độ đo liên kết cặp nút (tác giả) giữ vai trò quan trọng, làm sở để xác định khả hình thành liên kết (hợp tác) tương lai cặp nút (tác giả) Hướng tiếp cận phổ biến chuyển toán dự đoán liên kết toán phân lớp nhị phân [5] với lớp cặp nút có liên kết lớp cặp nút khơng có liên kết Ba yếu tố ảnh hưởng đến độ xác phân lớp bao gồm: phương pháp học máy, tập đặc trưng 11 (được xác định dựa giá trị độ đo liên kết) sử dụng phương pháp học máy, tỷ lệ nhãn dùng để phân lớp Bài toán dự báo liên kết nhiều nghiên cứu quan tâm [23, 37, 39, 65, 66, 70, 82, 92, 96, 97, 98] Các nghiên cứu trước khuyến nghị cộng tác thường sử dụng số độ đo liên kết đề xuất mạng xã hội để xây dựng tập đặc trưng Thực nghiệm tiến hành nghiên cứu chứng minh tính hiệu độ đo liên kết việc cải thiện độ xác tốn khuyến nghị cộng tác [5, 67, 70, 75, 92] Tuy nhiên, mạng đồng tác giả mạng xã hội có nhiều đặc trưng riêng so với mạng xã hội nói chung Ví dụ, mức độ cộng tác hai tác giả viết chung báo phụ thuộc vào số lượng báo, số lượng tác giả, thứ tự tác giả thời gian công bố báo mà hai tác giả viết chung Ngồi ra, nhân tố quan trọng ảnh hưởng đến việc cộng tác tác giả tương lai tương đồng lĩnh vực nghiên cứu Hai tác giả nghiên cứu nhiều lĩnh vực khác số hướng nghiên cứu có tương đồng cao tiềm cộng tác việc viết chung báo khoa học tương lai lớn Để đánh giá mức độ tương đồng lĩnh vực nghiên cứu hai tác giả có số nghiên cứu dựa cách thức khác Các nghiên cứu [5, 75, 92] dựa tập từ xuất tên nội dung tóm tắt báo Nghiên cứu [87] dựa việc biểu diễn thông tin tên tập báo viết tác giả thơng qua véc-tơ trọng số TF-IDF nghiên cứu [54] lại dựa phân loại tên báo vào lĩnh vực khác để tính mức độ tương quan tổng thể hai tác giả Có thể nhận thấy, phương pháp đề xuất để đánh giá mức độ tương đồng, tương quan hai tác giả dựa số thông tin báo khoa học tên, tập từ khóa, hay nội dung tóm tắt phản ánh phần mức độ tương đồng dựa ngữ nghĩa hai tác giả Tuy nhiên, thực tế, nhà nghiên cứu công bố báo khoa học tạp chí hội thảo có cách hành văn khác nhau, số từ ngữ đồng nghĩa sử dụng phản ánh ý nghĩa tương tự có hàm ý số chủ đề nghiên cứu Chính thế, cần phải có cách thức để biểu diễn báo dựa thông tin bao gồm tên nội dung tóm tắt, cho phản ánh cách đầy đủ tương đồng mặt ngữ nghĩa hai báo hai tập báo, làm sở để mở rộng độ đo liên kết hai tác giả, từ cải thiện độ xác tốn khuyến nghị cộng tác mạng đồng tác giả Một số nghiên cứu gần [54, 57, 94, 100] đề xuất mơ hình để khuyến nghị tập ứng cử viên tiềm tăng cường cộng tác cộng tác tương lai nhà nghiên cứu Một vấn đề cần đặc biệt quan tâm hệ khuyến nghị cộng tác mạng đồng tác giả tập ứng cử viên khuyến nghị cần phải thỏa mãn mức độ tương đồng lĩnh vực nghiên cứu (thông qua tập báo cơng bố) 12 Hình 3.10 Kết trung bình chung Recall, Precision F1-measure hai trường hợp Để xác định giá trị α β luận án tiến hành thực nghiệm với giá trị khác α = {0.3, 0.31, …, 0.4} β = {0.4, 0.41, …, 0.5}, kết F1-measure trung bình chung 65 tác giả biểu diễn Hình 3.3 Hình 3.4 tương ứng với hai trường hợp thực nghiệm Quan sát Hình 3.3 Hình 3.4, dễ nhận thấy giá trị trung bình chung F1-measure hai trường hợp đạt giá trị cao α = 0.4 β >= 0.45; F1-measure trung bình đạt lớn α = 0.4 β = 0.49 Hình 3.5 cho biết giá trị trung bình Recall, Precision F1-measure hai trường hợp ứng với α, β tối ưu Các giá trị trung bình Recall, Precision F1-measure trường hợp thứ (sử dụng công thức (3.1) trọng số cộng tác toàn phần luận án đề xuất) nhỉnh so với trường hợp 1, cụ thể Precision đạt 0.225309 so với 0.218866 F1-measure 0.352285 so với 0.344331, giá trị Recall hai trường hợp cao xấp xỉ 0.922564 0.921026 Tuy kết cải thiện chưa nhiều thấy việc áp dụng tính trọng số cộng tác tổng thể theo cơng thức (3.1) làm cho giá trị mịn (phân tách hơn) giúp việc lựa chọn ứng cử viên khuyến nghị cộng tác tăng cường thêm xác Để so sánh cách chi tiết giá trị số F1-measure tác giả thực khuyến nghị cộng tác áp dụng trọng số cộng tác theo công thức (1.1) (3.1), giá trị F1-measure tác giả có khác biệt áp dụng trọng số cộng tác tổng thể theo công thức (1.1) (3.1) Bảng 3.11 Cụ thể, có 18/65 tác giả kết F1-measure nhận có khác biệt, trọng số cộng tác theo cơng thức (3.1) có 15 tác giả nhận giá trị F1-measure ứng cao so với cơng thức (1.1) có tác giả nhận giá trị F1-measure thấp so với công thức (1.1) Về tỷ lệ phần trăm cải thiện, công thức (3.1) tỷ lệ cải thiện thấp 3.57 % cao 42.86 % Tuy nhiên, ba 94 tác giả có giá trị F1-measure ứng với công thức (3.1) thấp công thức (1.1) chiếm tỷ lệ thấp %, 25.93 % 18.18 % Bảng 3.11 So sánh giá trị số F1-measure trọng số cộng tác theo công thức (1.1) (3.1) ứng với tác giả khuyến nghị Mức độ cải thiện Id Trọng số cộng tác Trọng số cộng tác STT tác giả theo công thức (1.1) theo công thức (3.1) so với (1.1) (%) 0.421053 0.47619 13.10 0.344828 0.357143 3.57 16 0.333333 0.363636 9.09 23 0.4 0.47619 19.05 25 0.1 0.142857 42.86 27 0.157895 0.15 -5.00 31 0.705882 0.736842 4.39 34 0.266667 0.352941 32.35 36 0.285714 0.333333 16.67 10 41 0.416667 0.434783 4.35 11 43 0.296296 0.344828 16.38 12 49 0.3 0.222222 -25.93 13 50 0.105263 0.117647 11.76 14 54 0.416667 0.434783 4.35 15 55 0.428571 0.5 16.67 16 56 0.428571 0.5 16.67 17 63 0.333333 0.375 12.50 18 64 0.333333 0.272727 -18.18 95 công thức (3.1) 3.3 Kết luận Trong mục này, để đánh giá hiệu độ đo liên kết mở rộng đề xuất chương 2, luận án tiến hành thực nghiệm phương pháp khuyến nghị cộng tác dựa phân lớp phân cụm bám giám sát mờ Thông qua kết thực nghiệm, nhận thấy độ đo liên kết mở rộng P_LDAcosin kết hợp với độ đo liên kết trọng số cho kết cải thiện đáng kể so với tổ hợp bao gồm độ đo liên kết trọng số tập liệu D1 - D4 cải hai phương pháp khuyến nghị cộng tác Ngoài ra, việc áp dụng phương pháp phân cụm bán giám sát mờ vào khuyến nghị cộng tác cho hiệu khuyến nghị tốt so với dựa phân lớp Điều cho thấy, phân cụm bán giám mờ có tiềm áp dụng cho tốn khuyến nghị cộng tác nói chung khuyến nghị cộng tác nói riêng Ngồi ra, luận án đề xuất phương pháp khuyến nghị cộng tác tăng cường mạng đồng tác giả, nhằm trợ giúp nhà nghiên cứu có sở để định xem mối cộng tác cần tăng cường Phương pháp đề xuất dựa trọng số cộng tác mức độ tương quan tổng thể nhằm tăng cường hiệu cho hệ thống khuyến nghị cộng tác Kết thực nghiệm mạng đồng tác giả xây dựng từ tập báo đăng tạp chí BJ từ năm 2006 đến 2017 cho thấy F1-measure phương pháp đề xuất đạt giá trị cao α = 0.4 β >= 0.45; F1-measure trung bình đạt lớn α = 0.4 β = 0.49 Và giá trị trung bình chung F1-measure áp dụng trọng số cộng tác với công thức (3.1) mà tác giả đề xuất 0.35229 so với 0.34433 số cộng tác tính theo công thức (1.1) Nội dung chương liên quan đến cơng trình nghiên cứu CT4 CT6 cơng bố tạp chí nước 96 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luận án hoàn thành nội dung nghiên cứu, đáp ứng mục tiêu ban đầu đặt Nghiên cứu, đề xuất số độ đo liên kết mở rộng dựa thông tin đặc trưng (như thứ tự xuất tên tác giả, thời gian công bố, nội dung tóm tắt báo) xây dựng phương pháp khuyến nghị cộng tác mạng đồng tác giả Thực nghiệm kiểm chứng đánh giá độ đo liên kết mở rộng Trên thực tế toán dự báo liên kết toán khuyến nghị cộng tác mạng đồng tác giả gặp phải vấn đề liệu thưa, độ đo liên kết đề xuất chưa phản ánh hết tính đặc thù mạng đồng tác, thông tin đặc trưng mạng đa dạng thứ tự tác giả, thời gian công bố đặc biệt nội dung báo Từ nhận xét đó, luận án đề xuất số cách thức để xây dựng độ đo liên kết mở rộng, nhằm góp phần vào việc cải thiện hiệu dự đoán liên kết nói chung mạng đồng tác giả Bước đầu luận án áp dụng thành cơng kỹ thuật phân tích chủ đề LDA [10] việc xác định mức độ tương đồng hai tập báo dựa thông tin tên nội dung tóm tắt báo, việc áp dụng giúp cho việc xây dựng độ đo liên kết mở áp dụng cho toán khuyến nghị cộng tác mạng đồng tác giả Bài toán khuyến nghị mạng đồng tác giả có đặc thù riêng kết khuyến nghị cần có tính giải thích cao để giúp người tư vấn cộng tác nghiên cứu có thêm thông tin để định xem nên cộng tác với Do vậy, việc sử dụng độ đo liên kết trình khuyến nghị cộng tác đưa cho người dùng minh chứng lại nên cộng tác với người việc hồn tồn hợp lý Đóng góp khoa học luận án: Về xây dựng độ đo liên kết - Đề xuất độ đo liên kết trọng số dựa thứ tự tác giả thời gian công bố báo, - Đề xuất độ đo liên kết dựa nội dung báo, sử dụng kỹ thuật phân tích chủ đề (LDA) để biểu diễn báo làm sở để xây dựng độ đo liên kết, - Đề xuất độ đo liên kết kết hợp độ đo liên kết dựa trọng số dựa nội dung báo Đề xuất phương pháp khuyến nghị cộng tác mạng đồng tác giả - Sử dụng độ đo liên kết mở rộng để khuyến nghị cộng tác dựa phân lớp phân cụm bán giám sát mờ - Sử dụng trọng số cộng tác mức độ tương quan tổng thể để khuyến nghị cộng tác tăng cường 97 - Tiến hành thử nghiệm hai liệu thu thập từ hai tạp chí “Applied Mathematics and Computation” “Biophysical Journal” Kết thu từ thực nghiệm Trong chương 2, luận án tiến hành thực nghiệm để đánh giá hiệu độ đo liên kết mở rộng đề xuất hai liệu AMC BJ Thông qua kết thực nghiệm cho thấy hầu hết độ đo liên kết mở rộng đề xuất có cải thiện so với độ đo trọng số Đặc biệt, kết hợp độ đo liên kết trọng số với độ đo liên kết dựa nội dung nhiều trường hợp cho kết cải thiện đáng kể sử dụng phương pháp phân lớp kết hợp kỹ thuật lấy mẫu theo SMOTE [22] Trong chương 3, luận án minh họa phương pháp khuyến nghị cộng tác khuyến nghị tăng cường liệu BJ Kết thực nghiệm cho thấy hiệu khuyến nghị có nhiều khả quan, đặc biệt áp dụng phân cụm bán giám sát mờ để khuyến nghị cộng tác quan trọng việc khuyến nghị nhà nghiên cứu kèm theo minh chứng mức độ tương đồng lĩnh vực nghiên cứu để người khuyến nghị có sở tin tưởng định nên cộng tác với danh sách người lựa chọn Những hạn chế: Luận án tập chung nghiên cứu đề xuất độ đo liên kết dựa láng giềng chung, chưa mở rộng độ đo liên kết hai cặp tác giả có độ dài lớn (tức cặp tác giả có độ dài đường lớn mạng đồng tác giả) Chỉ thực nghiệm dựa tập báo cơng bố tạp chí cụ thể, chưa thực nghiệm tập liệu đủ lớn bao gồm nhiều tạp chí nhiều hội thảo Phương pháp khuyến nghị đề xuất mạng đồng tác giả đơn giản, chưa xem xét thêm số thông tin khác tác địa cơng tác, hướng nghiên cứu chính, v.v Định hướng phát triển: Từ kết nghiên cứu thực hiện, hạn chế, luận án đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu có Mở rộng độ đo liên kết để tính tốn mức độ tương đồng hai tác giả mạng đồng tác giả Nghiên cứu chiến lược khuyến nghị lai ghép hệ khuyến nghị truyền thống để xây dựng mơ hình khuyến nghị phù hợp mạng đồng tác giả Tiếp tục nghiên cứu áp dụng phương pháp phân cụm bán giám sát mờ để xây dựng phương pháp khuyến nghị cộng tác hiệu Xây dựng tập liệu đủ lớn để tiến hành thực nghiệm nhằm đánh giá hiệu độ đo liên kết mơ hình khuyến nghị 98 TÀI LIỆU THAM KHẢO [1] L A Adamic and E Adar (2003) "Friends and neighbors on the web," Social networks, vol 25, no 3, pp 211-230 [2] M Agarwal, H Agrawal, N Jain and M Kumar (2010) “Face recognition using principle component analysis, eigenface and neural network,” IEEE International Conference on, In Signal Acquisition and Processing IEEE, 2010 (ICSAP10), 310-314 [3] L M Aiello, A Barrat, R Schifanella, C Cattuto, B Markines and F Menczer (2012) "Friendship prediction and homophily in social media," ACM Transactions on the Web, vol 6, no 3, p [4] C G Akcora, B Carminati and E Ferrari (2011) "Network and profile based measures for user similarities on social networks," in In Information Reuse and Integration (IRI), 2011 IEEE International Conference on [5] M Al Hasan, V Chaoji, S Salem and M Zaki (2006) "Link prediction using supervised learning," in SDM06: workshop on link analysis, counter-terrorism and security [6] C Basu, H Hirsh and W Cohen (1998) "Recommendation as classification: Using social and content-based information in recommendation," in Aaai/iaai, pp 714-720 [7] C Becker, R Rigamonti, V Lepetit and P Fua (2013) "Supervised feature learning for curvilinear structure segmentation," in International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, pp 526-533 [8] J.C Bezdek (1981) "Pattern Recognition with Fuzzy Objective Function Algorithms," Plenum, New York [9] J Li, J M Bioucas-Dias and A Plaza (2010) “Semisupervised hyperspectral image segmentation using multinomial logistic regression with active learning,” IEEE Transactions on, Geoscience and Remote Sensing, 48(11), 4085-4098 [10] D M Blei (2012) "Probabilistic topic models," Communications of the ACM, vol 55, no 4, pp 77-84 [11] D M Blei, A Y Ng and M I Jordan (2003) "Latent dirichlet allocation," Journal of machine Learning research, vol 3, no Jan, pp 993-1022 99 [12] D Blei and J Lafferty (2009) Text mining: Theory and applications, chapter topic models, Taylor and Francis, London [13] T Bogers and A Van den Bosch (2008) "Recommending scientific articles using citeulike," in In Proceedings of the 2008 ACM conference on Recommender systems [14] M A Brandão, M M Moro, G R Lopes and J P Oliveira (2013) "Using link semantics to recommend collaborations in academic social networks," in Proceedings of the 22nd International Conference on World Wide Web, ACM, pp 833-840 [15] J S Breese, D Heckerman and C Kadie (1998) "Empirical analysis of predictive algorithms for collaborative filtering," in In Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence [16] L Breiman (2001) "Random forests," Machine learning, vol 45, no 1, pp 532 [17] R Burke (2002) "Hybrid recommender systems: Survey and experiments," User modeling and user-adapted interaction, vol 12, no 4, pp 331-370 [18] R D Burke (2007) "Hybrid web recommender systems," in P Brusilovsky, A Kobsa, & W Nejdl, editors, The Adaptive Web, Methods and Strategies of Web Personalization, volume 4321 of Lecture Notes in Computer Science, Springer, 2007, pp 377-408 [19] T M Chang and W F Hsiao (2013) "LDA-based Personalized Document Recommendation," In PACIS, pp 13 [20] C C Chang and C J Lin (2011) "LIBSVM: a library for support vector machines," ACM transactions on intelligent systems and technology (TIST), vol 2, no 3, p 27 [21] N V Chawla (2009) "Data mining for imbalanced datasets: An overview," in Data mining and knowledge discovery handbook, Springer, Boston, MA, pp 875-886 [22] N V Chawla, K W Bowyer, L O Hall and W P Kegelmeyer (2002) "SMOTE: synthetic minority over-sampling technique," Journal of artificial intelligence research, vol 16, pp 321-357 [23] B Chen, F Li, S Chen, R Hu and L Chen (2017) "Link prediction based on non-negative matrix factorization," PloS one, vol 12, no 8, p e0182968 100 [24] J Chen, S Zhao and H Wang (2011) “Risk analysis of flood disaster based on fuzzy clustering method,” Energy Procedia, 5, 1915-1919 [25] T Chen and C Guestrin (2016) "Xgboost: A scalable tree boosting system," in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, ACM, pp 785-794 [26] K S Chuang, H L Tzeng, S Chen, J Wu and T J Chen (2006) “Fuzzy cmeans clustering with spatial information for image segmentation,” computerized medical imaging and graphics, 30(1), 9-15 [27] C Cortes and V Vapnik (1995) "Support-vector networks," Machine learning, vol 20, no 3, pp 273-297 [28] H R De Sá and R B Prudêncio (2011) "Supervised link prediction in weighted networks," in Neural Networks (IJCNN), The 2011 International Joint Conference on, IEEE, pp 2281-2288 [29] G A de Sousa, M A Diniz, M A Brandão and M M Moro (2014) "CNARe: Co-authorship Networks Analysis and Recommendations," in Proceedings of the 9th ACM Conference on Recommender Systems, ACM, pp 329-330 [30] Y Dhote, N Mishra and S Sharma (2013) "Survey and analysis of temporal link prediction in online social networks," in In Advances in Computing, Communications and Informatics (ICACCI), 2013 International Conference on [31] Y Ding (2011) "Scientific collaboration and endorsement: Network analysis of coauthorship and citation networks," Journal of informetrics, vol 5, no 1, pp 187-203 [32] R O Duda, P E Hart and D G Stork (2001) "Pattern classification 2nd," Edition New York, p 55 [33] R C Eberchart and J Kennedy (1995) "Particle swarm optimization," in IEEE International Conference on Neural Networks, Perth, Australia [34] Y Freund and R E Schapire (1995) "A desicion-theoretic generalization of online learning and an application to boosting," in European conference on computational learning theory, Springer, Berlin, Heidelberg, pp 23-37 [35] L Getoor and C P Diehl (2005) "Link mining: a survey," Acm Sigkdd Explorations Newsletter, vol 7, no 2, pp 3-12 [36] J Golbeck and J Hendler (2006, January) "Filmtrust: Movie recommendations using trust in web-based social networks," In Proceedings of the IEEE 101 Consumer communications and networking conference, Vol 96, No 1, pp 282286 [37] Y Guisheng, Y Wansi and D Yuxin (2014) "A new link prediction algorithm: node link strength algorithm," in Computer Applications and Communications (SCAC), 2014 IEEE Symposium on, IEEE, pp 5-9 [38] I Günes, S Gündüz-Öüdücü and Z Çataltepe (2016) "Link prediction using time series of neighborhood-based node similarity scores," Data Mining and Knowledge Discovery, vol 30, no 1, pp 147-180 [39] S Gupta, S Pandey and K K Shukla (2015) "Comparison analysis of link prediction algorithms in social network," International Journal of Computer Applications, vol 111, no 16 [40] M Hall, E Frank, G Holmes, B Pfahringer, P Reutemann and I H Witten (2009) "The WEKA data mining software: an update," ACM SIGKDD explorations newsletter, vol 11, no 1, pp 10-18 [41] T Hofmann (2004) "Latent semantic models for collaborative filtering," ACM Transactions on Information Systems (TOIS), vol 22, no 1, pp 89-115 [42] T Hofmann and D Hartmann (2005) "Collaborative filtering with privacy via factor analysis," in In Proceedings of the 2005 ACM symposium on applied computing [43] N M A Ibrahim and L Chen (2015) "Link prediction in dynamic social networks by integrating different types of information," Applied Intelligence, vol 42, no 4, pp 738-750 [44] G Jeh and J Widom (2002) "SimRank: a measure of structural-context Silarity," in In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining [45] T Karagiannis and M Vojnovic (2009, April) "Behavioral profiles for advanced email features," In Proceedings of the 18th international conference on World wide web, pp 711-720, ACM [46] L Katz (1953) "A new status index derived from sociometric analysis," Psychometrika, vol 18, no 1, pp 39-43 [47] H Kautz, B Selman and M Shah (1997) "Referral Web: combining social networks and collaborative filtering," Communications of the ACM, 40(3), 6365 102 [48] Y Koren (2008) "Factorization meets the neighborhood: a multifaceted collaborative filtering model," in In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining [49] M Kubat and S Matwin (1997) "Addressing the curse of imbalanced training sets: one-sided selection," in ICML, vol 97, pp 179-186 [50] D H Lee, P Brusilovsky and T Schleyer (2011) "Recommending collaborators using social features and mesh terms," Proceedings of the Association for Information Science and Technology, vol 48, no 1, pp 1-10 [51] D Liben‐Nowell and J Kleinberg (2007) "The link‐prediction problem for social networks," Journal of the Association for Information Science and Technology, vol 58, no 7, pp 1019-1031 [52] R N Lichtenwalter, J T Lussier and N V Chawla (2010) "New perspectives and methods in link prediction.," in In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining [53] J X F Li, W Wang, Z Chen, N Y Asabere and H Jiang (2014) "Acrec: a coauthorship based random walk model for academic collaboration recommendation," in Proceedings of the 23rd International Conference on World Wide Web, ACM, pp 1209-1214 [54] G R Lopes, M M Moro, L K Wives and J P M De Oliveira (2010) "Collaboration recommendation on academic social networks," in In International Conference on Conceptual Modeling [55] J Lu, X Yuan and T Yahagi (2007) “A method of face recognition based on fuzzy c-means clustering and associated sub-NNs,” IEEE Transactions on, Neural Networks, 18(1), 150-160 [56] Z Lu, B Savas, W Tang and I S Dhillon (2010) "Supervised link prediction using multiple sources," in Data Mining (ICDM), 2010 IEEE 10th International Conference on, IEEE, pp 923-928 [57] I Makarov, O Bulanov and L E Zhukov (2016) "Co-author recommender system," in In International Conference on Network Analysis [58] A Martin, V Gayathri, G Saranya, P Gayathri and P Venkatesan (2011) “A hybrid model for bankruptcy prediction using genetic algorithm, fuzzy c-means and MARS,” International Journal on Soft Computing ( IJSC ), 2(1), 12-24 103 [59] V Martínez, F Berzal and J C Cubero (2017) "A survey of link prediction in complex networks," ACM Computing Surveys (CSUR), vol 49, no 4, p 69 [60] D W McDonald (2003, April) "Recommending collaboration with social networks: a comparative evaluation," In Proceedings of the SIGCHI conference on Human factors in computing systems, pp 593-600, ACM [61] M Mitzenmacher (2004) "A brief history of generative models for power law and lognormal distributions," Internet mathematics, vol 1, no 2, pp 226-251 [62] J Mori, Y Kajikawa, H Kashima and I Sakata (2012) "Machine learning approach for finding business partners and building reciprocal relationships., 39(12), ," Expert Systems with Applications, vol 39, no 12, pp 10402-10407 [63] L Munasinghe (2013) Time-aware methods for link prediction in social networks (Doctoral dissertation, Ph D thesis, The Graduate University for Advanced Studies) [64] T Murata and S Moriyasu (2007) "Link prediction of social networks based on weighted proximity measures," in the IEEE/WIC/ACM international conference on In Web Intelligence [65] M E Newman (2001) "Scientific collaboration networks I Network construction and fundamental results," Physical review E, vol 64, no 1, p 016131 [66] M E Newman (2001) "Scientific collaboration networks II Shortest paths, weighted networks, and centrality," Physical review E, p 016132 [67] M E Newman (2001) "Clustering and preferential attachment in growing networks," Physical review E, vol 64, no 2, p 025102 [68] M E Newman (2004) "Who is the best connected scientist? A study of scientific coauthorship networks," in Complex networks, Springer, Berlin, Heidelberg, pp 337-370 [69] H Ogata, Y Yano, N Furugori and Q Jin (2001) "Computer supported social networking for augmenting cooperation", Computer Supported Cooperative Work (CSCW), 10(2), 189-209 [70] M Pavlov and R Ichise (2007) "Finding experts by link prediction in coauthorship networks," in In Proceedings of the 2nd International Conference on Finding Experts on the Web with Semantics-Volume 290 104 [71] J Platt (1998) "Sequential minimal optimization: A fast algorithm for training support vector machines" [72] J R Quinlan (2014) C4 5: programs for machine learning, Elsevier [73] P Resnick, N Iacovou, M Suchak, P Bergstrom and J Riedl (1994) "GroupLens: an open architecture for collaborative filtering of netnews," in Proceedings of the 1994 ACM conference on Computer supported cooperative work, ACM, pp 175-186 [74] M R Rezaee, P M Van der Zwet, B P Lelieveldt, R J Van Der Geest and J H Reiber (2000) “A multiresolution image segmentation technique based on pyramidal segmentation and fuzzy clustering,” IEEE Transactions on, Image Processing, 9(7), 1238-1248 [75] M Sachan and R Ichise (2010) "Using abstract information and community alignment information for link prediction," in In Machine Learning and Computing (ICMLC), 2010 Second International Conference on [76] G Salton and M J McGill (1987) Introduction to Modern Information Retrieval, New York: Mc [77] B Sarwar, G Karypis, J Konstan and J Riedl (2001) "Item-based collaborative filtering recommendation algorithms," in In Proceedings of the 10th international conference on World Wide Web [78] B Sarwar, G Karypis, J Konstan and J Riedl (2002) "Incremental singular value decomposition algorithms for highly scalable recommender systems," in In Fifth International Conference on Computer and Information Science [79] S Scellato, A Noulas and C Mascolo (2011) "Exploiting place features in link prediction on location-based social networks (pp ).," in In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining [80] F Schneider, A Feldmann, B Krishnamurthy and W Willinger (2009) "Understanding online social network usage from a network perspective," in In Proceedings of the 9th ACM SIGCOMM conference on Internet measurement conference [81] U Shardanand and P Maes (1995) "Social information filtering: algorithms for automating “word of mouth”," in Proceedings of the SIGCHI conference on Human factors in computing systems, ACM Press/Addison-Wesley Publishing Co., pp 210-217 105 [82] N Shibata, Y Kajikawa and I Sakata (2012) "Link prediction in citation networks," Journal of the Association for Information Science and Technology, vol 63, no 1, pp 75-85 [83] J Tang, S Wu, J Sun and H Su (2012) "Cross-domain collaboration recommendation.," in In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining [84] A Töscher, M Jahrer and R Legenstein (2008) "Improved neighborhood-based algorithms for large-scale recommender systems," in Proceedings of the 2nd KDD Workshop on Large-Scale Recommender Systems and the Netflix Prize Competition, ACM, p [85] S H Walker and D B Duncan (1967) "Estimation of the probability of an event as a function of several independent variables," Biometrika, vol 54, no 1-2, pp 167-179 [86] C Wang and D M Blei (2011, August) "Collaborative topic modeling for recommending scientific articles," In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 448456, ACM [87] C Wang, V Satuluri and S Parthasarathy (2007) "Local probabilistic models for link prediction," in In Data Mining, 2007 ICDM 2007 Seventh IEEE International Conference on [88] P Wang, B Xu, Y Wu and X Zhou (2015) "Link prediction in social networks: the state-of-the-art," Science China Information Sciences, vol 58, no 1, pp 138 [89] S Wasserman and K Faust (1994) "Social Network Analysis in the Social and Behavioral Sciences," in Social Network Analysis: Methods and Applications, Cambridge University Press, pp 1-27 [90] D Whitley (1994) "A genetic algorithm tutorial," Statistics and computing, vol 4, no 2, pp 65-85 [91] B Whitman and S Lawrence (2002) "Inferring Descriptions and Similarity for Music from Community Metadata," in ICMC [92] T Wohlfarth and R Ichise (2008) "Semantic and Event-Based Approach for Link Prediction," In Proceedings of the 7th International Conference on Practical Aspects of Knowledge Management (PAKM), Yokohama - Japan 106 [93] S Wu, J Sun and J Tang (2013) "Patent partner recommendation in enterprise social networks," In Proceedings of the sixth ACM international conference on Web search and data mining [94] F Xia, Z Chen, W Wang, J Li and L T Yang (2014) "Mvcwalker: Random walk-based most valuable collaborators recommendation exploiting academic factors," IEEE Transactions on Emerging Topics in Computing, vol 2, no 3, pp 364-375 [95] S Xie and Y Feng (2015, April) "A recommendation system combining LDA and collaborative filtering method for Scenic Spot," In Information Science and Control Engineering (ICISCE), 2015 2nd International Conference on, pp 6771, IEEE [96] J Yang, L Yang and P Zhang (2015) "A New Link Prediction Algorithm Based on Local Links," in International Conference on Web-Age Information Management, Springer, pp 16-28 [97] Z Yang, R Hu and R Zhang (2016) "An improved link prediction algorithm based on common neighbors index with community membership information," in Software Engineering and Service Science (ICSESS), 2016 7th IEEE International Conference on, IEEE, pp 90 93 [98] L Yao, L Wang, L Pan and K Yao (2016) "Link Prediction Based on Common-Neighbors for Dynamic Social Network," Procedia Computer Science, vol 83, pp 82-89 [99] E Yasunori, H Yukihiro, Y Makito and M Sadaaki (2009) "On semisupervised fuzzy c-means clustering," in Fuzzy Systems, 2009 FUZZ-IEEE 2009 IEEE International Conference on, IEEE, pp 1119-1124 [100] Q Yu, C Long, Y Lv, H Shao, P He and Z Duan (2014) "Predicting coauthor relationship in medical co-authorship networks," PloS one, p e101214 [101] O R Zaiane, J Chen and R Goebel (2007, August) "DBconnect: mining research community on DBLP data," In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis, pp 74-81, ACM [102] J Zhang and S Y Philip (2014) "Link prediction across heterogeneous social networks: A survey," SOCIAL NETWORKS 107 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Phạm Minh Chuẩn, Lê Thanh Hương, Trần Đình Khang, Trần Ngọc Cương (2011) Hệ thống khuyến nghị báo Tạp chí Nghiên cứu khoa học công nghệ quân sự, Số 16, 12.2011, ISSN 1859-1043, trang 136-145 Phạm Minh Chuẩn, Trịnh Khắc Linh, Trần Đình Khang, Lê Hồng Sơn (2017) Phân tích ảnh hưởng số độ đo liên kết áp dụng vào toán dự đoán liên kết mạng đồng tác giả Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) – Đà Nẵng, 17-18/8/2017 ISBN: 978-604913-614-6, trang 760-767 Pham Minh Chuan, Cu Nguyen Giap, Le Hoang Son, Chintan Bhatt, Tran Dinh Khang (2017), Enhance Link Prediction in Online Social Networks Using Similarity Metrics, Sampling and Classification, Proceeding of the 2017 4th International Conference on Information System Design and Intelligent Applications (INDIA2017), 15-17 June 2017, Danang, Vietnam, pp 823 - 833, DOI = https://doi.org/10.1007/978-981-10-7512-4_81 Phạm Minh Chuẩn, Trần Đình Khang, Lê Thanh Hương, Trần Mạnh Tuấn, Lê Hồng Sơn (2017) Dự đoán liên kết đồng tác giả sử dụng phân cụm bán giám sát mờ Chuyên san Khoa học Tự nhiên – Kỹ thuật – Công nghệ (Đại học Thái Nguyên), Tập 173, số 13, ISSN 1859-2171, trang 45-50 Pham Minh Chuan, Le Hoang Son, Mumtaz Ali, Tran Dinh Khang, Le Thanh Huong, Nilanjan Dey (2017) Link Prediction in Co-authorship Networks based on Hybrid Content Silarity Metric Applied Intelligence, ISSN: 0924-669X doi: 10.1007/s10489-017-1086-x (SCI, 2016 IF = 1.904, Springer) Phạm Minh Chuẩn, Lê Hồng Sơn, Trần Đình Khang, Lê Thanh Hương (2017) Đề xuất mơ hình khuyến nghị cộng tác cho mạng đồng tác giả dựa số cộng tác tương quan Tạp chí Khoa học Công nghệ Việt Nam, Tập 22, Số 11, 11.2017, ISSN 1859-4794, trang 9-14 108 ... 1.1.2 Bài toán khuyến nghị cộng tác Bài toán khuyến nghị cộng tác bắt nguồn từ toán dự đo n liên kết mạng xã hội giả nhằm tìm tác giả có tiềm cộng tác tương lai Bài toán khuyến nghị cộng tác phát. .. cứu phát triển đề tài 15 CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Trong chương này, luận án trình bày tổng quan toán khuyến nghị cộng tác mạng đồng tác giả, độ đo liên kết dựa trọng số. .. QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC 16 1.1 Bài toán khuyến nghị cộng tác mạng đồng tác giả 16 1.1.1 Mạng xã hội mạng đồng tác giả 16 1.1.2 Bài toán khuyến nghị cộng tác