Luận án tiến sĩ hệ thống thông tin nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mạng xã hội liên quan đến thông tin cá nhân nhiều người, việc gợi ý tự động cho người sử dụng thông tin sản phẩm họ muốn mua quan tâm, cá nhân có sở thích lĩnh vực nghiên cứu với họ việc khả thi đem lại nhiều lợi ích cho người Các hệ gợi ý hay gọi hệ khuyến nghị quan tâm nghiên cứu phát triển nhanh chóng thời gian gần đây, đặc biệt hệ khuyến nghị thương mại điện tử đem lại nhiều lợi nhuận cho nhà bán sản phẩm Bên cạnh hệ khuyến nghị thương mại điện tử, hệ khuyến nghị liên quan đến khoa học kỹ thuật quan tâm nghiên cứu Ví dụ, LinkedIn ResearchGate khuyến nghị công việc mà (hoặc người dùng đó) ứng tuyển, thông báo thông tin liên quan đến nhà khoa học có cơng trình nghiên cứu tham chiếu báo khoa học, v.v Tuy nhiên, việc khuyến nghị tác giả có nghiên cứu liên quan đến để hợp tác tương lai chưa đưa vào mạng xã hội Đây khuyến nghị có giá trị giúp cho nhà nghiên cứu tăng cường hợp tác để tạo cơng trình khoa học tương lai Bài toán khuyến nghị nhà nghiên cứu có tiềm hợp tác cịn gọi với tên toán khuyến nghị cộng tác mạng đồng tác giả Trong luận án này, khái niệm “khuyến nghị cộng tác” (“Collaborations Recommendation” sử dụng [54]) mang hàm ý khuyến nghị hợp tác việc xuất báo khoa học nhà nghiên cứu (tác giả) Ở đây, mạng đồng tác giả mạng xã hội nút nhà khoa học, cạnh mối cộng tác khoa học nhà khoa học Bài toán khuyến nghị cộng tác mạng đồng tác giả phát biểu sau: Cho thông tin tác giả viết chung báo khoa học đến thời điểm t, với tác giả u đó, cần tìm danh sách tác giả có tiềm cộng tác (Collaboration) với tác giả u tương lai (từ thời điểm t’ > t) Các vấn đề nghiên cứu mạng đồng tác giả thú vị tính phức tạp chung tốn khuyến nghị cộng tác Mặt khác, việc xây dựng mơ hình khuyến nghị cộng tác nghiên cứu thúc đẩy trình giao lưu hợp tác nghiên cứu khoa học Đây thách thức cần vượt qua hứa hẹn nhiều ứng dụng thực tế Bài toán khuyến nghị cộng tác bắt nguồn từ toán dự đoán liên kết mạng xã hội, độ đo liên kết cặp nút (tác giả) giữ vai trò quan trọng, làm sở để xác định khả hình thành liên kết (hợp tác) tương lai cặp nút (tác giả) Hướng tiếp cận phổ biến chuyển toán dự đoán liên kết toán phân lớp nhị phân [5] với lớp cặp nút có liên kết lớp cặp nút khơng có liên kết Ba yếu tố ảnh hưởng đến độ xác phân lớp bao gồm: phương pháp học máy, tập đặc trưng 11 (được xác định dựa giá trị độ đo liên kết) sử dụng phương pháp học máy, tỷ lệ nhãn dùng để phân lớp Bài toán dự báo liên kết nhiều nghiên cứu quan tâm [23, 37, 39, 65, 66, 70, 82, 92, 96, 97, 98] Các nghiên cứu trước khuyến nghị cộng tác thường sử dụng số độ đo liên kết đề xuất mạng xã hội để xây dựng tập đặc trưng Thực nghiệm tiến hành nghiên cứu chứng minh tính hiệu độ đo liên kết việc cải thiện độ xác toán khuyến nghị cộng tác [5, 67, 70, 75, 92] Tuy nhiên, mạng đồng tác giả mạng xã hội có nhiều đặc trưng riêng so với mạng xã hội nói chung Ví dụ, mức độ cộng tác hai tác giả viết chung báo phụ thuộc vào số lượng báo, số lượng tác giả, thứ tự tác giả thời gian công bố báo mà hai tác giả viết chung Ngoài ra, nhân tố quan trọng ảnh hưởng đến việc cộng tác tác giả tương lai tương đồng lĩnh vực nghiên cứu Hai tác giả nghiên cứu nhiều lĩnh vực khác số hướng nghiên cứu có tương đồng cao tiềm cộng tác việc viết chung báo khoa học tương lai lớn Để đánh giá mức độ tương đồng lĩnh vực nghiên cứu hai tác giả có số nghiên cứu dựa cách thức khác Các nghiên cứu [5, 75, 92] dựa tập từ xuất tên nội dung tóm tắt báo Nghiên cứu [87] dựa việc biểu diễn thông tin tên tập báo viết tác giả thông qua véc-tơ trọng số TF-IDF nghiên cứu [54] lại dựa phân loại tên báo vào lĩnh vực khác để tính mức độ tương quan tổng thể hai tác giả Có thể nhận thấy, phương pháp đề xuất để đánh giá mức độ tương đồng, tương quan hai tác giả dựa số thông tin báo khoa học tên, tập từ khóa, hay nội dung tóm tắt phản ánh phần mức độ tương đồng dựa ngữ nghĩa hai tác giả Tuy nhiên, thực tế, nhà nghiên cứu công bố báo khoa học tạp chí hội thảo có cách hành văn khác nhau, số từ ngữ đồng nghĩa sử dụng phản ánh ý nghĩa tương tự có hàm ý số chủ đề nghiên cứu Chính thế, cần phải có cách thức để biểu diễn báo dựa thông tin bao gồm tên nội dung tóm tắt, cho phản ánh cách đầy đủ tương đồng mặt ngữ nghĩa hai báo hai tập báo, làm sở để mở rộng độ đo liên kết hai tác giả, từ cải thiện độ xác toán khuyến nghị cộng tác mạng đồng tác giả Một số nghiên cứu gần [54, 57, 94, 100] đề xuất mơ hình để khuyến nghị tập ứng cử viên tiềm tăng cường cộng tác cộng tác tương lai nhà nghiên cứu Một vấn đề cần đặc biệt quan tâm hệ khuyến nghị cộng tác mạng đồng tác giả tập ứng cử viên khuyến nghị cần phải thỏa mãn mức độ tương đồng lĩnh vực nghiên cứu (thông qua tập báo công bố) 12 Nếu khuyến nghị ứng cử viên khơng có nhiều tương đồng chun mơn tác giả khơng có ý nghĩa Trên thực tế, việc thu thập thông tin đến lĩnh vực nghiên cứu tác giả vấn đề không dễ Do vậy, điều cần thiết nhằm tạo tin tưởng cho người khuyến nghị việc xây dựng mơ hình khuyến nghị cộng tác cho nhà nghiên cứu dựa độ đo liên kết kèm theo minh chứng mức độ tương đồng lĩnh vực nghiên cứu dựa tập báo công bố Trong mạng đồng tác giả, vấn đề khó khăn xác định mã cho tác giả Có thể cách viết họ tên tác giả báo thực lại tác giả khác Điều dẫn đến việc xây dựng mạng đồng tác giả không phản ánh thực tế không đảm bảo việc định danh tác giả Vì vậy, việc thu thập liệu mạng đồng tác giả cần phải thực dựa việc đảm bảo định danh tác giả Từ nhận xét phân tích trên, thấy rằng: để xây dựng độ đo liên kết mở rộng mạng đồng tác giả nhằm nâng cao hiệu khuyến nghị đồng thời làm sở xây dựng mơ hình khuyến nghị với tính giải thích cao thơng qua mức độ tương đồng lĩnh vực nghiên cứu cần phải tiến hành bước nghiên cứu sau Trước tiên, phải thu thập tập liệu xây dựng mạng đồng tác giả cho việc định danh xác tác giả Sau đó, mở rộng độ đo liên kết dựa thông tin đặc trưng báo số lượng tác giả, thứ tự xuất tác giả, thời gian công bố nội dung (tên, nội dung tóm tắt) báo Mục tiêu nghiên cứu luận án Các mục tiêu luận án là: Nghiên cứu, đề xuất số độ đo liên kết mở rộng dựa thông tin đặc trưng (như thứ tự xuất tên tác giả, thời gian cơng bố, nội dung tóm tắt báo) xây dựng phương pháp khuyến nghị cộng tác mạng đồng tác giả Thực nghiệm kiểm chứng đánh giá độ đo liên kết mở rộng Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần thực nhiệm vụ sau: (1) Nghiên cứu đặc trưng mạng đồng tác giả, độ đo liên kết phương pháp, kỹ thuật sử dụng toán khuyến nghị cộng tác mạng đồng tác giả (2) Nghiên cứu việc biểu diễn thông tin dựa nội dung báo cách thức để xác định mức độ tương đồng hai tập báo dựa nội dung làm sở để mở rộng độ đo liên kết (3) Nghiên cứu đề xuất giải pháp mở rộng độ đo liên kết áp dụng cho toán khuyến nghị cộng tác mạng đồng tác giả 13 (4) Nghiên cứu đề xuất phương pháp khuyến nghị cộng tác mạng đồng tác giả (5) Thu thập, chuẩn hóa liệu mạng đồng tác giả tiến hành thực nghiệm kiểm chứng độ đo liên kết mở rộng đề xuất minh họa cho mơ hình khuyến nghị cộng tác Đối tượng phạm vi nghiên cứu luận án Đối tượng phạm vi nghiên cứu trọng tâm luận án toán dự đoán cộng tác mạng đồng tác giả Thông tin tác giả, đặc trưng báo, độ đo liên kết mạng đồng tác giả, kỹ thuật sử dụng toán dự đoán liên kết đối tượng nghiên cứu, phân tích Để có tập đặc trưng số lượng tác giả, thứ tự xuất tác giả, thời gian công bố báo thông tin nội dung tóm tắt báo, luận án xây dựng sở liệu tập báo công bố tạp chí thơng qua nguồn như: AMC1 BJ2 Phương pháp nghiên cứu Phương pháp nghiên cứu luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm Về lý thuyết: luận án nghiên cứu tổng quan mạng xã hội mạng đồng tác giả, mơ hình dự đốn liên kết khuyến nghị mạng xã hội mạng đồng tác giả Ngồi ra, kỹ thuật phân tích chủ đề, phương pháp phân lớp nhị phân phương pháp phân cụm bán giám sát mờ nghiên cứu để áp dụng cho toán khuyến nghị cộng tác Về thực nghiệm: luận án thu thập liệu mạng đồng tác giả tập báo công bố, tiến hành tiền xử lý liệu để phân tích đặc trưng đánh giá độ đo liên kết áp dụng vào toán khuyến nghị cộng tác, đồng thời so sánh kết đạt với kết thực nghiệm công bố Ý nghĩa khoa học thực tiễn luận án Nội dung nghiên cứu, kết dự kiến đạt luận án có đóng góp đáng kể cho vấn đề khuyến nghị mạng đồng tác giả, làm sở để tiến hành xây dựng phương pháp khuyến nghị cộng tác tích hợp số hệ thống sở liệu học thuật ResearchGate, giúp nhà nghiên cứu dễ dàng cộng tác khoa học, rút ngắn khoảng cách địa lý tìm kiếm đối tác nghiên cứu http://www.sciencedirect.com/journal/applied-mathematics-and-computation?sdc=1 http://www.sciencedirect.com/journal/biophysical-journal/ 14 Nội dung luận án Nội dung luận án trình bày chương sau: Chương Tổng quan toán khuyến nghị cộng tác Trong chương này, luận án trình bày tổng quan mạng xã hội mạng đồng tác giả, nghiên cứu liên quan đến toán dự đoán liên kết khuyến nghị cộng tác mạng đồng tác giả Luận án hệ thống lại độ đo liên kết số kỹ thuật dùng toán dự đoán liên kết khuyến nghị cộng tác mạng đồng tác giả Chương Các độ đo liên kết mở rộng mạng đồng tác giả Nội dung chương đóng góp luận án, tập trung trình bày cách thức đề xuất mở rộng số độ đo liên kết dựa trọng số thông tin nội dung tóm tắt báo khoa học, tiến hành đánh giá hiệu số độ đo liên kết đề xuất dựa phương pháp dự đoán dựa phân lớp dựa độ đo liên kết Chương Bài toán khuyến nghị cộng tác Chương tập trung đề xuất phương pháp khuyến nghị cộng tác mạng đồng tác giả, có sử dụng đến mức độ tương đồng dựa báo với độ tương quan độ đo liên kết mở rộng đề xuất chương Trong chương này, luận án trình bày thử nghiệm tiến hành đánh giá phương pháp Cuối cùng, chương kết luận tổng hợp kết nghiên cứu đạt được, đóng góp khoa học luận án, hướng mở rộng nghiên cứu phát triển đề tài 15 CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC Trong chương này, luận án trình bày tổng quan tốn khuyến nghị cộng tác mạng đồng tác giả, độ đo liên kết dựa trọng số dựa ngữ nghĩa Các kiến thức liên quan phương pháp phân lớp, phân cụm mờ, phân cụm bán giám sát mờ phương pháp phân tích theo chủ đề trình chương 1.1 Bài tốn khuyến nghị cộng tác mạng đồng tác giả 1.1.1 Mạng xã hội mạng đồng tác giả Sự bùng nổ dịch vụ Internet giúp cho người tồn giới dễ dàng giao tiếp trao đổi với thông qua cộng đồng ảo biết đến mạng xã hội trực tuyến (Online Social Network - OSN) OSN trở thành lĩnh vực nghiên cứu kể từ năm 1967 [30] công nghệ web 2.0 đời thúc đẩy phát triển dịch vụ mạng xã hội trực tuyến, dịch vụ phổ biến kể đến Facebook, DBLP, LinkedIn, ResearchGate, Flickr, Youtube, v.v Theo [80], “OSN hình thành cộng đồng trực tuyến có chung sở thích, hoạt động, tảng kiến thức (hoặc) tình bạn Phần lớn OSN dựa tảng web cho phép người dùng đăng tải hồ sơ (văn bản, hình ảnh, âm video), tương tác với theo nhiều cách khác nhau” Ngoài ra, mạng xã hội xem cấu trúc xã hội tạo thành từ tập hợp tác nhân tập hợp mối quan hệ tác nhân [89], mạng xã hội biểu diễn dạng đồ thị, nút đại diện cho tác nhân (các cá nhân, nhóm, hay tổ chức) cạnh tương ứng với mối ràng buộc/tương tác/mối quan hệ tác nhân; nút cạnh khác cho mạng loại xã hội khác Hầu hết nghiên cứu dự đoán liên kết thực [23, 43, 51, 52, 82, 102] tập trung giải vấn đề dự đốn liên kết mạng xã hội vơ hướng đồng trực tuyến (Online Homogeneous Undirected Social Networks – OHUSN) OHUSN OSN mà thực thể mạng loại, liên kết thực thể vơ hướng có kiểu (chẳng hạn Friendship Networks, Co-authorship Networks) Về phương diện đó, OHUSN đem lại cho người dùng số tiện ích sau [63]: Thứ hỗ trợ việc tạo kết nối bạn bè Các mạng xã hội cho phép kết bạn Facebook (có khoảng tỷ người dùng) Twitter (có khoảng 200 triệu người dùng) Thứ hai hỗ trợ cộng tác LinkedIn mạng xã hội bao gồm 200 triệu chuyên gia, cho phép người dùng chia sẻ thơng tin khoa học tìm kiếm đối tác tiềm cộng tác Thứ ba hỗ trợ việc trao đổi thông tin Mạng thư điện tử ví dụ mạng xã hội trao đổi 16 thơng tin Do số lượng người dùng lớn nên OHUSN tạo khối lượng liệu khổng lồ theo thời gian liệu có đặc trưng dễ nhận biết chất lượng cao, liệu lớn, bán cấu trúc, thay đổi theo thời gian phản ánh cách trực tiếp người xã hội thực [88] Tuy nhiên, vấn đề khai phá phân tích liệu liên quan đến OSN nói chung OHUSN nói riêng vấn đề khơng đơn giản gặp phải hai thách thức [87]: tính khơng đầy đủ tính biến động cao Hầu hết liệu mạng xã hội nhận khơng đầy đủ có phần thơng tin xã hội thu thập từ tảng mạng xã hội Mạng xã hội cịn có tính biến động cao nút liên kết xuất biến tương lai Do vậy, việc dự đoán liên kết bị khuyết không quan sát OHUSN thời việc thêm loại bỏ liên kết OHUSN tương lai vấn đề quan trọng [88] Việc dự đốn khơng nắm bắt phát triển OHUSN mà làm cho OHUSN trở nên đầy đủ Vấn đề thường biết đến vấn đề dự đoán liên kết OHUSN [88] Cho tập liên kết OHUSN thời điểm t, tìm cách dự đốn liên kết thêm vào OHUSN khoảng thời gian từ thời điểm t đến thời điểm t’ tương lai [51] Dự đoán liên kết nhiệm vụ phân tích, khai phá liên kết [35] có nhiều ứng dụng quan trọng Có thể kể đến ứng dụng cho hệ khuyến nghị việc tìm kiếm thơng tin thương mại điện tử, hệ trợ giúp người dùng có thêm người bạn [3] người cộng tác tiềm [62, 93], cung cấp mặt hàng người dùng quan tâm mua bán trực tuyến [4], khuyến nghị đối tác đồng sáng chế mạng cộng đồng doanh nghiệp [88] đối tác lĩnh vực khác [83], tìm chuyên gia đồng tác giả mạng cộng đồng khoa học [70, 92] Theo [88], phương pháp dự đoán liên kết mạng xã hội bao gồm hai hướng tiếp cận (xem Hình 1.1 Hình 1.2) sau: Thứ nhất, tiếp cận dựa độ đo liên kết hay gọi học không giám sát Trong hướng tiếp cận này, hệ thống tính tốn giá trị tương đồng cặp nút ứng cử dựa độ đo liên kết (chẳng hạn CN [67], AA [1], JC [76], v.v…), sau xếp theo chiều giảm dần giá trị độ đo liên kết lựa chọn danh sách cặp nút ứng cử để dự đốn có liên kết (Hình 1.1) Tính độ đo liên kết Sắp xếp cặp nút theo độ đo liên kết Danh sách Top N cặp nút dự đốn có liên kết Hình 1.1 Tiếp cận dự đoán liên kết dựa độ đo liên kết 17 Thứ hai, tiếp cận dựa mơ hình phân lớp, hướng tiếp cận coi toán dự đoán liên kết toán phân lớp nhị phân [5] Để thực theo hướng tiếp cận này, hệ thống xây dựng tập đặc trưng cho cặp nút khơng có liên kết dựa độ đo tương đồng số đặc trưng khác dựa thông tin từ mạng xã hội (chẳng hạn thông tin dạng văn thuộc tính miền tri thức), tiến hành gán nhãn cho cặp nút theo cách thức sau: có liên kết tiềm kết nối cặp nút cặp nút gán nhãn (positive), ngược lại gán nhãn (negative) (Hình 1.2) Các đặc trưng dựa độ đo liên kết Mơ hình phân lớp Các đặc trưng khác Danh sách cặp nút dự đốn có liên kết Hình 1.2 Tiếp cận dự đoán liên kết dựa phân lớp Mạng đồng tác giả mạng OHUSN nhiều nhà nghiên cứu quan tâm Newman [65, 66] biết đến người xây dựng mạng đồng tác giả dựa bốn nguồn liệu báo khoa học công khai mạng Internet Los Alamos e-Print Archive, Medline, SPIRES NCSTRL Theo [31], mạng đồng tác giả mạng xã hội mà nút nhà khoa học cạnh (liên kết) quan hệ đồng tác giả Đây mạng vô hướng phần lớn tác giả có kết nối thưa số tác giả có nhiều kết nối Trên thực tế, hầu hết nghiên cứu toán dự đoán liên kết mạng OHUSN lựa chọn mạng đồng tác giả mạng để tiến hành thực nghiệm Để minh họa cho mạng đồng tác giả, định nghĩa hình thức mạng đồng tác giả đề xuất sau: Định nghĩa 1.1 - Một mạng đồng tác giả 𝐺 (𝑇) bốn (𝑉 (𝑇) , 𝐸 (𝑇) , 𝑃(𝑇) , 𝑇), 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑌 } tập mốc thời gian liên tiếp (𝑡𝑖 < 𝑡𝑗 với i < j, i, j = ̅̅̅̅̅ 1: 𝑌), với 𝑌 số mốc thời gian, - 𝑉 (𝑇) = {𝑣1 , 𝑣2 , , 𝑣𝑁 } tập tác giả, 𝑁 số tác giả, - 𝑃(𝑇) = {(𝑝1 , 𝑡𝑝1 , 𝑉𝑝1 ), (𝑝2 , 𝑡𝑝2 , 𝑉𝑝2 ), , (𝑝𝑀 , 𝑡𝑝𝑀 , 𝑉𝑝𝑀 )} tập báo, 𝑉𝑝𝑖 ⊂ 𝑉 (𝑇) tập tác giả báo pi, 𝑡𝑝𝑖 ∈ 𝑇 thời gian công bố báo pi, với 𝑀 số báo - 𝐸 (𝑇) = {(𝑣𝑖 , 𝑣𝑗 , 𝑃𝑖𝑗 ): 𝑣𝑖 , 𝑣𝑗  𝑉 (𝑇) , 𝑣𝑖 ≠ 𝑣𝑗 , 𝑃𝑖𝑗  𝑃(𝑇) } tập liên kết (hay gọi quan hệ cộng tác) 18 Định nghĩa 1.1 minh họa thông qua ví dụ mạng đồng tác giả biểu diễn Hình 1.3 dựa liệu cho Bảng 1.1 Hình 1.3 đồ thị biểu diễn quan hệ cộng tác tác giả, ei biểu diễn quan hệ cộng tác hai tác giả xác định Bảng 1.1 Trong ví dụ này, mạng đồng tác giả bao gồm tác giả (N = 8), 10 báo (M = 10) báo xuất từ năm 2000 đến năm 2002 (K = 3) Tổng số cộng tác 12 (xem Bảng 1.1) Bảng 1.1 Danh sách quan hệ cộng tác báo Bài báo p1 Năm công bố 2000 v5 Tập báo (𝑝1 , 𝑝2 , 𝑝4 , 𝑝9) (𝑝1 , 𝑝2) p2 2000 (𝑣5 , 𝑣2 , 𝑣4 ) (𝑣1 , 𝑣5 , 𝑣3 , 𝑣4 ) v2 v3 ( 𝑝3 , 𝑝7 , 𝑝10) p3 2000 (𝑣2 , 𝑣3 ) e4 v2 v1 ( 𝑝2 ) p4 2000 (𝑣4 , 𝑣2 ) e5 v2 v6 ( 𝑝8 ) p5 2001 (𝑣7 , 𝑣2 , 𝑣8 ) e6 v2 v7 ( 𝑝5 ) p6 2001 (𝑣2 , 𝑣8 ) e7 v2 v8 ( 𝑝5 , 𝑝6 , 𝑝8 ) p7 2001 (𝑣3 , 𝑣2 ) e8 v1 v4 ( 𝑝2 ) p8 2002 (𝑣8 , 𝑣6 , 𝑣2 ) e9 v1 v5 ( 𝑝2 ) p9 2002 (𝑣2 , 𝑣4 ) e10 v4 v5 (𝑝1 , 𝑝2) p10 2002 (𝑣2 , 𝑣3 ) e11 v6 v8 ( 𝑝8 ) e12 v7 v8 ( 𝑝5 ) Quan hệ cộng tác e1 Tác giả i v2 Tác giả j v4 e2 v2 e3 Danh sách tác giả v4 v3 e2 v2 e8 v5 e5 e4 v6 e9 e6 v1 e11 e12 v8 v7 Hình 1.3 Minh họa mạng đồng tác giả với liệu Bảng 1.1 từ năm 2000 đến 2002 dạng đồ thị 19 1.1.2 Bài toán khuyến nghị cộng tác Bài toán khuyến nghị cộng tác bắt nguồn từ toán dự đoán liên kết mạng xã hội giả nhằm tìm tác giả có tiềm cộng tác tương lai Bài toán khuyến nghị cộng tác phát biểu sau: Cho thông tin tác giả viết chung báo khoa học đến thời điểm t, với tác giả u đó, cần tìm danh sách tác giả có tiềm cộng tác với tác giả u tương lai (từ thời điểm t’ > t) Như vậy, tốn khuyến nghị cộng tác có hai trường hợp cần khuyến nghị: Thứ khuyến nghị cộng tác Hệ thống lựa chọn danh sách ứng cử viên chưa cộng tác với tác giả có tiềm lớn cộng tác với họ tương lai Thứ hai khuyến nghị cộng tác tăng cường Hệ thống khuyến nghị cho nhà nghiên cứu tác giả cộng tác trước với họ có tiềm tiếp tục cộng tác tăng cường tương lai Bài tốn khuyến nghị cộng tác có khác biệt so với tốn khuyến nghị truyền thống tập ứng cử viên khuyến nghị cần phải thỏa mãn mức độ tương đồng lĩnh vực nghiên cứu (thông qua tập báo công bố); tức người khuyến nghị cần biết lý họ có tiềm cộng tác với ứng cử viên lựa chọn tương lai Đối với toán khuyến nghị truyền thống, chủ yếu tập trung vào ba hướng tiếp cận là: (i) hướng tiếp cận dựa lọc cộng tác [73, 77, 81, 84] Trong đó, sử dụng thơng tin đánh giá người dùng khác nhau, việc xác định người dùng tương đồng (những người láng giềng) người có lịch sử đánh giá tương tự người dùng đưa khuyến nghị dựa lịch sử đánh giá láng giềng Một số thuật tốn học máy khác áp dụng hướng tiếp cận này, chẳng hạn Naive Bayes [15] dựa luật [6]; với nhấn mạnh mơ hình nhân tố tiềm ẩn dùng thập kỷ qua phân tích giá trị riêng (SVD) Sarwar cộng [78], phân tích nhân tố Canny [42], phân tích ngữ nghĩa tiềm ẩn (PLSA) Hofmann [41], phân tích thừa số ma trận khơng âm [48] (ii) hướng tiếp cận dựa nội dung [13, 17, 91], ý tưởng chủ đạo hướng tiếp cận đưa khuyến nghị sản phẩm tương tự (tương đồng) với sản phẩm mà người dùng thích (quan tâm) khứ xem xét Trong đó, độ tương tự hai sản phẩm tính tốn dựa đặc điểm (đặc trưng) gắn với sản phẩm so sánh Ví dụ, người dùng đánh giá phim thuộc thể loại hài kịch hệ thống học cách để khuyến nghị phim khác thuộc thể loại cho người dùng (iii) hướng tiếp cận lai [18, 86], cách kết hợp hai nhiều phương pháp khuyến nghị nhằm đạt độ xác (hiệu suất) tốt so với áp dụng riêng lẻ phương pháp 20 Hình 3.10 Kết trung bình chung Recall, Precision F1-measure hai trường hợp Để xác định giá trị α β luận án tiến hành thực nghiệm với giá trị khác α = {0.3, 0.31, …, 0.4} β = {0.4, 0.41, …, 0.5}, kết F1-measure trung bình chung 65 tác giả biểu diễn Hình 3.3 Hình 3.4 tương ứng với hai trường hợp thực nghiệm Quan sát Hình 3.3 Hình 3.4, dễ nhận thấy giá trị trung bình chung F1-measure hai trường hợp đạt giá trị cao α = 0.4 β >= 0.45; F1-measure trung bình đạt lớn α = 0.4 β = 0.49 Hình 3.5 cho biết giá trị trung bình Recall, Precision F1-measure hai trường hợp ứng với α, β tối ưu Các giá trị trung bình Recall, Precision F1-measure trường hợp thứ (sử dụng công thức (3.1) trọng số cộng tác toàn phần luận án đề xuất) nhỉnh so với trường hợp 1, cụ thể Precision đạt 0.225309 so với 0.218866 F1-measure 0.352285 so với 0.344331, giá trị Recall hai trường hợp cao xấp xỉ 0.922564 0.921026 Tuy kết cải thiện chưa nhiều thấy việc áp dụng tính trọng số cộng tác tổng thể theo công thức (3.1) làm cho giá trị mịn (phân tách hơn) giúp việc lựa chọn ứng cử viên khuyến nghị cộng tác tăng cường thêm xác Để so sánh cách chi tiết giá trị số F1-measure tác giả thực khuyến nghị cộng tác áp dụng trọng số cộng tác theo công thức (1.1) (3.1), giá trị F1-measure tác giả có khác biệt áp dụng trọng số cộng tác tổng thể theo công thức (1.1) (3.1) Bảng 3.11 Cụ thể, có 18/65 tác giả kết F1-measure nhận có khác biệt, trọng số cộng tác theo cơng thức (3.1) có 15 tác giả nhận giá trị F1-measure ứng cao so với công thức (1.1) có tác giả nhận giá trị F1-measure thấp so với công thức (1.1) Về tỷ lệ phần trăm cải thiện, công thức (3.1) tỷ lệ cải thiện thấp 3.57 % cao 42.86 % Tuy nhiên, ba 94 tác giả có giá trị F1-measure ứng với công thức (3.1) thấp công thức (1.1) chiếm tỷ lệ thấp %, 25.93 % 18.18 % Bảng 3.11 So sánh giá trị số F1-measure trọng số cộng tác theo công thức (1.1) (3.1) ứng với tác giả khuyến nghị Mức độ cải thiện Id Trọng số cộng tác Trọng số cộng tác STT tác giả theo công thức (1.1) theo công thức (3.1) so với (1.1) (%) 0.421053 0.47619 13.10 0.344828 0.357143 3.57 16 0.333333 0.363636 9.09 23 0.4 0.47619 19.05 25 0.1 0.142857 42.86 27 0.157895 0.15 -5.00 31 0.705882 0.736842 4.39 34 0.266667 0.352941 32.35 36 0.285714 0.333333 16.67 10 41 0.416667 0.434783 4.35 11 43 0.296296 0.344828 16.38 12 49 0.3 0.222222 -25.93 13 50 0.105263 0.117647 11.76 14 54 0.416667 0.434783 4.35 15 55 0.428571 0.5 16.67 16 56 0.428571 0.5 16.67 17 63 0.333333 0.375 12.50 18 64 0.333333 0.272727 -18.18 95 công thức (3.1) 3.3 Kết luận Trong mục này, để đánh giá hiệu độ đo liên kết mở rộng đề xuất chương 2, luận án tiến hành thực nghiệm phương pháp khuyến nghị cộng tác dựa phân lớp phân cụm bám giám sát mờ Thông qua kết thực nghiệm, nhận thấy độ đo liên kết mở rộng P_LDAcosin kết hợp với độ đo liên kết trọng số cho kết cải thiện đáng kể so với tổ hợp bao gồm độ đo liên kết trọng số tập liệu D1 - D4 cải hai phương pháp khuyến nghị cộng tác Ngoài ra, việc áp dụng phương pháp phân cụm bán giám sát mờ vào khuyến nghị cộng tác cho hiệu khuyến nghị tốt so với dựa phân lớp Điều cho thấy, phân cụm bán giám mờ có tiềm áp dụng cho tốn khuyến nghị cộng tác nói chung khuyến nghị cộng tác nói riêng Ngồi ra, luận án cịn đề xuất phương pháp khuyến nghị cộng tác tăng cường mạng đồng tác giả, nhằm trợ giúp nhà nghiên cứu có sở để định xem mối cộng tác cần tăng cường Phương pháp đề xuất dựa trọng số cộng tác mức độ tương quan tổng thể nhằm tăng cường hiệu cho hệ thống khuyến nghị cộng tác Kết thực nghiệm mạng đồng tác giả xây dựng từ tập báo đăng tạp chí BJ từ năm 2006 đến 2017 cho thấy F1-measure phương pháp đề xuất đạt giá trị cao α = 0.4 β >= 0.45; F1-measure trung bình đạt lớn α = 0.4 β = 0.49 Và giá trị trung bình chung F1-measure áp dụng trọng số cộng tác với công thức (3.1) mà tác giả đề xuất 0.35229 so với 0.34433 số cộng tác tính theo cơng thức (1.1) Nội dung chương liên quan đến cơng trình nghiên cứu CT4 CT6 cơng bố tạp chí nước 96 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luận án hoàn thành nội dung nghiên cứu, đáp ứng mục tiêu ban đầu đặt Nghiên cứu, đề xuất số độ đo liên kết mở rộng dựa thông tin đặc trưng (như thứ tự xuất tên tác giả, thời gian cơng bố, nội dung tóm tắt báo) xây dựng phương pháp khuyến nghị cộng tác mạng đồng tác giả Thực nghiệm kiểm chứng đánh giá độ đo liên kết mở rộng Trên thực tế toán dự báo liên kết toán khuyến nghị cộng tác mạng đồng tác giả gặp phải vấn đề liệu thưa, độ đo liên kết đề xuất chưa phản ánh hết tính đặc thù mạng đồng tác, thơng tin đặc trưng mạng đa dạng thứ tự tác giả, thời gian công bố đặc biệt nội dung báo Từ nhận xét đó, luận án đề xuất số cách thức để xây dựng độ đo liên kết mở rộng, nhằm góp phần vào việc cải thiện hiệu dự đốn liên kết nói chung mạng đồng tác giả Bước đầu luận án áp dụng thành công kỹ thuật phân tích chủ đề LDA [10] việc xác định mức độ tương đồng hai tập báo dựa thơng tin tên nội dung tóm tắt báo, việc áp dụng giúp cho việc xây dựng độ đo liên kết mở áp dụng cho tốn khuyến nghị cộng tác mạng đồng tác giả Bài toán khuyến nghị mạng đồng tác giả có đặc thù riêng kết khuyến nghị cần có tính giải thích cao để giúp người tư vấn cộng tác nghiên cứu có thêm thơng tin để định xem nên cộng tác với Do vậy, việc sử dụng độ đo liên kết trình khuyến nghị cộng tác đưa cho người dùng minh chứng lại nên cộng tác với người việc hồn tồn hợp lý Đóng góp khoa học luận án: Về xây dựng độ đo liên kết - Đề xuất độ đo liên kết trọng số dựa thứ tự tác giả thời gian công bố báo, - Đề xuất độ đo liên kết dựa nội dung báo, sử dụng kỹ thuật phân tích chủ đề (LDA) để biểu diễn báo làm sở để xây dựng độ đo liên kết, - Đề xuất độ đo liên kết kết hợp độ đo liên kết dựa trọng số dựa nội dung báo Đề xuất phương pháp khuyến nghị cộng tác mạng đồng tác giả - Sử dụng độ đo liên kết mở rộng để khuyến nghị cộng tác dựa phân lớp phân cụm bán giám sát mờ - Sử dụng trọng số cộng tác mức độ tương quan tổng thể để khuyến nghị cộng tác tăng cường 97 - Tiến hành thử nghiệm hai liệu thu thập từ hai tạp chí “Applied Mathematics and Computation” “Biophysical Journal” Kết thu từ thực nghiệm Trong chương 2, luận án tiến hành thực nghiệm để đánh giá hiệu độ đo liên kết mở rộng đề xuất hai liệu AMC BJ Thông qua kết thực nghiệm cho thấy hầu hết độ đo liên kết mở rộng đề xuất có cải thiện so với độ đo trọng số Đặc biệt, kết hợp độ đo liên kết trọng số với độ đo liên kết dựa nội dung nhiều trường hợp cho kết cải thiện đáng kể sử dụng phương pháp phân lớp kết hợp kỹ thuật lấy mẫu theo SMOTE [22] Trong chương 3, luận án minh họa phương pháp khuyến nghị cộng tác khuyến nghị tăng cường liệu BJ Kết thực nghiệm cho thấy hiệu khuyến nghị có nhiều khả quan, đặc biệt áp dụng phân cụm bán giám sát mờ để khuyến nghị cộng tác quan trọng việc khuyến nghị nhà nghiên cứu kèm theo minh chứng mức độ tương đồng lĩnh vực nghiên cứu để người khuyến nghị có sở tin tưởng định nên cộng tác với danh sách người lựa chọn Những hạn chế: Luận án tập chung nghiên cứu đề xuất độ đo liên kết dựa láng giềng chung, chưa mở rộng độ đo liên kết hai cặp tác giả có độ dài lớn (tức cặp tác giả có độ dài đường lớn mạng đồng tác giả) Chỉ thực nghiệm dựa tập báo công bố tạp chí cụ thể, chưa thực nghiệm tập liệu đủ lớn bao gồm nhiều tạp chí nhiều hội thảo Phương pháp khuyến nghị đề xuất mạng đồng tác giả đơn giản, chưa xem xét thêm số thông tin khác tác địa công tác, hướng nghiên cứu chính, v.v Định hướng phát triển: Từ kết nghiên cứu thực hiện, hạn chế, luận án đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu có Mở rộng độ đo liên kết để tính tốn mức độ tương đồng hai tác giả mạng đồng tác giả Nghiên cứu chiến lược khuyến nghị lai ghép hệ khuyến nghị truyền thống để xây dựng mơ hình khuyến nghị phù hợp mạng đồng tác giả Tiếp tục nghiên cứu áp dụng phương pháp phân cụm bán giám sát mờ để xây dựng phương pháp khuyến nghị cộng tác hiệu Xây dựng tập liệu đủ lớn để tiến hành thực nghiệm nhằm đánh giá hiệu độ đo liên kết mơ hình khuyến nghị 98 TÀI LIỆU THAM KHẢO [1] L A Adamic and E Adar (2003) "Friends and neighbors on the web," Social networks, vol 25, no 3, pp 211-230 [2] M Agarwal, H Agrawal, N Jain and M Kumar (2010) “Face recognition using principle component analysis, eigenface and neural network,” IEEE International Conference on, In Signal Acquisition and Processing IEEE, 2010 (ICSAP10), 310-314 [3] L M Aiello, A Barrat, R Schifanella, C Cattuto, B Markines and F Menczer (2012) "Friendship prediction and homophily in social media," ACM Transactions on the Web, vol 6, no 3, p [4] C G Akcora, B Carminati and E Ferrari (2011) "Network and profile based measures for user similarities on social networks," in In Information Reuse and Integration (IRI), 2011 IEEE International Conference on [5] M Al Hasan, V Chaoji, S Salem and M Zaki (2006) "Link prediction using supervised learning," in SDM06: workshop on link analysis, counter-terrorism and security [6] C Basu, H Hirsh and W Cohen (1998) "Recommendation as classification: Using social and content-based information in recommendation," in Aaai/iaai, pp 714-720 [7] C Becker, R Rigamonti, V Lepetit and P Fua (2013) "Supervised feature learning for curvilinear structure segmentation," in International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, pp 526-533 [8] J.C Bezdek (1981) "Pattern Recognition with Fuzzy Objective Function Algorithms," Plenum, New York [9] J Li, J M Bioucas-Dias and A Plaza (2010) “Semisupervised hyperspectral image segmentation using multinomial logistic regression with active learning,” IEEE Transactions on, Geoscience and Remote Sensing, 48(11), 4085-4098 [10] D M Blei (2012) "Probabilistic topic models," Communications of the ACM, vol 55, no 4, pp 77-84 [11] D M Blei, A Y Ng and M I Jordan (2003) "Latent dirichlet allocation," Journal of machine Learning research, vol 3, no Jan, pp 993-1022 99 [12] D Blei and J Lafferty (2009) Text mining: Theory and applications, chapter topic models, Taylor and Francis, London [13] T Bogers and A Van den Bosch (2008) "Recommending scientific articles using citeulike," in In Proceedings of the 2008 ACM conference on Recommender systems [14] M A Brandão, M M Moro, G R Lopes and J P Oliveira (2013) "Using link semantics to recommend collaborations in academic social networks," in Proceedings of the 22nd International Conference on World Wide Web, ACM, pp 833-840 [15] J S Breese, D Heckerman and C Kadie (1998) "Empirical analysis of predictive algorithms for collaborative filtering," in In Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence [16] L Breiman (2001) "Random forests," Machine learning, vol 45, no 1, pp 532 [17] R Burke (2002) "Hybrid recommender systems: Survey and experiments," User modeling and user-adapted interaction, vol 12, no 4, pp 331-370 [18] R D Burke (2007) "Hybrid web recommender systems," in P Brusilovsky, A Kobsa, & W Nejdl, editors, The Adaptive Web, Methods and Strategies of Web Personalization, volume 4321 of Lecture Notes in Computer Science, Springer, 2007, pp 377-408 [19] T M Chang and W F Hsiao (2013) "LDA-based Personalized Document Recommendation," In PACIS, pp 13 [20] C C Chang and C J Lin (2011) "LIBSVM: a library for support vector machines," ACM transactions on intelligent systems and technology (TIST), vol 2, no 3, p 27 [21] N V Chawla (2009) "Data mining for imbalanced datasets: An overview," in Data mining and knowledge discovery handbook, Springer, Boston, MA, pp 875-886 [22] N V Chawla, K W Bowyer, L O Hall and W P Kegelmeyer (2002) "SMOTE: synthetic minority over-sampling technique," Journal of artificial intelligence research, vol 16, pp 321-357 [23] B Chen, F Li, S Chen, R Hu and L Chen (2017) "Link prediction based on non-negative matrix factorization," PloS one, vol 12, no 8, p e0182968 100 [24] J Chen, S Zhao and H Wang (2011) “Risk analysis of flood disaster based on fuzzy clustering method,” Energy Procedia, 5, 1915-1919 [25] T Chen and C Guestrin (2016) "Xgboost: A scalable tree boosting system," in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, ACM, pp 785-794 [26] K S Chuang, H L Tzeng, S Chen, J Wu and T J Chen (2006) “Fuzzy cmeans clustering with spatial information for image segmentation,” computerized medical imaging and graphics, 30(1), 9-15 [27] C Cortes and V Vapnik (1995) "Support-vector networks," Machine learning, vol 20, no 3, pp 273-297 [28] H R De Sá and R B Prudêncio (2011) "Supervised link prediction in weighted networks," in Neural Networks (IJCNN), The 2011 International Joint Conference on, IEEE, pp 2281-2288 [29] G A de Sousa, M A Diniz, M A Brandão and M M Moro (2014) "CNARe: Co-authorship Networks Analysis and Recommendations," in Proceedings of the 9th ACM Conference on Recommender Systems, ACM, pp 329-330 [30] Y Dhote, N Mishra and S Sharma (2013) "Survey and analysis of temporal link prediction in online social networks," in In Advances in Computing, Communications and Informatics (ICACCI), 2013 International Conference on [31] Y Ding (2011) "Scientific collaboration and endorsement: Network analysis of coauthorship and citation networks," Journal of informetrics, vol 5, no 1, pp 187-203 [32] R O Duda, P E Hart and D G Stork (2001) "Pattern classification 2nd," Edition New York, p 55 [33] R C Eberchart and J Kennedy (1995) "Particle swarm optimization," in IEEE International Conference on Neural Networks, Perth, Australia [34] Y Freund and R E Schapire (1995) "A desicion-theoretic generalization of online learning and an application to boosting," in European conference on computational learning theory, Springer, Berlin, Heidelberg, pp 23-37 [35] L Getoor and C P Diehl (2005) "Link mining: a survey," Acm Sigkdd Explorations Newsletter, vol 7, no 2, pp 3-12 [36] J Golbeck and J Hendler (2006, January) "Filmtrust: Movie recommendations using trust in web-based social networks," In Proceedings of the IEEE 101 Consumer communications and networking conference, Vol 96, No 1, pp 282286 [37] Y Guisheng, Y Wansi and D Yuxin (2014) "A new link prediction algorithm: node link strength algorithm," in Computer Applications and Communications (SCAC), 2014 IEEE Symposium on, IEEE, pp 5-9 [38] I Günes, S Gündüz-Ưüdücü and Z Çataltepe (2016) "Link prediction using time series of neighborhood-based node similarity scores," Data Mining and Knowledge Discovery, vol 30, no 1, pp 147-180 [39] S Gupta, S Pandey and K K Shukla (2015) "Comparison analysis of link prediction algorithms in social network," International Journal of Computer Applications, vol 111, no 16 [40] M Hall, E Frank, G Holmes, B Pfahringer, P Reutemann and I H Witten (2009) "The WEKA data mining software: an update," ACM SIGKDD explorations newsletter, vol 11, no 1, pp 10-18 [41] T Hofmann (2004) "Latent semantic models for collaborative filtering," ACM Transactions on Information Systems (TOIS), vol 22, no 1, pp 89-115 [42] T Hofmann and D Hartmann (2005) "Collaborative filtering with privacy via factor analysis," in In Proceedings of the 2005 ACM symposium on applied computing [43] N M A Ibrahim and L Chen (2015) "Link prediction in dynamic social networks by integrating different types of information," Applied Intelligence, vol 42, no 4, pp 738-750 [44] G Jeh and J Widom (2002) "SimRank: a measure of structural-context Silarity," in In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining [45] T Karagiannis and M Vojnovic (2009, April) "Behavioral profiles for advanced email features," In Proceedings of the 18th international conference on World wide web, pp 711-720, ACM [46] L Katz (1953) "A new status index derived from sociometric analysis," Psychometrika, vol 18, no 1, pp 39-43 [47] H Kautz, B Selman and M Shah (1997) "Referral Web: combining social networks and collaborative filtering," Communications of the ACM, 40(3), 6365 102 [48] Y Koren (2008) "Factorization meets the neighborhood: a multifaceted collaborative filtering model," in In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining [49] M Kubat and S Matwin (1997) "Addressing the curse of imbalanced training sets: one-sided selection," in ICML, vol 97, pp 179-186 [50] D H Lee, P Brusilovsky and T Schleyer (2011) "Recommending collaborators using social features and mesh terms," Proceedings of the Association for Information Science and Technology, vol 48, no 1, pp 1-10 [51] D Liben‐Nowell and J Kleinberg (2007) "The link‐prediction problem for social networks," Journal of the Association for Information Science and Technology, vol 58, no 7, pp 1019-1031 [52] R N Lichtenwalter, J T Lussier and N V Chawla (2010) "New perspectives and methods in link prediction.," in In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining [53] J X F Li, W Wang, Z Chen, N Y Asabere and H Jiang (2014) "Acrec: a coauthorship based random walk model for academic collaboration recommendation," in Proceedings of the 23rd International Conference on World Wide Web, ACM, pp 1209-1214 [54] G R Lopes, M M Moro, L K Wives and J P M De Oliveira (2010) "Collaboration recommendation on academic social networks," in In International Conference on Conceptual Modeling [55] J Lu, X Yuan and T Yahagi (2007) “A method of face recognition based on fuzzy c-means clustering and associated sub-NNs,” IEEE Transactions on, Neural Networks, 18(1), 150-160 [56] Z Lu, B Savas, W Tang and I S Dhillon (2010) "Supervised link prediction using multiple sources," in Data Mining (ICDM), 2010 IEEE 10th International Conference on, IEEE, pp 923-928 [57] I Makarov, O Bulanov and L E Zhukov (2016) "Co-author recommender system," in In International Conference on Network Analysis [58] A Martin, V Gayathri, G Saranya, P Gayathri and P Venkatesan (2011) “A hybrid model for bankruptcy prediction using genetic algorithm, fuzzy c-means and MARS,” International Journal on Soft Computing ( IJSC ), 2(1), 12-24 103 [59] V Martínez, F Berzal and J C Cubero (2017) "A survey of link prediction in complex networks," ACM Computing Surveys (CSUR), vol 49, no 4, p 69 [60] D W McDonald (2003, April) "Recommending collaboration with social networks: a comparative evaluation," In Proceedings of the SIGCHI conference on Human factors in computing systems, pp 593-600, ACM [61] M Mitzenmacher (2004) "A brief history of generative models for power law and lognormal distributions," Internet mathematics, vol 1, no 2, pp 226-251 [62] J Mori, Y Kajikawa, H Kashima and I Sakata (2012) "Machine learning approach for finding business partners and building reciprocal relationships., 39(12), ," Expert Systems with Applications, vol 39, no 12, pp 10402-10407 [63] L Munasinghe (2013) Time-aware methods for link prediction in social networks (Doctoral dissertation, Ph D thesis, The Graduate University for Advanced Studies) [64] T Murata and S Moriyasu (2007) "Link prediction of social networks based on weighted proximity measures," in the IEEE/WIC/ACM international conference on In Web Intelligence [65] M E Newman (2001) "Scientific collaboration networks I Network construction and fundamental results," Physical review E, vol 64, no 1, p 016131 [66] M E Newman (2001) "Scientific collaboration networks II Shortest paths, weighted networks, and centrality," Physical review E, p 016132 [67] M E Newman (2001) "Clustering and preferential attachment in growing networks," Physical review E, vol 64, no 2, p 025102 [68] M E Newman (2004) "Who is the best connected scientist? A study of scientific coauthorship networks," in Complex networks, Springer, Berlin, Heidelberg, pp 337-370 [69] H Ogata, Y Yano, N Furugori and Q Jin (2001) "Computer supported social networking for augmenting cooperation", Computer Supported Cooperative Work (CSCW), 10(2), 189-209 [70] M Pavlov and R Ichise (2007) "Finding experts by link prediction in coauthorship networks," in In Proceedings of the 2nd International Conference on Finding Experts on the Web with Semantics-Volume 290 104 [71] J Platt (1998) "Sequential minimal optimization: A fast algorithm for training support vector machines" [72] J R Quinlan (2014) C4 5: programs for machine learning, Elsevier [73] P Resnick, N Iacovou, M Suchak, P Bergstrom and J Riedl (1994) "GroupLens: an open architecture for collaborative filtering of netnews," in Proceedings of the 1994 ACM conference on Computer supported cooperative work, ACM, pp 175-186 [74] M R Rezaee, P M Van der Zwet, B P Lelieveldt, R J Van Der Geest and J H Reiber (2000) “A multiresolution image segmentation technique based on pyramidal segmentation and fuzzy clustering,” IEEE Transactions on, Image Processing, 9(7), 1238-1248 [75] M Sachan and R Ichise (2010) "Using abstract information and community alignment information for link prediction," in In Machine Learning and Computing (ICMLC), 2010 Second International Conference on [76] G Salton and M J McGill (1987) Introduction to Modern Information Retrieval, New York: Mc [77] B Sarwar, G Karypis, J Konstan and J Riedl (2001) "Item-based collaborative filtering recommendation algorithms," in In Proceedings of the 10th international conference on World Wide Web [78] B Sarwar, G Karypis, J Konstan and J Riedl (2002) "Incremental singular value decomposition algorithms for highly scalable recommender systems," in In Fifth International Conference on Computer and Information Science [79] S Scellato, A Noulas and C Mascolo (2011) "Exploiting place features in link prediction on location-based social networks (pp ).," in In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining [80] F Schneider, A Feldmann, B Krishnamurthy and W Willinger (2009) "Understanding online social network usage from a network perspective," in In Proceedings of the 9th ACM SIGCOMM conference on Internet measurement conference [81] U Shardanand and P Maes (1995) "Social information filtering: algorithms for automating “word of mouth”," in Proceedings of the SIGCHI conference on Human factors in computing systems, ACM Press/Addison-Wesley Publishing Co., pp 210-217 105 [82] N Shibata, Y Kajikawa and I Sakata (2012) "Link prediction in citation networks," Journal of the Association for Information Science and Technology, vol 63, no 1, pp 75-85 [83] J Tang, S Wu, J Sun and H Su (2012) "Cross-domain collaboration recommendation.," in In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining [84] A Töscher, M Jahrer and R Legenstein (2008) "Improved neighborhood-based algorithms for large-scale recommender systems," in Proceedings of the 2nd KDD Workshop on Large-Scale Recommender Systems and the Netflix Prize Competition, ACM, p [85] S H Walker and D B Duncan (1967) "Estimation of the probability of an event as a function of several independent variables," Biometrika, vol 54, no 1-2, pp 167-179 [86] C Wang and D M Blei (2011, August) "Collaborative topic modeling for recommending scientific articles," In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 448456, ACM [87] C Wang, V Satuluri and S Parthasarathy (2007) "Local probabilistic models for link prediction," in In Data Mining, 2007 ICDM 2007 Seventh IEEE International Conference on [88] P Wang, B Xu, Y Wu and X Zhou (2015) "Link prediction in social networks: the state-of-the-art," Science China Information Sciences, vol 58, no 1, pp 138 [89] S Wasserman and K Faust (1994) "Social Network Analysis in the Social and Behavioral Sciences," in Social Network Analysis: Methods and Applications, Cambridge University Press, pp 1-27 [90] D Whitley (1994) "A genetic algorithm tutorial," Statistics and computing, vol 4, no 2, pp 65-85 [91] B Whitman and S Lawrence (2002) "Inferring Descriptions and Similarity for Music from Community Metadata," in ICMC [92] T Wohlfarth and R Ichise (2008) "Semantic and Event-Based Approach for Link Prediction," In Proceedings of the 7th International Conference on Practical Aspects of Knowledge Management (PAKM), Yokohama - Japan 106 [93] S Wu, J Sun and J Tang (2013) "Patent partner recommendation in enterprise social networks," In Proceedings of the sixth ACM international conference on Web search and data mining [94] F Xia, Z Chen, W Wang, J Li and L T Yang (2014) "Mvcwalker: Random walk-based most valuable collaborators recommendation exploiting academic factors," IEEE Transactions on Emerging Topics in Computing, vol 2, no 3, pp 364-375 [95] S Xie and Y Feng (2015, April) "A recommendation system combining LDA and collaborative filtering method for Scenic Spot," In Information Science and Control Engineering (ICISCE), 2015 2nd International Conference on, pp 6771, IEEE [96] J Yang, L Yang and P Zhang (2015) "A New Link Prediction Algorithm Based on Local Links," in International Conference on Web-Age Information Management, Springer, pp 16-28 [97] Z Yang, R Hu and R Zhang (2016) "An improved link prediction algorithm based on common neighbors index with community membership information," in Software Engineering and Service Science (ICSESS), 2016 7th IEEE International Conference on, IEEE, pp 90 93 [98] L Yao, L Wang, L Pan and K Yao (2016) "Link Prediction Based on Common-Neighbors for Dynamic Social Network," Procedia Computer Science, vol 83, pp 82-89 [99] E Yasunori, H Yukihiro, Y Makito and M Sadaaki (2009) "On semisupervised fuzzy c-means clustering," in Fuzzy Systems, 2009 FUZZ-IEEE 2009 IEEE International Conference on, IEEE, pp 1119-1124 [100] Q Yu, C Long, Y Lv, H Shao, P He and Z Duan (2014) "Predicting coauthor relationship in medical co-authorship networks," PloS one, p e101214 [101] O R Zaiane, J Chen and R Goebel (2007, August) "DBconnect: mining research community on DBLP data," In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis, pp 74-81, ACM [102] J Zhang and S Y Philip (2014) "Link prediction across heterogeneous social networks: A survey," SOCIAL NETWORKS 107 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Phạm Minh Chuẩn, Lê Thanh Hương, Trần Đình Khang, Trần Ngọc Cương (2011) Hệ thống khuyến nghị báo Tạp chí Nghiên cứu khoa học công nghệ quân sự, Số 16, 12.2011, ISSN 1859-1043, trang 136-145 Phạm Minh Chuẩn, Trịnh Khắc Linh, Trần Đình Khang, Lê Hồng Sơn (2017) Phân tích ảnh hưởng số độ đo liên kết áp dụng vào toán dự đoán liên kết mạng đồng tác giả Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) – Đà Nẵng, 17-18/8/2017 ISBN: 978-604913-614-6, trang 760-767 Pham Minh Chuan, Cu Nguyen Giap, Le Hoang Son, Chintan Bhatt, Tran Dinh Khang (2017), Enhance Link Prediction in Online Social Networks Using Similarity Metrics, Sampling and Classification, Proceeding of the 2017 4th International Conference on Information System Design and Intelligent Applications (INDIA2017), 15-17 June 2017, Danang, Vietnam, pp 823 - 833, DOI = https://doi.org/10.1007/978-981-10-7512-4_81 Phạm Minh Chuẩn, Trần Đình Khang, Lê Thanh Hương, Trần Mạnh Tuấn, Lê Hồng Sơn (2017) Dự đốn liên kết đồng tác giả sử dụng phân cụm bán giám sát mờ Chuyên san Khoa học Tự nhiên – Kỹ thuật – Công nghệ (Đại học Thái Nguyên), Tập 173, số 13, ISSN 1859-2171, trang 45-50 Pham Minh Chuan, Le Hoang Son, Mumtaz Ali, Tran Dinh Khang, Le Thanh Huong, Nilanjan Dey (2017) Link Prediction in Co-authorship Networks based on Hybrid Content Silarity Metric Applied Intelligence, ISSN: 0924-669X doi: 10.1007/s10489-017-1086-x (SCI, 2016 IF = 1.904, Springer) Phạm Minh Chuẩn, Lê Hoàng Sơn, Trần Đình Khang, Lê Thanh Hương (2017) Đề xuất mơ hình khuyến nghị cộng tác cho mạng đồng tác giả dựa số cộng tác tương quan Tạp chí Khoa học Cơng nghệ Việt Nam, Tập 22, Số 11, 11.2017, ISSN 1859-4794, trang 9-14 108

Định dạng
Số trang	98
Dung lượng	2,26 MB