Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN HỮU ĐẠT KHÓA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ CỘNG TÁC DỰA TRÊN TIẾP CẬN HỌC SÂU DEEP LEARNING FOR COLLABORATOR RECOMMENDATION KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2020 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CƠNG NGHỆ PHẦN MỀM NGUYỄN HỮU ĐẠT – 15520104 KHĨA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ CỘNG TÁC DỰA TRÊN TIẾP CẬN HỌC SÂU DEEP LEARNING FOR COLLABORATOR RECOMMENDATION KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2020 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHĨA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………… …… ngày ……………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: Khuyến Nghị Cộng Tác Dựa Trên Tiếp Cận Học Sâu Nhóm sinh viên thực hiện: Cán hướng dẫn: Nguyễn Hữu Đạt TS Huỳnh Ngọc Tín 15520104 Đánh giá Khóa luận: Về báo cáo: Số trang Số chương Số bảng số liệu Số hình vẽ Số tài liệu tham khảo Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá chung: Điểm sinh viên: Nguyễn Hữu Đạt: ……… /10 Người nhận xét (Ký ghi rõ họ tên) Huỳnh Ngọc Tín ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: Khuyến Nghị Cộng Tác Dựa Trên Tiếp Cận Học Sâu Nhóm sinh viên thực hiện: Nguyễn Hữu Đạt Cán phản biện: 15520104 Đánh giá Khóa luận: Về báo cáo: Số trang Số chương Số bảng số liệu Số hình vẽ Số tài liệu tham khảo Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá chung: Điểm sinh viên: Nguyễn Hữu Đạt: ……… /10 Người nhận xét (Ký ghi rõ họ tên) LỜI CẢM ƠN Trước hết, em xin gởi lời cảm ơn đến quý thầy cô Khoa Công nghệ phần mềm trường Đại học Công nghệ Thông tin – ĐHQG TP.HCM Sau năm tròn học tập trường, em trang bị kiến thức bản, kỹ để hồn thành Khóa luận tốt nghiệp Đặc biệt với thầy Huỳnh Ngọc Tín, em xin cảm ơn thầy nhiệt tình, quan tâm, hướng dẫn truyền đạt kiến thức kinh nghiệm cho em suốt thời gian thực Khóa luận tốt nghiệp Bên cạnh đó, em muốn gửi lời cảm ơn đến bạn bè, anh chị thuộc công ty VCGroup động viên, tận tình giúp đỡ lúc em thực khóa luận tốt nghiệp Tuy nhiên, việc vấp phải sai sót hồn tất Khóa luận tốt nghiệp điều khơng tránh khỏi, em mong nhận góp ý quý thầy bạn để hoàn thiện Một lần nữa, em xin chân thành cảm ơn Thành phố Hồ Chí Minh, 31 tháng 07 năm 2020 Sinh viên Nguyễn Hữu Đạt MỤC LỤC DANH MỤC HÌNH nhiên, linh hoạt chưa mang lại kết mong đợi Ngoài ra, việc giảm số lượng đặc trưng học làm kết tiên đoán bị xấu Bên cạnh đó, Node2vec tiềm ẩn khía cạnh khai thác nghiên cứu mạng hỗn hợp (nhiều loại nút cạnh)[8], độ xác Node2vec mạng đồng tác giả không hướng không trọng số Tóm lại, Node2vec bỏ qua thách thức thường thấy phương pháp khuyến nghị phổ biến Hơn nữa, linh hoạt Node2vec làm thay đổi kết khuyến nghị Tuy nhiên, kết khuyến nghị Node2vec chưa khả quan với toán khuyến nghị cộng tác đồng tác giả với mạng đồng tác giả xây dựng 4.2.2, 4.2.3 Chương KẾT LUẬN 5.1 − − − − Kết đạt Hiểu toán khuyến nghị cộng tác Hiểu số phương pháp khuyến nghị phổ biến nay, state of the art Có kết đánh giá, so sánh Hoàn tất viết báo cáo tổng kết 5.2 Hướng phát triển − Xây dựng trang web cho phép so sánh thuật toán khuyến nghị − Áp dụng vào ứng dụng giải toán, đặc biệt toán khuyến nghị cộng tác 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Huỳnh Ngọc Tín, ‘Phát triển số phương pháp khuyến nghị hỗ trợ tìm kiếm thơng tin học thuật dựa tiếp cận phân tích mạng xã hội’, Chương 1, 3, Luận văn tiến sĩ, Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh, 2016 [2] Trần Đình Khang, Võ Đức Quang, Nguyễn Đăng Tuấn Anh, ‘Hệ khuyến nghị cộng tác đồng tác giả’, HueUni-JTT, vol 127, no 2A, p 109, Nov 2018, doi: 10.26459/hueuni-jtt.v127i2A.5017 Tài liệu tiếng Anh [3] S D Gollapalli, P Mitra, and C L Giles, ‘Similar researcher search in academic environments’, in Proceedings of the 12th ACM/IEEE-CS joint conference on Digital Libraries - JCDL ’12, Washington, DC, USA, 2012, p 167, doi: 10.1145/2232817.2232849 [4] S Ramachandram, ‘Collaborative Filtering Based Recommendation System: A survey’, Accessed: Aug 04, 2020 [Online] Available: https://core.ac.uk/reader/24065778 [5] C C Aggarwal, Recommender systems: the textbook Chapter 1,10 2016 [6] T Mikolov, K Chen, G Corrado, and J Dean, ‘Efficient Estimation of Word Representations in Vector Space’, arXiv:1301.3781 [cs], Sep 2013, Accessed: May 26, 2020 [Online] Available: http://arxiv.org/abs/1301.3781 [7] T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, ‘Distributed Representations of Words and Phrases and their Compositionality’, arXiv:1310.4546 [cs, stat], Oct 2013, Accessed: May 26, 2020 [Online] Available: http://arxiv.org/abs/1310.4546 58 [8] A Grover and J Leskovec, ‘node2vec: Scalable Feature Learning for Networks’, arXiv:1607.00653 [cs, stat], Jul 2016, Accessed: May 26, 2020 [Online] Available: http://arxiv.org/abs/1607.00653 [9] B Adhikari, Y Zhang, N Ramakrishnan, and B A Prakash, ‘Sub2Vec: Feature Learning for Subgraphs’, in Advances in Knowledge Discovery and Data Mining, vol 10938, D Phung, V S Tseng, G I Webb, B Ho, M Ganji, and L Rashidi, Eds Cham: Springer International Publishing, 2018, pp 170–182 [10] A Narayanan, M Chandramohan, R Venkatesan, L Chen, Y Liu, and S Jaiswal, ‘graph2vec: Learning Distributed Representations of Graphs’, arXiv:1707.05005 [cs], Jul 2017, Accessed: Jul 29, 2020 [Online] Available: http://arxiv.org/abs/1707.05005 [11] Z Xu, Y Yuan, H Wei, and L Wan, ‘A serendipity-biased Deepwalk for collaborators recommendation’, PeerJ Computer Science, vol 5, p e178, Mar 2019, doi: 10.7717/peerj-cs.178 [12] S Mahdavi, S Khoshraftar, and A An, ‘dynnode2vec: Scalable Dynamic Network Embedding’, arXiv:1812.02356 [cs, stat], Feb 2019, Accessed: Jul 07, 2020 [Online] Available: http://arxiv.org/abs/1812.02356 [13] T Fu, W.-C Lee, and Z Lei, ‘HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning’, in Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, Singapore Singapore, Nov 2017, pp 1797–1806, doi: 10.1145/3132847.3132953 [14] Y Dong, N V Chawla, and A Swami, ‘metapath2vec: Scalable Representation Learning for Heterogeneous Networks’, in Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Halifax NS Canada, Aug 2017, pp 135–144, doi: 10.1145/3097983.3098036 [15] G M Dakhel and M Mahdavi, ‘A new collaborative filtering algorithm using K-means clustering and neighbors’ voting’, in 2011 11th International 59 Conference on Hybrid Intelligent Systems (HIS), Melacca, Malaysia, Dec 2011, pp 179–184, doi: 10.1109/HIS.2011.6122101 [16] ‘Collaborations: Pros and Cons | ASCB’ https://www.ascb.org/careers/41032-2/ (accessed Jul 30, 2020) 60 PHỤ LỤC Phụ lục Ví dụ Node2vec Giả thiết: Từ liệu báo DBLP, ta lấy 10 nghiên cứu viên có báo cơng bố năm 2014-2015 2016 nhằm tạo mạng đồng tác Hình 5-13 Hình 5-14 Trong đó: • Danh sách nghiên cứu viên Author:ID 10 Bảng 5-20 Danh sách nghiên cứu viên (Giả thiết) • Mạng đồng tác giả : o o Tập nghiên cứu viên: o Tập liên kết cộng tác 2014-2015: o Danh sách liên kết đồng tác giả 2014-2015: 61 start:ID end:ID 10 7 Bảng 5-21 Danh sách liên kết đồng tác giả 2014-2015 (Giả thiết) • Mạng đồng tác giả : o o Tập liên kết cộng tác 2016-2017: o Danh sách liên kết đồng tác giả 2016-2017: start:ID end:ID 5 10 10 Bảng 5-22 Danh sách liên kết đồng tác giả 2016-2017 (Giả thiết) 62 Hình 5-13 Mạng đồng tác giả (Giả thiết) Hình 5-14 Mạng đồng tác giả (Giả thiết) Những đường nét đứt thể cho liên kết cộng tác xảy mạng đồng tác giả Những đường nét liền thể cho liên kết tạo xảy trong mạng đồng tác giả Yêu cầu: Sử dụng Node2vec học cấu trúc mạng đồng tác giả 2014-2015 phục vụ tiên đoán liên kết 2016-2017 63 Giải: Với yêu cầu đặt ra, thuật tốn Node2vec gồm bước chính: Bước 1: Tạo bảng xác suất bước cho nút theo tham số Bước 2: Tìm cấu trúc liên kết mạng theo bảng xác suất bước Bước 3: Tìm biểu diễn thỏa tương đồng nút với tập lân cận nút mạng Bước 4: Huấn luyện mơ hình phục vụ tiên đốn liên kết Bước 5: Tiên đoán liên kết khuyến nghị Với bước thực trên, thuật toán hoạt động sau: Đầu vào: − Mạng đồng tác giả: Đầu ra: , khuyến nghị nghiên cứu viên có khả liên kết cộng tác với 2016-2017 Tham số khởi tạo: − − − − − Số chiều muốn biểu diễn: Số bước từ nút mạng: =4 Số nghiên cứu viên tương đồng lấy từ tập bước: (< ) Tham số xác định khả trở bước: Tham số xác định khả bước tiếp bước: 64 Thực hiện: Tạo bảng xác suất bước cho nút theo tham số Ghi Bảng xác suất bước cho nút: Bảng thể xác suất nút lân cận chọn để đưa vào tập Bước thực random-walk xuất phát từ nút Bảng gồm loại: random-walk khơng qua cạnh cho trước 1.1 Tạo bảng xác suất bước cạnh cho trước: 1.1.1 Tạo bảng xác suất chuyển dịchcho nút: ,, Start:ID 1 10 0.56 0.25 0.11 0.75 End:ID 0.11 10 0.22 0.75 0.375 0.25 0.125 0.67 0.33 Bảng 5-23 xác suất chuyển dịch cho nút 65 0.5 1.1.2 Tạo bảng xác suất bước cho nút: Giả sử với nghiên cứu viên có ID=2, cách tạo bảng xác suất bước thực sau: • Tìm giá trị có xác suất chuyển dịch thấp 1/tổng số nút liên kết trực tiếp End:ID Start:ID =2 0.56 0.11 0.22 0.11 Bảng 5-24 Bảng xác suất bước cho nút Cột Start:ID thể ID nút cho trước Cột End:ID thể ID nút liên kết trực tiếp với nút cho trước Những ô tô đậm thể nút có xác suất chuyển dịch thấp • Với xác định theo số lượng nghiên cứu viên liên kết trực tiếp với nghiên cứu viên cho trước, nút có xác suất chuyển dịch cao (>1/tổng số nút liên kết trực tiếp) chia sẻ xác suất chuyển dịch đến nút có xác suất chuyển dịch thấp (1/tổng số nút liên kết trực tiếp) chia sẻ xác suất chuyển dịch đến nút có xác suất chuyển dịch thấp (