Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	NGHIÊN CỨU PHƯƠNG PHÁP DỰ ĐOÁN LIÊN KẾT TRONG MẠNG XÃ HỘI DỰA TRÊN MẠNG NEURON ĐỒ THỊ
Tác giả	Chu Xuân Sơn, Nguyễn Hoàng Long
Người hướng dẫn	TS. Cao Thị Nhan
Trường học	ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH TRUONG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN
Chuyên ngành	Công nghệ thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP HCM

Định dạng
Số trang	78
Dung lượng	23,34 MB

Cấu trúc

2.2.6. Mang neuron đồ thị siêu đường dẫn và nhận biết thực thể (PEAGNN) (0)
2.2.7. Singular Value Decomposition và Singular Value Decomposition extend (39)
2.2.8. Neural Factorization Machines................................-- c2 2v H222 re. 40 2.2.9. Phương pháp đánh giá. CHƯƠNG 3: THỰC NGHIỆM............................. 222: 22222 2H... re 45 3.1. Quy trình thực nghiệm.............................- -- Sàn Hư 45 3.2. Giới thiệu dữ liệu ...............................-:--5+cc+ 22 2 tệ hình rrưet 46 3.2.1. MovieLens Latest-simall..........................---- 525222 2x22 121122122121211211211011.1121101. re. 46 3.2.2. C ở) (40)
3.3. Thực nghiệm......................... -- - St tt TT TH TH TH TH TT HH TH nh re 56 1. Dit co. sẽ. ................ 56 2. Môi trường thực nghiệm ...............................---- + + 5s th ng HE. 57 (56)

Nội dung

Mục đích của dự đoán liên kết là dự đoán các liên kết mới hoặc bị loại bỏ giữa các nút cho một thời điểm trong tương lai t’ t’ > £, hoặc các liên kết còn thiếuhoặc không được quan sát tr

Singular Value Decomposition và Singular Value Decomposition extend

Singular Value Decomposition [45] là một trong những phương pháp Matrix

Fractorization, hỗ trợ phân tích một ma trận ra thành tích của nhiều ma trận đặc biệt khác, mang lại nhiều lợi ích quan trọng như: giảm chiều đữ liệu, nén đữ liệu, tìm hiểu đặc tính của dữ liệu, phân cụm và nhiều ứng dụng khác liên quan tới hệ thống khuyến nghị. Áp dụng kĩ thuật SVD, bài toán có thể được phát biểu dưới dạng toán học như sau:

Với dự đoán #„;, nếu user u chưa từng được biết đến thi bias b, và các factors liên quan tới user ứ„ sẽ được giả định bằng 0 và điều tương tự cho item i với b; va qĂ. Để dự đoán mọi user chưa được biết đến, ta sẽ đi tối thiểu hóa regularized squared error sau:

LryieRerain (Tui — Pui)” + 2b; + byt CAL + lÍp,|| ) (32) Đối với Singular Value Decomposition extend, ta sẽ quan tâm thêm những đánh giá an đối với bài toán như dự đoán người dùng có khả năng xem bộ phim bắt kì, ta có thé phát biểu dưới dạng toán học như sau:

Fur = Ut bụ + bị + QP ut Wal? Dien, Vj) (33)

Với y; là tập hợp những factors có liên quan để nắm bắt được những dự đoán ân ?„„¡. Trong bài toán dự đoán phim, factors là những khả năng an mà user có thể thích bộ phim i, không quan tâm đến sé điểm đánh giá.

Neural Factorization Machines c2 2v H222 re 40 2.2.9 Phương pháp đánh giá CHƯƠNG 3: THỰC NGHIỆM 222: 22222 2H re 45 3.1 Quy trình thực nghiệm - Sàn Hư 45 3.2 Giới thiệu dữ liệu .-: 5+cc+ 22 2 tệ hình rrưet 46 3.2.1 MovieLens Latest-simall 525222 2x22 121122122121211211211011.1121101 re 46 3.2.2 C ở)

Nhiều bài toán dự đoán hiện nay được giải quyết bằng những phương pháp máy học thông thường sẽ đi biến đổi những đặc tính (features) về một dạng vector dạng số mà máy có thể hiểu được như one-hot encoding hay label encoding, nhưng nó dẫn tới việc các features vector này sẽ thưa thớt đáng ké va quan trọng nhất là nó không đánh giá những features này có mối quan hệ, tương tác với nhau như thế nào.

Cách giải quyết thông thường ta sẽ sử dụng một số phương pháp FactorizationMachines (FMs) [4], tuy nhiên những mô hình FM chỉ có thé mô hình những features theo dạng tuyến tính, và nó không đủ để nắm bắt được những cấu trúc phức tạp trong dit liệu thực tế Vì thế, những mô hình Deep Neural Networks đã được sử dụng để học những cấu trúc phức tạp này, nhưng mô hình các phức tập dẫn tới việc huấn luyện sẽ càng khó khăn, tốn thời gian và tài nguyên Từ đó, Neural Factorization Machines (NFM) [5] được ra đời để giải quyết những van đề gặp phải kể trên.

Neural Factorization Machines [5] là mô hình kết hợp tính tuyến tính của Factorization Machines [4] cơ bản và tính phi tuyến của Neural Network trong việc mô hình hóa mối quan hệ, tương tác của các features, cụ thể như sau:

Bi-Interaction Pooling B-Interaction Layer

LH Embedding Layer olilolilolo |e-] - Input Feature Vector (sparse)

Hình 2.11 Minh họa mô hình Neural Factorization Machine [48]

Cho một spare vector features x € R” là input đầu vào, NFM sé đi tính toán đầu ra bằng công thức toán học sau: ŸNrw@œ) = Wọ + Lier wixit f(x) (34)

Với biểu thức đầu và biểu thức thứ hai là phần hồi quy tuyến tính giống với công thức Factorization Machines giúp mô hình hóa bias va trọng số số của đữ liệu Biểu thức thứ ba f(x) là phần chính yếu của mô hình Neural Factorization Machines dé mô hình hóa mối quan hệ tương tác của các features, và như hinh 2.4 f(x) chính là multi-layer feed forward neural network, cụ thể như sau.

Embedding layer là một fully connected layer, nó thực hiện biến đổi mỗi feature thành một dense vector Gọi 1; e R* là vector embedding đầu vào của feature i-th, 1an lượt cho từng feature ta có biểu thức đầu vào như sau:

Từ đó, ta đưa những vector embedding V, được biến đổi ở Embedding Layer vào lớp Bi-Interaction Layer Bi-Interaction Layer tập hợp và biến đổi những vector embedding này thành một vector đầu ra duy nhất được biểu diễn dưới biểu thức toán học sau: foi Vy) = Da Fait XiVi O 3/0) (36)

Với © là phép tích element-wise giữa 2 vector, dau ra của Bi-interaction layer là một vector với k-dimension đã encode những môi quan hệ tương tác của các features trong không gian embedding.

Sau lớp Bi-Interaction Layer là nhiều lớp fully connected được xếp chồng với nhau với khả năng học những mối quan hệ tương tác sâu giữa các features, biểu diễn toán học của các lớp fully connected như sau:

Z1 = ỉi(Wifp,(W) + bị), (37) Z2 = ỉ0;(W;Zi + by),

Z,= 0,(W,z,-1 + bi) Với L là số hidden layers, W,, b, va ứ, là trọng số của ma tran, bias vector và non- linear activation function cho lớp thứ ]-th.

Sau đó, vector đầu ra cuối cùng của Hidden Layers z, được biến đổi thành sé điểm dự đoán: f(x) = Rz, (38)

Với vector h định nghĩa cho trọng số mang neural của lớp prediction Tổng hợp lại, NEM model có thé biểu diễn dưới dang toán học sau: ŸNFM@œ) = Wot Yk MjXi + h*ứ,(M,( ứĂ(Wiƒp,(,) + bị) ) + by) (39)

Trong đó, {W,, b,} là trong số được sử dụng dé học mối tương tác sâu giữa các features.

Trong những hệ thống gợi ý, Hit Ratio [46] thé hiện cho việc dy đoán đúng kết qua trong một danh sách xếp hạng có độ dài L: uk

Trong đó, Ufi, là số lượng kết quả dy đoán đúng trong danh sách dự đoán có độ dai

L, Ugy là tổng số điểm dữ liệu trong tập test.

Vi dụ: Tập dữ liệu test có tổng 100 đữ liệu về đánh giá phim, mỗi danh sách dự đoán có độ dài L = 10, mô hình dự đoán đúng 8/10 kết qua của danh sách này và dự đoán đúng 75/100 kết quả cho toàn bộ tập dữ liệu, vậy Hit Ratio = 75/100 = 75%

2.2.9.2 Normalized Discounted Cumulative Gain (NDCG@10)

Trong những hệ thống gợi ý, NDCG [47] thé hiện chất lượng xếp hạng những gợi ý trong danh sách đầu ra có đang thật sự gần với những thứ người dùng đang hướng tới hay không.

Với G; là số điểm tương đồng cho từng item đã gợi ý và

Với Gide là số điểm tương đồng lí tưởng cho từng item đã gợi ý đầu tiên.

Vi dụ: Hệ thống gợi ý danh sách 5 phim cho người dùng, nếu mô hình xếp hạng các phim mà người dùng có khả năng xem cao gần ở đầu sẽ đạt được NDCG cao và ngược lại Danh sách 2 phim người dùng A xem (Alice & Friends, Tom Holland), danh sách 5 phim mô hình dự đoán người A xem được xếp hạng lần lượt (1 Tom Holland, 2.

Our beloved summer, 3 Alice & Friends, 4 Shark, 5 Jujutsu Kaisen), 2 phim người dùng A xem do mô hình dự đoán lần lượt nằm ở 2 vị trí gần ở đầu là I và 3 nên đạt được

NDCG cao, tương tự cho trường hợp ngược lại

Nhóm thực hiện thực nghiệm các mô hình dé xuất theo quy trinh bao gồm các bước được mô tả tại Hình 3.1 cho ca hai bộ dữ liệu Movielens Latest-small và Yelp2018.

Read dataset E———* Data preprocessing |——————>\ Generate heterogenious graph

Train and evaluate model

Ngày đăng: 02/10/2024, 04:18

Nguồn tham khảo

Tài liệu tham khảo	Loại	Chi tiết
14. F. Maxwell Harper and Joseph A. Konstan. 2015. The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent Systems (TiiS) 5, 4: 19:1—19:19.https://doi.org/10.1145/2827872	Link
1. Peng Wang, Baowen Xu, Yurong Wu, & Xiaoyu Zhou. (2014). Link Prediction in Social Networks: the State-of-the-Art	Khác
2. Oord, A., Dieleman, S., & Schrauwen, B. (2013). Deep content-based music recommendation. Advances in Neural Information Processing Systems	Khác
3. Téscher, A., Jahrer, M., & Bell, R. M. (2009). The BigChaos Solution to the Netflix Grand Prize. Netflix prize documentation	Khác
4. Rendle, S.: Factorization machines. In: 2010 IEEE International Conference on Data Mining. pp. 995-1000. IEEE (2010)	Khác
5. He, X., Chua, T.S.: Neural factorization machines for sparse predictive analytics. In:Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. pp. 355-364 (2017)	Khác
6. Hanely J A, McNeil B J. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982, 143: 29-36	Khác
7. Lichtnwalter R, Chawla N V. Link prediction: fair and effective evaluation. In:Proceeding of the 2012 IEEE/ACM International Conference on Advanced in Social Networks Analysis and Mining (ASONAM’12), Istanbul, Turkey, 2012. 376-383	Khác
8. Sun, J., Zhang, Y., Ma, C., Coates, M., Guo, H., Tang, R., He, X.: Multi-graph convolution collaborative filtering. In: 2019 IEEE International Conference on Data Mining (ICDM). pp. 1306-1311. IEEE (2019)	Khác
9. He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., Wang, M.: Lightgcn: Simplifying and powering graph convolution network for recommendation. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 639-648 (2020)	Khác
10. Zhang, M., Chen, Y.: Inductive matrix completion based on graph neural networks	Khác
11. Fu, X., Zhang, J., Meng, Z., King, I.: Magnn: Metapath aggregated graph neural network for heterogeneous graph embedding. In: Proceedings of The Web Conference 2020. pp. 2331-2341 (2020)	Khác
12. Fan, S., Zhu, J., Han, X., Shi, C., Hu, L., Ma, B., Li, Y.: Metapath-guided heterogeneous graph neural network for intent recommendation. In: Proceedings of the 25th ACM SIGKDD. pp. 2478-2486 (2019)	Khác
13. Muhammad Umer Anwaar, Zhiwei Han, Shyam Arumugaswamy, Rayyan Ahmad Khan, Thomas Weber, Tianming Qiu, Hao Shen, Yuanting Liu, & Martin Kleinsteuber	Khác
15. Nabiha Asghar. (2016). Yelp Dataset Challenge: Review Rating Prediction	Khác
16. Akcora C G, Carminati B, Ferrari E. User similarities on social networks. Social Network Analysis and Mining, 2013, 3: 475-495	Khác
17. Anderson A, Huttenlocher D, Kleinberg J, et al. Effects of user similarity in socialmedia. In: Proceedings of the 5 ACM International Conference on Web Search and DataMining (WSDM’ 12), Seattle, USA, 2012. 703-712	Khác
18. Newman M E J. Clustering and preferential attachment in growing networks. Physical Review Letters E, 2001, 64: 025102	Khác
19. Hancock, John. (2004). Jaccard Distance (Jaccard Index, Jaccard Similarity Coefficient). 10.1002/9780471650126.dob0956	Khác