Mục đích của dự đoán liên kết là dự đoán các liên kết mới hoặc bị loại bỏ giữa các nút cho một thời điểm trong tương lai t’ t’ > £, hoặc các liên kết còn thiếuhoặc không được quan sát tr
Singular Value Decomposition và Singular Value Decomposition extend
Singular Value Decomposition [45] là một trong những phương pháp Matrix
Fractorization, hỗ trợ phân tích một ma trận ra thành tích của nhiều ma trận đặc biệt khác, mang lại nhiều lợi ích quan trọng như: giảm chiều đữ liệu, nén đữ liệu, tìm hiểu đặc tính của dữ liệu, phân cụm và nhiều ứng dụng khác liên quan tới hệ thống khuyến nghị. Áp dụng kĩ thuật SVD, bài toán có thể được phát biểu dưới dạng toán học như sau:
Với dự đoán #„;, nếu user u chưa từng được biết đến thi bias b, và các factors liên quan tới user ứ„ sẽ được giả định bằng 0 và điều tương tự cho item i với b; va qĂ. Để dự đoán mọi user chưa được biết đến, ta sẽ đi tối thiểu hóa regularized squared error sau:
LryieRerain (Tui — Pui)” + 2b; + byt CAL + lÍp,|| ) (32) Đối với Singular Value Decomposition extend, ta sẽ quan tâm thêm những đánh giá an đối với bài toán như dự đoán người dùng có khả năng xem bộ phim bắt kì, ta có thé phát biểu dưới dạng toán học như sau:
Fur = Ut bụ + bị + QP ut Wal? Dien, Vj) (33)
Với y; là tập hợp những factors có liên quan để nắm bắt được những dự đoán ân ?„„¡. Trong bài toán dự đoán phim, factors là những khả năng an mà user có thể thích bộ phim i, không quan tâm đến sé điểm đánh giá.
Neural Factorization Machines c2 2v H222 re 40 2.2.9 Phương pháp đánh giá CHƯƠNG 3: THỰC NGHIỆM 222: 22222 2H re 45 3.1 Quy trình thực nghiệm - Sàn Hư 45 3.2 Giới thiệu dữ liệu .-: 5+cc+ 22 2 tệ hình rrưet 46 3.2.1 MovieLens Latest-simall 525222 2x22 121122122121211211211011.1121101 re 46 3.2.2 C ở)
Nhiều bài toán dự đoán hiện nay được giải quyết bằng những phương pháp máy học thông thường sẽ đi biến đổi những đặc tính (features) về một dạng vector dạng số mà máy có thể hiểu được như one-hot encoding hay label encoding, nhưng nó dẫn tới việc các features vector này sẽ thưa thớt đáng ké va quan trọng nhất là nó không đánh giá những features này có mối quan hệ, tương tác với nhau như thế nào.
Cách giải quyết thông thường ta sẽ sử dụng một số phương pháp FactorizationMachines (FMs) [4], tuy nhiên những mô hình FM chỉ có thé mô hình những features theo dạng tuyến tính, và nó không đủ để nắm bắt được những cấu trúc phức tạp trong dit liệu thực tế Vì thế, những mô hình Deep Neural Networks đã được sử dụng để học những cấu trúc phức tạp này, nhưng mô hình các phức tập dẫn tới việc huấn luyện sẽ càng khó khăn, tốn thời gian và tài nguyên Từ đó, Neural Factorization Machines (NFM) [5] được ra đời để giải quyết những van đề gặp phải kể trên.
Neural Factorization Machines [5] là mô hình kết hợp tính tuyến tính của Factorization Machines [4] cơ bản và tính phi tuyến của Neural Network trong việc mô hình hóa mối quan hệ, tương tác của các features, cụ thể như sau:
Bi-Interaction Pooling B-Interaction Layer
LH Embedding Layer olilolilolo |e-] - Input Feature Vector (sparse)
Hình 2.11 Minh họa mô hình Neural Factorization Machine [48]
Cho một spare vector features x € R” là input đầu vào, NFM sé đi tính toán đầu ra bằng công thức toán học sau: ŸNrw@œ) = Wọ + Lier wixit f(x) (34)
Với biểu thức đầu và biểu thức thứ hai là phần hồi quy tuyến tính giống với công thức Factorization Machines giúp mô hình hóa bias va trọng số số của đữ liệu Biểu thức thứ ba f(x) là phần chính yếu của mô hình Neural Factorization Machines dé mô hình hóa mối quan hệ tương tác của các features, và như hinh 2.4 f(x) chính là multi-layer feed forward neural network, cụ thể như sau.
Embedding layer là một fully connected layer, nó thực hiện biến đổi mỗi feature thành một dense vector Gọi 1; e R* là vector embedding đầu vào của feature i-th, 1an lượt cho từng feature ta có biểu thức đầu vào như sau:
Từ đó, ta đưa những vector embedding V, được biến đổi ở Embedding Layer vào lớp Bi-Interaction Layer Bi-Interaction Layer tập hợp và biến đổi những vector embedding này thành một vector đầu ra duy nhất được biểu diễn dưới biểu thức toán học sau: foi Vy) = Da Fait XiVi O 3/0) (36)
Với © là phép tích element-wise giữa 2 vector, dau ra của Bi-interaction layer là một vector với k-dimension đã encode những môi quan hệ tương tác của các features trong không gian embedding.
Sau lớp Bi-Interaction Layer là nhiều lớp fully connected được xếp chồng với nhau với khả năng học những mối quan hệ tương tác sâu giữa các features, biểu diễn toán học của các lớp fully connected như sau:
Z1 = ỉi(Wifp,(W) + bị), (37) Z2 = ỉ0;(W;Zi + by),
Z,= 0,(W,z,-1 + bi) Với L là số hidden layers, W,, b, va ứ, là trọng số của ma tran, bias vector và non- linear activation function cho lớp thứ ]-th.
Sau đó, vector đầu ra cuối cùng của Hidden Layers z, được biến đổi thành sé điểm dự đoán: f(x) = Rz, (38)
Với vector h định nghĩa cho trọng số mang neural của lớp prediction Tổng hợp lại, NEM model có thé biểu diễn dưới dang toán học sau: ŸNFM@œ) = Wot Yk MjXi + h*ứ,(M,( ứĂ(Wiƒp,(,) + bị) ) + by) (39)
Trong đó, {W,, b,} là trong số được sử dụng dé học mối tương tác sâu giữa các features.
Trong những hệ thống gợi ý, Hit Ratio [46] thé hiện cho việc dy đoán đúng kết qua trong một danh sách xếp hạng có độ dài L: uk
Trong đó, Ufi, là số lượng kết quả dy đoán đúng trong danh sách dự đoán có độ dai
L, Ugy là tổng số điểm dữ liệu trong tập test.
Vi dụ: Tập dữ liệu test có tổng 100 đữ liệu về đánh giá phim, mỗi danh sách dự đoán có độ dài L = 10, mô hình dự đoán đúng 8/10 kết qua của danh sách này và dự đoán đúng 75/100 kết quả cho toàn bộ tập dữ liệu, vậy Hit Ratio = 75/100 = 75%
2.2.9.2 Normalized Discounted Cumulative Gain (NDCG@10)
Trong những hệ thống gợi ý, NDCG [47] thé hiện chất lượng xếp hạng những gợi ý trong danh sách đầu ra có đang thật sự gần với những thứ người dùng đang hướng tới hay không.
Với G; là số điểm tương đồng cho từng item đã gợi ý và
Với Gide là số điểm tương đồng lí tưởng cho từng item đã gợi ý đầu tiên.
Vi dụ: Hệ thống gợi ý danh sách 5 phim cho người dùng, nếu mô hình xếp hạng các phim mà người dùng có khả năng xem cao gần ở đầu sẽ đạt được NDCG cao và ngược lại Danh sách 2 phim người dùng A xem (Alice & Friends, Tom Holland), danh sách 5 phim mô hình dự đoán người A xem được xếp hạng lần lượt (1 Tom Holland, 2.
Our beloved summer, 3 Alice & Friends, 4 Shark, 5 Jujutsu Kaisen), 2 phim người dùng A xem do mô hình dự đoán lần lượt nằm ở 2 vị trí gần ở đầu là I và 3 nên đạt được
NDCG cao, tương tự cho trường hợp ngược lại
Nhóm thực hiện thực nghiệm các mô hình dé xuất theo quy trinh bao gồm các bước được mô tả tại Hình 3.1 cho ca hai bộ dữ liệu Movielens Latest-small và Yelp2018.
Read dataset E———* Data preprocessing |——————>\ Generate heterogenious graph
Train and evaluate model