1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron

78 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề NGHIÊN CỨU PHƯƠNG PHÁP DỰ ĐOÁN LIÊN KẾT TRONG MẠNG XÃ HỘI DỰA TRÊN MẠNG NEURON ĐỒ THỊ
Tác giả Chu Xuân Sơn, Nguyễn Hoàng Long
Người hướng dẫn TS. Cao Thị Nhan
Trường học ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH TRUONG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP HCM
Định dạng
Số trang 78
Dung lượng 23,34 MB

Cấu trúc

  • 2.2.6. Mang neuron đồ thị siêu đường dẫn và nhận biết thực thể (PEAGNN) (0)
  • 2.2.7. Singular Value Decomposition và Singular Value Decomposition extend (39)
  • 2.2.8. Neural Factorization Machines................................-- c2 2v H222 re. 40 2.2.9. Phương pháp đánh giá. CHƯƠNG 3: THỰC NGHIỆM............................. 222: 22222 2H... re 45 3.1. Quy trình thực nghiệm.............................- -- Sàn Hư 45 3.2. Giới thiệu dữ liệu ...............................-:--5+cc+ 22 2 tệ hình rrưet 46 3.2.1. MovieLens Latest-simall..........................---- 525222 2x22 121122122121211211211011.1121101. re. 46 3.2.2. C ở) (40)
  • 3.3. Thực nghiệm......................... -- - St tt TT TH TH TH TH TT HH TH nh re 56 1. Dit co. sẽ. ................ 56 2. Môi trường thực nghiệm ...............................---- + + 5s th ng HE. 57 (56)

Nội dung

Mục đích của dự đoán liên kết là dự đoán các liên kết mới hoặc bị loại bỏ giữa các nút cho một thời điểm trong tương lai t’ t’ > £, hoặc các liên kết còn thiếuhoặc không được quan sát tr

Singular Value Decomposition và Singular Value Decomposition extend

Singular Value Decomposition [45] là một trong những phương pháp Matrix

Fractorization, hỗ trợ phân tích một ma trận ra thành tích của nhiều ma trận đặc biệt khác, mang lại nhiều lợi ích quan trọng như: giảm chiều đữ liệu, nén đữ liệu, tìm hiểu đặc tính của dữ liệu, phân cụm và nhiều ứng dụng khác liên quan tới hệ thống khuyến nghị. Áp dụng kĩ thuật SVD, bài toán có thể được phát biểu dưới dạng toán học như sau:

Với dự đoán #„;, nếu user u chưa từng được biết đến thi bias b, và các factors liên quan tới user ứ„ sẽ được giả định bằng 0 và điều tương tự cho item i với b; va qĂ. Để dự đoán mọi user chưa được biết đến, ta sẽ đi tối thiểu hóa regularized squared error sau:

LryieRerain (Tui — Pui)” + 2b; + byt CAL + lÍp,|| ) (32) Đối với Singular Value Decomposition extend, ta sẽ quan tâm thêm những đánh giá an đối với bài toán như dự đoán người dùng có khả năng xem bộ phim bắt kì, ta có thé phát biểu dưới dạng toán học như sau:

Fur = Ut bụ + bị + QP ut Wal? Dien, Vj) (33)

Với y; là tập hợp những factors có liên quan để nắm bắt được những dự đoán ân ?„„¡. Trong bài toán dự đoán phim, factors là những khả năng an mà user có thể thích bộ phim i, không quan tâm đến sé điểm đánh giá.

Neural Factorization Machines c2 2v H222 re 40 2.2.9 Phương pháp đánh giá CHƯƠNG 3: THỰC NGHIỆM 222: 22222 2H re 45 3.1 Quy trình thực nghiệm - Sàn Hư 45 3.2 Giới thiệu dữ liệu .-: 5+cc+ 22 2 tệ hình rrưet 46 3.2.1 MovieLens Latest-simall 525222 2x22 121122122121211211211011.1121101 re 46 3.2.2 C ở)

Nhiều bài toán dự đoán hiện nay được giải quyết bằng những phương pháp máy học thông thường sẽ đi biến đổi những đặc tính (features) về một dạng vector dạng số mà máy có thể hiểu được như one-hot encoding hay label encoding, nhưng nó dẫn tới việc các features vector này sẽ thưa thớt đáng ké va quan trọng nhất là nó không đánh giá những features này có mối quan hệ, tương tác với nhau như thế nào.

Cách giải quyết thông thường ta sẽ sử dụng một số phương pháp FactorizationMachines (FMs) [4], tuy nhiên những mô hình FM chỉ có thé mô hình những features theo dạng tuyến tính, và nó không đủ để nắm bắt được những cấu trúc phức tạp trong dit liệu thực tế Vì thế, những mô hình Deep Neural Networks đã được sử dụng để học những cấu trúc phức tạp này, nhưng mô hình các phức tập dẫn tới việc huấn luyện sẽ càng khó khăn, tốn thời gian và tài nguyên Từ đó, Neural Factorization Machines (NFM) [5] được ra đời để giải quyết những van đề gặp phải kể trên.

Neural Factorization Machines [5] là mô hình kết hợp tính tuyến tính của Factorization Machines [4] cơ bản và tính phi tuyến của Neural Network trong việc mô hình hóa mối quan hệ, tương tác của các features, cụ thể như sau:

Bi-Interaction Pooling B-Interaction Layer

LH Embedding Layer olilolilolo |e-] - Input Feature Vector (sparse)

Hình 2.11 Minh họa mô hình Neural Factorization Machine [48]

Cho một spare vector features x € R” là input đầu vào, NFM sé đi tính toán đầu ra bằng công thức toán học sau: ŸNrw@œ) = Wọ + Lier wixit f(x) (34)

Với biểu thức đầu và biểu thức thứ hai là phần hồi quy tuyến tính giống với công thức Factorization Machines giúp mô hình hóa bias va trọng số số của đữ liệu Biểu thức thứ ba f(x) là phần chính yếu của mô hình Neural Factorization Machines dé mô hình hóa mối quan hệ tương tác của các features, và như hinh 2.4 f(x) chính là multi-layer feed forward neural network, cụ thể như sau.

Embedding layer là một fully connected layer, nó thực hiện biến đổi mỗi feature thành một dense vector Gọi 1; e R* là vector embedding đầu vào của feature i-th, 1an lượt cho từng feature ta có biểu thức đầu vào như sau:

Từ đó, ta đưa những vector embedding V, được biến đổi ở Embedding Layer vào lớp Bi-Interaction Layer Bi-Interaction Layer tập hợp và biến đổi những vector embedding này thành một vector đầu ra duy nhất được biểu diễn dưới biểu thức toán học sau: foi Vy) = Da Fait XiVi O 3/0) (36)

Với © là phép tích element-wise giữa 2 vector, dau ra của Bi-interaction layer là một vector với k-dimension đã encode những môi quan hệ tương tác của các features trong không gian embedding.

Sau lớp Bi-Interaction Layer là nhiều lớp fully connected được xếp chồng với nhau với khả năng học những mối quan hệ tương tác sâu giữa các features, biểu diễn toán học của các lớp fully connected như sau:

Z1 = ỉi(Wifp,(W) + bị), (37) Z2 = ỉ0;(W;Zi + by),

Z,= 0,(W,z,-1 + bi) Với L là số hidden layers, W,, b, va ứ, là trọng số của ma tran, bias vector và non- linear activation function cho lớp thứ ]-th.

Sau đó, vector đầu ra cuối cùng của Hidden Layers z, được biến đổi thành sé điểm dự đoán: f(x) = Rz, (38)

Với vector h định nghĩa cho trọng số mang neural của lớp prediction Tổng hợp lại, NEM model có thé biểu diễn dưới dang toán học sau: ŸNFM@œ) = Wot Yk MjXi + h*ứ,(M,( ứĂ(Wiƒp,(,) + bị) ) + by) (39)

Trong đó, {W,, b,} là trong số được sử dụng dé học mối tương tác sâu giữa các features.

Trong những hệ thống gợi ý, Hit Ratio [46] thé hiện cho việc dy đoán đúng kết qua trong một danh sách xếp hạng có độ dài L: uk

Trong đó, Ufi, là số lượng kết quả dy đoán đúng trong danh sách dự đoán có độ dai

L, Ugy là tổng số điểm dữ liệu trong tập test.

Vi dụ: Tập dữ liệu test có tổng 100 đữ liệu về đánh giá phim, mỗi danh sách dự đoán có độ dài L = 10, mô hình dự đoán đúng 8/10 kết qua của danh sách này và dự đoán đúng 75/100 kết quả cho toàn bộ tập dữ liệu, vậy Hit Ratio = 75/100 = 75%

2.2.9.2 Normalized Discounted Cumulative Gain (NDCG@10)

Trong những hệ thống gợi ý, NDCG [47] thé hiện chất lượng xếp hạng những gợi ý trong danh sách đầu ra có đang thật sự gần với những thứ người dùng đang hướng tới hay không.

Với G; là số điểm tương đồng cho từng item đã gợi ý và

Với Gide là số điểm tương đồng lí tưởng cho từng item đã gợi ý đầu tiên.

Vi dụ: Hệ thống gợi ý danh sách 5 phim cho người dùng, nếu mô hình xếp hạng các phim mà người dùng có khả năng xem cao gần ở đầu sẽ đạt được NDCG cao và ngược lại Danh sách 2 phim người dùng A xem (Alice & Friends, Tom Holland), danh sách 5 phim mô hình dự đoán người A xem được xếp hạng lần lượt (1 Tom Holland, 2.

Our beloved summer, 3 Alice & Friends, 4 Shark, 5 Jujutsu Kaisen), 2 phim người dùng A xem do mô hình dự đoán lần lượt nằm ở 2 vị trí gần ở đầu là I và 3 nên đạt được

NDCG cao, tương tự cho trường hợp ngược lại

Nhóm thực hiện thực nghiệm các mô hình dé xuất theo quy trinh bao gồm các bước được mô tả tại Hình 3.1 cho ca hai bộ dữ liệu Movielens Latest-small và Yelp2018.

Read dataset E———* Data preprocessing |——————>\ Generate heterogenious graph

Train and evaluate model

Ngày đăng: 02/10/2024, 04:18

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Ý tưởng của bài toán dự đoán liên kết. [1] - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 1.1. Ý tưởng của bài toán dự đoán liên kết. [1] (Trang 8)
Hình 2.1. Minh hoa khuôn khổ bài toán dự đoán liên kết. [1] - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 2.1. Minh hoa khuôn khổ bài toán dự đoán liên kết. [1] (Trang 13)
Hình 2.5. Cau trúc mô hình mang neuron đồ thi. [58] - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 2.5. Cau trúc mô hình mang neuron đồ thi. [58] (Trang 22)
Hình 2.8. Minh họa của mô hình PEAGNN trên tập dữ liệu Movielens. [13] - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 2.8. Minh họa của mô hình PEAGNN trên tập dữ liệu Movielens. [13] (Trang 36)
Hình 2.11. Minh họa mô hình Neural Factorization Machine. [48] - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 2.11. Minh họa mô hình Neural Factorization Machine. [48] (Trang 41)
Hình 3.3. Thống kê tỷ lệ các thể loại phim. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.3. Thống kê tỷ lệ các thể loại phim (Trang 48)
Hình 3.7. Thong kê số lượng đánh giá của người dùng. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.7. Thong kê số lượng đánh giá của người dùng (Trang 50)
Hình 3.10. Thống kê phân phối các đánh giá từ thang điểm 1-5. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.10. Thống kê phân phối các đánh giá từ thang điểm 1-5 (Trang 53)
Hình 3.13. Thong kê ti lệ lượt đánh giá với từng thành phố. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.13. Thong kê ti lệ lượt đánh giá với từng thành phố (Trang 55)
Hình 3.16. Độ do HR@10 đối với tập dữ liệu Movielens Latest-small. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.16. Độ do HR@10 đối với tập dữ liệu Movielens Latest-small (Trang 60)
Hình 3.17. Độ do NDCG@10 đối với tập dữ liệu Yelp2018. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.17. Độ do NDCG@10 đối với tập dữ liệu Yelp2018 (Trang 61)
Hình 3.19. Truc quan hóa đữ liệu trước dự đoán trên tập dit liệu Movielens Latest-small. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.19. Truc quan hóa đữ liệu trước dự đoán trên tập dit liệu Movielens Latest-small (Trang 62)
Hình 3.20. Trực quan hóa dữ liệu sau dự đoán trên tập dữ liệu Movielens Latest-small. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.20. Trực quan hóa dữ liệu sau dự đoán trên tập dữ liệu Movielens Latest-small (Trang 63)
Hình 3.21. Trực quan hóa kết quả trước dự đoán đối với tập dữ liệu Yelp2018. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.21. Trực quan hóa kết quả trước dự đoán đối với tập dữ liệu Yelp2018 (Trang 64)
Hình 3.22. Trực quan hóa kết quả sau dự đoán đối với tập dữ liệu Yelp2018. - Khóa luận tốt nghiệp: Nghiên cứu các phương pháp dự đoán liên kết trong mạng xã hội dựa trên đồ thị mạng nơ-ron
Hình 3.22. Trực quan hóa kết quả sau dự đoán đối với tập dữ liệu Yelp2018 (Trang 65)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w