1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Hệ Gợi Ý Đề Tài Movies Recommendaions System.pdf

24 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -oOo -

BÁO CÁO HỆ GỢI Ý

Trang 4

Chương 1 Mô tả đề tài

1. Giới thiệu

Đềtài"HệthốngGợiÝPhim"khôngchỉđặtracâuhỏivềcáchcáccôngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách  hiệu  quả,  mà  còn  khám  phá  các  thuật  toán  và  phương  pháp  machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthôngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilòngcủangườixem.

2. Mục tiêu

Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim.

Trang 5

Chương 2 Cơ sở lý thuyết1. Graph Neural Networks(GNNs)

a. Giới thiê Vu về Graph Neural Networks(GNNs):

Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thôngtinvềcácnút,cạnhvàngữcảnhtoàncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược

Trang 6

b. Mô hWnh LightGCN:

c Kết hợp lớp và dự đoán mô hWnh

CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithôngquaphươngtr6nhsau:

Trang 7

A~=D AD−1/2−1/2::matrậnkềcậnchuẩnhóađốixứng.d. TF-IDF

Hàm  TD-IDF  (Term  Frequency-Inverse  Document  Frequency)  là  mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmôtảlýthuyếtcơbảncủahàmTD-IDF:

- TermFrequency(TF-Tầnsuấtcủatừ)

- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)

Trang 8

- TF-IDFScore

e Ridge Regression

MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá

Trang 9

f Hàm Bayesian Personalized Ranking (BPR) loss

2 Collaborative Filtering Neural Network

Làmộtmôh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđoán

Trang 10

a Embedding Layers

b Concatenated Vector

c MLP layer

ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm.

Trang 11

3 Matrix Factorizationa Giới thiệu

Ma  trận  user  (UM:  User  Matix)  cáchàngđạidiệncho  uservàcáccộtlàm k yếu tố tiềm ẩn (latent factors), mỗihànglàmộtvectorW cókchiềui

MatrậnItem(IM:ItemMatix)trongđócáchànglà  hệsốtiềmẩnvàcáccộtkbiểuthị item,mỗicộtlàmộtvectorHn j

b Hàm mục tiêu

Hàm mất mát được tính như sau:

Trang 12

w , h ∑

(u ,i)∈ Z

(vui−WuThi)2+λ¿ ¿

¿∨ ∨hu¿2

4 Hàm đánh giáa RMSE

MatrậnđánhgiáYtrongđómỗiphầntửY thểhiệnđánhgiácủangườiij

dùngchosảnphẩm.Mụctiêulàxâydựngmôh6nhdựđoánYsaochoY gầnij

với nhấtcóthể.HàmRMSEcódạng:

 và   lầnlượtlàđánhgiádựthựctếtrêntậpkiểmthửvàđánhgiádựđoán

Trang 13

b Recall và Precision

Chương 3 Trực quan hoá dữ liệu

Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:

Trang 14

Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiềunhất là 727 phim, người ít nhất là 10 phim.

Sốlượngđánhgiácủamỗingườidung:

Trang 15

Số  lượng  đánh  giá  của  mỗi  bộ  phim

Trang 16

Chương 4 Cài đặt1 Content-base

a Đầuvào

- Numberofusers:943–u.user

- Numberoftraingrates:90570–ua.base- Numberoftestrates:9430–ua.test- Numberofitems:1682–u.item

b MaTrậnĐặcTrưng(X_train_countsvàtfidf)

X_train_counts:Matrậnnàyđạidiệnchothôngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại.

Trang 17

c RidgeRegression

d DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)

Dữliệuhuấnluyệnvàkiểmtrachứathôngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho

Trang 18

e DựĐoáncủaMôH6nh(Yhat)

Saukhihuấnluyệnmôh6nhhồiquytuyếntính,cácdựđoán(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđoánnàyđạidiệnchocácđánhgiáướctínhcủamôh6nhchomỗicặpngườidùng-bộphim.

Trang 19

2 LightGCN:

a Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens.

Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncô 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau.

b Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao.

Trang 21

f KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.

•đâychúngemhuấnluyê 4nqua4tầng:

g PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthôngđiệp(messagepassing)trongmôh6nhcủabạn.Đâylàmộtphầncủaquátr6nhlantruyềnthôngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthôngtincủam6nhdựatrênthôngtintừcácnútlánggiềng.

Trang 22

h SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđoánmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.

i Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:

j Tínhtoánđô 4chínhxácRecall,Precision,ndcg:

Trang 23

k Truyềnthamsố:

l Kếtquả:

Trang 24

Chương 5 Đánh giá mô hWnh và kết luận1 Đánh giá mô hWnh

2 Kết luận

Ngày đăng: 13/06/2024, 09:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w