Báo Cáo Hệ Gợi Ý Đề Tài Movies Recommendaions System.pdf

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -oOo -

BÁO CÁO HỆ GỢI Ý

Trang 4

Chương 1 Mô tả đề tài

1. Giới thiệu

Đềtài"HệthốngGợiÝPhim"khôngchỉđặtracâuhỏivềcáchcáccôngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách  hiệu  quả,  mà  còn  khám  phá  các  thuật  toán  và  phương  pháp  machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthôngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilòngcủangườixem.

2. Mục tiêu

Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim.

Trang 5

Chương 2 Cơ sở lý thuyết1. Graph Neural Networks(GNNs)

a. Giới thiê Vu về Graph Neural Networks(GNNs):

Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thôngtinvềcácnút,cạnhvàngữcảnhtoàncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược

Trang 6

b. Mô hWnh LightGCN:

c Kết hợp lớp và dự đoán mô hWnh

CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithôngquaphươngtr6nhsau:

Trang 7

A~=D AD−1/2−1/2::matrậnkềcậnchuẩnhóađốixứng.d. TF-IDF

Hàm  TD-IDF  (Term  Frequency-Inverse  Document  Frequency)  là  mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmôtảlýthuyếtcơbảncủahàmTD-IDF:

- TermFrequency(TF-Tầnsuấtcủatừ)

- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)

Trang 8

- TF-IDFScore

e Ridge Regression

MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá

Trang 9

f Hàm Bayesian Personalized Ranking (BPR) loss

2 Collaborative Filtering Neural Network

Làmộtmôh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđoán

Trang 10

a Embedding Layers

b Concatenated Vector

c MLP layer

ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm.

Trang 11

3 Matrix Factorizationa Giới thiệu

Ma  trận  user  (UM:  User  Matix)  cáchàngđạidiệncho  uservàcáccộtlàm k yếu tố tiềm ẩn (latent factors), mỗihànglàmộtvectorW cókchiềui

MatrậnItem(IM:ItemMatix)trongđócáchànglà  hệsốtiềmẩnvàcáccộtkbiểuthị item,mỗicộtlàmộtvectorHn j

b Hàm mục tiêu

Hàm mất mát được tính như sau:

Trang 12

w , h ∑

(u ,i)∈ Z

(vui−WuThi)2+λ¿ ¿

¿∨ ∨hu¿2

4 Hàm đánh giáa RMSE

MatrậnđánhgiáYtrongđómỗiphầntửY thểhiệnđánhgiácủangườiij

dùngchosảnphẩm.Mụctiêulàxâydựngmôh6nhdựđoánYsaochoY gầnij

với nhấtcóthể.HàmRMSEcódạng:

 và   lầnlượtlàđánhgiádựthựctếtrêntậpkiểmthửvàđánhgiádựđoán

Trang 13

b Recall và Precision

Chương 3 Trực quan hoá dữ liệu

Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:

Trang 14

Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiềunhất là 727 phim, người ít nhất là 10 phim.

Sốlượngđánhgiácủamỗingườidung:

Trang 15

Số  lượng  đánh  giá  của  mỗi  bộ  phim

Trang 16

Chương 4 Cài đặt1 Content-base

a Đầuvào

- Numberofusers:943–u.user

- Numberoftraingrates:90570–ua.base- Numberoftestrates:9430–ua.test- Numberofitems:1682–u.item

b MaTrậnĐặcTrưng(X_train_countsvàtfidf)

X_train_counts:Matrậnnàyđạidiệnchothôngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại.

Trang 17

c RidgeRegression

d DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)

Dữliệuhuấnluyệnvàkiểmtrachứathôngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho

Trang 18

e DựĐoáncủaMôH6nh(Yhat)

Saukhihuấnluyệnmôh6nhhồiquytuyếntính,cácdựđoán(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđoánnàyđạidiệnchocácđánhgiáướctínhcủamôh6nhchomỗicặpngườidùng-bộphim.

Trang 19

2 LightGCN:

a Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens.

Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncô 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau.

b Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao.

Trang 21

f KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.

•đâychúngemhuấnluyê 4nqua4tầng:

g PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthôngđiệp(messagepassing)trongmôh6nhcủabạn.Đâylàmộtphầncủaquátr6nhlantruyềnthôngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthôngtincủam6nhdựatrênthôngtintừcácnútlánggiềng.

Trang 22

h SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđoánmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.

i Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:

j Tínhtoánđô 4chínhxácRecall,Precision,ndcg:

Trang 23

k Truyềnthamsố:

l Kếtquả:

Trang 24

Chương 5 Đánh giá mô hWnh và kết luận1 Đánh giá mô hWnh

2 Kết luận