ĐẠI HỌC BÁCH KHOA HÀ NỘI
TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -oOo -
BÁO CÁO HỆ GỢI Ý
Trang 4Chương 1 Mô tả đề tài
1. Giới thiệu
Đềtài"HệthốngGợiÝPhim"khôngchỉđặtracâuhỏivềcáchcáccôngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách hiệu quả, mà còn khám phá các thuật toán và phương pháp machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthôngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilòngcủangườixem.
2. Mục tiêu
Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim.
Trang 5Chương 2 Cơ sở lý thuyết1. Graph Neural Networks(GNNs)
a. Giới thiê Vu về Graph Neural Networks(GNNs):
Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thôngtinvềcácnút,cạnhvàngữcảnhtoàncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược
Trang 6b. Mô hWnh LightGCN:
c Kết hợp lớp và dự đoán mô hWnh
CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithôngquaphươngtr6nhsau:
Trang 7A~=D AD−1/2−1/2::matrậnkềcậnchuẩnhóađốixứng.d. TF-IDF
Hàm TD-IDF (Term Frequency-Inverse Document Frequency) là mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmôtảlýthuyếtcơbảncủahàmTD-IDF:
- TermFrequency(TF-Tầnsuấtcủatừ)
- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)
Trang 8- TF-IDFScore
e Ridge Regression
MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá
Trang 9f Hàm Bayesian Personalized Ranking (BPR) loss
2 Collaborative Filtering Neural Network
Làmộtmôh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđoán
Trang 10a Embedding Layers
b Concatenated Vector
c MLP layer
ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm.
Trang 113 Matrix Factorizationa Giới thiệu
Ma trận user (UM: User Matix) cáchàngđạidiệncho uservàcáccộtlàm k yếu tố tiềm ẩn (latent factors), mỗihànglàmộtvectorW cókchiềui
MatrậnItem(IM:ItemMatix)trongđócáchànglà hệsốtiềmẩnvàcáccộtkbiểuthị item,mỗicộtlàmộtvectorHn j
b Hàm mục tiêu
Hàm mất mát được tính như sau:
Trang 12w , h ∑
(u ,i)∈ Z
(vui−WuThi)2+λ¿ ¿
¿∨ ∨hu¿2
4 Hàm đánh giáa RMSE
MatrậnđánhgiáYtrongđómỗiphầntửY thểhiệnđánhgiácủangườiij
dùngchosảnphẩm.Mụctiêulàxâydựngmôh6nhdựđoánYsaochoY gầnij
với nhấtcóthể.HàmRMSEcódạng:
và lầnlượtlàđánhgiádựthựctếtrêntậpkiểmthửvàđánhgiádựđoán
Trang 13b Recall và Precision
Chương 3 Trực quan hoá dữ liệu
Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:
Trang 14Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiềunhất là 727 phim, người ít nhất là 10 phim.
Sốlượngđánhgiácủamỗingườidung:
Trang 15Số lượng đánh giá của mỗi bộ phim
Trang 16Chương 4 Cài đặt1 Content-base
a Đầuvào
- Numberofusers:943–u.user
- Numberoftraingrates:90570–ua.base- Numberoftestrates:9430–ua.test- Numberofitems:1682–u.item
b MaTrậnĐặcTrưng(X_train_countsvàtfidf)
X_train_counts:Matrậnnàyđạidiệnchothôngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại.
Trang 17c RidgeRegression
d DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)
Dữliệuhuấnluyệnvàkiểmtrachứathôngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho
Trang 18e DựĐoáncủaMôH6nh(Yhat)
Saukhihuấnluyệnmôh6nhhồiquytuyếntính,cácdựđoán(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđoánnàyđạidiệnchocácđánhgiáướctínhcủamôh6nhchomỗicặpngườidùng-bộphim.
Trang 192 LightGCN:
a Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens.
Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncô 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau.
b Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao.
Trang 21f KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.
•đâychúngemhuấnluyê 4nqua4tầng:
g PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthôngđiệp(messagepassing)trongmôh6nhcủabạn.Đâylàmộtphầncủaquátr6nhlantruyềnthôngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthôngtincủam6nhdựatrênthôngtintừcácnútlánggiềng.
Trang 22h SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđoánmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.
i Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:
j Tínhtoánđô 4chínhxácRecall,Precision,ndcg:
Trang 23k Truyềnthamsố:
l Kếtquả:
Trang 24Chương 5 Đánh giá mô hWnh và kết luận1 Đánh giá mô hWnh
2 Kết luận