ĐẠI HỌC BÁCH KHOA HÀ NỘITRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ---oOo--- BÁO CÁO HỆ GỢI Ý... Chương 2 Cơ sở lý thuyết1... Mô hWnh LightGCN: ĐểtriểnkhaiGCNcầnchúýcácbướcsau:
Trang 1ĐẠI HỌC BÁCH KHOA HÀ NỘI
TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -oOo -
BÁO CÁO HỆ GỢI Ý
Trang 2Mục lục
Chương1Môtảđềtài 5
1 Giớithiệu 5
2 Mụctiêu 5
Chương2Cơsởlýthuyết 6
1 GraphNeuralNetworks(GNNs) 6
a Giớithiê 4uvềGraphNeuralNetworks(GNNs): 6
b Môh6nhLightGCN: 7
c Kếthợplớpvàdựđoánmôh6nh 7
d TF-IDF 8
e RidgeRegression 9
f HàmBayesianPersonalizedRanking(BPR)loss 10
2 CollaborativeFilteringNeuralNetwork 10
a EmbeddingLayers 11
b ConcatenatedVector 11
c MLPlayer 11
d DropoutLayer 12
e HàmMấtMát 12
3 MatrixFactorization 12
4 Hàmđánhgiá 12
a RMSE 12
b RecallvàPrecision 13
c NDCG 13
Chương3Trựcquanhoádữliệu 13
Chương4Càiđặt 16
Trang 31 Content-base 16
2 LightGCN: 19
5 Deeplearningbased 24
a Tổchứcdữliệu 24
b EmbeddingLayer 25
c FlattenLayer 25
d ConcatenateLayer 25
e MLPLayer 26
f OutputLayer 26
g Hàmmấtmát 26
Chương5Đánhgiámôh6nhvàkếtluận 26
1 Đánhgiámôh6nh 26
a Deeplearningbase 26
b Conent-base 26
2 Kếtluận 27
Trang 4Chương 1 Mô tả đề tài
1. Giới thiệu
Trongthờiđạicôngnghệngàynay,khinguồncungphimtrựctuyếnngàycàngđadạngvàphongphú,việclựachọnphimphùhợpvớisởthíchvàưngýcánhântrởnênngàycàngquantrọng.Đểgiảiquyếttháchthứcnày,hệthốnggợiýphimđãtrởthànhmộtcôngcụquantrọng,giúpngườixemkhámphánhữngbộphimmớivàthúvịdựatrênlịchsửxem,đánhgiá,vàsởthíchcánhân
Đềtài"HệthốngGợiÝPhim"khôngchỉđặtracâuhỏivềcáchcáccôngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách hiệu quả, mà còn khám phá các thuật toán và phương pháp machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthôngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilòngcủangườixem
2. Mục tiêu
Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim
Trang 5Chương 2 Cơ sở lý thuyết
1. Graph Neural Networks(GNNs)
a. Giới thiê V u về Graph Neural Networks(GNNs):
MạngNơ-ronĐồThị(GraphNeuralNetwork-GNN)làmộtloạimôh6nhhọcmáyđượcthiếtkếđặcbiệtđểlàmviệcvớidữliệuđồthị.GNNcókhảnăngmởrộngvàápdụngtrêncácđồthịcócấutrúcphứctạp,nhưmạngxãhội,mạnglướigiaothông,haybấtkỳhệthốngnàocómốiquanhệgiữacácđốitượng.GNNhoạtđộngbằngcáchtruyềnthôngtinquacácđỉnhvàcạnhtrongđồthị.Môh6nhhọcthôngquaviệccậpnhậtvàkếthợpthôngtintừcáchàngxómcủamỗiđỉnh,chophépnắmbắtthôngtincấutrúcvàtươngtácgiữacácđốitượngtrongđồthị.MộttrongnhữngđặcđiểmđángchúýcủaGNNlàkhảnăngtíchhợpthôngtintừcảđặctrưngcủacácđỉnhvàcấutrúcđồthị.ĐiềunàychophépGNNhọcmôh6nhphứctạpvàbiểudiễncácmốiquanhệphứctạpgiữacácđốitượngtrongđồthị.GNNđãchứngtỏđượchiệuquảtrongnhiềunhiệmvụ,baogồmphânloạiđồthị,phânloạinút,dựđoánliênkếtvànhúngđồthị.CácứngdụngcủaGNNrấtđadạng,từphântíchmạngxãhội,gợiýngườidùng,chođếnpháthiệnvàkiểmsoátcáchiệntượngtrongcáchệthốngphứctạp
Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thôngtinvềcácnút,cạnhvàngữcảnhtoàncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược
Trang 6TuyGNNđãmanglạinhiềutiếnbộ,nhưngvẫncònnhiềutháchthứctrongviệckhaitháctoànbộtiềmnăngcủadữliệuđồthịvàtăngtínhkhảchuyểncủamôh6nh.CácnghiêncứuvềGNNđangtiếptụcpháttriểnđểnângcaohiệusuấtvàứngdụngcủamôh6nhtrongcáclĩnhvựckhácnhau
b. Mô hWnh LightGCN:
ĐểtriểnkhaiGCNcầnchúýcácbướcsau:
Giữamỗilớp,LightGCNsửdụngquytắclantruyềnsauđâyđểnhúngngườidùngvàmục:
Nu:hàngxómcủangườiđánhgiá(nhữngphimđượcngườithích)Ni:hàngxómcủaphim(ngườithíchphim)
e(k)u:giátrịnhúngngườithíchtầngthứk
e(k)i:giátrịnhúngphimtầngthứk
c Kết hợp lớp và dự đoán mô hWnh
CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithôngquaphươngtr6nhsau:
Trang 7Dạngmatrận
Trongquátr6nhtriểnkhai,sửdụngdạngmatrậncủaLightGCNkhuếchtánđaquymôđểcóđượcphépnhúngcuốicùng,tổnghợpcácphầnnhúngđượckhuếchtántrêncácthangđonhiềubướcnhảy:
củangườiđánhgiátrongđóM,NvàTbiểuthịsốlượngngườiđánhgiá,sốlượngphimvàkíchthướccủamỗilầnnhúngtươngứng
A~=D AD−1/2 −1/2::matrậnkềcậnchuẩnhóađốixứng
d. TF-IDF
Hàm TD-IDF (Term Frequency-Inverse Document Frequency) là mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmôtảlýthuyếtcơbảncủahàmTD-IDF:
- TermFrequency(TF-Tầnsuấtcủatừ)
- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)
Trang 8- TF-IDFScore
HàmTD-IDFgiúptạoracácvectorđặctrưngchovănbản,trongđógiátrịcủamỗithànhphầnthểhiệntầmquantrọngcủamộttừtrongtàiliệusovớitoànbộtậpdữliệu.Cácvectornàythườngđượcsửdụngtrongcácmôh6nhmáyhọcvàkhámphádữliệuvănbản
e Ridge Regression
Môh6nhhồiquytuyếntínhcốgắngt6mmộtđườngthẳng(hoặcsiêuphẳngtrongkhônggiannhiềuchiều)saochotổngb6nhphươngcủacácsaisốgiữadựđoánvàgiátrịthựctếlànhỏnhất.Điềunàythườngđượcbiểudiễnbằnghàmchiphí(costfunction)nhưMeanSquaredError(MSE)
RidgeRegressionlàmộtphươngpháphồiquy(regression)đượcsửdụngđểgiảmthiểuhiệntượngquámức(overfitting)trongmôh6nhhồiquytuyếntính.Nóthêmmộtthànhphầnkiểmsoátvàohàmmấtmátcủamôh6nhđểngănchặncáchệsốcủacácđặctrưngtrởnênquálớn.PhươngphápnàycònđượcgọilàTikhonovregularization
Hàmmấtmát(costfunction)củaRidgeRegressioncódạng:
Thànhphầnkiểmsoát(regularizationterm)đượcthêmvàođểgiảmthiểugiátrịcủacáchệsố‘wj’.Thamsố‘a’làmđiềunày:nếu‘a’lớnảnhhưởngcủathànhphầnkiểmsoátsẽlớn,từđógiảmthiểugiátrịtuyệtđốicủacáchệsố.Ngượclại,thànhphầnkiểmsoátítảnhhưởngvàmôh6nhgiốngvớimôh6nhhồiquytuyếntínhthôngthường
MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá
Trang 9f Hàm Bayesian Personalized Ranking (BPR) loss
ChúngtasửdụnghàmmấtmátBayesianPersonalizedRanking(BPR),mộtmụctiêu theocặpgiúpđẩycácdựđoáncủacácmẫutíchcựccaohơnsovớicácmẫutiêucựcchomỗi ngườidùng.
HàmmấtmátBPRđượcthiếtkếđểkhuyếnkhíchmôh6nhdựđoáncácđiểmsốcaohơnchocácmẫutíchcực(i)sovớicácmẫutiêucực(j)chomỗingườidùng.Thuậtngữđiềuchuẩngiúpngănchặnviệcquámứcbằngcáchphạtcácgiátrịthamsốlớn
2 Collaborative Filtering Neural Network
Làmộtmôh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđoán
Trang 10a Embedding Layers
Môh6nhsửdụnglớpnhúng(Embeddinglayers)đểbiểudiễncácđặctrưngẩncủangườidùngvàsảnphẩm.Cáclớpnhúngnàygiúpmôh6nhhọcđượccácbiểudiễntiếptụcvàkhônggianẩncủangườidùngvàsảnphẩm
b Concatenated Vector
Kếthợpcácvectorbiểudiễncủangườidùngvàsảnphẩmtạoramộtvectorđầuvàoduynhấtchomôh6nh.Điềunàygiúpmôh6nhhọcđượctươngtácphứctạpgiữangườidùngvàsảnphẩm
c MLP layer
ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm
Trang 113 Matrix Factorization
a Giới thiệu
MatrixFactorizationt6mrahaimatrậnh6nhchữnhậtcókíchthướcnhỏhơnđểbiểuthịmộtmatrậnxếphạnglớn(RM:RatingMatrix):
Ma trận user (UM: User Matix) các
Trang 12Á argmin
Trang 13Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:
Trang 14Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiều
nhất là 727 phim, người ít nhất là 10 phim.
Trungb6nhmỗiphimnhậnđược54lượtđánhgiá,phimđượcđánhgiánhiềunhấtlà495lượt,vàítnhấtlà1lượtđánhgiá
Vềphânphốicácđiểmđánhgiá:
Sốlượngđánhgiácủamỗingườidung:
Trang 15Số lượng đánh giá của mỗi bộ phim
Trang 16b MaTrậnĐặcTrưng(X_train_countsvàtfidf)
X_train_counts:Matrậnnàyđạidiệnchothôngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại
Trang 17c RidgeRegression
Môh6nhhồiquytuyếntínhđượcsửdụngđểdựđoánđánhgiáphimdựatrêncácđặctrưngthểloạiđượctrọngsốTF-IDF.Đốivớimỗingườidùng,môh6nhhọcmộttậptrọngsố(W)vàmộtintercept(b)đểthựchiệncácdựđoán
d DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)
Dữliệuhuấnluyệnvàkiểmtrachứathôngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho
Trang 18e DựĐoáncủaMôH6nh(Yhat)
Saukhihuấnluyệnmôh6nhhồiquytuyếntính,cácdựđoán(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđoánnàyđạidiệnchocácđánhgiáướctínhcủamôh6nhchomỗicặpngườidùng-bộphim
Trang 192 LightGCN:
a Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens
Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncô 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau
b Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao
Trang 21f KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.
•đâychúngemhuấnluyê 4nqua4tầng:
g PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthôngđiệp(messagepassing)trongmôh6nhcủabạn.Đâylàmộtphầncủaquátr6nhlantruyềnthôngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthôngtincủam6nhdựatrênthôngtintừcácnútlánggiềng
Trang 22h SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđoánmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.
i Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:
j Tínhtoánđô 4chínhxácRecall,Precision,ndcg:
Trang 23k Truyềnthamsố:
l Kếtquả:
Trang 24Chương 5 Đánh giá mô hWnh và kết luận
1 Đánh giá mô hWnh
2 Kết luận