1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Hệ Gợi Ý Đề Tài Movies Recommendaions System.pdf

24 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Movies Recommendations System
Tác giả Nguyễn Đức Thái An, Khuất Ngọc Sơn, Nguyễn Hoàng Quang Anh
Người hướng dẫn TS. Ngô Văn Linh
Trường học Đại Học Bách Khoa Hà Nội, Trường Công Nghệ Thông Tin Và Truyền Thông
Chuyên ngành Công nghệ thông tin
Thể loại Báo cáo hệ gợi ý
Thành phố Hà Nội
Định dạng
Số trang 24
Dung lượng 2,58 MB

Nội dung

ĐẠI HỌC BÁCH KHOA HÀ NỘITRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ---oOo--- BÁO CÁO HỆ GỢI Ý... Chương 2 Cơ sở lý thuyết1... Mô hWnh LightGCN: ĐểtriểnkhaiGCNcầnchúýcácbướcsau:

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -oOo -

BÁO CÁO HỆ GỢI Ý

Trang 2

Mục lục

Chương1Môtảđềtài 5

1 Giớithiệu 5

2 Mụctiêu 5

Chương2Cơsởlýthuyết 6

1 GraphNeuralNetworks(GNNs) 6

a Giớithiê 4uvềGraphNeuralNetworks(GNNs): 6

b Môh6nhLightGCN: 7

c Kếthợplớpvàdựđoánmôh6nh 7

d TF-IDF 8

e RidgeRegression 9

f HàmBayesianPersonalizedRanking(BPR)loss 10

2 CollaborativeFilteringNeuralNetwork 10

a EmbeddingLayers 11

b ConcatenatedVector 11

c MLPlayer 11

d DropoutLayer 12

e HàmMấtMát 12

3 MatrixFactorization 12

4 Hàmđánhgiá 12

a RMSE 12

b RecallvàPrecision 13

c NDCG 13

Chương3Trựcquanhoádữliệu 13

Chương4Càiđặt 16

Trang 3

1 Content-base 16

2 LightGCN: 19

5 Deeplearningbased 24

a Tổchứcdữliệu 24

b EmbeddingLayer 25

c FlattenLayer 25

d ConcatenateLayer 25

e MLPLayer 26

f OutputLayer 26

g Hàmmấtmát 26

Chương5Đánhgiámôh6nhvàkếtluận 26

1 Đánhgiámôh6nh 26

a Deeplearningbase 26

b Conent-base 26

2 Kếtluận 27

Trang 4

Chương 1 Mô tả đề tài

1. Giới thiệu

Trongthờiđạicôngnghệngàynay,khinguồncungphimtrựctuyếnngàycàngđadạngvàphongphú,việclựachọnphimphùhợpvớisởthíchvàưngýcánhântrởnênngàycàngquantrọng.Đểgiảiquyếttháchthứcnày,hệthốnggợiýphimđãtrởthànhmộtcôngcụquantrọng,giúpngườixemkhámphánhữngbộphimmớivàthúvịdựatrênlịchsửxem,đánhgiá,vàsởthíchcánhân

Đềtài"HệthốngGợiÝPhim"khôngchỉđặtracâuhỏivềcáchcáccôngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách  hiệu  quả,  mà  còn  khám  phá  các  thuật  toán  và  phương  pháp  machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthôngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilòngcủangườixem

2. Mục tiêu

Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim

Trang 5

Chương 2 Cơ sở lý thuyết

1. Graph Neural Networks(GNNs)

a. Giới thiê V u về Graph Neural Networks(GNNs):

MạngNơ-ronĐồThị(GraphNeuralNetwork-GNN)làmộtloạimôh6nhhọcmáyđượcthiếtkếđặcbiệtđểlàmviệcvớidữliệuđồthị.GNNcókhảnăngmởrộngvàápdụngtrêncácđồthịcócấutrúcphứctạp,nhưmạngxãhội,mạnglướigiaothông,haybấtkỳhệthốngnàocómốiquanhệgiữacácđốitượng.GNNhoạtđộngbằngcáchtruyềnthôngtinquacácđỉnhvàcạnhtrongđồthị.Môh6nhhọcthôngquaviệccậpnhậtvàkếthợpthôngtintừcáchàngxómcủamỗiđỉnh,chophépnắmbắtthôngtincấutrúcvàtươngtácgiữacácđốitượngtrongđồthị.MộttrongnhữngđặcđiểmđángchúýcủaGNNlàkhảnăngtíchhợpthôngtintừcảđặctrưngcủacácđỉnhvàcấutrúcđồthị.ĐiềunàychophépGNNhọcmôh6nhphứctạpvàbiểudiễncácmốiquanhệphứctạpgiữacácđốitượngtrongđồthị.GNNđãchứngtỏđượchiệuquảtrongnhiềunhiệmvụ,baogồmphânloạiđồthị,phânloạinút,dựđoánliênkếtvànhúngđồthị.CácứngdụngcủaGNNrấtđadạng,từphântíchmạngxãhội,gợiýngườidùng,chođếnpháthiệnvàkiểmsoátcáchiệntượngtrongcáchệthốngphứctạp

Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thôngtinvềcácnút,cạnhvàngữcảnhtoàncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược

Trang 6

TuyGNNđãmanglạinhiềutiếnbộ,nhưngvẫncònnhiềutháchthứctrongviệckhaitháctoànbộtiềmnăngcủadữliệuđồthịvàtăngtínhkhảchuyểncủamôh6nh.CácnghiêncứuvềGNNđangtiếptụcpháttriểnđểnângcaohiệusuấtvàứngdụngcủamôh6nhtrongcáclĩnhvựckhácnhau

b. Mô hWnh LightGCN:

ĐểtriểnkhaiGCNcầnchúýcácbướcsau:

Giữamỗilớp,LightGCNsửdụngquytắclantruyềnsauđâyđểnhúngngườidùngvàmục:

Nu:hàngxómcủangườiđánhgiá(nhữngphimđượcngườithích)Ni:hàngxómcủaphim(ngườithíchphim)

e(k)u:giátrịnhúngngườithíchtầngthứk

e(k)i:giátrịnhúngphimtầngthứk

c Kết hợp lớp và dự đoán mô hWnh

CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithôngquaphươngtr6nhsau:

Trang 7

Dạngmatrận

Trongquátr6nhtriểnkhai,sửdụngdạngmatrậncủaLightGCNkhuếchtánđaquymôđểcóđượcphépnhúngcuốicùng,tổnghợpcácphầnnhúngđượckhuếchtántrêncácthangđonhiềubướcnhảy:

củangườiđánhgiátrongđóM,NvàTbiểuthịsốlượngngườiđánhgiá,sốlượngphimvàkíchthướccủamỗilầnnhúngtươngứng

A~=D AD−1/2 −1/2::matrậnkềcậnchuẩnhóađốixứng

d. TF-IDF

Hàm  TD-IDF  (Term  Frequency-Inverse  Document  Frequency)  là  mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmôtảlýthuyếtcơbảncủahàmTD-IDF:

- TermFrequency(TF-Tầnsuấtcủatừ)

- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)

Trang 8

- TF-IDFScore

HàmTD-IDFgiúptạoracácvectorđặctrưngchovănbản,trongđógiátrịcủamỗithànhphầnthểhiệntầmquantrọngcủamộttừtrongtàiliệusovớitoànbộtậpdữliệu.Cácvectornàythườngđượcsửdụngtrongcácmôh6nhmáyhọcvàkhámphádữliệuvănbản

e Ridge Regression

Môh6nhhồiquytuyếntínhcốgắngt6mmộtđườngthẳng(hoặcsiêuphẳngtrongkhônggiannhiềuchiều)saochotổngb6nhphươngcủacácsaisốgiữadựđoánvàgiátrịthựctếlànhỏnhất.Điềunàythườngđượcbiểudiễnbằnghàmchiphí(costfunction)nhưMeanSquaredError(MSE)

RidgeRegressionlàmộtphươngpháphồiquy(regression)đượcsửdụngđểgiảmthiểuhiệntượngquámức(overfitting)trongmôh6nhhồiquytuyếntính.Nóthêmmộtthànhphầnkiểmsoátvàohàmmấtmátcủamôh6nhđểngănchặncáchệsốcủacácđặctrưngtrởnênquálớn.PhươngphápnàycònđượcgọilàTikhonovregularization

Hàmmấtmát(costfunction)củaRidgeRegressioncódạng:

Thànhphầnkiểmsoát(regularizationterm)đượcthêmvàođểgiảmthiểugiátrịcủacáchệsố‘wj’.Thamsố‘a’làmđiềunày:nếu‘a’lớnảnhhưởngcủathànhphầnkiểmsoátsẽlớn,từđógiảmthiểugiátrịtuyệtđốicủacáchệsố.Ngượclại,thànhphầnkiểmsoátítảnhhưởngvàmôh6nhgiốngvớimôh6nhhồiquytuyếntínhthôngthường

MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá

Trang 9

f Hàm Bayesian Personalized Ranking (BPR) loss

ChúngtasửdụnghàmmấtmátBayesianPersonalizedRanking(BPR),mộtmụctiêu theocặpgiúpđẩycácdựđoáncủacácmẫutíchcựccaohơnsovớicácmẫutiêucựcchomỗi ngườidùng.

HàmmấtmátBPRđượcthiếtkếđểkhuyếnkhíchmôh6nhdựđoáncácđiểmsốcaohơnchocácmẫutíchcực(i)sovớicácmẫutiêucực(j)chomỗingườidùng.Thuậtngữđiềuchuẩngiúpngănchặnviệcquámứcbằngcáchphạtcácgiátrịthamsốlớn

2 Collaborative Filtering Neural Network

Làmộtmôh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđoán

Trang 10

a Embedding Layers

Môh6nhsửdụnglớpnhúng(Embeddinglayers)đểbiểudiễncácđặctrưngẩncủangườidùngvàsảnphẩm.Cáclớpnhúngnàygiúpmôh6nhhọcđượccácbiểudiễntiếptụcvàkhônggianẩncủangườidùngvàsảnphẩm

b Concatenated Vector

Kếthợpcácvectorbiểudiễncủangườidùngvàsảnphẩmtạoramộtvectorđầuvàoduynhấtchomôh6nh.Điềunàygiúpmôh6nhhọcđượctươngtácphứctạpgiữangườidùngvàsảnphẩm

c MLP layer

ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm

Trang 11

3 Matrix Factorization

a Giới thiệu

MatrixFactorizationt6mrahaimatrậnh6nhchữnhậtcókíchthướcnhỏhơnđểbiểuthịmộtmatrậnxếphạnglớn(RM:RatingMatrix):

Ma  trận  user  (UM:  User  Matix)  các

Trang 12

Á argmin

Trang 13

Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:

Trang 14

Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiều

nhất là 727 phim, người ít nhất là 10 phim.

Trungb6nhmỗiphimnhậnđược54lượtđánhgiá,phimđượcđánhgiánhiềunhấtlà495lượt,vàítnhấtlà1lượtđánhgiá

Vềphânphốicácđiểmđánhgiá:

Sốlượngđánhgiácủamỗingườidung:

Trang 15

Số  lượng  đánh  giá  của  mỗi  bộ  phim

Trang 16

b MaTrậnĐặcTrưng(X_train_countsvàtfidf)

X_train_counts:Matrậnnàyđạidiệnchothôngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại

Trang 17

c RidgeRegression

Môh6nhhồiquytuyếntínhđượcsửdụngđểdựđoánđánhgiáphimdựatrêncácđặctrưngthểloạiđượctrọngsốTF-IDF.Đốivớimỗingườidùng,môh6nhhọcmộttậptrọngsố(W)vàmộtintercept(b)đểthựchiệncácdựđoán

d DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)

Dữliệuhuấnluyệnvàkiểmtrachứathôngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho

Trang 18

e DựĐoáncủaMôH6nh(Yhat)

Saukhihuấnluyệnmôh6nhhồiquytuyếntính,cácdựđoán(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđoánnàyđạidiệnchocácđánhgiáướctínhcủamôh6nhchomỗicặpngườidùng-bộphim

Trang 19

2 LightGCN:

a Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens

Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncô 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau

b Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao

Trang 21

f KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.

•đâychúngemhuấnluyê 4nqua4tầng:

g PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthôngđiệp(messagepassing)trongmôh6nhcủabạn.Đâylàmộtphầncủaquátr6nhlantruyềnthôngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthôngtincủam6nhdựatrênthôngtintừcácnútlánggiềng

Trang 22

h SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđoánmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.

i Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:

j Tínhtoánđô 4chínhxácRecall,Precision,ndcg:

Trang 23

k Truyềnthamsố:

l Kếtquả:

Trang 24

Chương 5 Đánh giá mô hWnh và kết luận

1 Đánh giá mô hWnh

2 Kết luận

Ngày đăng: 13/06/2024, 09:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w