BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI DƢƠNG XUÂN PHÚC NGHIÊN CỨU HỆ THỐNG GỢI Ý CHUYÊN NGÀNH: CÔNG NGH THÔNG TIN LUK THUT CHUYÊN NGÀNH: CÔNG NGH THÔNG TIN NG DN KHOA HC : TS Đinh Viết Sang Hà Ni Tai ngay!!! Ban co the xoa dong chu nay!!! 17062857955411000000 0924bcb LỜI CAM ĐOAN Tơi Lu tt nghip cơng trình nghiên cu ca bi s ng dn ca TS t Sang Kt qu lun trung tha bt kì cơng trình khác Hà Ni, ngày tháng Tác gi Xác nhn cng dn v m hoàn thành ca Lut nghip cho phép bo v: Hà Ni, ngày 21 tháng 10 ng dn t Sang MỤC LỤC MC LC DANH MC HÌNH NH DANH MC CÁC BNG DANH MC CÁC T VIT TT NG QUAN V H THNG GI Ý .8 1.1 H thng gi ý 1.2 ng dng thc tin 1.3 Phát biu toán hc .9 10 2.1 Ma trn 10 10 n 10 nh thc ca ma trn 11 2.1.4 Ma trn ngho 11 2.1.5 Hng ca Ma trn .12 2.1.6 Ma trn unitary 12 2.1.7 Giá tr riêng ca ma trn vec- 12 2.1.8 Ma trn gi ngho 12 2.1.9 Ma trn trc giao 13 n v hc máy 13 2.2.1 Hc có giám sát hc không giám sát 13 2.2.2 Phân lp hi quy 14 2.2.3 Overfitting Underfitting 15 2.2.4 Tp hun luyn, tp validation tp kim tra 16 2.2.5 Bias variance .17 2.2.6 ng overfitting 19 2.2.7 La chn mô hình 20 i thiu 21 HUT ÁP DNG TRONG H GI Ý 22 m TF.IDF 22 3.2 Ch s ng Jaccard 23 ng cosine .24 m s chiu không gian 25 3.4.1 Gii thiu 25 n SVD 27 m s chiu không gian 29 3.5 m giá tr hàm gradient descent 30 3.5.1 Gradient Descent (GD) 30 3.5.2 Stochastic Gradient Descent (SGD) 31 NH GI Ý 33 4.1 D liu .33 tt ca mt mơ hình 33 4.3 Các mơ hình 34 .34 38 n hp 45 Global Baseline 45 46 NGHIM CÁC MƠ HÌNH GI Ý 54 5.1 Mô t d liu 54 5.2 Các mơ hình kt qu th nghim 58 64 KT LUN .66 TÀI LIU THAM KHO 67 DANH MỤC HÌNH ẢNH Hình - Mơ t kt qu c bng hai mơ hình phân loi hi quy [11] 14 Hình - Mơ hình underfitting, fitting overfitting vi d liu [23] .16 Hình - S i ca giá tr bias variance theo m hc d liu hun luyn ca mơ hình [22] .18 Hình - Giá tr ca hàm mc tiêu tp hun luyn [16] 20 Hình - D liu khơng gian ba chic biu din bi mt phng hai chiu [8] 25 Hình - D liu nhìn thy biu ding thng [8] 26 Hình - Phân rã SVD ca mt ma trn [9] 29 Hình - Cách làm gim s chiu bng phân rã SVD [9] 29 Hình - Ma trn nhc sau thc hin gim s chiu [9] 30 Hình 10 - S di chuyn ca hàm m Stochastic Gradient Descent [5] 31 Hình 11 - Ma tra h gi ý cách ly tp d liu kim tra [10] .33 Hình 12 - Bi th hin trình hong ca CB [3] 37 Hình 13 - Mơ t n v trình gi ý ca CF [7] 38 Hình 14 - ng ca ma trn cp nht ti .51 Hình 15 - Ví d v mt bn ghi d liu tp tin "users.dat" 54 Hình 16 - Ví d v mt bn ghi d liu t 56 Hình 17 - Ví d v mt bn ghi t 58 Hình 18 - Cp nht Stochastic Gradient Descent vi (0.001, 0.002), k=1 .64 DANH MỤC CÁC BẢNG Bng 1: Kt qu ca mơ hình CB 61 Bng 2: Kt qu i dùng- i dùng CF .62 Bng 3: Kt qu ca mô hình sn phm-sn phm CF .62 Bng 4: Kt qu chn mơ hình ca mơ hình LF .64 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt TF IDF Tên đầy đủ Term Frequency Inverse Document Frequency SVD Singular Value Decomposition CB Content-based CF Collaborative Filtering LF Latent Factor GD Gradient Descent SGD Stochastic Gradient Descent CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Hệ thống gợi ý H thng gi ý (Recommender Systems - RS) mt dng ca h thng lc thông tin (information filtering), c s dng d ốn s thích (preference) hay xp hng (rating) mà ngi dùng có th dành cho mt mc thơng tin (item) ó mà h cha xem xét ti kh (item có th báo, b phim, on video clip, sách, ) [11] nhm gi ý mc thông tin th c quan bi ngi dùng H thng gi ý s a gi ý da q trình thu thp, x lý phân tích d liu t ngi dùng D liu ó c chia làm loi tường minh (explicit) bng cách yêu cu ngi dùng phn hi trc tip tiềm ẩn (implicit) bng cách t ng suy lun da nhng tng tác ca ngi dùng vi h thng nh: s ln nhp chut, thi gian quan sát Trong hu ht trng hp, toán gi ý c coi toán d oán vic xp hng (rating) ca sn phm (phim, sn phm tiêu dùng, sách, nh cha c ngi dùng bit n Vic d oán thng da nhng ánh giá ã có ca ngi dùng ó hoc nhng ngi dùng khác Ví d, nhng c d ốn s có xp hng cao nht s c dùng gi ý Có nhiu ng dng ni ting v h thng gi ý nh: gi ý sn phm ca Amazon Ebay, h thng gi ý phim ca NetFlix Youtube, ý minh ý to giúp cho phó tình thông tin ý thành công ý vào hành vi thói quen, nhu thích lai 1.2 Ứng dụng thực tiễn H gi ý có th c trin khai hu ht h th i i dùng Ph bin nht h thng nn web Ph bin nht h thng v phim nh, nh u sn phm nói chung khác Không nhng vy, h g c áp dng cho chuyên gia, nhà nghiên cu, nhà hàng, h thng tài chính, bo hi Ta có th nhn thy h gi ý xung quanh có rt nhi u áp dng nhng h th ln ln giúp i dùng tìm kim thơng tin, sn phm mt cách nhanh chóng nht có th Vi nhng ng dy, h gn nhiu li ích to ln cho c i dùng h thng áp dng Vi dùng, ln có th nhanh chóng tip c c nhng ngun thơng tin phù hp, xác Tit ki c thi gian m Vi nu áp dng tt h gi ý s i n hình nh hay Google 1.3 Phát biểu tốn học Các h thng gi ý có th áp dng cho nhic khác Tuy nhiên, tốn có th c phát bii dng toán h U ti dùng h thng I tp sn phm ca h th i dùng i ( ) cho sn phm j( ) Bng mô hình ca h gi ý, ta c a mi dùng bt kì h thng cho mt sn phm b c t, sn phc h gi ý d i dùng gi nghim CHƢƠNG II CƠ SỞ LÝ THUYẾT 2.1 Ma trận 2.2.1 Định nghĩa = 2.1.2 Các phép tính Phép cộng hai ma trận: Phép nhân vô hƣớng: Phép nhân hai ma trận: Phép nhân ca hai ma trn Phép nhân hai ma trn ch nh s ct ca ma trn th nht bng s hàng ca ma trn th hai Chú ý: Phép nhân hai ma trn khơng có tính giao hốn 10