(Luận văn) ứng dụng luật kết hợp trong hệ gợi ý

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN PHAN THỊ BÍCH HOA lu an ỨNG DỤNG LUẬT KẾT HỢP TRONG HỆ GỢI Ý n va p ie gh tn to d oa nl w ll u nf va an lu LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ an Lu Bình Định - Năm 2021 n va ac th si BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN PHAN THỊ BÍCH HOA ỨNG DỤNG LUẬT KẾT HỢP TRONG HỆ GỢI Ý lu an n va ie gh tn to p Chuyên ngành : KHOA HỌC MÁY TÍNH d oa nl w Mã số : 08 48 01 01 ll u nf va an lu oi m Người hướng dẫn : TS LÊ QUANG HÙNG z at nh z m co l gm @ an Lu n va ac th si Lời cam đoan lu an Tôi xin cam đoan luận văn kết nghiên cứu tôi, thực n va hướng dẫn TS Lê Quang Hùng Các nội dung trích dẫn từ nghiên cứu tác giả khác mà trình bày luận văn ghi rõ nguồn p ie gh tn to phần tài liệu tham khảo d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va i ac th si Lời cảm ơn Đầu tiên xin gửi lời cảm ơn sâu sắc tới thầy TS Lê Quang Hùng cô Lê Thị Xinh, Khoa Công nghệ thông tin, Trường Đại học Quy Nhơn, người định hướng đề tài tận tình hướng dẫn, bảo cho tơi suốt q trình thực luận văn tốt nghiệp Tôi xin trân trọng cảm ơn thầy, cô Khoa Công nghệ thông tin, Trường Đại học Quy Nhơn tận tình giảng dạy, hướng dẫn nghiên cứu khoa học cho suốt thời gian theo học trường trình làm luận văn Xin cảm ơn anh, chị, em bạn học viên Khoa học máy tính, lu người giúp đỡ, động viên tinh thần chia sẻ kinh nghiệm quý báu giúp an vượt qua khó khăn, vướng mắc để hoàn thành luận văn va n Mặc dù cố gắng, tin luận văn cịn nhiều thiếu sót ý kiến đánh giá, phê bình góp ý thầy cơ, anh chị bạn p ie gh tn to có nhiều nội dung hồn thiện tốt Tơi mong nhận d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ii ac th si Tóm tắt Hệ gợi ý định nghĩa dạng hệ gợi ý lọc thông tin để đưa sản phẩm , dịch vụ người dùng quan tâm Đến thời điểm này, hệ gợi ý ứng dụng rộng rãi lĩnh vực mua sắm trực tuyến, đọc tin tức, âm nhạc, du lịch, xem phim, mạng xã hội (ví dụ: Amazon, Yahoo! Today News, Last.fm, Tripadvisor, Netflix, Facebook) Các hướng tiếp cận xây dựng hệ gợi ý chia thành ba loại: (i) hướng tiếp cận lọc cộng tác, (ii) hướng tiếp cận dựa nội dung (iii) hướng tiếp cận kết hợp lọc cộng tác với dựa nội dung Các thuật tốn dựa nội dung khai thác thuộc tính sản phẩm, xác lu an định đặc điểm chung sản phẩm người dùng quan tâm, từ gợi ý cho va người dùng sản phẩm có đặc điểm tương tự Trong thuật tốn dựa n lọc cộng tác khai thác liệu sở thích người dùng khứ to tương đồng người dùng sản phẩm để đưa gợi ý Cách gh tn tiếp cận lai kết hợp lọc dựa nội dung lọc cộng tác Các nghiên cứu p ie hệ gợi ý tập trung vào hai hướng: nl w Thứ nhất, kỹ thuật, phương pháp nâng cao chất lượng gợi ý (ví dụ: d oa giải vấn đề người dùng sử dụng kỹ thuật phân rã ma trận) lu Thứ hai, xây dựng hệ gợi ý miền ứng dụng cụ thể (ví dụ: hệ gợi ý va an dự đoán kết gợi ý lựa chọn môn học, hệ gợi ý sản phẩm bán hàng trực tuyến) ll u nf oi m Hệ gơi ý đóng vai trị quan trọng việc tiết kiệm thời gian cho người dùng giảm chi phí quảng cáo cho doanh nghiệp Nâng cao hiệu gợi ý giảm z at nh thời gian tính tốn vấn đề mở nghiên cứu hệ gợi ý Trong luận văn này, nghiên cứu ứng dụng luật kết hợp hệ gợi ý z @ Trước hết, chúng tơi trình bày tổng quan hệ gợi ý khai phá luật kết hợp l gm Tiếp theo, đề xuất mô hình ứng dụng luật kết hợp hệ gợi ý Kết thực nghiệm liệu MovieLen100K, MovieLen1M m co MovieLen10M cho thấy cách tiếp cận tốt phương pháp lọc cộng tác an Lu truyền thống hiệu gợi ý hai độ đo RMSE MAE (giảm độ lỗi) Cụ thể, điểm RMSE giảm từ 27,66% đến 50,87%; đó, điểm MAE giảm n va từ 27,05% đến 45,62% ac th si Từ khóa: Hệ gợi ý, lọc cộng tác, luật kết hợp, khai phá luật kết hợp, tập phổ biến lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va iv ac th si Mục lục Lời cam đoan i Lời cảm ơn ii lu an iii Danh mục chữ viết tắt vii n va Tóm tắt gh tn to Danh mục hình vẽ viii p ie Danh mục bảng ix d oa nl w Mở đầu an lu ll u nf va oi m z 3 8 12 13 13 14 15 m co l gm z at nh giá @ Tổng quan 1.1 Sơ lược hệ gợi ý 1.2 Các nhiệm vụ hệ gợi ý 1.3 Bài toán hệ gợi ý 1.4 Một số kỹ thuật gợi ý 1.4.1 Lọc dựa nội dung 1.4.2 Lọc cộng tác 1.4.3 Lọc kết hợp 1.5 Đánh giá hệ gợi ý 1.5.1 Các phương pháp đánh 1.5.2 Các độ đo 1.6 Tổng kết chương an Lu Ứng dụng luật kết hợp hệ gợi ý 16 2.1 Khai phá luật kết hợp 16 2.1.1 Một số khái niệm định nghĩa 16 2.1.2 Phương pháp Apriori 17 n va v ac th si 2.2 2.3 2.4 2.5 Mơ hình ứng dụng luật kết hợp hệ gợi ý Sinh luật kết hợp sử dụng thuật toán Apriori Sinh gợi ý từ luật kết hợp Tổng kết chương 19 20 21 23 Thực nghiệm 24 3.1 Cài đặt thực nghiệm 24 3.2 Kết thực nghiệm 27 3.3 Đánh giá 31 Kết luận 32 Bài báo liên quan đến luận văn 33 Tài liệu tham khảo 34 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va vi ac th si Danh mục chữ viết tắt lu an n va Association Rule (Luật kết hợp) CBF Content Based Filtering (Lọc dựa nội dung) CF Collaborative Filtering (Lọc cộng tác) CSDL Cở Sở Dữ Liệu MAE Mean Base Error (Sai số tuyệt đối trung bình) RMSE Root Mean Square Error (Căn bậc hai sai số bình phương trung bình) RS Recommendation System (Hệ gợi ý) p ie gh tn to AR d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va vii ac th si Danh sách hình vẽ lu an n va Hệ gợi ý trang web Amazon.com Mơ hình tương tác người dùng hệ Ma trận biểu diễn liệu hệ gợi ý Minh họa phương pháp lọc cộng tác 2.1 2.2 Mơ hình ứng dụng luật kết hợp hệ gợi ý 19 Sinh tập phổ biến 23 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Định dạng liệu Số luật kết hợp thu từ liệu MovieLen100K Số luật kết hợp thu từ liệu MovieLen1M Số luật kết hợp thu từ liệu MovieLen10M Kết thực nghiệm liệu MovieLen100K Kết thực nghiệm liệu MovieLen1M Kết thực nghiệm liệu MovieLen10M So sánh độ lỗi liệu p ie gh tn to 1.1 1.2 1.3 1.4 gợi ý 11 25 26 26 27 28 29 30 31 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va viii ac th si Bước 2: Sinh luật kết hợp từ tập phổ biến – Luật 1: {i1 , i2 } → {i5 } conf = 2/2 – Luật 2: {i1 , i5 } → {i2 } conf = 2/3 – Luật 3: {i2 , i5 } → {i1 } conf = 2/2 – Luật 4: {i1 } → {i2 , i5 } conf = 2/3 – Luật 5: {i2 } → {i1 , i5 } conf = 2/3 – Luật 6: {i5 } → {i1 , i2 } conf = 2/4 – Luật 7: {i1 , i4 } → {i5 } conf = 2/2 – Luật 8: {i1 , i5 } → {i4 } conf = 2/3 lu – Luật 9: {i4 , i5 } → {i1 } conf = 2/3 an n va – Luật 10: {i1 } → {i4 , i5 } conf = 2/3 tn to – Luật 11: {i4 } → {i1 , i5 } conf = 2/3 – Luật 12: {i5 } → {i1 , i4 } conf = 2/4 p ie gh So sánh với minconf = 60% ⇒ luật kết hợp chấp nhận luật 1, w 2, 3, 4, 5, 7, 8, 9, 10, 11 oa nl Bước 3: Với người dùng u5 , ta có luật u5 : {i4 , i5 } → {i1 } {i4 } → d {i1 , i5 } Dựa vào luật, ta thấy i1 ứng cử viên gợi ý cho u5 lu an Bước 4: Áp dụng quy trình lọc cộng tác để dự đoán điểm đánh giá người ll u nf va dùng u5 dành cho i1 oi m Dùng độ đo tương quan Pearson để tính độ tương đồng người dùng z at nh Sử dụng cơng thức (1.1), ta có: sim(u5 , u1 ) = −0, 989; sim(u5 , u2 ) = −0, 310; sim(u5 , u3 ) = 0, 165; sim(u5 , u4 ) = −0, 221 Giả sử chọn số hàng xóm k = 1, u3 người dùng tương đồng với u5 Ta có dự đốn đánh giá người z m co l gm @ dùng u5 dành cho sản phẩm i1 tính theo công thức (2.4) là: ru5 ,i1 = 1.4 an Lu n va 22 ac th si lu an va n Hình 2.2: Sinh tập phổ biến Tổng kết chương p ie gh tn to 2.5 Trong chương chúng tơi trình bày khai phá luật kết hợp, mơ hình ứng dụng nl w luật kết hợp hệ gợi ý, sinh luật kết hợp sử dụng thuật toán apriori sinh gợi oa ý từ luật kết hợp Tiếp theo chương chúng tơi trình bày cài đặt thực nghiệm, d kết thực nghiệm đánh giá ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va 23 ac th si Chương Thực nghiệm lu an Cài đặt thực nghiệm n va 3.1 gh tn to Chúng sử dụng liệu MovieLens100K, MovieLens1M MovieLens10M1 [8] Các thống kê số lượng người dùng, số lượng phim độ thưa ie p liệu trình bày Bảng 3.1 Điểm xếp hạng người dùng dành cho phim liệu bao gồm số nguyên phạm vi từ đến w oa nl Mỗi người dùng đánh giá 20 phim d Bảng 3.1: Thống kê liệu # Người dùng # Phim # Đánh giá Độ thưa 1.682 3.706 10.681 100.000 1.000.209 10.000.054 93,7% 95,9% 98,69% 943 6.040 71.567 ll u nf va MovieLen100K MovieLen1M MovieLen10M an lu Dữ liệu oi m z at nh Dữ liệu lưu file csv, hình 3.1 minh họa liệu đánh giá người dùng bao gồm thuộc tính user-id (Định danh người dùng), movie-id (định z m co l gm @ danh phim) rating (điểm số đánh giá) n 24 va https://grouplens.org/datasets/movielens/ an Lu ac th si lu an n va gh tn to p ie Hình 3.1: Định dạng liệu nl w Thực nghiệm cài đặt liệu mô tả với phương pháp oa lọc cộng tác truyền thống ((i) dựa người dùng (user-based CF), (ii) dựa d sản phẩm (item-based CF)) (iii) lọc cộng tác dựa luật kết hợp (AR-based lu an CF) Chúng cài đặt đánh giá phương pháp gợi ý sử dụng công cụ nguồn va mở Lenkit [5] Các tham số cài đặt hệ gợi ý theo phương pháp (iii) u nf trình bày Bảng 3.2 Độ hỗ trợ minsup độ tin cậy minconf nằm ll phạm vi từ đến 1, giá trị tham số xác định theo [19] m oi Bảng 3.2: Các tham số cài đặt phương pháp AR-based CF minsup minconf Số luật kết hợp 0,1 0,07 0,05 0,8 0,7 0,7 3.118 6.461 22.579 z m co l gm @ MovieLen100K MovieLen1M MovieLen10M z at nh Bộ liệu Hình 3.2, 3.3 3.4 trình bày kết số luật kết hợp thu an Lu thực nghiệm ba liệu MovieLen100K, MovieLen1M MovieLen10M n va 25 ac th si lu an n va gh tn to p ie Hình 3.2: Số luật kết hợp thu từ liệu MovieLen100K d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.3: Số luật kết hợp thu từ liệu MovieLen1M n va 26 ac th si lu an n va p ie gh tn to Hình 3.4: Số luật kết hợp thu từ liệu MovieLen10M Kết thực nghiệm d oa nl w 3.2 lu Bảng 3.3 tổng hợp kết thực nghiệm với ba phương pháp gợi ý va an liệu MovieLen100K, MovieLen1M MovieLen10M Các ký hiệu ∆1 , ∆2 độ chênh lệch điểm RMSE MAE (theo tỷ lệ %) phương pháp ll u nf (i), (ii) so với (iii) m Bảng 3.3: Kết thực nghiệm oi (i) User-based (ii) Item-based (iii) AR-based 41 (%) 42 (%) 2,451 2,585 1,270 48,18 50,87 1,928 1,997 1,086 43,67 45,62 2,757 2,911 1,738 36,96 40,30 2,370 2,432 1,421 40,04 41,57 2,784 3,334 2,014 27,66 39,59 2,603 3,105 1,899 27,05 38,84 z at nh z m co l gm @ Bộ liệu Độ đo MovieLen100K RMSE MAE MovieLen1M RMSE MAE MovieLen10M RMSE MAE Hình 3.5, 3.6 3.7 kết thực nghiệm ba phương pháp (i), M1 = ((i) − (iii))/(i) M2 = ((ii) − (iii))/(ii) 27 n va an Lu (ii), (iii) ba liệu MovieLen100K, MovieLen1M MovieLen10M ac th si lu (a) User - based CF an n va p ie gh tn to d oa nl w ll u nf va an lu (b) Item - based CF oi m z at nh z @ l gm (c) AR - based CF Hình 3.5: Kết thực nghiệm liệu MovieLen100K m co an Lu n va 28 ac th si lu (a) User - based CF an n va p ie gh tn to d oa nl w ll u nf va an lu (b) Item - based CF oi m z at nh z @ l gm (c) AR - based CF Hình 3.6: Kết thực nghiệm liệu MovieLen1M m co an Lu n va 29 ac th si lu (a) User - based CF an n va p ie gh tn to d oa nl w ll u nf va an lu (b) Item - based CF oi m z at nh z @ l gm (c) AR - based CF Hình 3.7: Kết thực nghiệm liệu MovieLen10M m co an Lu n va 30 ac th si 3.3 Đánh giá Chứng thực nghiệm cho thấy cách tiếp cận khai phá luật kết hợp tốt hai phương pháp lọc cộng tác truyền thống hiệu gợi ý hai độ đo RMSE MAE (giảm độ lỗi) Cụ thể, điểm RMSE giảm khoảng từ 27,66% đến 50,87%; đó, điểm MAE giảm khoảng từ 27,05% đến 45,62% Hình 3.8 thể so sánh độ lỗi RMSE MAE thực nghiệm phương pháp liệu lu an n va to (b) So sánh độ lỗi liệu MovieLen1M p ie gh tn (a) So sánh độ lỗi liệu MovieLen100K d oa nl w an lu (c) So sánh độ lỗi liệu MovieLen10M u nf va Hình 3.8: So sánh độ lỗi liệu ll oi m z at nh z m co l gm @ an Lu n va 31 ac th si Kết luận Trong phần này, chúng tơi tóm lược lại kết luận văn Ngồi ra, chúng tơi trình bày số hạn chế luận văn thảo luận hướng phát triển cho nghiên cứu tương lai Tóm lược kết đóng góp luận văn Trong luận văn này, chúng tơi trình bày nghiên cứu ứng dụng khai phá luật kết hợp cho hệ gợi ý Chúng (i) đề xuất mơ hình ứng dụng luật kết hợp hệ gợi ý, (ii) cài đặt thuật tốn tìm tập phổ biến sinh luật kết hợp; (iii) lu thực nghiệm so sánh, đánh giá hiệu cách tiếp cận với phương pháp lọc an cộng tác truyền thống Kết thực nghiệm liệu MovieLen100K, n va MovieLen1M MovieLen10M cho thấy cách tiếp cận tốt phương pháp Hướng phát triển luận văn ie gh tn to lọc cộng tác truyền thống hiệu gợi ý p Trong tương lai, dự kiến mở rộng nghiên cứu theo số hướng: (i) thử nghiệm miền liệu khác giáo dục, thương mại điện tử, vv; w oa nl (ii) phân tích, so sánh hiệu ứng dụng phương pháp khai phá liệu khác d phân cụm, phân lớp hệ gợi ý Ngoài ra, ứng dụng kỹ thuật học sâu ll u nf va an lu hệ gợi ý hướng nghiên cứu quan tâm oi m z at nh z m co l gm @ an Lu n va 32 ac th si Bài báo liên quan đến luận văn Lê Thị Xinh, Lê Quang Hùng, Vũ Sơn Lâm, Phan Thị Bích Hoa (2021), "Cách tiếp cận khai phá luật kết hợp cho hệ gợi ý", submitted to Hội thảo Quốc gia lần thứ XXIV "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông" (VNICT 2021) lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va 33 ac th si Tài liệu tham khảo [1] Adomavicius, G and Tuzhilin, A (2011) Context-aware recommender systems In Recommender systems handbook, pages 217–253 Springer [2] Agrawal, R., Srikant, R., et al (1994) Fast algorithms for mining association lu an rules In Proc 20th int conf very large data bases, VLDB, volume 1215, pages n va 487–499 Citeseer laborative filtering recommender system: Overview and challenges Advanced gh tn to [3] Al-Bashiri, H., Abdulgabber, M A., Romli, A., and Hujainah, F (2017) Col- p ie Science Letters, 23(9):9045–9049 [4] Baidada, M., Mansouri, K., and Poirier, F (2018) Hybrid recommendation nl w approach in online learning environments In International Conference Europe oa Middle East & North Africa Information Systems and Technologies to Support d Learning, pages 39–43 Springer an lu va [5] Ekstrand, M D (2020) Lenskit for python: Next-generation software for rec- u nf ommender systems experiments In Proceedings of the 29th ACM International ll Conference on Information & Knowledge Management, pages 2999–3006 m oi [6] Geetha, G., Safa, M., Fancy, C., and Saranya, D (2018) A hybrid approach z at nh using collaborative filtering and content based filtering for recommender system In Journal of Physics: Conference Series, volume 1000, page 012101 IOP z Publishing gm @ [7] Gunawardana, A and Shani, G (2009) A survey of accuracy evaluation met- l rics of recommendation tasks Journal of Machine Learning Research, 10(12) m co [8] Harper, F M and Konstan, J A (2015) The movielens datasets: History and an Lu context Acm transactions on interactive intelligent systems (tiis), 5(4):1–19 n va 34 ac th si [9] Ji, H., Li, J., Ren, C., and He, M (2013) Hybrid collaborative filtering model for improved recommendation In Proceedings of 2013 IEEE International Conference on Service Operations and Logistics, and Informatics, pages 142–145 IEEE [10] Karbhari, N., Deshmukh, A., and Shinde, V D (2017) Recommendation system using content filtering: A case study for college campus placement In 2017 International Conference on Energy, Communication, Data Analytics and Soft Computing (ICECDS), pages 963–965 IEEE [11] Le, Q.-H., Vu, S.-L., Nguyen, T.-K.-P., and Le, T.-X (2021) A state-of-theart survey on context-aware recommender systems and applications International Journal of Knowledge and Systems Science (IJKSS), 12(3):1–20 lu an [12] Le, T.-X., Le, Q.-H., Nguyen, T.-K.-P., Lương, T.-T., and Le, A.-C (2020) va n Ứng dụng số phương pháp khai phá liệu hệ gợi ý Hội thảo quốc thông – Quảng Ninh, pages 471–476 ie gh tn to gia lần thứ XXIII: Một số vấn đề chọn lọc Công nghệ thông tin truyền p [13] Leskovec, J., Rajaraman, A., and Ullman, J D (2020) Mining of massive nl w data sets Cambridge university press oa [14] Quang-Hung, L and Thi-Xinh, L (2021) Exploring set-inspired similarity d measures for collaborative filtering recommendation Proceedings of the 13th lu IEEE International Conference on Knowledge and Systems Engineering (KSE u nf va an 2021), accepted [15] Ricci, F., Rokach, L., and Shapira, B (2011) Introduction to recommender ll oi m systems handbook In Recommender systems handbook, pages 1–35 Springer z at nh [16] Ricci, F., Rokach, L., and Shapira, B (2015) Recommender systems: introduction and challenges In Recommender systems handbook, pages 1–34 z Springer @ gm [17] Shani, G and Gunawardana, A (2011) Evaluating recommendation systems m co l In Recommender systems handbook, pages 257–297 Springer [18] Shirkhorshidi, A S., Aghabozorgi, S., and Wah, T Y (2015) A comparison an Lu study on similarity and dissimilarity measures in clustering continuous data PloS one, 10(12):e0144059 n va 35 ac th si [19] Smetsers, R (2013) Association rule mining for recommender systems PhD thesis, Tilburg University [20] Stephen, S C., Xie, H., and Rai, S (2017) Measures of similarity in memorybased collaborative filtering recommender system: A comparison In Proceedings of the 4th Multidisciplinary International Social Networks Conference, pages 1– [21] Thorat, P B., Goudar, R., and Barve, S (2015) Survey on collaborative filtering, content-based filtering and hybrid recommendation system International Journal of Computer Applications, 110(4):31–36 [22] Vu, S.-L., Le, Q.-H., and Nguyen, V.-V (2020) Đánh giá hệ gợi ý: Khảo sát lu thực nghiệm Hội thảo quốc gia lần thứ XXIII: Một số vấn đề chọn lọc an Công nghệ thông tin truyền thông – Quảng Ninh, pages 65–72 n va [23] Wang, H., Zhang, P., Lu, T., Gu, H., and Gu, N (2017) Hybrid recommengorithms In 2017 IEEE 21st International Conference on Computer Supported ie gh tn to dation model based on incremental collaborative filtering and content-based al- p Cooperative Work in Design (CSCWD), pages 337–342 IEEE d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va 36 ac th si