Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
1,12 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN PHAN THỊ BÍCH HOA ỨNG DỤNG LUẬT KẾT HỢP TRONG HỆ GỢI Ý LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Bình Định - Năm 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN PHAN THỊ BÍCH HOA ỨNG DỤNG LUẬT KẾT HỢP TRONG HỆ GỢI Ý Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 08 48 01 01 Người hướng dẫn : TS LÊ QUANG HÙNG Lời cam đoan Tôi xin cam đoan luận văn kết nghiên cứu tôi, thực hướng dẫn TS Lê Quang Hùng Các nội dung trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận văn ghi rõ nguồn phần tài liệu tham khảo i Lời cảm ơn Đầu tiên xin gửi lời cảm ơn sâu sắc tới thầy TS Lê Quang Hùng cô Lê Thị Xinh, Khoa Công nghệ thông tin, Trường Đại học Quy Nhơn, người định hướng đề tài tận tình hướng dẫn, bảo cho tơi suốt q trình thực luận văn tốt nghiệp Tôi xin trân trọng cảm ơn thầy, cô Khoa Công nghệ thơng tin, Trường Đại học Quy Nhơn tận tình giảng dạy, hướng dẫn nghiên cứu khoa học cho suốt thời gian theo học trường trình làm luận văn Xin cảm ơn anh, chị, em bạn học viên Khoa học máy tính, người giúp đỡ, động viên tinh thần chia sẻ kinh nghiệm quý báu giúp tơi vượt qua khó khăn, vướng mắc để hoàn thành luận văn Mặc dù cố gắng, tơi tin luận văn tơi cịn nhiều thiếu sót có nhiều nội dung hồn thiện tốt Tơi mong nhận ý kiến đánh giá, phê bình góp ý thầy cô, anh chị bạn ii Tóm tắt Hệ gợi ý định nghĩa dạng hệ gợi ý lọc thông tin để đưa sản phẩm , dịch vụ người dùng quan tâm Đến thời điểm này, hệ gợi ý ứng dụng rộng rãi lĩnh vực mua sắm trực tuyến, đọc tin tức, âm nhạc, du lịch, xem phim, mạng xã hội (ví dụ: Amazon, Yahoo! Today News, Last.fm, Tripadvisor, Netflix, Facebook) Các hướng tiếp cận xây dựng hệ gợi ý chia thành ba loại: (i) hướng tiếp cận lọc cộng tác, (ii) hướng tiếp cận dựa nội dung (iii) hướng tiếp cận kết hợp lọc cộng tác với dựa nội dung Các thuật toán dựa nội dung khai thác thuộc tính sản phẩm, xác định đặc điểm chung sản phẩm người dùng quan tâm, từ gợi ý cho người dùng sản phẩm có đặc điểm tương tự Trong thuật toán dựa lọc cộng tác khai thác liệu sở thích người dùng khứ tương đồng người dùng sản phẩm để đưa gợi ý Cách tiếp cận lai kết hợp lọc dựa nội dung lọc cộng tác Các nghiên cứu hệ gợi ý tập trung vào hai hướng: ❼ Thứ nhất, kỹ thuật, phương pháp nâng cao chất lượng gợi ý (ví dụ: giải vấn đề người dùng sử dụng kỹ thuật phân rã ma trận) ❼ Thứ hai, xây dựng hệ gợi ý miền ứng dụng cụ thể (ví dụ: hệ gợi ý dự đốn kết gợi ý lựa chọn mơn học, hệ gợi ý sản phẩm bán hàng trực tuyến) Hệ gơi ý đóng vai trị quan trọng việc tiết kiệm thời gian cho người dùng giảm chi phí quảng cáo cho doanh nghiệp Nâng cao hiệu gợi ý giảm thời gian tính tốn vấn đề mở nghiên cứu hệ gợi ý Trong luận văn này, nghiên cứu ứng dụng luật kết hợp hệ gợi ý Trước hết, chúng tơi trình bày tổng quan hệ gợi ý khai phá luật kết hợp Tiếp theo, chúng tơi đề xuất mơ hình ứng dụng luật kết hợp hệ gợi ý Kết thực nghiệm liệu MovieLen100K, MovieLen1M MovieLen10M cho thấy cách tiếp cận tốt phương pháp lọc cộng tác truyền thống hiệu gợi ý hai độ đo RMSE MAE (giảm độ lỗi) Cụ thể, điểm RMSE giảm từ 27,66% đến 50,87%; đó, điểm MAE giảm từ 27,05% đến 45,62% Từ khóa: Hệ gợi ý, lọc cộng tác, luật kết hợp, khai phá luật kết hợp, tập phổ biến iv Mục lục Lời cam đoan i Lời cảm ơn ii Tóm tắt iii Danh mục chữ viết tắt vii Danh mục hình vẽ viii Danh mục bảng ix Mở đầu Tổng quan 1.1 Sơ lược hệ gợi ý 1.2 Các nhiệm vụ hệ gợi ý 1.3 Bài toán hệ gợi ý 1.4 Một số kỹ thuật gợi ý 1.4.1 Lọc dựa nội dung 1.4.2 Lọc cộng tác 1.4.3 Lọc kết hợp 1.5 Đánh giá hệ gợi ý 1.5.1 Các phương pháp đánh 1.5.2 Các độ đo 1.6 Tổng kết chương giá 3 8 12 13 13 14 15 Ứng dụng luật kết hợp hệ gợi ý 16 2.1 Khai phá luật kết hợp 16 2.1.1 Một số khái niệm định nghĩa 16 2.1.2 Phương pháp Apriori 17 v 2.2 2.3 2.4 2.5 Mô hình ứng dụng luật kết hợp hệ gợi ý Sinh luật kết hợp sử dụng thuật toán Apriori Sinh gợi ý từ luật kết hợp Tổng kết chương 19 20 21 23 Thực nghiệm 24 3.1 Cài đặt thực nghiệm 24 3.2 Kết thực nghiệm 27 3.3 Đánh giá 31 Kết luận 32 Bài báo liên quan đến luận văn 33 Tài liệu tham khảo 34 vi Danh mục chữ viết tắt AR Association Rule (Luật kết hợp) CBF Content Based Filtering (Lọc dựa nội dung) CF Collaborative Filtering (Lọc cộng tác) CSDL Cở Sở Dữ Liệu MAE Mean Base Error (Sai số tuyệt đối trung bình) RMSE Root Mean Square Error (Căn bậc hai sai số bình phương trung bình) RS Recommendation System (Hệ gợi ý) vii Danh sách hình vẽ 1.1 1.2 1.3 1.4 Hệ gợi ý trang web Amazon.com Mơ hình tương tác người dùng hệ Ma trận biểu diễn liệu hệ gợi ý Minh họa phương pháp lọc cộng tác 2.1 2.2 Mơ hình ứng dụng luật kết hợp hệ gợi ý 19 Sinh tập phổ biến 23 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Định dạng liệu Số luật kết hợp thu từ liệu MovieLen100K Số luật kết hợp thu từ liệu MovieLen1M Số luật kết hợp thu từ liệu MovieLen10M Kết thực nghiệm liệu MovieLen100K Kết thực nghiệm liệu MovieLen1M Kết thực nghiệm liệu MovieLen10M So sánh độ lỗi liệu viii gợi ý 11 25 26 26 27 28 29 30 31 ❼ Bước 2: Sinh luật kết hợp từ tập phổ biến – Luật 1: {i1 , i2 } → {i5 } conf = 2/2 – Luật 2: {i1 , i5 } → {i2 } conf = 2/3 – Luật 3: {i2 , i5 } → {i1 } conf = 2/2 – Luật 4: {i1 } → {i2 , i5 } conf = 2/3 – Luật 5: {i2 } → {i1 , i5 } conf = 2/3 – Luật 6: {i5 } → {i1 , i2 } conf = 2/4 – Luật 7: {i1 , i4 } → {i5 } conf = 2/2 – Luật 8: {i1 , i5 } → {i4 } conf = 2/3 – Luật 9: {i4 , i5 } → {i1 } conf = 2/3 – Luật 10: {i1 } → {i4 , i5 } conf = 2/3 – Luật 11: {i4 } → {i1 , i5 } conf = 2/3 – Luật 12: {i5 } → {i1 , i4 } conf = 2/4 So sánh với minconf = 60% ⇒ luật kết hợp chấp nhận luật 1, 2, 3, 4, 5, 7, 8, 9, 10, 11 ❼ Bước 3: Với người dùng u5 , ta có luật u5 : {i4 , i5 } → {i1 } {i4 } → {i1 , i5 } Dựa vào luật, ta thấy i1 ứng cử viên gợi ý cho u5 ❼ Bước 4: Áp dụng quy trình lọc cộng tác để dự đốn điểm đánh giá người dùng u5 dành cho i1 Dùng độ đo tương quan Pearson để tính độ tương đồng người dùng Sử dụng công thức (1.1), ta có: sim(u5 , u1 ) = −0, 989; sim(u5 , u2 ) = −0, 310; sim(u5 , u3 ) = 0, 165; sim(u5 , u4 ) = −0, 221 Giả sử chọn số hàng xóm k = 1, u3 người dùng tương đồng với u5 Ta có dự đốn đánh giá người dùng u5 dành cho sản phẩm i1 tính theo cơng thức (2.4) là: ru5 ,i1 = 1.4 22 Hình 2.2: Sinh tập phổ biến 2.5 Tổng kết chương Trong chương chúng tơi trình bày khai phá luật kết hợp, mơ hình ứng dụng luật kết hợp hệ gợi ý, sinh luật kết hợp sử dụng thuật toán apriori sinh gợi ý từ luật kết hợp Tiếp theo chương chúng tơi trình bày cài đặt thực nghiệm, kết thực nghiệm đánh giá 23 Chương Thực nghiệm 3.1 Cài đặt thực nghiệm Chúng sử dụng liệu MovieLens100K, MovieLens1M MovieLens10M1 [8] Các thống kê số lượng người dùng, số lượng phim độ thưa liệu trình bày Bảng 3.1 Điểm xếp hạng người dùng dành cho phim liệu bao gồm số nguyên phạm vi từ đến Mỗi người dùng đánh giá 20 phim Bảng 3.1: Thống kê liệu Dữ liệu MovieLen100K MovieLen1M MovieLen10M # Người dùng # Phim # Đánh giá Độ thưa 943 6.040 71.567 1.682 3.706 10.681 100.000 1.000.209 10.000.054 93,7% 95,9% 98,69% Dữ liệu lưu file csv, hình 3.1 minh họa liệu đánh giá người dùng bao gồm thuộc tính user-id (Định danh người dùng), movie-id (định danh phim) rating (điểm số đánh giá) https://grouplens.org/datasets/movielens/ 24 Hình 3.1: Định dạng liệu Thực nghiệm cài đặt liệu mô tả với phương pháp lọc cộng tác truyền thống ((i) dựa người dùng (user-based CF), (ii) dựa sản phẩm (item-based CF)) (iii) lọc cộng tác dựa luật kết hợp (AR-based CF) Chúng cài đặt đánh giá phương pháp gợi ý sử dụng công cụ nguồn mở Lenkit [5] Các tham số cài đặt hệ gợi ý theo phương pháp (iii) trình bày Bảng 3.2 Độ hỗ trợ minsup độ tin cậy minconf nằm phạm vi từ đến 1, giá trị tham số xác định theo [19] Bảng 3.2: Các tham số cài đặt phương pháp AR-based CF Bộ liệu MovieLen100K MovieLen1M MovieLen10M minsup minconf Số luật kết hợp 0,1 0,07 0,05 0,8 0,7 0,7 3.118 6.461 22.579 Hình 3.2, 3.3 3.4 trình bày kết số luật kết hợp thu thực nghiệm ba liệu MovieLen100K, MovieLen1M MovieLen10M 25 Hình 3.2: Số luật kết hợp thu từ liệu MovieLen100K Hình 3.3: Số luật kết hợp thu từ liệu MovieLen1M 26 Hình 3.4: Số luật kết hợp thu từ liệu MovieLen10M 3.2 Kết thực nghiệm Bảng 3.3 tổng hợp kết thực nghiệm với ba phương pháp gợi ý liệu MovieLen100K, MovieLen1M MovieLen10M Các ký hiệu ∆1 , ∆2 độ chênh lệch điểm RMSE MAE (theo tỷ lệ %) phương pháp (i), (ii) so với (iii) Bảng 3.3: Kết thực nghiệm Bộ liệu Độ đo MovieLen100K RMSE MAE MovieLen1M RMSE MAE MovieLen10M RMSE MAE (i) User-based (ii) Item-based (iii) AR-based 2,451 2,585 1,270 1,928 1,997 1,086 2,757 2,911 1,738 2,370 2,432 1,421 2,784 3,334 2,014 2,603 3,105 1,899 (%) (%) 48,18 43,67 36,96 40,04 27,66 27,05 50,87 45,62 40,30 41,57 39,59 38,84 Hình 3.5, 3.6 3.7 kết thực nghiệm ba phương pháp (i), (ii), (iii) ba liệu MovieLen100K, MovieLen1M MovieLen10M ((i) − (iii))/(i) = ((ii) − (iii))/(ii) 1= 27 (a) User - based CF (b) Item - based CF (c) AR - based CF Hình 3.5: Kết thực nghiệm liệu MovieLen100K 28 (a) User - based CF (b) Item - based CF (c) AR - based CF Hình 3.6: Kết thực nghiệm liệu MovieLen1M 29 (a) User - based CF (b) Item - based CF (c) AR - based CF Hình 3.7: Kết thực nghiệm liệu MovieLen10M 30 3.3 Đánh giá Chứng thực nghiệm cho thấy cách tiếp cận khai phá luật kết hợp tốt hai phương pháp lọc cộng tác truyền thống hiệu gợi ý hai độ đo RMSE MAE (giảm độ lỗi) Cụ thể, điểm RMSE giảm khoảng từ 27,66% đến 50,87%; đó, điểm MAE giảm khoảng từ 27,05% đến 45,62% Hình 3.8 thể so sánh độ lỗi RMSE MAE thực nghiệm phương pháp liệu (a) So sánh độ lỗi liệu MovieLen100K (b) So sánh độ lỗi liệu MovieLen1M (c) So sánh độ lỗi liệu MovieLen10M Hình 3.8: So sánh độ lỗi liệu 31 Kết luận Trong phần này, chúng tơi tóm lược lại kết luận văn Ngồi ra, chúng tơi trình bày số hạn chế luận văn thảo luận hướng phát triển cho nghiên cứu tương lai Tóm lược kết đóng góp luận văn Trong luận văn này, chúng tơi trình bày nghiên cứu ứng dụng khai phá luật kết hợp cho hệ gợi ý Chúng (i) đề xuất mơ hình ứng dụng luật kết hợp hệ gợi ý, (ii) cài đặt thuật tốn tìm tập phổ biến sinh luật kết hợp; (iii) thực nghiệm so sánh, đánh giá hiệu cách tiếp cận với phương pháp lọc cộng tác truyền thống Kết thực nghiệm liệu MovieLen100K, MovieLen1M MovieLen10M cho thấy cách tiếp cận tốt phương pháp lọc cộng tác truyền thống hiệu gợi ý Hướng phát triển luận văn Trong tương lai, dự kiến mở rộng nghiên cứu theo số hướng: (i) thử nghiệm miền liệu khác giáo dục, thương mại điện tử, vv; (ii) phân tích, so sánh hiệu ứng dụng phương pháp khai phá liệu khác phân cụm, phân lớp hệ gợi ý Ngoài ra, ứng dụng kỹ thuật học sâu hệ gợi ý hướng nghiên cứu quan tâm 32 Bài báo liên quan đến luận văn Lê Thị Xinh, Lê Quang Hùng, Vũ Sơn Lâm, Phan Thị Bích Hoa (2021), "Cách tiếp cận khai phá luật kết hợp cho hệ gợi ý", submitted to Hội thảo Quốc gia lần thứ XXIV "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông" (VNICT 2021) 33 Tài liệu tham khảo [1] Adomavicius, G and Tuzhilin, A (2011) Context-aware recommender systems In Recommender systems handbook, pages 217–253 Springer [2] Agrawal, R., Srikant, R., et al (1994) Fast algorithms for mining association rules In Proc 20th int conf very large data bases, VLDB, volume 1215, pages 487–499 Citeseer [3] Al-Bashiri, H., Abdulgabber, M A., Romli, A., and Hujainah, F (2017) Collaborative filtering recommender system: Overview and challenges Advanced Science Letters, 23(9):9045–9049 [4] Baidada, M., Mansouri, K., and Poirier, F (2018) Hybrid recommendation approach in online learning environments In International Conference Europe Middle East & North Africa Information Systems and Technologies to Support Learning, pages 39–43 Springer [5] Ekstrand, M D (2020) Lenskit for python: Next-generation software for recommender systems experiments In Proceedings of the 29th ACM International Conference on Information & Knowledge Management, pages 2999–3006 [6] Geetha, G., Safa, M., Fancy, C., and Saranya, D (2018) A hybrid approach using collaborative filtering and content based filtering for recommender system In Journal of Physics: Conference Series, volume 1000, page 012101 IOP Publishing [7] Gunawardana, A and Shani, G (2009) A survey of accuracy evaluation metrics of recommendation tasks Journal of Machine Learning Research, 10(12) [8] Harper, F M and Konstan, J A (2015) The movielens datasets: History and context Acm transactions on interactive intelligent systems (tiis), 5(4):1–19 34 [9] Ji, H., Li, J., Ren, C., and He, M (2013) Hybrid collaborative filtering model for improved recommendation In Proceedings of 2013 IEEE International Conference on Service Operations and Logistics, and Informatics, pages 142–145 IEEE [10] Karbhari, N., Deshmukh, A., and Shinde, V D (2017) Recommendation system using content filtering: A case study for college campus placement In 2017 International Conference on Energy, Communication, Data Analytics and Soft Computing (ICECDS), pages 963–965 IEEE [11] Le, Q.-H., Vu, S.-L., Nguyen, T.-K.-P., and Le, T.-X (2021) A state-of-theart survey on context-aware recommender systems and applications International Journal of Knowledge and Systems Science (IJKSS), 12(3):1–20 [12] Le, T.-X., Le, Q.-H., Nguyen, T.-K.-P., Lương, T.-T., and Le, A.-C (2020) Ứng dụng số phương pháp khai phá liệu hệ gợi ý Hội thảo quốc gia lần thứ XXIII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quảng Ninh, pages 471–476 [13] Leskovec, J., Rajaraman, A., and Ullman, J D (2020) Mining of massive data sets Cambridge university press [14] Quang-Hung, L and Thi-Xinh, L (2021) Exploring set-inspired similarity measures for collaborative filtering recommendation Proceedings of the 13th IEEE International Conference on Knowledge and Systems Engineering (KSE 2021), accepted [15] Ricci, F., Rokach, L., and Shapira, B (2011) Introduction to recommender systems handbook In Recommender systems handbook, pages 1–35 Springer [16] Ricci, F., Rokach, L., and Shapira, B (2015) Recommender systems: introduction and challenges In Recommender systems handbook, pages 1–34 Springer [17] Shani, G and Gunawardana, A (2011) Evaluating recommendation systems In Recommender systems handbook, pages 257–297 Springer [18] Shirkhorshidi, A S., Aghabozorgi, S., and Wah, T Y (2015) A comparison study on similarity and dissimilarity measures in clustering continuous data PloS one, 10(12):e0144059 35 [19] Smetsers, R (2013) Association rule mining for recommender systems PhD thesis, Tilburg University [20] Stephen, S C., Xie, H., and Rai, S (2017) Measures of similarity in memorybased collaborative filtering recommender system: A comparison In Proceedings of the 4th Multidisciplinary International Social Networks Conference, pages 1– [21] Thorat, P B., Goudar, R., and Barve, S (2015) Survey on collaborative filtering, content-based filtering and hybrid recommendation system International Journal of Computer Applications, 110(4):31–36 [22] Vu, S.-L., Le, Q.-H., and Nguyen, V.-V (2020) Đánh giá hệ gợi ý: Khảo sát thực nghiệm Hội thảo quốc gia lần thứ XXIII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quảng Ninh, pages 65–72 [23] Wang, H., Zhang, P., Lu, T., Gu, H., and Gu, N (2017) Hybrid recommendation model based on incremental collaborative filtering and content-based algorithms In 2017 IEEE 21st International Conference on Computer Supported Cooperative Work in Design (CSCWD), pages 337–342 IEEE 36 ... quan hệ gợi ý gồm có: sơ lược hệ gợi ý, nhiệm vụ hệ gợi ý, toán hệ gợi ý, số kỹ thuật gợi ý độ đo ❼ Chương ỨNG DỤNG LUẬT KẾT HỢP TRONG HỆ GỢI Ý : Chúng tơi trình bày khái niệm luật kết hợp, khai... ? ?Ứng dụng luật kết hợp hệ gợi ý? ?? Mục tiêu luận văn Trong luận văn này, đặt hai mục tiêu chính: ❼ Nghiên cứu sở lý thuyết hệ gợi ý, luật kết hợp, thuật toán Apriori, ứng dụng luật kết hợp hệ gợi. .. biến 2.5 Tổng kết chương Trong chương trình bày khai phá luật kết hợp, mơ hình ứng dụng luật kết hợp hệ gợi ý, sinh luật kết hợp sử dụng thuật toán apriori sinh gợi ý từ luật kết hợp Tiếp theo