Ứng dụng học máy trong hệ gợi ý

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN LƯƠNG THANH THUẬN ỨNG DỤNG HỌC MÁY TRONG HỆ GỢI Ý LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Bình Đinh - Năm 2020 LƯƠNG THANH THUẬN ỨNG DỤNG HỌC MÁY TRONG HỆ GỢI Ý Chuyên ngành : Khoa học máy tính Mã số : 08 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN: TS LÊ QUANG HÙNG Lời cam đoan Tôi xin cam đoan luận văn kết nghiên cứu tôi, thực hướng dẫn TS Lê Quang Hùng Các nội dung trích dẫn từ nghiên cứu tác giả khác mà trình bày luận văn ghi rõ nguồn phần tài liệu tham khảo Tóm tắt Hệ gợi ý (RS ) đinh nghĩa dạng hệ gợi ý lọc thông tin để đưa sản phẩm1, dịch vụ người dùng quan tâm Đến thời điểm này, hệ gợi ý ứng dụng rộng rãi lĩnh vực mua sắm trực tuyến, đọc tin tức, âm nhạc, du lịch, xem phim, mạng xã hội (ví dụ: Amazon, Yahoo! Today News, Last.fm, Tripadvisor, Netflix, Facebook) Các hướng tiếp cận xây dựng hệ gợi ý chia thành ba loại: (i) hướng tiếp cận lọc cộng tác, (ii) hướng tiếp cận dựa nội dung (iii) hướng tiếp cận kết hợp lọc cộng tác với dựa nội dung Các thuật toán dựa nội dung khai thác thuộc tính sản phẩm, xác định đặc điểm chung sản phẩm người dùng quan tâm, từ gợi ý cho người dùng sản phẩm có đặc điểm tương tự Trong thuật tốn dựa lọc cộng tác khai thác liệu sở thích người dùng khứ tương đồng người dùng sản phẩm để đưa gợi ý Cách tiếp cận lai kết hợp lọc dựa nội dung lọc cộng tác Sự kết hợp thực theo nhiều cách khác nhau: (i) cài đặt lọc cộng tác dựa nội dung độc lập sau tổng hợp kết dự đốn; (ii) tích hợp số đặc điểm cách tiếp cận dựa nội dung vào lọc cộng tác; (iii) tích hợp số đặc điểm lọc cộng tác vào cách tiếp cận dựa nội dung; (iv) xây dựng mô hình hợp nhất, tích hợp hai cách tiếp cận Các nghiên cứu hệ gợi ý tập trung vào hai hướng Thứ nhất, kỹ thuật, phương pháp nâng cao chất lượng gợi ý (ví dụ: giải vấn đề người dùng sử dụng kỹ thuật phân rã ma trận Thứ hai, xây dựng hệ gợi ý miền ứng dụng cụ thể (ví dụ: hệ gợi ý dự đoán kết gợi ý lựa chọn môn học, hệ gợi ý sản phẩm bán hàng trực tuyến Dữ liệu thưa (data sparsity) vấn đề thách thức hệ gợi ý Việc xác định nhóm người dùng có "sở thích" tương tự giải pháp xử lý vấn đề Trong luận văn này, nghiên cứu ứng dụng học máy hệ gợi ý để xác định nhóm người dùng có "sở thích" tương tự Thực nghiệm tiến hành với thuật toán k-Means, Naive Bayes 1Chúng sử dụng thuật ngữ "sản phẩm" để đối tượng (sản phẩm, dịch vụ tin tức, luận văn, mẫu tin quảng cáo) người dùng quan tâm, đánh giá hệ gợi ý liệu MovieLenlOM, MovieLen20M cho thấy hiệu cách tiếp cận so với hệ gợi ý State-of-the-art Từ khóa: Hệ gợi ý, học máy, phân cụm, phân lớp, k-Means, Naive Bayes Lời cảm ơn Trong q trình nghiên cứu hồn thành luận văn, học viên nhận đinh hướng, giúp đỡ, ý kiến đóng góp quý báu lời động viên thầy cô giáo, đồng nghiệp gia đình Trước hết, tơi xin chân thành bày tỏ lời cảm ơn tới thầy TS Lê Quang Hùng, Lê Thi Xinh tận tình hướng dẫn giúp đỡ q trình nghiên cứu Tơi xin chân thành cảm ơn Phịng sau đại học, q thầy giáo Khoa Công nghệ thông tin tạo kiện thuận lợi để tơi hồn thành nhiệm vụ nghiên cứu Tơi xin bày tỏ lời cảm ơn tới đồng nghiệp, gia đình, bạn bè ln động viên, chia sẻ, ủng hộ giúp đỡ để tơi vượt qua khó khăn để đạt kết nghiên cứu luận văn Luận văn sản phẩm đề tài Khoa học Công nghệ: "Nghiên cứu ứng dụng học máy tích hợp thơng tin ngữ cảnh hệ gợi ý du lich", mã số B2020DQN-08 (Bộ Giáo dục Đào tạo) Muc luc Lời cam đoan i Tóm tắt ii Lời cảm ơn iv Danh mục chữ viết tắt vii Danh mục hình vẽ viii Danh mục bảng ix Mở đầu 1 TỔNG QUAN 1.1 1.2 Hệ gợi ý 1.1.1 Giới thiệu 1.1.2 Phát biểu toán 1.1.3 Các cách tiếp cận hệgợi ý 1.1.3.1 Dựa nội dung 1.1.3.2 Lọc cộng tác 1.1.3.3 Kết hợp 10 1.1.4 Chức hệ gợi ý 11 1.1.5 ứng dụng hệ gợi ý 13 Sơ lược học máy 15 1.2.1 Khái niệm 15 1.2.1.1 Nhiệm vụ T 15 1.2.1.2 Phép đánh giá P 16 1.2.1.3 Kinh nghiệm E 16 1.2.2 Các phương pháp học máy 17 1.2.2.1 Học có giám sát 17 1.2.2.2 Học không giám sát 17 1.2.2.3 Học bán giám sát 18 1.2.2.4 Học tăng cường 18 1.3 Nghiên cứu liên quan 19 1.4 Tổng kết chương 19 ỨNG DỤNG HỌC MÁY TRONG HỆ GỢI Ý 20 2.1 Mơ hình hệ gợi ý 20 2.2 Thuật toán Naive Bayes 21 2.3 Thuật toán k-Means 22 2.4 ứng dụng số phương pháp học máy hệ gợi ý .23 2.4.1 Phân cụm liệu hệgợi ý 25 2.4.2 Phân lớp liệu hệ gợi ý 26 2.5 Tổng kết chương 27 THựC NGHIỆM 29 3.1 Cài đặt thực nghiệm 29 3.2 Kết thực nghiệm 31 3.3 Tổng kết chương 33 Kết luận 34 Danh muc chữ viết tắt Recommender Systems (Hệ gợi ý) RS Support Vector Machines (Hỗ trợ véc tơ học máy) SVM Collaborative Filtering (Lọc cộng tác) CF CBF Content - Based Filtering (Lọc nội dung) BMF Biased Matrix Factorization (Phân rã ma trận thiên vị) K-NN K - Nearest Neighbor (K-Láng giềng gần nhất) RMSE Root Mean Square Error (Căn bậc hai sai số bình phương trung bình) MAE Mean Absolute Error (Sai số trung bình tuyệt đối) ML Machine Learning (Học máy) IR Information Retrieval (Truy xuất thông tin) IF Information Filtering (Lọc thông tin) UL Unsupervised Learning (Học không giám sát) SL Supervised Learning (Học có giám sát) RL Reinforcement Learning (Học tăng cường) Danh sách hình vẽ 1.1 Ma trận biểu diễn liệu hệ gợi ý 1.2 Kỹ thuật lọc dựa nội dung 1.3 Kỹ thuật lọc dựa cộng tác 1.4 Kết hợp đầu vào và/hoặc thành phần khác 11 2.1 Mơ hình tương tác người dùng hệ gợi ý 21 2.2 Ví dụ với ba cụm liệu khơng gian hai chiều 23 2.3 Mơ hình ứng dụng học máy hệ gợi ý 24 3.1 Đinh dạng liệu thuật toán k-Means 30 3.2 Đinh dạng liệu thuật toán Naive Bayes 30 3.3 So sánh thuật toán liệu MovieLen10M (Baseline: State of the art) 31 3.4 So sánh thuật toán liệu MovieLen20M (Baseline: State of the art) 31 3.5 Kết hiểnthi top - 10 hệ gợi ý baseline 32 3.6 Kết hiểnthi top - 10 hệ gợi ý ứng dụng thuật toán k-Means 32 3.7 Kết hiểnthi top - 10 hệ gợi ý ứng dụng thuật toán Naive Bayes 33 2.2 Thuật toán Naive Bayes Naive Bayes [6] thuật toán ứng dụng thành cơng tốn phân lớp Ý tưởng cách tiếp cận Naive Bayes sử dụng xác suất có điều kiện thuộc tính nhãn lớp để dự đoán xác suất nhãn lớp đối tượng cần phân loại Điểm quan trọng phương pháp giả định xuất tất thuộc tính đối tượng độc lập với Phân loại Naive Bayes sử dụng trường hợp đối tượng cho tập thuộc tính < x ,x , ,x > cần xác định nhãn phân loại y, y nhận giá trị từ n tập hữu hạn C.Trong giai đoạn huấn luyện, liệu huấn luyện cung cấp dạng mẫu < xi,yi > Sau huấn luyện xong, phân loại cần dự đoán nhãn cho mẫu x Theo lý thuyết Bayes, nhãn phân loại xác định cách tính xác suất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính < x ,x , ,x > Nhãn lớp n chọn, ký hiệu CMAP nhãn có xác suất điều kiện cao (MAP viết tắt maximum a posterior), tức là: y = CMAP = argmaXcj CP(c-|xi,X2, ,x ) G (2.1) n Sử dụng quy tắc Bayes, biểu thức (1) viết lại sau: CMAP = argmaXcj C P(xi,x2, ,xn|cj)P(cj) (2.2) j 12 G P (xi ,X2, ,x ) j n Hai thành phần biểu thức tính từ liệu huấn luyện Giá tri P tính cj tần suất quan sát thấy nhãn Cj tập huấn luyện, tức số mẫu có nhãn C j chia cho tổng số mẫu Việc tính P(x ,x , ,x |cj) khó khăn nhiều n Để giải vấn đề ta giả sử thuộc tính độc lập xác suất với biết nhãn phân loại Cj Trên thực tế thuộc tính thường khơng độc lập với Chính dựa giả thiết độc lập xác suất đơn giản nên phương pháp có tên gọi “Bayes đơn giản - Náìve Bayes” Với giả thiết tính độc lập xác suất có điều kiện viết: P(x1,x2, ,xn|Cj) = P(x1|Cj) P(x2|Cj) P(xn|Cj) (2.3) Tức xác suất đồng thời quan sát thấy thuộc tính tích xác suất điều kiện thuộc tính riêng lẻ Thay vào biểu thức (2), ta phân loại Naive Bayes (có đầu ký hiệu CNaiveBayes sau): C NaiveBayes = argmax c ec j P (Cj)ni (Xi|cj) (2.4) Trong P(x |cj)được tính từ liệu huấn luyện số lần x xuất với Cj chia i i cho số lần x xuất Việc tính xác suất địi hỏi liệu nhiều so với tính i P(x ,x , ,x |cj) Quá trình học Bayes đơn giản q trình tính xác suất P(Cj)và n xác suất điều kiện P(x |cj) cách đếm tập liệu i 2.3 Thuật toán k-Means k-Means [10] thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm Hình 2.2 mơ tả ví dụ với ba cụm liệu khơng gian hai chiều Tư tưởng thuật tốn k-Means tìm cách phân nhóm tượng cho vào k cụm (k số cụm xác đinh trước, k nguyên dương): Chọn ngẫu nhiên k tâm (cho k cụm) Mỗi cụm đại diện tâm cụm Tính khoảng cách đối tượng đến k (dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác đinh lại tâm cho nhóm Lặp lại bước 2, 3, thay đổi nhóm đối tượng Hình 2.2: Ví dụ với ba cụm liệu không gian hai chiều 2.4 ứng dụng số phương pháp học máy gơi ý Trong nghiên cứu này, ứng dụng số phương pháp học máy hệ gợi ý để xác đinh nhóm người dùng có "sở thích" tương tự Cụ thể, phương pháp học có giám sát để phân lớp liệu, phương pháp học không giám sát để phâm cụm liệu Hình 2.3 thể mơ hình tổng qt ứng dụng học máy hệ gợi ý Các bước Hình 2.3 thể sau: Dữ liệu (hồ sơ người dùng) bao gồm thông tin người dùng lịch sử tương tác người dùng bước tiền xử lý, liệu làm sạch, chuẩn hóa dạng véc-tơ (mỗi người dùng véc-tơ sản phẩm) Sử dụng thuật toán học máy để phân lớp phân cụm liệu Với người dùng hoạt động a (véc-tơ), tìm lớp cụm a thuộc Xác định m người dùng lớp/cụm có độ tương đồng với a sử dụng độ đo Pearson5: n E (ra,i - ra)(ru,i - ru) sim(a, u) = i=1 " ,2 n , „2 (r - a,i raỴ (r u,i - r (2.5) ) u 5Có độ đo khác để tính tốn độ tương đồng: độ đo khoảng cách Euclid, Minkowski, ; 6độ đo tương tự Cosin, Entropy; độ đo tương quan Pearson, Spearman, Kendal, Với tập liệu ban đầu, sử dụng thuật toán k-Means để phân cụm người dùng Xác đinh cụm người dùng hoạt động a, tìm kiếm người dùng có sở thích tương đồng với a sử dụng độ đo tương quan Pearson, từ chọn m người dùng tương đồng với a Sau đó, dự đốn điểm đánh giá a sản phẩm chưa đánh giá Bước tiếp theo, xếp sản phẩm theo thứ tự điểm dự đoán Cuối top-N sản phẩm gợi ý cho người dùng a Ví dụ Giả sử ta có ma trận đánh giá R: Trong đó: • r , , r , : đánh giá người dùng hoạt động a cho sản phẩm i đánh giá a i u i người dùng u cho sản phẩm i; • , ru: đánh giá trung bình người dùng a u; Dự đoán điểm đánh giá sản phẩm dựa vào m người dùng có độ tương đồng lớn so với a Dự đoán đánh giá sản phẩm i người dùng a tính theo cơng thức sim( u)(r - r „_ a Euem u,i u ) sim(a,u) Hệ gợi ý đưa danh sách top-N sản phẩm phù hợp cho người dùng a Bước tiếp theo, hệ gợi ý cập nhật lại sở thích a huấn luyện lại mơ hình 2.4.1 Phân cụm liệu hệ gợi ý Chúng sử dụng thuật toán k-Means để phân cụm người dùng, cụm chứa người dùng có sở thích tương tự Các bước cài đặt hệ gợi ý sử dụng thuật tốn kMeans mơ tả chi tiết Thuật toán (Algorithm 1) Algorithm ứng dụng phân cụm liệu hệ gợi ý Đầu vào: Ma trận đánh giá R, số cụm k, số sản phẩm gợi ý N, người dùng hoạt động a Đầu ra: top-N sản phẩm 1: Phân cụm người dùng R sử dụng thuật toán k-Means 2: Với người dùng hoạt động a, tìm cụm chứa a 3: Tìm m người dùng có độ tương đồng lớn với a 4: Dự đoán điểm đánh giá cho sản phẩm chưa đánh giá 5: Sắp xếp sản phẩm theo điểm đánh giá 6: Trả top-N sản phẩm gợi ý cho người dùng a Người dùng/Sản phẩm ii Ì2 Ì3 Ì4 u U2 1 U3 u 0 0 U5 0 1 Với người dùng a: a 0 Ì5 a; Cần dự đốn điểm đánh giá cho sản phẩm a chưa đánh giá đưa gợi ý sản phẩm cho a • Phân cụm người dùng thuật toán k-Means Với k = 2, chia người dùng thành hai cụm: k = {u ,u ,u } có tâm u ; k = {u ,u } có tâm u Ta xác đinh a 1 thuộc cụm k • Tìm người dùng tương đồng với a người dùng thuộc cụm k thông qua độ tương quan Pearson Sử dụng cơng thức (2) ta có: sim(a,u ) = 0.072; sim(a,u ) = 0.052 u tương đồng với a • Dự đốn điểm đánh giá cho sản phẩm chưa đánh giá a Từ cơng thức (3) ta có: r(a,i ) = -0.6; r(a,i ) = 2.4; r(a,i ) = -0.6 • Dựa vào dự đoán điểm đánh giá, hệ gợi ý sản phẩm i cho người dùng a 2.4.2 Phân lớp liệu hệ gợi ý Chúng tơi sử dụng thuật tốn Naive Bayes để phân lớp người dùng, tương tự phân cụm, lớp chứa người dùng có sở thích tương tự Các bước cài đặt hệ gợi ý sử dụng thuật tốn Naive Bayes mơ tả chi tiết Thuật toán (Algorithm 2) Algorithm ứng dụng phân lớp liệu hệ gợi ý Đầu vào: Ma trận đánh giá R, số sản phẩm gợi ý N, người dùng hoạt động a Đầu ra: top-N sản phẩm 1: Phân lớp người dùng R sử dụng thuật toán Naive Bayes 2: Với người dùng hoạt động a, tìm lớp chứa a 3: Tìm m người dùng có độ tương đồng lớn với a 4: Dự đoán điểm đánh giá cho sản phẩm chưa đánh giá a; 5: Sắp xếp sản phẩm theo điểm đánh giá 6: Trả top-N sản phẩm gợi ý cho người dùng a Ví dụ Giả sử ta có ma trận đánh giá R, tập nhãn lớp C = {0,1}: Người dùng/Sản phẩm u il Ì2 Ì3 Ì4 Ì5 c U2 1 U3 u 0 U5 0 3 0 0 1 0 Với người dùng a: a 0 Cần dự đoán điểm đánh giá cho sản phẩm a chưa đánh giá đưa gợi ý sản phẩm cho a • Xác đinh nhãn lớp c G C cho a: Áp dụng đinh lý Bayes, ta có: P(c = 1|a) = < P(c = 0|a) = 0.05 Do đó, xác đinh a thuộc phân lớp • Các bước thực tương tự Ví dụ 2.5 Tông kêt chương Trong chương này, chúng tơi trình bày mơ hình tổng qt hệ gợi ý, giới thiệu mơ hình ứng dụng học máy hệ gợi ý, trình bày cách ứng dụng thuật toán phân cụm liệu k-Means thuật toán phân lớp liệu Naive Bayes hệ gợi ý Trong chương 3, chúng tơi trình bày thực nghiệm ứng dụng hai thuật toán hệ gợi ý Chương THựC NGHIÊM 3.1 Cài đặt thực nghiêm Để đánh giá hiệu việc ứng dụng số phương pháp khai phá liệu hệ gợi ý, thực nghiệm thực với ba loại: (i) hệ gợi ý theo hướng tiếp cận lọc cộng tác dựa người dùng (State of the art), (ii) hệ gợi ý ứng dụng phương pháp phân cụm liệu với thuật toán k-Means (iii) hệ gợi ý ứng dụng phương pháp phân lớp liệu với thuật toán Naive Bayes Chúng sử dụng liệu MovieLen10M, MovieLen20M7 [8] Tập liệu huấn luyện tập liệu đánh giá chia theo tỉ lệ 7:3 Đinh dạng liệu mơ tả Hình 3.6 (thuật tốn k-Means) Hình 3.7 (thuật tốn Naive Bayes) • Bộ liệu MovieLen10M chứa 10.000.054 đánh giá cho 10.681 phim 71.567 người xem Tất người dùng chọn đánh giá 20 phim Giá tri đánh giá thực từ 0,5 đến 5,0 Mỗi người dùng đại diện đinh danh id • Bộ liệu MovieLen20M chứa 20.000.263 đánh giá cho 27.278 phim 138.493 người xem Tương tự liệu MovieLen10M, tất người dùng chọn đánh giá 20 phim https://grouplens.org/datasets/movielens/ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3.5 0 0 0 0 3.5 0 0 0 0 0 0 0 00 00 Hình 3.1: Định dạng liệu thuật tốn k-Means Hình 3.2: Định dạng liệu thuật toán Naive Bayes Chúng cài đặt hệ gợi ý cơng cụ nguồn mở Lenskit [4] Với thuật tốn kMeans, phân cụm liệu với số cụm k = 20 thực nghiệm liệu MovieLen10M k = 40 thực nghiệm liệu MovieLen20M Với thuật tốn Naive Bayes, chúng tơi phân lớp với số nhãn 11 Việc gắn nhãn cho tập liệu huấn luyện theo quy ước dựa thể loại phim người dùng yêu thích (thể qua điểm số đánh giá) Chúng sử dụng độ đo: RMSE (Root Mean Square Error), MAE (Mean Absolute Error) [2] để đánh giá thực nghiệm: RMSE = S £ (r'„, - r„/] V |S,esí (3.1) u,«St„t Trong S tập đánh giá, rui giá trị dự đoán sản phẩm i người dùng u test hệ thống r giá trị đánh giá thực tế người dùng u dành cho sản phẩm i Ki MAE = - rui| ] ui U,iE.Stest (3.2) BẢng 3.1: Kết thực nghiệm: (i) hệ gợi ý State of the art, (ii) hệ gợi ý ứng dụng phương pháp phân cụm liệu với thuật toán k-Means (iii) hệ gợi ý ứng dụng phương pháp phân lớp liệu với thuật toán Naive Bayes Bộ liệu MovieLen10M MovieLen20M Độ đo RMSE MAE RMSE MAE State of the art 2,088 2,464 1,751 1,865 Phân cụm 1,527 0,971 0,963 0,758 Phân lớp 1,486 0,952 0,766 0,857 Ai A 26,9 28,8 60,5 45,0 59,4 61,4 56,3 54,0 —RMSE -■-MAE Hình 3.3: So sánh thuật tốn liệu MovieLen10M (Baseline: State of the art) Hình 3.4: So sánh thuật toán liệu MovieLen20M (Baseline: State of the art) 3.2 Kết thực nghiêm Bảng I tổng hợp kết thực nghiệm: (i) hệ gợi ý State of the art, (ii) hệ gợi ý ứng dụng phương pháp phân cụm liệu với thuật toán k-Means (iii) hệ gợi ý ứng dụng phương pháp phân lớp liệu với thuật toán Naive Bayes Biểu đồ so sánh thực nghiệm hai liệu trình bày Hình 3.3 Hình 3.4 Trong bảng I, ký hiệu A , A độ chênh lệch điểm RMSE MAE (theo tỷ lệ %) phương pháp (ii), (iii) so với (i) Chúng ta thấy, hệ gợi ý ứng dụng phương pháp phân cụm phân lớp liệu tốt so với hệ gợi ý State of the art hai độ đo RMSE MAE Cụ thể, liệu MovieLen10M, 82^1=((i) - (ii))/(i) 9A = ((i) - (iii))/(i) MovieLen10M, điểm RMSE giảm khoảng từ 26,9% đến 56,3%; đó, điểm MAE giảm khoảng từ 54,0% đến 61,4% Kết hiển thi top - N với N =10 cho userID = hệ gợi ý baseline, hệ gợi ý ứng dụng phương pháp phân cụm liệu với thuật toán k-Means hệ gợi ý ứng dụng phương pháp phân lớp liệu với thuật toán Naive Bayes thể hình 3.5, hình 3.6 hình 3.7 Hình 3.5: Kết hiển thị top - 10 hệ gợi ý baseline Hình 3.6: Kết hiển thị top - 10 hệ gợi ý ứng dụng thuật tốn k-Means Hình 3.7: Kết hiển thị top - 10 hệ gợi ý ứng dụng thuật toán Naive Bayes 3.3 Tổng kết chương Trong chương 3, mô tả cài đặt thực nghiệm: Hệ gợi ý theo hướng tiếp cận lọc cộng tác dựa người dùng (state of the art), hệ gợi ý ứng dụng phương pháp phân cụm liệu k-Means hệ gợi ý ứng dụng phương pháp phân lớp liệu với thuật toán Naive Bayes Các thực nghiệm sử dụng liệu phim MovieLen10M MovieLen20M Kết thực nghiệm cho thấy việc ứng dụng học máy vào hệ gợi ý khả quan KÊT LUẬN • Trong phần này, chúng tơi tóm lược lại kết luận văn Ngồi ra, chúng tơi trình bày số hạn chế luận văn thảo luận hướng phát triển cho nghiên cứu tương lai Tóm lược kết đóng góp luận văn Trong luận văn này, chúng tơi trình bày nghiên cứu ứng dụng số phương pháp khai phá liệu hệ gợi ý, bao gồm: (i) phân tích cách tiếp cận xây dựng hệ gợi ý; (ii) đề xuất mơ hình ứng dụng số phương pháp khai phá liệu hệ gợi ý; (iii) cài đặt ứng dụng thuật toán k-Means, thuật toán Naive Bayes hệ gợi ý; (iv) thực nghiệm, đánh giá ứng dụng phân cụm phân lớp liệu hệ gợi ý Kết thực nghiệm với thuật toán k-Means, Naive Bayes liệu MovieLen10M, MovieLen20M cho thấy, việc ứng dụng phương pháp khai phá liệu hệ gợi ý hiệu hệ gợi ý State-of-the-art Hạn chế hướng phát triển luận văn Trong tương lai, dự kiến, với phương pháp khai phá liệu, cài đặt thực nghiệm nhiều thuật tốn Từ đó, lựa chọn thuật tốn tốt cho hệ gợi ý Ngồi ra, ứng dụng kỹ thuật học sâu (chủ đề "nóng" năm gần đây) hệ gợi ý hướng nghiên cứu thú vi Tài liêu tham khảo [1] Adomavicius, G and Tuzhilin, A (2005) Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions IEEE transactions on knowledge and data engineering, 17(6):734-749 [2] Candillier, Laurent, K J F F and Meyer, F (2009) State-of-the-art recommender systems page 22 [3] Dũng, N H and Nghe, N T Hệ thống gợi ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác [4] Ekstrand, M D (2018) The lkpy package for recommender systems experiments: Next-generation tools and lessons learned from the lenskit project arXiv preprint arXiv:1809.03125 [5] Felfernig, A., Jeran, M., Ninaus, G., Reinfrank, F., Reiterer, S., and Stettinger, M (2014) Basic approaches in recommendation systems In Recommendation Systems in Software Engineering, pages 15-37 Springer [6] Friedman, N., Geiger, D., and Goldszmidt, M (1997) Bayesian network classifiers Machine learning, 29(2-3):131-163 [7] Gunawardana, A and Shani, G (2009) A survey of accuracy evaluation metrics of recommendation tasks Journal ofMachine Learning Research, 10(12) [8] Harper, F M and Konstan, J A (2015) The movielens datasets: History and context Acm transactions on interactive intelligent systems (tiis), 5(4):1-19 [9] Huy, i T A., Lin, C L S., Hòa, N H., and Nghe, N T (2017) Một giải pháp xử lý vấn đề người dùng hệ thống gợi ý Proceeding of Publishing House for Science and Technology [10] Jain, A K and Dubes, R C (1988) Algorithms for clustering data PrenticeHall, Inc [11] Karatzoglou, A., Amatriain, X., Baltrunas, L., and Oliver, N (2010) Multiverse recommendation: n-dimensional tensor factorization for context-aware collaborative filtering In Proceedings of the fourth ACM conference on Recommender systems, pages 79-86 [12] Khusro, S., Ali, Z., and Ullah, I (2016) Recommender systems: issues, challenges, and research opportunities In Information Science and Applications (ICISA) 2016, pages 1179-1189 Springer [13] Mika, S., Scholkopf, B., Smola, A J., Muller, K.-R., Scholz, M., and Ratsch, G (1999) Kernel pca and de-noising in feature spaces In Advances in neural information processing systems, pages 536-542 [14] Nghe, N T., Tự, M N., and Hòa, N H (2017) Một tiếp cận đa quan hệ cho hệ gợi ý Proceeding of Publishing House for Science and Technology [15] Nhàn, H L T Nguyễn thái nghe 2013 Hệ thống dự đoán kết học tập gợi ý lựa chọn môn học Ký yếu hội thảo quốc gia lần thứ XVI: Một số vấn đề chọc lọc CNTT&TT (@ 2013), trang, pages 110-118 [16] O'Connor, M and Herlocker, J (1999) Clustering items for collaborative filtering In Proceedings of the ACM SIGIR workshop on recommender systems, volume 128 UC Berkeley [17] Ricci, F., Rokach, L., and Shapira, B (2015) Recommender systems: introduction and challenges In Recommender systems handbook, pages 1-34 Springer [18] Sarwar, B., Karypis, G., Konstan, J., and Riedl, J (2001) Item-based collaborative filtering recommendation algorithms In Proceedings of the 10th international conference on World Wide Web, pages 285-295 [19] Thư, L N A and Nghe, N T (2016) Phương pháp xây dựng hệ thống gợi ý sản phẩm sử dụng phản hồi tiềm ẩn Proceeding of Publishing House for Science and Technology [20] Tiệp, V H (2018) Machine learning Nhà xuất Khoa học Kỹ thuật [21] Tuấn, n M (2018) Nghiên cứu hệ gợi ý xây dựng thử nghiệm hệ gợi ý ẩm thực Luận văn thạc sĩ trường Đại học Quy Nhơn ... tự Chương ỨNG DỤNG HỌC MÁY TRONG HỆ GƠI Ý Trong chương này, chúng tơi đưa mơ hình tổng qt ứng dụng học máy hệ gợi ý, khảo sát nghiên cứu ứng dụng học máy hệ gợi ý giới thiệu cách ứng dụng thuật... bao gồm: hệ gợi ý tổng quan học máy • Chương ưng dụng học máy hệ gợi ý - Trình bày mơ hình hệ gợi ý, thuật toán k-Means, thuật toán Naive Bayes ứng dụng số phương pháp học máy hệ gợi ý • Chương... nghiệm ứng dụng học máy hệ gợi ý Chương TỔNG QUAN Trong chương này, giới thiệu tổng quan hệ gợi ý, sơ lược học máy nghiên cứu liên quan 1.1 Hê gơi ý 1.1.1 Giới thiêu Hệ gợi ý dạng hệ gợi ý lọc