Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
2,17 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an n va tn to p ie gh Trần Thị Nghĩa w oa nl NGHIÊN CỨU MỘT SỐ ĐỘ ĐO TƯƠNG TỰ CHO TƯ VẤN d LỌC CỘNG TÁC u nf va an lu ll LUẬN VĂN THẠC SỸ KỸ THUẬT m oi (Theo định hướng ứng dụng) z at nh z m co l gm @ an Lu HÀ NỘI – 2022 n va ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an va n Trần Thị Nghĩa p ie gh tn to NGHIÊN CỨU MỘT SỐ ĐỘ ĐO TƯƠNG TỰ CHO TƯ VẤN LỌC CỘNG TÁC d oa nl w va an lu Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 u nf LUẬN VĂN THẠC SỸ KỸ THUẬT ll (Theo định hướng ứng dụng) oi m z at nh NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ z m co l gm @ an Lu HÀ NỘI – 2022 n va ac th si i LỜI CAM ĐOAN Tôi cam đoan luận văn đề tài "Nghiên cứu số độ đo tương tự cho tư vấn lọc cộng tác" cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn lu an n va Trần Thị Nghĩa p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Trong suốt trình thực đề tài luận văn "Nghiên cứu số độ đo tương tự cho tư vấn lọc cộng tác" nhận nhiều giúp đỡ, động viên tạo điều kiện từ thầy cơ, gia đình bạn bè Tơi xin bày tỏ lịng cảm ơn chân thành giúp đỡ động viên Trước tiên, xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Trần Đình Quế người định hướng cho tơi việc lựa chọn đề tài, đưa nhận xét quý lu giá trực tiếp hướng dẫn suốt q trình nghiên cứu hồn thiện luận văn an va Tiếp theo, xin gửi lời cảm ơn chân thành tới tất quý thầy cô giáo n Học viện Cơng nghệ Bưu Viễn thơng giảng dạy hướng dẫn cho Cuối cùng, tơi xin bày tỏ lịng biết ơn chân thành gia đình bạn bè - p ie gh tn to suốt trình học tập trường người bên cạnh động viên, ủng hộ, cổ vũ tạo điều kiện cho hồn d oa nl w thành khóa luận ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii I MỞ ĐẦU 1 Lý chọn đề tài lu Tổng quan vấn đề nghiên cứu an va Mục đích nghiên cứu n Đối tượng phạm vi nghiên cứu tn to Phương pháp nghiên cứu Chương TỔNG QUAN VỀ TƯ VẤN LỌC CỘNG TÁC ie gh p 1.1 Giới thiệu chung w 1.2 Bài toán lọc cộng tác oa nl 1.3 Đặc điểm thách thức lọc cộng tác d 1.3.1 Dữ liệu thưa thớt an lu 1.3.2 Khả mở rộng va 1.3.3 Từ đồng nghĩa u nf 1.3.4 Gray sheep Black sheep ll 1.4 Các kỹ thuật lọc cộng tác m oi 1.4.1 Kỹ thuật lọc cộng tác dựa nhớ 10 z at nh 1.4.1.1 Lọc cộng tác dựa người dùng 10 1.4.1.2 Lọc cộng tác dựa sản phẩm 11 z @ 1.4.2 Kỹ thuật lọc cộng tác dựa mơ hình 13 gm 1.4.2.1 Mơ hình mạng Bayes 13 m co l 1.4.2.2 Mơ hình phân cụm 14 1.5 Các tiêu chuẩn đánh giá độ đo 15 an Lu 1.5.1 Tiêu chuẩn đánh giá độ xác đánh giá dự đoán 16 1.5.2 Tiêu chuẩn đánh giá độ xác danh sách sản phẩm tư vấn 17 n va ac th si iv 1.6 Cơng thức dự đốn 20 1.6.1 Cơng thức dự đốn dựa người dùng 20 1.6.2 Công thức dự đoán dựa sản phẩm 21 1.7 Kết luận 22 Chương MỘT SỐ ĐỘ ĐO TƯƠNG TỰ CHO TƯ VẤN LỌC CỘNG TÁC 23 2.1 Giới thiệu chung 23 2.2 Một số độ đo tương tự 23 2.2.1 Khoảng cách Euclide (Euclide distance) 23 2.2.2 Chỉ số Jaccard (Jaccard index) 25 2.2.3 Tương tự Cosine (Cosine similarity) 25 lu an 2.2.4 Hệ số tương quan Pearson (Pearson Correlation Coefficient) 26 n va 2.2.5 Hệ số tương quan Pearson ràng buộc (Constrained Pearson Correlation) 27 tn to 2.2.6 Tương quan Pearson dựa chức Sigmoid (Sigmoid Function-Based Pearson Correlation) 28 gh ie 2.3 Ví dụ 28 p 2.3.1 Độ tương tự cặp người dùng 29 nl w 2.3.2 Độ tương tự cặp sản phẩm 38 oa 2.4 Kết luận 44 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ d 45 lu an 3.1 Giới thiệu chung 45 u nf va 3.2 Phát biểu toán 45 3.3 Dữ liệu thử nghiệm phương pháp đánh giá 46 ll oi m 3.3.1 Mô tả liệu 46 z at nh 3.3.2 Môi trường công cụ 48 3.4 Cài đặt thuật toán 48 z 3.5 Kết thử nghiệm 52 gm @ 3.6 Kết luận 56 KẾT LUẬN VÀ KIẾN NGHỊ 57 l m co DANH MỤC CÁC TÀI LIỆU THAM KHẢO 58 an Lu n va ac th si v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CF Collaborative filtering Lọc cộng tác SVD Singular Value Decomposition Phương pháp phân tích suy biến LIS Latent Semantic Indexing Lập mục ngữ nghĩa tiềm ẩn DBSCAN Density-Based Spatial Clustering Phân cụm không gian dựa mật độ ứng dụng với nhiễu of Applications with Noise Ordering points to identify the Thuật toán phân cụm dựa vào thứ OPTICS tự điểm lu clustering structure an Balanced iterative reducing and Thuật toán giảm lặp phân cụm BRICH va cân bằng cách sử dụng phân n clustering using hierarchies to gh tn cấp MAE ie p RMSE Sai số tuyệt đối trung bình Root Mean Square Error Sai số trung bình bình phương Mean Average Precision Độ xác trung bình tuyệt đối nl Tương tự Cosine Cosine similarity oa COS w MAP Mean-Absolute Error d Chỉ số Jaccard Jaccard index E Euclide distance PCC Pearson Correlation Coefficient Hệ số tương quan Pearson CPCC Constrained Pearson Correlation Hệ số tương quan Pearson ràng lu J ll u nf va an Khoảng cách Euclide m oi buộc z at nh SPCC Sigmoid Function-Based Pearson Tương quan Pearson dựa Correlation chức Sigmoid z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC BẢNG Bảng 1.1: Ví dụ ma trận đánh giá lọc cộng tác lu an n va 12 Bảng 1.3: Ma trận nhầm lẫn 17 Bảng 2.1: Ma trận đánh giá người dùng 29 Bảng 2.2: Bảng tính độ tương tự hai người dùng theo công thức công thức E 30 Bảng 2.3: Bảng tính độ tương tự hai người dùng theo công thức J 30 Bảng 2.4: Giá trị trung bình cộng đánh giá người dùng 31 Bảng 2.5: Ma trận chuẩn hóa liệu 31 Bảng 2.6: Bảng tính độ tương tự hai người dùng theo cơng thức COS 32 Bảng 2.7: Bảng tính độ tương tự hai người dùng theo công thức PCC 32 Bảng 2.8: Bảng tính độ tương tự hai người dùng theo công thức CPCC 33 Bảng 2.9: Bảng tính độ tương tự hai người dùng theo cơng thức SPCC 34 Bảng 2.10: Bảng tổng hợp tính độ tương tự hai người dùng 34 ie gh tn to Bảng 1.2: Ma trận đánh giá 39 Bảng 2.12: Bảng tính độ tương tự hai sản phẩm theo cơng thức J 39 p Bảng 2.11: Bảng tính độ tương tự hai sản phẩm theo công thức E w Bảng 2.13: Giá trị trung bình cộng đánh giá sản phẩm oa nl 40 40 Bảng 2.15: Bảng tính độ tương tự hai sản phẩm theo công thức COS 41 d Bảng 2.14: Ma trận chuẩn hóa liệu an lu 41 Bảng 2.17: Bảng tính độ tương tự hai sản phẩm theo cơng thức CPCC 42 Bảng 2.18: Bảng tính độ tương tự hai sản phẩm theo công thức SPCC 42 Bảng 2.19: Bảng tổng hợp tính độ tương tự hai sản phẩm 43 ll u nf va Bảng 2.16: Bảng tính độ tương tự hai sản phẩm theo cơng thức PCC oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC CÁC HÌNH Hình 1.1: Sơ đồ thể quy trình hệ thống tư vấn lọc cộng tác lu an Hình 1.2: Các kỹ thuật lọc cộng tác 10 Hình 1.3: Tách sản phẩm đánh giá tính tốn độ tương tự 12 Hình 1.4: Mơ cơng thức dự đốn 20 Hình 3.1: Phân cụm sử dụng độ đo tương tự Khoảng cách Euclide 52 Hình 3.2: Phân cụm sử dụng độ đo tương tự Cosine 53 Hình 3.3: Phân cụm sử dụng độ đo tương tự Hệ số tương quan Pearson 53 Hình 3.4: Phân cụm sử dụng độ đo Tương quan Pearson dựa chức Sigmoid 54 Hình 3.5: Đồ thị thể độ đo tương tự số cặp người dùng 55 n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si I MỞ ĐẦU Lý chọn đề tài Trong thời đại phát triển công nghệ thông tin việc lựa chọn thông tin hữu ích vấn đề khó khăn với người dùng có gia tăng lớn lượng thơng tin có sẵn Web Sự gia tăng to lớn thông tin xử lý dễ dàng dẫn đến việc tải thông tin Trong sống hàng ngày, người thường dựa vào khuyến nghị người khác để lựa chọn lu thơng tin thơng qua lời nói, thư tham khảo, tin tức từ phương tiện truyền an thông, hay từ khảo sát chung…, hệ thống tư vấn (Recommender systems) hỗ va n trợ tăng cường trình xã hội tự nhiên để giúp người dùng sàng lọc thơng tn to tin cách dự đốn cung cấp cho người dùng danh sách sách, gh báo, trang web, phim ảnh, âm nhạc, nhà hàng, sản phẩm,…có thơng tin thú vị p ie có giá trị mà người dùng có khả quan tâm đến Hiện nhiều trang thương w mại sử dụng hệ tư vấn thành công hệ thống Netflix, Amazon, oa nl Youtube [16] d Lọc cộng tác (CF) phương pháp tiếp cận sử dụng để đưa lu an đề xuất dựa mối tương quan tùy chọn người dùng Những lựa chọn u nf va tìm thấy cách sử dụng độ đo tương tự như: Hệ số tương quan Pearson, Tương quan Pearson hạn chế, Cosine, Jaccard, v.v Vì lý luận ll oi m văn tác giả nghiên cứu số độ đo tương tự sử dụng cho tư vấn lọc cộng tác, z at nh sử dụng thuật toán K-means để phân tích đánh giá hiệu độ đo tương tự Có nhiều độ đo tương tự sử dụng kỹ thuật lọc cộng tác [3]: z Tương tự Cosine (Cosine similarity), tương tự Cosine điều chỉnh (Adjusted Cosine @ gm Vector), hệ số tương quan Pearson (Pearson Correlation Coefficient), thông tin tương m co l hỗ điều chỉnh (Adjusted Mutual Information), số Rand điều chỉnh (Adjusted Rank index), hệ số tương quan thứ tự bậc Spearman (Spearman rank-order correlation an Lu coefficient), tương tự Heuristic (Heuristic similarity), số Jaccard (Jaccard index), khoảng cách Euclide (Euclide distance), khoảng cách Manhattan (Manhattan distance), n va ac th si 46 khai phá liệu nói riêng Ưu điểm thuật toán dễ dàng cài đặt cho kết dễ hiểu, linh hoạt việc sử dụng phương pháp đo khoảng cách Thuật toán K-Means phát biểu sau: Bước 1: Chọn số k để định số lượng cụm Bước 2: Khởi tạo ngẫu nhiên trọng tâm cụm C={c1,c2,…, ck} Bước 3: Lặp a Đối với điểm liệu (xi) tập liệu (D) - Tính khoảng cách dis(xi,C) xi tất lu an trọng tâm cụm n va - Gán xi cho cụm gần tn to b Tính tốn lại trọng tâm cụm làm giá trị trung bình tất thành viên cụm p ie gh Bước 4: Dừng thành viên cụm ổn định w oa nl 3.3 Dữ liệu thử nghiệm phương pháp đánh giá d 3.3.1 Mô tả liệu lu va an MovieLens 100K tập liệu mô tả xếp hạng hoạt động gắn thẻ u nf văn miễn phí từ MovieLens, dịch vụ đề xuất phim Bộ liệu chứa 100836 ll xếp hạng 3683 ứng dụng thẻ 9742 phim Những liệu tạo 610 m oi người dùng khoảng thời gian từ ngày 29 tháng năm 1996 đến ngày 24 tháng z at nh năm 2018 Tập liệu tạo vào ngày 26 tháng năm 2018 Người dùng chọn ngẫu nhiên để đưa vào Tất người dùng z @ chọn đánh giá 20 phim Khơng có thông tin nhân học bao gồm gm Mỗi người dùng đại diện id thơng tin khác cung m co l cấp Dữ liệu chứa tệp links.csv, movies.csv, ratings.csv tags.csv ratings.csv: Tất xếp hạng có tệp ratings.csv Mỗi dịng định dạng sau: userId, movieId, rating, timestamp an Lu tệp sau hàng tiêu đề đại diện cho xếp hạng phim người dùng có n va ac th si 47 Các dòng tệp xếp theo userId, sau bên user xếp theo movieId Xếp hạng thực thang điểm sao, với số gia tăng nửa (0,5 - 5,0 sao) tags.csv: Tất thẻ chứa tệp tags.csv Mỗi dòng tệp sau hàng tiêu đề đại diện cho thẻ người dùng áp dụng cho phim có định dạng sau: userId, movieId, tag, timestamp Các dịng tệp xếp theo userId, sau bên user xếp theo movieId Thẻ siêu liệu người dùng tạo phim Mỗi thẻ thường từ đơn lu cụm từ ngắn Ý nghĩa, giá trị mục đích thẻ cụ thể xác định an người dùng va n movies.csv: Thông tin phim chứa tệp movies.csv Mỗi dòng tệp tn to sau hàng tiêu đề đại diện cho phim có định dạng sau: movieId, title, ie gh genres Tên phim nhập theo cách thủ công nhập từ trang web p https://www.themoviedb.org/ bao gồm năm phát hành ngoặc đơn nl w Các thể loại danh sách phân tách dấu sổ đứng chọn d oa từ danh sách sau: Hoạt động, Cuộc phiêu lưu, Hoạt hình, Trẻ em, Phim hài, Tội an lu ác, Phim tài liệu, Kịch, Tưởng tượng, Kinh dị, Âm nhạc, Huyền bí, Lãng mạn,… u nf va links.csv: Các số nhận dạng sử dụng để liên kết đến nguồn liệu phim khác chứa tệp links.csv Mỗi dòng tệp sau hàng tiêu đề ll oi m đại diện cho phim có định dạng sau: movieId, imdbId, tmdbId movieId mã định danh cho phim https://movielens.org sử dụng z at nh - Vd: phim Toy Story có link https://movielens.org/movies/1 z imdbId mã định danh cho phim sử dụng http://www.imdb.com gm @ - Vd: phim Toy Story có link http://www.imdb.com/title/tt0114709/ mã định danh https://www.themoviedb.org cho Vd: phim phim Toy sử dụng Story có link an Lu https://www.themoviedb.org/movie/862 m co tmdbId l - n va ac th si 48 Trong tệp movies.csv chọn hai thể loại phim phim lãng mạn phim khoa học viễn tưởng để kiểm tra Trước tiên tính tốn xếp hạng trung bình người dùng tất phim lãng mạn tất phim khoa học viễn tưởng Sau loại bỏ người thích khoa học viễn tưởng lãng mạn để cụm có xu hướng xác định họ thích thể loại thể loại khác 3.3.2 Môi trường công cụ Hệ điều hành Windows 11 64bit, RAM 8GB Phần mềm Visual Studio Code, Jupyter notebook lu an Ngôn ngữ lập trình: Python va n 3.4 Cài đặt thuật toán gh tn to Cài đặt thuật toán K-Means p ie Chọn số lượng cụm w Cách thứ thử với giá trị k=1,2,3,4,5,… để xem kết phân cụm thay oa nl đổi Một số nghiên cứu cho thấy việc thay đổi k có hiệu d dừng lại số Như hồn tồn thử xem liệu tốt với giá an lu trị k u nf va Cách thứ sử dụng phương pháp khửu tay (Elbow Method) cách chạy thuật ll toán K-means nhiều lần, tăng số lượng cụm lên lần lặp lại Ghi lại tổn thất cho oi m lần lặp sau lập biểu đồ đường cụm so với tổn thất z at nh Từ tính tốn theo phương pháp khửu tay dựa vào liệu MovieLens100K ta xác định k = xi người dùng z m co l gm @ an Lu n va ac th si 49 Khởi tạo Centers Gán điểm cho Centers gần lu an n va p ie gh tn to nl w d oa Cập nhật Centers ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 50 Hàm mát lu an n va Tìm clusters p ie gh tn to d oa nl w ll u nf va an lu Hiển thị K-Means oi m z at nh z m co l gm @ an Lu n va ac th si 51 Cài đặt độ đo tương tự Khoảng cách Euclide Chỉ số Jaccard lu an n va p ie gh tn to oa nl w d Tương tự Cosine ll u nf va an lu oi m Hệ số tương quan Pearson z at nh z m co l gm @ Hệ số tương quan Pearson ràng buộc an Lu n va ac th si 52 Tương quan Pearson dựa chức Sigmoid 3.5 Kết thử nghiệm Ta có kết thử nghiệm sử dụng thuật toán K-Means với k=2 dùng độ đo tương tự khác để phân cụm liệu thể sau: lu Khoảng cách Euclide an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z @ m co l gm Hình 3.1: Phân cụm sử dụng độ đo tương tự Khoảng cách Euclide an Lu n va ac th si 53 Tương tự Cosine lu an n va ie gh tn to p Hình 3.2: Phân cụm sử dụng độ đo tương tự Cosine d oa nl w Hệ số tương quan Pearson ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.3: Phân cụm sử dụng độ đo tương tự Hệ số tương quan Pearson n va ac th si 54 Tương quan Pearson dựa chức Sigmoid lu an n va p ie gh tn to w Hình 3.4: Phân cụm sử dụng độ đo Tương quan Pearson dựa chức Sigmoid oa nl Đánh giá cụm sử dụng độ đo khác d Các cụm liệu sử dụng độ đo thể hình: Khoảng cách lu va an Euclide (Hình 3.1), Tương tự Cosine (Hình 3.2), Hệ số tương quan Pearson (Hình u nf 3.3), Tương quan Pearson dựa chức Sigmoid (Hình 3.4) Quan sát cụm ll kết đưa dựa vào thuật toán K-Means sử dụng độ đo tương tự ta oi m thấy: z at nh Các cụm liệu sử dụng độ đo Tương tự Cosine, Hệ số tương quan Pearson, Tương quan Pearson dựa chức Sigmoid cho kết tương tự nhau, z gm @ kết tính khoảng cách cặp người dùng với độ đo có mức độ chênh lệch thấp khơng đủ để thay đổi vị trí vào cụm khác l m co Cụm liệu sử dụng Khoảng cách Euclide phân bố khác so với cụm sử dụng độ đo tương tự khác nhiên có điểm chung an Lu n va ac th si 55 Đánh giá các độ đo tương tự Lấy ngẫu nhiên năm cặp người dùng đưa khoảng cách cặp người dùng sử dụng độ đo tương tự: Tương tự Cosine, hệ số tương quan Pearson, hệ số tương quan Pearson ràng buộc, tương quan Pearson dựa chức Sigmoid, số Jaccard, khoảng cách Euclide nhận kết thể đồ thị (Hình 3.5) lu an n va p ie gh tn to d oa nl w va an lu u nf Hình 3.5: Đồ thị thể độ đo tương tự số cặp người dùng ll Quan sát đồ thị (hình 3.5) ta thấy mức độ tương tự cặp người dùng m oi sử dụng độ đo tương tự khác cho kết khác Phần lớn độ đo z at nh tương tự cho kết giống việc tìm kiếm người dùng z Trong trường hợp thứ nhất: Mức độ tương tự hai người dùng với độ @ m co l tương tự gm đo PCC, CPCC, COS J tương tự nhau; lại kết với độ đo SPCC E Trong trường hợp thứ 2: Mức độ tương tự hai người dùng tương tự an Lu với độ đo: PCC E, SPCC COS; CPCC J n va ac th si 56 Trong trường hợp thứ 3: Mức độ tương tự hai người dùng tương tự với độ đo: PCC J, CPCC - SPCC COS; E cho kết khác hoàn toàn so với độ đo khác Trong trường hợp thứ thứ 5: Các độ đo: PCC, CPCC, SPCC, COS J cho kết tương tự nhau, E cho kết khác hoàn toàn so với độ đo khác Như khó để đánh giá việc sử dụng độ đo tốt nhất, có số ràng buộc việc lựa chọn độ đo: Chẳng hạn độ đo Hệ số tương quan Pearson, tương quan Pearson ràng buộc, tương quan Pearson dựa lu chức Sigmoid, khoảng cách Euclide tương tự Cosine xem xét sản an phẩm chung đánh giá để đo mức độ tương tự, hệ số Jaccard không va n xem xét sản phẩm chung đánh giá hai người dùng mà xem tn to xét tổng sản phẩm đánh giá hai người dùng Ngồi việc sử dụng gh độ đo phụ thuộc vào mức độ thưa thớt liệu, trường hợp p ie mức độ thưa khác độ đo thể ưu điểm nhược điểm khác nl w 3.6 Kết luận d oa Trong chương này, luận văn sử dụng thuật toán K-Means với độ đo an lu tương tự Hệ số tương quan Pearson, tương quan Pearson ràng buộc, tương quan va Pearson dựa chức Sigmoid, khoảng cách Euclide, tương tự Cosine hệ số u nf Jaccard để phân cụm liệu liệu MovieLens 100K đưa đánh giá ll so sánh cụm liệu độ đo tương tự sử dụng oi m z at nh z m co l gm @ an Lu n va ac th si 57 KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống tư vấn lọc cộng tác hệ thống phát triển nhiều lĩnh vực đặc biệt thương mại điện tử Hệ thống tư vấn ngày hoàn thiện chất lượng giảm thời gian xử lý để đáp ứng nhu cầu tư vấn sản phẩm, dịch vụ cho người dùng Luận văn trình bày số độ đo tương tự sử dụng lọc cộng tác Các kết đạt luận văn sau: lu an - Tìm hiểu tổng quan tư vấn lọc cộng tác, kỹ thuật lọc cộng tác - Tìm hiểu số độ đo tương tự sử dụng tư vấn lọc cộng tác như: Hệ n va số tương quan Pearson, tương quan Pearson ràng buộc, tương quan Pearson tn to dựa chức Sigmoid, khoảng cách Euclide, tương tự Cosine hệ gh số Jaccard Đưa ví dụ để sử dụng cơng thức tính tốn độ đo đánh p ie giá so sánh độ đo - Sử dụng thuật toán K-Means để phân cụm liệu đánh giá độ đo dựa w oa nl vào liệu MovieLens 100K So sánh đánh giá độ đo tương tự d an lu - va Tuy nhiên, luận văn nhiều điểm hạn chế, luận văn dừng lại mức u nf độ nghiên cứu, tìm hiểu Số lượng độ đo nghiên cứu chưa đầy đủ Những hạn chế ll đưa số hướng mở cho đề tài tiếp tục phát triển sau: oi m Nghiên cứu số độ đo tương tự khác sử dụng lọc cộng tác - Sử dụng số thuật toán khác để đánh giá độ đo tương tự z at nh - z m co l gm @ an Lu n va ac th si 58 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Aberger, Christopher R and caberger, (2014), "Recommender: An Analysis of Collaborative Filtering Techniques" [2] Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl, (2001), "ItemBased Collaborative Filtering Recommendation Algorithms", Proceedings of the 10th international conference on World Wide Web, 285–295 [3] FethiFkih, (2021), "Similarity measures for Collaborative Filtering-based Recommender Systems: Review and experimental comparison", Computer and lu an Information Sciences, Volume 33, Issue 8, October 2021 n va [4] Hael Al-bashiri, Mansoor Abdullateef Abdulgabber, Awanis Romli, Hasan based on the TOPSIS technique" ie gh tn to Kahtan, (2018), "An improved memory-based collaborative filtering method p [5] Haifeng Liu, Zheng Hu, Ahmad Mian, Hui Tian, Xuzhen Zhu, (2014), "A new user similarity model to improve the accuracy of collaborative filtering", w d oa nl Knowledge-Based Systems, Volume 56, 156-166 an lu [6] Hyung, J and Ahn, (2008), "A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem", Elsevier, Information Sciences, ll u nf va 178: 37–51 oi m [7] Jonathan L Herlocker, Joseph A Konstan, Loren G Terveen, and John T Riedl, (2004), "Evaluating collaborative filtering recommender systems", ACM Trans z at nh Inf Syst 22, (January 2004), 5–53 z [8] Jain G., Mahara T., Tripathi K.N, (2020), "A Survey of Similarity Measures for @ gm Collaborative Filtering-Based Recommender System", In: Pant M., Sharma T, l Verma O., Singla R., Sikander A (eds) Soft Computing: Theories and m co Applications Advances in Intelligent Systems and Computing, vol 1053 an Lu Springer, Singapore https://doi.org/10.1007/978-981-15-0751-9_32 n va ac th si 59 [9] Kai Yu, A Schwaighofer, V Tresp, Xiaowei Xu and H - Kriegel, (2004), "Probabilistic memory-based collaborative filtering," in IEEE Transactions on Knowledge and Data Engineering, vol 16, no 1, pp 56-69 [10] K G Saranya*, G Sudha Sadasivam and M Chandralekha, (2016), " Performance Comparison of Different Similarity Measures for Collaborative Filtering Technique", Indian Journal of Science and Technology, Volume: 9, Issue: 29, 1-8 [11] L.A Hassanieh, C A Jaoudeh, J B Abdo and J Demerjian, (2018), "Similarity lu measures for collaborative filtering recommender systems," 2018 IEEE Middle an East and North Africa Communications Conference (MENACOMM), pp 1-5, va n doi: 10.1109/MENACOMM.2018.8371003 filtering: Techniques and applications", 2017 International Conference on ie gh tn to [12] N Mustafa, A O Ibrahim, A Ahmed and A Abdullah, (2017), "Collaborative p Communication, Control, Computing and Electronics Engineering (ICCCCEE), nl w pp 1-6, doi: 10.1109/ICCCCEE.2017.7867668 d oa [13] Sivaramakrishnan N, Subramaniyaswamy V, Arunkumar S, Renugadevi A, an lu Ashikamai Kk, (2018), "Neighborhood-based approach of collaborative va filtering techniques for book recommendation system", International Journal of ll u nf Pure and Applied Mathematics, Volume 119(No 12), 13241-13250 oi m [14] Songjie Gong, (2010), "A Collaborative Filtering Recommendation Algorithm 752 z at nh Based on User Clustering and Item Clustering", Journal of Software 5(7), 745- z @ [15] Sondur, S.D., Nayak, S., & Chigadani, A.P, (2016), "Similarity Measures for Scientific Research and Development, 2, 76-80 m co l gm Recommender Systems: A Comparative Study", International Journal for [16] Xiaoyuan Su and Taghi M Khoshgoftaar, (2009), "A Survey of Collaborative an Lu Filtering Techniques", Advances in artificial intelligence, Volume 2009 n va ac th si 60 [17] Z Tan and L He, (2017) "An Efficient Similarity Measure for User-Based Collaborative Filtering Recommender Systems Inspired by the Physical Resonance Principle," in IEEE Access, vol 5, pp 27211-27228, doi:10.1109/ACCESS.2017.2778424 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si