Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
378,69 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Thị Nghĩa NGHIÊN CỨU MỘT SỐ ĐỘ ĐO TƯƠNG TỰ CHO TƯ VẤN LỌC CỘNG TÁC Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 TĨM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Trần Đình Quế Phản biện 1: PGS.TS Phạm Văn Cường Phản biện 2: PGS.TS Phạm Thanh Giang Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng .năm 2022 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng I MỞ ĐẦU Lý chọn đề tài Trong thời đại phát triển công nghệ thông tin việc lựa chọn thơng tin hữu ích vấn đề khó khăn với người dùng, có gia tăng lớn lượng thơng tin có sẵn Web Sự gia tăng to lớn thông tin xử lý dễ dàng dẫn đến việc tải thông tin Trong sống hàng ngày, người thường dựa vào khuyến nghị người khác để lựa chọn thơng tin thơng qua lời nói, thư tham khảo, tin tức từ phương tiện truyền thông, hay từ khảo sát chung…, hệ thống tư vấn (Recommender systems) hỗ trợ tăng cường trình xã hội tự nhiên để giúp người dùng sàng lọc thơng tin cách dự đốn cung cấp cho người dùng danh sách sách, báo, trang web, phim ảnh, âm nhạc, nhà hàng, sản phẩm,… có thơng tin thú vị có giá trị mà người dùng có khả quan tâm đến Hiện nhiều trang thương mại sử dụng hệ tư vấn thành công hệ thống Netflix, Amazon, Youtube [16] Lọc cộng tác (CF) phương pháp tiếp cận sử dụng để đưa đề xuất dựa mối tương quan tùy chọn người dùng Những lựa chọn tìm thấy cách sử dụng độ đo tương tự như: Hệ số tương quan Pearson, Tương quan Pearson hạn chế, Cosine, Jaccard, v.v Vì lý luận văn tác giả nghiên cứu số độ đo tương tự sử dụng cho tư vấn lọc cộng tác, sử dụng thuật tốn K-means để phân tích đánh giá hiệu độ đo tương tự Tổng quan vấn đề nghiên cứu Hệ thống tư vấn xây dựng dựa theo hai mơ hình phương pháp lọc dựa nội dung phương pháp lọc cộng tác Kỹ thuật lọc dựa nội dung thực dựa vào việc so sánh nội dung thông tin hay mơ tả hàng hố để tìm sản phẩm có tương đồng với nhu cầu mà người dùng quan tâm trước Khác với lọc theo nội dung, lọc cộng tác sử dụng liệu xếp hạng người dùng để đưa dự đốn đề xuất Do đó, lọc cộng tác lọc hiệu nhiều sản phẩm khác phim, ảnh, âm thanh, hàng hoá Trong tư vấn lọc cộng tác chia làm kỹ thuật lọc khác là: Kỹ thuật lọc cộng tác dựa nhớ Kỹ thuật lọc cộng tác dựa mơ hình Kỹ thuật lọc cộng tác dựa nhớ phương pháp tính tốn mức độ giống người dùng với người dùng khác sản phẩm với sản phẩm khác sử dụng liệu trước người dùng đánh giá Kỹ thuật lọc cộng tác dựa mơ hình: Việc thiết kế phát triển mơ hình (chẳng hạn học máy, thuật tốn khai thác liệu) cho phép hệ thống học cách nhận mẫu phức tạp dựa liệu đào tạo sau đưa dự đốn thơng minh cho tác vụ lọc cộng tác liệu thử nghiệm liệu giới thực dựa mơ hình học Các thuật tốn lọc cộng tác dựa mơ hình, chẳng hạn mơ hình Bayes, mơ hình phân cụm mạng phụ thuộc, … Để tính tốn mức độ giống độ đo tương tự đóng vai trị quan trọng Trong kỹ thuật lọc cộng tác sử dụng độ đo tương tự [3]: Hệ số tương quan Pearson, Chỉ số Jaccard, Tương tự cosine, Hệ số tương quan Pearson ràng buộc, Tương quan Pearson dựa chức Sigmoid, Khoảng cách Euclide Mục đích nghiên cứu Mục tiêu đặt luận văn đề tài là: Khảo sát cách tiếp cận tư vấn lọc cộng tác cách nghiên cứu số độ đo tương tự sử dụng tư vấn lọc cộng tác, dùng thuật toán K-Means thử nghiệm đánh giá độ đo tương tự sử dụng tư vấn lọc cộng tác Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu độ đo tương tự sử dụng cho tư vấn lọc cộng tác Phạm vi nghiên cứu: Sử dụng cho việc đánh giá hiệu độ đo tương tự sử dụng cho tư vấn lọc cộng tác Phương pháp nghiên cứu Nghiên cứu lý thuyết tư vấn lọc cộng tác độ đo tương tự cách đọc phân tích tài liệu, cơng trình nghiên cứu đăng tải Thử nghiệm đánh giá độ đo tương tự dựa liệu MovieLens trang web https://grouplens.org/datasets/movielens/ Chương TỔNG QUAN VỀ TƯ VẤN LỌC CỘNG TÁC 1.1 Giới thiệu chung Trong thời đại phát triển công nghệ thông tin nay, trang thương mại điện tử cung cấp lên đến hàng triệu sản phẩm bán Lựa chọn nhiều sản phẩm trở thành công việc đầy thách thức khách hàng Hệ thống khuyến nghị xuất để giải vấn đề Thuật ngữ "Collaborative filtering" lần Goldberg áp dụng cho hệ thống tư vấn Tapestry, kể từ CF trở thành kỹ thuật sử dụng rộng rãi để cung cấp khuyến nghị dịch vụ cho người dùng trực tuyến [3] Lọc cộng tác thành cơng thực tiễn tìm kiếm lại, ứng dụng thu thập thông tin ứng dụng thương mại điện tử [2] 1.2 Bài toán lọc cộng tác Trong kịch CF cổ điển có m danh sách người dùng ký hiệu U = {u1, u2,…, um} n danh sách sản phẩm mà người dùng lựa chọn ký hiệu I = {i1, i2, , in} Mỗi người dùng ui có danh sách sản phẩm mà người dùng đánh giá sản phẩm gọi Su, sản phẩm ij∈I hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Tiếp theo, ký hiệu R={ rij }, i = 1…m, j = 1…n ma trận đánh giá, người dùng ui∈U đưa đánh giá số sản phẩm ij∈I số rij Với người dùng ua∈U (được gọi người dùng hoạt động, người dùng cần tư vấn, hay người dùng mục tiêu) nhiệm vụ toán lọc cộng tác thể hình 1.1 Hình 1.1: Sơ đồ thể quy trình hệ thống tư vấn lọc cộng tác 1.3 Đặc điểm thách thức lọc cộng tác Việc vận dụng thuật toán lọc cộng tác thương mại điện tử thường gặp phải nhiều vấn đề thách thức, đặc biệt hệ thống mua sắm trực tuyến lớn eBay Amazon Thông thường, hệ thống giới thiệu cung cấp khuyến nghị nhanh chóng xác thu hút quan tâm khách hàng mang lại lợi ích cho công ty Đối với hệ thống CF, việc đưa dự đoán khuyến nghị đủ tiêu chuẩn phụ thuộc vào mức độ chúng giải thách thức, đặc điểm nhiệm vụ CF 1.3.1 Dữ liệu thưa thớt Trong thực tế, nhiều hệ thống khuyến nghị thương mại sử dụng để đánh giá sản phẩm lớn Do đó, ma trận đánh giá người dùng sử dụng để lọc cộng tác thưa thớt hiệu suất dự đoán khuyến nghị hệ thống lọc cộng tác bị thách thức 1.3.2 Khả mở rộng Số lượng người dùng sản phẩm tăng lên nhiều theo thời gian, thuật tốn CF truyền thống phải giải vấn đề nghiêm trọng khả mở rộng tài ngun tính tốn vượt q mức thực tế mức chấp nhận 1.3.3 Từ đồng nghĩa Từ đồng nghĩa đề cập đến xu hướng số nội dung giống có tên nhập khác Đa số hệ thống tư vấn phát mối liên quan tiềm ẩn này, xử lý sản phẩm cách khác biệt Ví dụ: nội dung khác "children movie" "children film" thực tế nội dung, nhiên hệ thống CF dựa nhớ khơng tìm thấy phù hợp chúng để tính tốn giống Thật vậy, mức độ thay đổi cách sử dụng thuật ngữ mô tả lớn mức thường nghi ngờ Các từ đồng nghĩa làm giảm hiệu suất khuyến nghị hệ thống CF 1.3.4 Gray sheep Black sheep Gray sheep đề cập đến người dùng có ý kiến không quán đồng ý không đồng ý với nhóm người CF khơng có hiệu trường hợp Black sheep đề cập đến nhóm đối lập có thị hiếu đặc trưng đưa khuyến nghị gần chẳng hạn thích lại dùng từ ngữ đánh khơng thích khơng thể gợi ý xác cho nhóm 1.4 Các kỹ thuật lọc cộng tác Kỹ thuật lọc cộng tác chia làm hai loại Lọc cộng tác dựa nhớ Lọc cộng tác dựa mô hình Được thể qua hình 1.2 Lọc cộng tác Lọc cộng tác dựa nhớ Lọc cộng tác dựa người dùng Lọc cộng tác dựa mô hình Lọc cộng tác dựa sản phẩm Hình 1.2: Các kỹ thuật lọc cộng tác 1.4.1 Kỹ thuật lọc cộng tác dựa nhớ Kỹ thuật lọc cộng tác dựa nhớ chia làm loại: Lọc cộng tác dựa người dùng Lọc cộng tác dựa sản phẩm 1.4.1.1 Lọc cộng tác dựa người dùng Đây phương pháp sử dụng toàn ma trận đánh giá để chọn tập người dùng tương đồng với người dùng cần tư vấn Sau đó, kết hợp đánh giá tập người dùng tương đồng để đưa dự đoán cho người dùng cần tư vấn sản phẩm chưa biết Các bước thực tư vấn lọc cộng tác dựa người dùng: Bước 1: Tiền xử lý liệu Bước 2: Tính tốn mức độ tương tự người dùng cần tư vấn với tất người dùng hệ thống Bước 3: Xác định tập người dùng láng giềng với người dùng cần tư vấn cách chọn K1 người dùng có mức độ tương tự với người dùng mục tiêu cao Bước 4: Dự đoán đánh giá người dùng cần tư vấn với sản phẩm chưa đánh giá việc kết hợp đánh giá người dùng tập láng giềng Bước 5: Tư vấn K sản phẩm có mức độ phù hợp cao cho người dùng cần tư vấn 1.4.1.2 Lọc cộng tác dựa sản phẩm Giải thuật lọc cộng tác dựa sản phẩm để tư vấn cho người dùng khác với giải thuật lọc cộng tác dựa người dùng đối tượng xét sản phẩm Các bước thực tư vấn theo phương pháp lọc cộng tác dựa sản phẩm: Bước 1: Tiền xử lý liệu Bước 2: Xây dựng Ma trận đánh giá: Hàng người dùng, Cột sản phẩm Bước 3: Tính độ tương tự cặp sản phẩm, xây dựng Ma trận tương tự sản phẩm Mức độ tương tự hai sản phẩm tính cách xem xét sản phẩm đồng xếp hạng Hình 1.3: Tách sản phẩm đánh giá tính tốn độ tương tự Bước 4: Tính dự đốn người dùng sản phẩm dựa sản phẩm lân cận với sản phẩm dự đốn trình bày cụ thể mục 1.6 1.4.2 Kỹ thuật lọc cộng tác dựa mơ hình 1.4.2.1 Mơ hình mạng Bayes Mơ hình mạng Bayes đồ thị có hướng, xoay chiều, nút n ∈ N đại diện cho biến ngẫu nhiên, cung có hướng a ∈ A nút liên kết xác suất biến, Θ bảng xác suất có điều kiện để định lượng mức độ phụ thuộc nút vào cha mẹ Mơ hình mạng Bayer thường sử dụng cho nhiệm vụ phân loại Đánh giá chưa biết người dùng u sản phẩm p tính theo cơng thức (1.1) (1.1) Trong đó: - c + d: tổng số sản phẩm tập Q thực tế thích người dùng Utest Độ đo E-measure theo công thức sau: (1.8) Tham số độ lệch cho trước P R Giá trị Độ đo theo công thức sau: (1.9) Giá trị cao chứng tỏ hệ tư vấn cho kết xác 1.6 Cơng thức dự đốn Bước quan trọng hệ thống lọc cộng tác tạo giao diện đầu mặt dự đoán Sau tính tốn mức độ tương tự sản phẩm bước xem xét xếp hạng người dùng mục tiêu sử dụng kỹ thuật để có dự đốn Hình 1.4: Mơ cơng thức dự đốn 1.6.1 Cơng thức dự đốn dựa người dùng Phép đo sử dụng phổ biến lĩnh vực phương pháp tổng có trọng số (Sarwar cộng sự, 2001) cho công thức 1.12 (1.12) Trong : Là tập người hàng xóm giống với người dùng u xếp hạng mục i v: người dùng thuộc : giá trị tương tự người dùng u v Ngồi chức dự đốn trung bình đề xuất (Aggarwal, 2016) biện pháp tổng hợp phổ biến cho công thức (1.13) (1.13) Trong : xếp hạng trung bình người dùng u : xếp hạng trung bình người dùng v 1.6.2 Cơng thức dự đốn dựa sản phẩm Cơng thức dự đốn dựa theo sản phẩm cho cơng thức (1.14) (1.14) Trong : tập người hàng xóm giống với sản phẩm i người dùng u xếp hạng j: người dùng thuộc : giá trị tương tự sản phẩm i j Công thức tổng hợp lấy giá trị trung bình cung cấp (1.15) (1.15) Trong : xếp hạng trung bình sản phẩm i : xếp hạng trung bình sản phẩm j 1.7 Kết luận Trong chương này, luận văn trình bày kỹ thuật lọc cộng tác bao gồm kỹ thuật lọc cộng tác dựa nhớ lọc công tác dựa mơ hình, tiêu chuẩn đánh giá độ đo cơng thức dự đốn kết Để dự đoán kết tư vấn lọc cộng tác phải sử dụng độ đo để tính toán khoảng cách người dùng sản phẩm Trong chương tiếp theo, luận văn tìm hiểu số độ đo tương tự dùng kỹ thuật lọc cộng tác Chương MỘT SỐ ĐỘ ĐO TƯƠNG TỰ CHO TƯ VẤN LỌC CỘNG TÁC 2.1 Giới thiệu chung Việc tìm kiếm tương đồng người dùng nhiệm vụ quan trọng độ xác chất lượng đề xuất chủ yếu dựa vào họ Có nhiều thước đo độ tương đồng để tìm điểm giống người dùng sản phẩm Việc chọn thước đo độ 10 tương đồng hoàn hảo quan trọng lọc cộng tác hệ thống tư vấn thước đo độ tương đồng khác cung cấp kết khác bối cảnh thơng tin khác Chương tìm hiểu số độ đo tương tự cho tư vấn lọc cộng tác 2.2 Một số độ đo tương tự 2.2.1 Khoảng cách Euclide (Euclide distance) Công thức khoảng cách Euclide biểu thị mối tương quan hai người dùng u v sau (20): (2.1) Trong : tập hợp sản phẩm xếp hạng người dùng u người dùng v : xếp hạng người dùng v với sản phẩm i : xếp hạng người dùng u với sản phẩm i Công thức khoảng cách Euclide biểu thị mối tương quan hai sản phẩm i j sau (21): (2.2) Trong : tập hợp người dùng xếp hạng hai sản phẩm i j : xếp hạng người dùng u với sản phẩm j : xếp hạng người dùng u với sản phẩm i Khoảng cách Euclide chuẩn hóa thành độ đo tương tự Euclidean cho người dùng sản phẩm thể công thức (2.3) (2.4) (2.3) (2.4) 2.2.2 Chỉ số Jaccard (Jaccard index) Chỉ số Jaccard hai người dùng u v tính theo cơng thức: (2.5) Trong : Số lượng sản phẩm người dùng u đánh giá : Số lượng sản phẩm người dùng v đánh giá 11 Chỉ số Jaccard hai sản phẩm i j tính theo cơng thức: (2.6) Trong : Số lượng người dùng đánh giá sản phẩm i : Số lượng người dùng đánh giá sản phẩm j 2.2.3 Tương tự Cosine (Cosine similarity) Độ tương tự cosin hai người dùng u v cosin véc-tơ u v tính theo cơng thức (2.7) (2.7) Độ tương tự cosin hai sản phẩm i j cosin véc-tơ i j tính theo cơng thức (2.8) (2.8) 2.2.4 Hệ số tương quan Pearson (Pearson Correlation Coefficient) Hệ số tương quan Pearson hai người dùng u, v tính tốn theo cơng thức (2.9) = (2.9) Trong đó: Iuv = tập hợp tất sản phẩm người dùng u v đánh giá : Đánh giá người dùng u cho sản phẩm i : Đánh giá người dùng v cho sản phẩm i : trung bình cộng đánh giá khác người dùng u trung bình cộng đánh giá khác người dùng v Hệ tương quan Pearson hai sản phẩm i j [20] tính tốn theo cơng thức (2.10) = (2.10) Trong đó: Uij = tập hợp tất người dùng đánh giá sản phẩm i j : đánh giá trung bình cho sản phẩm i đánh giá trung bình cho sản phẩm j 2.2.5 Hệ số tương quan Pearson ràng buộc (Constrained Pearson Correlation) Mối tương quan hai người dùng u v tính sau: 12 = (2.11) Trong đó: : biểu thị giá trị trung bình thang đánh giá Ví dụ: thang điểm từ đến 3, thang điểm từ đến Mối tương quan hai sản phẩm i j tính sau: = (2.12) Hạn chế kỹ thuật hiệu suất tập liệu thưa thớt 2.2.6 Tương quan Pearson dựa chức Sigmoid (Sigmoid Function-Based Pearson Correlation) Mức độ tương tự hai người dùng u v SPCC tính sau: = (2.13) Trong i' tổng số người dùng đồng xếp hạng Mức độ tương tự hai sản phẩm i j SPCC tính sau: = (2.14) Trong j' tổng số sản phẩm đồng xếp hạng 2.3 Ví dụ Cho ma trận đánh giá R = (rij) hệ tư vấn lọc cộng tác thể Bảng 2.1 Bảng 2.1: Ma trận đánh giá người dùng i1 i2 u1 u2 u3 u4 u5 u6 i3 i4 i5 2 5 u7 1 4 2.3.1 Độ tương tự cặp người dùng Khoảng cách Euclide biểu thị mối tương quan hai người dùng tính sau: Độ đo tương tự Euclide tính sau: 13 = Chỉ số Jaccard hai người dùng u1 u2 tính sau: Tương tự Cosine Độ tương tự cosin hai người dùng u1, u2 tính sau: = Hệ số tương quan Pearson hai người dùng tính sau: = = 0.84 Hệ số tương quan Pearson ràng buộc Độ tương tự hai người dùng u1 u2 tính sau: = Hệ số tương quan Pearson dựa chức Sigmoid Độ tương tự hai người dùng u1 u2 tính sau: = Bảng tổng hợp kết tính tốn độ tương tự cặp người dùng dựa cơng thức tính tốn độ tương tự sau: Bảng 2.10: Bảng tính độ tương hai người dùng u12 u13 u14 u15 u16 u17 u23 u24 u25 u26 u27 u34 u35 u36 u37 u45 u46 u47 E 0.31 0.24 0.26 0.22 0.33 0.26 0.15 0.26 0.17 0.25 0.18 0.50 0.50 1.00 0.50 0.31 1.00 1.00 J 0.60 0.40 0.60 0.50 0.20 0.40 0.75 0.40 0.50 0.20 0.75 0.20 0.25 0.25 0.50 0.67 0.25 0.20 COS 0.52 -0.39 -0.85 -0.43 0.53 -0.37 -0.82 -0.22 -0.67 -0.22 -0.65 0.00 0.16 0.40 0.79 0.50 -0.50 0.29 PCC 0.84 -1.00 -0.96 -0.89 0.71 -1.00 -0.87 -0.45 -0.95 -1.00 -0.83 0.00 1.00 1.00 0.88 0.00 -1.00 1.00 CPCC 0.71 -0.89 -1.00 -0.71 -1.00 -1.00 -0.89 -0.45 -0.95 -1.00 -0.83 0.00 1.00 1.00 0.95 0.00 1.00 1.00 SPCC 0.69 -0.53 -0.78 -0.65 0.44 -0.73 -0.67 -0.33 -0.69 -0.62 -0.68 0.00 0.62 0.62 0.65 0.00 -0.62 0.62 u56 u57 u67 E 1.00 0.50 1.00 J 0.00 0.25 0.25 14 COS 0.00 0.29 0.58 PCC 0.00 1.00 1.00 CPCC 0.00 1.00 1.00 SPCC 0.00 0.62 0.62 2.3.2 Độ tương tự cặp sản phẩm Khoảng cách Euclide biểu thị mối tương quan hai sản phẩm tính sau: Độ đo tương tự Euclide tính sau: = Chỉ số Jaccard (Jaccard index) Chỉ số Jaccard hai sản phẩm i1 i2 tính sau: Tương tự Cosine (Cosine similarity) Độ tương tự cosin hai sản phẩm i1 i2 tính sau: Hệ tương quan Pearson hai sản phẩm tính sau: = Hệ số tương quan Pearson ràng buộc: Độ tương tự hai người dùng i1 i2 tính sau: = Tương quan Pearson dựa chức Sigmoid Độ tương tự hai sản phẩm i1 i2 tính sau: = Bảng tổng hợp kết tính tốn độ tương tự cặp sản phẩm dựa cơng thức tính tốn độ tương tự sau: 15 Bảng 2.19: Bảng tổng hợp tính độ tương hai sản phẩm i12 i13 i14 i15 i23 i24 i25 i34 i35 i45 E 0.41 0.41 0.16 0.16 0.50 0.26 0.33 0.22 0.15 0.50 J 0.33 0.29 0.57 0.43 0.17 0.33 0.17 0.29 0.60 0.50 COS 0.03 0.72 -0.77 -0.66 0.12 -0.52 -0.26 -0.52 -0.82 0.57 PCC 0.32 1.00 -0.82 -0.88 1.00 -1.00 -1.00 -1.00 -0.90 0.95 CPCC 0.00 0.80 -0.80 -0.89 1.00 -1.00 -1.00 -0.95 -0.89 0.94 SPCC 0.23 0.73 -0.72 -0.72 0.62 -0.73 -0.62 -0.73 -0.74 0.77 2.4 Kết luận Trong chương này, luận văn trình bày sáu độ đo tương tự sử dụng tư vấn lọc cộng tác bao gồm cơng thức tính tốn ý nghĩa ký hiệu sử dụng cơng thức, ví dụ minh họa cách tính độ đo từ đưa dự đốn phù hợp xếp hạng cho người dùng sản phẩm Vấn đề đặt cần đánh giá độ đo tương tự sử dụng thuật toán để xem xét mức độ phù hợp độ đo tương tự Ở chương tiếp theo, luận văn thử nghiệm độ đo tương tự với thuật toán K-Means liệu MovieLens 100K để đưa kết tư vấn, so sánh đánh giá độ đo tương tự áp dụng tư vấn lọc cộng tác 16 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu chung Để đánh giá độ đo tương tự có nhiều thuật tốn phân cụm sử dụng như: BIRCH, DBSCAN, OPTICS,… Tuy nhiên luận văn tác giả sử dụng thuật toán K-Means để phân cụm đánh giá độ đo tương tự dựa liệu đánh giá người dùng MovieLens 100K website https://grouplens.org/datasets/movielens/ 3.2 Phát biểu toán Input Bộ liệu MovieLens 100k đánh giá người dùng với phim website: https://grouplens.org/datasets/movielens/ Thuật toán K-Means Ouput Dữ liệu phân cụm dựa độ đo tương tự: Tương tự Cosine, hệ số tương quan Pearson, hệ số tương quan Pearson ràng buộc, tương quan Pearson dựa chức Sigmoid, số Jaccard, khoảng cách Euclide Mục đích thử nghiệm luận văn: Sử dụng thuật toán K-Means để phân cụm liệu sử dụng độ đo tương tự khác để kiểm tra kết phân cụm đầu với độ đo tương tự khác liệu phân cụm có khác Thuật toán K-Means phát biểu sau: Bước 1: Chọn số k để định số lượng cụm Bước 2: Khởi tạo ngẫu nhiên trọng tâm cụm C={c1,c2,…, ck} Bước 3: Lặp a Đối với điểm liệu (xi) tập liệu (D) - Tính khoảng cách dis(xi,C) xi tất trọng tâm cụm - Gán xi cho cụm gần b Tính tốn lại trọng tâm cụm làm giá trị trung bình tất thành viên cụm Bước 4: Dừng thành viên cụm ổn định 3.3 Dữ liệu thử nghiệm phương pháp đánh giá 3.3.1 Mô tả liệu 17 MovieLens 100K tập liệu mô tả xếp hạng hoạt động gắn thẻ văn miễn phí từ MovieLens, dịch vụ đề xuất phim Bộ liệu chứa 100836 xếp hạng 3683 ứng dụng thẻ 9742 phim Dữ liệu chứa tệp links.csv, movies.csv, ratings.csv tags.csv 3.3.2 Môi trường công cụ Hệ điều hành Windows 11 64bit, RAM 8GB Phần mềm Visual Studio Code, Jupyter notebook Ngơn ngữ lập trình: Python 3.4 Cài đặt thuật toán Thực thuật toán K-Means Khởi tạo Centers Gán điểm cho Centers gần Cập nhật Centers Tìm cluster Hiển thị K-Means Các độ đo tương tự Khoảng cách Euclide Chỉ số Jaccard Tương tự Cosin Hệ số tương quan Pearson Hệ số tương quan Pearson ràng buộc Tương quan Pearson dựa chức Sigmoid 18 3.5 Kết thử nghiệm Khoảng cách Euclide Hình 3.1: Phân cụm sử dụng độ đo tương tự Khoảng cách Euclide Tương tự Cosin Hình 3.2: Phân cụm sử dụng độ đo tương tự Cosine Hệ số tương quan Pearson Hình 3.3: Phân cụm sử dụng độ đo tương tự Hệ số tương quan Pearson Tương quan Pearson dựa chức Sigmoid 19 Hình 3.4: Phân cụm sử dụng độ đo Tương quan Pearson dựa chức Sigmoid Hình 3.5: Đồ thị thể độ đo tương tự số cặp người dùng 3.6 Kết luận Trong chương này, luận văn sử dụng thuật toán K-Means với độ đo tương tự Hệ số tương quan Pearson, tương quan Pearson ràng buộc, tương quan Pearson dựa chức Sigmoid, khoảng cách Euclide, tương tự Cosine hệ số Jaccard để phân cụm liệu liệu MovieLens 100K đưa đánh giá so sánh cụm liệu độ đo tương tự sử dụng 20 KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống tư vấn lọc cộng tác hệ thống phát triển nhiều lĩnh vực đặc biệt thương mại điện tử Hệ thống tư vấn ngày hoàn thiện chất lượng giảm thời gian xử lý để đáp ứng nhu cầu tư vấn sản phẩm, dịch vụ cho người dùng Luận văn trình bày số độ đo tương tự sử dụng lọc cộng tác Các kết đạt luận văn sau: - Tìm hiểu tổng quan tư vấn lọc cộng tác, kỹ thuật lọc cộng tác - Tìm hiểu số độ đo tương tự sử dụng tư vấn lọc cộng tác như: Hệ số tương quan Pearson, tương quan Pearson ràng buộc, tương quan Pearson dựa chức Sigmoid, khoảng cách Euclide, tương tự Cosine hệ số Jaccard Đưa ví dụ để sử dụng cơng thức tính tốn độ đo đánh giá so sánh độ đo - Sử dụng thuật toán K-Means để phân cụm liệu đánh giá độ đo dựa vào liệu MovieLens 100K - So sánh đánh giá độ đo tương tự Tuy nhiên, luận văn nhiều điểm hạn chế, luận văn dừng lại mức độ nghiên cứu, tìm hiểu Số lượng độ đo nghiên cứu chưa đầy đủ Những hạn chế đưa số hướng mở cho đề tài tiếp tục phát triển sau: - Nghiên cứu số độ đo tương tự khác sử dụng lọc cộng tác - Sử dụng số thuật toán khác để đánh giá độ đo tương tự 21 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Aberger, Christopher R and caberger, (2014), "Recommender: An Analysis of Collaborative Filtering Techniques" [2] Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl, (2001), "Item-Based Collaborative Filtering Recommendation Algorithms", Proceedings of the 10th international conference on World Wide Web, 285–295 [3] FethiFkih, (2021), "Similarity measures for Collaborative Filtering-based Recommender Systems: Review and experimental comparison", Computer and Information Sciences, Volume 33, Issue 8, October 2021 [4] Hael Al-bashiri, Mansoor Abdullateef Abdulgabber, Awanis Romli, Hasan Kahtan, (2018), "An improved memory-based collaborative filtering method based on the TOPSIS technique" [5] Haifeng Liu, Zheng Hu, Ahmad Mian, Hui Tian, Xuzhen Zhu, (2014), "A new user similarity model to improve the accuracy of collaborative filtering", Knowledge-Based Systems, Volume 56, 156-166 [6] Hyung, J and Ahn, (2008), "A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem", Elsevier, Information Sciences, 178: 37– 51 [7] Jonathan L Herlocker, Joseph A Konstan, Loren G Terveen, and John T Riedl, (2004), "Evaluating collaborative filtering recommender systems", ACM Trans Inf Syst 22, (January 2004), 5–53 [8] Jain G., Mahara T., Tripathi K.N, (2020), "A Survey of Similarity Measures for Collaborative Filtering-Based Recommender System", In: Pant M., Sharma T, Verma O., Singla R., Sikander A (eds) Soft Computing: Theories and Applications Advances in Intelligent Systems and Computing, vol 1053 Springer, Singapore https://doi.org/10.1007/978-981-15-0751-9_32 [9] Kai Yu, A Schwaighofer, V Tresp, Xiaowei Xu and H - Kriegel, (2004), "Probabilistic memory-based collaborative filtering," in IEEE Transactions on Knowledge and Data Engineering, vol 16, no 1, pp 56-69 [10] K G Saranya*, G Sudha Sadasivam and M Chandralekha, (2016), " Performance Comparison of Different Similarity Measures for Collaborative Filtering Technique", 22 Indian Journal of Science and Technology, Volume: 9, Issue: 29, 1-8 [11] L.A Hassanieh, C A Jaoudeh, J B Abdo and J Demerjian, (2018), "Similarity measures for collaborative filtering recommender systems," 2018 IEEE Middle East and North Africa Communications Conference (MENACOMM), pp 1-5, doi: 10.1109/MENACOMM.2018.8371003 [12] N Mustafa, A O Ibrahim, A Ahmed and A Abdullah, (2017), "Collaborative filtering: Techniques and applications", 2017 International Conference on Communication, Control, Computing and Electronics Engineering (ICCCCEE), pp 1-6, doi: 10.1109/ICCCCEE.2017.7867668 [13] Sivaramakrishnan N, Subramaniyaswamy V, Arunkumar S, Renugadevi A, Ashikamai Kk, (2018), "Neighborhood-based approach of collaborative filtering techniques for book recommendation system", International Journal of Pure and Applied Mathematics, Volume 119(No 12), 13241-13250 [14] Songjie Gong, (2010), "A Collaborative Filtering Recommendation Algorithm Based on User Clustering and Item Clustering", Journal of Software 5(7), 745-752 [15] Sondur, S.D., Nayak, S., & Chigadani, A.P, (2016), "Similarity Measures for Recommender Systems: A Comparative Study", International Journal for Scientific Research and Development, 2, 76-80 [16] Xiaoyuan Su and Taghi M Khoshgoftaar, (2009), "A Survey of Collaborative Filtering Techniques", Advances in artificial intelligence, Volume 2009 [17] Z Tan and L He, (2017) "An Efficient Similarity Measure for User-Based Collaborative Filtering Recommender Systems Inspired by the Physical Resonance Principle," in IEEE Access, doi:10.1109/ACCESS.2017.2778424 vol 5, pp 27211-27228, ... giá độ đo tư? ?ng tự sử dụng tư vấn lọc cộng tác Đối tư? ??ng phạm vi nghiên cứu Đối tư? ??ng nghiên cứu: Đề tài tập trung nghiên cứu độ đo tư? ?ng tự sử dụng cho tư vấn lọc cộng tác Phạm vi nghiên cứu: ... dụng cho việc đánh giá hiệu độ đo tư? ?ng tự sử dụng cho tư vấn lọc cộng tác Phương pháp nghiên cứu Nghiên cứu lý thuyết tư vấn lọc cộng tác độ đo tư? ?ng tự cách đọc phân tích tài liệu, cơng trình nghiên. .. hiểu tổng quan tư vấn lọc cộng tác, kỹ thuật lọc cộng tác - Tìm hiểu số độ đo tư? ?ng tự sử dụng tư vấn lọc cộng tác như: Hệ số tư? ?ng quan Pearson, tư? ?ng quan Pearson ràng buộc, tư? ?ng quan Pearson