Lọc cộng tác với độ đo tương tự dựa trên đồ thị

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	11
Dung lượng	204,89 KB

Nội dung

Bài viết đã trình bày một phương pháp tiếp cận cho lọc cộng tác bằng mô hình đồ thị. Trong đó, phương pháp biểu diễn đồ thị phù hợp với tất cả các bộ dữ liệu hệ thống lọc công tác hiện nay. Dựa vào biểu diễn này, các phương pháp lọc cộng tác đều được triển khai dễ dàng trên đồ thị.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 10 (30), tháng 12/2013 Lọc cộng tác với độ đo tương tự dựa đồ thị Collaborative Filtering with a Graph-based Similarity Measure Nguyễn Duy Phương Từ Minh Phương Abstract: Collaborative filtering is a technique widely used in recommender systems Based on the behaviors of users with similar taste, the technique can predict and recommend products the current user is likely interested in, thus alleviates the information overload problem for Internet users The most popular collaborative filtering approach is based on the similarity between users, or between products The quality of similarity measure, therefore, has a large impact on the recommendation accuracy In this paper, we propose a new similarity measure based on graph models The similarity between two users (or symmetrically, two products) is computed from connections on a graph with vertices beeing users and products The computed similarity measure is then used with k – nearest neighbor algorithm to generate predictions Empirical results on real movie datasets show that the proposed method significantly outperforms both collaborative filtering with traditional similarity measures and pure graph-based collaborative filtering I MỞ ĐẦU Khó khăn lớn với người sử dụng Internet dịch vụ thương mại điện tử ln có q nhiều phương án để lựa chọn Để tiếp cận thơng tin hữu ích, người dùng thường phải xử lý, loại bỏ phần lớn thông tin không cần thiết Hệ tư vấn lựa chọn (recommender systems) cho phép phần giải vấn đề cách dự đoán cung cấp cho người dùng danh sách ngắn sản phẩm, tin, phim, video, v.v… mà nhiều khả người dùng quan tâm Hiện nhiều hệ tư vấn thương mại sử dụng thành công hệ thống Amazon, Netflix, Yahoo!, Youtube Có hai kỹ thuật sử dụng tư vấn lựa chọn: lọc theo nội dung (content-based filtering) lọc cộng tác (collaborative filtering) [2] Lọc theo nội dung phân tích đặc trưng nội dung sản phẩm mà người dùng chọn khứ tư vấn cho người dùng sản phẩm có đặc trưng nội dung tương tự Để sử dụng phương pháp này, nội dung sản phẩm phải mô tả rõ ràng dạng văn thông qua số đặc trưng Trái lại, lọc cộng tác dựa nhóm người dùng chọn sản phẩm giống người dùng cần tư vấn để xác định sản phẩm cần giới thiệu với người So với lọc theo nội dung, lọc cộng tác có ưu điểm khơng địi hỏi sản phẩm phải mơ tả dạng văn hay đặc trưng Kết thử nghiệm cho thấy, lọc cộng tác lọc tốt lọc nội dung nhiều trường hợp [2] Trong báo này, tập trung vào phương pháp lọc cộng tác Phương pháp lọc cộng tác điển hình áp dụng rộng rãi phương pháp k – láng giềng gần Phương pháp gọi lọc dựa nhớ (memory-based filtering) [3,4,6,7] để phân biệt với lọc dựa mơ hình (model-based filtering) [8,11,12] Với người dùng, hệ thống xác định k người dùng có sở thích giống người dựa sản phẩm họ chọn đánh giá khứ, sau tư vấn cho người dùng thời sản phẩm mà k người chọn Tương tự vậy, thay tìm k người dùng gần nhất, ta tìm k láng giềng gần cho sản phẩm dựa việc người dùng có quan tâm tới láng giềng khứ không để định lựa chọn không lựa chọn sản phẩm xét Trong trường hợp thứ nhất, lọc cộng tác gọi lọc dựa người dùng (user-based collaborative filtering), trường hợp - 23 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 10 (30), tháng 12/2013 thứ hai lọc dựa sản phẩm (item-based) bảo độ phủ tốt liệu thưa Để lọc cộng tác dựa nhớ cho kết tốt cần xác định xác độ tương tự người dùng từ ma trận đánh giá người dùng sản phẩm (hoặc độ tương tự sản phẩm, tùy theo phương pháp sử dụng) Thông thường, độ đo tương tự sử dụng độ đo tương tự hai vectơ cosin hay độ tương quan Pearson Tuy nhiên, độ đo cho kết không tốt trường hợp liệu thưa thớt, tức người dùng lựa chọn đánh giá sản phẩm khứ - tình điển hình hệ thống sử dụng lọc cộng tác Để giảm bớt ảnh hưởng vấn đề liệu thưa tới hiệu lọc cộng tác dựa nhớ, nhiều phương pháp đề xuất kỹ thuật làm trơn nhờ phân cụm [14], kết hợp lọc dựa người dùng với dựa sản phẩm [15], đặc biệt dựa quan hệ kết hợp từ đồ thị người dùng – sản phẩm [9,10] Phương pháp đề xuất báo thử nghiệm liệu thực tế đánh giá người dùng phim Kết thử nghiệm cho thấy việc phương pháp cho kết lọc tốt so với phương pháp lọc cộng tác dựa độ đo tương quan nay, phương pháp đồ thị túy [10] Trong báo này, đề xuất phương pháp tính tốn mức độ tương tự cặp người dùng sản phẩm có độ ổn định tốt độ thưa thớt liệu thay đổi Dựa đồ thị người dùng – sản phẩm, phương pháp đề xuất xác định độ liên thông dạng đường có trọng số cặp người dùng (hoặc sản phẩm) Độ liên thơng sau sử dụng độ tương tự xác định k láng giềng gần Thuật toán đề xuất cho phép tính tốn độ dài nhỏ đường đủ đảm bảo có độ phủ tốt trường hợp liệu thưa Phương pháp đề xuất tương tự phương pháp Huang et al [10] chỗ dựa đồ thị người dùng – sản phẩm Tuy nhiên, khác với phương pháp [10], không sử dụng trực tiếp mức độ liên kết người dùng với sản phẩm để đưa dự đoán Thay vào đó, liên kết người dùng với người dùng sản phẩm với sản phẩm sử dụng tính độ tương tự dùng với mơ hình dựa nhớ Việc kết hợp hai phương pháp đồ thị k láng giềng tạo hiệu ứng làm trơn cho kết thực nghiệm tốt đáng kể so với phương pháp riêng rẽ Ngoài ra, so với phương pháp Huang cộng sự, phương pháp đề xuất có bước xác định rõ ràng độ dài cần thiết đường để đảm II BÀI TOÁN LỌC CỘNG TÁC Bài tốn lọc cộng tác phát biểu sau Cho tập hợp U gồm N người dùng U = {u1, u2,…, uN}, tập P gồm M sản phẩm P = {p1, p2, , pM} Mỗi sản phẩm px ∈ P báo, tin, hàng hóa, phim, ảnh, dịch vụ, v.v… Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn thông qua ma trận đánh giá R ={ rix }, i = N, x = M Mỗi giá trị rix ∈ {∅, 1, 2, ,G} đánh giá người dùng ui ∈ U sản phẩm px ∈ P Giá trị rix thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Chẳng hạn khứ người dùng mua sản phẩm xem trang web đánh giá người dùng với sản phẩm có giá trị Giá trị rix = ∅ trường hợp người dùng ui chưa đánh giá chưa biết đến sản phẩm px Nhiệm vụ lọc cộng tác dự đoán đánh giá người dùng thời ua ∈ U mặt hàng px ∈ P, sở tư vấn cho người dùng ua sản phẩm đánh giá cao [1] Bảng Ma trận đánh giá lọc cộng tác u1 u2 u3 p1 ∅ ∅ p2 ∅ 3 p3 4 ∅ p4 ∅ ∅ Bảng ví dụ ma trận đánh giá cho hệ lọc cộng tác gồm người dùng U ={ u1, u2, u3} sản phẩm P = {p1, p2, p3, p4} Các giá trị đánh giá biểu diễn có giá trị rix∈ {∅, 1, 2, 3, 4, 5} Những giá trị rix=∅ hiểu người dùng i∈U chưa biết đến - 24 - Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT sản phẩm px ∈ P Để tư vấn, chẳng hạn cho người dùng u3, thuật toán lọc cộng tác phải xác định giá trị cho trống dịng tương ứng với u3 II.1 Lọc cộng tác dựa nhớ Có nhiều phương pháp khác đề xuất sử dụng thực tế cho toán lọc cộng tác Su Khoshgoftaar [1] phân loại phương pháp giải toán lọc cộng tác thành hai cách tiếp cận chính: Lọc cộng tác dựa vào nhớ (Memory-Based [3, 4, 6]) Lọc cộng tác dựa vào mơ hình (ModelBased [8, 11, 12]) Lọc dựa vào nhớ thực theo hai phương pháp chính: lọc dựa vào người dùng (UserBased) lọc dựa vào sản phẩm (ItemBased) [1, 2] Đặc điểm chung hai phương pháp dựa vào độ đo khoảng cách (Euclid, Minkowski ), độ đo tương tự (Cosin, Entropy, ), độ đo tương quan (Pearson, Root Mean Square, Spearman Rank, Kendall, ) tính tốn mức độ tương tự cặp người dùng (hoặc sản phẩm) để tìm sản phẩm có mức độ tương tự cao phù hợp cho người dùng [7, 16] Về chất, lọc cộng tác dựa nhớ tương tự phương pháp k láng giềng gần học máy Trong trường hợp lọc theo người dùng (UserBased), phương pháp thực qua bước sau: 1) Tính toán mức độ tương tự cặp người dùng Các độ đo sử dụng rộng rãi để xác định độ tương tự hai người dùng hai sản phầm độ tương quan Pearson cosin hai vectơ 2) Xác định tập k láng giềng cho người dùng thời 3) Tổ hợp đánh giá k láng giềng gần sản phẩm mà người dùng thời chưa biết để dự đoán đánh giá người dùng thời cho sản phẩm Cách tổ hợp đơn giản lấy trung bình cộng theo k láng giềng, tổ hợp theo nhiều dạng trọng số khác 4) Trả cho người dùng thời sản phẩm có đánh giá cao Tập V-1, Số 10 (30), tháng 12/2013 Trong trường hợp lọc theo sản phẩm (ItemBased), thay tìm k láng giềng cho người dùng thời, hệ thống tìm k láng giềng gần cho sản phẩm cần dự đốn, sau tổ hợp đánh giá có người dùng thời láng giềng để xác định đánh giá người dùng thời sản phẩm cần dự đoán Mặc dù lọc cộng tác dựa nhớ đơn giản hiệu quả, việc áp dụng thực tế gặp khó khăn vấn đề thưa thớt liệu Đối với hệ thống lọc cộng tác, người dùng thường đánh giá sản phẩm đa số phần tử ma trận đánh giá có giá trị rỗng Khi thực tính tốn mức độ tương tự cặp người dùng uij, độ đo tương quan thực tính tốn tập Pij ≠ ∅ Những sản phẩm có giá trị đánh giá khác ∅ ngồi tập Pij khơng tham gia vào q trình tính tốn Điều làm cho nhiều người dùng có sở thích tương tự lại không xác định độ đo tương quan chưa đánh giá số sản phẩm Ngược lại, nhiều cặp người dùng tương tự xác định tập láng giềng II.2 Lọc cộng tác sử dụng mô hình đồ thị Để giảm ảnh hưởng vấn đề liệu thưa lọc cộng tác dựa nhớ, số giải pháp đề xuất, đáng ý giải pháp sử dụng tính liên thơng bắc cầu đồ thị Huang cộng [10] đề xuất (để tiện cho việc trình bầy, phương pháp gọi GraphBased phần lại báo) Theo phương pháp này, ma trận người dùng – sản phẩm sử dụng để xây dựng đồ thị với đỉnh người dùng sản phẩm Một đỉnh người dùng nối với đỉnh sản phẩm người dùng mua đánh giá tốt sản phẩm Lưu ý phương pháp đề xuất cho trường hợp ma trận đánh giá có giá trị: người dùng chọn sản phẩm, ∅ trường hợp ngược lại Đồ thị phương pháp Huang cộng đề xuất có dạng tương tự Hình 1, nhiên tất cạnh có trọng số - 25 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Các tác giả GraphBased xác định mức độ quan tâm người dùng thời với sản phẩm cách tính tổng trọng số đường có độ dài không lớn L người dùng sản phẩm Ở L tham số phương pháp có giá trị lẻ xét đường nút người dùng kết thúc nút sản phẩm Trọng số đường độ dài l tính α l, < α liên thơng Khi ln ln tồn đường từ đỉnh i∈U đến j∈U đồ thị Vì G = < V,E> đồ thị hai phía biểu diễn theo (4), nên ln tồn số chẵn L cho từ i∈U đến j∈U nối L cạnh Do u ijL xác định theo (5) tổng trọng số đường có độ dài L; Trọng số đường có độ dài L tích trọng số cạnh có wijL ≠ , nên u ijL ≠ điều cần chứng minh Như vậy, để xác định mức độ tương tự người dùng i∈U với người dùng j∈{U \ i}, ta cần chọn giá trị L nhỏ để u ijL ≠ với j∈U Thuật toán lọc cộng tác Dựa Định lý 1, chúng tơi đề xuất thuật tốn UserBased-Graph cho lọc cộng tác trình bầy Hình - 28 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Đầu vào: - Ma trận trọng số C biểu diễn đồ thị G = cho lọc cộng tác - i∈U người dùng cần tư vấn - K số lượng người dùng tập láng giềng Đầu ra: - Dự đoán x: rix | x∈P\Pi.( quan điểm người dùng i sản phẩm x∈P) Các bước tiến hành: Bước Tính tốn mức độ tương tự cặp người dùng: L ← 2;//Khởi tạo độ dài đường ban đầu Repeat W W T U = W W T U L − L ← L + 2; L if if Tập V-1, Số 10 (30), tháng 12/2013 giềng người dùng i Tại bước 3, thuật toán dự đoán quan điểm người dùng i sản phẩm x∈P\Pi cách lấy giá trị trung bình đánh giá người dùng j tập láng giềng Bước chọn K sản phẩm tư vấn cho người dùng i Ví dụ với hệ lọc cộng tác biểu diễn ma trận trọng số C Hình 1, ta tính tốn U (3 × 3), U (3 × 3), U (3 × 3) theo cơng thức (5) Dựa vào ta xác định L=2 cho người dùng u2, L=4 cho người dùng u1 u3 không cần thực với giá trị L=6 1.64 0.64 0.00  U = 0.64 1.00 0.36  0.00 0.36 0.52 3.0992 1.6896 0.2304  U = 1.6896 1.5392 0.5472  0.2304 0.5472 0.4000 6.164032 3.756032 0.728064 U = 3.756032 2.817536 0.838656 0.728064 0.838656 0.404992 L=2 L = 4,6,8, Until ( u ijL ≠ với j∈ (U \ i) ); Bước Xác định tập láng giềng cho người dùng i∈U • Sắp xếp u ijL ≠ theo thứ tự giảm dần (i ≠ j) • Chọn K người dùng j∈U làm tập láng giềng người dùng i (Ký hiệu tập láng giềng người dùng i∈U Ki) Bước Dự đoán quan điểm người dùng i sản phẩm x∈P \ Pi rix = r jx ; K i j∈K i ∑ Bước4 Chọn N sản phẩm có mức độ tương tự cao tư vấn cho người dùng i Hình Thuật toán UserBased-Graph Tại bước 1, thuật toán thực tính tốn mức độ tương tự cặp người dùng dựa vào Định lý Kết thực bước ma trận UL(N×N) phản ánh mức độ tương tự người dùng i người dùng j đồ thị Tại bước 2, thuật toán tiến hành xếp giá trị u ijL (j≠i) theo thứ tự giảm dần trọng số Sau chọn K người dùng làm tập láng III.3 Lọc cộng tác sử dụng độ tương tự cặp sản phẩm đồ thị Do vai trò người dùng sản phẩm ma trận đánh giá đối xứng, ta xây dựng phiên lọc cộng tác sử dụng độ tương tự sản phẩm, độ tương tự tính tốn dựa đồ thị theo cách tương tự trình bầy Gọi P L (M × M ) tổng trọng số đường có độ dài L từ đỉnh x∈P đến đỉnh y∈P đồ thị G (x=1, 2, , M; j=1, 2, , M) Vì tổng trọng số đường độ dài L tính tích trọng số cạnh, nên tổng trọng số đường độ dài L từ đỉnh sản phẩm đến đỉnh sản phẩm đồ thị G xác định theo công thức (11) W T W PL =  T W W P L − if if L=2 L = 4,6,8, (6) Mức độ tương tự cặp sản phẩm xác định theo (6) phụ thuộc vào độ dài đường L từ đỉnh - 29 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT sản phẩm đến đỉnh sản phẩm đồ thị Do vậy, với sản phẩm x∈P ta cần xác định giá trị L để thực tính tốn Định lý cho ta cách xác định L trường hợp đồ thị biểu diễn lọc cộng tác G = liên thông Đối với hệ lọc cộng tác có biểu diễn đồ thị G = khơng liên thơng chúng tơi trình bày kết nghiên cứu báo L toán tiến hành xếp giá trị p xy (j≠i) theo thứ tự giảm dần trọng số Sau chọn K sản phẩm làm tập láng giềng sản phẩm x Tại bước 3, thuật toán dự đoán quan điểm người dùng i sản phẩm x∈P\Pi cách lấy giá trị trung bình đánh giá sản phẩm x tập láng giềng Tại bước 4, thuật tốn chọn K sản phẩm có mức độ tương tự cao tư vấn cho người dùng i Định lý Nếu đồ thị biểu diễn cho hệ lọc cộng tác G = liên thơng ln tồn số tự L nhiên chẵn L để p xy ≠ với x, y∈P Trong đó, PxyL xác định theo (6) Định lý chứng minh tương tự Định lý Kết cho phép ta xác định giá trị L nhỏ L để p xy ≠ với x, y∈P Ví dụ với hệ lọc cộng tác biểu diễn ma trận trọng số C Hình 1, ta tính tốn P (4 × ), P (4 × 4), P (4 × ) theo (6) Dựa vào ta xác định L=4 sản phẩm p2 p3 , L=6 sản phẩm p1 p4 1.00 0.00 0.00 0.72 P = 0.80 0.48  0.00 0.24 1.6400 0.3840 0.3840 0.8064 P4 =  1.8240 0.9600  0.0000 0.2112 3.099200 1.152000 P6 =  3.831040  0.092160 Tập V-1, Số 10 (30), tháng 12/2013 0.80 0.00  0.48 0.24  1.28 0.00   0.00 0.16 1.8240 0.0000  0.9600 0.2112 2.5088 0.1152   0.1152 0.0832 1.152000 3.831040 0.092160  1.092096 1.923072 0.227328  1.923072 5.131265 0.248832   0.227328 0.248832 0.064000 Đầu vào: - Ma trận trọng số C biểu diễn đồ thị G = cho lọc cộng tác - x∈P sản phẩm cần dự đoán - K số lượng sản phẩm tập láng giềng Đầu ra: - Dự đoán x: rix | x∈U \ Ux.(quan điểm người dùng i phẩm x∈P) Các bước tiến hành: Bước Tính tốn mức độ tương tự cặp người dùng: L ← 2;//Khởi tạo độ dài đường ban đầu Repeat W T W PL =  T W W P L − if if L=2 L = 4,6,8, L ← L + 2; L Until ( p xy ≠ với y∈(P \ x) ); Bước Xác định tập láng giềng cho sản phẩm x∈P L • Sắp xếp p xy theo thứ tự giảm dần (x≠y) Dựa kết Định lý 2, chúng tơi đề xuất thuật tốn ItemBased-Graph cho lọc cộng tác mô tả chi tiết Hình Tại bước 1, thuật tốn thực tính tốn mức độ tương tự cặp sản phẩm dựa vào Định lý Kết thực bước ma trận PL(M×M) phản ánh mức độ tương tự sản phẩm x sản phẩm y đồ thị Tại bước 2, thuật - 30 - • Chọn K sản phẩm y∈P làm tập láng giềng sản phẩm x (Ký hiệu tập láng giềng người dùng x∈P Kx) Bước Dự đoán quan điểm người dùng i sản phẩm x∈P\Pi rix = rix ; K x x∈Kx ∑ Bước4 Chọn K sản phẩm có mức độ tương tự cao tư vấn cho người dùng i Hình Thuật tốn ItemBased-Graph Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Trong hai trường hợp tính tốn độ tương tự người dùng độ tương tự sản phẩm xuất trường hợp hai người dùng hai sản phẩm không tồn đường đồ thị Việc xác định trường hợp để tồn đường đi, tức độ tương tự hai đối tượng khác không, thực dựa định lý sau Định lý Điều kiện cần đủ để U L ( N × N ) xác định theo (5), P L (M × M ) xác định theo (6), điền đầy đủ giá trị khác đồ thị biểu diễn cho hệ lọc cộng tác G = liên thông Chứng minh (Điều kiện cần) Giả sử U L ( N × N ) , P L (M × M ) , W L ( N × M ) điền đầy đủ giá trị khác Khi ta cần chứng tỏ G liên thơng Thực vậy, U L ( N × N ) điền đầy đủ giá trị khác nên với i, j∈U tồn đường có độ dài L P L (M × M ) điền đầy đủ giá trị khác nên với x, y∈P tồn đường có độ dài L W L ( N × M ) điền đầy đủ giá trị khác nên với i∈U, x∈P tồn đường có độ dài L Từ ta suy hai đỉnh đồ thị tồn đường Do đồ thị G = liên thông Ngược lại (điều kiện đủ): Giả sử G = liên thông, theo Định lý U L ( N × N ) điền đầy đủ giá trị khác 0, theo Định lý P L (M × M ) điền đầy đủ giá trị khác 0, theo Định lý W L ( N × M ) điền đầy đủ giá trị khác Trong trường hợp đồ thị không liên thông, định lý cho phép xác định đường hai người dùng hai người thuộc thành phần liên thông đồ thị đánh giá Kết luận tương tự cặp sản phẩm IV THỬ NGHIỆM VÀ ĐÁNH GIÁ Để đánh giá hiệu phương pháp đề xuất, thực tiến hành thử nghiệm Tập V-1, Số 10 (30), tháng 12/2013 liệu đánh giá phim so sánh với số phương pháp khác Phần trình bầy chi tiết thử nghiệm kết Dữ liệu: Dữ liệu thử nghiệm liệu MovieLens [13] Tập liệu MovieLens gồm 1682 người dùng, 942 phim với 100.000 đánh giá, mức đánh giá thiết lập từ đến 5, mức độ thưa thớt liệu đánh giá 98,7% Các mức đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 Phương pháp thử nghiệm: Sai số dự đoán phương pháp ước lượng độ xác (precision), độ nhậy (recall) độ đo F (F-Measure) Độ xác, độ nhạy, độ đo F có giá trị lớn phản ánh mức độ xác thuật toán cao [7] 900 người dùng tập MovieLens lựa chọn ngẫu nhiên làm liệu huấn luyện, 400 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Để thử nghiệm khả phương pháp đề xuất so với phương pháp khác trường hợp liệu thưa, thay đổi số lượng đánh giá người dùng tập kiểm tra số lượng đánh giá biết 5, 10, 15, 20 cho đồ thị biểu diễn lọc cộng tác liên thơng, đánh giá cịn lại ẩn dùng để so sánh với kết dự đoán Phương pháp sử dụng để đưa dự đoán với đánh giá bị ẩn Kết dự đoán phương pháp lấy từ trung bình qua 10 lần thử nghiệm, lần, tập huấn luyện tập kiểm tra lựa chọn ngẫu nhiên So sánh: Kết dự đoán phương pháp UserBased-Graph, IemBased-Graph so sánh với phương pháp KNN-UserBased [6,7], Top-N-Item Based [3,4,5] dựa độ tương quan Pearson phương pháp GraphBased [10] Hai phương pháp đầu phương pháp k-láng giềng gần phương pháp thứ ba phương pháp túy dựa đồ thị Kết quả: Kết thử nghiệm tóm tắt Bảng Các kết cho thấy phương pháp Top-NItemBased có độ đo F cao so với KNN-UserBased số trường hợp lại thấp - 31 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT số trường hợp khác tùy thuộc vào tính chất liệu Kết quán so với thử nghiệm công bố trước Phương pháp dựa đồ thị Huang cộng đề xuất cho kết tốt hai phương pháp k-láng giềng gần bốn trường hợp, đặc biệt liệu thưa Cụ thể, với đánh giá cho người dùng, GraphBased đạt độ đo F 0.178 khơng có phương pháp dựa nhớ có độ đo F vượt 0.139 Bảng Độ xác, độ nhạy tỷ lệ F ứng với đánh giá biết trước Phương pháp Độ đo Độ nhạy Top-NĐộ xác ItemBased F-Measure Độ nhạy KNNĐộ xác UserBased F-Measure Độ nhạy GraphĐộ xác Based [10] F-Measure Độ nhạy ItemBasedĐộ xác Graph F-Measure Độ nhạy UserBasedĐộ xác Graph F-Measure Số đánh giá biết trước tập kiểm tra 10 15 20 0.108 0.164 0.130 0.112 0.184 0.139 0.173 0.184 0.178 0.212 0.287 0.199 0.225 0.288 0.253 0.118 0.178 0.142 0.131 0.194 0.156 0.192 0.246 0.212 0.238 0.256 0.245 0.244 0.308 0.272 0.124 0.211 0.156 0.142 0.214 0.171 0.213 0.259 0.234 0.275 0.284 0.279 0.287 0.284 0.290 0.251 0.244 0.247 0.149 0.265 0.191 0.256 0.326 0.287 0.288 0.473 0.358 0.295 0.477 0.365 Phương pháp đề xuất, theo độ tương tự đồ thị sử dụng để xác định k láng giềng gần nhất, cho kết tốt hẳn phương pháp so sánh Cả hai phiên sử dụng độ tương tự theo sản phẩm hay theo người dùng có độ đo F lớn so với phương pháp sử dụng đồ thị túy Cụ thể, với đánh giá cho người dùng, UserBased-Graph ItemBased-Graph cho độ đo F 0.253 0.199, so với 0.178 phương pháp GraphBased Kết quán tăng số lượng đánh giá (giảm độ thưa thớt liệu) Với 20 đánh giá cho người dùng, UserBased-Graph, ItemBased-Graph, GraphBased cho độ đo F 0.365, 0.358, Tập V-1, Số 10 (30), tháng 12/2013 0.287 Độ xác cao phương pháp đề xuất so với phương pháp dựa đồ thị túy kết việc sử dụng k láng giềng tạo hiệu ứng làm trơn nhờ lấy trung bình đánh giá người dùng sản phẩm tương tự Một yếu tố khác ảnh hưởng tốt tới độ xác việc xác định hợp lý độ dài đường cho tạo độ liên thông hợp lý đồng thời không gây nhiễu chọn đường dài V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày phương pháp tiếp cận cho lọc cộng tác mơ hình đồ thị Trong đó, phương pháp biểu diễn đồ thị phù hợp với tất liệu hệ thống lọc cộng tác Dựa vào biều diễn này, phương pháp lọc cộng tác triển khai dễ dàng đồ thị Phương pháp lọc dựa vào người dùng xem xét tốn tìm kiếm đánh giá trọng số đường từ đỉnh người dùng đến đỉnh người dùng Phương pháp lọc dựa vào sản phẩm xem xét toán tìm kiếm đánh giá trọng số đường từ đỉnh sản phẩm đến đỉnh sản phẩm Các đường sau sử dụng độ đo tương tự kết hợp với phương pháp k – láng giềng gần để đưa dự đoán Kết thử nghiệm cho thấy, phương pháp đề xuất cho lại kết dự đoán tốt phương pháp lọc dựa độ tương quan trường hợp có đầy đủ liệu huấn luyện trường hợp liệu thưa Điều chứng tỏ, phương pháp tiếp cận cho lọc cộng tác mơ hình đồ thị cho phép ta khai thác mối quan hệ gián tiếp tập người dùng tập sản phẩm vào q trình dự đốn Việc kết hợp quan hệ gián tiếp với phương pháp dựa nhớ truyền thống cho kết tốt sử dụng phương pháp riêng rẽ TÀI LIỆU THAM KHẢO [1] Y KOREN, R BELL, Advances in collaborative filtering Recommender systems handbook Springer, 2011 [2] G ADOMAVICIUS, A TUZHILIN, “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”, IEEE - 32 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Transactions On Knowledge And Data Engineering, vol 17, No 6, 2005 [3] B SARWAR, G KARYPIS, J KONSTAN, AND J RIEDL, “Item-Based Collaborative Filtering Recommendation Algorithms”, pp 285-295, 2001 [4] M DESHPANDE, G KARYPIS,“Item-Based Top-N Recommendation Algorithms”, ACM Transactions on Information Systems Volume 22, Issue 1, pp 143 177, 2004 [5] J WEN, W ZHOU, “An Improved Item-based Collaborative Filtering Algorithm Based on Clustering Method”, Journal of Computational Information Systems 8: pp 571-578, 2012 [6] J S BREESE, D HECKERMAN, AND C KADIE, “Empirical analysis of Predictive Algorithms for Collaborative Filtering”, In Proc of 14th Conf on Uncertainty in Artificial Intelligence, pp 43-52, 1998 [7] J.L HERLOCKER, J.A KONSTAN, L.G TERVEEN, AND J.T RIEDL, “Evaluating Collaborative Filtering Recommender Systems”, ACM Trans Information Systems, vol 22, No 1, pp 5-53, 2004 [8] T HOFMANN, “Latent Semantic Models for Collaborative Filtering”, ACM Trans Information Systems, vol 22, No 1, pp 89-115, 2004 [9] Z HUANG, D ZENG, H CHEN, “Analyzing Consumer-product Graphs: Empirical Findings and Applications in Recommender Systems”, Management Science, 53(7), pp 1146-1164, 2007 [10] Z HUANG, H CHEN, D ZENG, “Applying Associative Retrieval Techniques to Alleviate the Sparsity Problem in Collaborative Filtering”, ACM Transactions on Information Systems, vol 22(1) pp 116–142, 2004 [15] J WANG, A P DE VRIES, AND M J T REINDERS, Unifying user-based and item-based collaborative filtering approaches by similarity fusion In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '06) ACM, New York, NY, USA, 501-508 [16] L BALTRUNAS, F RICCI, Experimental evaluation of context-dependent collaborative filtering using item splitting User modeling and user-adapted interactions (2013) Springer Nhận ngày: 12/06/2013 SƠ LƯỢC VỀ TÁC GIẢ NGUYỄN DUY PHƯƠNG Sinh ngày 20/02/1965 Hà Nội Tốt nghiệp đại học thạc sỹ trường Đại học Tổng hợp Hà Nội vào năm 1988 1997 Bảo vệ tiến sỹ đại học Quốc Gia Hà Nội năm 2010 Hiện cơng tác Học viện CN Bưu Viễn thông Hướng nghiên cứu: học máy ứng dụng lọc thông tin Email: phuong.ptit@yahoo.com Điện thoại : 0913575442 TỪ MINH PHƯƠNG [11] C.C.AGGARWAL, J.L WOLF, K.L WU, AND P.S.YU, “Horting Hatches an Egg: A New GraphTheoretic Approach to Collaborative Filtering”, Proc Fifth ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining, 1999 Sinh ngày 13/01/1971 Hà Nội Tốt nghiệp đại học Bách khoa Taskent năm 1993, bảo vệ tiến sỹ Viện hàn lâm khoa học Uzbekistant, Taskent năm 1995 [12] R JIN, L SI, AND C ZHAI, “Preference-Based Graphic Models for Collaborative Filtering”, Proc 19th Conf Uncertainty in Artificial Intelligence, 2003 Hiện Phó Giáo sư, Trưởng khoa CNTT - Học viện CN Bưu [13] http://www.grouplens.org/ [14] G XUE, C LIN, Q YANG, W XI, H ZENG, Y YU, AND Z CHEN Scalable collaborative filtering using cluster-based smoothing In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '05) New York, USA, 114-121 Tập V-1, Số 10 (30), tháng 12/2013 Viễn thơng Hướng nghiên cứu: trí tuệ nhân tạo, học máy, tin sinh học - 33 - ... trình bày mục báo III.2 Lọc cộng tác sử dụng độ tương tự cặp người dùng đồ thị Độ đo tương tự cho người dùng dựa đồ thị u1 u2 u3 Hình Đồ thị hai phía biểu diễn cho lọc cộng tác U(N×N) C= W(N×M)... tốt nhiều so với lọc cộng tác dựa nhớ truyền thống, đặc biệt liệu bị thưa thớt III LỌC CỘNG TÁC SỬ DỤNG ĐỘ TƯƠNG TỰ DỰA TRÊN ĐỒ THỊ Như trình bầy trên, việc tính tốn độ tương tự từ ma trận đánh... phiên lọc cộng tác sử dụng độ tương tự sản phẩm, độ tương tự tính tốn dựa đồ thị theo cách tương tự trình bầy Gọi P L (M × M ) tổng trọng số đường có độ dài L từ đỉnh x∈P đến đỉnh y∈P đồ thị G

Ngày đăng: 25/10/2020, 22:54