Bài viết đề xuất một mô hình đồ thị hai phía tổng quát cho lọc cộng tác. Trong đó, phương pháp biểu diễn được thực hiện trên đồ thị trọng số phù hợp với tất cả bộ dữ liệu thử nghiệm cho lọc cộng tác.
Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (28), tháng 12/2012 Một phương pháp lọc cộng tác dựa mơ hình đồ thị hai phía A Collaborative Filtering Method Based on Bipartite Graph Model Mai Thị Như Nguyễn Duy Phương Abstract: Collaborative filtering is a technique to predict the utility of items for a particular user by exploiting the behavior patterns of a group of users with similar preferences This method has been widely successful in many e-commerce systems In this paper, we present an effective collaborative filtering method based on general bipartite graph representation The weighted bipartite graph representation is suitable for all of the real current data sets of collaborative filtering The prediction method is solved by the basic search problem on the graph that can be easy to implement for the real applications Specially, the model tackled the effect of the sparsity problem of collaborative filtering by expanding search length from the user node to the item node By this way, some users or items can not be detemined by the correlations but can be computed by the graph model Experimental results on the real data sets show that the proposed method improve significantly prediction quality for collaborative filtering I PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC Cho tập hợp hữu hạn U = {u1, u2,…, uN} tập gồm N người dùng, P = {p1, p2,…, pM} tập gồm M sản phẩm Mỗi sản phẩm px∈P hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Để thuận tiện trình bày, ta viết px∈P ngắn gọn thành x∈P; ui∈U i∈U Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn thông qua ma trận đánh giá R = (rix), i = N, x = M Mỗi giá trị rix biểu diễn đánh giá người dùng i∈U cho sản phẩm x∈P Giá trị rix thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rix = ∅ hiểu người dùng i chưa đánh giá chưa biết đến sản phẩm x Tiếp đến ta ký hiệu, Pi ⊆P tập sản phẩm đánh giá người dùng i∈U Ux⊆U tập người dùng đánh giá sản phẩm x∈P Với người dùng cần tư vấn a∈U (được gọi người dùng thời, hay người dùng tích cực), tốn lọc cộng tác dự đoán đánh giá người dùng a mặt hàng x∈(P\Pa), sở tư vấn cho người dùng a sản phẩm đánh giá cao Bảng thể ví dụ với ma trận đánh giá R = (rij) hệ gồm người dùng U = {u1, u2, u3, u4, u5} sản phẩm P = {p1, p2, p3, p4, p5, p6, p7,} Mỗi người dùng đưa đánh giá sản phẩm theo thang bậc {1,2,3,4,5} Đối với tập liệu MovieLens [11], rix = hiểu người dùng i đánh giá phim x mức độ “rất tốt”; rix = hiểu người dùng i đánh giá “tốt”; rix = hiểu người dùng i đánh giá phim x mức độ “bình thường”; rix = hiểu người dùng i đánh giá phim x mức độ “kém”; rix = hiểu người dùng i đánh giá phim x mức độ “rất kém” Giá trị rij=∅ hiểu người dùng ui chưa đánh giá chưa biết đến sản phẩm pj Các ô đánh dấu ‘?’ thể giá trị hệ thống cần dự đốn cho người dùng u5 - 26 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Bảng Ma trận đánh giá lọc cộng tác Sản phẩm Người dùng p1 p2 p3 p4 p5 p6 p7 u1 ∅ ∅ ∅ u2 ∅ 5 ∅ u3 ∅ ∅ u4 ∅ ∅ ∅ u5 ? ? ? p1 Tập V-1, Số (28), tháng 12/2012 p2 u1 p3 u2 p4 u3 p5 u4 p6 p7 u5 Hình Đồ thị hai phía cho lọc cộng tác II CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Có hai hướng tiếp cận giải tốn lọc cộng tác mơ hình đồ thị: Lọc cộng tác dựa mơ hình đồ thị tổng qt Lọc cộng tác dựa mơ hình đồ thị hai phía [3,4,6,7] Để thuận tiện cho việc trình bày mơ hình đề xuất, chúng tơi tóm tắt lại nghiên cứu mơ hình đồ thị hai phía cho lọc cộng tác Huang cộng [3,4] Trong mơ hình này, Huang xem xét toán lọc cộng tác tốn tìm kiếm đồ thị hai phía, phía tập người dùng U, phía cịn lại tập sản phẩm P Cạnh nối người dùng i∈U đến sản phẩm x∈P thiết lập người dùng i đánh giá “tốt” “rất tốt” sản phẩm x Ví dụ với ma trận đánh giá cho Bảng 1, giá trị đánh giá rix =4, rix = biến đổi thành 1, giá trị cịn lại biến đổi thành Khi đó, ma trận kề biểu diễn đồ thị hai phía thể Bảng 2, đồ thị hai phía tương ứng theo biểu diễn thể Hình Bảng Ma trận kề biểu diễn đồ thị hai phía Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 0 0 u2 1 0 u3 1 0 u4 0 0 0 u5 0 1 Phương pháp dự đoán đồ thị thực thuật tốn lan truyền mạng để tìm số lượng đường độ dài L từ đỉnh người dùng i∈U đến đỉnh sản phẩm x∈P Những sản phẩm x∈P có số lượng đường nhiều đến người dùng i∈U dùng để tư vấn cho người dùng [3] Với phương pháp biểu diễn dự đốn nêu trên, chúng tơi tiến hành kiểm nghiệm liệu thực nhận thấy số hạn chế Thứ nhất, biểu diễn Huang quan tâm đến giá trị đánh giá “tốt” “rất tốt” bỏ qua giá trị đánh giá “kém” “rất kém” Đối với hệ thống lọc cộng tác thực tế, mức đánh giá người dùng chia thành nhiều thang bậc khác (tập liệu MovieLens có mức đánh giá, tập BookCrossing có 10 mức đánh giá) [11,12] Chính vậy, biểu diễn chưa thực phù hợp với hệ thống lọc cộng tác Mặt khác, phương pháp dự đoán lọc cộng tác thực dựa thói quen sử dụng sản phẩm cộng đồng người dùng có sở thích, giá trị đánh giá “tốt” hay “không tốt” phản ánh thói quen sử dụng sản phẩm người dùng Việc bỏ qua giá trị “không tốt” ảnh hưởng nhiều đến chất lượng dự đoán thói quen sử dụng sản phẩm người dùng Thứ hai, hệ thống lọc cộng tác số lượng giá trị đánh giá rix=∅ nhiều nhiều lần số lượng giá trị đánh giá rix≠∅ Vì vậy, việc bỏ qua giá trị “không tốt” khiến cho vấn đề liệu thưa lọc cộng tác trở nên trầm trọng Điều - 27 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thấy rõ Bảng 2, giá trị đánh giá rix ≤3 biến đổi thành bỏ lượng đáng kể nhãn phân loại biết trước trình huấn luyện Cuối cùng, phương pháp dự đoán thực dựa vào số lượng đường có độ dài L từ đỉnh người dùng đến đỉnh sản phẩm Các đường xem có trọng số giống chưa phản ánh trạng liệu thực (tập liệu MovieLens có mức đánh giá [11], tập liệu BookCrossing có 10 mức đánh giá [12]) Chính vậy, mơ hình cho lại kết thử nghiệm tốt tập liệu có hai mức đánh giá (0, 1) Đối với tập liệu có nhiều mức đánh giá, kết dự đốn mơ hình cho độ xác khơng cao Tóm lại, mơ hình Huang đề xuất phù hợp với tập liệu sách có hai mức đánh giá “tốt” “không tốt” Để khắc phục hạn chế nêu trên, mục đề xuất mơ hình đồ thị hai phía tổng quát cho lọc cộng tác Trong đó, phương pháp biểu diễn thực đồ thị trọng số phù hợp với tất liệu thử nghiệm cho lọc cộng tác Phương pháp dự đoán thực dựa việc tính tốn trọng số tất đường từ đỉnh người dùng đến đỉnh sản phẩm cho phép ta cải thiện chất lượng dự đốn III MƠ HÌNH ĐỒ THỊ HAI PHÍA ĐỀ XUẤT Mơ hình đồ thị hai phía có trọng số đề xuất mở rộng phương pháp tiếp cận [1,3,4] hai điểm chính: Phương pháp biểu diễn đồ thị phương pháp dự đoán đồ thị Phương pháp tiến hành sau Tập V-1, Số (28), tháng 12/2012 v rix = ∅ − v Nếu người dùng i thích sản phẩm x mức độ v (1) Nếu người dùng i chưa biết đến sản phẩm x Nếu người dùng i khơng thích sản phẩm x mức độ -v Đối với tập liệu thực lọc cộng tác, ta dễ dàng chuyển đổi biểu diễn thành ma trận đánh giá theo công thức (1) cách chọn giá trị ngưỡng θ Những giá trị rix>θ dịch chuyển thành giá trị dương, ngược lại chuyển đổi thành giá trị âm Ví dụ với ma trận đánh giá cho Bảng 1, chọn θ=3, giá trị rix= 4, biến đổi thành 0.1, 0.2, giá trị rix = 2, biến đổi thành -0.1, -0.2, rix=3 biến đổi thành ∅ Bảng Với cách chuyển đổi biểu diễn theo công thức (1), vấn đề lọc cộng tác biểu diễn đồ thị hai phía (Ký hiệu đồ thị G) Một phía tập người dùng U, phía cịn lại tập sản phẩm P Trong đó, cạnh nối đỉnh phía người dùng i∈U với đỉnh phía sản phẩm x∈P thiết lập rix≠∅ Những giá trị đánh giá có rix>0 biểu diễn người dùng x∈U đánh giá sản phẩm i∈P “tốt” mức độ rix Những giá trị đánh giá có rix0.5 (0.6, 0.7, 0.8, 0.9, 1.0) thành giá trị dương (0.1, 0.2, 0.3, 0.4, 0.5) Các giá trị rix≤0.5 (0.5, 0.4, 0.3, 0.2, 0.1) biến đổi thành giá trị âm (-0.1, -0.2, -0.3, -0.4, -0.5) Các liệu khác biến đổi tương tự tùy thuộc vào mức đánh giá khác người dùng Trong mục chúng tơi trình bày phương pháp dự đốn đồ thị hai phía có trọng số Một điểm khác biệt quan trọng với mơ hình đề xuất [3,4] trọng số đường độ dài L từ đỉnh người dùng đến đỉnh sản phẩm nhận giá trị dương giá trị âm Các đường có trọng số dương phản ánh mức độ đánh giá sản phẩm “tốt” người dùng Các đường có trọng số âm phản ánh mức độ đánh giá sản phẩm “không tốt” người dùng Để thực ý tưởng nêu trên, chúng tơi tiến hành tách đồ thị hai phía tổng qt ban đầu thành hai đồ thị con: Đồ thị hai phía với cạnh có trọng số dương (ký hiệu G+) đồ thị hai phía với cạnh có trọng số âm (ký hiệu G-) Ứng với sản phẩm x∈P chưa người dùng i∈U đánh giá, trình ước lượng mức độ “tốt” sản phẩm x người dùng i thực đồ thị G+ cách tính tổng trọng số tất đường độ dài L từ x đến i Tương tự vậy, trình ước lượng mức độ “không tốt” sản phẩm x người dùng i thực đồ thị G- cách tính tổng trọng số tất đường độ dài L từ x đến i Hai giá trị kết hợp lại cho ta quan điểm xác người dùng x sản phẩm i - 29 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Gọi W + = (wix+ ) ma trận trọng số biểu diễn đồ thị G+, W − = (wix− ) ma trận trọng số biểu diễn đồ thị Gđược xác định theo công thức (3), (4) w wix+ = ix 0 w wix− = ix 0 + wix>0 “tốt” sản phẩm x người dùng i suy diễn ( ) ánh mức độ “không tốt” sản phẩm x người (3) wix≤0 wix - 30 - Hình Thuật tốn dự đốn đồ thị hai phía Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Độ phức tạp thuật toán phụ thuộc vào L phép tốn nhân ma trận cấp N×M Sử dụng thuật toán nhân hai ma trận hiệu Coppersmith– Winograd cho ta độ phức tạp O(N 2.376)[4] Để tránh phép nhân ma trận có kích cỡ lớn, chúng tơi sử dụng thuật tốn lan truyền mạng có độ phức tạp O(N.S), N số lượng người dùng, S số lượng trung bình giá trị đánh giá khác ∅ người dùng [1] IV THỬ NGHIỆM VÀ ĐÁNH GIÁ Để thấy rõ hiệu mơ hình đề xuất, thực tiến hành thử nghiệm hai liệu MovieLens [11] BookCrossing [12] Trong đó, tập liệu MovieLens biểu diễn mức đánh giá, tập liệu BookCrossing biểu diễn 10 mức đánh giá Sai số dự đoán ước lượng thơng qua độ xác (precision), độ nhạy (recall) tỉ lệ F-Measure theo thủ tục mô tả IV.1 Dữ liệu thử nghiệm Tập liệu MovieLens gồm 1682 người dùng, 942 phim với 100,000 đánh giá, mức đánh giá thiết lập từ đến 5, mức độ thưa thớt liệu đánh giá 98.7% Các mức đánh giá 4, chuyển đổi thành 0.1, 0.2 Các mức đánh giá 3, 2, dịch chuyển thành 0.0, -0.1, -0.2 Tập liệu BookCrossing sở liệu bao gồm 278,858 người dùng với 1,031,175 đánh giá cho 271,065 đầu sách Các mức đánh giá thiết lập từ đến 1.0, trung bình số lượng sách người dùng chưa đánh giá 99.1% Các mức đánh giá từ 0.6 đến 1.0 dịch chuyển thành 0.1 đến 0.5 theo thứ tự Các mức đánh giá từ 0.5 đến 0.0 dịch chuyển thành 0.0, -0.1,…,-0.5 theo thứ tự Việc chuyển đổi liệu theo ngưỡng θ=3 tập liệu MovieLans θ=5 liệu BookCrossing cách làm phổ biến tác giả trước xem xét toán lọc cộng tác toán phân loại hai lớp (-1,1)[1, 3, 4, 9] Trong mơ hình này, chúng tơi xem xét toán lọc cộng tác toán phân loại nhiều lớp Mỗi lớp thuộc nhóm Tập V-1, Số (28), tháng 12/2012 nhãn phân loại khác khoảng [-1,1] Chúng không chọn giá trị nhãn phân loại cực đại (1) cực tiểu (-1) phương pháp dự đoán quan tâm đến giá trị dự đốn lớn hay bé q trình huấn luyện Do vậy, sử dụng giá trị nhãn phân loại nhỏ tiện lợi xác nhiều so sánh kết dự đoán VI.2 Phương pháp thử nghiệm Trước tiên, toàn liệu thử nghiệm chia thành hai phần, phần Utr sử dụng làm liệu huấn luyện, phần lại Ute sử dụng để kiểm tra Tập Utr chứa 75% đánh giá tập Ute chứa 25% đánh giá Dữ liệu huấn luyện sử dụng để xây dựng mơ hình theo thuật tốn mơ tả Với người dùng i thuộc tập liệu kiểm tra, đánh giá (đã có) người dùng chia làm hai phần Oi Pi Oi coi biết, Pi đánh giá cần dự đoán từ liệu huấn luyện Oi Phương pháp ước lượng sai số dự đoán cho lọc cộng tác sử dụng phổ biến độ đo trung bình sai số tuyệt đối (MAE) [8] Tuy nhiên, độ đo áp dụng với phương pháp dự đốn có miền xác định với giá trị đánh giá Chính vậy, kiểm nghiệm sử dụng phương pháp ước lượng sai số dự đốn thơng qua độ xác (precision), độ nhạy (recall) F-Measure xác định theo công thức (8), (9), (10) Đây phương pháp kiểm nghiệm nhiều tác giả sử dụng cho lọc cộng tác [8] N (8) P = rs Nr R= N rs N F − Measure = (9) 2× P × R (P + R ) (10) Ở đây, N tổng số đánh giá người dùng tập liệu kiểm tra có Nr số sản phẩm người dùng đánh giá thích hợp, Nrs số sản phẩm phương pháp lọc dự đốn xác Giá trị P, R, F_Measure lớn độ xác phương pháp cao - 31 - Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT IV.3 Kết thử nghiệm Để đánh giá hiệu phương pháp đề xuất (ký hiệu Bipart-Graph), tiến hành hai thử nghiệm tập liệu nêu Thử nghiệm thứ nhằm đánh giá ảnh hưởng đánh giá có trọng số âm độ dài đường L thói quen sử dụng sản phẩm người dùng Thử nghiệm so sánh với mơ hình đồ thị hai phía Huang (Ký hiệu Huang-Graph[4]) Thử nghiệm thứ hai nhằm đánh giá kết dự đoán so với phương pháp lọc khác, đặc biệt kết dự đoán trường hợp liệu thưa Đối với thử nghiệm thứ nhất, giữ lại tất đánh giá có trọng số âm trọng số dương hai tập liệu Chọn α =0.5, sau thực trình huấn luyện nêu theo độ dài đường L Kết Hình 4, Bảng cho thấy, L tăng (L=3, 5, 7, 9, 11) giá trị F-Measure mô hình tăng Điều chứng tỏ việc suy diễn theo độ dài đường đồ thị cho phép ta tận dụng mối quan hệ gián tiếp người dùng khác để tăng cường vào kết dự đốn 0.3 Tiếp đến, chúng tơi chọn α=0.7 cho mơ hình đồ thị đề xuất thực huấn luyện theo đường độ dài L =3, 5, 7, 9, 11 (Hình 5, Bảng 6) Kết cho thấy, FMeasures mơ hình tăng mơ hình đề xuất cho lại kết tốt nhiều so với mơ hình Huang [4] Lý α=0.7 kết dự đoán phương pháp cải thiện số lượng đánh giá dương lớn nhiều lần số lượng đánh giá âm tập liệu huấn luyện Do vậy, với α =0.5 đường có trọng số âm khơng ảnh hưởng nhiều đến đường có trọng số dương Điều chứng tỏ, đánh giá âm ta không phép bỏ qua mà cịn phải ý đến nhiều trình huấn luyện Bảng Giá trị F-Measure với α=0.5 Phương pháp HuangGraph.B HuangGraph.M BipartGraph.B BipartGraph.M 0.25 Huang-Graph.M Bipart-Graph.B 0.15 Bipart-Graph.M 0.1 0.05 L=3 L=5 L=7 L=9 L=11 Alpha = 0.5 Hình Biến đổi F-Measure với α=0.5 0.35 0.3 F-Measure 0.25 Huang-Graph.B 0.2 Huang-Graph.M 0.15 Bipart-Graph.B 0.1 Bipart-Graph.M 0.05 L=3 L=5 L=7 L=9 L=11 Alpha=0.7 Hình Biến đổi F-Measure với α=0.7 L=3 Độ dài đường L=5 L=7 L=9 L=11 0.1279 0.1464 0.1511 0.1727 0.1899 0.1315 0.1513 0.1607 0.1893 0.1915 0.1373 0.1877 0.1911 0.2073 0.2732 0.1458 0.1889 0.2012 0.2102 0.2821 Bảng Giá trị F-Measure với α=0.7 Huang-Graph.B 0.2 Tập V-1, Số (28), tháng 12/2012 Phương Pháp HuangGraph.B HuangGraph.M BipartGraph.B BipartGraph.M L=3 Độ dài đường L=5 L=7 L=9 L=11 0.1352 0.1457 0.1531 0.1718 0.1899 0.1356 0.1531 0.1598 0.1732 0.1905 0.1378 0.1971 0.2031 0.2237 0.2873 0.1485 0.1909 0.2188 0.2271 0.2914 Thử nghiệm thứ hai thực nhằm so sánh đánh giá kết với phương pháp: Lọc cộng tác dựa vào người dùng (User Based) [9], lọc cộng tác dựa vào sản phẩm (Item Based) [2] lọc cộng tác dựa vào mơ hình đồ thị Huang Trong thử nghiệm chúng tơi thực với α =0.5, L=11 Độ xác, độ nhạy F-Measure lấy trung bình từ 10 lần kiểm nghiệm ngẫu nhiên dựa tập liệu kiểm tra đây: - 32 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT • Tập Test1.M, Test1.B (M ký hiệu cho tập tập MovieLans, B ký hiệu cho tập tập BookCrossing): Loại bỏ ngẫu nhiên giá trị đánh giá tập liệu tương ứng cho người dùng lại đánh giá biết trước Trường hợp xem trường hợp liệu thưa • Tập Test2.M, Test2.B: Loại bỏ ngẫu nhiên giá trị đánh giá tập liệu tương ứng cho người dùng lại 10 đánh giá biết trước Trường hợp xem trường hợp liệu thưa • Tập Test3.M, Test3.B: Loại bỏ ngẫu nhiên giá trị đánh giá tập liệu tương ứng cho người dùng lại 15 đánh giá biết trước Trường hợp xem trường hợp liệu thưa • Tập Test4.M Test4.B: Loại bỏ ngẫu nhiên giá trị đánh giá tập liệu tương ứng cho người dùng cịn lại 20 đánh giá biết trước Trường hợp xem trường hợp có tương đối đầy đủ liệu UserBased ItemBased HuangGraph Độ đo 0.144 0.157 0.162 0.279 Độ xác 0.174 0.186 0.198 0.218 F-Measure 0.158 0.170 0.178 0.245 Độ nhạy 0.098 0.118 0.144 0.259 Độ xác 0.144 0.174 0.211 0.244 F-Measure 0.117 0.141 0.171 0.251 Độ nhạy 0.142 0.165 0.234 0.381 Độ xác 0.175 0.234 0.292 0.339 F-Measure 0.157 0.194 0.299 0.359 Bipart-Graph Độ xác F-Measure Bảng Kết kiểm nghiệm tập BookCrossing Phương pháp UserBased ItemBased 0.198 0.215 0.312 0.397 0.211 0.284 0.325 0.377 0.204 0.245 0.318 0.387 Số đánh giá biết trước tập kiểm tra Độ đo 10 15 20 Độ nhạy 0.102 0.121 0.142 0.149 Độ xác 0.174 0.194 0.214 0.265 F-Measure 0.129 0.149 0.171 0.191 Độ nhạy 0.092 0.114 0.124 0.152 Độ xác 0.147 0.163 0.211 0.259 F-Measure 0.113 0.134 0.156 0.192 Độ nhạy 0.113 0.129 0.134 0.156 0.248 0.286 0.310 0.326 F-Measure 0.155 0.178 0.187 0.211 Độ nhạy 0.125 0.138 0.157 0.185 0.287 0.256 0.234 0.473 0.174 0.179 0.188 0.266 Huang-Graph Độ xác Số đánh giá biết trước tập kiểm tra 10 15 20 Độ nhạy Độ nhạy xuất tìm tích hợp ngữ nghĩa ẩn mối quan hệ gián tiếp người dùng sản phẩm để tăng cường thêm vào kết dự đoán Một lợi khác cần nhắc đến phương pháp tiếp cận mơ hình đơn giản dễ cài đặt cho hệ thống lọc cộng tác Bipart-Graph Độ xác Bảng Kết kiểm nghiệm tập MovieLens Phương pháp Tập V-1, Số (28), tháng 12/2012 F-Measure V KẾT LUẬN Kết kiểm nghiệm liệu thực sách phim có nhiều mức đánh giá khác cho thấy mơ hình đề xuất cho lại độ xác, độ nhạy tỷ lệ F-Measure cao hẳn phương pháp ItemBased, UserBased Huang-Graph Điều khẳng định, phương pháp biểu diễn dự đốn mơ hình đồ thị hai phía có trọng số đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Ưu điểm bật mơ hình so với mơ hình trước thỏa mãn biểu diễn có tất tâp liệu lọc cộng tác Kết kiểm nghiệm tập liệu thể Bảng 7, Bảng cho thấy phương pháp đề xuất cho lại kết dự đoán tốt nhiều so với phương pháp khác Điều lý giải mơ hình đề Phương pháp dự đốn đưa tốn tìm kiếm đồ thị có trọng số cho phép ta phân biệt mức độ quan trọng loại đường - 33 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT cách sử dụng thuật tốn hiệu áp dụng thành cơng cho nhiều ứng dụng khác đồ thị Chất lượng dự đoán cải thiện cách mở rộng đường từ đỉnh người dùng đến đỉnh sản phẩm Điều cho phép ta tận dụng mối liên hệ gián tiếp người dùng sản phẩm vào q trình dự đốn TÀI LIỆU THAM KHẢO Tập V-1, Số (28), tháng 12/2012 [9] J S Breese, D Heckerman, and C Kadie (1998), “Empirical analysis of Predictive Algorithms for Collaborative Filtering”, In Proc of 14th Conf on Uncertainty in Artificial Intelligence, pp 43-52 [10] G Adomavicius, A Tuzhilin (2005), “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”, IEEE Transactions On Knowledge And Data Engineering, vol 17, No 6, 2005 [11] http://www.grouplens.org/ [1] Nguyen Duy Phuong, Le Quang Thang, Tu Minh Phuong (2008), “A Graph-Based for Combining Collaborative and Content-Based Filtering” PRICAI 2008: 859-869 [2] X Su, T M Khoshgoftaar (2009), “A Survey of Collaborative Filtering Techniques” Advances in Artificial Intelligence, vol 2009, pp.1-20 [12] http://www.grouplens.org/node/74 Nhận ngày: 11/04/2012 SƠ LƯỢC TÁC GIẢ MAI THỊ NHƯ Sinh ngày 06/08/1984 Hà Nội [3] Z Huang, D Zeng, H Chen (2007), “Analyzing Consumer-product Graphs: Empirical Findings and Applications in Recommender Systems”, Management Science, 53(7), 1146-1164 Tốt nghiệp đại học cao học Học viện Cơng nghệ Bưu Viễn thông vào năm 2007 2012 [4] Z Huang, H Chen, D Zeng (2004), “Applying Associative Retrieval Techniques to Alleviate the Sparsity Problem in Collaborative Filtering”, ACM Transactions on Information Systems, vol 22(1) pp 116–142 Hiện công tác cơng tác Cơng ty máy tính HP Việt Nam Hướng nghiên cứu: học máy ứng dụng lọc thông tin Điện thoại : 0904941166, Email: mtnhu@yahoo.com [5] T Hofmann (2004), “Latent Semantic Models for Collaborative Filtering”, ACM Trans Information Systems, vol 22, No 1, pp 89-115 [6] C.C.Aggarwal, J.L Wolf, K.L Wu, and P.S.Yu (1999), “Horting Hatches an Egg: A New Graph-Theoretic Approach to Collaborative Filtering”, Proc Fifth ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining [7] R Jin, L Si, and C Zhai (2003), “Preference-Based Graphic Models for Collaborative Filtering”, Proc 19th Conf Uncertainty in Artificial Intelligence (UAI 2003) [8] J.L Herlocker, J.A Konstan, L.G Terveen, and J.T Riedl (2004), “Evaluating Collaborative Filtering Recommender Systems”, ACM Information Systems, vol 22, No 1, pp 5-53 Trans NGUYỄN DUY PHƯƠNG Sinh ngày 20/02/1965 Hà Nội Tốt nghiệp đại học cao học Đại học Tổng hợp Hà Nội vào năm 1988 1997 Bảo vệ luận án tiến sỹ Đại học Quốc Gia Hà Nội năm 2011 Hiện công tác Học viện Công nghệ Bưu Viễn thơng Hướng nghiên cứu: học máy ứng dụng lọc thông tin Điện thoại : 0913575442 Email: phuongnd@ptit.edu.vn - 34 - ... lọc cộng tác II CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Có hai hướng tiếp cận giải tốn lọc cộng tác mơ hình đồ thị: Lọc cộng tác dựa mơ hình đồ thị tổng qt Lọc cộng tác dựa mơ hình đồ thị hai phía. .. mơ hình đề xuất, chúng tơi tóm tắt lại nghiên cứu mơ hình đồ thị hai phía cho lọc cộng tác Huang cộng [3,4] Trong mô hình này, Huang xem xét tốn lọc cộng tác tốn tìm kiếm đồ thị hai phía, phía. .. HAI PHÍA ĐỀ XUẤT Mơ hình đồ thị hai phía có trọng số đề xuất mở rộng phương pháp tiếp cận [1,3,4] hai điểm chính: Phương pháp biểu diễn đồ thị phương pháp dự đoán đồ thị Phương pháp tiến hành sau