Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát

11 11 0
Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong bài báo này, đề xuất một phương pháp hợp nhất giữa lọc cộng tác và lọc nội dung bằng phương pháp đồng huấn luyện. Kết quả thử nghiệm trên các bộ dữ liệu thực tế cho thấy phương pháp đề xuất tận dụng hiệu quả ưu điểm và hạn chế đáng kể nhược điểm của mỗi phương pháp lọc truyền thống.

Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông Hợp lọc cộng tác lọc nội dung phương pháp học bán giám sát Đỗ Thị Liên, Nguyễn Duy Phương, Từ Minh Phương Học viện Cơng nghệ Bưu Viễn thơng E-mail: liendt@ptit.edu.vn, phuongnd@ptit.edu.vn, phuongtm@ptit.edu.vn Tác giả liên hệ: Đỗ Thị Liên Ngày nhận: 26/02/2017, ngày sửa chữa: 06/03/2017, ngày duyệt đăng: 10/07/2017 Tóm tắt: Hệ tư vấn hệ thống tự động cung cấp thông tin phù hợp gỡ bỏ thông tin không phù hợp cho người dùng Hệ tư vấn xây dựng dựa hai kỹ thuật lọc thông tin chính: lọc cộng tác lọc nội dung Lọc nội dung thực hiệu loại tài liệu văn gặp phải vấn đề trích chọn đặc trưng dạng thông tin đa phương tiện Lọc cộng tác thực tốt tất dạng thông tin gặp phải vấn đề liệu thưa, người dùng sản phẩm Trong báo này, đề xuất phương pháp hợp lọc cộng tác lọc nội dung phương pháp đồng huấn luyện Kết thử nghiệm liệu thực tế cho thấy phương pháp đề xuất tận dụng hiệu ưu điểm hạn chế đáng kể nhược điểm phương pháp lọc truyền thống Từ khóa: Lọc cộng tác, lọc nội dung, lọc kết hợp, đồng huấn luyện, học có giám sát, học không giám sát, học bán giám sát Title: Abstract: Keywords: Unifying Collaborative and Content-based Filtering by Semi-Supervised Learning A recommender system is an automated system that provides appropriate information and removing inappropriate information for users It is based on two main information filtering techniques: collaborative filtering and contentbased filtering Content-based filtering performs well with information in text form but has difficulty in feature selection with multimedia information Collaborative filtering performs well on all types of information but has problems with sparse data, new users, and new items In this paper, we propose a new model that unifies collaborative filtering and content-based filtering by a co-training method Experimental results on real datasets showed that the proposed method effectively makes use of the advantages of state-of-the-art filtering methods and significantly overcomes their disadvantages Collaborative filtering, content-based filtering, hybrid filtering, co-training, supervised learning, unsupervised learning, semi-supervised learning thông qua ma trận đánh giá R = [rix ], với i = 1, 2, , N; x = 1, 2, , M Giá trị rix thể đánh giá người dùng i ∈ U cho sản phẩm x ∈ P Thông thường rix nhận giá trị thuộc miền F = {1, 2, , g}, thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế ghi nhận phản hồi người dùng Giá trị rix = hiểu người dùng i chưa đánh giá chưa biết đến sản phẩm x Ma trận đánh giá hệ thống tư vấn thực tế thường thưa Mật độ giá trị rix thường nhỏ 1%, nghĩa hầu hết giá trị rix [1, 2] Ma trận R đầu vào hệ thống tư vấn cộng tác [3] I GIỚI THIỆU Người dùng sử dụng dịch vụ Internet trực tuyến ln tình trạng q tải thơng tin Để tiếp cận thơng tin hữu ích, người dùng thường phải xử lý, loại bỏ phần lớn thông tin không cần thiết Hệ tư vấn (recommender systems) cung cấp giải pháp nhằm giảm tải thông tin cách dự đoán cung cấp danh sách ngắn sản phẩm (trang web, tin, phim, video, v.v.) phù hợp cho người dùng Hệ tư vấn xây dựng dựa tập gồm N người dùng, U = {u1, u2, , u N }, P = {p1, p2, , p M }, tập gồm M sản phẩm Mỗi sản phẩm px ∈ P hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Để thuận tiện trình bày, ta viết px ∈ P ngắn gọn thành x ∈ P; ui ∈ U i ∈ U Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn Mỗi sản phẩm x ∈ P biểu diễn thông qua |C| đặc trưng nội dung, biểu diễn tập C = {c1, c2, , c |C | } Các đặc trưng s ∈ C có từ phương pháp trích chọn đặc trưng (feature extraction) lĩnh vực truy vấn Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng thơng tin Ví dụ, x ∈ P phim đặc trưng nội dung biểu diễn phim C = {thể loại phim, nước sản xuất, hãng phim, diễn viên, đạo diễn } Gọi wi = [wi1, wi2, , wi |C | ] véc tơ trọng số giá trị đặc trưng nội dung sản phẩm s người dùng i ∈ U Khi đó, ma trận trọng số W = [wis ], với i = 1, 2, , N, s = 1, 2, , |C|, đầu vào hệ thống tư vấn theo nội dung sản phẩm [2, 4] tiếp cận theo bốn xu hướng chính: kết hợp tuyến tính lọc cộng tác lọc nội dung, kết hợp đặc trưng lọc cộng tác vào lọc nội dung, kết hợp đặc trưng lọc nội dung vào lọc cộng tác xây dựng mơ hình hợp cho hai phương pháp lọc [2] Hai vấn đề cần giải phương pháp tiếp cận tìm phép biểu diễn hợp lý đánh giá người dùng lọc cộng tác với đặc trưng lọc nội dung phương pháp dự đoán chung cho hai phương pháp [1, 8] Mỗi người dùng i ∈ U biểu diễn thông qua tập T = {t1 , t2, , t |T | }, bao gồm |T | đặc trưng nội dung Các đặc trưng q ∈ T thông thường thông tin cá nhân người dùng (demographic information) Ví dụ, i ∈ U người dùng đặc trưng nội dung biểu diễn người dùng i T = {giới tính, độ tuổi, nghề nghiệp, trình độ, .} Gọi νx = [νx1, νx2, , νx |T | ] véc tơ trọng số biểu diễn giá trị đặc trưng nội dung người dùng q ∈ T sản phẩm x ∈ P Khi đó, ma trận trọng số V = [νxq ], với x = 1, 2, , M; q = 1, 2, , |T |, đầu vào hệ thống tư vấn theo nội dung thông tin người dùng [2, 5] Trong báo này, đề xuất mơ hình hợp lọc cộng tác lọc nội dung phương pháp học bán giám sát nhằm tận dụng lợi hạn chế khó khăn phương pháp lọc Phương pháp xây dựng dựa sở xây dựng mơ hình hợp đánh giá người dùng lọc cộng tác hồ sơ người dùng lọc nội dung để thống mơ hình dự đốn dựa vào người dùng Tiếp đến, chúng tơi xây dựng mơ hình hợp đánh giá sản phẩm lọc cộng tác hồ sơ sản phẩm lọc nội dung để thống mơ hình dự đốn dựa vào sản phẩm Cuối cùng, chúng tơi xây dựng mơ hình học bán giám sát để hợp hai phương pháp dự đoán dựa vào người dùng phương pháp dự đoán dựa vào sản phẩm Tiếp đến ta ký hiệu, Pi ⊆ P tập sản phẩm x ∈ P đánh giá người dùng i ∈ U Ux ⊆ U tập người dùng đánh giá sản phẩm x ∈ P Với người dùng cần tư vấn j ∈ U (được gọi người dùng thời, người dùng cần tư vấn, hay người dùng tích cực), nhiệm vụ phương pháp tư vấn gợi ý K sản phẩm x ∈ (P \ P j ) phù hợp người dùng j [3, 6] Bài báo có cấu trúc sau: Mục II trình bày phương pháp ước lượng trọng số đặc trưng nội dung người dùng sản phẩm lọc nội dung; Mục III trình bày phương pháp học bán giám sát dựa vào đánh giá người dùng, đặc trưng sản phẩm đặc trưng người dùng; Mục IV trình bày phương pháp thử nghiệm đánh giá; Mục V kết luận hướng phát triển báo Đã có nhiều đề xuất khác giải tốn tư vấn Tuy vậy, ta phân loại thành ba hướng tiếp cận chính: tư vấn theo nội dung, tư vấn cộng tác tư vấn kết hợp [1, 3, 7] Hệ tư vấn theo nội dung xây dựng phương pháp dự đoán dựa ma trận trọng số đặc trưng nội dung sản phẩm W = [wis ] ma trận trọng số đặc trưng nội dung người dùng V = [νxq ] [2, 4, 8] Lọc nội dung thực tốt loại thơng tin văn gặp khó khăn trích chọn đặc trưng sản phẩm đa phương tiện (ví dụ hình ảnh, âm thanh, v.v.) Một người dùng tham gia hệ thống có hồ sơ sử dụng sản phẩm tập rỗng (∅) Khi đó, hệ thống gợi ý sản phẩm phù hợp với người dùng [1, 8] II HỢP NHẤT BIỂU DIỄN GIÁ TRỊ CÁC ĐẶC TRƯNG NỘI DUNG Như giới thiệu trên, toán tư vấn kết hợp thực dự đoán dựa tập đánh giá người dùng sản phẩm, với tập đặc trưng nội dung sản phẩm đặc trưng người dùng Trong mục này, chúng tơi trình bày đề xuất phương pháp hợp biểu diễn giá trị đặc trưng nội dung vào ma trận đánh giá lọc cộng tác Đây bước xây dựng mơ hình học bán giám sát cho hệ tư vấn kết hợp Hệ tư vấn cộng tác xây dựng phương pháp dự đoán dựa ma trận đánh giá R = [rix ] [3, 8–10] Trong đó, giá trị rix phản ánh quan điểm người dùng i ∈ U sản phẩm x ∈ P Lọc cộng tác thực tốt tất loại thông tin, đặc biệt thông tin đa phương tiện (ví dụ hình ảnh, âm thanh, v.v.) Chính lý này, lọc cộng tác sử dụng rộng rãi lọc nội dung hệ thống thương mại điện tử [8] Thách thức lớn lọc cộng tác vấn đề liệu thưa, người dùng sản phẩm [1, 3] Không hạn chế tính tổng qt tốn phát biểu mục I, ta giả thiết giá trị đánh giá người dùng i ∈ U sản phẩm x ∈ P xác định theo công thức: rix = Hệ tư vấn kết hợp xây dựng phương pháp dự đoán dựa ba ma trận R, W, V [2, 6, 11] Hệ tư vấn kết hợp ν, người dùng i đánh giá sản phẩm x ν, 0, người dùng i chưa đánh giá sản phẩm x (1) Tập V-2, Số 18 (38), 12/2017 sản phẩm người dùng truy cập hay sử dụng khứ ước lượng trọng số đặc trưng nội dung sản phẩm hồ sơ người dùng [2, 4, 8] Gọi Pi ⊆ P, xác định theo công thức: Bảng I MA TRẬN ĐÁNH GIÁ R p1 p2 p3 p4 u1 u2 u3 Pi = { x ∈ P| rix MA TRẬN ĐẶC TRƯNG SẢN PHẨM C c1 c2 c3 1 p2 1 p3 1 p4 1 Gọi Item(i, s) tập sản phẩm Pi chứa đựng đặc trưng s ∈ C xác định theo công thức: Item(i, s) = { x ∈ Pi | cxs Bảng III MA TRẬN ĐẶC TRƯNG NGƯỜI DÙNG T t1 t2 t3 t4 u1 0 u2 1 u3 1 1, sản phẩm x có đặc trưng s, 0, sản phẩm x khơng có đặc trưng s 1, người dùng i có đặc trưng q, 0, người dùng i khơng có đặc trưng q (5) Dựa Pi Item(i, s), phương pháp tư vấn theo nội dung ước lượng trọng số wis phản ánh mức độ quan trọng đặc trưng nội dung s người dùng i Phương pháp phổ dụng sử dụng xây dựng hồ sơ người dùng kỹ thuật tf-idf [4, 8] Giá trị wis số thực trải khoảng [0, 1] Tuy nhiên, quan sát toán tư vấn cộng tác chúng tơi nhận thấy thân tồn phép đánh giá tự nhiên người dùng sản phẩm thông qua giá trị đánh giá rix Giá trị rix phản ánh mức độ ưa thích người dùng sau sử dụng sản phẩm đưa quan điểm sản phẩm Ví dụ với hệ tư vấn phim [7, 9, 10], giá trị rix = 1, 2, 3, 4, hiểu theo mức quan điểm “rất tồi”, “tồi’’, “bình thường”, “hay”, “rất hay” Chính lý đó, chúng tơi mong muốn có phép trích chọn đặc trưng có mức độ đánh giá tự nhiên rix (2) Mỗi người dùng i ∈ U biểu diễn thông qua tập T = {t1, t2, , t |T | }, bao gồm |T | đặc trưng nội dung, xác định theo công thức: tiq = (i ∈ U, s ∈ C)} Khi đó, |Item(i, s)| số lần người dùng i ∈ U sử dụng sản phẩm P chứa đựng đặc trưng s ∈ C khứ Mỗi sản phẩm x ∈ P biểu diễn thông qua tập C = {c1, c2, , c |C | }, bao gồm |C| đặc trưng nội dung, xác định theo công thức: cxs = (4) tập sản phẩm người dùng i ∈ U đánh giá Khi đó, Pi tập sản phẩm người dùng truy cập khứ phương pháp tư vấn theo nội dung sử dụng xây dựng hồ sơ người dùng Vấn đề lại làm ta ước lượng trọng số đặc trưng s ∈ C hồ sơ người dùng i ∈ U Bảng II p1 (i ∈ U)} , (3) Ví dụ, với hệ gồm người dùng, U = {u1, u2, u3 }, sản phẩm, P = {p1, p2, p3, p4 } Ma trận đánh giá R cho Bảng I; Ma trận đặc trưng nội dung sản phẩm C cho Bảng II; Ma trận đặc trưng nội dung người dùng T cho Bảng III Hệ tư vấn cộng tác xây dựng dựa ma trận đánh giá R [9, 12] Hệ tư vấn nội dung xây dựng dựa ma trận đặc trưng nội dung C T [4, 5] Hệ tư vấn lai xây dựng dựa ba ma trận R, C T [2, 13] Để thực ý tưởng nêu trên, thực quan sát tập Item(i, s) Nếu giá trị |Item(i, s)| vượt ngưỡng θ trọng số đặc trưng nội dung sản phẩm s ∈ C người dùng i ∈ U wis tính trung bình cộng tất giá trị đánh giá Trường hợp |Item(i, s)| có giá trị bé θ, giá trị wis tính tổng tất giá trị đánh giá chia cho θ Trong thử nghiệm, chúng tơi tính tốn số lượng trung bình tất người dùng đánh giá sản phẩm x ∈ P Sau đó, chọn θ tương đương với 2/3 số lượng trung bình đánh giá tập người dùng đánh giá sản phẩm x ∈ P chứa đựng đặc trưng s ∈ C Bằng cách ta hạn chế số đặc trưng nội dung người dùng quan tâm đánh giá với trọng số cao Hợp hồ sơ người dùng lọc nội dung vào ma trận đánh giá Để xây dựng hồ sơ sử dụng đặc trưng sản phẩm người dùng, cần thực hai nhiệm vụ: xác định tập Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông phương pháp tư vấn dựa vào (7) cho lại kết không cao Vấn đề giải mục báo Bảng IV MA TRẬN HỒ SƠ NGƯỜI DÙNG wis c1 c2 c3 u1 4 u2 u3 2 Hợp hồ sơ sản phẩm lọc nội dung vào ma trận đánh giá Tương tự hồ sơ người dùng, hồ sơ sản phẩm lưu trữ lại dấu vết đặc trưng nội dung người dùng sử dụng sản phẩm Để xây dựng hồ sơ sản phẩm, cần thực xác định tập người dùng sử dụng sản phẩm khứ ước lượng trọng số đặc trưng nội dung người dùng hồ sơ sản phẩm [2] Gọi Ux ⊆ U, xác định theo công thức: Bảng V MA TRẬN ĐÁNH GIÁ MỞ RỘNG rix THEO HỒ SƠ NGƯỜI DÙNG p1 p2 p3 p4 c1 c2 c3 u1 4 u2 3 u3 4 2 Ux = { i ∈ U| rix |Item(i, s)| ≥ θ, |Item(i, s)| < θ, Gọi User(x, q) tập người dùng có đặc trưng q ∈ T xác định theo công thức: (6) phản ánh quan điểm người dùng i ∈ U đặc trưng nội dung sản phẩm s ∈ C khứ Dễ dàng nhận thấy wis ∈ F, F = {1, 2, , g} Chính vậy, ta xem đặc trưng nội dung sản phẩm đóng vai trị sản phẩm phụ bổ sung vào tập sản phẩm Dựa nhận xét này, hợp ma trận đánh giá lọc cộng tác hồ sơ người dùng lọc nội dung thành mơ hình biểu diễn hợp đánh giá người dùng lọc cộng tác với đặc trưng sản phẩm lọc nội dung Ma trận đánh giá mở rộng theo hồ sơ người dùng xác định theo công thức: rix = rix, wis, x ∈ P, s ∈ C (x = s), (8) tập người dùng thuộc U sử dụng sản phẩm x ∈ P Khi đó, Ux tập người dùng cần lưu lại giá trị đặc trưng nội dung hồ sơ sản phẩm Vấn đề lại làm ta ước lượng trọng số đặc trưng q ∈ T hồ sơ sản phẩm x ∈ P Giá trị wis , ước lượng theo công thức:    rix,    |Item(i, s)| x ∈Item(i,s)  wis =   rix,    θ x ∈Item(i,s)  (x ∈ P)} , User(x, q) = i ∈ Ux | tiq (x ∈ P, q ∈ T) (9) Khi đó, |User(x, q)| số lần sản phẩm x ∈ P tập người dùng có đặc trưng nội dung q ∈ T sử dụng khứ Giống người dùng, thân sản phẩm tồn phép đánh giá tự nhiên tập người dùng sản phẩm thông qua giá trị đánh giá rix Do vậy, chúng tơi đề xuất phương pháp trích chọn đặc trưng nội dung người dùng có mức độ đánh giá với giá trị đánh giá rix Để thực điều này, tiến hành quan sát tập User(x, q) Nếu giá trị |User(x, q)| vượt q ngưỡng θ trọng số đặc trưng nội dung người dùng q ∈ T sản phẩm x ∈ P νxq tính trung bình cộng tất giá trị đánh giá Trường hợp |User(x, q)|có giá trị bé θ, giá trị νxq tính tổng tất giá trị đánh giá chia cho θ (7) x = s (s ∈ C) đóng vai trị sản phẩm phụ bổ sung vào ma trận đánh giá phía sản phẩm Ví dụ với hệ có ma trận đánh giá theo Bảng I, ma trận đặc trưng sản phẩm theo Bảng II, ma trận đặc trưng người dùng theo Bảng III, chọn θ = 2, ta tính tốn tập hồ sơ người dùng {wis |i ∈ U, s ∈ C} Bảng IV ma trận đánh giá mở rộng theo (7) Bảng V Giá trị νqx , ước lượng theo công thức: νqx Hệ tư vấn xác định theo (7) tích hợp đầy đủ đánh giá người dùng trọng số đặc trưng sản phẩm Chính vậy, phương pháp tư vấn kết hợp dựa vào người dùng dễ dàng triển khai ma trận đánh giá mở rộng theo hồ sơ người dùng [2, 6, 8] Do tính chất thưa thớt ma trận đánh giá ban đầu làm cho ma trận đánh giá mở rộng theo hồ sơ người dùng thưa thớt Chính vậy,    rix,   |User(x, q)|   i ∈User(x,q) =   rix,    θ i ∈User(x,q)  |User(x, q)| ≥ θ, |User(x, q)| < θ, (10) biểu diễn hồ sơ sản phẩm x ∈ P tập người dùng chứa đựng đặc trưng q ∈ T sử dụng Vì vậy, ta xem đặc trưng nội dung người dùng đóng vai trị người dùng phụ bổ sung vào tập người dùng Dựa Tập V-2, Số 18 (38), 12/2017 III MƠ HÌNH HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP Bảng VI MA TRẬN HỒ SƠ SẢN PHẨM νqx p1 p2 p3 p4 t1 2 t2 0 t3 t4 2 Như đề cập trên, phương pháp tư vấn dựa vào công thức (7) (11) gặp phải vấn đề liệu thưa [2, 3] Để khắc phục điều này, chúng tơi đề xuất thuật tốn tư vấn kết hợp phương pháp học bán giám sát Thuật toán xây dựng dựa hai thủ tục bán giám sát: bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm cho phép ta phát sản phẩm có khả cao phù hợp cho người dùng Những sản phẩm phát chuyển giao cho trình bán giám sát theo đánh giá sản phẩm tập đặc trưng người dùng Ngược lại, thủ tục bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng cho phép ta phát người dùng có khả phù hợp cao sản phẩm Những người dùng dự đoán chuyển giao cho trình bán giám sát theo tập đánh giá người dùng tập đặc trưng sản phẩm Hai trình bán giám sát thực đồng thời bổ sung qua lại giá trị dự đoán chắn cho để nâng cao chất lượng tư vấn Bảng VII MA TRẬN ĐÁNH GIÁ MỞ RỘNG rix THEO HỒ SƠ SẢN PHẨM p1 p2 p3 p4 u1 u2 u3 t1 2 t2 0 t3 t4 2 nhận xét này, hợp ma trận đánh giá lọc cộng tác hồ sơ sản phẩm lọc nội dung thành mơ hình biểu diễn hợp đánh giá sản phẩm lọc cộng tác với đặc trưng người dùng lọc nội dung Ma trận đánh giá mở rộng theo hồ sơ sản phẩm xác định theo công thức: rix = rix, νqx, i ∈ U rix 0, q ∈ T νqx (i = q), Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm Để hạn chế ảnh hưởng vấn đề liệu thưa, với người dùng i ∈ U xây dựng tập Si , định nghĩa theo công thức: (11) Si = { j ∈ U| Pi ∩ P j ≥ θ Ci ∩ C j ≥ θ }, (12) để giám sát việc tính tốn mức độ tương tự cặp người dùng Trong công thức (12), Pi xác định theo (4), Ci xác định đó, i = q (q ∈ T) đóng vai trò người dùng phụ bổ sung vào để mở rộng ma trận đánh giá phía người dùng Ci = {s ∈ C|ris Ví dụ với hệ có ma trận đánh giá theo Bảng I, ma trận đặc trưng người dùng theo Bảng III, chọn θ = 2, ta tính tốn tập hồ sơ sản phẩm {νqx |x ∈ P, q ∈ T } Bảng VI ma trận đánh giá mở rộng phía người dùng theo (11) Bảng VII 0} (13) Si xác định theo (12) tập người dùng thuộc U có số lượng đánh giá giao với người dùng i θ sản phẩm số lượng đặc trưng sản phẩm giao θ Hai số nguyên dương θ θ chọn đủ lớn tập liệu huấn luyện để Si khơng cịn tập liệu thưa Dựa vào Si độ tương quan Pearson [7, 8], bán giám sát việc tính tốn mức độ tương tự cặp người dùng lọc cộng tác theo công thức (14), bán giám sát việc tính tốn mức độ tương tự cặp người dùng lọc nội dung theo cơng thức (15), bán giám sát việc tính toán mức độ tương tự cặp người dùng lọc kết hợp theo công thức (16) (xem đầu trang sau) Hệ tư vấn xác định theo (11) tích hợp đầy đủ đánh giá sản phẩm trọng số đặc trưng người dùng Chính vậy, phương pháp tư vấn kết hợp theo sản phẩm dễ dàng triển khai ma trận đánh giá mở rộng theo hồ sơ sản phẩm [2, 10] Do tính chất thưa thớt ma trận đánh giá ban đầu làm cho ma trận đánh giá mở rộng theo hồ sơ sản phẩm thưa thớt Chính vậy, phương pháp tư vấn dựa vào (11) cho lại kết không cao Vấn đề giải mục báo Trong công thức (14), (15), (16), Pi xác định theo công thức (4), Ci xác định theo cơng thức (13); Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông j = bi j = ui j =                   0,            x ∈Pi ∩P j         0,                    0,  x ∈Pi ∩P j x ∈Hi ∩H j x ∈Hi ∩H j (rix − r i )2 s ∈Ci ∩C j s ∈Ci ∩C j (rix − r i )(r j x − r j ) x ∈Pi ∩P j (ris − ri )2 s ∈Ci ∩C j ri = Ci ∩ C j ri = Hi ∩ H j (r js − r j )2 x ∈Hi ∩H j (r js − r j )2 , , Si, j ∈ Si, i ∈ Si j ≥ α bi j ≥ α (16) dùng i ∈ U theo công thức: Ki = { j ∈ Si |ui j > α} (21) Phương pháp dự đoán sản phẩm x ∈ P chưa người dùng i biết đến thực theo công thức: [3, 9] (18) rix = r i + (19) s ∈Ci ∩C j rix (15) Si, x ∈Pi ∩P j ris, (14) trường hợp khác (17) rix, j ∈ Si, j (ris − r i )(r js − r j ) (ris − r i )2 , j (ris − ri )(r js − r j ) Hi , r i , ri , r i xác định theo công thức (17), (18), (19) (20), Hi = Pi ∪ Ci, ri = Pi ∩ P j (r j x − r j )2 j ∈Ki (r j x − r j )ui j ui j (22) j ∈Ki (20) Những sản phẩm x ∈ P có giá trị dự đốn rix theo (22) dự đoán tin cậy bổ sung vào ma trận đánh giá mở rộng theo hồ sơ sản phẩm để phục vụ trình bán giám sát theo tập đánh giá sản phẩm tập đặc trưng người dùng Phương pháp bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng chúng tơi trình bày mục báo x ∈Hi ∩H j Rõ ràng, j xác định Si theo (14) xác so với j xác định toàn tập người dùng U tập liệu huấn luyện Si chiếu lên cột sản phẩm khơng phải tập liệu thưa Giá trị bi j xác định Si theo (15) xác so với bi j xác định toàn đặc trưng sản phẩm C Si chiếu lên cột đặc trưng sản phẩm tập liệu thưa Giá trị ui j xác định theo (16) tin cậy so với ui j xác định tồn tập người dùng Si khơng phải tập liệu thưa toàn P ∪ C Hơn nữa, hai người dùng i, j có mức độ tương tự theo đánh giá người dùng tương tự theo hồ sơ người dùng phải vượt ngưỡng α Ngưỡng α xác định thông qua kiểm nghiệm Trong báo này, thực nghiệm chọn α = 0, để có kết tốt Bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng Tương tự người dùng, với sản phẩm x ∈ P, xây dựng tập Sx , định nghĩa theo công thức: Sx = {y ∈ P : Ux ∩ Uy ≥ γ1 Tx ∩ Ty ≥ γ2 }, (23) để giám sát việc tính toán mức độ tương tự cặp sản phẩm Trong công thức (23), Ux xác định theo công thức (8), Tx xác định theo công thức: Sau xác định mức độ tương tự cặp người dùng, xây dựng tập láng giềng cho người Tx = {q ∈ T : rqx 0} (24) Tập V-2, Số 18 (38), 12/2017 axy = bxy = pxy =                   0,            i ∈Ux ∩Uy         0,                    0,  i ∈Ux ∩Uy i ∈H x ∩Hy i ∈H x ∩Hy (rix − r x )2 q ∈Tx ∩Ty q ∈Tx ∩Ty (rix − r x )(riy − r y ) i ∈Ux ∩Uy (rqx − rx )2 q ∈Tx ∩Ty i ∈H x ∩Hy (riy − r y )2 rx = Tx ∩ Ty rx = Hx ∩ Hy , y ∈ Sx, y (26) Sx , y ∈ Sx axy ≥ α bxy ≥ α, Kx = {y ∈ Sx : pxy > α} (27) (32) Phương pháp dự đoán mức độ phù hợp người dùng i ∈ U sản phẩm x ∈ P thực theo công thức: [3, 7, 10] (29) rix = (30) y ∈K x y ∈K x q ∈Tx ∩Ty rix (rqy − ry )2 Sx , Sau xác định mức độ tương tự cặp sản phẩm, xây dựng tập láng giềng cho sản phẩm x ∈ P theo công thức: i ∈Ux ∩Uy rqx, y (25) định toàn tập đặc trưng người dùng T Sx chọn hàng đặc trưng người dùng tập liệu thưa Giá trị u xy xác định theo (27) tin cậy so với pxy xác định toàn tập sản phẩm đặc trưng người dùng Sx khơng phải tập liệu thưa toàn U ∪ T Hơn nữa, hai sản phẩm x, y có mức độ tương tự theo đánh giá sản phẩm tương tự theo hồ sơ sản phẩm phải vượt ngưỡng α Ngưỡng α xác định thông qua kiểm nghiệm Trong báo này, thực nghiệm chúng tơi chọn α = 0, để có kết tốt (28) rix, , y ∈ Sx, trường hợp khác Sx xác định theo (23) tập sản phẩm y ∈ P có số lượng người dùng đánh giá giao với sản phẩm x γ1 số lượng đặc trưng người dùng giao γ2 Hai số nguyên dương γ1 γ2 chọn đủ lớn tập liệu huấn luyện để Sx khơng cịn tập liệu thưa Dựa vào Sx độ tương quan Pearson, bán giám sát việc tính tốn mức độ tương tự cặp sản phẩm lọc cộng tác theo công thức (25), bán giám sát việc tính tốn mức độ tương tự cặp sản phẩm lọc nội dung theo cơng thức (26), bán giám sát việc tính toán mức độ tương tự cặp sản phẩm lọc kết hợp theo công thức (27) Trong công thức (25), (26), (27), Ux xác định theo công thức (8), Tx xác định theo công thức (24), Hx , r x , rx , r x xác định theo công thức (28), (29), (30), (31), Hx = Ux ∪ Tx, rx = Ux ∩ Uy , (rqx − rx )(rqy − ry ) (rix − r x )(riy − r y ) (rix − r x )2 (riy − r y )2 pxy riy pxy (33) Giá trị dự đoán rix theo (33) phản ánh mức độ phù hợp người dùng i ∈ U sản phẩm x ∈ P bổ sung vào ma trận đánh giá mở rộng theo sản phẩm để phục vụ trình bán giám sát theo tập đánh giá người dùng tập đặc trưng sản phẩm Hai trình bán giám sát thực đồng thời bổ sung qua lại cho giá trị dự đoán chắn rix để nâng cao kết tư vấn Thuật toán học bán giám sát đồng thời tập đánh giá người (31) i ∈H x ∩Hy Rõ ràng, axy xác định Sx theo (25) xác so với axy xác định toàn tập sản phẩm P tập liệu huấn luyện Sx chọn hàng người dùng tập liệu thưa Giá trị bxy xác định Sx theo (26) xác so với bxy xác Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Thuật tốn 1: Thuật toán học bán giám sát dùng, đặc trưng sản phẩm, tập đánh giá sản phẩm đặc trưng người dùng chúng tơi trình bày mục báo Đầu vào: Ma trận R = {rix } xác định theo (1) Ma trận C = {cxs } xác định theo (2) Ma trận T = {tiq } xác định theo (3) Người dùng i ∈ U người dùng cần tư vấn Đầu ra: (t) R = R(t) = {rix : i = 1, 2, , N; x = 1, 2, , M } Các bước tiến hành: begin Bước (Khởi tạo): t ← 0; //khởi tạo số bước lặp ban đầu (0) R = R(0) = {rix : i = 1, 2, , N; x = 1, 2, , M } Bước (Bước lặp): repeat 2.1 Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm: a) Xác định trọng số đặc trưng nội (t) dung sản phẩm wis vịng lặp thứ t theo cơng thức (6) b) Mở rộng ma trận đánh giá theo hồ sơ (t) vịng lặp thứ t người dùng rix theo cơng thức (7) c) Xác định Si(t) theo công thức (12) d) Tính tốn ui(t)j theo cơng thức (16) Thuật tốn học bán giám sát cho lọc kết hợp Như trình bày trên, phương pháp bán giám sát theo đánh giá người dùng tập đặc trưng sản phẩm cho phép ta phát sản phẩm phù hợp người dùng Phương pháp bán giám sát theo đánh giá sản phẩm tập đặc trưng người dùng cho phép ta phát người dùng phù hợp sản phẩm Trong mục này, đề xuất xây dựng thuật toán học bán giám sát đồng thời để xử lý q trình chuyển giao kết dự đốn trình bán giám sát từ tập đánh giá người dùng tập đặc trưng sản phẩm đến trình bán giám sát từ tập đánh giá sản phẩm tập đặc trưng người dùng, thuật toán đề xuất mơ tả chi tiết Thuật tốn Tại bước (2.2), trình bán giám sát theo tập đánh giá sản phẩm tập đặc trưng người dùng thực theo bước (2.2.a), (2.2.b), (2.2.c), (2.2.d), (2.2.e), (t) (2.2.f) Tại bước (2.2.a) ta xác định νqx phản ánh quan điểm tập người dùng có đặc trưng nội dung q ∈ U sản phẩm x ∈ C vòng lặp thứ (t) theo công (t) thức (10) Sử dụng νqx , bước (2.2.b) ta xây dựng ma trận đánh giá mở rộng theo hồ sơ sản phẩm vòng lặp thứ (t) theo công thức (11) Dựa vào kết bước (2.2.b), bước (2.2.c) ta xác định tập Sx(t) tập liệu không thưa sản phẩm x ∈ P vòng lặp thứ (t) theo công thức (23) Sử dụng si(t) , bước (2.2.d) ta xác (t) định Pxy mức độ tương tự cặp sản phẩm x, y ∈ P tập đánh giá sản phẩm tập đặc trưng người dùng vịng lặp thứ (t) theo cơng thức (27) Sau tính tốn p(t) xy , bước (2.2.e) ta xác định (t) Kx tập láng giềng sản phẩm x vòng lặp thứ (t) theo công thức (32) Cuối cùng, bước (2.2.f) ta dự đoán (t) giá trị rix phản ánh mức độ phù hợp người dùng i ∈ U sản phẩm x ∈ P vòng lặp thứ (t) Các giá (t) trị rix dự đoán vòng lặp thứ (t) cập nhật lại ma trận đánh giá mở rộng R(t) chuyển giao cho trình huấn luyện theo tập đánh giá người tập đặc trưng sản phẩm bước lặp thuật toán e) Xác định Ki(t) theo công thức (21) (t) theo công thức (22) f) Dự đoán giá trị rix 2.2 Bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng: a) Xác định trọng số đặc trưng nội (t) dung người dùng νqx vịng lặp thứ t theo cơng thức (10) b) Mở rộng ma trận đánh giá theo hồ sơ (t) sản phẩm rix theo công thức (11) c) Xác định Sx(t) theo cơng thức (23) d) Tính tốn p(t) xy theo cơng thức (27) (t) e) Xác định Kx theo công thức (32) (t) theo công thức (33) f) Dự đoán giá trị rix 2.3 Tăng bước lặp: t ← t + 1; until Converges Bước (sinh tư vấn): Sắp xếp sản phẩm (t) theo thứ tự giảm dần rix ; Chọn k sản phẩm x tư vấn cho người dùng i ; end Tại bước (2.3), số lượng vòng lặp (t) tăng lên đơn vị thuật toán tiếp tục lặp lại trình huấn luyện đồng thời Thuật tốn hội tụ vịng lặp thứ (t) có (t−1) ui(t)j = ui(t−1) p(t) xy = p xy Tại bước thuật toán, j trình tạo nên tư vấn thực đơn giản cách (t) xếp theo thứ tự giảm dần giá trị dự đoán rix , sau (t) dó chọn k sản phẩm x có giá trị rix lớn tư vấn cho người dùng i IV ĐÁNH GIÁ THỰC NGHIỆM Để đánh giá hiệu phương pháp tư vấn kết hợp đề xuất, tiến hành thử nghiệm Tập V-2, Số 18 (38), 12/2017 liệu thực phim [14] Phương pháp trình bày đánh giá so sánh với phương pháp khác theo thủ tục mơ tả tốn mơ tả Với người dùng i thuộc tập liệu kiểm tra, đánh giá (đã có) người dùng chia làm hai phần Oi Pi Oi coi biết, Pi đánh giá cần dự đoán từ liệu huấn luyện Oi [7, 8] Dữ liệu thử nghiệm Sai số dự đoán MAEu với khách hàng u thuộc tập liệu kiểm tra tính trung bình cộng sai số tuyệt đối giá trị dự đoán giá trị thực tất mặt hàng thuộc tập Pu , Thuật toán học bán giám sát cho lọc kết hợp thử nghiệm liệu MovieLens nhóm nghiên cứu GroupLens thuộc trường đại học Minnesota [14] Tập liệu MovieLens có ba lựa chọn với kích thước khác là: MovieLens 100 KB, MovieLens MB MovieLens 10 MB Trong đó, tập liệu MovieLens 100 KB tập tập MovieLens MB Tập liệu MovieLens MB cung cấp đầy đủ tập đặc trưng sản phẩm người dùng kèm theo tập đánh giá người dùng Tập liệu MovieLens 10 M lớn không cung cấp tập đặc trưng người dùng tập đặc trưng sản phẩm Chính vậy, chúng tơi sử dụng tập liêu MovieLens M để tiến hành thử nghiệm cho phương pháp đề xuất MAEu = |Pu | y ∈Pu rˆuy − ruy (34) Sai số dự đoán tồn tập liệu kiểm tra, MAE, tính trung bình cộng sai số dự đốn cho khách hàng thuộc Ute , MAEu MAE = u ∈Ute |Ute | (35) Tập liệu MovieLens gồm 1MB đánh giá 6040 người dùng cho 3952 phim Giá trị đánh giá thực từ đến Mức độ thưa thớt liệu đánh giá 99.1% Dữ liệu cụ thể cung cấp tệp tin sau [14]: Giá trị MAE nhỏ phương pháp dự đốn có độ xác cao [2, 7] ◦ u.data: Tệp tin lưu trữ đầy đủ MB đánh giá 6040 người dùng cho 3952 phim Mỗi người dùng đánh giá 20 phim Mỗi hàng có cấu trúc: user id | item id | rating | timestamp ◦ u.info: Tệp tin lưu số lượng người dùng, số lượng sản phẩm, số lượng xếp hạng tập liệu ◦ u.item: Tệp tin lưu thông tin phim ◦ u.genre: Tệp tin lưu danh sách 19 thể loại phim khác Đây tập đặc trưng nội dung sản phẩm dùng thử nghiệm phương pháp đề xuất Ngoài ra, ứng với phim tách IMDB (Internet Movie Database) [15] để lấy tập đặc trưng nước sản xuất, hãng phim, đạo diễn, diễn viên để làm tập đặc trưng phim ◦ u.user: Tệp tin lưu thông tin người dùng Các hàng có cấu trúc chung: user id | age | gender | occupation | zip code user id sử dụng tập liệu u.data ◦ u.occupation: Tệp tin lưu danh sách nghề nghiệp Đây tập đặc trưng nội dung người dùng dùng thử nghiệm phương pháp đề xuất Phương pháp học bán giám sát đề xuất mục (ký hiệu Semi-Learning) thử nghiệm so sánh với phương pháp sau: So sánh đánh giá ◦ Phương pháp tư vấn cộng tác dựa vào người dùng sử dụng độ tương quan Pearson (ký hiệu CFUserBased) [3, 9] ◦ Phương pháp tư vấn cộng tác dựa vào sản phẩm sử dụng độ tương quan Pearson (ký hiệu CFItemBased) [3, 10] ◦ Phương pháp tư vấn nội dung dựa vào hồ sơ người dùng sử dụng độ tương quan Pearson (ký hiệu CBFUserBased) [4] ◦ Phương pháp tư vấn nội dung dựa vào hồ sơ sản phẩm sử dụng độ tương quan Pearson (ký hiệu CBFItemBased) [5] ◦ Phương pháp tư vấn kết hợp dựa vào người dùng tập đặc trưng sản phẩm sử dụng độ tương quan Pearson (ký hiệu Hybrid-UserBased) Đây phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson đề xuất theo công thức (16) ◦ Phương pháp tư vấn kết hợp dựa theo sản phẩm tập đặc trưng người dùng sử dụng độ tương quan Pearson (ký hiệu Hybrid-ItemBased) Đây phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson đề xuất theo công thức (27) Phương pháp thử nghiệm Trước tiên, toàn liệu thử nghiệm chia thành hai phần, phần Utr sử dụng làm liệu huấn luyện, phần lại Ute sử dụng để kiểm tra Tập Utr chứa 80% đánh giá tập Ute chứa 20% đánh giá Dữ liệu huấn luyện sử dụng để xây dựng mơ hình theo thuật Lấy ngẫu nhiên 4000 người dùng tập MovieLens làm liệu huấn luyện Chọn ngẫu nhiên 1000 người dùng số lại để làm tập liệu kiểm tra (test1.inp, Các công trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông UserBased CF-UserBased cho lại giá trị MAE 0,865; 0,859; 0,855; 0,835 0,824; 0,817; 0,821; 0,813 so với 0,793; 0,792; 0,791; 0,702 phương pháp HybridUserBased Phương pháp Hybrid-ItemBased cho lại giá trị MAE thấp so với phương pháp CBF-ItemBased CF-ItemBased Với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20 phương pháp CBF-ItemBased CF-ItemBased cho lại giá trị MAE 0,894; 0,833; 0,875; 0,845 0,846; 0,841; 0,836; 0,815 so với 0,798; 0,788; 0,782; 0,695 phương pháp Hybrid-ItemBased Điều lý giải phương pháp tính tốn mức độ tương tự cặp người dùng tập đánh giá người dùng đặc trưng sản phẩm xác so với phương pháp tính tốn mức độ tương tự cặp người dùng dựa vào đánh giá người dùng hồ sơ người dùng Phương pháp tính tốn mức độ tương tự cặp sản phẩm tập đánh giá sản phẩm đặc trưng người dùng xác so với phương pháp tính tốn mức độ tương tự cặp sản phẩm dựa vào đánh giá sản phẩm hồ sơ sản phẩm Bảng VIII GIÁ TRỊ MAE CỦA CÁC PHƯƠNG PHÁP Số lượng đánh giá biết trước Phương pháp tập kiểm tra 10 15 20 CBF-USERBASED 0,865 0,859 0,855 0,835 CBF-ITEMBASED 0,894 0,883 0,875 0,845 CF-USERBASED 0,824 0,817 0,821 0,813 CF-ITEMBASED 0,846 0,841 0,836 0,815 HYBRID-USERBASED 0,793 0,792 0,791 0,702 HYBRID-ITEMBASED 0,798 0,788 0,782 0,695 SEMI-LEARNING 0,672 0,629 0,617 0,585 test2.inp, test3.inp, test4.inp) Đối với tập liệu kiểm tra, thực loại bỏ ngẫu nhiên đánh giá cho số đánh giá biết trước người dùng sản phẩm lại 5, 10, 15 20 đánh giá Tập test1.inp, test2.inp, test3.inp có số đánh giá giá biết trước người dùng 5, 10, 15 tương ứng với trường hợp liệu huấn luyện thưa Tập test4.inp có số đánh giá giá biết trước 20 tương ứng với trường hợp liệu huấn luyện tương đối đầy đủ Chọn θ = 4, 8, 12, 15 ứng với liệu kiểm tra (test1.inp, test2.inp, test3.inp, test4.inp) theo thứ tự để xác định xác định wis , νqx theo công thức (6), (10) Chọn θ = 4, 8, 12, 15 (cho tập liệu theo thứ tự), θ = 10 α = 0, (cho tất tập liệu kiểm tra) để xác định Si , ui j , Ki theo công thức (12), (16), (21), Sx , pxy , Kx theo công thức (23), (27), (32) Giá trị MAE Bảng VIII lấy trung bình 10 lần thử nghiệm ngẫu nhiên Giá trị MAE nhỏ chứng tỏ phương pháp có kết dự đốn tốt [2, 7, 12] Phương pháp Semi-Learning cho lại giá trị MAE thấp tất mức độ thưa thớt liệu khác Đối với tập liệu kiểm tra có đánh giá biết trước, phương pháp Hybrid-UserBased Hybrid-ItemBased cho lại giá trị MAE 0,793; 0,798 so với 0,672 phương pháp Semi-Learning Với tập liệu kiểm tra có 10 đánh giá biết trước, phương pháp Hybrid-UserBased Hybrid-ItemBased cho lại giá trị MAE 0,792; 0,788 so với 0,629 phương pháp Semi-Learning Với tập liệu kiểm tra có 15 đánh giá biết trước, phương pháp Hybrid-UserBased Hybrid-ItemBased cho lại giá trị MAE 0,791; 0,782 so với 0,617 phương pháp Semi-Learning Đặc biệt, với tập liệu kiểm tra có 20 đánh giá biết trước, phương pháp cho lại giá trị MAE 0,585 Điều khẳng định phương pháp xác định độ tương tự dựa tập không thưa người dùng sản phẩm hoàn toàn tin cậy Phương pháp chuyển giao kết dự đoán trình bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm tập đánh giá sản phẩm tập đặc trưng người dùng hạn chế hiệu vấn đề liệu thưa phương pháp lọc Kết Bảng VIII cho thấy phương pháp tư vấn nội dung dựa vào hồ sơ người dùng hồ sơ sản phẩm cho lại giá trị MAE lớn so với phương pháp lại Phương pháp tư vấn cộng tác dựa vào đánh giá người dùng đánh giá sản phẩm cho lại giá trị MAE nhỏ so với phương pháp tư vấn theo nội dung Cụ thể, ứng với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20, phương pháp CBF-UerBased CBF-Itembased cho lại giá trị MAE 0,865; 0,859; 0,855; 0,835 0,894; 0,883; 0,876; 0,845 theo thứ tự Trong đó, phương pháp CF-UserBased CF-ItemBased cho lại giá trị MAE 0,824; 0,817; 0,821; 0,813 0,846; 0,841; 0,836; 0,815 theo thứ tự Kết hoàn toàn phù hợp với nghiên cứu trước [1–3] V KẾT LUẬN Bài báo đề xuất mơ hình hợp lọc cộng tác lọc theo nội dung phương pháp học bán giám sát Phương pháp tiến hành cách hợp biểu diễn giá trị đặc trưng sản phẩm vào lọc cộng tác để thống phương pháp dự đoán dựa vào người dùng Sau đó, xây dựng phương pháp hợp biểu diễn giá trị đặc trưng người dùng vào lọc cộng tác để thống phương pháp dự đoán dựa vào sản phẩm Cuối cùng, chúng Phương pháp Hybrid-UserBased cho lại giá trị MAE thấp nhiều so với phương pháp CBF-UserBased CFUserBased Cụ thể ứng với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20 phương pháp CBF10 Tập V-2, Số 18 (38), 12/2017 xây dựng phương pháp học bán giám sát để chuyển giao kết dự đoán hai phương pháp dự đoán theo người dùng dự đoán theo sản phẩm Để phát huy ưu điểm hạn chế nhược điểm phương pháp lọc, đề xuất xây dựng hai kiểu bán giám sát: bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm tiến hành cách xây dựng tập không thưa người dùng Bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng tiến hành cách xác định tập không thưa sản phẩm Dựa tập không thưa người dùng sản phẩm, hạn chế q trình tính tốn mức độ tương tự cặp người dùng, tập láng giềng của người dùng sản phẩm để xác định kết dự đoán chắn Trên sở hai trình bán giám sát xây dựng, chúng tơi đề xuất xây dựng thuật tốn học bán giám sát để chuyển giao kết dự đoán trình bán giám sát Kết thực nghiệm liệu thực phim cho thấy, phương pháp đề xuất cho lại kết dự đoán tốt trường hợp liệu thưa [10] B Sarwar, G Karypis, J Konstan, and J Riedl, “Itembased collaborative filtering recommendation algorithms,” in Proceedings of the 10th International Conference on World Wide Web ACM, 2001, pp 285–295 [11] R Burke, F Vahedian, and B Mobasher, “Hybrid recommendation in heterogeneous networks,” in International Conference on User Modeling, Adaptation, and Personalization Springer, 2014, pp 49–60 [12] S Raghavan, S Gunasekar, and J Ghosh, “Review quality aware collaborative filtering,” in Proceedings of the sixth ACM Conference on Recommender systems ACM, 2012, pp 123–130 [13] J Wang, A P De Vries, and M J Reinders, “Unifying userbased and item-based collaborative filtering approaches by similarity fusion,” in Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ACM, 2006, pp 501–508 [14] http://www.grouplens.org/ [15] http://www.imdb.com/ Đỗ Thị Liên tốt nghiệp Đại học nhận Thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng vào năm 2010 2013 Hiện nay, tác giả giảng viên Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu tác giả học máy ứng dụng lọc thông tin phát triển ứng dụng đa phương tiện TÀI LIỆU THAM KHẢO [1] M D Ekstrand, J T Riedl, J A Konstan et al., “Collaborative filtering recommender systems,” Foundations and Trends R in Human–Computer Interaction, vol 4, no 2, pp 81–173, 2011 [2] R Burke, “Hybrid recommender systems: Survey and experiments,” User Modeling and User-Adapted Interaction, vol 12, no 4, pp 331–370, 2002 [3] X Su and T M Khoshgoftaar, “A survey of collaborative filtering techniques,” Advances in Artificial Intelligence, vol 2009, pp 1–20, 2009 [4] T Miranda, M Claypool, A Gokhale, T Mir, P Murnikov, D Netes, and M Sartin, “Combining content-based and collaborative filters in an online newspaper,” in In Proceedings of ACM SIGIR Workshop on Recommender Systems, 1999 [5] M J Pazzani, “A framework for collaborative, content-based and demographic filtering,” Artificial Intelligence Review, vol 13, no 5-6, pp 393–408, 1999 [6] A Gunawardana and C Meek, “A unified approach to building hybrid recommender systems,” in Proceedings of the third ACM Conference on Recommender Systems ACM, 2009, pp 117–124 [7] J L Herlocker, J A Konstan, L G Terveen, and J T Riedl, “Evaluating collaborative filtering recommender systems,” ACM Transactions on Information Systems (TOIS), vol 22, no 1, pp 5–53, 2004 [8] A Gunawardana and G Shani, “A survey of accuracy evaluation metrics of recommendation tasks,” Journal of Machine Learning Research, vol 10, no Dec, pp 2935– 2962, 2009 [9] J S Breese, D Heckerman, and C Kadie, “Empirical analysis of predictive algorithms for collaborative filtering,” in Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence Morgan Kaufmann Publishers Inc., 1998, pp 43–52 Nguyễn Duy Phương tốt nghiệp Đại học nhận Thạc sĩ Trường Đại học Tổng hợp Hà Nội vào năm 1988 1997 Năm 2010, ông bảo vệ luận án Tiến sĩ Đại học Quốc gia Hà Nội Hiện nay, ơng Phó Trưởng khoa Cơng nghệ Thơng tin, Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu ơng học máy ứng dụng lọc thông tin Từ Minh Phương tốt nghiệp Trường Đại học Bách khoa Taskent năm 1993 bảo vệ Tiến sĩ Viện Hàn lâm Khoa học Uzbekistant, Taskent năm 1995 Hiện nay, ông Phó Giáo sư, Trưởng Khoa Cơng nghệ Thơng tin, Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu ơng trí tuệ nhân tạo, học máy, tin sinh học 11 ... hình hợp lọc cộng tác lọc theo nội dung phương pháp học bán giám sát Phương pháp tiến hành cách hợp biểu diễn giá trị đặc trưng sản phẩm vào lọc cộng tác để thống phương pháp dự đoán dựa vào người... đầu vào hệ thống tư vấn theo nội dung sản phẩm [2, 4] tiếp cận theo bốn xu hướng chính: kết hợp tuyến tính lọc cộng tác lọc nội dung, kết hợp đặc trưng lọc cộng tác vào lọc nội dung, kết hợp. .. đầu vào hệ thống tư vấn theo nội dung thông tin người dùng [2, 5] Trong báo này, đề xuất mơ hình hợp lọc cộng tác lọc nội dung phương pháp học bán giám sát nhằm tận dụng lợi hạn chế khó khăn phương

Ngày đăng: 18/05/2021, 17:15

Tài liệu cùng người dùng

Tài liệu liên quan