Bài viết này đề xuất một hướng tiếp cận đa quan hệ khác cho hệ thống gợi ý, từ đó xây dựng thuật toán cho hướng tiếp cận đã đề xuất. Thực nghiệm trên các tập dữ liệu chuẩn trong lĩnh vực gợi ý dùng độ đo RMSE (Root Mean Squared Error) cho thấy hướng tiếp cận đã đề xuất cho kết quả rất khả quan.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00060 MỘT TIẾP CẬN ĐA QUAN HỆ CHO HỆ THỐNG GỢI Ý Nguyễn Thái Nghe, Mai Nhựt Tự, Nguyễn Hữu Hòa Khoa Công nghệ thông tin & Truyền Thông, Trường Đại học Cần Thơ {ntnghe,nhhoa}@ctu.edu.vn, mntu.it@gmail.com TÓM TẮT — Kỹ thuật phân rã ma trận (matrix factorization - MF) kỹ thuật sử dụng phổ biến hệ thống gợi ý (Recommender Systems – RS) Hiện có nhiều thuật toán biến thể hướng tiếp cận phát triển dựa kỹ thuật này, Biased matrix factorization, Non-negative matrix factorization, phân rã ma trận đa quan hệ (multi-relational matrix factorization - MRMF), Bài viết đề xuất hướng tiếp cận đa quan hệ khác cho hệ thống gợi ý, từ xây dựng thuật toán cho hướng tiếp cận đề xuất Thực nghiệm tập liệu chuẩn lĩnh vực gợi ý dùng độ đo RMSE (Root Mean Squared Error) cho thấy hướng tiếp cận đề xuất cho kết khả quan Từ khoá — Phân rã ma trận; phân rã ma trận đa quan hệ; hệ thống gợi ý I GIỚI THIỆU Hệ thống gợi ý (Recommender Systems - RS) ứng dụng rộng rãi hệ thống thông tin thuộc nhiều lĩnh vực khác nhau, giúp giải vấn đề tải thông tin giúp lựa chọn thông tin cách nhanh chóng cách trình bày nội dung gợi ý phù hợp với người dùng Để cung cấp cho người dùng thông tin gợi ý hiệu hệ thống gợi ý cần có mơ hình gợi ý khai thác tốt liệu thu thập để đưa gợi ý phù hợp cho người dùng, việc lựa chọn thuật tốn xây dựng mơ hình gợi ý quan trọng Trong RS có nhiều giải thuật đề xuất, nhiên ta gom chúng vào ba nhóm (xem thêm [1], [2]) Nhóm giải thuật lọc nội dung (Content-based Filtering): Thực việc gợi ý mục liệu (item) dựa vào hồ sơ (profiles) người dùng dựa vào thuộc tính (attributes) item tương tự item mà người dùng chọn khứ Nhóm giải thuật lọc cộng tác (Collaborative Filtering): Các giải thuật nhóm chủ yếu dựa kỹ thuật: phương pháp láng giềng (Neighborhood-based) dựa vào liệu khứ người dùng “tương tự” (user-based approach) dựa liệu khứ item “tương tự” (item-based apprach); dựa mơ hình (Model-based): nhóm xây dựng mơ hình dự đốn dựa liệu thu thập khứ Nhóm kết hợp cách Trong nhóm giải thuật lọc cộng tác dựa mơ hình kỹ thuật phân rã ma trận (matrix factorization - MF) phương pháp thành công (state-of-the-art) lĩnh vực dự đoán xếp hạng RS [3], [4] Tuy nhiên, đa số giải thuật thuộc nhóm MF tập trung khai thác thơng tin mối quan hệ đơn người dùng (user) mục liệu (item) chẳng hạn quan hệ đánh giá (rating), giải thuật chưa tận dụng hết thông tin liên quan từ mối quan hệ khác user item Để tận dụng hết thông tin, người ta đề xuất phương pháp phân rã ma trận đa quan hệ (multi-relational matrix factorization - MRMF) [5], [6], nghiên cứu này, công thức dùng cho dự đốn chưa bao gồm hết thơng tin từ ma trận nhân tố tiềm ẩn (sẽ phân tích sau) Trong viết này, đề xuất hướng tiếp cận đa quan hệ cho hệ thống gợi ý cho phép tận dụng thông tin từ nhiều mối quan hệ khác user item q trình xây dựng mơ hình đưa gợi ý, từ xây dựng thuật tốn cho hướng tiếp cận đề xuất Chúng thực nghiệm tập liệu chuẩn lĩnh vực Hệ thống gợi ý lĩnh vực Hệ trợ giảng thơng minh để đánh giá độ xác mơ hình thơng qua số RMSE (Root Mean Squared Error) Kết cho thấy hướng tiếp cận đề xuất giúp cải thiện độ xác II KỸ THUẬT PHÂN RÃ MA TRẬN ĐA QUAN HỆ VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN Trước tiên chúng tơi tóm tắt ngắn gọn kỹ thuật phân rã ma trận quan hệ đơn (MF) (xem thêm viết [4]) kỹ thuật phân rã ma trận đa quan hệ (MRMF) (xem thêm viết [5], [11]) để làm sở cho việc đề xuất hướng tiếp cận đa quan hệ A Kỹ thuật phân rã ma trận (Matrix Factorization - MF) Kỹ thuật phân rã ma trận việc chia ma trận lớn R thành hai ma trận W1 W2 có kích thước nhỏ nhiều so với ma trận R, cho R xây dựng lại từ hai ma trận nhỏ xác tốt [4], nghĩa minh hoạ Hình MỘT TIẾP CẬN ĐA QUAN HỆ CHO HỆ THỐNG GỢI Ý 496 Hình Minh họa kỹ thuật phân rã ma trận | | ma trận mà dòng u véctơ bao gồm K nhân tố tiềm ẩn (latent factors) mô tả | | cho người dùng u, ma trận mà dòng i véctơ bao gồm K nhân tố tiềm ẩn mô tả cho mục liệu i Gọi phần tử tương ứng hai ma trận hay véctơ bao gồm K nhân tố tiềm ẩn mô tả cho người dùng u item i xếp hạng user u item i dự đốn cơng thức: ̂ ∑ (1) tham số mơ hình (còn gọi ma trận nhân tố tiềm ẩn) mà cần phải xác định cách tối ưu hóa hàm mục tiêu (2) theo điều kiện đó, chẳng hạn RMSE (root mean squared error) Hàm mục tiêu dùng cho việc tối ưu hoá để xác định ∑ ( ) trình bày sau: ‖ ‖ ‖ ‖ (2) ‖ ‖ ‖ ‖ dùng Với λ hệ số tắc hóa (0 ≤ λ