CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.5. Hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý
2.5.1. Tổng quan về hệ thống gợi ý
Hệ thống gợi ý (Recommender Systems - RS) là một dạng của hệ thống lọc thơng tin (information filtering), được sử dụng để dự đốn sở thích (preference) hay xếp hạng (rating) mà người dùng cĩ thể dành cho một mục (item) nào đĩ chưa được xem xét trong quá khứ (chẳng hạn như sách, bài hát, tài nguyên học tập...). Hiện nay, các hệ thống RS đã được sử dụng trong nhiều lĩnh vực khác nhau và được triển khai ngày càng nhiều trên Internet (Park et al., 2012; Bobadilla et al., 2013).
Trong RS, thơng thường người ta quan tâm đến ba thơng tin chính là người dùng (user) như người học, người xem phim; mục tin (item) như sách, bài hát, tài nguyên học tập; và phản hồi (feedback) của người dùng trên mục tin đĩ, thường là các xếp hạng/đánh giá (rating), biểu diễn mức độ thích/quan tâm của người dùng (Nguyễn Thái Nghe, 2016). Trong đĩ, mỗi dịng là một user, mỗi cột là một item và mỗi ơ là một giá trị feedback biểu diễn preference hay rating của user trên item tương ứng như Hình 2.7.
Hình 2.7: Ma trận biểu diễn dữ liệu trong RS (user-item-rating matrix)
Các ơ cĩ giá trị là những item mà các user đã xếp hạng trong quá khứ. Do mỗi user chỉ xếp hạng cho một vài item, do vậy cĩ rất nhiều ơ trống trong ma trận chưa được xếp hạng, gọi là ma trận thưa (sparse matrix). Nhiệm vụ chính của RS là dựa vào dữ liệu quá khứ được ghi nhận trong các ơ của ma trận để dự đốn các ơ cịn trống thơng qua mơ hình đã được xây dựng, sau đĩ sắp xếp kết quả dự đốn (từ cao xuống thấp) và chọn ra Top N items theo thứ tự, từ đĩ gợi ý cho người dùng. Bài tốn gợi ý cĩ thể được biểu diễn một cách khái quát như sau:
Gọi U là một tập hợp n người dùng (user), |U| = n, và u là một người dùng cụ thể nào đĩ (u U); I là một tập hợp m mục thơng tin (item), |I| = m, và i là một mục thơng
tin cụ thể nào đĩ (i I); R là một tập hợp các giá trị phản hồi của người dùng và rui
R (R) là xếp hạng của người dùng u trên mục thơng tin i.
Gọi Dtrain U × I × R là tập dữ liệu huấn luyện; Dtest U × I × R là tập dữ liệu
Mục tiêu (objective function) của RS là tìm một hàm ��̂: U × I sao cho một như Root Mean Squared Error thì cần phải được tối thiểu hĩa như biểu thức 2.6:
2.6
Giá trị rui cĩ thể được xác định một cách tường minh (explicit feedbacks) thơng qua việc đánh giá, xếp hạng (ví dụ như rating từ đến hay like thì cĩ giá kiểm thử; r: U × I R (u, i) ↦ rui
hàm mục tiêu (��, ��̂) thỏa mãn một điều kiện nào đĩ. Ví dụ, nếu là một hàm ước
lượng độ chính xác thì hàm này cần phải được tối đa hĩa, cịn nếu là hàm để đo độ lỗi
1
� ������� − ��̂(��,��)�
�������� = � |�� �������� |
2
trị 1 và dislike thì cĩ giá trị 0) mà u đã bình chọn cho i; hoặc tiềm ẩn (implicit feedbacks) thơng qua thời gian mà người dùng u đã duyệt hoặc xem mục thơng tin i.
Cĩ 2 dạng bài tốn chính trong RS là dự đốn xếp hạng (rating prediction) của các hệ thống cĩ phản hồi tường minh (như trình bày ở trên) và dự đốn mục thơng tin (item prediction/recommendation) là việc xác định xác suất mà người dùng thích mục tin tương ứng (Pilászy and Tikk, 2009).