Phương pháp biễu diễn dữ liệu ẩn

Trong hệ thống gợi ý nội dung sử dụng phản hồi ẩn của người dùng, ta gọi các phản hồi âm là chỉ đánh giá không thích, phản hồi dương là đánh giá thích tin tức nào đó và những tin tức mà người dùng chưa thấy để đọc hoặc chưa có tương tác là các giá trị thiếu thì các hệ thống gợi ý sử dụng phản hồi ẩn thường chỉ chứa dữ liệu quan sát dương S ⊆ U x I. Các tin tức mà người dùng chưa quan sát, tương tác là sự trộn lẫn của giá trị phản hồi âm và những giá trị thiếu. Vì vậy, cách tạo ra tập dữ liệu huấn luyện thường là với những cặp (u, i)∈ S thuộc lớp dương sẽ được gán giá trị 1, còn lại tất cả sẽ được gán giá trị 0 [15]. i1 i2 i3 i4 i5 i1 i2 i3 i4 i5 u1 ? + ? ? + u1 0 1 0 0 1 u2 + ? ? ? + u2 1 0 0 0 1 u3 + + ? ? ? u3 1 1 0 0 0 u4 + ? + ? + u4 1 0 1 0 1 u5 ? ? + + + u5 0 0 1 1 1

Phương pháp này có nhược điểm là trong suốt quá trình huấn luyện, các mô hình sẽ không phân biệt được đâu là phản hồi âm và đâu là giá trị cần dự đoán vì các giá trị thiếu và các phản hồi âm đều được gán là giá trị 0.

Phương pháp so sánh cặp được tôi sử dụng trong hệ thống gợi ý sử dụng phản hồi ẩn thay vì chỉ đưa ra dự đoán xếp hạng cho từng tin tức hoặc chỉ thay thế các giá trị cần xếp hạng bằng một giá trị âm. Phương pháp này được trình bày rất rõ trong tài liệu của Rendle [20].

Từ dữ liệu S đã có, chúng ta thực hiện xây dựng lại tập dữ liệu huấn luyện Ds dựa vào mối quan hệ thích hơn giữa các tin tức cho mỗi người dùng u (>u). Giả sử rằng, mỗi khi người dùng u ((u, i)∈ S) xem một tin tức i thì người dùng u thích i hơn tất cả các tin tức chưa xem khác. u1: i > u1 j i1 i2 i3 i4 i5 j1 + ? ? + i1 i2 i3 i4 i5 j2 - - - ? u1 ? + ? ? + j3 ? + ? + u2 + ? ? + j4 ? + ? + u3 + + ? ? ? j5 - ? - - u4 + ? + ? + … u5 ? ? + + + … u5: i > u5 j i1 i2 i3 i4 i5 j1 ? + + + j2 ? + + + j3 - - ? ? j4 - - ? ? j5 - - ? ?

Phía bên trái hình 3.7 biểu diễn quan hệ thích hơn cho các tin tức của người dùng u1: i2 > u1 i1; i2 > u1 i3; i2 > u1 i4; i5 > u1 i1; i5 > u1 i3; i5 > u1 i4.

Đối với các tin tức mà người dùng chưa đọc (tin tức i1, i3 và i4 trong hình 3.7), hệ thống sẽ không sử dụng quan hệ thích hơn do chưa có thông tin. Đồng thời, hệ thống cũng sẽ không sử dụng so sánh thích hơn đối với các tin tức mà người dùng đã đọc (như trong hình 3.7, các tin tức đó là i2 và i5) do hệ thống đã mặc định rằng người dùng có cùng mức độ thích các tin tức này.

Trong hình 3.7, bên phải là cách biểu diễn dữ liệu được dùng trong hệ thống. Dấu ? là các cặp tin tức cần xếp hạng, dấu + thể hiện người dùng thích tin tức i hơn tin tức j (i và j là như nhau), dấu – thể hiện người dùng thích tin tức j hơn tin tức i. Bài toán của hệ thống ở đây trở thành dự đoán các giá trị ? trong ma trận bên phải hình 3.7, sau khi có giá trị dự đoán, sắp xếp các giá trị này từ cao xuống thấp và đưa ra một số lượng N tin tức cần gợi ý.

Ta biểu diễn Ds dưới dạng:

{( , , ) || u ^ \ u}

Ds u i j iI jI I (3.1)

Trong hệ thống gợi ý sử dụng phản hồi ẩn, các phản hồi ẩn của người dùng sẽ được tự động ghi nhận lại bởi hệ thống thông qua các tương tác của người dùng đối với hệ thống. Người dùng sẽ không phải đánh giá thích hay không thích hoặc đánh giá từ 1 sao đến 5 sao cho mỗi tin tức như các hệ thống khác. Các phương pháp thu thập phản hồi ẩn từ hệ thống là:

1. Đánh dấu tin tức 2. Bình luận tin tức

3. Chia sẻ tin tức qua mạng xã hội 4. In tin tức

5. Gửi thông tin tin tức qua email cho bạn bè

Mỗi khi người dùng sử dụng một trong các chức năng trên, hệ thống sẽ ghi nhận và cập nhật vào cơ sở dữ liệu. Để thuận tiện cho việc tính toán, tôi coi trọng số của mỗi chức năng trên là 1/5 (tức 0,2), tổng trọng số sẽ là 1. Ban đầu, trọng số trên mỗi tin tức đối với một người dùng là 1/5, cứ mỗi lần người dùng sử dụng một chức năng khác (không tính lặp lại), trọng số sẽ được tăng lên 1/5. Trọng số này chính là thông tin phản hồi của người dùng đối với một tin tức. Tin tức nào được người dùng sử dụng nhiều chức năng hơn, tin tức đó sẽ được người đó thích hơn các tin tức được người đó sử dụng ít chức năng hơn. Như vậy, thông tin phản hồi của người dùng u cho tin tức i được tính theo công thức:

𝑟𝑢𝑖 =𝑠ố 𝑙ượ𝑛𝑔 𝑐ℎứ𝑐 𝑛ă𝑛𝑔 𝑝ℎả𝑛 ℎồ𝑖 ẩ𝑛 𝑚à 𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑡𝑟𝑜𝑛𝑔 𝑚ụ𝑐 𝑡𝑖𝑛 𝑖

tổng số chức năng phản hồi ẩn của hệ thống (3.2)

Mô tả kiến trúc hệ thống

Thực nghiệm và đánh giá