CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
và tập bình luận liên quan là
và tập bình luận liên quan là
𝑝
𝑖
= { , …, }, với Nlà số lượng bình luận của
𝑅
𝑖 𝑟
𝑖, 1 𝑟
𝑖, 𝑁 𝑝
𝑖
Mỗi bình luận có một nhãn 𝑠 thể hiện độ tin cậy của bình luận 𝑖, 𝑗∊ {0, ..., 𝑆)
. Vì đây là bài tốn xếp hạng, do vậy nhãn ground-truth của được sắp xếp
𝑟
𝑖, 𝑗 𝑅
𝑖
là dự đốn điểm số tin cậy của 𝑅sau đó xếp hạng tập bình luận và so sánh với 𝑖
kết quả gốc. Ví dụ, với một sản phẩm X, tương ứng sẽ có 5 bình luận A, B, C, D, E. Mơ hình sẽ dự đốn điểm số cho 5 bình luận này, sau đó xếp hạng chúng theo thứ tự giảm dần điểm số. Thứ tự của 5 bình luận sẽ được so với xếp hạng gốc để kiểm tra mức độ chính xác của xếp hạng. Điểm số tin cậy của bình luận
được dự đốn được kí hiệu là
𝑟 𝑖, 𝑗 = 𝑠 𝑖, 𝑗 𝑓(𝑝 𝑖, 𝑟 𝑖, 𝑗)
trong đó là hàm dự đốn độ tin cậy cho đầu vào là cặp sản phẩm - bình luận𝑓 < 𝑝
𝑖, 𝑟
𝑖, 𝑗 >
Trong bài toán dự đoán độ tin cậy bình luận, sản phẩm 𝑝 bao gồm mơ tả 𝑖
tương ứng 𝑇 , ảnh sản phẩm , trong khi đó với bình luận bao gồm văn bản
𝑝 𝐼
𝑝 𝑟
𝑖, 𝑗
và ảnh . Sau khi đã định nghĩa các đối tượng trong dữ liệu, chúng ta cần tìm
𝑇
𝑟 𝐼
𝑟
cách trích xuất và biểu diễn đặc trưng của chúng.
Biểu diễn đặc trưng
Cho một văn bản ( hoặc𝑇 ) có từ { } và một tập ảnh ( cho sản
𝑝 𝑇 𝑟 𝑙 𝑇 ω 1, ..., ω 𝑙𝑇 𝐼 𝑝
phẩm hoặc 𝐼 cho bình luận). Một mạng nơ-ron tích chập (CNN) được sử dụng 𝑟
để học biểu diễn ngữ cảnh của biểu diễn văn bản. Đối với dữ liệu hình ảnh, cơ chế self-attention được sử dụng trên các đặc trưng vùng ảnh để thu được vectơ biểu diễn. Chi tiết về phương thức sẽ được trình bày ở phần tiếp theo. Để tránh nhầm lẫn, những định nghĩa, tên biến liên quan đến sản phẩm và bình luận sẽ được sử dụng ký tựp vàrtương ứng.
Nhắc đến mạng nơ-ron tích chập mọi người thường nghĩ đến ngay những ứng dụng của chúng trong bài tốn liên quan đến hình ảnh (nhận diện vật thể, theo dõi chuyển động, …). Tuy nhiên, [37, 39] đề xuất việc sử dụng mơ hình CNN trong xử lý ngôn ngữ tự nhiên nhằm học được biểu diễn văn bản. Cụ thể trong bài toán này, mỗi từ ωtrong bài bình luận được chuyển thành một vectơ nhúng
thơng qua một lớp nhúng. Sau đó, những từ đã được học đó được nhúng
𝑤
𝑖 ∊ 𝑅𝑑
qua một mạng CNN một chiều để trích xuất biểu diễn đa gờ ram (multi-gram). Các phương pháp tiếp cận thông thường đều coi n-gram là term rời rạc và sử dụng chúng như một đơn vị riêng biệt. Tức là, ví dụ với bigram “white house” là một từ, có tần suất xuất hiện riêng và chỉ có thể được đối sánh với “white house” trong các truy vấn. Tuy nhiên, việc xử lý n-gram trong mạng nơ-ron sẽ chiếu tất cả n-gram vào một không gian nhúng thống nhất, cho phép so khớp với n-gram có độ dài khác nhau. Ví dụ “white house” khi này có thể cung cấp thông tin cho việc truy vấn đến “George Walker Bush”. Lúc đó, mỗi vectơ nhúng từ 𝑤được