CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
chiều không gian ngữ nghĩa, là số lượng RoI được trích xuất Tương tự với
𝐼
biểu diễn văn bản, đặc trưng hình ảnh của sản phẩm và bình luận lần lượt được kí hiệu là𝑉 và .
𝑝 𝑉
𝑟
Phân tích mối liên hệ giữa sản phẩm - bình luận
Bên cạnh việc phân tích các bình luận để dự đốn độ tin cậy của chúng, thì thơng tin sản phẩm mà bài bình luận nhắc đến cũng rất hữu ích. Một tiêu chí bình luận được coi là tin cậy, hữu ích khi bình luận ấy phải có liên quan đến sản phẩm tương ứng. Tức là, giữa sản phẩm và bình luận có một liên kết nhất qn với nhau. Ví dụ với sản phẩm chuột máy tính, bình luận phải nói về chuột máy tính, có thể khen hoặc chê, nhưng khơng thể đưa bình luận về một chiếc túi xách. Do đó, luận văn đề xuất một mơ-đun để suy đốn mối liên hệ sản phẩm - bình luận. Có 2 phương thức liên kết đó là inter và intra sẽ lần lượt được trình bày bên dưới.
Phương thức kết hợp intra hay phương thức kết hợp trong tập trung xác định hai loại kết hợp:
(i) liên kết ngữ nghĩa giữa văn bản sản phẩm và văn bản bình luận; (ii) Liên kết ngữ nghĩa giữa hình ảnh sản phẩm và hình ảnh bình luận. Tại đây, độ đo cosin được sử dụng để định lượng được sự tương đồng của những đối tượng trên. Đối với biểu diễn văn bản𝐻 và , độ tương đồng định tính như sau:
𝑝𝑖 𝑖 𝐻 𝑟 𝑗 , 𝑆 𝑖, 𝑗 𝐻 = 𝑐𝑜𝑠𝑖𝑛𝑒(𝐻 𝑝 𝑖 , 𝐻 𝑟 𝑗 ) ∀𝑖, 𝑗 ∈ {1, ..., 𝑘 𝑚𝑎𝑥}
trong đó, 𝑆 với và lần lượt là độ dài văn bản của sản phẩm và 𝑖, 𝑗 𝐻 ∈ ℜ 𝑙𝑇 𝑝 ×𝑙𝑇 𝑟 𝑙 𝑇𝑝 𝑙 𝑇𝑟
bình luận. Do sử dụng nhiều biểu diễn k-gram, do vậy, tất cả những ma trận liên kết cần được xếp chồng lên nhau để tạo nên một đặc trưng thống nhất𝑆𝐻. Khơng mất tính tổng qt, ma trận liên kết của hình ảnh giữa 𝑉 và cũng được tính
𝑝 𝑉
𝑟
thơng qua độ đo cosin. Tương tự với đặc trưng văn bản, ta thu được ma trận với và là số đặc trưng vùng quan tâm của sản phẩm và bình luận.
𝑆𝑉 ∈ ℜ 𝑙 𝐼𝑝×𝑙 𝐼𝑟 𝑙 𝐼 𝑝 𝑙 𝐼 𝑟
Tuy nhiên, vì số chiều tức số lượng thông tin từ các đặc trưng ban đầu khá lớn và nhiễu. Do đó, để trích xuất những thơng tin hữu ích nhất và để đảm bảo hiệu suất mơ hình, ta đưa ma trận liên kết vừa thu được (bao gồm𝑆𝐻và 𝑆𝑉) qua một mạng CNN và chỉ lấy top-K giá trị trong mỗi đặc trưng được chọn để làm đặc trưng tổng hợp:
,
𝑜
𝑖𝑛𝑡𝑟𝑎𝑀 = 𝑇𝑜𝑝𝐾(𝐶𝑁𝑁([𝑆𝐻, 𝑆𝑉]))
là đặc trưng phương thức liên kết intra. M là số lớp bộ lọc
𝑜