Mô tả dữ liệu

Một phần của tài liệu Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử (Trang 48 - 51)

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

4.1 Mô tả dữ liệu

Mục này trình bày thơng tin tập dữ liệu được sử dụng để đánh giá chất lượng mơ hình, q trình tiền xử lý và thống kê số lượng dữ liệu. Bộ dữ liệu và q trình tiền xử lý, chuẩn hóa và chia bộ dữ liệu đều được thực hiện dựa trên cách thức được trình bày trong nghiên cứu của mơ hình MCR nhằm đảm bảo độ tin cậy khi so sánh 2 mơ hình.

Dữ liệu được trích từ tập dữ liệu Amazon review dataset (ARD) [19] được thu thập từ trang web thương mại điện tử Amazon.com bao gồm metadata của sản phẩm (tiêu đề, mơ tả, hình ảnh, ngày đăng, …) và những bình luận của khách hàng từ năm 1996 đến 2018. Tuy nhiên hành vi bình luận sản phẩm có những thay đổi theo thời gian, do đó, để phù hợp với thời đại, chỉ những sản phẩm và bình luận từ sau năm 2016 được trích xuất cho mơ hình. Dữ liệu hình ảnh trong bộ dữ liệu Amazon thực chất là đường dẫn liên kết đến hình ảnh, vì vậy cần thực hiện thu thập hình ảnh từ những đường dẫn đó trên nền tảng Amazon. Hiện tại, ARD có khoảng hơn 20 chuyên mục sản phẩm thuộc nhiều lĩnh vực trong cuộc sống. Tuy nhiên bài toán sẽ tập trung vào 3 chuyên mục đó là: Clothing, Shoes & Jewelry (Clothing), Electronics (Electronics), và Home & Kitchen (Home).

Hình 4.1 Quá trình tiền xử lý dữ liệu bình luận

Mỗi bình luận trong tập dữ liệu có một trường thơng tin ghi lại điểm số độ hữu ích của bình luận. Điểm số này là số lượt bình chọn (voting) đến từ những khách hàng khác dành cho bình luận ấy. Điều này thể hiện rằng, một bình luận có lượt voting cao mang đến độ tin cậy và hữu ích cho những người mua hàng khác. Từ đó, số lượt voting của một bình luận có thể được coi như nhãn giả (pseudo label) thể hiện cho mức độ tin cậy của nó. Dựa trên q trình tiền xử lý dữ liệu tại [29], ta lọc những bình luận có lượt bình chọn bằng 0 vì chúng khơng thể hiện rõ ràng phản hồi của khách hàng. Ngồi ra, do có rất nhiều giá trị voting có thể có, nên những votes này sẽ được chuẩn hố lại thành 5 mục nhãn tương ứng với 5 mức độ tin cậy dựa. Cụ thể, những lượt bình chọn trong 5 khoảng ([1, 4], (4, 8), [8,16), [16, 32), [32,+ ∞)) sẽ được chuyển thành các giá trị

, với giá trị cao hơn thể hiện độ tin cậy cao hơn [6, 29].

𝑠

Bảng 4.1 Thống kê số lượng mẫu trên ba tập dữ liệu. Số lượng mẫu (#Sản phẩm/#Bình luận)

#Train #Dev #Test

Clothing 1026/12664 342/4210 343/4028

Elec 1374/39636 458/12983 459/12155

Home 2173/32163 725/10108 725/10896

Trên thực tế, có những sản phẩm chỉ có vài lượt bình luận thậm chí khơng có bình luận nào hoặc có hàng nghìn bình luận. Để phù hợp với mơ hình xếp hạng, những sản phẩm có q ít hoặc q nhiều lượt bình luận sẽ bị loại đi. Cụ thể sản phẩm có số lượng bình luận nằm trong khoảng [10, 200] sẽ được giữ lại. Sau đó, tiến hành chia tập dữ liệu thành dữ liệu huấn luyện (training set), bình luận (valid set) và kiểm tra (test set) với tỷ lệ 6:2:2 [27]. Bảng 4.1 trình bày về số lượng sản phẩm và bình luận trong mỗi tập trên 3 chuyên mục khác nhau.

Tập huấn luyện sẽ được đưa vào mơ hình huấn luyện. Mơ hình sau đó được đánh giá trên tập valid nhằm xác định mơ hình đã hội tụ hay chưa. Mơ hình sau khi hội tụ sẽ được sử dụng để đưa ra kết quả dự đoán trên tập test nhằm đánh giá độ ổn định và kiểm tra overfitting.

Một phần của tài liệu Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử (Trang 48 - 51)

Tải bản đầy đủ (PDF)

(70 trang)