Kết quả thực nghiệm

Một phần của tài liệu Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử (Trang 56 - 63)

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

4.3 Kết quả thực nghiệm

Đánh giá hiệu quả của GCN

Mục này trình bày một số kết quả thử nghiệm mơ hình đề xuất (GCR) trên 3 bộ dataset Clothing, Electronics, và Home. Mỗi dữ liệu sẽ được thử nghiệm với 3 loại pre-trained embedding khác nhau cho mơ hình encoder văn bản bao gồm GloVe, Fasttext và Word2Vec. Để đánh giá độ hiệu quả của mơ hình đề xuất, em so sánh kết quả trên cả 3 độ đo của GCR với mơ hình cơ sở MCR.

Bảng 4.2 So sánh kết quả mơ hình GCR với MCR trên bộ nhúng GLoVE

MCR (GLoVE) GCR (GLoVE) Độ cải thiện (%) Clothing MAP 0.550 0.578* 5,097 NDCG@3 0.442 0.486 9.938 NDCG@5 0.515 0.557* 8.036 Electronics MAP 0.548 0.564* 2.980 NDCG@3 0.333 0.356 7.009 NDCG@5 0.346 0.368 6.340 Home MAP 0.577 0.588* 1.908 NDCG@3 0.447 0.469* 5.001 NDCG@5 0.514 0.533* 3.779

Với việc mơ hình cơ sở được công bố hoạt động trên bộ embedding GLoVE, do vậy trước hết ta sẽ so sánh chất lượng mơ hình GCR với MCR trên bộ nhúng GLoVE. Kết quả tổng hợp sau khi chạy thực nghiệm mơ hình cơ sở và mơ hình đề xuất (GCR) trên 3 bộ dữ liệu Amazon được trình bày trong bảng 4.2. Trong đó, dấu * thể hiện kết quả có mang ý nghĩa thống kê thơng qua kiểm thử t-test.

Độ cải thiện thể hiện mức độ phần trăm chất lượng mơ hình trên độ đo được tăng lên đối với điểm số trên mơ hình cơ sở. Cụ thể:

Độ 𝑐ả𝑖 𝑡ℎ𝑖ệ𝑛 (%) = (Đ𝑖ể𝑚 𝑠ố đá𝑛ℎ 𝑔𝑖á 𝑡𝑟ê𝑛 𝑚ơ ℎì𝑛ℎ đề 𝑥𝑢ấ𝑡 − Đ𝑖ể𝑚 𝑠ố đá𝑛ℎ 𝑔𝑖á 𝑡𝑟ê𝑛 𝑚ơ ℎì𝑛ℎ 𝑐ơ 𝑠ở)*100Đ𝑖ể𝑚 𝑠ố đá𝑛ℎ 𝑔𝑖á 𝑡𝑟ê𝑛 𝑚ơ ℎì𝑛ℎ 𝑐ơ 𝑠ở

Với bộ dữ liệu CS&J, khi so sánh mơ hình đề xuất GCR với mơ hình cơ sở MCR, mơ hình GCR cho kết quả tốt hơn ở cả 3 độ đo MAP, NDCG@3 và NDCG@5 với độ chênh lệch trung bình là khoảng 7.6%. Tương tự với 2 tập dữ liệu thử nghiệm còn lại, GCR tốt hơn khoảng 3.5% trên H&K và 5.4 % trên Elec. Như vậy, mơ hình đề xuất hoạt động hiệu quả hơn trên cả 3 bộ dữ liệu được sử dụng. Điều này thể hiện rằng việc sử dụng GCN để học đặc trưng mạng đồ thị mang đến kết quả cao hơn so với dùng mơ hình MLP. GCN khi đó có thể nắm bắt được những thông tin quan trọng về không gian trong mạng, thứ mà những mạng truyền thống như MLP không thể làm được [23].

Đánh giá ảnh hưởng của các mơ hình nhúng

Bảng 4.3 So sánh chất lượng mơ hình GCR trên ba tập dữ liệu với ba bộ nhúng đề xuất GCR (GLoVE) GCR (FastText) GCR (Word2Vec) Clothing MAP 0.578 0.584 0.608* NDCG@3 0.486 0.501 0.544* NDCG@5 0.557 0.573 0.607* Electronics MAP 0.564 0.365 0.574* NDCG@3 0.356 0.360 0.369 NDCG@5 0.368 0.368 0.381 Home MAP 0.588 0.590 0.599 NDCG@3 0.469 0.474 0.494 NDCG@5 0.533 0.541 0.557

Phần trên đã trình bày hiệu quả vượt trội của mơ hình GCR so với MCR trong bài tốn dự đốn độ tin cậy của bình luận. Tiếp tục, mơ hình GCR sẽ được thử nghiệm dùng 3 bộ embedding khác nhau đã nêu ở trên để đánh giá ảnh hưởng của chúng. Kết quả từ bảng 4.3 cho thấy, Word2Vec cho kết quả vượt trội nhất trên cả 3 bộ dữ liệu, sau đó đến FastText và cuối cùng là GLoVE. Để trực quan hoá hơn trong việc xem xét kết quả, 3 hình dưới đây thể hiện sự khác biệt về mặt hiệu suất trên 3 độ đo của từng dataset.

Hình 4.4 So sánh kết quả MCR giữa ba mơ hình nhúng trong tập Clothing

Hình 4.6 So sánh kết quả MCR giữa ba mơ hình nhúng trong tập Home&Kitchen

Với những thực nghiệm của mơ hình đề xuất trên 3 embedding khác nhau, kết quả cho thấy, Word2Vec cho kết quả tốt nhất trong tất cả các thử nghiệm, sau đó đến FastText và cuối cùng là GLoVE. Như vậy, rõ ràng việc thay đổi bộ embedding ngơn ngữ có thể mang đến ảnh hưởng rõ rệt đến chất lượng của mơ hình.

GLoVE tập trung vào sự đồng xuất hiện của các từ trong tồn bộ tập dữ liệu. Do đó, việc nhúng từ của nó liên quan đến xác suất hai từ đồng thời xuất hiện. GLoVE sử dụng phương pháp factorize ma trận đồng xuất hiện của từ nhằm suy luận embedding cho từng từ.

Word2Vec cũng sử dụng từ làm đơn vị nhỏ nhất để nhúng, tuy nhiên Word2Vec sử dụng mạng nơron để học, do vậy nó có thể học được những pattern ẩn mà GLoVE không học được.

FastText cũng dựa trên Word2Vec nhưng thay vì dùng từ làm đơn vị nhỏ nhất, FastText xem xét đến mức độ n-gram của từ. Việc này cho phép đào tạo cách nhúng trên các tập dữ liệu nhỏ hơn và tổng quát thành các từ không xác định.

Tuy phương pháp này có thể giảm việc out-of-vocabulary tức các từ không xuất hiện trong tập nhúng, nhưng đồng thời nó cũng có thể bắt được các từ nhiễu (viết thiếu, viết tắt, ký hiệu, …) vốn là đặc điểm của văn bản trên khơng gian mạng. Điều này có thể dẫn đến chất lượng mơ hình khơng tốt bằng với Word2Vec.

Đánh giá độ cải thiện của mơ hình GCR dùng Word2Vec với mơ hình cơ sở

Bảng 4.4 So sánh sự cải thiện hiệu quả của mơ hình GCR dùng Word2Vec với mơ hình cơ sở

MCR

(GLoVE) (Word2Vec)GCR Độ cải thiện(%) Clothing MAP 0.550 0.608* 10.55 NDCG@3 0.442 0.544* 23.08 NDCG@5 0.515 0.607* 17.86 Electronics MAP 0.548 0.574* 4.74 NDCG@3 0.333 0.369* 10.81 NDCG@5 0.346 0.381* 10.12 Home MAP 0.577 0.599* 3.81 NDCG@3 0.447 0.494* 10.51 NDCG@5 0.514 0.557* 8.37

Xem xét độ cải thiện chất lượng mơ hình trên 3 bộ dữ liệu khi sử dụng mơ hình GCR dùng Word2Vec, có thể thấy mơ hình này mang đến kết quả tốt hơn hẳn so với GCR dùng GLoVE khi so với mơ hình cơ sở. Ngồi ra, tất cả giá trị độ đo cũng đều có ý nghĩa thống kê khi so sánh với MCR. Như vậy, việc sử dụng mơ hình GCR cho bài tốn dự đốn độ tin cậy bình luận với dữ liệu văn bản và hình ảnh cho kết quả tốt hơn MCR - một mơ hình state-of-the-art hiện tại với dữ liệu đa phương thức. Ngoài ra việc dùng embedding Word2Vec sẽ giúp cải thiện thêm chất lượng bộ dự đoán tốt hơn 2 bộ khác là GLoVE và FastText.

Việc sử dụng GCN ngoài việc mang đến hiệu quả mơ hình tốt hơn trên các độ đo đánh giá, nó cịn giúp tăng tốc độ huấn luyện do số lượng tham số ít hơn so với mạng MLP. Thực nghiệm huấn luyện mơ hình trên GPU cho thấy, bộ nhớ chiếm dụng trong quá trình huấn luyện của GCN ít hơn so với mơ hình cơ sở dùng MLP trên cùng một tập dữ liệu và bộ siêu tham số lớn hơn. Điều này dẫn đến thời gian huấn luyện của mơ hình đề xuất trên một iteration nhanh hơn mơ hình cơ sở do số lượng tham số cần tối ưu ít hơn.

Bảng 4.5 So sánh hiệu suất huấn luyện bao gồm bộ nhớ chiếm dụng và tốc độ huấn luyện trên một lần lặp của GCR và MCR trên ba bộ dữ liệu

Clothing Electronics Home MCR Bộ nhớ chiếm dụng (MegaBytes) 9956 10504 9850 Tốc độ huấn luyện (s/it) 0.51 0.81 0.36 GCR Bộ nhớ chiếm dụng (MegaBytes) 8308 9820 8304 Tốc độ huấn luyện (s/it) 0.46 0.75 0.29

Bộ nhớ chiếm dụng được đo đạc thông qua kiểm tra bộ nhớ trên GPU mà mơ hình huấn luyện sử dụng, đảm bảo chỉ có mơ hình hoạt động trên GPU đó. Các tham số của mơ hình được đẩy vào lưu trữ trong GPU và huấn luyện trên đó. Do vậy, bộ nhớ chiếm dụng cũng thể hiện số lượng tham số mà mơ hình sử dụng. Với việc các thiết đặt đều giống nhau giữa mơ hình cơ sở và mơ hình đề xuất, việc bộ nhớ GPU của mơ hình đề xuất thấp hơn thể hiện số lượng tham số cần đào tạo của GCR ít hơn MCR. Điều này dẫn đến thời gian huấn luyện trên một lần lặp qua một mẫu dữ liệu của GCR nhanh hơn MCR. Như vậy, về mặt hiệu năng, mơ hình đề xuất cho kết quả vượt trội hơn so với mơ hình cơ sở.

Một phần của tài liệu Phân tích độ tin cậy của bình luận trên trang web thương mại điện tử (Trang 56 - 63)

Tải bản đầy đủ (PDF)

(70 trang)