ĐẦU RA Hình 4.1. Mô hành tổng quan của hệ thống chatbot
CHƯƠNG 5. THU NGHIEM, ĐÁNH GIÁ
2) Đánh giá mô đun chuyển đổi đại từ
5.4 Đánh giá các mô hình chon câu phản hồi
Chúng tôi tiến hành thực hiện huấn luyện mô hình với các thủ tục khác nhau:
- Huấn luyện trên bộ dữ liệu UIT-VED-27K.
- Sử dụng tích vô hướng hoặc hàm mục tiêu mới [4.6].
- Có và không thực hiện phương pháp nối thêm cảm xúc.
- Tinh chỉnh lần một trên bộ dữ liệu UVA với tốc độ học 1e-4 sau đó tinh chỉnh lần hai trên bộ dữ liệu UIT-VED-27K với tốc độ học nhỏ hơn (1e-5), các câu ứng viên chỉ lấy theo bộ dữ liệu UIT-VED-27K.
56
5.4.1 Các kết quả đánh giá mô hình
Tiên hành Bộ dữ liệu P@1,100 BLEU
PhoBERT UVM 20.67 5.53
PhoBERT + Phân loại và nỗi thêm cảm xúc UVM 18.67 4.69
PhoBERT + Nối thêm cảm xúc (Ours) UVM 23.33 6.74
PhoBERT UIT-VED-27K 25.00 6.19
PhoBERT + Nồi thêm cảm xúc (Ours) UIT-VED-27K 28.33 6.55
Hình 5.1. Kết quả đánh giá mô hành sử dụng phương pháp nối thêm cam xúc
va mô hành sử dung bộ phân loại cam xúc.
Bộ dữ liệu P@1,100 BLEU
UIT-VED-27K 27.00 6.38
Hình 5.2. Kết quả đánh giá mô hình sử dung ham mục tiêu méi va mô hình sử
dung tích v6 hướng.
57
Tiến hành Bộ dữ liệu P@1,100 BLEU Độ liên quan Độ đồng cảm
PhoBERT UVM 20.67 5.53 3.5 3.5
PhoBERT UIT-VED-27K 25.00 6.19 4.60 4.43
PhoBERT
+ Nối thêm cảm xúc
` va . UIT-VED-27K 30.67 6.46 4.67 4.83
+ Ham mục tiêu mới
(Ours)
_PhoBERT
+ Noi thém cam XÚC UIT-VED-27K 37.67 6.51 417 4.60
+ Ham mục tiêu mới +UVA
(Ours)
Hình 5.3. Kết quả đánh giá mô hình khi kết hợp phương pháp nối thêm cam
xúc va hàm mục tiêu méi được thực hiện trên bộ dt liệu UIT-VED-27K.
5.4.2 Nhận xét
ô Nhỡn chung, cỏc kết quả từ mụ hỡnh của chỳng tụi cao hơn so với [2] trờn hai
bộ dữ liệu UVM và bộ dit liệu UIT-VED-27K, điều đó cho thấy số lượng cùng chất lượng bộ dữ liệu đều đóng vai trò quan trọng trong hệ thống chatbot sử dụng mô đun truy vấn thông tin.
ô Dữ liệu huấn luyện càng nhiều càng cải thiện kết quả P@1,100 nhưng
P@1,100 không đánh giá được chất lượng câu phản hồi, riêng trường hợp tỉnh chỉnh trên bộ dữ liệu UVA (hình 5.3 - dòng dưới cùng) độ đồng cảm
và độ liên quan giảm (0.5% và 0.23%).
ô Phan tiền xử lớ dữ liệu, thống nhất đại từ và dựng bộ tỏch từ VNCoreNLP
cho kết quả tốt hơn khi so sánh với kết quả của [2] (sử dụng bộ tách từ của underthesea 7°) trên cùng kiến trúc và bộ dữ liệu (hình 5.1 P@1,100 tăng
2.66% và BLEU tăng 1.21%).
ô Phương phỏp nối thờm cảm xỳc thể hiện tốt như mong đợi, giỳp cải thiện
??https : //underthesea.readthedocs. io/en/1atest/readme .htm1#2-word-
segmentation
58
cả độ do BLEU và P@1,100 trên hai bộ dữ liệu UVM và UIT-VED-27K so với việc không sử dung. Như hình 5.1, ở bộ dữ liệu UVM, giá trị P@1,100
tăng 2.7%, BLEU tăng 1.31% và với bộ dữ liệu UTT-VED-27K, giá trị của
P@1,100 và BLEU tăng lần lượt là 3.33% và 0.36%.
Hàm mục tiêu mới cải thiện hiệu suất trên cả 2 độ đo P@1,100 và BLEU trên hai bộ dit liệu UVM và UIT-VED-27K so với hàm mục tiêu cũ, thể
hiện những lập luận và giả thuyết chúng tôi đưa ra trong [mục 2.1] là phù hợp và thuyết phục. Hình 5.2 cho thấy ở bộ dữ liệu UVM, giá tri P@1,100
va BLEU tăng lần lượt là 0.66% và 1.17%; và ở bộ dữ liệu UIT-VED-27K
P@1,100 tăng 3% và BLEU tăng 0.19%.
Mô hình được huấn luyện bằng việc kết hợp phương pháp nối thêm cảm
xúc và sử dụng hàm mục tiêu mới có các kết quả tốt hơn trên các cách
thức đánh giá đã nêu khi so với không sử dụng hoặc chỉ sử dụng một phương
pháp, cụ thể P@1,100 = 30.67% tăng 2.3%, độ liên quan tăng 0.47% và độ đồng cảm tăng 0.5% so với kết quả tốt nhất trước đó. Độ đo BLEU giảm nhẹ (0.09%) là không đáng kể. Về cơ bản, chất lượng câu phản hồi vẫn
được đảm bảo về độ đồng cảm và độ liên quan. Trường hợp kết hợp thêm
bộ dit liệu UVA để tinh chỉnh, mô hình cho kết qua BLEU, độ liên quan và
độ đồng cảm điều tăng so với việc không sử dụng hàm mục tiêu mới.
Độ đồng cảm cao hơn độ liên quan, có 2 lí do: một là các phản hồi trong bộ
dữ liệu nhằm mục đích cảm thông và hai là các câu dùng để đánh giá mô hình bằng 2 độ đo trên thể hiện rõ tâm trạng của người nói nhưng không
rõ ngữ cảnh; nhìn chung các kết quả đánh giá dựa trên 2 độ đo này đều cao
hơn 4, cho thấy rằng các phản hồi có thể chấp nhận (trên mức khá).
59