Đánh giá các mô hình chon câu phản hồi

ĐẦU RA Hình 4.1. Mô hành tổng quan của hệ thống chatbot

CHƯƠNG 5. THU NGHIEM, ĐÁNH GIÁ

2) Đánh giá mô đun chuyển đổi đại từ

5.4 Đánh giá các mô hình chon câu phản hồi

Chúng tôi tiến hành thực hiện huấn luyện mô hình với các thủ tục khác nhau:

- Huấn luyện trên bộ dữ liệu UIT-VED-27K.

- Sử dụng tích vô hướng hoặc hàm mục tiêu mới [4.6].

- Có và không thực hiện phương pháp nối thêm cảm xúc.

- Tinh chỉnh lần một trên bộ dữ liệu UVA với tốc độ học 1e-4 sau đó tinh chỉnh lần hai trên bộ dữ liệu UIT-VED-27K với tốc độ học nhỏ hơn (1e-5), các câu ứng viên chỉ lấy theo bộ dữ liệu UIT-VED-27K.

5.4.1 Các kết quả đánh giá mô hình

Tiên hành Bộ dữ liệu P@1,100 BLEU

PhoBERT UVM 20.67 5.53

PhoBERT + Phân loại và nỗi thêm cảm xúc UVM 18.67 4.69

PhoBERT + Nối thêm cảm xúc (Ours) UVM 23.33 6.74

PhoBERT UIT-VED-27K 25.00 6.19

PhoBERT + Nồi thêm cảm xúc (Ours) UIT-VED-27K 28.33 6.55

Hình 5.1. Kết quả đánh giá mô hành sử dụng phương pháp nối thêm cam xúc

va mô hành sử dung bộ phân loại cam xúc.

Bộ dữ liệu P@1,100 BLEU

UIT-VED-27K 27.00 6.38

Hình 5.2. Kết quả đánh giá mô hình sử dung ham mục tiêu méi va mô hình sử

dung tích v6 hướng.

Tiến hành Bộ dữ liệu P@1,100 BLEU Độ liên quan Độ đồng cảm

PhoBERT UVM 20.67 5.53 3.5 3.5

PhoBERT UIT-VED-27K 25.00 6.19 4.60 4.43

PhoBERT

+ Nối thêm cảm xúc

` va . UIT-VED-27K 30.67 6.46 4.67 4.83

+ Ham mục tiêu mới

(Ours)

_PhoBERT

+ Noi thém cam XÚC UIT-VED-27K 37.67 6.51 417 4.60

+ Ham mục tiêu mới +UVA

(Ours)

Hình 5.3. Kết quả đánh giá mô hình khi kết hợp phương pháp nối thêm cam

xúc va hàm mục tiêu méi được thực hiện trên bộ dt liệu UIT-VED-27K.

5.4.2 Nhận xét

ô Nhỡn chung, cỏc kết quả từ mụ hỡnh của chỳng tụi cao hơn so với [2] trờn hai

bộ dữ liệu UVM và bộ dit liệu UIT-VED-27K, điều đó cho thấy số lượng cùng chất lượng bộ dữ liệu đều đóng vai trò quan trọng trong hệ thống chatbot sử dụng mô đun truy vấn thông tin.

ô Dữ liệu huấn luyện càng nhiều càng cải thiện kết quả P@1,100 nhưng

P@1,100 không đánh giá được chất lượng câu phản hồi, riêng trường hợp tỉnh chỉnh trên bộ dữ liệu UVA (hình 5.3 - dòng dưới cùng) độ đồng cảm

và độ liên quan giảm (0.5% và 0.23%).

ô Phan tiền xử lớ dữ liệu, thống nhất đại từ và dựng bộ tỏch từ VNCoreNLP

cho kết quả tốt hơn khi so sánh với kết quả của [2] (sử dụng bộ tách từ của underthesea 7°) trên cùng kiến trúc và bộ dữ liệu (hình 5.1 P@1,100 tăng

2.66% và BLEU tăng 1.21%).

ô Phương phỏp nối thờm cảm xỳc thể hiện tốt như mong đợi, giỳp cải thiện

??https : //underthesea.readthedocs. io/en/1atest/readme .htm1#2-word-

segmentation

cả độ do BLEU và P@1,100 trên hai bộ dữ liệu UVM và UIT-VED-27K so với việc không sử dung. Như hình 5.1, ở bộ dữ liệu UVM, giá trị P@1,100

tăng 2.7%, BLEU tăng 1.31% và với bộ dữ liệu UTT-VED-27K, giá trị của

P@1,100 và BLEU tăng lần lượt là 3.33% và 0.36%.

Hàm mục tiêu mới cải thiện hiệu suất trên cả 2 độ đo P@1,100 và BLEU trên hai bộ dit liệu UVM và UIT-VED-27K so với hàm mục tiêu cũ, thể

hiện những lập luận và giả thuyết chúng tôi đưa ra trong [mục 2.1] là phù hợp và thuyết phục. Hình 5.2 cho thấy ở bộ dữ liệu UVM, giá tri P@1,100

va BLEU tăng lần lượt là 0.66% và 1.17%; và ở bộ dữ liệu UIT-VED-27K

P@1,100 tăng 3% và BLEU tăng 0.19%.

Mô hình được huấn luyện bằng việc kết hợp phương pháp nối thêm cảm

xúc và sử dụng hàm mục tiêu mới có các kết quả tốt hơn trên các cách

thức đánh giá đã nêu khi so với không sử dụng hoặc chỉ sử dụng một phương

pháp, cụ thể P@1,100 = 30.67% tăng 2.3%, độ liên quan tăng 0.47% và độ đồng cảm tăng 0.5% so với kết quả tốt nhất trước đó. Độ đo BLEU giảm nhẹ (0.09%) là không đáng kể. Về cơ bản, chất lượng câu phản hồi vẫn

được đảm bảo về độ đồng cảm và độ liên quan. Trường hợp kết hợp thêm

bộ dit liệu UVA để tinh chỉnh, mô hình cho kết qua BLEU, độ liên quan và

độ đồng cảm điều tăng so với việc không sử dụng hàm mục tiêu mới.

Độ đồng cảm cao hơn độ liên quan, có 2 lí do: một là các phản hồi trong bộ

dữ liệu nhằm mục đích cảm thông và hai là các câu dùng để đánh giá mô hình bằng 2 độ đo trên thể hiện rõ tâm trạng của người nói nhưng không

rõ ngữ cảnh; nhìn chung các kết quả đánh giá dựa trên 2 độ đo này đều cao

hơn 4, cho thấy rằng các phản hồi có thể chấp nhận (trên mức khá).

Đánh giá các mô hình chon câu phản hồi

Biểu diễn từ (Word embedding)

Tiền xử lí dữ liệu