cách Euclidian? và tích vô hướng [mục 4.6].
Các kiến trúc truy van thông tin khác
Khao sát một số nghiên cứu [12, 13] trong danh sách * đều sử dụng kiến trúc
mo hình như hình 2.6.
IS)RESPONSE})?
Candidate)
Hình 2.6. Tim phải hoi bằng ghép cặp từng ứng vién (candidate) uới câu truy
van (context).
Xét về mặt thực tiễn, với mỗi câu truy van, hệ thống phải tính toán các giá trị “IS RESPONSE” trong [0,1] trên toàn bộ bộ dữ liệu và đầu ra là câu ứng
viên có điểm số cao nhất. Chúng tôi sử dụng nền tảng Colab để thử nghiệm
“https: //developers. google.com/machine-learning/clustering/similarity/
measuring-simi larity
‘https: //paperswithcode. com/sota/conversational-response-selection-on-
ubuntu-1 (truy cập lúc 20-01-2021)
10
mô hình trên (GPU Telsa K80 12GB GDDR5 VRAM), kết quả là với 11000 câu
ứng viên, mô đun này cần 60 giây để tìm ra câu phản hồi cho mỗi câu truy vấn, đồng nghĩa với việc mỗi lần người dùng nhắn một tin cho chatbot phải đợi 60
giây mới nhận được câu phản hồi. Khi số lượng ứng viên tăng con số 60 giây sẽ còn tăng, vậy nên đây là một kiến trúc không đáp ứng được về mặt thực tiễn.
Cách tiến hành khác là chia hệ thống context & candidates embedding ra thành 2 mô đun riêng biệt có chung kiến trúc: context embedding và candidates embedding. Nhưng vì dữ liệu huấn luyện chưa nhiều cộng với việc tham số huấn luyện tăng gấp đôi (vì có hai mô hình) khiến cho việc biểu diễn ngữ nghĩa thiếu tính tổng quát và mô hình nhanh overfit hơn. Kết quả đánh giá cho thấy: tách
bộ embedding ra không cải thiện kết quả trong hoàn cảnh hiện tại (thông tin
độ đo P@k,N ở mục 5.1.2).
- Dùng chung: P@1,100 = 25.44% | P@3,100 = 51.02% | P@10,100 = 74.44%
- Tach riêng: P@1,100 = 24.15% | P@3,100 = 46.62% | P@10,100 = 70.15%
2.2 Tóm tắt những đóng góp của dé tài
2.2.1 Bộ dữ liệu UIT-VED-27K
Xuất phát từ bộ dữ liệu gốc Empathetic Dialogues (ED - tiếng Anh) [8], bộ
dữ liệu UTT-VED (tiếng Việt) [2] gồm 2 bộ con: UVA (dịch ED bằng thư viện
googletrans °) và UVM (dịch thủ công bộ ED). Vì bộ dữ liệu UVM đảm bảo về mặt ngữ pháp và văn phong tiếng Việt nên thích hợp sử dụng trong huấn luyện
và đánh giá mô hình. Tuy nhiên, UVM chứa số lượng đoạn hội thoại khá ít ỏi gồm 1629 đoạn hội thoại với 7213 câu đối thoại, đó là một thiếu sót lớn nếu muốn bao quát các khía cạnh khác nhau của một cuộc trò chuyện trong cuộc sống đời thường. Vì vậy chúng tôi đã tiến hành các cập nhật cho UVM như bổ
sung thêm các mẫu dịch mới, sửa các mẫu dịch sai, gán nhãn sai... Bộ dữ liệu
'https: //pypi.org/project/googletrans/
11
UVM đã cập nhật lại chúng tôi gọi là UIT-VED-27K.
2.2.2_ Xây dựng trình quan lí hội thoại
Tham khảo công trình nghiên cứu công trình Ravenclaw - A advanced dialog
manager [1], chúng tôi đã có một số cơ sở để tiến hành thiết kế những mô đun
mới cho trình quản lí hội thoại, bao gồm:
- Xây dựng bộ chuyển đổi đại từ nhân xưng cho ngôi thứ nhất và ngôi thứ hai, giúp chuyển đổi linh hoạt qua lại đại từ trong câu từ dạng ban đầu
về dạng chuẩn “tôi/của tôi” và “bạn/của bạn” và ngược lại một cách chính
xác và linh hoạt [mục 4.5.2].
- Duy trì hội thoại: đưa ra các câu hỏi mở, các câu duy trì đối thoại khi người dùng dừng tương tác trong một khoảng thời gian nhất định [mục 4.5.3].
- Kịch bản hội thoại: nhận biết các câu chào hỏi và kết thúc từ người dùng,
từ đó đưa ra phản hồi phù hợp [mục 4.5.4].
2.2.3 Nối thêm cảm xúc (emotion prepend) - Hướng đi mới trong
việc xử lí cảm xúc cho chatbot
Chúng tôi đề xuất phương pháp nối thêm cảm xúc: nhãn cảm xúc cho câu phản hồi được gắn theo tâm trạng của người dùng. Có tất cả 32 nhãn cảm xúc
được liệt kê bộ dữ liệu UIT-VED-27K giúp bao quát hầu hết các khía cạnh cảm xúc trong cuộc sống thường nhật. Chi tiết về cách tiến hành ở [mục 4.4.1].
2.2.4 Hàm mục tiêu mới
Chúng tôi đề xuất hàm mục tiêu mới - sự kết hợp giữa độ tương đồng khoảng cách Euclidian® và tích vô hướng [mục 4.6].
12