5.1 Mô hình phân lớp ý định
Mô hình Accuracy | F1-score | Fl-weighted | thời gian dự đoán/câu (s) SVM + BoW 95.96 94.7 95.93 0.00003
Naive Bayes + BoW 83.92 80.36 84.26 0.00002 Neural Network + BoW 95.56 93.99 95.53 0.00005
SVM + TF-IDF 95.96 94.7 95.92 0.00005 Naive Bayes + TF-IDF 91.06 88.4 91.16 0.00011 Neural Network + TF-IDF 95.06 94.4 95.02 0.00005
LSTM 96.57 95.44 96.55 0.10421 CNN 96.93 95.92 96.93 0.05287 PhoBERT 97.69 97.71 97.68 0.08658 XLMR 96.21 95.35 96.20 0.13790
BANG 5.1: Kết quả thí nghiệm trên tap dữ liệu kiểm tra của các mô
hình cho bài toán phân loại ý định.
Bang |5.1)trinh bày kết quả thí nghiệm của các phương pháp tiếp cận cho bài
toán phân lớp ý định. Chúng tôi báo cáo kết quả dựa trên các độ đo accuracy,
F1-macro tinh giá trị F1 giữa các lớp như nhau và F1-weighted tính giá trị F1 giữa
các lớp có trọng số để đánh giá hiệu suất các mô hình. Bên cạnh đó chúng tôi cũng đưa thêm thời gian dự đoán ý định trên 1 câu đầu vào của các mô hình vì
đây là yếu tố quan trọng khi đưa mô hình vào ứng dụng thực tế.
Như đã thấy ở Bảng |B.1| đối với phương pháp tiếp cận học máy khi sử dụng
phương pháp trích xuất đặc trưng BoW thì mô hình SVM cho hiệu suất tốt nhất
đạt 95.96% accuracy va 94.43% macro. Mô hình này cũng cho thời gian dự đoán
trên 1 câu nhanh nhất trong các mô hình đã thí nghiệm. Khi sử dụng phương pháp trích xuất đặc trưng TF-IDF, thì mô hình Naive Bayes cải thiện hiệu suất
Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 54
lớn. Tuy nhiên mô hình SVM và Neural Network có sự thay đổi ở các chỉ số tuy nhiên không đáng kể. Giữa 2 mô hình học sâu thì CNN cho kết quả tốt hơn mô hình LSTM trên cả 3 chỉ số và cả 2 mô hình đều cho hiệu suất tốt hơn các mô hình máy học. Đối với phương pháp học chuyển tiếp cả 2 mô hình đều cho cho kết quả tốt và mô hình PhoBERT cho kết quả tốt nhất đạt 97.69% độ đo accuracy,
97.71% độ do F1-macro va 97.68% độ đo F1-weighted. Cao hơn mô hình CNN
0.75% F1-weighted va 1.79% F1-macro. Qua quá trình thí nghiệm thì các mô hình
có độ phức tạp càng cao thì thời gian dự đoán trên 1 câu càng mat nhiều thời gian. Trong các mô hình thì thời gian dự đoán trên 1 câu đều có tốc độ nhanh nhỏ
hơn 1 giây.
0 cs
0. a
0. ^
°
os`
&38
1 096 0.98 0.98
ee ww ee oe
đ“ˆ “ ô ee
0.99 0.98 0.99
we 2S
ae’ & b
0.98
sskŠ
`
0.95
$Ry
gk"
mF1-score
0.96
is
RŠ
Rox7
HÌNH 5.1: Kết quả F1-score tương ứng với từng ý định.
Câu hỏi Y định đúng Y định dự đoán
Điểm xét tuyển được tính kiểu nào hỏi đáp điểm chuẩn hỏi _đáp_ xét_tuyển
Làm sao tính điểm xét tuyển THPT hỏi đáp. điểm_chuẩn hỏi đáp xét tuyển
Ai có thể xét tuyển bằng điểm THPT hoi_dap_xét_tuyén hoi_dap_diém_chuan
Ai có thể xét tuyển bang điểm THPT hỏi đáp_ xét tuyển hỏi đáp điểm chuẩn
Truong UIT xét tuyén nhu thé nao hoi_dap_xét_tuyén hoi_dap_uit Thong tin hoc bong ngoai ngan sach cua UIT thông tin_học_bổng hỏi_đáp_ uit
BANG 5.2: Một số câu hỏi dự đoán sai bởi mô hình PhoBERT.
Hình |5.1| thể hiện kết qua F1-score tương ứng với các ý định. F1-score của các ý định đều cao hơn 95%. Cao nhất là ý định “hỏi đáp xe _bus” đạt tối đa
Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 55
hỏi đáp tổ hợp 145 0 0 0 0 0 0 1 0 4 Số lượng
hỏi đáp xe bus 0 29 0 0 0 0 0 0 0 0
500
hỏi_đáp_nghề_nghiệp 0 0 145 0 4.0 0 00 0
thông_tin_học bổng 0 0 0 83 09 0 0 0 3 0 400
hỏi đáp ngành 1 0 1 0 35. 0 0 0 0 0
300
hỏi đáp ktx 0 0 0 0 0 179 0 it) 3 1
théng_tin_chitiéu 0 0 0 0 0 0 1 2 4 200
héi_dap_diém_chudn 0 0 0 0 0 0 2 0 6
100 hỏi đáp uit 2 0 1 0 3 3 0 1 235 3
hỏi đáp xét tuyến 4 0 10 0 0 0 11 2 0
46, % 4d, "eg, 4g, 90; %s Áo; 46; 4g,
~đự, Fy =đự 29, ~ Tey ^đý 9, Vi, `. ~My
72 RR tin SRR pti 2 2 số.
kề ho, ° by, Oh ~FOe Peng oe Soy Ten ⁄ `,
> `2o, Sáo 8, Oh,On, :gy Og YS,
Ý định
Ma trận nhầm lẫn của mô hình PhoBert
HINH 5.2: Ma trận nhằm lẫn của mô hình PhoBERT.
là 100%. Thấp nhất là ý định “hỏi _đáp_uit” đạt 95%. Hình|5.2|cho thay ma trận nhằm lẫn của mô hình PhoBERT, dựa vào đường chéo chính của nhận thấy rằng
mô hình hoạt động tốt tuy nhiên vẫn còn sự nhầm lẫn và phần lớn câu nhằm
lẫn là giữa 2 ý định “hỏi đáp xét tuyển” và “hỏi đáp điểm chuẩn”. Sau đó chúng tôi đã lọc ra những câu dự đoán sai để tìm hiểu nguyên nhân thì nhận
thấy rằng. Một số từ khóa của ý định “hỏi. đáp. xét_tuyển” có trong câu hỏi của
“hỏi đáp điểm chuẩn” và ngược lại như từ “xét_tuyển”, “điểm”. Bên cạnh đó
một số câu hỏi của ý định khác có nhắc đến “UIT” nên nhập nhằng giữa ý định
“hỏi _đáp_uit và một số ý định khác. Một số câu hỏi dự đoán sai được trình bày
ở Bảng |5.2| Bên cạnh đó, từ kết quả của các thí nghiệm các mô hình cho bài toán
phân lớp ý định chúng tôi cũng thí nghiệm tương tự cho bài toán phân loại miền
trả lời và thu được kết quả tương tự. Khẳng định một lần nữa sự hiệu quả của mô
hình PhoBERT cho các bài toán phân loại. Chi tiết kết quả thí nghiệm phân loại
miễn trả lời được trình bày ở Phụ Iục[|A|
5.2_ Mô hình thêm dau
BảngJB.3|trình bày kết quả thí nghiệm của các phương pháp tiến cận của chúng
tôi trong bài toán thêm dấu cho tiếng Việt. Chúng tôi đánh giá hiệu quả của mô hình thêm dau dựa vào các độ đo đã trình bày trước đó là độ lỗi trên cấp độ từ,
Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 56
cấp độ ký tự và độ chính xác trên toàn câu. Ngoài ra để quan sát thời gian thực hiện là yếu tố quan trong của từng mô hình, chúng tôi kết hợp theo dõi thời gian huấn luyện mô hình và thời gian thực hiện thêm dấu trung bình trên một câu đầu
vào.
Từ BảngJ5.3| có thể thay tổng quan mô hình Transformer cơ bản đã có độ chính
xác trên toàn câu cao nhất là 77.24%, nhưng ngược lại thời gian xử lý là lớn nhất
và lớn hơn rất nhiều so với các mô hình còn lại. Ở độ đo tỉ lệ lỗi cấp độ ký tự, mô
hình BiLSTM-4-grams đạt tỉ lệ lỗi nhỏ nhất với 0.93%. Nhìn vào BảngJ.3|ta cũng
thấy độ chính xác trên cấp độ câu hầu hết cũng tăng lên khi ta tăng số n-grams
và thời gian thực hiện cũng ngắn hon vì số lần cắt n-gram từ câu gốc sẽ ít hơn. Ngoài ra, so sánh trong mô hình LSTM, tỉ lệ lỗi cấp độ ký tự ở mô hình 3-grams
và 4-grams thấp hơn so với mô hình 5-grams, diéu nay cũng tương tự với mô hình BiLSTM khi mô hình 3-grams đạt hiệu suất cao nhất ở cấp độ ký tự. Điều này chứng tỏ rằng mô hình 3-grams và 4-grams có hiệu suất tốt trên cấp độ ký
tự. Ngoài ra, so về mặt tổng thể, các mô hình BiLSTM có độ chính xác cao hơn về
mặt ngữ nghĩa so với mô hình LSTM, các từ được dự đoán chính xác hơn giúp
cho các câu đầu vào dién đạt được ý nghĩa của nó.
Model WER | CER | Đề chính xác | Thừi gian huấn luyện (s) | Thời gian dự đoán/câu (s)
trên toan cau .
LSTM-3-grams 13.53 | 3.32 32.69 368.17 0.56
LSTM-4-grams 13.73 | 3.32 30.29 446.12 0.50
LSTM-5-grams 13.16 | 3.60 33.33 539.32 0.48
BiLSTM-3-grams 4.00 | 0.99 73.88 566.32 0.66
BiLSTM-4-grams 3.95 | 0.93 74.04 608.32 0.58
BiLSTM-5-grams 4.07 | 0.97 73.72 606.23 0.58
Transformer-based | 3.99 | 2.36 77.24 184.85 7.90
BẢNG 5.3: Kết quả thí nghiệm trên tập kiểm tra của các mô hình
trong bài toán thêm dấu tiếng Việt
Mặc dù mô hình Transformer cơ bản đạt kết quả trên toàn câu cao nhất, nhưng
ở các chỉ số CER và WER thì lại không bằng các mô hình LSTM và BiLSTM. Lý giải cho sự khác biệt này là do mô hình Transformer cơ bản được xây dựng cấp
độ từ, với những trường hợp mô hình đoán đúng thì sẽ đúng hết ký tự trong một
từ, ngược lại, khi mô hình dự đoán sai thì từ được dự đoán sẽ sai khác nhiều
so với từ gốc. Vì vậy, tỉ lệ lỗi từ và tỉ lệ lỗi ký tự tăng lên. Ngoài ra, việc mô hình Transformer cơ bản lấy đầu vào là nguyên câu, không phải chia thành các
Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 57
n-grams như mô hình LSTM và BiLSTM, việc này giúp cho mô hình học được
ngữ cảnh và dự đoán trên toàn câu tốt hơn các mô hình khác.
Câu không có dâu Câu có dâu Mô hình dự đoán
đi co xet tuyen nganh he thong khong | đ1 có xét tuyển ngành hệ thống không | dh có xét tuyển ngành hệ thống không can bao nhieu diem thi dai hoc quoc gia | cần bao nhiêu điểm thi đại học quốc gia | cần bao nhiêu điểm thì đại học quốc gia
hoc mang may tinh va truyen thong học mạng máy tính và truyền thông học mạng máy tính và truyền thông
co lam dien vien duoc khong có làm diễn viên được không có làm điển viện được không
BẢNG 5.4: Ví dụ một số lỗi sai của mô hình thêm dấu Tiếng Việt
BảngJ.4llà một số ví dụ mô hình thêm dấu hoạt động không tốt. Với câu đầu
vào “d1 co xet tuyen nganh he thong khong”, từ “d1” đã bị mô hình nhầm lẫn thành “dh” sau đó thêm dấu thành “dh”. Xét trong dir liệu huấn luyện, da số sẽ xuất hiện từ “dh” dẫn đến mô hình dự đoán nghiêng về “dh” hơn là “d1”. Tương
tự, từ “bao nhiêu điểm thi” cũng bị nhằm thành “bao nhiêu điểm thi” do trong
dữ liệu có các câu “bao nhiêu điểm thì đậu” ví dụ như “bao nhiêu điểm thì đậu ngành thương mại điện tử”, “bao nhiêu điểm thì đậu ngành công nghệ thông tin”, v.v. Việc mô hình nhầm lẫn một phần do trong dtr liệu huấn luyện bị thiên
vị về các trường hợp thường xuyên xảy ra và cũng một phần do mô hình chưa có
cơ chế giữ nguyên các ký tự không cần thêm dấu như các chữ số, hoặc các phụ
âm (trừ ký tự d và đ). Ngoài ra, việc dữ liệu huấn luyện bị hạn chế trong một lĩnh
vực nhất định sẽ khiến mô hình hoạt động không tốt với những từ thuộc lĩnh vực
khác. Ví dụ, với từ “dien vien“ ở bảng J.4|trên, mô hình đã dự đoán thành “điển
viện”.
5.3. Đánh giá hệ thống
Trong phần này chúng tôi trình bày phần đánh giá hệ thống. Sau khi xây dựng các kịch bản dựa trên các tình huống và các tính năng của chúng tôi xây dựng thì chúng tôi tiến hành kiểm tra hệ thống về độ chính xác và thời gian phản hồi dựa trên các câu đầu vào. Chatbot đạt 90% độ chính xác các câu đầu vào của kịch bản. Bên cạnh đó chúng tôi cũng đo thời gian phản hồi cho mỗi câu hỏi, tốc độ trung bình phản hồi 1s/câu. Hệ thống đã thực hiện tốt các chức năng như thêm dấu, theo dõi thông tin cuộc trò chuyện, dé suất câu hỏi và hỏi lại. Bên cạnh đó có thể trả lời được một số câu hỏi ngoài miễn tư vấn.
Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 58
Tuy nhiên, chatbot cũng gặp một số trường hợp khó để giải quyết, dẫn đến việc trả lời không như mong đợi của người dùng bởi những tình huống sau:
Phân lớp sai ý định do nhiều yếu tố như sai chính tả, viết tắt, hoặc một số câu thêm dấu không được chính xác dẫn đến không đưa ra được câu trả lời
đúng.
Cấu trúc câu phức tạp bao gồm nhiều ý hoặc có nhiều ý định trong cùng
một câu.
Điểm xác suất dự đoán ý định không vượt ngưỡng dẫn đến không đưa ra câu trả lời cụ thể.
Sự nhập nhằng giữa các thực thể đại điện cho mỗi slot.
Mô hình trích xuất nhúng đào tạo trước cho câu đầu vào chưa đạt hiệu quả cao, dẫn đến một số kết quả đề xuất chưa hợp lý.
59
Chuong 6