KET QUA VA PHAN TÍCH

5.1 Mô hình phân lớp ý định

Mô hình Accuracy | F1-score | Fl-weighted | thời gian dự đoán/câu (s) SVM + BoW 95.96 94.7 95.93 0.00003

Naive Bayes + BoW 83.92 80.36 84.26 0.00002 Neural Network + BoW 95.56 93.99 95.53 0.00005

SVM + TF-IDF 95.96 94.7 95.92 0.00005 Naive Bayes + TF-IDF 91.06 88.4 91.16 0.00011 Neural Network + TF-IDF 95.06 94.4 95.02 0.00005

LSTM 96.57 95.44 96.55 0.10421 CNN 96.93 95.92 96.93 0.05287 PhoBERT 97.69 97.71 97.68 0.08658 XLMR 96.21 95.35 96.20 0.13790

BANG 5.1: Kết quả thí nghiệm trên tap dữ liệu kiểm tra của các mô

hình cho bài toán phân loại ý định.

Bang |5.1)trinh bày kết quả thí nghiệm của các phương pháp tiếp cận cho bài

toán phân lớp ý định. Chúng tôi báo cáo kết quả dựa trên các độ đo accuracy,

F1-macro tinh giá trị F1 giữa các lớp như nhau và F1-weighted tính giá trị F1 giữa

các lớp có trọng số để đánh giá hiệu suất các mô hình. Bên cạnh đó chúng tôi cũng đưa thêm thời gian dự đoán ý định trên 1 câu đầu vào của các mô hình vì

đây là yếu tố quan trọng khi đưa mô hình vào ứng dụng thực tế.

Như đã thấy ở Bảng |B.1| đối với phương pháp tiếp cận học máy khi sử dụng

phương pháp trích xuất đặc trưng BoW thì mô hình SVM cho hiệu suất tốt nhất

đạt 95.96% accuracy va 94.43% macro. Mô hình này cũng cho thời gian dự đoán

trên 1 câu nhanh nhất trong các mô hình đã thí nghiệm. Khi sử dụng phương pháp trích xuất đặc trưng TF-IDF, thì mô hình Naive Bayes cải thiện hiệu suất

Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 54

lớn. Tuy nhiên mô hình SVM và Neural Network có sự thay đổi ở các chỉ số tuy nhiên không đáng kể. Giữa 2 mô hình học sâu thì CNN cho kết quả tốt hơn mô hình LSTM trên cả 3 chỉ số và cả 2 mô hình đều cho hiệu suất tốt hơn các mô hình máy học. Đối với phương pháp học chuyển tiếp cả 2 mô hình đều cho cho kết quả tốt và mô hình PhoBERT cho kết quả tốt nhất đạt 97.69% độ đo accuracy,

97.71% độ do F1-macro va 97.68% độ đo F1-weighted. Cao hơn mô hình CNN

0.75% F1-weighted va 1.79% F1-macro. Qua quá trình thí nghiệm thì các mô hình

có độ phức tạp càng cao thì thời gian dự đoán trên 1 câu càng mat nhiều thời gian. Trong các mô hình thì thời gian dự đoán trên 1 câu đều có tốc độ nhanh nhỏ

hơn 1 giây.

0 cs

0. a

0. ^

os`

&38

1 096 0.98 0.98

ee ww ee oe

đ“ˆ “ ô ee

0.99 0.98 0.99

we 2S

ae’ & b

0.98

sskŠ

0.95

$Ry

gk"

mF1-score

0.96

RŠ

Rox7

HÌNH 5.1: Kết quả F1-score tương ứng với từng ý định.

Câu hỏi Y định đúng Y định dự đoán

Điểm xét tuyển được tính kiểu nào hỏi đáp điểm chuẩn hỏi _đáp_ xét_tuyển

Làm sao tính điểm xét tuyển THPT hỏi đáp. điểm_chuẩn hỏi đáp xét tuyển

Ai có thể xét tuyển bằng điểm THPT hoi_dap_xét_tuyén hoi_dap_diém_chuan

Ai có thể xét tuyển bang điểm THPT hỏi đáp_ xét tuyển hỏi đáp điểm chuẩn

Truong UIT xét tuyén nhu thé nao hoi_dap_xét_tuyén hoi_dap_uit Thong tin hoc bong ngoai ngan sach cua UIT thông tin_học_bổng hỏi_đáp_ uit

BANG 5.2: Một số câu hỏi dự đoán sai bởi mô hình PhoBERT.

Hình |5.1| thể hiện kết qua F1-score tương ứng với các ý định. F1-score của các ý định đều cao hơn 95%. Cao nhất là ý định “hỏi đáp xe _bus” đạt tối đa

Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 55

hỏi đáp tổ hợp 145 0 0 0 0 0 0 1 0 4 Số lượng

hỏi đáp xe bus 0 29 0 0 0 0 0 0 0 0

500

hỏi_đáp_nghề_nghiệp 0 0 145 0 4.0 0 00 0

thông_tin_học bổng 0 0 0 83 09 0 0 0 3 0 400

hỏi đáp ngành 1 0 1 0 35. 0 0 0 0 0

300

hỏi đáp ktx 0 0 0 0 0 179 0 it) 3 1

théng_tin_chitiéu 0 0 0 0 0 0 1 2 4 200

héi_dap_diém_chudn 0 0 0 0 0 0 2 0 6

100 hỏi đáp uit 2 0 1 0 3 3 0 1 235 3

hỏi đáp xét tuyến 4 0 10 0 0 0 11 2 0

46, % 4d, "eg, 4g, 90; %s Áo; 46; 4g,

~đự, Fy =đự 29, ~ Tey ^đý 9, Vi, `. ~My

72 RR tin SRR pti 2 2 số.

kề ho, ° by, Oh ~FOe Peng oe Soy Ten ⁄ `,

> `2o, Sáo 8, Oh,On, :gy Og YS,

Ý định

Ma trận nhầm lẫn của mô hình PhoBert

HINH 5.2: Ma trận nhằm lẫn của mô hình PhoBERT.

là 100%. Thấp nhất là ý định “hỏi _đáp_uit” đạt 95%. Hình|5.2|cho thay ma trận nhằm lẫn của mô hình PhoBERT, dựa vào đường chéo chính của nhận thấy rằng

mô hình hoạt động tốt tuy nhiên vẫn còn sự nhầm lẫn và phần lớn câu nhằm

lẫn là giữa 2 ý định “hỏi đáp xét tuyển” và “hỏi đáp điểm chuẩn”. Sau đó chúng tôi đã lọc ra những câu dự đoán sai để tìm hiểu nguyên nhân thì nhận

thấy rằng. Một số từ khóa của ý định “hỏi. đáp. xét_tuyển” có trong câu hỏi của

“hỏi đáp điểm chuẩn” và ngược lại như từ “xét_tuyển”, “điểm”. Bên cạnh đó

một số câu hỏi của ý định khác có nhắc đến “UIT” nên nhập nhằng giữa ý định

“hỏi _đáp_uit và một số ý định khác. Một số câu hỏi dự đoán sai được trình bày

ở Bảng |5.2| Bên cạnh đó, từ kết quả của các thí nghiệm các mô hình cho bài toán

phân lớp ý định chúng tôi cũng thí nghiệm tương tự cho bài toán phân loại miền

trả lời và thu được kết quả tương tự. Khẳng định một lần nữa sự hiệu quả của mô

hình PhoBERT cho các bài toán phân loại. Chi tiết kết quả thí nghiệm phân loại

miễn trả lời được trình bày ở Phụ Iục[|A|

5.2_ Mô hình thêm dau

BảngJB.3|trình bày kết quả thí nghiệm của các phương pháp tiến cận của chúng

tôi trong bài toán thêm dấu cho tiếng Việt. Chúng tôi đánh giá hiệu quả của mô hình thêm dau dựa vào các độ đo đã trình bày trước đó là độ lỗi trên cấp độ từ,

Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 56

cấp độ ký tự và độ chính xác trên toàn câu. Ngoài ra để quan sát thời gian thực hiện là yếu tố quan trong của từng mô hình, chúng tôi kết hợp theo dõi thời gian huấn luyện mô hình và thời gian thực hiện thêm dấu trung bình trên một câu đầu

vào.

Từ BảngJ5.3| có thể thay tổng quan mô hình Transformer cơ bản đã có độ chính

xác trên toàn câu cao nhất là 77.24%, nhưng ngược lại thời gian xử lý là lớn nhất

và lớn hơn rất nhiều so với các mô hình còn lại. Ở độ đo tỉ lệ lỗi cấp độ ký tự, mô

hình BiLSTM-4-grams đạt tỉ lệ lỗi nhỏ nhất với 0.93%. Nhìn vào BảngJ.3|ta cũng

thấy độ chính xác trên cấp độ câu hầu hết cũng tăng lên khi ta tăng số n-grams

và thời gian thực hiện cũng ngắn hon vì số lần cắt n-gram từ câu gốc sẽ ít hơn. Ngoài ra, so sánh trong mô hình LSTM, tỉ lệ lỗi cấp độ ký tự ở mô hình 3-grams

và 4-grams thấp hơn so với mô hình 5-grams, diéu nay cũng tương tự với mô hình BiLSTM khi mô hình 3-grams đạt hiệu suất cao nhất ở cấp độ ký tự. Điều này chứng tỏ rằng mô hình 3-grams và 4-grams có hiệu suất tốt trên cấp độ ký

tự. Ngoài ra, so về mặt tổng thể, các mô hình BiLSTM có độ chính xác cao hơn về

mặt ngữ nghĩa so với mô hình LSTM, các từ được dự đoán chính xác hơn giúp

cho các câu đầu vào dién đạt được ý nghĩa của nó.

Model WER | CER | Đề chính xác | Thừi gian huấn luyện (s) | Thời gian dự đoán/câu (s)

trên toan cau .

LSTM-3-grams 13.53 | 3.32 32.69 368.17 0.56

LSTM-4-grams 13.73 | 3.32 30.29 446.12 0.50

LSTM-5-grams 13.16 | 3.60 33.33 539.32 0.48

BiLSTM-3-grams 4.00 | 0.99 73.88 566.32 0.66

BiLSTM-4-grams 3.95 | 0.93 74.04 608.32 0.58

BiLSTM-5-grams 4.07 | 0.97 73.72 606.23 0.58

Transformer-based | 3.99 | 2.36 77.24 184.85 7.90

BẢNG 5.3: Kết quả thí nghiệm trên tập kiểm tra của các mô hình

trong bài toán thêm dấu tiếng Việt

Mặc dù mô hình Transformer cơ bản đạt kết quả trên toàn câu cao nhất, nhưng

ở các chỉ số CER và WER thì lại không bằng các mô hình LSTM và BiLSTM. Lý giải cho sự khác biệt này là do mô hình Transformer cơ bản được xây dựng cấp

độ từ, với những trường hợp mô hình đoán đúng thì sẽ đúng hết ký tự trong một

từ, ngược lại, khi mô hình dự đoán sai thì từ được dự đoán sẽ sai khác nhiều

so với từ gốc. Vì vậy, tỉ lệ lỗi từ và tỉ lệ lỗi ký tự tăng lên. Ngoài ra, việc mô hình Transformer cơ bản lấy đầu vào là nguyên câu, không phải chia thành các

Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 57

n-grams như mô hình LSTM và BiLSTM, việc này giúp cho mô hình học được

ngữ cảnh và dự đoán trên toàn câu tốt hơn các mô hình khác.

Câu không có dâu Câu có dâu Mô hình dự đoán

đi co xet tuyen nganh he thong khong | đ1 có xét tuyển ngành hệ thống không | dh có xét tuyển ngành hệ thống không can bao nhieu diem thi dai hoc quoc gia | cần bao nhiêu điểm thi đại học quốc gia | cần bao nhiêu điểm thì đại học quốc gia

hoc mang may tinh va truyen thong học mạng máy tính và truyền thông học mạng máy tính và truyền thông

co lam dien vien duoc khong có làm diễn viên được không có làm điển viện được không

BẢNG 5.4: Ví dụ một số lỗi sai của mô hình thêm dấu Tiếng Việt

BảngJ.4llà một số ví dụ mô hình thêm dấu hoạt động không tốt. Với câu đầu

vào “d1 co xet tuyen nganh he thong khong”, từ “d1” đã bị mô hình nhầm lẫn thành “dh” sau đó thêm dấu thành “dh”. Xét trong dir liệu huấn luyện, da số sẽ xuất hiện từ “dh” dẫn đến mô hình dự đoán nghiêng về “dh” hơn là “d1”. Tương

tự, từ “bao nhiêu điểm thi” cũng bị nhằm thành “bao nhiêu điểm thi” do trong

dữ liệu có các câu “bao nhiêu điểm thì đậu” ví dụ như “bao nhiêu điểm thì đậu ngành thương mại điện tử”, “bao nhiêu điểm thì đậu ngành công nghệ thông tin”, v.v. Việc mô hình nhầm lẫn một phần do trong dtr liệu huấn luyện bị thiên

vị về các trường hợp thường xuyên xảy ra và cũng một phần do mô hình chưa có

cơ chế giữ nguyên các ký tự không cần thêm dấu như các chữ số, hoặc các phụ

âm (trừ ký tự d và đ). Ngoài ra, việc dữ liệu huấn luyện bị hạn chế trong một lĩnh

vực nhất định sẽ khiến mô hình hoạt động không tốt với những từ thuộc lĩnh vực

khác. Ví dụ, với từ “dien vien“ ở bảng J.4|trên, mô hình đã dự đoán thành “điển

viện”.

5.3. Đánh giá hệ thống

Trong phần này chúng tôi trình bày phần đánh giá hệ thống. Sau khi xây dựng các kịch bản dựa trên các tình huống và các tính năng của chúng tôi xây dựng thì chúng tôi tiến hành kiểm tra hệ thống về độ chính xác và thời gian phản hồi dựa trên các câu đầu vào. Chatbot đạt 90% độ chính xác các câu đầu vào của kịch bản. Bên cạnh đó chúng tôi cũng đo thời gian phản hồi cho mỗi câu hỏi, tốc độ trung bình phản hồi 1s/câu. Hệ thống đã thực hiện tốt các chức năng như thêm dấu, theo dõi thông tin cuộc trò chuyện, dé suất câu hỏi và hỏi lại. Bên cạnh đó có thể trả lời được một số câu hỏi ngoài miễn tư vấn.

Chương 5. KẾT QUẢ VÀ PHÂN TÍCH 58

Tuy nhiên, chatbot cũng gặp một số trường hợp khó để giải quyết, dẫn đến việc trả lời không như mong đợi của người dùng bởi những tình huống sau:

Phân lớp sai ý định do nhiều yếu tố như sai chính tả, viết tắt, hoặc một số câu thêm dấu không được chính xác dẫn đến không đưa ra được câu trả lời

đúng.

Cấu trúc câu phức tạp bao gồm nhiều ý hoặc có nhiều ý định trong cùng

một câu.

Điểm xác suất dự đoán ý định không vượt ngưỡng dẫn đến không đưa ra câu trả lời cụ thể.

Sự nhập nhằng giữa các thực thể đại điện cho mỗi slot.

Mô hình trích xuất nhúng đào tạo trước cho câu đầu vào chưa đạt hiệu quả cao, dẫn đến một số kết quả đề xuất chưa hợp lý.

Chuong 6

NỘI DUNG VÀ PHƯƠNG PHÁP