Kiến trúc mô-đun Q&A

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng hệ thống hỏi đáp về quy định đào tạo đại học (Trang 56 - 63)

2. Với mỗi tài liệu thứ j trong tập văn bản, biểu diễn tài liệu này bằng vector d;

3.2 Kiến trúc mô-đun Q&A

Mô-đun Q&A bao gồm hai mô hình: mô hình truy vấn 89 câu FAQ - RetFAQ va

mô hình kết hợp giữa truy vấn văn bản và đọc hiểu máy để rút trích câu trả lời

từ ngữ liệu quy định đào tạo đại hoc UIT - RetMRC. Mé-dun ưu tiên lấy câu trả

lời từ RetFAQ, nếu độ tin cậy nhỏ hơn một ngưỡng, cụ thể trong hệ thống là 0.2, mô-đun gửi câu hỏi đến mô hình truy vấn và đọc hiểu máy RetMRC để tim câu

trả lời.

3.2.1 RetFAQ

Một mô hình RetFAQ truy vấn văn bản trên dữ liệu 89 câu FAQ được sử dung dé

so khớp câu hỏi của người dùng với câu hỏi trong bộ dữ liệu và trả về câu trả lời

có san. Đầu vào mô hình là một câu hỏi liên quan tới quy định đào tạo đại học, đầu ra là một câu trả lời được so khớp từ những cặp câu hỏi - đáp thường gặp có

sẵn, cụ thể có 89 cặp câu hỏi đáp. Cùng với câu trả lời là đầu ra chính, mô hình

còn trả về câu hỏi thường gặp khớp được với câu hỏi của người dùng và độ tin cậy.

Đầu vào Nộp bằng tiếng Nhật để miễn học tiếng Anh có được không?

Trả lời Không. Vì tham gia lớp anh văn 1, 2, 3 là bắt buộc, bằng N4 có thể được dùng Đầu ra để xét tốt nghiệp

Hỏi Có được xét bằng N4 (tiếng Nhật) để xin được miễn học anh văn hay không?

Độ tin cậy 0.29

Hà Quốc Tiến 48 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

Cụ thể, mô hình biểu diễn văn bản (bao gồm cả câu hỏi và câu trả lời cho mỗi cặp FAQ trong bộ dữ liệu) dưới hình thức BoW trên đơn vị từ tiếng Việt, có thể đa

âm tiết, được xác định bằng phép tách token được cài đặt bởi nhóm Underthesea NLP [25], quãng n-gram ở cấp độ từ là từ 1-gram tới 2-gram, tính trọng số term theo TF-IDF. Văn bản trai qua bước tiền xử lý bao gồm xóa bỏ ký tự đặc biệt, xóa bỏ khoảng trắng thừa và đưa tất cả ký tự viết hoa về viết thường trước khi

được tách token. Thêm vào đó, các term có mặt trên 30% tài liệu bị loại khỏi tập

từ vựng của mô hình.

Ở bước truy vấn, RetFAQ dùng phép tính tương đồng cosine và chọn ra cặp câu

FAQ có độ tương đồng cao nhất. Tuy nhiên, số lượng 89 câu FAQ là còn hạn chế,

do đó một mô hình hỏi đáp dựa trên ngữ liệu quy định đào tạo đại học của trường

được xây dựng. Mô hình đảm nhận vai trò trả lời khi độ tin cậy của mô hình truy

vấn PAQ quá thấp.

3.2.2 RetMRC

Mô hình đọc hiểu

Hình 3.4: Mô hình truy vấn và đọc hiểu RetMRC

Hà Quốc Tiến 49 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

Một mô hình RetMRC kết hợp kỹ thuật truy vấn văn bản và đọc hiểu máy dựa trên BERT được dùng để rút trích câu trả lời từ ngữ liệu quy định đào tao đại học.

Đầu vào mô hình là một câu hỏi liên quan tới quy định đào tạo đại học, đầu ra là một câu trả lời được rút trích từ một tài liệu có liên quan được truy vấn. Bên cạnh câu trả lời cho câu hỏi thì mô hình cũng trả về thêm độ tin cậy của câu trả lời và

tên của tài liệu mà câu trả lời được rút trích từ.

Đầu vào Nếu em lỡ đóng học phí dư thì sao ạ?

Tra lời được tính vào học kỳ sau.

Đầu ra Tên tài liệu | Học phí - Lưu ý về đóng học phí

Độ tin cậy 0.44

Với mô hình truy vấn, văn bản được tiền xử lý tương tự như ở mô hình truy

van FAQ. Tuy nhiên, BM25+ được sử dụng làm mô hình chấm điểm và xếp hang văn bản thay vì biểu diễn không gian vector và hàm khoảng cách. Biểu diễn không

gian vector và hàm khoảng cách cosine được sử dụng cho truy vấn các câu hỏi FAQ

vì câu truy vấn và các câu hỏi thường tương tự nhau. Mặt khác, câu hỏi của người

dùng so với văn bản quy định đào tạo đại học có sự khác biệt lớn hơn, hơn nữa

một văn bản quy định đào tạo đại học thường dài hơn nhiều so với một câu hỏi

của người dùng, khi đó BM25+ được sử dung trong trường hợp này để đảm bảo

văn bản rất dài vẫn được xếp hạng cao khi chứa term nằm trong câu truy vấn [23].

Câu hỏi của người dùng và văn bản được trả về từ mô hình truy vấn với vai trò

ngữ cảnh trở thành đầu vào của mô hình đọc hiểu dựa trên BERT. Một đoạn văn

bản liên tục nằm trong ngữ cảnh được trả về từ mô hình, chính là câu trả lời cho

câu hỏi, như được minh họa ở hình |3.4| Câu trả lời này quay lại kiến trúc Rasa để

được xử lý thành thông điệp hoàn chỉnh và được hệ thống gửi đến người dùng.

Hà Quốc Tiến 50 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

Cụ thể, khóa luận sử dụng mô hình X/A/„„„¿ được cung cấp bởi HuggingFace

[Z6]. Mô hình này là mô hình đa ngôn ngữ cải thiện trên kiến trúc BERT với mục

tiêu huấn luyện song ngữ và dữ liệu huấn luyện hơn 2 tetrabyte văn bản. Để ap

dụng cho hệ thống hỏi đáp, mô hình tiếp tục được fine-tune trên dit liệu SQuAD [27] tiếng Việt dịch tự động, dữ liệu hỏi dap tiếng Việt ViQuAD [28] và dữ liệu hỏi đáp về quy định đào tạo đại học của Nguyễn Việt Nam [I].

3.3 Dữ liệu

3.3.1 Dữ liệu huấn luyện NLU

Mô hình phân loại ý định người dùng với đầu vào là một thông điệp người nói và

đầu ra là một nhãn ý định cần có dữ liệu huấn luyện có cấu trúc tương tự. Cu thể,

6 ý định người nói, ứng với 6 nhãn, bao gồm "chào hỏi", "tạm biệt", "hài lòng",

"không hài lòng", "khẳng định" và "phủ định" được cho khoảng 10 câu nói ví dụ tạo thủ công, ứng với các điểm dữ liệu huấn luyện. Riêng ý định "qa" được cho ví

dụ thực tế bằng 89 câu FAQs.

3.3.2 89 câu FAQ về quy định đào tao đại học

Bộ dữ liệu 89 câu hỏi thường gặp về quy định đào tạo đại học của trường Dai học Công nghệ Thông tin bao gồm 89 câu hỏi thường gặp và câu trả lời tương ứng liên

quan tới quy định đào tạo đại học đã được sinh viên hỏi qua hình thức email gửi

về phòng Đào tạo Dại học và được chuyên viên của phòng giải đáp.

Hà Quốc Tiến 51 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

ý định ví dụ

chào hỏi

chào chào bạn

hi hello

hi bạn

tạm biêt

tạm biệt chào bạn, hẹn gặp lại

nói chuyện sau nha

bye bái bai

hài lòng

cảm ơn

ừ, cảm ơn bạn

tốt lắm

tôi hài lòng mình hài lòng

không hài lòng

tệ quá

vô dụng

tôi chưa hài lòng

chưa tốt lắm bạn trả lời sai rồi

khẳng định

có ừm

đúng rồi

phải ạ

phủ định

không không phải

hông

sai rồi

không nha

Bảng 3.1: Một số ví dụ cho các điểm dữ liệu huấn luyện NLU

3.3.3 Ngữ liệu quy định đào tao đại học

Ngữ liệu quy định đào tạo đại học được lấy từ các văn bản ban hành quy định đào

tao đại hoc của Trường Dai hoc Công Nghệ Thông tin, được tác giả Nguyễn Việt

Nam tiền xử lý chia tự động theo các đề mục và chia thành các tài liệu nhỏ cho

khóa luận của họ. Tổng cộng có 152 tài liệu.

Hà Quốc Tiến 52 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

Hỏi: Có thể nhờ người thân nhận bằng tốt nghiệp được hay không? Nếu được thì

cần mang theo những giấy tờ gì Trả lời: Dược. Quy định nhận thay bằng phải có giấy ủy quyền có xác nhận của địa phương (theo mẫu chung của nhà nước). Khi người nhận thay lên nhận phải mang

theo chứng minh nhân dân để đối chiếu xác nhận đúng người trong giấy ủy quyền.

Hỏi: Trình độ ngoại ngữ TOEIC ra trường là bao nhiêu?

Trả lời: Để xét dau ra, riêng chứng chỉ ngoại ngữ là TOIEC (4 kỹ năng) phải đạt trình độ 450 (nghe, đọc) và 18ð (nói, viết) trở lên.

Hồi: Nếu sinh viên vẫn còn nợ một môn cơ sở ngành thì có được đăng kí làm khóa luận tốt nghiệp không?

Trả lời: Không. Vì theo quy định quy chế đào tạo về điều kiện làm khóa luận tốt nghiệp thì khi làm khóa luận không còn được nợ bất kì học phần đại cương và cơ sở ngành nào cũng các điều kiện khác có liên quan.

Bảng 3.2: Một số cặp câu FAQ quy định đào tạo đai học

STT | Tiêu đề

1 CLB Hội nhóm trường

2 Hoạt động tiêu biểu

88 Quy chế - Quy định) Đình chi học tập

89 Sinh Vién\Ché độ học tập của sinh dự thính

151 | Đăng ky\Dang ký học các môn ngoại ngữ

152 | Đăng ký\Đăng ký học tập

Bảng 3.3: Một số tài liệu trong bộ 152 tài liệu quy định đào tạo đại học UFT

3.3.4 Dữ liệu huấn luyện MRC

Dữ liệu huấn luyện cho mô hình MRC bao gồm:

e Bộ dữ liệu SQuaD [27] của nhóm nghiên cứu Dai hoc Stanford, bao gồm hơn

100k cặp câu hỏi đáp. Bộ dữ liệu được tạo bởi hình thức crowd-sourcing trên

một tập hơn 500 bài viết Wikipedia, câu trả lời cho mỗi câu hỏi là một phân

đoạn văn bản, hay một span. SQuaD là một benchmark phổ biến cho bài toán đọc hiểu máy. Phiên bản mới nhất của SQuaD là SQuaD2.0 29], kết hợp bộ

hơn 100k câu hỏi của bản gốc với hơn 50k câu hỏi được cố tình viết sao cho

có vẻ tương tự như các câu hỏi có sẵn, nhưng thực tế không có câu trả lời.

Hà Quốc Tiến 53 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

Khóa luận này chỉ sử dụng phiên bản gốc của SQuaD. Từ điểm F1 51% của

hệ thống cơ sở trong bài báo gốc, đến nay nhiều mô hình học sâu đã đạt được F1 lên đến hơn 90%, vượt qua con người là 86%. Khóa luận này sử dụng phiên bản SQuaD được dịch tự động và lọc ra 50% dữ liệu dịch tốt nhất của Nguyễn Việt Nam [HỊ.

e UIT-ViQuAD [28], một bộ dữ liệu hỏi đáp tiếng Việt được tạo thủ công bao gồm

23,074 cặp câu hỏi đáp trên 5,109 đoạn văn nằm trong 174 bài viết Wikipedia tiếng Việt. Bộ dữ liệu bao gồm đa dạng câu hỏi và đòi hỏi nhiều loại lý luận vượt ngoài việc khớp nối từ như diễn giải (paraphrasing), lý luận đơn câu

(single-sentence reasoning), lý luận da câu (multi-sentence reasoning) để trả

lời được các loại câu hỏi đó.

e Bộ dữ liệu XQuAD [30] của Deepmind, viện nghiên cứu về trí tuệ nhân tao

thuộc Google. XQuAD là một bộ dataset hỏi đáp đa ngôn ngữ, bao gồm 240 đoạn văn bản và 1990 cặp câu hỏi - dap được trích từ SQuAD vi.1, tất

cả được dịch thủ công bằng chuyên gia dịch thuật từ tiếng Anh sang 10 ngôn

ngữ khác, bao gồm các tiếng Tay Ban Nha, Đức, Hy Lạp, Nga, Thổ Nhĩ Kỳ,

Ả-rập, Thái, Trung, Hin-di và cả tiếng Việt.

e TyDi QA [81 là một bộ dữ liệu hỏi đáp được tạo trên 11 ngôn ngữ, bao gồm

204K cặp câu hỏi - dap. 11 ngôn ngữ được lựa chọn với mục đích tạo nên một

bộ dữ liệu hỏi đáp đa ngôn ngữ, đa dạng về cú pháp để những mô hình được huấn luyện trên bộ dữ liệu này có thể tổng quát hóa trên một tập ngôn ngữ

lớn, đa dạng. Dữ liệu được tạo hoàn toàn thủ công và không sử dụng dịch.

Hà Quốc Tiến 54 KHTN2017

Khóa luận tốt nghiệp Xây dựng hệ thông héi đáp quy định đào tạo dai học

e Độ dữ liệu hỏi đáp về quy định đào tạo đại học của Trường Đại học Công nghệ

Thông tin được xây dựng bởi Nguyễn Việt Nam [I], bao gồm 7ð đoạn văn bản,

với 626 cặp câu hỏi - dap, trong khóa luận này sẽ gọi là UIT-REG.

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng hệ thống hỏi đáp về quy định đào tạo đại học (Trang 56 - 63)

Tải bản đầy đủ (PDF)

(90 trang)