Xây dựng bộ trả lời câu hỏi

Một phần của tài liệu Phát triển hệ thống chatbot trò chuyện nhiều tầng (Trang 59 - 61)

7.1.1 Mơ hình trả lời câu hỏi áp dụng BERT

Sử dụng mơ hình BERT đã được huấn luyện trên tập dữ liệu đã nêu ở mục 4.2 với các thông số như sau: • hidden_size: 768 • max_position_embeddings: 512 • num_attention_heads: 12 • p_dropout: 0.1 • num_hidden_layers: 12

7.1.2 Hệ thống truy vấn đoạn văn cho mơ hình trả lời câu hỏi

Bộ trả lời câu hỏi cần đầu vào là nhiều văn bản để có thể tìm kiếm câu trả lời. Hình 7.1 mơ tả hệ thống truy vấn văn bản cho hình trả lời câu hỏi. Các văn bản được tìm kiếm thơng qua Google Custom Search API với câu tìm kiếm là câu hỏi của người dùng và trả về danh sách các trang web có thể chứa thơng tin trả lời câu hỏi. Sau khi có danh sách các đường dẫn trang web có chứa thơng tin về câu hỏi, hệ thống sẽ được xử lý cụ thể như sau:

• Từ những đường dẫn trả về từ Google Custom Search API, nhóm sử dụng thư viện

requests để lấy nội dung của trang web về và tiến hành tiền xử lý giữ lại các văn băn nằm trong thẻ<p>.

• Các văn bản sau đó được giữ lại nếu có những từ khố trong câu hỏi.

• Mỗi văn bản tiếp tục được chia thành nhiều đoạn. Các đoạn này nếu có chứa những từ khố trong câu hỏi thì được giữ lại.

• Các từ trong câu hỏi được tổ hợp thành các n-grams. Các đoạn sau đó được xếp hạng theo độ tương đồng với các n-grams trên.

• Các đoạn văn được giữ lại theo top-n đoạn có điểm tương đồng cao nhất và được đưa qua bộ trích xuất câu trả lời được hiện thực bằng BERT.

CHƯƠNG 7 THÍ NGHIỆM VÀ ĐÁNH GIÁ 47

CHƯƠNG 7 THÍ NGHIỆM VÀ ĐÁNH GIÁ 48

Một phần của tài liệu Phát triển hệ thống chatbot trò chuyện nhiều tầng (Trang 59 - 61)