Bài toán tìm câu trả lời (còn gọi là bài toán lựa chọn câu trả lời hay tìm câu trả lời tốt nhất) là một bài toán chính trong hệ thống hỏi đáp. Khi một câu hỏi được đăng lên forum sẽ có nhiều người tham gia trả lời câu hỏi. Bài toán lựa chọn câu trả lời với mục đích thực hiện sắp xếp các câu trả lời theo mức độ liên quan tới câu hỏi. Những câu trả lời nào đúng nhất sẽ được đứng trước các câu trả lời kém liên quan hơn. Trong những năm gần đây, rất nhiều mô hình học sâu được đề xuất sử dụng vào nhiều bài toán xử lý ngôn ngữ tự nhiên (NLP) trong đó có bài toán lựa chọn câu trả lời trong hệ thống hỏi đáp nói chung và trong hệ thống hỏi đáp cộng đồng (CQA) nói riêng. Hơn nữa, các mô hình được đề xuất lại thực hiện trên các tập dữ liệu khác nhau. Vì vậy, trong bài báo này, chúng tôi tiến hành tổng hợp và trình bày một số mô hình học sâu điển hình khi áp dụng vào bài toán tìm câu trả lời đúng trong hệ thống hỏi đáp và phân tích một số thách thức trên các tập dữ liệu cho bài toán trên hệ thống hỏi đáp.
TNU Journal of Science and Technology 226(11): 216 - 225 A REVIEW OF DEEP LEARNING FOR FINDING THE BEST ANSWER IN COMMUNITY QUESTION ANSWERING SYSTEM Ha Thi Thanh1*, Mong Thi Minh Huong2, Ho Thi Tuyen1, Luong Thi Minh Hue1 1TNU 2TNU - University of Information and Communication Technology - University of Technology ARTICLE INFO ABSTRACT Received: 13/4/2021 Answer selection (also called finding the best answer) is a major problem in community question answering system When a question is posted on the forum, users can answer the question The purpose of answer selection problem is to sort the answers according to the level of relevance to the question The best answers will be preceded by less relevant answers In recent years, many deep learning models have been proposed in many natural language processing problems, including the answer selection However, these proposed models are performed on different data sets Therefore, the aim of this paper is to survey and describe thoroughly some deep learning models applying problem of finding the best answer and analyzing some challenges on the data sets for this task in community question answering system Revised: 12/8/2021 Published: 18/8/2021 KEYWORDS CQA Deep Learning Selection Answer Attention Mechanism Finding Best Answer TỔNG HỢP MỘT SỐ PHƯƠNG PHÁP HỌC SÂU ÁP DỤNG VÀO BÀI TOÁN LỰA CHỌN CÂU TRẢ LỜI TRONG HỆ THỐNG HỎI ĐÁP CỘNG ĐỒNG Hà Thị Thanh1, Mông Thị Minh Hường2, Hồ Thị Tuyến1, Lương Minh Huế1 1Trường 2Trường Đại học Công nghệ Thông tin Truyền thông – ĐH Thái Nguyên Đại học Kỹ thuật Công nghiệp – ĐH Thái Ngun THƠNG TIN BÀI BÁO TĨM TẮT Ngày nhận bài: 13/4/2021 Bài tốn tìm câu trả lời (cịn gọi tốn lựa chọn câu trả lời hay tìm câu trả lời tốt nhất) tốn hệ thống hỏi đáp Khi câu hỏi đăng lên forum có nhiều người tham gia trả lời câu hỏi Bài toán lựa chọn câu trả lời với mục đích thực xếp câu trả lời theo mức độ liên quan tới câu hỏi Những câu trả lời đứng trước câu trả lời liên quan Trong năm gần đây, nhiều mơ hình học sâu đề xuất sử dụng vào nhiều toán xử lý ngơn ngữ tự nhiên (NLP) có toán lựa chọn câu trả lời hệ thống hỏi đáp nói chung hệ thống hỏi đáp cộng đồng (CQA) nói riêng Hơn nữa, mơ hình đề xuất lại thực tập liệu khác Vì vậy, báo này, chúng tơi tiến hành tổng hợp trình bày số mơ hình học sâu điển hình áp dụng vào tốn tìm câu trả lời hệ thống hỏi đáp phân tích số thách thức tập liệu cho toán hệ thống hỏi đáp Ngày hoàn thiện: 12/8/2021 Ngày đăng: 18/8/2021 TỪ KHÓA CQA Học sâu Lựa chọn câu trả lời Cơ chế ý Hệ thống hỏi đáp cộng đồng DOI: https://doi.org/10.34238/tnu-jst.4321 * Corresponding author Email: htthanh@ictu.edu.vn http://jst.tnu.edu.vn 216 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Giới thiệu Hệ thống hỏi đáp cộng đồng (ví dụ website tiếng Stack Overflow (https://stackoverflow.com/) and Qatar Living (https://www.qatarliving.com/forum) biết đến với kho liệu lớn lên tới hàng triệu cặp câu hỏi câu trả lời người dùng cộng đồng tạo Kho liệu qua thời gian trở thành kho liệu chứa tri thức quý giá nhiều người dùng sử dụng để tìm kiếm thông tin Các nghiên cứu gần thực tốn lựa chọn câu trả lời, tìm câu hỏi liên quan hay phân lớp câu trả lời [1], [2] Trong đó, tốn lựa chọn câu trả lời toán quan trọng toán hệ thống hỏi đáp Một người dùng đăng câu hỏi mong muốn nhận câu trả lời từ người dùng khác Trong số forum, nhiều câu hỏi có hàng trăm câu trả lời (ví dụ hệ thống Yahoo!answer) Do người dùng thời gian đọc tất câu trả lời đánh giá câu trả lời Hơn nữa, câu hỏi có nội dung đặc thù đặc biệt người bình thường khơng phải chun gia lĩnh vực khó phân biệt câu trả lời hay sai Vì lý này, việc xây dựng công cụ tự động đánh giá câu trả lời tốt hay không tốt cơng việc cần thiết Hình Ví dụ câu hỏi câu trả lời tập liệu Semeval 2017 Bài toán lựa chọn câu trả lời phát biểu sau: Cho câu hỏi q câu trả lời ứng viên a1, a2, …, an Chúng ta cần phải xác định xem câu trả lời câu Đây toán quan trọng nhiều nhà nghiên cứu quan tâm [1], [3]-[5] Với toán thách thức lớn vấn đề khoảng cách từ vựng Khoảng cách từ vựng sai khác từ vựng câu hỏi câu trả lời Ngoài khác từ vựng câu hỏi câu trả lời, độ dài câu hỏi câu trả lời lệch Câu hỏi câu trả lời lại chứa nhiều câu Một lý dẫn tới thách thức khoảng cách từ vựng ngôn ngữ dùng forum dạng văn nói Nhiều câu hỏi câu trả lời chứa nhiều thông tin dư thừa, khơng đề cập trực tiếp tới nội dung câu hỏi câu trả lời lời chào hỏi, biểu tượng cảm xúc, từ viết tắt, viết sai tả Những ngun nhân gây khó khăn cho mơ hình dự đốn câu trả lời Hình ví dụ cặp câu hỏi câu trả lời minh họa thách thức tập liệu SemEval 2017 Trong ví dụ 1, câu hỏi chứa phần dư thừa khơng liên quan tới nội dung “Hello, Can you help me” Hơn nữa, ví dụ cịn chứa nhiều biểu tượng cảm xúc ':0', ':)', ':P', từ viết tắt Trong ví dụ thứ hai, câu hỏi chứa nhiều câu nhiều ý hỏi http://jst.tnu.edu.vn 217 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Các nghiên cứu gần sử dụng phương pháp tiếp cận dựa vào mạng học sâu chế ý để giải tốn tìm câu trả lời mà khơng cần sử dụng kỹ thuật trích rút đặc trưng đặc biệt sử dụng thêm nguồn tri thức bên [2], [6] Các phương pháp hướng tới việc tìm từ mang thông tin quan trọng câu hỏi câu trả lời Trong năm gần đây, nhiều nghiên cứu rằng, chế ý mang lại thành tựu to lớn tốn NLP dịch máy, suy diễn ngơn ngữ, đọc hiểu hỏi đáp [4] Hơn nữa, thông qua việc học trọng số ý từ cụm từ câu trọng số cụm từ dư thừa nhiễu thường có trọng số nhỏ Điều dẫn tới mức độ ảnh hưởng phần tới tồn ngữ nghĩa câu khơng cịn đáng kể Do đó, ngữ nghĩa câu tập trung vào từ cụm từ quan trọng mà liên quan trực tiếp tới nội dung câu hỏi câu trả lời Vì vậy, mạng học sâu dựa vào chế ý lựa chọn phù hợp với liệu văn hệ thống hỏi đáp cộng đồng Trong nhiều nghiên cứu cơng nhận hiệu mơ hình mạng học sâu toán lựa chọn câu trả lời chưa có đánh giá tổng hợp cụ thể mơ hình học sâu ứng dụng tốn [6]-[8] Trong báo này, chúng tơi tiến hành tổng hợp phân nhóm số mơ hình điển hình đề xuất giải tốn lựa chọn câu trả lời Đồng thời chọn số mơ hình học sâu điển hình để trình bày cụ thể cách sử dụng mơ hình vào toán lựa chọn câu trả lời Qua đó, chúng tơi đề xuất hướng nghiên cứu tương lai Các phương pháp Bài toán lựa chọn câu trả lời toán cốt lõi nghiên cứu nhiều hệ thống hỏi đáp cộng đồng Q trình nghiên cứu tốn gồm giai đoạn: Giai đoạn sử dụng đặc trưng từ vựng, giai đoạn sử dụng đặc trưng kỹ thuật giai đoạn thứ giai đoạn sử dụng mạng nơron học sâu chế ý Trong giai đoạn đầu nghiên cứu sử dụng trùng lặp câu hỏi câu trả lời Trong phương pháp này, câu trả lời tốt lựa chọn dựa vào so sánh từ trùng câu hỏi câu trả lời Phương pháp túi từ Bag-of-word túi n-gram (Bag-of-Ngram) [5] sử dụng phổ biến giai đoạn đầu Ngoài số phương pháp sử dụng đặc trưng trọng số túi từ Tuy nhiên, phương pháp không hợp lý Điểm yếu phương pháp khơng sử dụng đặc trưng ngữ nghĩa đặc trưng ngôn ngữ câu Để khắc phục nhược điểm số nghiên cứu sử dụng mạng ngữ nghĩa Wordnet để giải thách thức ngữ nghĩa Tuy nhiên, phương pháp có hạn chế ngơn ngữ số từ khơng có nguồn từ vựng Wordnet [6] Trong giai đoạn thứ hai, nghiên cứu cố gắng đưa đặc trưng kỹ thuật sử dụng cấu trúc cú pháp ngữ nghĩa câu Cây phụ thuộc sử dụng để biểu diễn câu hỏi câu trả lời ứng viên, đồng thời tích hợp thơng tin ngữ nghĩa sử dụng thực thể có tên vào biểu diễn Nghiên cứu khác gần lại sử dụng phụ thuộc thuật toán khoảng cách sửa toán lựa chọn câu trả lời [7] Ngoài đặc trưng sử dụng đưa vào mơ hình học sâu CNN, mơ hình RNN [7] Trong thi SemEval CQA 2017 [2], đội đứng đầu khai thác nhiều đặc trưng phụ thuộc, độ tương tự nhiều đặc trưng đặc biệt khác Giai đoạn thứ giai đoạn phát triển giải toán lựa chọn câu trả lời hệ thống hỏi đáp hiệu suất mơ hình cải thiện lớn hẳn giai đoạn trước Giai đoạn gọi giai đoạn bùng nổ số lượng nghiên cứu AI với mơ hình học sâu mạng nơron mà loại bỏ việc sử dụng đặc trưng kỹ thuật trích rút thủ cơng Với số lượng nghiên cứu lớn toán QA, nhà nghiên cứu chia thành nhóm chính: Nhóm dựa Siamese, nhóm dựa vào chế ý, nhóm dựa vào so sánh tổng hợp, nhóm dùng mơ hình ngơn ngữ nhóm gồm kiến trúc đặc biệt cho tốn hỏi đáp 2.1 Các mơ hình dựa vào kiến trúc Siamese http://jst.tnu.edu.vn 218 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Những mơ hình dựa vào mạng Siamese mơ hình theo cấu trúc mạng Siamese Những mơ hình xử lý câu hỏi câu trả lời cách độc lập học biểu diễn chúng Trong q trình xử lý thơng tin câu khác khơng ảnh hưởng đến trình câu [3] Yu cộng [8] mơ hình sử dụng mạng nơron vào giải toán lựa chọn câu trả lời Mơ hình sử dụng mạng CNN hồi quy logistic vào việc lựa chọn câu trả lời liên quan với câu hỏi Feng cộng sử dụng mơ hình Yu với việc kết hợp sử dụng mạng nơron sâu với lớp kết nối đầy đủ (fully-connected) Trong mơ hình lớp ẩn khác nhau, phép tốn tích chập, pooling với hàm kích hoạt khác sử dụng để thăm dò ảnh hưởng yếu tố Tuy nhiên, mơ hình tính tốn cách độc lập đánh giá riêng biệt He cộng [2] đề xuất mơ hình kết hợp nhiều khía cạnh mơ hình hóa độ tương tự câu vào mơ hình cuối đưa véctơ biểu diễn cho câu Các mơ hình học sâu nghiên cứu sử dụng rộng rãi toán Yu cộng [8] đề xuất mơ hình Convolutional Bigram để phân lớp câu trả lời ứng viên thành lớp câu hỏi câu hỏi sai Tan cộng [9] sử dụng mơ hình attentive-biLSTM để tính trọng số ý, sau tổng hợp ngữ nghĩa dựa vào độ liên quan đoạn câu trả lời với câu hỏi Madabushi cộng [10] cung cấp giải pháp cho bước tiền xử lý thay cải tiến mơ hình Trong mơ hình thực thể gán tên câu trả lời ứng viên chuyển thành từ đặc biệt giúp cho mơ hình tìm kiếm câu trả lời phù hợp cách dễ dàng Quá trình ứng dụng vào mơ hình Rao cộng [2] nghiên cứu xác nhận hiệu q trình [2] 2.2 Mơ hình mạng nơron dựa vào chế ý ứng dụng vào tốn lựa chọn câu trả lời Khơng giống mơ hình siamese, mơ hình dựa vào chế ý sử dụng tương tác ngữ cảnh câu để đạt thông tin tương tác câu hỏi câu trả lời Cơ chế ý sử dụng dịch máy, sau áp dụng sang tốn khác NLP hỏi đáp lựa chọn câu trả lời [3] Cơ chế ý Bahdanau sử dụng mạng RNN vượt qua hiệu toán lựa chọn câu trả lời vào thời điểm He cộng [11] sử dụng chế ý kết hợp với mạng CNN Mơ hình chứng minh chế ý kết hợp với CNN cho kết tốt so với kết hợp với mạng RNN Sau thành công chế ý, Tan [9] đề xuất để gióng từ liên quan câu hỏi với câu trả lời Do câu hỏi câu trả lời có nhiều nhiễu nên làm cho thông tin quan trọng chúng bị phân tán, điều gây khó khăn cho việc dự đốn câu trả lời Cũng có nghiên cứu tận dụng thông tin bổ sung để bù đắp cân câu hỏi câu trả lời sử dụng mơ hình người dùng, sử dụng mơ hình chủ đề, sử dụng tri thức bên từ đồ thị tri thức để làm giàu học biểu diễn câu hỏi 2.3 Các mơ hình dựa so sánh - tổng hợp Mơ hình dựa vào chế so sánh - tổng hợp tập trung vào tương tác ngữ cảnh câu mơ hình ý mức độ tương tác nhiều Những mô hình ban đầu thường so sánh mức từ để đạt nhiều thơng tin, sau tích hợp thông tin so sánh mức từ với véctơ biểu diễn mức câu [3] Trong mơ hình He cộng mơ hình sử dụng chế so sánh - tổng hợp để cải tiến chất lượng toán lựa chọn câu trả lời Thay sử dụng biểu diễn câu đầu vào sang dạng biểu diễn véctơ tính độ tương tự hai câu, tác giả thực tương tác cặp từ với để học biểu diễn câu đầu vào qua việc tổng hợp giá trị Một nghiên cứu Bian [1] bổ sung thêm kỹ thuật ý động vào mơ hình so sánh - tổng hợp Kỹ thuật giúp lọc nhiễu ma trận ý, đồng thời giúp khai thác ngữ nghĩa tốt cấp độ từ làm cho mơ hình học biểu diễn câu tốt Mơ hình Shen đề xuất lớp liên trọng số cố thiết lập trọng số từ Tập liệu http://jst.tnu.edu.vn 219 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Trong phần chúng tơi trình bày số tập liệu sử dụng để đánh giá mơ hình đề xuất nghiên cứu gần Bảng thống kê số tập liệu dùng để đánh giá mơ hình tốn hệ thống hỏi đáp Bảng Bảng thống kê số tập liệu sử dụng toán hệ thống hỏi đáp cộng đồng Train Yahoo!answer Trec- QA Quora SemEval 2017 DeV Test 1229 80 100 267 50 88 Tổng 87.390 câu hỏi 414.446 câu trả lời 1409 cặp câu hỏi – câu trả lời 404.289 cặp câu hỏi 405 câu hỏi gốc 4050 câu trả lời Yahoo!webscope: Dữ liệu thu thập từ trang hỏi đáp Yahoo!answer với đa dạng thể loại Đây tập liệu giàu thông tin chưa gán nhãn bao gồm 87.390 câu hỏi 314.446 câu trả lời Tập liệu chứa nhiều thơng tin hữu ích cho việc nghiên cứu toán CQA chủ đề câu hỏi, nội dung câu hỏi, mô tả chi tiết câu hỏi, câu trả lời tốt người hỏi chọn câu trả lời khác cho câu hỏi Các thơng tin khác liên quan tới người hỏi, thời gian hỏi trả lời, ngày bình chọn cho câu trả lời Trec-QA: Tập TREC-QA bao gồm 1409 cặp câu hỏi - câu trả lời chia thành 1229, 80 100 cặp câu tương ứng với ba tập: Tập huấn luyện, tập phát triển tập kiểm thử Tập chứa cặp câu hỏi factoid câu trả lời Câu hỏi factoid câu hỏi ngắn gọn thường chứa từ để hỏi what, where, when, who Trong tập câu hỏi có câu trả lời gán nhãn POS, NER phân tích câu phụ thuộc Quora: Đây tập liệu công bố thi Kaggle (https://www.kaggle.com/c/quora-question-pairs/data) Tập liệu thu thập từ trang hỏi đáp Quora.com lĩnh vực sống hay cơng việc hàng ngày Nó bao gồm câu hỏi gán nhãn duplicate non-duplicate phục vụ cho tốn tìm câu hỏi tương đồng Trong 404351 cặp câu hỏi có 149306 cặp câu có nhãn positive 255,045 cặp câu có nhãn negative SemEval: Tập thu thập từ forum hỏi đáp chia sẻ thứ liên quan tới công việc Qatar (https://www.qatarliving.com/forum) Chủ đề phong phú đa dạng với nhiều lĩnh vực Đây tập liệu công bố Workshop đánh giá mặt ngữ nghĩa (http://alt.qcri.org/semeval2017/task3/index.php?id=data-and-tools) Từ khía cạnh ngơn ngữ, tập liệu có giá trị thách thức Tập liệu chứa nhiều đặc trưng văn web URLs, biểu tượng cảm xúc, địa email, lỗi sai tả, kí hiệu viết tắt Forum sử dụng ngôn ngữ tiếng Anh nơi trao đổi, cung cấp thông tin Qatar cho người sống có ý định tới sống Do người ngữ dùng tiếng Anh nên câu có nhiều lỗi mặt ngữ pháp, nhiều từ không phổ biến từ không tồn Workshop Semeval tổ chức hàng năm với tham gia nhiều đội tuyển Tập liệu cụ thể công bố đến năm 2017 Tập liệu chia làm ba tập: train, dev test chứa câu hỏi câu trả lời Với câu hỏi gốc có 10 câu hỏi liên quan (được lấy qua máy tìm kiếm) gán ba nhãn: Perfect match, Relevant Irrelevant Với câu hỏi gốc có 10 câu trả lời gán ba nhãn Good, Bad, Potentially useful Mỗi câu hỏi liên quan lại có 10 câu trả lời gán ba nhãn Khác biệt lớn tập Trec-QA tập liệu cịn lại đặt trưng ngôn ngữ Tập liệu TREC-QA tập liệu với ngôn ngữ tiếng Anh chuẩn Các câu hỏi chủ yếu câu hỏi factoid câu hỏi thường ngắn gọn không mô tả hết thách thức hệ thống hỏi đáp cộng đồng Trong đó, tập liệu khác Yahoo!answer, Quora, SemEval ngơn ngữ dùng ngơn ngữ nói Đặc biệt hơn, tập SemEval đơi người dùng cịn dùng ngơn ngữ khác khơng phải tiếng Anh Ngồi tập liệu Yahoo!answer Quora lại không chia thành tập huấn luyện, tập phát triển kiểm thử chuẩn Vì báo lại chia tập liệu thử nghiệm khác nên phương pháp đề xuất khó so sánh với Khác biệt thứ hai http://jst.tnu.edu.vn 220 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 câu hỏi tập CQA chứa nhiều câu hỏi mở với nhiều lĩnh vực khác nhau, cịn tập TRECQA chứa nhiều câu hỏi factoid có nội dung ngắn gọn rõ ràng Khác biệt thứ tập liệu CQA QA tập CQA thường có lượng liệu lớn nhiều so với TREC-QA Khác biệt cuối tập liệu CQA, tập liệu SemEval có sẵn công cụ đánh giá chuẩn công khai, tập liệu khác kịch đánh giá khơng thống Hơn nữa, tập liệu Semeval chứa nhiều miền liệu nên sử dụng vào mơ hình dễ dàng cho việc điều chỉnh chuyển đổi miền sử dụng Khó khăn nghiên cứu tốn hệ thống CQA khơng có tập liệu chuẩn để so sánh phương pháp với Các bảng bảng thống kê kết số mơ hình đề xuất thực tập liệu nghiên cứu tổng hợp báo Nhiều nhà nghiên cứu sử dụng tập liệu lấy từ Yahoo!answer tập liệu huấn luyện, tập phát triển tập kiểm thử lại khác nhau, không cố định không công bố công khai Trong nhiều tác giả lại cơng bố nghiên cứu tập TREC-QA tập liệu chứa câu hỏi factoid Trong câu hỏi CQA câu hỏi phức tạp dài, nhiễu Vì vậy, khó khăn việc nghiên cứu toán lựa chọn câu trả lời khơng có tập liệu chuẩn để thử nghiệm đánh giá chung cho mơ hình đề xuất Mỗi mơ hình lại phù hợp với tập liệu riêng có đặc trưng ngơn ngữ riêng Bảng Bảng kết MAP MRR số mô hình học sâu tập liệu TrecQA Mơ hình Bigram+Word count+CNN Embedding+CNN+Max pooling QA-LSTM QA-LSTM/CNN QA-LSTM attention QA-LSTM/CNN attention MAP 71,13 71,06 68,19 70,61 68,96 72,79 MRR 78,46 79,98 76,52 81,04 78,49 82,40 Bảng Bảng kết P@1 số mơ hình tập Yahoo!answer Mơ hình P@1 OKapi BM25 35,6 TransLM 48,5 BOW embeddings 66,8 CNN_MLP 68,5 Một số mơ hình điển hình Trong phần này, chúng tơi lựa chọn số mơ hình đại diện cho nhóm mơ hình trình bày mục để mô tả kĩ kiến trúc mơ hình áp dụng vào tốn lựa chọn câu trả lời 4.1 Mơ hình LSTM Mơ hình LSTM đề xuất Hochreiter Schmidhuber vào năm 1997 để khắc phục nhược điểm mô hình RNN Mơ hình LSTM hình Hình Mơ hình LSTM [9] Mạng LSTM (Long Short-Term Memory) bao gồm nhiều tế bào LSTM liên kết với thay tương tác với qua đơn vị tầng ẩn mạng RNN LSTM bao gồm trạng thái tế bào http://jst.tnu.edu.vn 221 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 giống băng truyền chạy xun suốt nút mạng Do đó, thơng tin truyền dễ dàng thơng suốt LSTM có khả bỏ thêm thông tin cho trạng thái tế bào thơng qua nhóm gọi cổng Cổng nơi sàng lọc thơng tin qua thơng qua phép tốn sigmoid phép nhân Các phương trình lan truyền mạng LSTM sau: ik = ( W i xk + V i hk −1 + bi ) , f k = ( W f xk + V f hk −1 + b f ) , (1) ok = ( W o xk + V o hk −1 + b f ) , ck = f k ck −1 + ik hk = ok ( W c xk + V c hk −1 + b c ) ( ck ) Trong đó: i, f, o cổng vào, cổng quên cổng tương ứng, ma trận W, V b ma trận học từ mơ hình Véctơ ck nhớ đơn vị Nó kết hợp nhớ trước đầu vào Chúng ta chọn bỏ qua hồn tồn nhớ cũ (cổng quên 0) bỏ qua hoàn tồn trạng thái tính tốn (cổng đầu vào 0), giá trị hai thái cực Mạng nhớ ngắn hạn huớng dài hạn chứng tỏ khả khắc phục hạn chế vấn đề phụ thuộc dài qua nhiều thử nghiệm thực tế, giải số toán học máy nói chung xử lý ngơn ngữ tự nhiên nói riêng Mơ hình LSTM ứng dụng vào toán lựa chọn câu trả lời sau: Cho câu hỏi câu trả lời qua hai đường LSTM hình Sau véctơ ẩn cuối h1(m) h2(n) nối lại qua hàm sofmax để dự đoán Bài toán lựa chọn câu trả lời đưa toán phân lớp nhị phân Hình Mơ hình siamese sử dụng LSTM cho tốn lựa chọn câu trả lời 4.2 Mơ hình LSTM/CNN attention Trong mơ hình này, đầu hai câu hỏi sau đưa qua mơ hình LSTM CNN sử dụng để tính ma trận trọng số ý từ với từ Sau biểu diễn từ câu thứ hai cập nhật lại qua trọng số ý Cuối cùng, phép toán tổng hợp lớn (max pooling) sử dụng để thu thập đặc trưng quan trọng trước đưa vào lớp dự đốn Mơ hình (hình 4) gần giống với mơ hình Tan cộng [9] Trong đó, cơng thức tính trọng số ý sau: ma ,q ( t ) = Wam (t) + Wqm oq ( sa ,q (t ) exp w Tms ( ma ,q ( t ) ) ( t ) = ( t ) sa ,q ( t ) http://jst.tnu.edu.vn 222 ) (2 ) (3) (4) Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Hình Mơ hình LSTM/CNN attention cho tốn lựa chọn câu trả lời 4.3 Mơ hình tổng hợp so sánh Mơ hình match-LSTM làm mơ hình lựa chọn để mô tả phương pháp tổng hợp so sánh áp dụng vào toán lựa chọn câu trả lời Mơ hình đề xuất cho tốn suy diễn ngơn ngữ Sau mơ hình áp dụng vào toán lựa chọn câu tra lời [12] Mơ hình bao gồm lớp: - Lớp biểu diễn từ: Mục đích lớp học biểu diễn từ câu sang khơng gian có số chiều cố định sử dụng mơ hình Glove - Lớp biểu diễn theo ngữ cảnh: Câu hỏi câu trả lời đưa qua hai đường LSTM để cập nhật biểu diễn từ câu theo ngữ cảnh - Lớp matching: Trong mơ hình so sánh từ cập nhật theo ngữ cảnh câu trả lời với từ câu hỏi qua việc tính trọng số véctơ ý theo công thức sau [12]: ekj = w e ( W q h qj + W t hkt + W m hkm−1 ) kj = exp ( ekj ) M j '=1 exp ( ekj ' ) M ak = akj h qj ' ( 5) ( 6) (7) j =1 - Tiếp theo lớp tổng hợp Lớp làm nhiệm vụ tổng hợp so sánh bước qua đường mLSTM sang không gian véctơ với số chiều cố đinh - Cuối lớp dự đốn Mơ hình sử dụng biểu diễn lớp ẩn cuối bước mơ hình mLSTM dùng để dự đốn hàm softmax http://jst.tnu.edu.vn 223 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 Hình Mơ hình match-LSTM [12] Thảo luận hướng phát triển Mục đích báo nhằm tổng hợp số kiến trúc mơ hình học sâu áp dụng vào toán lựa chọn câu trả lời hệ thống hỏi đáp bao gồm kiến trúc Siamese, kiến trúc học sâu với chế ý kiến trúc so sánh tổng hợp Qua ba kiến trúc này, trình bày mơ hình học sâu tương ứng để làm rõ cách áp dụng vào toán lựa chọn câu trả lời Như trình bày phần liệu thử nghiệm toán CQA, tập liệu có đặc trưng ngơn ngữ riêng Các nhóm mơ hình đề xuất để giải tốn áp dụng tập liệu khác Do khó đánh giá cách đầy đủ tồn diện mơ hình Từ phân tích trên, chúng tơi đề xuất hướng nghiên cứu toán tương lai: - Xây dựng tập liệu chuẩn đủ lớn mang đầy đủ thách thức tốn tìm câu trả lời hệ thống hỏi đáp cộng đồng - Cài đặt thử nghiệm đánh giá tồn diện đầy đủ mơ hình học sâu điển hình tập liệu khác nhau; từ thấy ưu nhược điểm mơ hình - Các mơ hình đề xuất đánh giá tập liệu tiếng Anh mà chưa có đánh giá tập liệu tiếng Việt Lời cám ơn Chúng xin cảm ơn đề tài có mã số T2021-07-03 hỗ trợ phần kinh phí để chúng tơi thực cơng việc TÀI LIỆU THAM KHẢO/ REFERENCES [1] W Bian, S Li, Z Yang, G Chen, and Z Lin, “A Compare-Aggregate Model with Dynamic-Clip Attention for Answer Selection,” CIKM, New York – NY - USA, 2017, pp 1987-1990 [2] H He, J.Wieting, K Gimpel, J Rao, and J Lin, “Attention- based multi-perspective convolutional neural networks for textual similarity measurement,” The Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval- 2016), San Diego - California, 2016, pp 1103-1108 [3] T M Lai, T Bui, and S Li, “A Review on Deep Learning Techniques Applied to Answer Selection,” COLING, Santa Fe - New Mexico - USA, 2018, pp 2132-2144 [4] J Devlin, M.-W Chang, K Lee, and K Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” NAACL-HLT, Minneapolis - Minnesota - USA, 2019, pp 4171-4186 [5] S Wan, M Dras, R Dale, and C Paris, “Using dependency-based features to take the para-farce out of paraphrase,” The Proceedings of the Australasian Language Technology Workshop 2006, Sydney Australia, 2006, pp 131-138 http://jst.tnu.edu.vn 224 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 216 - 225 [6] Yi, Liang and Wang, JianXiang and Lan, Man, "ECNU: Using Multiple Sources of CQA-based Information for Answers Selection and Response Inference", The proceedings of the 9th International Workshop on Semantic Evaluation SemEval, Denver, Colorado, 2015, pp.236 241 [7] M Wang and C D Manning, “Probabilistic Tree-Edit Models with Structured Latent Variables for Textual Entailment and Question Answering,” The COLING, Beijing - China, 2010, pp 1164-1172 [8] L Yu, & K M Hermann, P Blunsom, and S Pulman, “Deep Learning for Answer Sentence Selection”, 2014 [Online] Available: https://arxiv.org/abs/1412.1632 [Accessed May 2021] [9] M Tan, B Xiang, and B Zhou, “LSTM-based Deep Learning Models for non-factoid answer selection,” 2015 [Online] Available: https://arxiv.org/abs/1511.04108 [Accessed May 2021] [10] H T Madabushi, M Lee, and J Barnden, “Integrating Question Classification and Deep Learning for improved Answer Selection,” COLING 2018, Santa Fe - New Mexico - USA, 2018, pp 3283-3294 [11] H He, K Gimpel, and J Lin, “Multi-perspective sentence similarity modeling with convolutional neural networks,” EMNLP, Lisbon - Portugal, 2015, pp 1576-1586 [12] T T Ha, A Takasu, T C Nguyen, K H Nguyen, V N Nguyen, K A Nguyen, and S G Tran, “Supervised attention for answer selection in community question answering,” IJAI, vol 9, no 2, pp 203-11, 2020 http://jst.tnu.edu.vn 225 Email: jst@tnu.edu.vn ... dung câu hỏi câu trả lời Vì vậy, mạng học sâu dựa vào chế ý lựa chọn phù hợp với liệu văn hệ thống hỏi ? ?áp cộng đồng Trong nhiều nghiên cứu cơng nhận hiệu mơ hình mạng học sâu toán lựa chọn câu trả. .. sử dụng mạng nơron học sâu chế ý Trong giai đoạn đầu nghiên cứu sử dụng trùng lặp câu hỏi câu trả lời Trong phương pháp này, câu trả lời tốt lựa chọn dựa vào so sánh từ trùng câu hỏi câu trả lời. .. chọn câu trả lời, tìm câu hỏi liên quan hay phân lớp câu trả lời [1], [2] Trong đó, tốn lựa chọn câu trả lời tốn quan trọng tốn hệ thống hỏi ? ?áp Một người dùng đăng câu hỏi mong muốn nhận câu trả