Bài viết trình bày việc khai thác mô hình LSTM nhiều tầng áp dụng vào bài toán tìm câu hỏi tương đồng với mục đích khai thác ngữ nghĩa ẩn của câu. Mô hình LSTM nhiều tầng có khả năng tổng hợp ngữ nghĩa qua nhiều lớp.
TNU Journal of Science and Technology 227(08): 389 - 394 USING MULTI-LAYER LSTMS FOR QUESTION RETRIEVAL Luong Thi Minh Hue* TNU - University of Information and Communication Technology ARTICLE INFO ABSTRACT Received: 01/4/2022 Question retrieval is one of the important problems in the Community Question Answering system The biggest challenge of this problem is the lexical gap between the words and phrases of the first and second question Although there are many studies applied to this problem, the exploitation of multi-layer LSTM model has not been tested on this problem In this paper, we exploit a multi-layer LSTM model applied to the problem of finding similar questions for the purpose of exploiting hidden semantics of sentences The multi-layer LSTM model is capable of synthesizing semantics by multiple layers and exploits hidden semantics through many layers Our model learned the semantics of sentences and improved the performance of finding question The results show that the model with layers gives the best results compared to the original LSTM model and other multi-layer models on the 2017 semeval dataset for the problem of finding similar questions Revised: 26/5/2022 Published: 27/5/2022 KEYWORDS LSTM NLP Deep learning CQA Multi-layerLSTM SỬ DỤNG MƠ HÌNH LSTM NHIỀU TẦNG VÀO BÀI TỐN TÌM KIẾM CÂU HỎI Lương Thị Minh Huế Trường Đại học Công nghệ Thông tin Truyền thơng – ĐH Thái Ngun THƠNG TIN BÀI BÁO Ngày nhận bài: 01/4/2022 Ngày hoàn thiện: 26/5/2022 Ngày đăng: 27/5/2022 TỪ KHĨA LSTM Học sâu Xử lý ngơn ngữ tự nhiên Hỏi đáp cộng đồng Mơ hình đa tầng TĨM TẮT Tìm câu hỏi tương đồng toán quan trọng hệ thống hỏi đáp Thách thức lớn toán thách thức khoảng cách từ vựng từ câu hỏi thứ câu hỏi thứ hai Mặc dù có nhiều nghiên cứu đề xuất mơ hình, nhiên việc khai thác mơ hình LSTM nhiều lớp chưa thử nghiệm toán Trong báo này, chúng tơi khai thác mơ hình LSTM nhiều tầng áp dụng vào tốn tìm câu hỏi tương đồng với mục đích khai thác ngữ nghĩa ẩn câu Mơ hình LSTM nhiều tầng có khả tổng hợp ngữ nghĩa qua nhiều lớp Nó khai thác ngữ nghĩa ẩn qua nhiều tầng, từ giúp cho mơ hình hiểu ngữ nghĩa câu Kết mơ hình tầng cho kết tốt so với mơ hình gốc LSTM mơ hình nhiều tầng khác tập liệu semeval 2017 cho tốn tìm câu hỏi tương đồng DOI: https://doi.org/10.34238/tnu-jst.5799 Email: lmhue@ictu.edu.vn http://jst.tnu.edu.vn 389 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 389 - 394 Giới thiệu Hệ thống hỏi đáp dựa cộng đồng (CQA) trở thành tảng trực tuyến ngày phổ biến Các forum, nơi người dùng đăng câu hỏi câu trả lời câu hỏi người dùng khác đăng lên, cung cấp cho người dùng nơi mà họ chia sẻ kiến thức kinh nghiệm Khi người dùng đăng câu hỏi lên hệ thống người dùng phải chờ thời gian trễ để nhận câu trả lời từ người dùng khác Hơn nữa, forum sau thời gian hoạt động, lượng câu hỏi câu trả lời tích lũy kho liệu lớn Điều có nghĩa khả người dùng hỏi lại câu hỏi lặp lại lớn Một lý khác, lượng câu hỏi câu trả lời lớn việc tìm câu trả lời cho câu hỏi kho liệu có sẵn thời gian Vì vậy, tốn tìm kiếm câu hỏi tương đồng với câu hỏi với mục đích tận dụng câu trả lời có câu hỏi tương đồng với câu truy vấn [1], [2] Hệ thống CQA hướng tới tìm câu trả lời cách tự động từ câu trả lời câu hỏi có Bài tốn tìm kiếm câu hỏi tương đồng định nghĩa sau: Cho câu hỏi truy vấn q tập câu hỏi có hệ thống {q1, q2, …, qn}, đầu yêu cầu trả danh sách câu hỏi tương đồng với q cho câu hỏi liên quan đứng trước câu hỏi liên quan Các nghiên cứu trước [3] rằng, thách thức lớn toán khoảng cách từ vựng Điều có nghĩa cách sử dụng từ cụm từ câu hỏi thứ khác so với từ cụm từ câu hỏi thứ hai, hai câu có ý nghĩa Dưới ví dụ hai câu hỏi coi tương đồng với cách sử dụng từ ngữ khác lấy từ tập liệu semeval 2017 [4], [5]: Câu hỏi 1: which is a good bank as per your experience in Doha Câu hỏi 2: Hi guys, I need to open a new bank account Which is the best bank in Qatar? I assume all of them wil roughly be the same, but stll which has a slight edge (money transfer, benefits etc) Thanks!! Hai câu hỏi ý hỏi diễn đạt khác Trong câu hỏi số cịn có nhiều nội dung giải thích cho câu hỏi mang giọng điệu dạng văn nói, có chứa nhiều từ viết tắt Để giải thách thức này, nghiên cứu trước sử dụng kỹ thuật kỹ thuật gióng mềm dịch máy [3] Các nghiên cứu khác sử dụng mơ hình học sâu sử dụng đặc trưng kỹ thuật tri thức bên [4]-[6] Các nghiên cứu khai thác đặc trưng ngữ nghĩa cú pháp câu sử dụng mơ hình LSTM Tuy nhiên, mơ hình LSTM chưa thử nghiệm mơ hình nhiều tầng LTSM Vì vậy, báo chúng tơi thử nghiệm mơ hình LSTM nhiều tầng để học ngữ nghĩa câu Bài báo tập trung vào trình bày kinh nghiệm thử nghiệm mơ hình LSTM nhiều tầng tốn tìm câu hỏi tương đồng Phần báo chúng tơi trình bày: (2) Các cơng việc liên quan, (3) Mơ hình LSTM, (4) Các thử nghiệm thảo luận, (5) Kết luận công việc tương lai Các công việc liên quan Trong năm gần đây, nhiều nghiên cứu liên quan đề xuất để giải tốn tìm câu hỏi tương đồng đạt nhiều kết khả quan Cụ thể sau: Các phương pháp truyền thống giải toán CQA cách biểu diễn câu hỏi sang túi từ (Bag of word) sử dụng trọng số tf.idf mơ hình BM25 [6] Mơ hình ngơn ngữ dựa vào danh mục câu hỏi [7] với mục đích cải tiến chất lượng tìm kiếm câu hỏi câu trả lời xem xét phương pháp phổ biến để mơ hình hóa câu hỏi qua trình tự túi từ Tuy nhiên, mơ khơng thực hiệu câu dài Một câu nên trích nhiều phần thực so khớp với phần cụ thể câu khác Một mơ hình sử dụng phổ biến khác, mơ hình LDA [8] Đây mơ hình xác suất với mục đích học biểu diễn câu qua tập chủ đề ẩn Phân phối chủ đề mơ hình học ứng dụng vào tìm câu hỏi tương đồng Một hướng nghiên cứu khác mơ hình dịch máy sử dụng mơ hình http://jst.tnu.edu.vn 390 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 389 - 394 dịch máy dựa vào cụm từ [9] Các mơ hình dùng để tính độ tương đồng câu hỏi với câu hỏi câu hỏi với câu trả lời Trong hội nghị Semeval 2017, mơ hình đạt kết cao tập liệu Semeval sử dụng đặc trưng kỹ thuật phức tạp [9] thăm dị hàm nhân trích rút đặc trưng nhân từ việc phân tích cú pháp Một nghiên cứu khác công bố tập liệu khai thác đặc trưng độ tương tự khác độ đo cosin, độ đo Euclidean khoảng cách từ vựng, cú pháp ngữ nghĩa [5] để biểu diễn câu học từ mơ hình SVM Các nghiên cứu gần toán lựa chọn câu hỏi câu trả lời [10] hệ thống CQA mang lại hiệu tốt sử dụng mạng nơ ron mà không cần phải sử dụng đặc trưng trích rút thủ cơng Các mơ hình học biểu diễn câu, sau thực đo độ tương tự câu hỏi với câu hỏi câu hỏi với câu trả lời [7] Các nghiên cứu sử dụng mơ hình LSTM tốn tập trung vào khai thác ngữ nghĩa câu [9] đề xuất mơ hình đặc biệt cho tốn Tuy nhiên, việc sử dụng mơ hình LSTM nhiều tầng cho tốn chưa thăm dị tính hiệu Trong báo này, chúng tơi đề xuất sử dụng mơ hình LSTM nhiều tầng để thăm dị tính hiệu mơ hình LSTM Mơ hình LSTM nhiều tầng 3.1 Mơ hình LSTM Mơ hình LSTM (Long Short-Term Memory) đề xuất vào năm 1997 [11] Mơ hình LSTM Hình Phần chúng tơi giới thiệu mơ hình LSTM sở mơ hình nhiều tầng đề xuất bên Hình Mơ hình LSTM [11] Mơ hình LSTM bao gồm nhiều tế bào LSTM liên kết với thay tương tác với qua đơn vị tầng ẩn mạng RNN LSTM bao gồm trạng thái tế bào giống băng truyền chạy xuyên suốt nút mạng Do đó, thơng tin truyền dễ dàng thơng suốt LSTM có khả bỏ thêm thông tin cho trạng thái tế bào thơng qua nhóm gọi cổng Cổng nơi sàng lọc thơng tin qua thơng qua phép tốn sigmoid phép nhân Các cơng thức [11] mạng LSTM sau: 𝑖𝑡 = 𝜎(𝑊 𝑖 𝑥𝑡 + 𝑉 𝑖 ℎ𝑡−1 + 𝑏 𝑖 ), 𝑓𝑡 = 𝜎(𝑊 𝑓 𝑥𝑡 + 𝑉 𝑓 ℎ𝑡−1 + 𝑏 𝑓 ), (1) 𝑜𝑡 = 𝜎(𝑊 𝑜 𝑥𝑡 + 𝑉 𝑜 ℎ𝑡−1 + 𝑏 𝑓 ), 𝑐 𝑐 𝑐) 𝑐𝑡 = 𝑓𝑡 ⊙ 𝑐𝑡−1 + 𝑖𝑡 ⊙ 𝑡𝑎𝑛ℎ(𝑊 𝑥𝑡 + 𝑉 ℎ𝑡−1 + 𝑏 ℎ𝑡 = 𝑜𝑡 ⊙ 𝑡𝑎𝑛ℎ(𝑐𝑡 ) Trong đó: i, f, o cổng vào, cổng quên cổng tương ứng; ht véc tơ ẩn bước thứ t; ct băng chuyền mơ hình LSTM, thơng tin cần quan trọng dùng sau gửi vào dùng cần Do vậy, mơ hình LSTM mang thông tin từ xa (long term http://jst.tnu.edu.vn 391 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 389 - 394 memory), mơ hình LSTM có chứa thơng tin ngắn dài; ma trận W, V b ma trận học từ mơ hình 3.2 Mơ hình LSTM nhiều tầng Mơ hình LSTM nhiều tầng chúng tơi đề xuất áp dụng vào tốn tìm kiếm câu hỏi tương đồng Hình mơ tả mơ hình LSTM nhiều tầng áp Hình Mơ hình LSTM nhiều tầng Để dự đốn cặp câu hỏi chúng tơi mơ tả dùng hai đường LSTM nhiều tầng học hai biểu diễn h1 h2 tương ứng với hai câu hỏi Cuối hai véc tơ biểu diễn nối lại với h = [h1h2] cho qua hàm sofmax để dự đốn hình sau: Hình Mơ hình LSTM sử dụng cho tốn tìm câu hỏi tương đồng Hàm mát hàm cross entropy [1]: 𝛾 (2) 𝐿𝑚𝑜𝑑𝑒𝑙 = − ∑(𝑦 log 𝑦̂ + (1 − 𝑦) log(1 − 𝑦̂)) + ‖𝑾‖2 𝑆 2𝑆 Trong đó, S số lượng cặp câu hỏi tập huấn luyện, γ tham số điều chỉnh mơ hình, W ma trận trọng số mơ hình http://jst.tnu.edu.vn 392 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 389 - 394 Kết thảo luận 4.1 Tập liệu Để đánh giá mơ hình đề xuất, chúng tơi sử dụng tập liệu Semeval 2017 Tập liệu lấy từ forum sống Qatar (https://www.qatarliving.com/) [9] gán nhãn bao gồm tập: Tập huấn luyện, tập phát triển tập kiểm thử Bảng thống kê số lượng cặp câu hỏi tập liệu tiếng Anh - Semeval 2017 Bảng Bảng thống kê cặp câu hỏi tập liệu Semeval 2017 [9] Semeval 2017 3170 700 880 Tập huấn luyện Tập phát triển Tập kiểm thử Chúng sử dụng độ đo MAP (mean Average Precision) [9] để đánh giá hiệu mơ hình đề xuất |𝑁| |𝑚𝑗 | 1 MAP = ∑ ∑ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑅𝑗𝑘 ) |𝑁| 𝑚𝑗 𝑗=1 (3) 𝑘=1 Trong đó, N số câu tập kiểm thử, Rjk tập kết tìm kiếm xếp hạng từ kết tốt tìm thấy câu hỏi thứ k, mj số câu hỏi câu hỏi thứ j số N câu hỏi 4.2 Tham số mơ hình Chúng sử dụng biểu diễn từ Word2vec 300 chiều đưa vào mơ hình lớp đầu vào Các từ khơng nằm tập từ điển khởi tạo cách ngẫu nhiên Số chiều lớp ẩn mơ hình LSTM 400 chiều Thuật toán tối ưu Adam sử dụng với tốc độ học thiết lập 0,0001; tham số γ thiết lập 0,0001; batch-size 64, drop-out 30% Mơ hình thực thi tensorflow chạy GPU Nvidia Tesla p100 16Gb Chúng tơi đánh giá hiệu mơ hình tập phát triển chọn tham số tốt tập phát triển để thiết lập tham số thử nghiệm tập kiểm thử 4.3 Kết Bảng biểu diễn kết thử nghiệm mơ hình: Bảng Kết mơ hình đề xuất Mơ hình LSTM LSTM tầng LSTM tầng LSTM tầng LSTM tầng MAP 40,03 41,00 41,43 40,23 39,38 Trước hết chúng tơi thử nghiệm mơ hình LSTM gốc để dự đốn cặp câu hỏi Mơ hình LSTM gốc cho kết 40,03% độ đo MAP Sau đó, chúng tơi thử nghiệm mơ hình đề xuất LSTM nhiều tầng Kết rằng, chồng tầng LSTM kết tăng lên 1% so với mơ hình LSTM ban đầu Khi thử nghiệm trêm mơ hình LSTM tầng, kết đạt giá trị cao 41,23% Sau đó, thử nghiệm số tầng nhiều tầng kết giảm dần Do chúng tơi lựa chọn thử nghiệm trêm mơ hình LSTM tầng Điều chứng tỏ rằng, khai thác ngữ nghĩa nhiều mức độ ảnh hưởng tới kết tốn có khả khai thác ngữ nghĩa câu tốt Điều chứng minh báo sử dụng mơ hình LSTM nhiều tầng tốn dịch máy [12] Kết luận công việc tương lai http://jst.tnu.edu.vn 393 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 389 - 394 Trong báo chúng tơi đề xuất sử dụng mơ hình LSTM nhiều tầng cho tốn tìm câu hỏi tương đồng Qua thực nghiệm, thấy rằng, việc sử dụng nhiều tầng LSTM ảnh hưởng tới kết dự đoán cặp câu hỏi tương đồng Trong tương lai, tiến hành khảo sát phương pháp biểu diễn câu khác thay sử dụng véc tơ ẩn lớp cuối dùng để dự đoán Lời cảm ơn Chúng tơi xin cảm ơn đề tài có mã số T2022-07-04 hỗ trợ phần kinh phí để thực công việc TÀI LIỆU THAM KHẢO/ REFERENCES [1] G Zhou, Y Chen, D Zeng, and J Zhao, “Towards faster and better retrieval models for question search,” In Proceedings of the 22nd ACM International Conference on Information Knowledge Management, CIKM13, New York, NY, USA Association for Computing Machinery, 2013, pp 21392148 [2] G Zhou, T He, J Zhao, and P Hu, “Learning continuous word embedding with metadata for question retrieval in community question answering,” CIKM13, vol 01, pp 250-259, 2015 [3] L Cai, G Zhou, K Liu, and J Zhao, “Learning the latent topics for question retrieval in community QA,” In Proceedings of 5th International Joint Conference on Natural Language Processing, Chiang Mai, Thailand, November Asian Federation of Natural Language Processing, 2011, pp 273-281 [4] W Wu, X Sun, and H Wang, “Question condensing networks for answer selection in community question answering,” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Melbourne, Australia, July Association for Computational Linguistics, 2018, pp 1746-1755 [5] Y Tay, A T Luu, and S C Hui, “Enabling efficient question answer retrieval via hyperbolic neural networks,” CoRR, pp 265-274, 2017, doi: abs/1707.07847 [6] S Robertson, S Walker, S Jones, M M HancockBeaulieu, and M Gatford, “Okapi at trec 3,” In Overview of the Third Text REtrieval Conference (TREC-3), January, 1995 [7] X Cao, G Cong, B Cui, C S Jensen, and C Zhang, “The use of categorization information in language models for question retrieval,” In Proceedings of the 18th ACM Conference on Information and Knowledge Management, CIKM ’09, New York, NY, USA Association for Computing Machinery, 2019, pp 265-274 [8] D M Blei, A Y Ng, and M I Jordan, “Latent dirichlet allocation,” In T G Dietterich, S Becker, and Z Ghahramani, editors, Advances in Neural Information Processing Systems 14, pp 601-608 MIT Press, 2002 [9] P Nakov, D Hoogeveen, L Màrquez, A Moschitti, H Mubarak, T Baldwin, and K Verspoor, “SemEval-2017 task 3: Community question answering,” In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, Canada, August Association for Computational Linguistics, 2017, pp 27-48 [10] S Filice, G Da San Martino, and A Moschitti, “KeLP at SemEval-2017 task 3: Learning pairwise patterns in community question answering,” In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, Canada, August Association for Computational Linguistics, 2017, pp 326-333 [11] M Tan, B Xiang, and B Zhou, “LSTM-based Deep Learning Models for non-factoid answer selection,” 2015 [Online] Available: https://arxiv.org/abs/1511.04108 [Accessed May 2021] [12] D Britz, A Goldie, M.-T Luong, and Q Le, “Massive Exploration of Neural Machine Translation Architectures,” In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark Association for Computational Linguistics, 2017, pp 1442-1451 http://jst.tnu.edu.vn 394 Email: jst@tnu.edu.vn ... việc sử dụng mơ hình LSTM nhiều tầng cho toán chưa thăm dị tính hiệu Trong báo này, chúng tơi đề xuất sử dụng mơ hình LSTM nhiều tầng để thăm dị tính hiệu mơ hình LSTM Mơ hình LSTM nhiều tầng. .. hình LSTM có chứa thông tin ngắn dài; ma trận W, V b ma trận học từ mơ hình 3.2 Mơ hình LSTM nhiều tầng Mơ hình LSTM nhiều tầng chúng tơi đề xuất áp dụng vào tốn tìm kiếm câu hỏi tương đồng Hình. .. hình nhiều tầng LTSM Vì vậy, báo chúng tơi thử nghiệm mơ hình LSTM nhiều tầng để học ngữ nghĩa câu Bài báo tập trung vào trình bày kinh nghiệm thử nghiệm mơ hình LSTM nhiều tầng tốn tìm câu hỏi