8 Tổng kết
7.9 Màn hình tính năng tạo dữ liệu(2)
hệ thống, ví dụ hệ thống chỉ đưa ra câu trả lời mà chính câu trả lời đó nằm ở trong đoạn văn, tuy nhiên người dùng lại tạo mẩu dữ liệu với câu trả lời không phải là 1 thành phần nằm trong đoạn văn. Do đó nhóm sẽ cho phép người dùng tạo câu trả lời bằng cách bôi đen lên đoạn văn nơi mà người dùng cho rằng đó là câu trả lời cho câu hỏi của họ, việc này sẽ bảo đảm những mẩu dữ liệu được tạo ra phù hợp với mục tiêu của hệ thống.
Chương 8 Tổng kết
Chúng tôi đã trình bày những nội dung liên quan về đề tài Hỏi-đáp từ thực hiện các khảo sát về bài toán, chọn mô hình trọng tâm để hiện thực, trình bày các kiến thức nền tảng và hiện thực mô hình Hỏi-đáp trên ngôn ngữ tiếng Anh và tiếng Việt. Trong phần này chúng tôi sẽ tổng kết lại những kết quả đạt được, những mặt hạn chế của đề tài và định hướng phát triển.
8.1 Kết quả đạt được
Trong quá trình làm luận văn, chúng tôi đã thực mô hình Hỏi-đáp trên cả ngôn ngữ tiếng Anh và tiếng Việt. Mô hình mà chúng tôi đặt làm trọng tâm để hiện thực lại mô hình là QANet, được trình bày vào năm 2018 [21]. Trên tập dữ liệu SQuAD v1.1, kết quả mà nhóm đạt được tốt nhẩt là 80% và 70.9% tương ứng với điểm F1 và EM đây cũng chính là kết quả chúng tôi thực hiện thêm cơ chế cải tiến kết hợp Universal Transformer, so với công bố tốt nhất của mô hình là 76.2% và 84.6% thì mô hình chúng tôi thấp hơn. Nguyên nhân này là do hạn chế về tài nguyên phần cứng nhóm chúng tôi không thể huấn luyện theo mô hình có cấu hình chi tiết như bài báo công bố và đồng thời chúng tôi cũng không áp dụng cơ chế làm giàu dữ liệu. Việc áp dụng QANet với kiến trúc Universal Transformer giúp cải thiện F1 (+0.7) và EM (+0.6) so với mô hình gốc với cùng thông số.
Trên tập dữ liệu SQuAD v2.0 [15], chúng tôi đã thực hiện một vài tinh chỉnh ở bước tiền xử lý dữ liệu và ở bước huấn luyện để huấn luyện tập dữ liệu này. Tập dữ liệu này ra đời vào năm 2018 sau tập SQuAD v1.1 [16] 2 năm và có thêm những câu hỏi không có câu trả lời. Với kết quả là 66.5% và 63.1% tương ứng với F1 và EM, so với các mô hình hiện tại thì kết quả thấp hơn nhiều nhưng có thể thấy QANet cũng có kết quả tương đối với tập dữ liệu mới. Với tập dữ liệu này chúng tôi mất 32 tiếng để huấn luyện.
Đối với tập dữ liệu tiếng Việt, chúng tôi đã thực hiện một vài thay đổi từ mô hình tiếng Anh để có thể huấn luyện được. Kết quả thu được là 76.1% và 61.6% tương ứng với F1_score và EM. Kết quả như thế này cũng ở mức tương đối có thể xây dựng được một ứng dụng cơ bản để trả lời được những câu hỏi trên dữ liệu tiếng Việt. Kết quả có vẻ khả quan nhưng có thể rằng tập dữ liệu có kích thước nhỏ nên mô hình quá khớp trên tập dữ liệu này và có thể là tập phát triển với tập huấn luyện có chung một phân phối. Chúng tôi cũng đã có một vài điểm nhận xét về tập dữ liệu tiếng Việt 7.3. Những kết quả khi áp dụng cải tiến này giúp chúng ta có thể cải thiện việc làm nhãn dữ liệu trên ngôn ngữ tiếng Việt, cung cấp một tập dữ liệu tốt cho các bài toán học sâu để giải quyết bài toán Hỏi-đáp.
Ngoài ra nhằm mục đích trực quan hơn ứng dụng của đề tài, chúng tôi đã xây dựng giao diện để người dùng có thể nhập vào đoạn văn và đặt câu hỏi trên đoạn văn đó, trên cả 2 ngôn ngữ là tiếng Anh lẫn tiếng Việt. Mô hình của chúng tôi sẽ dự đoán câu trả lời và trả về cho người dùng.
TỔNG KẾT Kết thúc quá trình làm luận văn tốt nghiệp, trong quá trình khảo sất các nghiên cứu liên quan, chúng tôi đã trang bị được nhiều kiến thức liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên. Việc hiện thực mô hình Hỏi-Đáp giúp nhóm học được kỹ năng lập trình trên ngôn ngữ Python, các thư viện học sâu của Python như TensorFlow, PyTorch hay Keras. Quá trình hiện thực mô hình hỏi đáp trên tập SQuAD v2.0 và hiện thực ý tưởng cải tiến đã giúp chúng tôi cải thiện khả năng giải quyết vấn đề từ việc đặt ra vấn đề, tìm hướng giải quyết và giải quyết những điểm phát sinh trong quá trình giải quyết.
8.2 Hạn chế
Trong quá trình hoàn thành đề tài luận văn của chúng tôi, bên cạnh những kết quả đạt được, chúng tôi vẫn còn tồn tại một vài hạn chế nhất định. Đối với mô hình hỏi đáp tiếng Việt, hạn chế lớn nhất đó là tập dữ liệu. Tập dữ liệu chúng tôi sử dụng dù đáp ứng được và chứng minh tính khả thi của đề tài, tuy nhiên số lượng tập dữ liệu còn nhỏ và tính chính xác của tập dữ liẹu chưa cao. Việc lựa chọn tập văn bản để làm tập dữ liệu rất quan trọng vì có nhiều văn bản có cấu trúc ngữ pháp phức tạp hoặc chưa chính xác dẫn đến mô hình khó có thể suy diễn ra câu trả lời. Một vài điểm dữ liệu bị sai khi chúng tôi quan sát, vì vậy mỗi điểm dữ liệu khi làm xong nên được xem xét lại. Đồng thời sự đa dạng về tập dữ liệu còn chưa cao.
Với mô hình trên tập dữ liệu tiếng Anh, vì sự hạn chế của nguồn tài nguyên phần cứng nên mô hình mà chúng tôi thử nghiệm phải giảm kích thước so với mô hình gốc, điều này làm giảm đi độ chính xác của mô hình mà chúng tôi hiện thực lại. Điều này cũng xảy ra tương tự với mô hình trên tiếng Việt. Đồng thời mô hình trên tiếng Việt độ chính xác của mô hình còn phụ thuộc vào cách đặt câu hỏi.
8.3 Hướng phát triển
Nếu tài nguyên phần cứng đáp ứng được thì chúng tôi có thể huấn luyện với mô hình có kích thước lớn hơn và chúng tôi nghĩ sẽ tăng độ chính xác. Những cải tiến của mô hình QANet với Universal Transformer cũng được thử nghiệm nhiều ý tưởng hơn. Tiếp đến chúng tôi sẽ tập trung nghiên cứu về ngữ pháp và ngữ nghĩa trên tập dữ liệu tiếng Việt, từ đó chúng tôi sẽ thu thập được nhiều dữ liệu thô hơn để làm phong phú tập dữ liệu nhưng vẫn đảm bảo tính chính xác. Trong tương lai gần, nếu bộ dữ liệu này hoàn thiện với số lượng và kiểm định trên các mô hình hiệu quả thì đây sẽ là bộ dữ liệu giúp mọi người có thể lựa chọn đầu tiên khi tiếp cận bài toán Hỏi-đáp trên tiếng Việt.
Nhóm cũng sẽ tìm hiểu sâu về các mô hình state-of-the-art của hỏi đáp như BERT, ALBERT để cập nhật các kĩ thuật mới trong lĩnh vực học sâu. Bài toán Hỏi-đáp có tính ứng dụng trong nhiều lĩnh vực; nghiên cứu và cải tiến các kĩ thuật trong lĩnh vực này đóng góp cho cả tính ứng dụng và tính học thuật.
Bibliography
[1] Shaojie Bai, J. Zico Kolter, and Vladlen Koltun. “Deep Equilibrium Models”. In: (2019). URL:https://arxiv.org/abs/1909.01377.
[2] Franc¸ois Chollet. “Xception: Deep Learning with Depthwise Separable Convolutions”. In: (2016).URL:https://arxiv.org/abs/1610.023575.
[3] Junyoung Chung et al. “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling”. In: (2014).URL:https://arxiv.org/abs/1412.3555.
[4] Mostafa Dehghani et al. “Universal Transformers”. In: (2018). URL:https://arxiv. org/abs/1807.03819.
[5] Jacob Devlin et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. In: (2018).URL:https://arxiv.org/abs/1810.04805.
[6] Diederik, P. Kingma, and Jimmy Ba. “Adam: A Method for Stochastic Optimization”. In: (2014).URL:https://arxiv.org/abs/1412.6980.
[7] Alex Graves. “Adaptive Computation Time for Recurrent Neural Networks”. In: (2017). URL:https://arxiv.org/abs/1603.08983.
[8] Somil Gupta, Bhanu Pratap Singh Rawat, and Hong Yu. “Conversational Machine Com- prehension: a Literature Review”. In: (2020). URL:https://arxiv.org/abs/2006. 00671.
[9] Karl Moritz Hermann et al. “Teaching Machines to Read and Comprehend”. In: (2015). URL:https://arxiv.org/abs/1506.03340.
[10] Yoon Kim et al. “Character-Aware Neural Language Models”. In: (2015).URL:https: //arxiv.org/abs/1508.06615.
[11] Zhenzhong Lan et al. “A Lite BERT for Self-supervised Learning of Language Repre- sentations”. In: (2020).URL:https://github.com/tensorflow/nmt.
[12] Yinhan Liu et al. “RoBERTa: A Robustly Optimized BERT Pretraining Approach”. In: (2019).URL:https://arxiv.org/abs/1907.11692.
[13] Jeffrey Pennington, Richard Socher, and Christopher Manning. “GloVe: Global Vectors for Word Representation”. In: (2019). URL:https://www.aclweb.org/anthology/ D14-1162/.
[14] Matthew E. Peters et al. “Deep contextualized word representations”. In: (2018). URL: https://arxiv.org/abs/1802.05365.
[15] Pranav Rajpurkar, Robin Jia, and Percy Liang. “Know What You Don’t Know: Unanswer- able Questions for SQuAD”. In: (2018).URL:https://arxiv.org/abs/1806.03822. [16] Pranav Rajpurkar et al. “SQuAD: 100,000+ Questions for Machine Comprehension of
BIBLIOGRAPHY [17] Matthew Richardson, Christopher J.C. Burges, and Erin Renshaw. “MCTest: A Chal- lenge Dataset for the Open-Domain Machine Comprehension of Text”. In: (2013).URL: https://www.aclweb.org/anthology/D13-1020/.
[18] Minjoon Seo et al. “Bidirectional Attention Flow for Machine Comprehension”. In: (2016). URL:https://arxiv.org/abs/1611.01603.
[19] Ashish Vaswani et al. “Attention Is All You Need”. In: (2017).URL:https://arxiv. org/abs/1706.03762.
[20] Zhilin Yang et al. “XLNet: Generalized Autoregressive Pretraining for Language Under- standing”. In: (2019).URL:https://arxiv.org/abs/1906.08237.
[21] Adams Wei Yu et al. “QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension”. In: (2018). URL: https : / / arxiv . org / abs / 1804 . 09541.
[22] Changchang Zeng et al. “A Survey on Machine Reading Comprehension: Tasks, Evalu- ation Metrics and Benchmark Datasets”. In: (2020). URL:https://arxiv.org/abs/ 2006.11880.
[23] Xin Zhang et al. “Machine Reading Comprehension: a Literature Review”. In: (2019). URL:https://arxiv.org/abs/1907.01686.