1. Trang chủ
  2. » Tất cả

Ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch

85 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 1,47 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG PHỊNG CHỐNG DỊCH NGUYỄN PHÙNG HẢI CHUNG chung.nph202463m@sis.hust.edu.vn Ngành Tốn Tin Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Bộ mơn: Tốn Tin Viện: Tốn ứng dụng tin học HÀ NỘI, 2022 Chữ ký GVHD TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC o0o ỨNG DỤNG XỬ LÝ NGƠN NGỮ TỰ NHIÊN TRONG PHỊNG CHỐNG DỊCH LUẬN VĂN THẠC SĨ Ngành Toán Tin Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Học viên thực hiện: NGUYỄN PHÙNG HẢI CHUNG Mã học viên: 202463M Lớp: Toán Tin 20B HÀ NỘI, 2022 Lời cảm ơn Em xin gửi lời cảm ơn đến TS Lê Chí Ngọc, người thầy hướng dẫn giúp đỡ em suốt thời gian học tập trường Nhờ bảo thầy kiến thức thầy truyền tải, em hồn thành luận văn Tuy vậy, kiến thức cịn hạn chế, luận văn khơng tránh khỏi thiếu sót, em mong muốn nghe ý kiến đóng góp từ thầy, người đọc Em xin gửi lời cảm ơn đến thầy viện Tốn ứng dụng Tin học - Đại học Bách Khoa Hà Nội, giảng dạy giúp đỡ em bạn học thời gian chúng em học tập nghiên cứu trường Em xin chân thành cảm ơn! Hà Nội, 12 tháng 10 năm 2022 Tác giả luận văn Nguyễn Phùng Hải Chung Tóm tắt nội dung luận văn Trình bày ảnh hưởng COVID-19 người xã hội Đưa lý việc cần có ứng dụng hỗ trợ người phịng chống dịch bệnh Trình bày sở lý thuyết, khái niệm máy học xử lý ngôn ngữ tự nhiên Chỉ toán nhận dạng thực thể đặt tên áp dụng vào phương thức phịng dịch Ngồi ra, trình bày số mơ hình, thuật tốn học sâu quan trọng phương pháp đánh giá mơ hình để làm sở cho nghiên cứu Đề xuất số mơ hình phù hợp mạnh mẽ để áp dụng cho tốn nhận dạng thực thể đặt tên Trình bày phân tích hệ thống sử dụng xử lý ngơn ngữ tự nhiên với ứng dụng phịng chống dịch Trong đó, đề xuất cơng bố tập liệu nhận dạng thực thể đặt tên cho tiếng Việt với chủ đề COVID-19 Tiến hành huấn luyện mơ hình, thử nghiệm đánh giá tập liệu Qua đó, phân tích hạn chế khả ứng dụng vào thực tiễn Hà Nội, 12 tháng 10 năm 2022 Tác giả luận văn Nguyễn Phùng Hải Chung Mục lục Ký hiệu chữ viết tắt Danh sách bảng Danh sách hình vẽ Mở đầu Cơ sở lý thuyết 1.1 Máy học 1.2 Xử lý ngôn ngữ tự nhiên 12 1.2.1 Khái quát xử lý ngôn ngữ tự nhiên 12 1.2.2 Tách từ 14 1.2.3 Nhúng từ 15 Học sâu 16 1.3.1 Thuật toán học Perceptron 17 1.3.2 Mạng truyền thẳng nhiều lớp 19 1.3.3 Mạng hồi quy 20 1.3.4 Cơ chế ý 23 1.3.5 Mô hình Transformer 24 1.4 Bài toán nhận dạng thực thể đặt tên 28 1.5 Các cách tiếp cận để giải toán NER 29 1.3 1.6 Phương pháp đánh giá mơ hình Mơ hình sử dụng 2.1 2.2 30 31 Học chuyển giao 31 2.1.1 Biểu diễn thể mã hóa hai chiều từ Transformer 33 2.1.2 Phương pháp tiền huấn luyện tối ưu cho BERT RoBERTa 35 2.1.3 Mơ hình đa ngơn ngữ kết hợp dựa RoBERTa 39 2.1.4 Mơ hình ngơn ngữ dành cho tiếng Việt - PhoBERT 40 Một số mô hình hỗ trợ 43 2.2.1 Thuật toán xếp hạng văn - BM25 43 2.2.2 Trường xác suất có điều kiện 45 Xây dựng hệ thống 47 3.1 Khảo sát nghiên cứu liên quan 48 3.2 Thiết kế hệ thống 49 3.3 Thu thập liệu 50 3.4 Các kiểu thực thể 51 3.5 Gán nhãn liệu 54 3.6 Tiền xử lý liệu 55 3.7 Huấn luyện đánh giá 56 3.8 Kết thực nghiệm 57 3.8.1 Phân tích lỗi 58 3.8.2 Ứng dụng thực tiễn 60 Tổng kết 65 Chỉ mục 67 Tài liệu tham khảo 79 Ký hiệu chữ viết tắt NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing) POS Từ loại (Part Of Speech) ASR Nhận dạng tiếng nói tự động (Automatic Speech Recognition) RNN Mạng neural hồi quy (Recurrent Neural Network) CNN Mạng neural tích chập (Convolutional Neural Network) GAN Mạng đối nghịch tạo sinh (Generative Adversarial Network) PLA Thuật toán Perceptron (Perceptron Learning Algorithm) MLP Mạng truyền thẳng nhiều lớp (Multi Layer Perceptron - MLP) NER Nhận dạng thực thể đặt tên (Named Entity Recognition) HMM Mơ hình Markov ẩn (Hidden Markov Model) SVM Máy véc-tơ hỗ trợ (Support Vector Machine) CRF Trường ngẫu nhiên có điều kiên (Conditional Random Field) XLM-R XLM-RoBERTa R tập số thực Rn không gian Euclide n chiều x∈D x thuộc tập D ⟨x, y⟩ tích vơ hướng x y ∥x∥ chuẩn Euclide x ∇f (x) véc-tơ gradient hàm f điểm x v.đ.k viết tắt cụm từ "với điều kiện" Danh sách bảng 2.1 Kết BERT tập liệu GLUE[60] 35 2.2 Kết BERT tập liệu SQuAD 1.1[49] 36 2.3 Kết BERT tập liệu SQuAD 2.0[50] 36 2.4 Kết BERT CoNLL-2003 37 2.5 So sánh phức tạp huấn luyện liệu (ppl) độ xác tập liệu với kích thước lô (bsz) tỉ lệ học (lr) 2.6 So sánh chiến lược huấn luyện có khơng sử dụng hàm mát từ việc dự đoán câu 2.7 39 F1 theo hai phương pháp che tĩnh động so sánh số tập liệu [30] 2.8 37 39 Hiệu suất PhoBERT toán POS tagging Dependency parsing 41 2.9 Hiệu suất PhoBERT toán NER NLI 42 3.1 Mô tả kiểu thực thể 51 3.2 Thống kê tập liệu 52 3.3 Kết nhận dạng thực thể với PhoBERTlarge -CRF+CSC tập phát triển (trên) tập kiểm thử (dưới) 59 3.4 Kết nhận dạng thực thể cấp tập phát triển 61 3.5 Kết nhận dạng thực thể cấp tập kiểm thử 62 3.6 Kết nhận dạng thực thể cấp tập phát triển 63 3.7 Kết nhận dạng thực thể cấp tập kiểm thử 64 Danh sách hình vẽ 1.1 Mơ hình phân loại lĩnh vực xử lý ngôn ngữ tự nhiên 12 1.2 Biểu diễn Perceptron dạng mạng neural 18 1.3 MLP với lớp ẩn 19 1.4 Mơ hình dịch máy sử dụng kiến trúc RNN 23 1.5 Mô hình sử dụng attention Trong ai,j điểm ý, hi trạng thái ẩn mã hóa, sj trạng thái ẩn giải mã, cj véc-tơ ngữ cảnh yj Token dự đoán 25 1.6 Kiến trúc Transformer [58] 26 1.7 Minh họa Self-attention 27 2.1 Học chuyển giao 32 2.2 So sánh 88 ngôn ngữ Wiki-100 CommonCrawl 41 2.3 Câu phân đoạn cấp tiếng (trên) phân đoạn theo cấp từ (dưới) 41 3.1 Hệ thống NER phòng chống COVID 49 3.2 Thực thể ngữ cảnh khơng nằm 3.3 câu 55 Mô Cross-Sentence Context 55 65 Tổng kết Luận văn trình bày tác động tiêu cực mà COVID-19 gây giới đồng thời đề xuất cách tiếp cận dựa xử lý ngôn ngữ tự nhiên để phòng ngừa COVID-19 Luận văn trình bày đóng góp hệ thống thực tiễn Việt Nam chi tiết trình xây dựng hệ thống Ngoài ra, liệu NER lồng cho tiếng Việt chủ đề COVID-19 đề xuất với hy vọng đóng góp vào nguồn liệu xử lý ngơn ngữ tự nhiên tiếng Việt nói riêng đa ngơn ngữ nói chung Mong với nghiên cứu đề xuất, lĩnh vực xử lý ngôn ngữ tự nhiên ứng dụng trí tuệ nhân tạo hỗ trợ người ngăn chặn COVID-19 rộng dịch bệnh khác tương lai 66 Chỉ mục AdamW, 56 BERT, 33 BM25, 43 BPE, 38 Bài toán Perceptron, 17 từ vựng, 14 Học sâu, 16 Học tăng cường, 11 Lớp ẩn, 19 Masked multi-head attention, 33 Máy học, Mã hóa vị trí, 27 CRF, 45 Mơ hình ngơn ngữ bị che, 34 Cross-Sentence Context, 56 Mạng hồi quy, 20 Cơ chế ý, 23 Mạng hồi quy có trạng thái ẩn, Cơ chế tự ý, 25 21 Mạng hồi quy khơng có trạng Dự đốn câu tiếp theo, 34 Dựa quy tắc, 29 thái ẩn, 20 mạng neural, 16 F1, 30 Mạng truyền thẳng nhiều lớp, 19 Hàm kích hoạt, 20 Nhiều đầu attention, 27 Học bán giám sát, 11 nhúng từ, 15 Học chuyển giao, 31 Nhúng đầu vào, 28 Học có giám sát, 10 Nhận dạng thực thể đặt Học không giám sát, 10 tên, 28 67 PhoBERT, 40 Phương pháp tiếp cận học thống kê, 29 Precision, 30 14 Thuật tốn mã hóa dựa từ phụ, 14 Thuật toán Perceptron, 17 Token, 14 Recall, 30 RoBERTa, 35 Thuật tốn mã hóa dựa ký tự, 14 Thuật tốn mã hóa dựa từ, Transformer, 24 Tách từ, 14 Tế bào neural, 20 XLM-RoBERTa, 39 Xử lý ngôn ngữ tự nhiên, 12 68 Tài liệu tham khảo [1] Agarap AF (2018) Deep learning using rectified linear units (relu) arXiv preprint arXiv:180308375 [2] Akbik A, Blythe D, Vollgraf R (2018) Contextual string embeddings for sequence labeling In: Proceedings of the 27th International Conference on Computational Linguistics, Association for Computational Linguistics, Santa Fe, New Mexico, USA, pp 1638–1649, URL https://aclanthology.org/C18-1139 [3] Artetxe M, Schwenk H (2019) Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond Transactions of the Association for Computational Linguistics 7:597– 610, DOI 10.1162/tacl_a_00288, URL https://aclanthology org/Q19-1038 [4] Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate DOI 10.48550/ARXIV 1409.0473, URL https://arxiv.org/abs/1409.0473 [5] Bahdanau D, Cho K, Bengio Y (2016) Neural machine translation by jointly learning to align and translate 1409.0473 [6] Baum LE, Petrie T (1966) Statistical inference for probabilistic 69 functions of finite state markov chains The annals of mathematical statistics 37(6):1554–1563 [7] Beck A (2014) Introduction to Nonlinear Optimization: Theory, Algorithms, and Applications with MATLAB Society for Industrial and Applied Mathematics, USA [8] Bishop CM (2006) Pattern Recognition and Machine Learning (Information Science and Statistics) Springer-Verlag, Berlin, Heidelberg [9] Chen Q, Allot A, Lu Z (2021) Litcovid: an open database of covid-19 literature Nucleic acids research 49(D1):D1534–D1540 [10] Clark K, Luong MT, Manning CD, Le QV (2018) Semi-supervised sequence modeling with cross-view training DOI 10.48550/ARXIV 1809.08370, URL https://arxiv.org/abs/1809.08370 [11] Colic N, Furrer L, Rinaldi F (2020) Annotating the pandemic: Named entity recognition and normalisation in COVID-19 literature In: Proceedings of the 1st Workshop on NLP for COVID-19 (Part 2) at EMNLP 2020, Association for Computational Linguistics, Online, DOI 10.18653/v1/2020.nlpcovid19-2.27, URL https: //aclanthology.org/2020.nlpcovid19-2.27 [12] Conneau A, Rinott R, Lample G, Williams A, Bowman S, Schwenk H, Stoyanov V (2018) XNLI: Evaluating cross-lingual sentence representations In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Brussels, Belgium, pp 2475–2485, DOI 10.18653/ v1/D18-1269, URL https://aclanthology.org/D18-1269 70 [13] Conneau A, Khandelwal K, Goyal N, Chaudhary V, Wenzek G, Guzmán F, Grave E, Ott M, Zettlemoyer L, Stoyanov V (2020) Unsupervised cross-lingual representation learning at scale In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Online, pp 8440–8451, DOI 10.18653/v1/2020.acl-main.747, URL https://aclanthology.org/2020.acl-main.747 [14] Cortes C, Vapnik V (1995) Support-vector networks Machine learning 20(3):273–297 [15] Devlin J, Chang MW, Lee K, Toutanova K (2019) BERT: Pretraining of deep bidirectional transformers for language understanding In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers), Association for Computational Linguistics, Minneapolis, Minnesota, pp 4171–4186, DOI 10.18653/v1/N19-1423, URL https: //aclanthology.org/N19-1423 [16] Dozat T, Manning CD (2016) Deep biaffine attention for neural dependency parsing DOI 10.48550/ARXIV.1611.01734, URL https://arxiv.org/abs/1611.01734 [17] Fukushima K (2007) Neocognitron Scholarpedia 2(1):1717, DOI 10.4249/scholarpedia.1717 [18] Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y (2014) Generative adversarial nets 71 In: Advances in neural information processing systems, pp 2672– 2680 [19] Goodfellow I, Bengio Y, Courville A (2016) Deep Learning MIT Press, http://www.deeplearningbook.org [20] Han J, Moraga C (1995) The influence of the sigmoid function parameters on the speed of backpropagation learning In: Mira J, Sandoval F (eds) From Natural to Artificial Neural Computation, Springer Berlin Heidelberg, Berlin, Heidelberg, pp 195–201 [21] He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [22] Hendrycks D, Gimpel K (2016) Gaussian error linear units (gelus) DOI 10.48550/ARXIV.1606.08415, URL https://arxiv.org/abs/ 1606.08415 [23] Kingma DP, Ba J (2014) Adam: A method for stochastic optimization DOI 10.48550/ARXIV.1412.6980, URL https://arxiv.org/ abs/1412.6980 [24] Kroll H, Pirklbauer J, Ruthmann J, Balke WT (2020) A semantically enriched dataset based on biomedical ner for the covid19 open research dataset challenge DOI 10.48550/ARXIV.2005.08823, URL https://arxiv.org/abs/2005.08823 [25] Kudo T, Richardson J (2018) SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing In: Proceedings of the 2018 Conference on Empirical 72 Methods in Natural Language Processing: System Demonstrations, Association for Computational Linguistics, Brussels, Belgium, pp 66–71, DOI 10.18653/v1/D18-2012, URL https://aclanthology org/D18-2012 [26] Lafferty JD, McCallum A, Pereira FCN (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data In: Proceedings of the Eighteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, ICML ’01, p 282–289 [27] Lafferty JD, McCallum A, Pereira FCN (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data In: Proceedings of the Eighteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, ICML ’01, pp 282–289, URL http: //dl.acm.org/citation.cfm?id=645530.655813 [28] Lample G, Conneau A (2019) Cross-lingual language model pretraining DOI 10.48550/ARXIV.1901.07291, URL https://arxiv org/abs/1901.07291 [29] Liu DC, Nocedal J (1989) On the limited memory BFGS method for large scale optimization Math Program 45(1-3):503–528, DOI 10 1007/BF01589116, URL https://doi.org/10.1007/BF01589116 [30] Liu Y, Ott M, Goyal N, Du J, Joshi M, Chen D, Levy O, Lewis M, Zettlemoyer L, Stoyanov V (2019) Roberta: A robustly optimized BERT pretraining approach CoRR abs/1907.11692, URL http: //arxiv.org/abs/1907.11692, 1907.11692 73 [31] Loshchilov I, Hutter F (2019) Decoupled weight decay regularization In: International Conference on Learning Representations, URL https://openreview.net/forum?id=Bkg6RiCqY7 [32] Luoma J, Pyysalo S (2020) Exploring cross-sentence contexts for named entity recognition with bert In: Proceedings of the 28th International Conference on Computational Linguistics, pp 904–914, 2006.01563 [33] Ma X, Hovy E (2016) End-to-end sequence labeling via bidirectional LSTM-CNNs-CRF In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Association for Computational Linguistics, Berlin, Germany, pp 1064–1074, DOI 10.18653/v1/P16-1101, URL https://aclanthology.org/P16-1101 [34] McCulloch WS, Pitts W (1943) A logical calculus of the ideas immanent in nervous activity The bulletin of mathematical biophysics 5(4):115–133 [35] Mikolov T, Chen K, Corrado G, Dean J (2013) Efficient estimation of word representations in vector space DOI 10.48550/ARXIV 1301.3781, URL https://arxiv.org/abs/1301.3781 [36] Mikolov T, Sutskever I, Chen K, Corrado G, Dean J (2013) Distributed representations of words and phrases and their compositionality DOI 10.48550/ARXIV.1310.4546, URL https://arxiv org/abs/1310.4546 [37] Minh PQN (2018) A feature-based model for nested namedentity recognition at VLSP-2018 NER evaluation campaign CoRR 74 abs/1803.08463, URL http://arxiv.org/abs/1803.08463, 1803 08463 [38] Mitchell TM (1997) Machine Learning McGraw-Hill, New York [39] Nguyen DQ (2018) A neural joint model for vietnamese word segmentation, pos tagging and dependency parsing DOI 10.48550/ ARXIV.1812.11459, URL https://arxiv.org/abs/1812.11459 [40] Nguyen DQ, Tuan Nguyen A (2020) PhoBERT: Pre-trained language models for Vietnamese In: Findings of the Association for Computational Linguistics: EMNLP 2020, Association for Computational Linguistics, Online, pp 1037–1042, DOI 10.18653/v1/ 2020.findings-emnlp.92, URL https://aclanthology.org/2020 findings-emnlp.92 [41] Nguyen DQ, Verspoor K (2018) An improved neural network model for joint In: Proceedings of the, Association for Computational Linguistics, DOI 10.18653/v1/k18-2008, URL https://doi.org/10 18653%2Fv1%2Fk18-2008 [42] Nguyen DQ, Nguyen DQ, Pham DD, Pham SB (2014) RDRPOSTagger: A ripple down rules-based part-of-speech tagger In: Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, Gothenburg, Sweden, pp 17–20, DOI 10.3115/v1/E14-2005, URL https:// aclanthology.org/E14-2005 [43] Nguyen DQ, Vu T, Nguyen DQ, Dras M, Johnson M (2017) From word segmentation to POS tagging for Vietnamese In: Pro- 75 ceedings of the Australasian Language Technology Association Workshop 2017, Brisbane, Australia, pp 108–113, URL https: //aclanthology.org/U17-1013 [44] Nguyen DQ, Nguyen DQ, Vu T, Dras M, Johnson M (2018) A fast and accurate Vietnamese word segmenter In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), Miyazaki, Japan, URL https://aclanthology.org/ L18-1410 [45] Nguyen HTM, Ngo QT, Vu LX, Tran VM, Nguyen HTT (2019) Vlsp shared task: Named entity recognition Journal of Computer Science and Cybernetics 34(4):283–294, DOI 10.15625/1813-9663/ 34/4/13161, URL https://vjs.ac.vn/index.php/jcc/article/ view/13161 [46] Nguyen KA, Dong N, Nguyen CT (2018) Attentive neural network for named entity recognition in vietnamese DOI 10.48550/ARXIV 1810.13097, URL https://arxiv.org/abs/1810.13097 [47] Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, Zettlemoyer L (2018) Deep contextualized word representations In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long Papers), Association for Computational Linguistics, New Orleans, Louisiana, pp 2227–2237, DOI 10 18653/v1/N18-1202, URL https://aclanthology.org/N18-1202 76 [48] Radford A, Narasimhan K, Salimans T, Sutskever I (2018) Improving language understanding by generative pre-training [49] Rajpurkar P, Zhang J, Lopyrev K, Liang P (2016) SQuAD: 100,000+ questions for machine comprehension of text In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Austin, Texas, pp 2383–2392, DOI 10.18653/v1/D16-1264, URL https://aclanthology.org/D16-1264 [50] Rajpurkar P, Jia R, Liang P (2018) Know what you don’t know: Unanswerable questions for squad DOI 10.48550/ARXIV.1806 03822, URL https://arxiv.org/abs/1806.03822 [51] Robertson SE, Walker S, Jones S, Hancock-Beaulieu M, Gatford M (1994) Okapi at trec-3 In: TREC [52] Roy A (2021) Recent trends in named entity recognition (ner) ArXiv abs/2101.11420 [53] Rumelhart DE, Hinton GE, Williams RJ (1986) Learning representations by back-propagating errors nature 323(6088):533–536, DOI 10.1038/323533a0 [54] Ryck TD, Lanthaler S, Mishra S (2021) On the approximation of functions by neural networks Neural Networks 143:732– 750, DOI 10.1016/j.neunet.2021.08.015, URL https://doi.org/ 10.1016%2Fj.neunet.2021.08.015 [55] Sammut C, Webb GI (eds) (2010) TF–IDF, Springer US, Boston, MA, pp 986–987 DOI 10.1007/978-0-387-30164-8_832, URL https://doi.org/10.1007/978-0-387-30164-8_832 77 [56] Sennrich R, Haddow B, Birch A (2016) Neural machine translation of rare words with subword units In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Association for Computational Linguistics, Berlin, Germany, pp 1715–1725, DOI 10.18653/v1/P16-1162, URL https://aclanthology.org/P16-1162 [57] Truong TH, Dao MH, Nguyen DQ (2021) COVID-19 Named Entity Recognition for Vietnamese In: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies [58] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Lu, Polosukhin I (2017) Attention is all you need In: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, Garnett R (eds) Advances in Neural Information Processing Systems, Curran Associates, Inc., vol 30, URL https://proceedings.neurips.cc/paper/2017/ file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf [59] Vu T, Nguyen DQ, Nguyen DQ, Dras M, Johnson M (2018) VnCoreNLP: A Vietnamese natural language processing toolkit In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, Association for Computational Linguistics, New Orleans, Louisiana, pp 56–60, DOI 10.18653/v1/N18-5012, URL https: //aclanthology.org/N18-5012 [60] Wang A, Singh A, Michael J, Hill F, Levy O, Bowman SR (2018) Glue: A multi-task benchmark and analysis platform for natural 78 language understanding DOI 10.48550/ARXIV.1804.07461, URL https://arxiv.org/abs/1804.07461 [61] Wang LL, Lo K, Chandrasekhar Y, Reas R, Yang J, Eide D, Funk K, Kinney R, Liu Z, Merrill W, Mooney P, Murdick DA, Rishi D, Sheehan J, Shen Z, Stilson B, Wade AD, Wang K, Wilhelm C, Xie B, Raymond D, Weld DS, Etzioni O, Kohlmeier S (2020) CORD19: the covid-19 open research dataset CoRR abs/2004.10706, URL https://arxiv.org/abs/2004.10706, 2004.10706 [62] Wu X, Kumar V, Quinlan JR, Ghosh J, Yang Q, Motoda H, McLachlan GJ, Ng A, Liu B, Philip SY, et al (2008) Top 10 algorithms in data mining Knowledge and information systems 14(1):1– 37 [63] Yang P, Fang H, Lin J (2017) Anserini: Enabling the use of lucene for information retrieval research In: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, New York, NY, USA, SIGIR ’17, pp 1253–1256, DOI 10.1145/3077136.3080721, URL http: //doi.acm.org/10.1145/3077136.3080721 [64] Yang Z, Dai Z, Yang Y, Carbonell J, Salakhutdinov RR, Le QV (2019) Xlnet: Generalized autoregressive pretraining for language understanding In: Wallach H, Larochelle H, Beygelzimer A, d'Alché-Buc F, Fox E, Garnett R (eds) Advances in Neural Information Processing Systems, Curran Associates, Inc., vol 32, URL https://proceedings.neurips.cc/paper/2019/ file/dc6a7e655d7e5840e66733e9ee67cc69-Paper.pdf 79 [65] Zhu Y, Kiros R, Zemel R, Salakhutdinov R, Urtasun R, Torralba A, Fidler S (2015) Aligning books and movies: Towards story-like visual explanations by watching movies and reading books DOI 10.48550/ ARXIV.1506.06724, URL https://arxiv.org/abs/1506.06724 ... gồm lĩnh vực xử lý ảnh, xử lý ngôn ngữ tự nhiên, xử lý tiếng nói v.v 1.2 1.2.1 Xử lý ngôn ngữ tự nhiên Khái quát xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)... việc ứng dụng xử lý ngôn ngữ tự nhiên phịng chống dịch COVID-19 nói riêng dịch bệnh nói chung Trong phạm vi luận văn, kiến thức xử lý ngôn ngữ trình bày đề xuất tập liệu ứng dụng xử lý ngơn ngữ. ..TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC o0o ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG PHÒNG CHỐNG DỊCH LUẬN VĂN THẠC SĨ Ngành Toán Tin Chuyên ngành Toán Tin

Ngày đăng: 24/03/2023, 23:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w