Soft masked xlm r và hard masked xlm r cho bài toán sửa lỗi chính tả tự động

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  Soft-Masked XLM-R Hard-Masked XLM-R cho tốn sửa lỗi tả tự động Huỳnh Nhật Hào TP HỒ CHÍ MINH – 1/2021 Contents Giới Thiệu 2 Phương Pháp 2.1 Giới thiệu XLM-R 2.2 Soft-Masked XLM-R 2.3 Hard-Masked XLM-R 2.4 So sánh Soft-Masked Hard-Masked Tạo liệu huấn luyện 10 Kết thực nghiệm .11 4.1 Kết tập dev 11 4.2 Kết văn thực tế .13 Kết luận 16 1 Giới Thiệu Bài tốn sửa lỗi tả tự động tốn có tính ứng dụng cao thực tế Sửa lỗi tả tự động giúp người tự học ngôn ngữ biết lỗi sai viết, trường hợp cần kiểm tra lỗi tả tự động cho văn quan trọng dài, khiến cho việc kiểm tra thủ công trở nên thời gian dễ nhầm lẫn Input tốn câu có độ dài tùy ý có từ sai tả khơng, bao gồm từ viết tắt, teencode,… có từ khơng phù hợp ngữ cảnh câu nói, qua mơ hình sửa lỗi phát vị trí từ sai đề xuất từ phù hợp với ngữ cảnh dựa vào từ cịn lại Ví dụ: Input: Tôi iu cô với hết lịng mk Output: Tơi ln u với hết lịng Với điều kiện tỉ lệ từ sai câu khoảng 15%, mơ hình đề xuất từ vào chỗ sai mơ hình XLMRobertaForMaskedLM1 huấn luyện sẵn, mơ hình cần có ngữ cảnh để dự đốn từ thay Ngồi ra, mơ hình đề xuất cịn dự đốn lỗi từ tả không phù hợp ngữ cảnh, vô nghĩa đưa vào ngữ cảnh câu Ví dụ: Input: Những ngày cuối tuần đặc biệt Bitcoin thời gian mèo đặt thử thách nước cho chơi tiền điện tử, dù lớn hay nhỏ Output: Những ngày cuối tuần đặc biệt Bitcoin thời gian gần đặt thử thách cho người chơi tiền điện tử, dù lớn hay nhỏ Đồ án trình bày hai phương pháp để giải tốn sửa lỗi tả tự động cho tiếng Việt gồm: Soft-Masked XLM-R Hard-Masked XLM-R Cả hai phương pháp dựa vào mơ hình ngơn ngữ XLM-RoBERTa2 Facebook phát triển Trong đó, phương pháp Soft-Masked XLM-R dừng lại nghiên cứu lý thuyết khơng có đủ tài nguyên https://huggingface.co/transformers/model_doc/xlmroberta.html#xlmrobertaformaskedlm Unsupervised Cross-lingual Representation Learning at Scale, Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov 2 tính tốn để huấn luyện, cịn phương pháp Hard-Masked XLM-R thực nghiệm cho kết tốt việc phát lỗi sai câu thay từ thích hợp Tồn source code để chạy lại thí nghiêm đồ án public https://github.com/huynnhathhao/vietnamese_text_correction 2.Phương Pháp 2.1 Giới thiệu XLM-R XLM-RoBERTa mơ hình đa ngơn ngữ Facebook phát triển năm 2019 dựa đàn anh BERT hay Bidirectional Encoder Representation from Transformers3 Các mơ hình ngơn ngữ dùng kiến trúc Encoder mơ hình Transformers giới thiệu báo Attention is all you need4, ban đầu phát triển cho toán Machine Translation Mơ hình huấn luyện nhiều liệu văn bản, giúp có kiến thức ngơn ngữ cụ thể mà huấn luyện với mục đích cuối dùng để tạo vector Embedding đại diện cho văn phục vụ cho tốn xử lý ngơn ngữ tự nhiên phía sau nó, Sentiment analysis, Machine Translation, Question Answering, … XLM-R chọn cho toán Sửa lỗi tả tự động mơ hình ngơn ngữ hoi huấn luyện tiếng Việt Trong mơ hình ngơn ngữ có hỗ trợ tiếng Việt phải kể đến PhoBERT5, Multilingual BERT, XLM-R Tuy nhiên XLM-R mơ hình đa ngôn ngữ, huấn luyện 100 ngôn ngữ có tiếng Việt, lại mơ hình huấn luyện nhiều liệu tiếng Việt (khoảng 137GB tiếng việt, PhoBERT mơ hình ngơn ngữ huấn luyện 20GB tiếng Việt) Ngồi ra, XLM-R dựa mơ hình RoBERTa6 đàn em BERT nên có nhiều cải tiến việc huấn luyện mơ hình để làm tăng khả diễn đạt ngôn ngữ vector BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin PhoBERT: Pre-trained language models for Vietnamese, Dat Quoc Nguyen, Anh Tuan Nguyen RoBERTa: A Robustly Optimized BERT Pretraining Approach, Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov 2.2 Soft-Masked XLM-R Soft-Masked XLM-R phát triển dựa mô hình Soft-Masked BERT7, mơ hình sửa lỗi tả tự động cho tiếng Trung Quốc xây dựng BERT Cách hoạt động Soft-Masked XLM-R hoàn toàn giống với Soft-Masked BERT, khác mơ hình ngơn ngữ mà dùng để biểu diễn ngơn ngữ vector Hình 1: Soft-Masked BERT Hình mơ tả cách hoạt động Soft-Masked BERT từ input câu output câu sửa lỗi (nếu có) Mơ hình tạo thành từ mạng: Detector network Corrector network Mạng Detector có nhiệm vụ tìm vị trí từ bị sai tả, dùng thơng tin chuyển qua mạng Corrector Mạng Corrector sử dụng thơng tin vị trí từ bị sai với từ làm ngữ cảnh để tìm từ thích hợp điền vào vị trí từ sai Câu input tokenize dựa vào tokenizer đó, mà thơng thường số lượng token nhiều số lượng từ câu ban đầu Trong BERT, tác giả sử dụng mơ hình WordPiece Tokenizer, subword tokenizer, chia từ thành subword dựa vào liệu mà huấn luyện Spelling Error Correction with Soft-Masked BERT, Shaohua Zhang, Haoran Huang, Jicong Liu, Hang Li Tất token sau qua mơ hình embedding trở thành tensor có kích thước (Tx, N) Ty số lượng token có câu N số chiều vector embedding Mạng Detector nhận vector embedding cho (Tx, 1) xác suất mà cho token thuộc từ bị sai tả Mạng Detector SoftMasked BERT BiGRU Sau đó, vector embedding tạo dựa vào vector embedding token ban đầu, xác suất Detector cho vector embeding token Cụ thể, new_embedding = p*( embedding) + (1-p)*embedding (1) Trong p output Detector, embedding vector embedding token huấn luyện từ trước BERT, embedding vector embedding ban đầu vào mạng Detector Các vector embedding input cho mạng Corrector Vector embedding vector đặc biệt huấn luyện trước mơ hình BERT Vector tồn mơ hình BERT huấn luyện task gọi Masked Language Modeling Với task này, mơ hình phải dự đoán từ bị che token dựa vào từ lại làm ngữ cảnh, tỉ lệ từ bị mask 15% Ví dụ: Input: Khơng có tơi sống hạnh phúc Output: Khơng có em tơi sống hạnh phúc Vector embedding token có tính chất đặc biệt thơng báo cho mơ hình cần thay từ khác nằm từ vựng Mạng Corrector lợi dụng tính chất token embedding để làm cho BERT dự đoán từ cần thay vào từ bị sai Tuy nhiên khác với Hard-Masked, Soft-Masked khơng hồn tồn thay token mà cho từ sai tả embedding mà lấy xác suất Detector cho token sai tả nhân với embedding cơng thức (1) Mạng Corrector phần Encoder BERT Khi nhận input vector embedding cho vector mới, có kích thước giống kích thước input embedding (Tx, N), gọi last hidden state Các vector qua mạng Fully connected với output số từ vựng từ điển tokenizer hàm softmax cho xác suất toàn từ vựng với xác suất từ thay cao (nếu có từ sai) giữ nguyên từ Tổng số lượng tham số mơ hình vừa mơ tả lên đến hàng trăm triệu, với phần lớn tham số tập trung vào phần Encoder BERT phần mạng Fully connected cuối Số lượng tham số lớp FC cuối phụ thuộc vào số lượng từ vựng tokenizer mà mơ hình ngơn ngữ sử dụng BERT tokenizer có 30000 từ vựng, cịn XLM-R có 250002 từ vựng Cả hai mơ hình có số chiều vector hidden state lớp FC 768 Model Encoder Last FC Soft-Masked BERT 85M 23M Soft-Masked XLM-R 270M 190M Bảng 1: Số lượng tham số Encoder lớp FC cuối Soft-Masked BERT Soft-Masked XLM-R Cộng thêm tham số lớp Embedding Detector Soft-Masked XLM-R có khoảng 550M tham số Việc huấn luyện fine-tune mơ hình cần nhiều tài ngun tính tốn Đó lý mà mơ hình Soft-Masked XLM-R dừng lại mức nghiên cứu lý thuyết mà chưa thể thực nghiệm để xem kết Hình 2: Soft-Masked XLM-R Hình mơ tả kiến trúc mạng Soft-Masked XLM-R, Detector mạng BiLSTM corrector Encoder XLM-R Cách hoạt động kiến trúc giống Soft-Masked BERT 2.3 Hard-Masked XLM-R Hard-Masked XLM-R đời để giải vấn đề tài ngun tính tốn SoftMasked XLM-R Hard-Masked XLM-R cần huấn luyện mạng Detector, mạng Corrector mơ hình XLMRobertaForMaskedLM8 huấn luyện sẵn để dự đoán token câu Detector mạng Bi-LSTM với hidden size 512, embedding size 512 có lớp Tổng số tham số Detector khoảng 15M Nhiệm vụ Detector dự đoán xác suất token thuộc/là từ sai tả, sau lấy ngưỡng 0.5 để định token có từ sai tả hay khơng, với > 0.5 nghĩa có

Định dạng
Số trang	19
Dung lượng	2,08 MB