Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
583,2 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA TOÁN - TIN HỌC CHUYÊN NGÀNH KHOA HỌC DỮ LIỆU CAO HỌC KHÓA 30 − − TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN SỬA LỖI CHÍNH TẢ Giảng viên hướng dẫn : PGS.TS Đinh Điền Học viên thực : Trần Minh Bảo Nghĩa Lý Phi Long Lê Chí Hồng TP Hồ Chí Minh, 03/2021 Mục lục Giới thiệu 1.1 Lý chọn đề tài 1.2 Phát biểu toán 1.3 Hướng tiếp cận 1.4 Mục tiêu tiểu luận Kiến thức chuẩn bị 2.1 Phân tách từ 2.2 Kiến trúc mạng 2.2.1 Mạng nơ-ron hồi quy 2.2.2 Bidirectional Encoder Representations from Transformers 2.2.3 PhoBERT 2.3 Khoảng cách Levenshtein Phương pháp nghiên cứu 3.1 Kiến trúc mơ hình 3.1.1 Mạng xác định lỗi 3.1.2 Mạng sửa lỗi 3.2 Huấn luyện mơ hình 2 3 4 5 10 10 10 11 12 Kết thực nghiệm 13 4.1 Bộ liệu 13 4.2 Kết 13 Kết luận 15 Chương Giới thiệu 1.1 Lý chọn đề tài Chúng ta thấy ngày tượng sai lỗi tả xảy thường xuyên, ta gõ văn bản, ta search keyword web, hay ta soạn thư báo cáo công việc, Hãy thử tưởng tượng, bạn viết đơn xin việc, hồ sơ xin việc, lời kêu gọi tập thể, tổ chức, phát biểu trang trọng, mà có nhiều từ bị sai tả hậu nào? Một đơn xin việc sai lỗi tả khiến cho nhà tuyển dụng nghĩ bạn người chỉnh chu, không dành nhiều thời gian viết đơn, nên khát khao mong muốn vào làm việc thấp gần bạn khơng có hội gọi vấn Một lời kêu gọi tập thể, tổ chức, hay phát biểu trang trọng người quản lý, lãnh đạo, ý tưởng, lời văn có hay biết có lỗi sai tả khiến cho hiệu ứng giảm nhiều, tất trở thành công cốc Soạn thư báo cáo công việc cho khách hàng trao đổi hợp đồng làm ăn, có lỗi sai tả khiến cho khách hàng nghĩ bạn khơng có tận tâm, chu đáo việc nhỏ khả bạn tiếp tục có nhiều sai sót làm việc lớn, dự án lớn hồn tồn có thể, họ lại chọn bạn làm đối tác làm ăn với họ được? Có thể thấy, có tất cả, lực, chuyên môn, thái độ tốt sai lỗi tả mà thứ khơng mong muốn, thật điều khơng đáng Chính mà nhu cầu kiểm tra văn bản, viết có tả hay không ngày trở nên cần thiết hết 1.2 Phát biểu toán Cho đoạn văn bất kỳ, tìm tất lỗi sai tả văn Đoạn văn có từ sai tả khơng, có từ viết khơng dấu, có từ viết tắt, có từ teencode có từ khơng phù hợp ngữ cảnh Chương trình kiểm lỗi nhận đầu vào đoạn văn trả kết chỉnh sửa đề xuất chỉnh sửa sau: • Khơng có từ sai: trả văn input • Có từ sai tả, có từ viết khơng dấu, có từ viết tắt, có từ tuổi teen: tự động sửa lại thành câu đưa đề xuất chỉnh sửa theo xác suất từ cao đến thấp • Có từ khơng phù hợp ngữ cảnh: đưa đề xuất chỉnh sửa theo xác suất từ cao đến thấp Ví dụ: • tơi hoc => tơi học • toi an com day => tơi ăn cơm • dzui wá dzui => vui q vui (từ đồng âm) • tơi dc sep tăng lg => tơi sếp tăng lương • xử lý nôgn ngữ tự nhiên => xử lý ngôn ngữ tự nhiên • tính theo giá thị trưởng => tính theo giá thị trường 1.3 Hướng tiếp cận Mục tiêu toán sửa lỗi tả xác định lỗi sửa lỗi cho trước Nhiệm vụ chia thành nhiệm vụ nhỏ: (1) xác định từ sai câu (nếu tồn tại), (2) thay từ sai thành từ khác thích hợp Nghe dễ cần khả hiểu ngơn ngữ cấp độ người để thực tốt Có nhiều hướng tiếp cận cho toán cấp độ từ cấp độ ký tự, bao gồm việc sử dụng heuristics để xác định từ si dùng Edit Disctance, thuật tốn SoundEx để chỉnh sửa chúng Hướng tiếp khuôn khổ tiểu luận xây dựng mạng xác định lỗi dựa kiến trúc mơ hình Soft-Masked BERT, mạng sữa lỗi sử dụng pretrain phoBERT để đưa tập chữ phù hợp cuối sử dụng khoảng cách Levenshtein để chọn từ cho 1.4 Mục tiêu tiểu luận Với mong muốn giảm bớt công sức việc duyệt lại văn bản, nhóm mong muốn đóng góp ý tưởng, hướng nghiên cứu chương trình nhỏ kiểm tra văn có tồn lỗi sai tả hay khơng Nếu tồn thực chỉnh sửa đưa hướng dẫn xử lý cho người dùng Chương Kiến thức chuẩn bị 2.1 Phân tách từ Tokenize q trình mã hóa văn thành index dạng số mang thông tin văn máy tính huấn luyện Khi từ ký tự đại diện index Trong NLP có số kiểu tokenize sau: • Tokenize theo word level: Chúng ta phân tách câu thành token ngăn cách khoảng trắng dấu câu Khi token từ đơn âm tiết Đây phương pháp token sử dụng thuật tốn nhúng từ truyền thống GloVe, word2vec • Tokenize theo multi-word level: Tiếng Việt số ngôn ngữ khác tồn từ đơn âm tiết (từ đơn) từ đa âm tiết (từ ghép) Do token theo từ đơn âm tiết làm nghĩa từ bị sai khác Do để tạo từ với nghĩa xác sử dụng thêm từ điển bao gồm từ đa âm tiết đơn âm để tokenize câu • Tokenize theo character level: Việc tokenize theo word level thường sinh từ điển với kích thước lớn, điều làm gia tăng chi phí tính tốn Hơn tokenize theo word level địi hỏi từ điển phải lớn hạn chế trường hợp từ nằm từ điển Từ token dựa level ký tự có tác dụng giảm kích thước từ điển mà biểu diễn trường hợp từ nằm ngồi từ điển • Phương pháp BPE (SOTA): Nhược điểm phương pháp tokenize theo character level token khơng có ý nghĩa đứng độc lập Do tốn sentiment analysis, áp dụng tokenize theo character level mang lại kết Token theo word level tồn hạn chế khơng giải trường hợp từ ngằm từ điển Vào năm 2016, phương pháp tokenize đời BPE (byte pair encoding) có khả tách từ theo level nhỏ từ lớn kí tự gọi subword Theo phương pháp này, hẫu hết từ biểu diễn subword hạn chế số lượng đáng kể từ chưa xuất trước BPE (Byte Pair Encoding) kỹ thuật nén từ giúp index toàn từ kể trường hợp từ mở (không xuất từ điển) nhờ mã hóa từ chuỗi từ phụ (subwords) Nguyên lý hoạt động BPE dựa phân tích trực quan hầu hết từ phân tích thành thành phần Phương pháp BPE thống kê tần suất xuất từ phụ tìm cách gộp chúng lại tần suất xuất chúng lớn Cứ tiếp tục trình gộp từ phụ không tồn subword để gộp nữa, ta thu tập subwords cho toàn bộ văn mà từ biểu diễn thông qua subwords Chẳng hạn từ: low, lower, lowest hợp thành low đuôi phụ er, est Những đuôi thường xuyên xuất từ Như biểu diễn từ lower mã hóa chúng thành hai thành phần từ phụ (subwords) tách biệt low er Theo cách biểu diễn không phát sinh thêm index cho từ lower đồng thời tìm mối liên hệ lower, lowest low nhờ có chung thành phần từ phụ low 2.2 2.2.1 Kiến trúc mạng Mạng nơ-ron hồi quy Trong lý thuyết ngôn ngữ, ngữ nghĩa câu tạo thành từ mối liên kết từ câu theo cấu trúc ngữ pháp Nếu xét từ đứng riêng lẻ ta hiểu nội dụng toàn câu, dựa từ xung quanh ta hiểu trọn vẹn câu nói Các mơ hình nơ ron truyền thống khơng thể làm việc khuyết điểm lớn mạng nơ ron truyền thống Như cần phải có kiến trúc đặc biệt cho mạng nơ ron biểu diễn ngơn ngữ nhằm mục đích liên kết từ liền trước với từ để tạo mối liên hệ xâu chuỗi Từ mạng RNN sinh nhằm giải vấn đề Hình 2.1: Cấu trúc mạng Nơ-ron hồi quy Trong vài năm gần đây, việc ứng dụng RNN đưa nhiều kết tin nhiều lĩnh vực: nhận dạng giọng nói, mơ hình hóa ngơn ngữ, dịch máy, mô tả ảnh, Tuy nhiên bên cạnh mạng RNN nói chung vần cịn tồn đọng số hạn chế thời gian training lâu mạng nhận input khả học dài hạn Như ta thấy RNN dự đốn từ dựa vào nhiều từ gần so với từ xa Vì RNN biết đến mạng hồi quy ngắn hạn Và hạn chế cho tất mạng nơ-ron truy hồi tượng Gradient biến Gradient bùng nổ Từ đó, mạng có tên LSTM(Long-short term memory) thiết kế lại dựa mô hình RNN nhằm tăng khả nhớ liên kết xa Điểm kiến trúc mạng LSTM memory cell thiết kế từ đầu tới cuối kiến trúc với cổng cho phép lưu trữ truy xuất thông tin Các cổng cho phép ghi đè (input gate), loại bỏ dư thừa (forget gate) truy xuất (output gate) thông tin lưu trữ bên memory cell Hình 2.2: Sơ đồ kiến trúc transformer kết hợp với attention Tuy nhiên, kiến trúc LSTM truyền thống với lớp dự đốn nhãn từ dựa thơng tin có từ từ nằm trước Bidirectional LSTM (BiLSTM) tạo để khắc phục điểm yếu Một kiến trúc BiLSTM thường chứa mạng LSTM đơn sử dụng đồng thời độc lập để mơ hình hố chuỗi đầu vào theo hướng: từ trái sang phải (forward LSTM) từ phải sang trái (backward LSTM) Hình 2.3: Bidirectional LSTM = forward LSTM + backward LSTM 2.2.2 Bidirectional Encoder Representations from Transformers Hiện nay, xử lý ảnh biết tới pretrained models tiếng liệu Imagenet với 1000 classes Nhờ số lượng classes lớn nên hầu hết nhãn phân loại ảnh thông thường xuất Imagenet học chuyển giao lại tác vụ xử lý ảnh nhanh tiện lợi Tuy nhiên NLP việc học chuyển giao không đơn giản Computer Vision Các kiến trúc mạng deep CNN Computer Vision cho phép học chuyển giao đồng thời low-level high-level features thông qua việc tận dụng lại tham số từ layers mơ hình pretrained Nhưng NLP, thuật toán cũ GLoVe, word2vec, fasttext cho phép sử dụng biểu diễn véc tơ nhúng từ low-level features đầu vào cho layer mơ hình Các layers cịn lại giúp tạo high-level features dường huấn luyện lại từ đầu BERT viết tắt Bidirectional Encoder Representations from Transformers, kiến trúc cho lớp tốn Language Representation đươc Google cơng bố vào cuối năm 2018 BERT mở rộng khả phương pháp trước cách tạo biểu diễn theo ngữ cảnh dựa từ trước sau để dẫn đến mơ hình ngơn ngữ với ngữ nghĩa phong phú Nhờ vào BERT, không học chuyển giao đặc trưng mà chuyển giao kiến trúc mơ hình nhờ số lượng layers nhiều hơn, chiều sâu mơ hình sâu trước Trước nói BERT, cần phải nói qua phương pháp Transformer Đây mơ hình seq2seq gồm phrase encoder decoder Mơ hình hồn tồn khơng sử dụng kiến trúc Recurrent Neural Network RNN mà sử dụng layers attention để embedding từ câu Mơ hình bao gồm phase: • Encoder: Bao gồm layers liên tiếp Mỗi layer bao gồm sub-layer Multi-Head Attention kết hợp với fully-connected layer mơ tả nhánh encoder bên trái hình vẽ Kết thúc trình encoder ta thu vector embedding output cho từ • Decoder: Kiến trúc bao gồm layers liên tiếp Mỗi layer Decoder có sub-layers gần tương tự layer Encoder bổ sung thêm sub-layer Masked Multi-Head Attention có tác dụng loại bỏ từ tương lai khỏi trình attention Hình 2.4: Sơ đồ kiến trúc transformer kết hợp với attention BERT mơ hình biểu diễn từ theo chiều ứng dụng kỹ thuật Transformer BERT sử dụng phần Encoder Transformer bỏ phần Decoder phía sau Nó thiết kế để huấn luyện trước biểu diễn từ (pre-train word embedding) Điểm đặc biệt BERT điều hịa cân bối cảnh theo chiều trái phải Bên cạnh đó, chế attention Transformer truyền tồn từ câu văn đồng thời vào mơ hình lúc mà không cần quan tâm đến chiều câu Đặc điểm cho phép mơ hình học bối cảnh từ dựa toàn từ xung quanh bao gồm từ bên trái từ bên phải Một điểm đặc biệt BERT mà model embedding trước chưa có kết huấn luyện fine-tuning Hiện có nhiều phiên khác model BERT Các phiên dựa việc thay đổi kiến trúc Transformer tập trung tham số: L: số lượng block sub-layers transformer, H: kích thước embedding véc tơ (hay gọi hidden size), A: Số lượng head multi-head layer, head thực self-attention Tên gọi kiến trúc bao gồm: • BERTBASE (L=12, H=768, A=12): Tổng tham số 110 triệu • BERTLARGE (L=24, H=1024, A=16): Tổng tham số 340 triệu 2.2.3 PhoBERT PhoBERT đời vào tháng 3/2020 • Đây pre-trained huấn luyện monolingual language, tức huấn luyện dành riêng cho tiếng Việt Việc huấn luyện dựa kiến trúc cách tiếp cận giống RoBERTa Facebook Facebook giới thiệu năm 2019 Đây cải tiến so với BERT trước • Tương tự BERT , P hoBERT có phiên P hoBERTbase với 12 transformers block P hoBERTlarge với 24 transformers block • PhoBERT train khoảng 20GB liệu bao gồm khoảng 1GB Vietnamese Wikipedia corpus 19GB lại lấy từ Vietnamese news corpus • PhoBERT sử dụng RDRSegmenter VnCoreNLP để tách từ cho liệu đầu vào trước qua BPE encoder • Do tiếp cận theo tư tưởng RoBERTa, PhoBERT sử dụng task Masked Language Model để train, bỏ task Next Sentence Prediction 2.3 Khoảng cách Levenshtein Khoảng cách chỉnh sửa thước đo để xác định xem hai chuỗi sai khác cách đếm số lần cần phải biến đổi chuỗi thứ thành chuỗi thứ hai Khoảng cách chỉnh sửa sử dụng nhiều xử lý ngôn ngữ tự nhiên đặc biệt tác vụ sửa lỗi tả từ cách tìm từ từ điển có khoảng cách nhỏ Khoảng cách Levenshtein thể khoảng cách khác biệt chuỗi ký tự Khoảng cách Levenshtein chuỗi S1 chuỗi S2 số bước biến chuỗi S1 thành chuỗi S2 thông qua phép biến đổi là: xoá ký tự thêm ký tự, thay ký tự ký tự khác Ví dụ: Khoảng cách Levenshtein chuỗi "kitten" "sitting" 3, phải dùng lần biến đổi kitten -> sitten (thay "k" "s") sitten -> sittin (thay "e" "i") sittin -> sitting (thêm ký tự "g") Tuy nhiên thuật toán hoạt động tốt tiếng Anh Khi thử nghiệm tiếng Việt kết khơng mong đợi Nguyên nhân điều multibyte character Với kí tự ngơn ngữ khác tiếng Anh, phải dùng nhiều byte để biểu diễn Chương Phương pháp nghiên cứu 3.1 Kiến trúc mơ hình Cho trước câu đầu vào X = x1 , x2 , , xT x , ta mong muốn tìm ánh xạ để chuyển đổi câu X sang câu Y = y1 , y2 , , yT y , Tx = Ty chiều dài câu đâu vào từ viết tắt, viết sai tả, teencode lỗi khác X chuyển thành từ phù hợp Y Kien1 trúc mơ hình miêu tả hình Mơ hình ta có thành phần chính: mạng xác định lỗi, mạng sữa lỗi Mạng xác định lỗi mạng Bi-GRU mạng Bi-LSTM, mạng sữa lỗi tả mơ hình biễu diễn ngơn ngữ BERT, XLM-R, phụ thuộc vào ngôn ngữ mà chúng hỗ trợ 3.1.1 Mạng xác định lỗi Mạng xác định lỗi mơ hình chuỗi gán nhãn nhị phân Đầu vào câu embeddings E = (e1 , e2 , ·, en ), ei ký hiệu cho chữ xi Đầu câu gán nhãn nhị phân G = (g1 , g2 , ·, gn ), gi nhãn chữ i, nghĩa từ khơng xác, từ dó xác Ứng với từ, xác suất pi hợp lý 1, xác suất cao từ khơng Trong này, mạng xác định lỗi chọn mơ hình bidirectional LSTM (Bi-LSTM) với tầng 512 nút ẩn Với chữ câu, xác suất lỗi pi định nghĩa sau: pi = Pd (gi = 1|X) = σ Wd hdi + bd Pd (gi = 1|X) xác suất có điều kiện cho trước mạng xác định lỗi, σ hàm sigmoid, hdi hidden state Bi-LSTM, Wd bd tham số Tầng masking tổng embedding đầu vào embedding mask gán trọng số tương ứng xác suất lỗi Đầu tầng masking có phần tử embedding ei cho chữ thứ i định nghĩa: e = pi × emask + (1 − pi ) × ei Trong đó, ei embedding đầu vào emask mask embedding Nếu xác xuất lỗi cao tầng masking cho đầu embedding ei gần với mask embedding emask ; ngược lại gần với embedding đầu vào ei 10 3.1.2 Mạng sửa lỗi Mạng sửa lỗi dùng mơ hình mơ hình gán nhãn nhiều lớp dựa mơ hình phoBERT, mơ hình tiền huấn luyện BERT cho tiếng việt Đầu vào câu masking embedding E = (e1 , e2 , ·, en ) đầu câu Y = (y1 , y2 , ·, yn ) Véc-tơ embedding véc-tơ đặc biệt tiền huấn luyện mơ hình BERT Vec-tơ tồn mơ hình BERT huấn luyện tốn gọi Masked Language Modeling Với tốn này, mơ hình phải dự đoán từ bị che token dựa từ lại làm ngữ cảnh, tỉ lệ từ bị mask câu tối đa khoảng 15% Ví dụ Input: Khơng có tơi sống hạnh phúc Output: Khơng có em tơi sống hạnh phúc Véc-tơ embedding token mask có tính chất đặc biệt, mơ hình tự động thay từ khác nằm từ điển Mạng sửa đổi lợi dụng tính chất token để làm cho phoBERT dự đoán từ cần thay vào từ bị sai tả Mạng sửa lỗi phần Encoder BERT hay phoBERT Khi nhận đầu vào véc-tơ embedding cho véc-tơ mới, có kích thước giống kích thước embedding đầu vào (Tx, N) Các véc-tơ qua tầng kết nối đầy đủ với đầu số từ vựng từ điển tokenizer hàm softmax cho xác suất toàn từ vựng với xác suất từ thay cao (nếu có từ sai) giữ nguyên từ Do hạn chế mặt tài ngun tính tốn nên mạng sửa lỗi sử dụng mơ hình huấn luyện sẵn từ phoBERT khơng huấn luyện mơ hình từ đầu đến Mơ hình cần phải tách từ embedding câu đầu vào đến lần Cụ thể là, mạng xác định lỗi mơ hình sử dụng tách từ dựa vào SetencePiece tokenizer, huấn luyện toàn liệu huấn luyện có 10000 từ vựng Mạng xác định lỗi mơ hình có lớp Embedding với số chiều 512 Mạng sửa chữa lỗi lặp lại bước tách từ Embedding với tách từ lớp Embedding riêng Việc lặp lại công việc lần làm tiêu tốn thêm nhiều tài ngun tính tốn nhớ Nếu huấn luyện mơ hình từ đầu đến cần tokenize embedding câu đầu vào lần hy vọng kết tốt nhiều 11 3.2 Huấn luyện mơ hình Mạng xác định lỗi mạng chỉnh sữa lỗi huấn luyện cách độc lập với Mỗi mạng có tầng Embedding riêng từ vựng riêng cho tầng nhúng Tuy nhiên, hạn chế mặt tài ngun tính tốn nên mơ hình chi huấn luyện mạng xác định lỗi mạng sửa chữa lỗi mơ hình tiền huấn luyện phoBERT huấn luyện sẵn để dự đoán token câu Mạng xác định lỗi mạng Bi-LSTM với 512 nút ẩn, kích thước embedding 512 có tầng Tổng số tham số mạng xác định lỗi khoảng 15M Nhiệm vụ mạng xác định lỗi dự đoán xác suất token có sai tả hay khơng, sau lấy ngưỡng 0.5 để định token có từ sai tả hay khơng, với xác suất lớn 0.5 nghĩa có nhỏ 0.5 khơng, sau từ bị cho sai tả bị thay từ khác giữ nguyên Các từ đề xuất mạng sửa lỗi qua hàm tính khoảng cách từ đề xuất từ sai tả khoảng cách Levenshtein, sau chọn từ đề xuất có khoảng cách Levenshtein ngắn làm từ thay cho từ sai tả Tuy nhiên, sử dụng khoảng cách Levenshtein cho tiếng Việt chưa thật tốt Q trình huấn luyện theo bước sau: • Mơ hình xác định lỗi nhận đầu vào câu, sau đó, mơ hình tách từ cách sử dụng Sentencepice tokenizer Bước tiếp theo, mơ hình chun véc-tơ embedding với tầng embedding mơ hình Tiếp tục, truyền véc-tơ vào mạng Bi-LSTM để nhận lại xác suất từ từ sai Sau sử dụng ngưỡng 0.5 để định xem token từ sai hay Sau đó, mơ hình detokenize token lại thay từ có xác suất lớn 0.5 thành token đưa câu vào mạng sửa đổi • Mạng sửa đổi nhận câu từ mạng xác định lỗi, sau tách từ chuyển véc-tơ embedding mơ hình tiền huấn luyện phoBERT Sau đó, đưa véc-tơ chuyển đổi vào mơ hình phoBERT để thay từ bị gắn tập hợp từ hợp lý Sau dùng khoảng cách Levenshtein để tìm từ đề xuất phoBERT gần với từ bị cho sai tả 12 Chương Kết thực nghiệm 4.1 Bộ liệu Vì tiếng Việt chưa có liệu chuẩn cho tốn Sửa lỗi tả tự động, nên tồn liệu huấn luyện đánh giá tạo thông qua hàm tổng hợp Hàm nhận vào câu tiếng Việt tả, tạo hay nhiều lỗi sai với tỉ lệ 15% với độ dài câu Các lỗi sai dựa vào từ đồng âm, chữ đồng âm s, x, từ viết tắt không: k, ko, hk, hong, Ngoài để tạo liệu lỗi đánh máy, từ sai tạo cách thêm/ xóa /thay chữ ngẫu nhiên từ ngẫu nhiên chọn câu, tạo thành lỗi nonword Các lỗi realword tạo cách thay từ ngẫu nhiên câu thành từ ngẫu nhiên từ điển, khơng thích hợp với ngữ cảnh câu Việc huấn luyện liệu giúp Detector có khả phát lỗi từ có từ điển khơng phù hợp với ngữ cảnh câu nói Hàm tổng hợp tạo đầu câu có từ sai tả, nhãn one hot vị trí từ sai câu gốc tả Dữ liệu lấy từ corpus tạo Vương Quốc Bình Bộ liệu crawl từ trang báo lớn Việt Nam VietnamNet, Thanh Niên, Pháp Luật VN, Giao Thông, Giáo Dục VN, Tổng cộng sau crawl loại bỏ câu dư thừa ngắn thu 10 triệu câu tiếng việt thuộc chủ đề khác trị, kinh tế, xã hội, văn hóa, Tuy nhiên, mặt hạn chế sở vật chất nên mơ hình sử dụng 10 ngàn câu tiếng việt làm liệu Do tính chất ngẫu nhiên việc tạo lỗi hàm tổng hợp, nên câu qua hàm tổng hợp lần cho sample khác với loại lỗi vị trí lỗi khác Nên câu tiếng Việt qua hàm tổng hợp nhiều lần để tạo nhiều liệu huấn luyện 4.2 Kết Mạng sửa lỗi huấn luyện câu tiếng việt bị giới hạn với độ dài tối đa 128 token theo SentencePiece tokenizer Ti lệ Đối với mạng sữa lỗi, sửa lỗi mạng xác định nên bị phụ thuộc hoàn toàn vào mạng xác định Các từ mà Corrector đề xuất để sửa lỗi sai khớp với từ câu gốc ban đầu, từ khác phù hợp với ngữ cảnh nên khơng có phép đánh giá thể tốt khả Corrector Ví 13 dụ, corrector nhận vào câu input: Năm nay, đường bay quốc dừng hoạt động ảnh hưởng dịch Covid-19 nhu cầu tăng cao nên cung không đủ cầu Corrector đề xuất vào từ bị gia tế, quốc gia, quốc tế phù hợp ngữ cảnh câu Một hàm post process dùng để chọn từ gần với từ sai tả để làm từ thay Một nhược điểm Detector thể trình thử nghiệm từ khơng bị sai tả thành từ sai tả với tỉ lệ thấp, từ từ gặp, có từ khác mà cho phù hợp đứng Điều tập huấn luyện Detector có chứa lỗi từ random không phù hợp ngữ cảnh với tỉ lệ 0.3 tổng số samples Để giải vấn đề này, bỏ hoàn toàn sample chứa lỗi từ random, huấn luyện Detector nhiều sample có chứa từ random để nhận trường hợp từ gặp ngữ cảnh Input Nhu cầu tăng cao cung khơng đủ khơng thể có vé giá rẻ Tuy bay quốc tế dừng hoạt động nhu cầu đến điểm du lịch dịp Tết tăng so với năm trước nên lượng người lại cao điểm Tết đông”, đại diện hãng hàng không cho biết Output: Nhu cầu tăng cao khơng đủ khơng thể có vé giá rẻ Tuy bay quốc tế hoạt động nhu cầu đến điểm du lịch dịp Tết tăng so với năm trước nên lượng người lại cao điểm Tết đông”, đại diện hãng hàng không cho biết Ở ví dụ này, từ ‘cung’ bị thay từ ‘nếu’, Detector cho từ cung khơng nên nằm ngữ cảnh câu nói, điều Detector chưa nhìn thấy từ cung lúc huấn luyện nên khơng biết từ cung có nên nằm trường hợp hay khơng Nhược điểm hồn tồn khắc phục cách huấn luyện nhiều liệu đa dạng 14 Chương Kết luận Trong nội dung đồ án này, em nghiên cứu hai mơ hình giải tốn sửa lỗi tả tự động cho tiếng Việt Soft-Masked XLM-R Hard-Masked XLM-R, có mơ hình Hard-Masked XLM-R đưa vào thực nghiệm khơng đủ tài ngun tính tốn để huấn luyện Soft-Masked XLM-R Kết thu Hard-Masked XLM-R với khả nhận diện lỗi sai 96.7%, nhiên văn mang 17 phong cách ngôn ngữ báo chí Mơ hình khắc phục lỗi không nhận diện từ sai văn mang phong cách ngôn ngữ khác cách huấn luyện loại văn 15 ... tăng lương • xử lý nôgn ngữ tự nhiên => xử lý ngôn ngữ tự nhiên • tính theo giá thị trưởng => tính theo giá thị trường 1.3 Hướng tiếp cận Mục tiêu tốn sửa lỗi tả xác định lỗi sửa lỗi cho trước... chỉnh sửa thước đo để xác định xem hai chuỗi sai khác cách đếm số lần cần phải biến đổi chuỗi thứ thành chuỗi thứ hai Khoảng cách chỉnh sửa sử dụng nhiều xử lý ngôn ngữ tự nhiên đặc biệt tác vụ sửa. .. viết tắt, viết sai tả, teencode lỗi khác X chuyển thành từ phù hợp Y Kien1 trúc mơ hình miêu tả hình Mơ hình ta có thành phần chính: mạng xác định lỗi, mạng sữa lỗi Mạng xác định lỗi mạng Bi-GRU