Nghiên cứu thuật toán sửa lỗi chính tả trong văn bản tiếng việt

ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu thuật tốn sửa lỗi tả văn Tiếng Việt NGUYỄN THỊ MINH ÁNH Ngành Điện tử viễn thông Giảng viên hướng dẫn: Trường: PGS.TS Nguyễn Hữu Phát Điện – Điện tử HÀ NỘI, 2023 ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu thuật tốn sửa lỗi tả văn Tiếng Việt NGUYỄN THỊ MINH ÁNH Ngành Điện tử viễn thông Giảng viên hướng dẫn: PGS.TS Nguyễn Hữu Phát Chữ ký GVHD Trường: Điện – Điện tử HÀ NỘI, 2023 LỜI CAM ĐOAN Tôi Nguyễn Thị Minh Ánh, mã số sinh viên 2020866M Người hướng dẫn PGS.TS Nguyễn Hữu Phát Tơi xin cam đoan tồn nội dung trình bày luận văn “Nghiên cứu thuật tốn sửa lỗi tả tiếng Việt” kết q trình tìm hiểu nghiên cứu tơi Các liệu nêu luận văn hoàn toàn trung thực, phản ánh kết đo đạc thực tế Mọi thơng tin trích dẫn tn thủ quy định sở hữu trí tuệ; tài liệu tham khảo liệt kê rõ ràng Tơi xin chịu hồn toàn trách nhiệm với nội dung viết luận văn Hà Nội, ngày … tháng … năm 2023 TÁC GIẢ Nguyễn Thị Minh Ánh LỜI CẢM ƠN Lời xin chân thành cảm ơn Thầy giáo giảng dạy tơi suốt khóa học, cung cấp kiến thức cần thiết, sở lý luận khoa học để tơi hồn thành luận văn Tôi xin chân thành cảm ơn Thầy, cô giáo Viện Đào tạo sau Đại học, Trường Điện – Điện tử, Đại học bách khoa Hà Nội tạo điều kiện giúp đỡ trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn sâu sắc tới cô PGS.TS Nguyễn Hữu Phát, Người tận tình bảo, giúp đỡ tơi suốt q trình làm luận văn Xin cảm ơn bạn bè, đồng nghiệp chung vai sát cánh bên tơi vượt qua khó khăn, thử thách, vững bước đường học tập đầy gian nan, vất vả Tôi xin trân trọng cảm ơn! Hà Nội, ngày tháng năm 2023 Tác giả luận văn Nguyễn Thị Minh Ánh TÓM TẮT LUẬN VĂN Luận văn giải vấn đề Sửa lỗi tả văn tiếng Việt sử dụng mơ hình học máy đại Về lý thuyết, luận văn nghiên cứu nội dung sau: tổng quan nghiên cứu liên quan sửa lỗi tả văn tiếng Việt, lý thuyết ngôn ngữ tiếng Việt, lý thuyết thuật toán học máy Về thực nghiệm, mục đích đặt luận văn phương pháp đưa phải phát hầu hết lỗi ngữ pháp, lỗi tả, lỗi ngữ nghĩa phương pháp đưa phải sửa tự động lỗi phát xác với độ xác >95% Luận văn sử dụng cơng cụ có sẵn, thay đổi việc kết hợp nhiều kỹ thuật khác biến đổi tham số cho phù hợp với toán cần giải Luận văn chia làm 03 chương chính: - Chương 1: Giới thiệu chung đề tài giải luận văn Chương đưa thực trạng vấn dề cách giải quyết, mục tiêu tốn Ngồi ra, chương trình bày nghiên cứu liên quan tốn Sửa lỗi tả ngơn ngữ khác - Chương 2: Chương đề cập đến Cơ sở lý thuyết, phương pháp, lý thuyết sử dụng luận văn Trong chương trình bày lý thuyết đặc trưng ngơn ngữ tiếng Việt phương pháp học máy sử dụng để thực nghiệm, giải toán - Chương 3: Chương trình bày kiến trúc hệ thống đề xuất tác gỉả, đưa phương pháp thực nghiệm dựa vào kiến trúc tên cuối kết phương pháp thực nghiệm MỤC LỤC CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu chung 1.2 Mơ tả tốn 1.3 Phân tích tốn 1.4 Hướng giải 1.5 Các kỹ thuật đề xuất 1.6 Những nghiên cứu liên quan 1.7 Kết luận CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Đặc trưng tiếng Việt 2.1.1 Các đơn vị tiếng Việt 2.1.2 Các phương tiện ngữ pháp tiếng Việt 2.1.3 Từ tiếng Việt 2.1.4 Câu tiếng Việt 11 2.1.5 Các đặc điểm tả văn tiếng Việt 12 2.2 Tổng quan Text Mining 13 2.2.1 Khai phá liệu (Data Mining) 13 2.2.2 Khai phá liệu văn 14 2.3 Recurrent Neural Network 16 2.4 Long Short Term Memory 18 2.5 Word Embedding 21 2.5.1 Khái niệm 21 2.5.2 Phân loại 21 2.6 Mơ hình Sequence to Sequence 26 2.7 Mơ hình Transformer 29 2.7.1 Giới thiệu 29 2.7.2 Self-attention 29 2.7.3 Tổng quan mô hình 31 2.7.4 Bộ mã hóa 33 2.7.5 Bộ giải mã 35 2.7.6 Ứng dụng Attention mô hình Transformer 36 2.8 Kết luận 36 CHƯƠNG 3: HỆ THỐNG ĐỀ XUẤT VÀ ĐÁNH GIÁ KẾT QUẢ 37 3.1 Thu thập liệu 37 3.2 Tiền xử lý liệu 38 3.3 Huấn luyện liệu 39 3.4 Thực nghiệm 39 3.5 Tiêu chí đánh giá mơ hình 40 3.5.1 Bilingual Evaluation Understudy Score (BLEU Score) 40 3.5.2 F-1 Score 41 3.6 Kết thực nghiệm 42 3.7 Kết luận 43 CÔNG BỐ KHOA HỌC 45 TÀI LIỆU THAM KHẢO 46 DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT VIẾT TẮT TIẾNG ANH TIẾNG VIỆT ML Machine Learning Học máy DL Deep Learning Học sâu NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên AI Artificial Intelligent Trí tuệ nhân tạo CNN Convolution Neural Network Mạng nơ-ron tích chập RNN Recurrent Neural Network Mạng nơ-ron tái phát Seq2seq Sequence to sequence LSTM Long Short Term Memory Mạng nơ-ron nhớ ngắn hạn DANH MỤC HÌNH VẼ Hình 2.1 Mơ hình RNN 17 Hình 2.2.Các dạng toán RNN 18 Hình 2.3.Mơ hình LSTM 19 Hình 2.4.Mơ hình Word2vec 24 Hình 2.5.Các trường hợp Word2vec 25 Hình 2.6.Kiến trúc mơ hình Seq2seq 26 Hình 2.7.Minh họa mơ hình seq2seq tốn dịch máy 28 Hình 2.8.Q trình tính tốn vector attention 30 Hình 2.9.Kiến trúc mơ hình Transformer 31 Hình 2.10.Bộ mã hóa giải mã mơ hình Transformer 32 Hình 2.11.Một lớp mã hóa mơ hình Transformer 33 Hình 2.12.Q trình tính tốn vector attention với nhiều "head" 34 Hình 2.13.Bộ giải mã mơ hình Transformer 35 Hình 3.1.Sơ đồ cấu trúc hệ thống 37 DANH MỤC BẢNG BIỂU Bảng 3.1 Số lượng liệu 39 Bảng 3.2.Tham số sử dụng mơ hình 40 Bảng 3.3.Ma trận confused 41 Bảng 3.4.Bảng kết so sánh mơ hình sử dụng giải mã mã hóa Seq2seq 42 Bảng 3.5.Bảng hết so sánh với cách huấn luyện mô hình khác 42 Bảng 3.6.Thể số ví dụ việc sửa lỗi tả 43 2.7.4 Bộ mã hóa Hình 2.11.Một lớp mã hóa mơ hình Transformer Dữ liệu đầu vào mã hóa thành vector, sau đưa vào lớp xếp chồng lên Các thành phần lớp biểu diễn hình 2-11, thơng tin lớp trước Cộng chuẩn hóa với lớp coi đầu vào lớp sau 2.7.4.1 Input Embedding Các câu đầu vào mã hóa thành vector việc sử dụng Word Embedding 2.7.4.2 Positional Embedding Input embedding phần giúp ta biểu diễn ngữ nghĩa từ, nhiên từ vị trí khác câu mang ý nghĩa khác Đó lý Transformers có thêm phần Positional Encoding biết thêm thông tin vị trí từ Giá trị tính sau: 𝑃𝐸(𝑝𝑜𝑠,2𝑖) = 𝑠𝑖𝑛𝑠𝑖𝑛( 𝑝𝑜𝑠 2𝑖 10000𝑑𝑚𝑜𝑑𝑒𝑙 ) 𝑃𝐸(𝑝𝑜𝑠,2𝑖+1) = 𝑐𝑜𝑠𝑐𝑜𝑠 ( (2.23) 𝑝𝑜𝑠 2𝑖 10000𝑑𝑚𝑜𝑑𝑒𝑙 ) (2.24) 33 Trong đó: ● Pos vị trí từ câu ● PE giá trị phần tử thứ i embedding có độ dài 𝑑𝑚𝑜𝑑𝑒𝑙 Như mã hóa nhận ma trận biểu diễn từ cộng với thơng tin vị trí thơng qua positional encoding Sau đó, ma trận xử lý Multi Head Attention Multi Head Attention thực chất sử dụng nhiều self-attention 2.7.4.3 Multi Head Attention Hình 2.12.Q trình tính tốn vector attention với nhiều "head" Vấn đề self-attention attention từ ln ý vào Khi muốn mơ hình học nhiều kiểu mối quan hệ từ với nhau, ý tưởng thay sử dụng lớp self-attention sử dụng nhiều self-attention Hình 2.12 Đơn giản cần nhiều ma trận query, key, value Mỗi “head” cho output riêng, ma trận kết hợp với nhân với ma trận trọng số để có ma trận attention 𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑 (𝑄, 𝐾, 𝑉 ) = 𝐶𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1 , … , ℎ𝑒𝑎𝑑ℎ )𝑊 𝑂 (2.25) 34 Mỗi mã hóa giải mã Transformer sử dụng N attention Mỗi attention biến đổi tuyến tính q, k, v với ma trận huấn luyện khác tương ứng Mỗi phép biến đổi cung cấp cho phép chiếu khác cho q, k, v Vì vậy, N attention cho phép xem mức độ phù hợp từ N quan điểm khác Điều cuối đẩy độ xác tổng thể cao hơn, theo kinh nghiệm Việc chuyển đổi làm giảm kích thước đầu chúng, đó, chí N attention sử dụng, độ phức tạp tính tốn giữ ngun Trong multihead attention, ghép vector đầu theo sau phép biến đổi tuyến tính 2.7.5 Bộ giải mã Hình 2.13.Bộ giải mã mơ hình Transformer Bộ giải mã thực chức giải mã vector câu nguồn thành câu đích, giải mã nhận thông tin từ giải mã hai vectơ key value Kiến trúc giải mã tương tự kiến trúc mã hóa, ngoại trừ có thêm masked multi-head attention nằm dùng để học mối liên quan từ dịch với từ câu nguồn thể hình 2.13 Masked multi-head attention multi-head attention mà tơi đề cập trên, nhiên từ tương lai chưa mơ hình dịch đến che lại Trong giải mã cịn có multi-head attention khác có chức ý từ mã hóa, layer nhận vector key value từ mã hóa, output từ 35 layer phía dưới, điều giúp so sánh tương quan từ dịch với từ nguồn 2.7.6 Ứng dụng Attention mơ hình Transformer Mơ hình Transformer sử dụng multi-head attention theo ba cách khác Đầu tiên lớp encoder-decoder attention, câu truy vấn đến từ lớp giải mã trước đó, khóa giá trị đến từ đầu mã hóa Điều cho phép tất vị trí giải mã tham gia vào tất vị trí chuỗi đầu vào Nó tương tự chế encoder-decoder attention mơ hình sequence-tosequence Tiếp đến mã hóa chứa lớp self-attention Trong lớp selfattention, tất khóa, giá trị truy vấn đến từ nơi, trường hợp đầu lớp trước mã hóa Mỗi vị trí mã hóa tham gia vào tất vị trí lớp trước mã hóa Ngồi ra, lớp self-attention giải mã cho phép vị trí giải mã tham dự tất vị trí giải mã bao gồm vị trí Việc cần làm ngăn chặn luồng thông tin bên trái giải mã để bảo tồn thuộc tính tự động hồi quy Điều thực bên scaled dot-product attention che tất giá trị đầu vào softmax tương ứng với kết nối không hợp lệ 2.8 Kết luận Trong chương này, tơi phân tích lý thuyết phương pháp, công cụ sử dụng đồ án Chương tơi xin trình bày hệ thống đề xuất để giải đề tài ứng dụng đề tài 36 CHƯƠNG 3: HỆ THỐNG ĐỀ XUẤT VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương này, trình bày hệ thống đề xuất để giải tốn sửa lỗi tả tiếng Việt, chi tiết khối hệ thống Quy trình thực tốn mơ tả Hình 3.1 bao gồm hai giai đoạn Quá trình huấn luyện trình thực nghiệm: Hình 3.1.Sơ đồ cấu trúc hệ thống 3.1 Thu thập liệu Tập liệu sử dụng tự thu thập nguồn báo điện tử tiếng Việt VnExpress1, Dantri2, Thanhnien3, Vietnamnet4 Tập liệu bao gồm 39823 tin báo Tập liệu tập liệu tự thu thập nguồn báo điện tử chưa chuẩn hóa xuất lỗi, liệu đạt chuẩn khoảng 95% https://vnexpress.net/ https://dantri.com.vn/ https://thanhnien.vn/ https://vietnamnet.vn/ 37 3.2 Tiền xử lý liệu Tiền xử lý liệu trình làm liệu, loại bỏ liệu thừa, gây nhiễu khơng có ý nghĩa cho q trình thực nghiệm Q trình có tính chất quan trọng để dẫn đến kết tốt cơng việc tốn Việc xác định từ có sai tả hay khơng khó nhận biết số lượng liệu lớn Mơ hình nhầm từ viết tắt, từ nước ngồi với từ bị sai tả Do đó, tơi có đề xuất luồng tiền xử lý liệu để giải tốn Hình 3.1 thể phương pháp tiền xử lý liệu Tôi tạo tập liệu song song từ câu ban đầu bao gồm câu sai tả câu tả Giai đoạn tiền xử lý liệu bao gồm: ● Bước 1: Thu thập liệu chuẩn Tiếng Việt, sau làm liệu cách xóa thẻ html Do việc sử dụng câu tả để sinh câu có lỗi tả nên u cầu liệu đầu vào cần tả nên tơi chọn từ nguồn báo điện tử uy tín ● Bước 2: Chia liệu thành câu văn hoàn chỉnh Việc tách câu có ý nghĩa vơ quan trọng, khơng xác dẫn đến làm sai lệch ý nghĩa câu, ảnh hưởng đến tính xác thuật tốn ● Bước 3: Xác định từ xuất câu khơng có từ điển tiếng Việt (ví dụ: tên riêng, ngơn ngữ quốc tế,…) đánh dấu chúng từ đặc biệt với thẻ Ví dụ: “Paris thành phố hoa lệ.” -> “Paris thành phố hoa lệ.” ● Bước 4: Sinh lỗi cho câu Mỗi câu chứa từ 2-3 loại lỗi đánh dấu thẻ , với tỷ lệ từ lỗi chiếm 15% tổng số từ có câu Tơi sử dụng luật để tạo loại lỗi khác Ví dụ: “Paris thành phố hoa lệ.” -> “Paris thành phoos hoa lệ.” ● Bước 5: Tách ký tự từ bên tag , ký tự phân cách ký tự “ _”, việc làm giúp mơ hình hiểu chữ từ bị lỗi học cách chữ lỗi tùy vào hoàn cảnh khác Trong việc tiếp cận mơ hình chủ yếu phải học ký tự tập liệu Ví dụ: “P _a _r _i _s thành p _h _ố hoa lệ.” > “P _a _r _i _s thành p _h _o _o _s hoa lệ.” ● Bước 6: Ghép câu tả câu sai tả lại thành tập liệu Tôi tạo liệu song song bao gồm 100 triệu cặp câu Tập huấn luyện bao gồm 90%, liệu để đánh giá chiếm 9% tập liệu kiểm thử bao 38 gồm 1% Bảng 3-1 mô tả chi tiết liệu tạo sử dụng luận văn Bảng 3.1 Số lượng liệu Tập liệu Số lượng cặp câu Train 90 triệu Development triệu Test triệu 3.3 Huấn luyện liệu Trong tốn này, tơi chuyển văn sang không gian vector tạo thư mục để biểu diễn tài liệu Mỗi từ gán số tự nhiên, từ văn đặt với số tương ứng Mỗi văn chuyển thành mảng số tự nhiên, quy định số từ cố định Dưới cách huấn luyện liệu cho tốn tìm kiếm sửa lỗi tả: Q trình huấn luyện bao gồm hai giai đoạn: ● Giai đoạn 1: Huấn luyện mơ hình với liệu chứa câu sai tả nhận việc nhìn, ví dụ lỗi gõ chữ sai, lỗi thiếu dấu,… ● Giai đoạn 2: Tiếp tục huấn luyện mơ hình thêm liệu sai mặt ngữ nghĩa Trong giai đoạn lựa chọn sử dụng checkpoints tốt giai đoạn tiến hành tiếp tục huấn luyện với liệu Bộ liệu bao gồm liệu sai tả nhận biết việc nhìn liệu sai ngữ nghĩa với tỉ lệ 40% 60% Việc giúp mơ hình làm tốt việc sửa lỗi “dễ” học lỗi “khó” Đây cách huấn luyện tạo kết tốt so với cách huấn luyện truyền thống 3.4 Thực nghiệm Tôi sử dụng công cụ OpenNMT [16], sử dụng tham số theo nghiên cứu để huấn luyện mơ hình sửa lỗi tả tiếng Việt Công cụ OpenNMT sử dụng mạng Transformer cho hai mã hóa giải mã 39 Bảng 3.2.Tham số sử dụng mơ hình Tham số Giá trị Số lớp Kích thước lớp ẩn 512 Kích thước từ điển 40000 Kích thước lơ 2000 Hàm tối ưu Adam Bước khởi động 16000 Bước huấn luyện 200000 3.5 Tiêu chí đánh giá mơ hình 3.5.1 Bilingual Evaluation Understudy Score (BLEU Score) BLEU Score trọng số dùng phổ biến toán dịch máy BLEU tác giả đề xuất vào năm 2022 BLEU tính dựa số lượng n-grams giống câu dịch mơ hình (output) với câu tham chiếu tương ứng (label) có xét tới yếu tố độ dài câu Số n-grams tối đa BLEU không giới hạn, xét ý nghĩa, cụm từ q dài thường khơng có nhiều ý nghĩa nghiên cứu cho thấy với 4grams, điểm số BLEU trung bình cho khả dịch thuật người giảm nhiều nên n-grams tối đa thường sử dụng 4-ngrams Cơng thức để tính điểm đánh sau: 𝑠𝑐𝑜𝑟𝑒 = 𝑒𝑥𝑝 {∑𝑁 𝑖=1 𝑤𝑖 𝑙𝑜𝑔𝑙𝑜𝑔(𝑝𝑖 ) − 𝑚𝑎𝑥 ( 𝐿𝑟𝑒𝑓 𝐿𝑡𝑟𝑎 − 1,0)} (3.1) 𝑝𝑖 = ∑𝑗 𝑁𝑅𝑗 ∑𝑗 𝑁𝑇𝑗 (3.2) Trong đó: ● 𝑁𝑅𝑗 số lượng n-grams phân đoạn j dịch dùng để tham khảo 40 ● 𝑁𝑇𝑗 số lượng n-grams phân đoạn j dịch máy ● 𝐿𝑟𝑒𝑓 số lượng n-grams phân đoạn j dịch máy ● 𝐿𝑡𝑟𝑎 số lượng từ dịch máy Giá trị score đánh giá mức độ tương ứng hai dịch thực phân đoạn, phân đoạn hiểu đơn vị tối thiểu dịch, thông thường phân đoạn câu đoạn Việc thống kê trùng khớp n-grams dựa tập hợp n-grams phân đoạn, trước hết tính phân đoạn, sau tính lại giá trị tất phân đoạn 3.5.2 F-1 Score Bảng 3.3.Ma trận confused Negative Pre Positive Pre Negative Act True Negative (TN) False Positive(FP) Positive Act True Positive(TP) False Negative (FN) Trong đó: ● TN kết mơ hình dự đốn xác lớp negative ● TP kết mơ hình dự đốn xác lớp positive ● FN kết mơ hình dự đốn khơng xác lớp negative ● FP kết mơ hình dự đốn khơng xác lớp positive Precision tỉ lệ số điểm Positive mơ hình dự đốn tổng số điểm mơ hình dự đoán Positive: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 (3.3) Recall tỉ lệ số điểm Positive mơ hình dự đoán tổng số điểm thật Positive (hay tổng số điểm gán nhãn Positive ban đầu): 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 (3.4) 41 F1-score trung bình điều hịa (harmonic mean) precision recall (giả sử hai đại lượng khác 0): 1 = + 𝐹1 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 (3.5) 3.6 Kết thực nghiệm Bảng sau thể kết đánh giá tập kiểm thử mơ hình thực nghiệm với liệu tự thu thập: Bảng 3.4.Bảng kết so sánh mơ hình sử dụng giải mã mã hóa Seq2seq Mơ hình BLEU (%) F1-score (%) LSTM 92.11 91.76 Language Model 86.45 85.23 Transformer 96.0 95.64 Bảng 3.5.Bảng hết so sánh với cách huấn luyện mô hình khác Mơ hình BLEU(%) F1-Score (%) Sử dụng cách huấn luyện kết hợp 96.0 95.64 Huấn luyện tất liệu lần 94.3 86.24 Huấn luyện với liệu chưa tiền xử lý 85.33 78.91 Bảng 3.4 cho thấy kết sử dụng Transformer sử dụng giải mã mã hóa đạt kết tốt nhiều so với mơ hình lại LSTM Language model thường sử dụng tốn sửa lỗi tả Điều giúp khẳng định việc sử dụng kiến trúc Transformer đạt kết tốt mơ hình Seq2seq Việc sử dụng kiến trúc Transformer giúp mơ hình học yếu tố ngữ cảnh tốt hơn, kết hợp embedding tốt so với phương pháp lại Bảng 3.5 cho thấy việc sử dụng huấn luyện cho kết tốt nhiều so với cách huấn luyện truyền thống huấn luyện với liệu chưa qua tiền xử lý Trong toán tơi huấn luyện mơ hình với ba cách khác Bài tốn u 42 cầu mơ hình học nhiều thông tin từ ngữ cảnh xung quanh từ bị lỗi tả, đó, với cách huấn luyện mới, mơ hình học theo giai đoạn, từ lỗi dễ đến lỗi ngữ nghĩa khó Kết việc huấn luyện cho thấy việc huấn luyện với hai giai đoạn giúp mơ hình đạt kết tốt sửa lỗi đa dạng khó Ngồi ra, tơi so sánh kết mơ hình với việc sử dụng liệu chưa qua bước tiền xử lý: sử dụng thẻ để phân loại từ sai tả, sử mượn,…; phân chia từ bị lỗi tả theo mức ký tự kết mô hình tơi đạt kết tốt Trong tiếng Việt có nhiều từ mượn, từ viết tắt mà không xuất từ điển tiếng Việt, nên việc để phân biệt từ với từ bị sai tả khó nên việc xử lý tơi giúp mơ hình hiểu tính chất đặc trưng từ lựa chọn từ cần sửa Một số ví dụ sửa lỗi tả sau thực nghiệm thể Bảng 3.6 Bảng 3.6.Thể số ví dụ việc sửa lỗi tả Câu đầu vào Câu đầu mơ hình Câu đầu xác Trong vường có nhiều Trong vườn có nhiều Trong vườn có nhiều loại caay loại loại Bộ nàn ghế muaa Bộ bàn ghế mua Nhân viên dãngoại chời Bộ bàn ghế mua Nhân viên dã Nhân viên dã ngoại trời ngoại trời Sinh vi tốt nghiệp dạt kết Sinh viên tốt nghiệp đạt Sinh viên tốt nghiệp đạt cao kết cao kết cao 3.7 Kết luận Trong chương tơi trình bày phương pháp để giải tốn sửa lỗi tả tiếng Việt kết phương pháp sử dụng thực nghiệm Ngồi ra, chương tơi có trình bày phương pháp đánh giá cho mơ hình tơi thực nghiệm 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sau thời gian tìm hiểu nghiên cứu, tơi hồn thành luận văn “ Nghiên cứu thuật tốn sửa lỗi tả văn tiếng Việt” Luận văn đạt kết sau: ● Tìm hiểu hệ thống kiến thức: - Tổng quan toán dịch máy, số cách tiếp cận toán dịch máy - Mạng nơ ron nhân tạo, huấn luyện mạng nơ ron - Mơ hình dịch máy nơ ron tập trung nghiên cứu mơ hình Transformer ● Cài đặt, thử nghiệm mơ hình Transformer tối ưu tham số mơ hình áp dụng vào ngôn ngữ tiếng Việt ● Thử nghiệm so sánh mơ hình Transformer với mơ hình dịch máy sử dụng LSTM Language Model ● Xây dựng liệu riêng từ nguồn báo mạng cho toán sửa lỗi tả Bên cạnh đó, mơ hình đề xuất số nhược điểm như: ● Mơ hình Transformer mơ hình lớn, u cầu sở vật chất đảm bảo việc huấn luyện mơ hình thời gian lâu ● Dữ liệu sử dụng luận văn sử dụng liệu tự thu thập, chưa chuẩn hóa xác nên gây nhầm lẫn cho mơ hình dẫn đến kết cịn hạn chế ● Mơ hình sử dụng số lượng liệu lớn để đảm bảo bao quát nhiều trường hợp, nhiều ngữ cảnh nhiên ảnh hưởng tới thời gian huấn luyện mơ hình Với kiến thức kỹ có từ khóa luận, tương lai tơi tiếp tục thu thập bổ sung liệu cho hệ thống, đồng thời khai thác thêm đặc trưng ngôn ngữ thêm nguồn liệu mở từ điển vào hệ thống để nâng cao chất lượng sửa lỗi Đồng thời tìm hiểu thêm biến thể mơ hình Transformer thử nghiệm việc kết hợp nhiều mơ hình để giải tốn 44 CƠNG BỐ KHOA HỌC “Đề xuất thuật toán phân loại văn tiếng Việt sử dụng Long Short Term Memmory,” Tạp chí Nghiên cứu KH&CN quân sự, vol 69 [Journal] / auth N H P Nguyễn Thị Minh Ánh “Vietnamese Text Classification Algorithm using Long Short Term Memory and Word2Vec," [Journal] / auth Phat H N., Anh, N T M., - [s.l.] : Informatics and Automation (Scopus Q3), , 2020 - Vols 19(6), 1255-1279, 2020 https://doi.org/10.15622/ia.2020.19.6.5 45 TÀI LIỆU THAM KHẢO [1] R C G E F a P W Angell, "Automatic spelling correction using a trigram similarity measure," Information Processing & Management , pp 255261, 1983 [2] M a A Y Nejja, "Context's impact on the automatic spelling correction," International Journal of Artificial Intelligence and Soft Computing 6.1, pp 56-74, 2017 [3] Gong, H., Li, Y., Bhat, S., & Viswanath, P., "Context-sensitive malicious spelling error correction.," 2019 [4] Lee, Jung-Hun, Minho Kim, and Hyuk-Chul Kwon, "Deep learningbased context-sensitive spelling typing error correction.," IEEE Access , pp 152565-152578., 2020 [5] Thi Xuan Huong, N., Dang, T T., Nguyen, T T., & Le, A C., "Using large n-gram for vietnamese spell checking," in Knowledge and Systems Engineering: Proceedings of the Sixth International Conference KSE 2014, 2015 [6] I O V a Q V L Sutskever, "Sequence to sequence learning with neural networks," Advances in neural information processing systems 27, 2014 [7] T.-H X.-K P a P L.-H Pham, "On the use of machine translationbased approaches for vietnamese diacritic restoration," in International Conference on Asian Language Processing (IALP) IEEE, 2017 [8] S a J S Hochreiter, "Long short-term memory," Neural computation 9.8, pp 1735-1780, 1997 [9] N L T H N a V V N Pham, "Grammatical error correction for vietnamese using machine translation.," Computational Linguistics: 16th International Conference of the Pacific Association for Computational Linguistics, PACLING 2019, Hanoi, Vietnam, October 11–13, 2019, Revised Selected Papers 16 Springer Singapore, 2020 [10] Y U P a R K Zhou, "Spelling correction as a foreign language," arXiv preprint arXiv:1705.07371, 2017 [11] N H P Nguyễn Thị Minh Ánh, " “Đề xuất thuật toán phân loại văn tiếng Việt sử dụng Long Short Term Memmory,” Tạp chí Nghiên cứu KH&CN quân sự, vol 69." [12] H N A N T M Phat, ""Vietnamese Text Classification Algorithm using Long Short Term Memory and Word2Vec,"," Vols 19(6), 1255-1279, 2020 https://doi.org/10.15622/ia.2020.19.6.5, 2020 [13] L R a L C J Medsker, "Recurrent neural networks.," Design and Applications 5, pp 64-67, 2001 [14] J R S a C D M Pennington, "Glove: Global vectors for word representation.," in 2014., Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 46 [15] A e a Vaswani, "Attention is all you need.," in 2017, Advances in neural information processing systems 30 [16] G e a Klein, "Opennmt: Open-source toolkit for neural machine translation.," arXiv preprint arXiv:1701.02810, 2017 [17] N e a Thi Xuan Huong, "Using large n-gram for vietnamese spell checking," in Knowledge and Systems Engineering: Proceedings of the Sixth International Conference KSE 2014, 2014 [18] S e a Zhang, "Spelling error correction with soft-masked BERT," arXiv preprint arXiv:2005.07421, 2020 47

Định dạng
Số trang	58
Dung lượng	1,68 MB