Bắt lỗi chính tả bằng phương pháp transformer

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN MINH BẰNG BẮT LỖI CHÍNH TẢ BẰNG PHƯƠNG PHÁP TRANSFORMER Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 08 năm 2020 I CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: GS.TS Phan Thị Tươi Cán chấm nhận xét 1: PGS.TS Quản Thành Thơ Cán chấm nhận xét 2: TS Lê Thị Ngọc Thơ Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng 08 năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS.TS Dương Tuấn Anh Thư ký: TS Võ Thị Ngọc Châu Phản biện 1: PGS.TS Quản Thành Thơ Phản biện 2: TS Lê Thị Ngọc Thơ Ủy viên: PGS.TS Lê Anh Cường Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KTMT II ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Minh Bằng Ngày, tháng, năm sinh: 13/01/1981 Chuyên ngành: Khoa học máy tính MSHV:1670212 Nơi sinh: Bình Dương Mã số : 60480101 I TÊN ĐỀ TÀI: Bắt lỗi tả phương pháp Transformer (Spelling Errors Correction by Transformer method) II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp bắt lỗi tả cho văn ngôn ngữ tự nhiên, tập trung vào phương pháp học sâu - Nghiên cứu phương pháp TRANSFORMER để áp dụng cho luận văn - Có thể nghiên cứu phương pháp học sâu kết hợp khác để thực luận văn - Tìm hiểu, khai thác xây dựng tập liệu huấn luyện tiếng Việt cho mơ hình học sâu để bắt lỗi tả tiếng Việt - Xây dựng mơ hình thử nghiệm đơn giản bắt lỗi tả tiếng Việt III NGÀY GIAO NHIỆM VỤ: 19/08/2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 03/08/2020 V CÁN BỘ HƯỚNG DẪN: GS.TS Phan Thị Tươi Tp HCM, ngày tháng năm 2020 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) III LỜI CẢM ƠN Quá trình học tập trường Đại học Bách Khoa thành phố Hồ Chí Minh để lại cho nhiều ấn tượng sâu sắc Tôi học tập làm việc môi trường tốt, tiếp thu nhiều kiến thức kinh nghiệm quý báu Tuy nhiên, có lúc tơi phải trải qua nhiều khó khăn thử thách Những lúc ấy, nhận quan tâm giúp đỡ từ gia đình, thầy bạn bè Đó động lực to lớn để tơi vượt qua khó khăn đạt kết ngày hôm Trước hết, xin gửi lời cảm ơn sâu sắc đến gia đình, đặc biệt vợ gái Vợ thấu hiểu, quan tâm cố gắng để tạo điều kiện thuận lợi cho tơi giúp tơi có thêm động lực học tập làm việc Tiếp theo, xin gửi lời cảm ơn chân thành đến cô hướng dẫn đề tài GS.TS Phan Thị Tươi Cô theo sát, hỗ trợ định hướng cho đề tài luận văn tơi Bên cạnh tơi gửi lời cảm ơn đến thầy cô giảng dạy, truyền đạt lại kiến thức kỹ quý báu cho Sau cùng, xin gửi lời cám ơn đến bạn bè đồng nghiệp giúp đỡ cho lời khun hữu ích Tơi xin cảm ơn đến toàn thể nhà trường thầy cô, bạn sinh viên tạo môi trường học tập đầy động hào hứng Một lần nữa, tơi xin chân thành cảm ơn Hồ Chí Minh, ngày 03 tháng 08 năm 2020 Nguyễn Minh Bằng IV TĨM TẮT LUẬN VĂN Trong thời đại cách mạng cơng nghiệp 4.0 nay, lĩnh vực trí tuệ nhân tạo nói chung xử lý ngơn ngữ tự nhiên nói riêng có vai trị đặc biệt quan trọng tác động to lớn đến đời sống kinh tế, xã hội Những nghiên cứu lĩnh vực ứng dụng triển khai thực tế bước cải thiện đời sống ngày tốt Tính phát sửa lỗi tả có mặt hầu hết ứng dụng liên quan đến văn bản, từ máy tính thiết bị di động Khi nhập từ khơng xác, hệ thống phát lỗi, lỗi tả từ khơng phù hợp ngữ cảnh Sau đó, hệ thống tự động sửa từ khác đề xuất danh sách từ thay Dựa nghiên cứu học sâu, đề tài ứng dụng kết hợp phương pháp mơ hình giúp bắt số lỗi tả mức đơn giản cho tiếng Việt Đây hướng nghiên cứu có thuận lợi, khó khăn riêng so với phương pháp truyền thống Những thuận lợi kể tới việc rút trích đặc trưng khơng cịn làm cách thủ cơng mà tích hợp hồn tồn mơ hình học máy giúp giảm phức tạp tăng độ hiệu Đặc biệt với nghiên cứu gần mơ hình sequence-to-sequence, kỹ thuật Attention[9], kiến trúc Transformer [37] mơ hình BERT[39] cho chất lượng vượt trội so với phương pháp trước Hơn phương pháp học sâu phù hợp với phần cứng tính tốn song song GPU giúp tăng tốc q trình xử lý Bên cạnh đó, tồn khó khăn, thách thức lớn vấn đề liệu Các phương pháp học sâu đòi hỏi lượng liệu lớn để làm việc tốt Dù có hạn chế mặt liệu, bước đầu đề tài cho kết tương đối khả quan V ABSTRACT In the inductrial revolution 4.0 nowaday, Artificial Intelligence in general and Computer Vision in particular play a special role and have a great impact on economic and social life The research in this field has been applied in practice, and gradually make our lives better Spelling detection and correction has been in most text-related applications, from computers to mobile devices When an incorrect word is entered, the system will detect errors which are spelling errors or errors in context Then, the system automatically corrects it with a different word or suggests a list of replaceable words Based on the research for deep learning, the thesis has applied and combined these methods to create a model to detect some basic spelling errors in Vietnamese This is a new approach which has not only some advantages but also some disadvantages The advantages include combining the feature extraction and machine learning to reduce the complexity and increase the efficiency Especially, in some related works on Sequence-to-sequence model, Attention technique[9], Transformer architecture[37] and BERT model[39] are more superior than the privious methods Moreover the deep learning methods use the parallel hardware such as GPU to speed up the processing time Beside, there are some challenges and training data is one of them The deep learning method requires a large data to work well in real Although there is some the data limitation, the results are positive VI LỜI CAM ĐOAN Luận văn tơi có tham khảo tài liệu từ nhiều nguồn khác nguồn tham khảo trích dẫn rõ ràng phần tài liệu tham khảo Ngồi phần trích dẫn, tơi xin cam đoan tồn nội dung báo cáo tự soạn thảo dựa tìm hiểu kết nghiên cứu tơi, khơng chép từ tài liệu khác Tôi hoàn toàn chịu xử lý theo quy định có sai phạm xảy liên quan đến cam đoan Hồ Chí Minh, ngày 03 tháng 08 năm 2020 Nguyễn Minh Bằng VII MỤC LỤC TÓM TẮT LUẬN VĂN V MỤC LỤC VIII DANH SÁCH HÌNH VẼ X DANH SÁCH BẢNG XI DANH MỤC TỪ VIẾT TẮT XII CHƯƠNG 1: GIỚI THIỆU 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Ý nghĩa đề tài 1.3.1 Ý nghĩa thực tiễn 1.3.2 Ý nghĩa khoa học 1.4 Phạm vi đề tài 1.5 Bố cục luận văn CHƯƠNG 2: CƠNG TRÌNH LIÊN QUAN 2.1 Phương pháp phát lỗi tả 2.1.1 Phương pháp tra cứu từ điển 2.1.2 Phương pháp phân tích n-gram 2.2 Phương pháp sửa lỗi tả 2.2.1 Khoảng cách chỉnh sửa tối thiểu (Minimum edit distance) 2.2.2 Khóa tương tự (Similarity key technique) 2.2.3 Kỹ thuật dựa luật (Rule-based techniques) 2.2.4 Phương pháp xác suất (Probabilistic Techniques) 2.2.5 Phương pháp dựa học sâu (Deep Learning) CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 13 3.1 Mã hóa BPE (Byte Pair Encoding) 13 3.2 Kiến trúc Transformer 15 3.2.1 Encoder Decoder 15 3.2.2 Các tiến trình self-attention encoder-decoder attention 16 3.3 Mơ hình BERT 16 3.3.1 Fine-tuning model BERT 17 VIII 3.3.2 Masked ML (MLM) 18 3.3.3 Dự đoán câu - Next Sentence Prediction (NSP) 20 3.3.4 Các kiến trúc mơ hình BERT 21 CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT 22 4.1 Xây dựng tập liệu 22 4.1.1 Thu thập liệu văn 22 4.1.2 Tự động tạo văn sai tả 23 4.2 Mơ hình học sâu bắt lỗi tả tiếng Việt 25 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 5.1 Tiêu chí đánh giá 27 5.1.1 Phương pháp BLEU 27 5.1.2 Độ xác 28 5.2 Chuẩn bị liệu 28 5.3 Cài đặt thực nghiệm 29 5.4 Kết thực nghiệm 30 TỔNG KẾT 33 TÀI LIỆU THAM KHẢO 34 IX DANH SÁCH HÌNH VẼ Hình 2.1 Mơ hình Sequence to Sequence 10 Hình 2.2 Minh họa mơ hình seq2seq dùng kỹ thuật attention[9] 11 Hình 3.1 Sơ đồ kiến trúc transformer kết hợp với attention[37] 15 Hình 3.2 Tồn tiến trình pre-training fine-tuning BERT[39] 17 Hình 3.3 Sơ đồ kiến trúc BERT cho tá vụ Masked ML 19 Hình 3.4 Sơ đồ kiến trúc model BERT cho tác vụ NSP 20 Hình 4.1 Cơng cụ tự động trích xuất văn sử dụng thư viện Scrapy 23 Hình 4.2 Minh họa kết tạo câu sai từ câu 25 Hình 4.3 Kiến trúc mơ hình bắt lỗi tả Tiếng Việt [38] 26 X Bước 2: Lần lượt áp dụng luật biến đổi (tìm/thay thế) cho từ để tạo nên phiên sai tả câu, bảng 4.1 mô tả luật biến đổi mà đề tài sử dụng Bước 3: Mỗi bước áp dụng luật thành cơng (có thay đổi câu) tạo nên cặp câu đúng-sai Lưu tất cặp câu đúng-sai vào file kết Lần lượt thực quy trình cho tất câu tả trích xuất từ website, kết tạo câu sai từ câu minh hoạ hình 4.2 Bảng 4.1: Các luật biến đổi từ thành từ sai tả STT Lỗi Luật biết đổi Sử dụng dấu hỏi/ngã Thay dấu hỏi/ngã cho nhau: “ẻ/ẽ”, “ể/ễ”, “ỷ/ỹ”, “ủ/ũ”, “ử/ữ”, “ỉ/ĩ”, “ỏ/õ”, “ổ/ỗ”, “ả/ã”, “ẩ/ẫ”, “ẳ/ẵ” Phụ âm đầu Thay phụ âm đầu cho nhau: “ch/tr”, “s/x”, “d/gi”, “d/gi/v”, “u/h/qu” Phụ âm cuối Thay phụ âm cuối cho nhau: “c/t”, “n/ng”, “i/y” Thay chữ tiếng Việt có dấu thành khơng dấu: “à|á|ạ|ả|ã|â|ầ|ấ|ậ|ẩ|ẫ|ă|ằ|ắ|ặ|ẳ|ẵ/a”, “è|é|ẹ|ẻ|ẽ|ê|ề|ế|ệ|ể|ễ/e”, Dấu Tiếng Việt Kiểu gõ TELEX “ì|í|ị|ỉ|ĩ/i”, “ị|ó|ọ|ỏ|õ|ơ|ồ|ố|ộ|ổ|ỗ|ơ|ờ|ớ|ợ|ở|ỡ/o”, “ù|ú|ụ|ủ|ũ|ư|ừ|ứ|ự|ử|ữ/u”, “ỳ|ý|ỵ|ỷ|ỹ/y”, “đ/d” Bỏ dấu Tiếng Việt thêm ký tự tương ứng, mô trường hợp gõ sai sử dụng kiểu gõ TELEX: “à/af”, “á/as”, “ạ/aj”, “ả/ar”, “ã/ax”, “â/aa”, “ầ/aaf”, “ấ/aas”, “ậ/aaj”, “ẩ/aar”, “ẫ/aax”, “ă/aw”, “ằ/awf”, “ắ/aws”, “ặ/awj”, “ẳ/awr”, “ẵ/awx”, “è/ef”, “é/es”, “ẹ/ej”, “ẻ/er”, “ẽ/ex”, “ê/ee”, “ề/ee”, “ế/ees”, “ệ/eej”, “ể/eer”, “ễ/eex”, “ì/if”, “í/is”, “ị/ij”, “ỉ/ir”, “ĩ/ix”, “ị/of”, “ó/os”, “ọ/oj”, “ỏ/or”, “õ/ox”, “ô/oo”, “ồ/oof”, “ố/oos”, “ộ/ooj”, “ổ/oor”, “ỗ/oox”, “ơ/ow”, “ờ/owf”, “ớ/ows”, “ợ/owj”, “ở/owr”, “ỡ/owx”, 24 “ù/uf”, “ú/us”, “ụ/uj”, “ủ/ur”, “ũ/ux”, “ư/uw”, “ừ/uwf”, “ứ/uws”, “ự/uwj”, “ử/uwr”, “ữ/uwx”, “ỳ/yf”, “ý/ys”, “ỵ/yj”, “ỷ/yr”, “ỹ/yx”, “đ/dd” Kiểu gõ VNI Bỏ dầu Tiếng Việt thêm ký tự số tương ứng, mô trường hợp gõ sai sử dụng kiểu gõ VNI: 'à/a2', 'á/a1', 'ạ/a5', 'ả/a3', 'ã/a4', 'â/a6', 'ầ/a62', 'ấ/a61', 'ậ/a65', 'ẩ/a63', 'ẫ/a64', 'ă/a8', 'ằ/a82', 'ắ/a81', 'ặ/a85', 'ẳ/a83', 'ẵ/a84', 'è/e2', 'é/e1', 'ẹ/e5', 'ẻ/e3', 'ẽ/e4', 'ê/e6', 'ề/e62', 'ế/e61', 'ệ/e65', 'ể/e63', 'ễ/e64', 'ì/i2', 'í/i1', 'ị/i5', 'ỉ/i3', 'ĩ/i4', 'ị/o2', 'ó/o1', 'ọ/o5', 'ỏ/o3', 'õ/o4', 'ơ/o6', 'ồ/o62', 'ố/o61', 'ộ/o65', 'ổ/o63', 'ỗ/o64', 'ơ/o7', 'ờ/o72', 'ớ/o71', 'ợ/o75', 'ở/o73', 'ỡ/o74', 'ù/u2', 'ú/u1', 'ụ/u5', 'ủ/u3', 'ũ/u4', 'ư/u7', 'ừ/u72', 'ứ/u71', 'ự/u75', 'ử/u73', 'ữ/u74', 'ỳ/y2', 'ý/y1', 'ỵ/y5', 'ỷ/y3', 'ỹ/y4', 'đ/d9' Hình 4.2: Minh họa kết tạo câu sai từ câu 4.2 Mô hình học sâu bắt lỗi tả tiếng Việt Để bắt lỗi tả tiếng Việt, luận văn sử dụng chủ yếu kỹ thuật dịch máy dựa kiến trúc Transformer[37] nhóm nghiên cứu Kenji Imamura 25 Eiichiro Sumita[38] cải tiến sử dụng mơ hình BERT[39] huấn luyện để thay cho Encoder Transformer Tuy nhiên luận văn có số thay đổi, bổ sung cho phù hợp với tốn bắt lỗi tả tiếng Việt, cụ thể thay mơ hình BERT huấn luyện trước từ liệu tiếng Anh (bert-base-uncased) thành mô hình BERT huấn luyện trước sử dụng liệu đa ngôn ngữ (bert-base-multilingual-cased), xử lý liệu huấn luyện format đưa vào đầu vào BERT Encoder xử lý chuỗi tokens, kết trả câu tả Ví dụ hoạt động mơ sau: • Câu nhập câu sai tả: Xinh viên Việt Nam rấc giõi • Áp dụng tokenizer, sub-words thêm ký tự đặc biệt: [CLS] Xi ##nh viên Việt Nam r ##ấ ##c gi ##õi [SEP] • Chuỗi token xuất từ mơ hình: ▁Sinh ▁viên ▁Việt ▁Nam ▁rất ▁giỏi • Kết câu tả cuối cùng: Sinh viên Việt Nam giỏi Kiến trúc mơ hình bắt lỗi tả tiếng Việt luận văn đề xuất hình 4.3: Hình 4.3: Kiến trúc mơ hình bắt lỗi tả luận văn 26 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ Từ mơ hình nêu chương 4, luận văn thực số thực nghiệm nhằm đánh giá tính hiệu mơ tìm siêu tham số phù hợp với mơ hình đề Trình tự bước thực nghiệm mơ tả sau 5.1 Tiêu chí đánh giá 5.1.1 Phương pháp BLEU Trong năm qua, số độ đo (metrics) đề xuất để đánh giá hệ thống sửa lỗi, độ đo đề xuất để khắc phục điểm yếu độ đo trước Tuy nhiên, khơng có độ đo ưu việt Do đó, việc sử dụng chúng phụ thuộc vào mục tiêu nghiên cứu ứng dụng [22] Trong phạm vi đề tài luận văn, coi tác vụ sửa lỗi tả tác vụ dịch máy đơn ngơn ngữ (dịch từ văn sai tả sang văn tả) chúng tơi đánh giá hệ thống dựa phương pháp đánh giá chất lượng dịch phương pháp BLEU[26] Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch chuẩn dùng làm đối chiếu Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) [13] Phương pháp dựa hệ số tương quan dịch máy dịch xác thực người để đánh giá chất lượng hệ thống dịch Cơng thức để tính điểm đánh giá BLEU sau [26]: 𝑠𝑐𝑜𝑟𝑒 = 𝑒𝑥𝑝

Định dạng
Số trang	50
Dung lượng	2,22 MB