Kết hợp học sâu và mô hình ngôn ngữ để nhận dạng chữ viết tiếng việt từ hình ảnh

75 74 3
Kết hợp học sâu và mô hình ngôn ngữ để nhận dạng chữ viết tiếng việt từ hình ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN ĐÌNH DUY KẾT HỢP HỌC SÂU VÀ MƠ HÌNH NGƠN NGỮ ĐỂ NHẬN DẠNG CHỮ VIẾT TIẾNG VIỆT TỪ HÌNH ẢNH Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 01 năm 2021 i CƠNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hƣớng dẫn khoa học : PGS.TS QUẢN THÀNH THƠ Cán chấm nhận xét : GS.TS PHAN THỊ TƢƠI Cán chấm nhận xét 2: PGS.TS NGUYỄN THANH HIÊN Luận văn sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 22 tháng 01 năm 2021 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: PGS.TS DƢƠNG TUẤN ANH Thƣ ký hội đồng: TS NGUYỄN TIẾN THỊNH Ủy viên phản biện 1: GS.TS PHAN THỊ TƢƠI Ủy viên phản biện 2: PGS.TS NGUYỄN THANH HIÊN Ủy viên hội đồng: TS NGUYỄN HỒ MẪN RẠNG Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA KHMT PGS.TS DƢƠNG TUẤN ANH ii ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÕA Xà HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Đình Duy MSHV: 1870563 Ngày, tháng, năm sinh: 16/06/1993 Nơi sinh: TP.HCM Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 I TÊN ĐỀ TÀI: Kết hợp học sâu mơn hình ngơn ngữ để nhận dạng chữ viết tiếng Viết từ hình ảnh / Combine deep learning and language model to identify Vietnamese writing from images II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu kỹ thuật học sâu mơ hình ngơn ngữ để đề xuất mơ hình sửa lỗi tả cách hiệu cho chữ viết tiếng Việt Ứng dụng vào thực nghiệm cho việc sửa lỗi tả từ điển tiếng Việt đánh giá hiệu mơ hình đề xuất III NGÀY GIAO NHIỆM VỤ: 21/09/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 31/12/2020 V CÁN BỘ HƢỚNG DẪN: PGS.TS Quản Thành Thơ Tp HCM, ngày … tháng 02 năm 2021 CÁN BỘ HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƢỞNG KHOA….……… (Họ tên chữ ký) iii LỜI CÁM ƠN Để hoàn thành đƣợc đề tài luận văn thạc sĩ này, tơi xin bày tỏ cảm kích đặc biệt nhƣ lời cảm ơn chân thành đến ngƣời thầy tôi, PGS.TS Quản Thành Thơ, ngƣời định hƣớng, trực tiếp dìu dắt tận tình bảo cho tơi suốt q trình thực Xin chân thành cảm ơn giảng, buổi thảo luận tƣ phƣơng pháp thực giúp tơi có đƣợc thêm nhiều kiến thức q giá việc hoàn thành tốt luận văn Đồng thời, thầy ngƣời cho lời khuyên vô quý giá kiến thức chuyên mơn mà cịn tận tâm q trình giảng dạy Một lần nữa, xin gửi lời cảm ơn đến thầy tất lòng biết ơn Tơi xin chân thành cảm ơn q Thầy Cơ Khoa Khoa Học Máy Tính – Trƣờng Đại Học Bách Khoa TP.HCM với tri thức tâm huyết để truyền đạt kiến thức quý báu cho học viên cao học nhƣ suốt thời gian học tập nghiên cứu Sau cùng, tơi xin cảm ơn gia đình, anh chị, bạn bè, bạn học viên, ngƣời giúp đỡ, hỗ trợ tơi nhƣ góp ý cho tơi q trình thực hồn thành đề tài luận văn thạc sĩ iv TÓM TẮT LUẬN VĂN THẠC SĨ Ngày loại sách báo, tƣ liệu cần đƣợc lƣu trữ dƣới dạng văn số phổ biến Qua thời gian chất lƣợng văn in giấy nhƣng văn số không bị hỏng Việc khôi phục lại thông tin đƣợc lƣu trữ dƣới dạng hình ảnh, điển hình từ từ điển Tiếng Việt mang đến tầm quan tiếng Việt lƣu giữ bảo tồn chúng dƣới dạng văn số Tuy nhiên việc chuyển đổi lúc mang đến xác tuyệt đối, điều dẫn đến xuất lỗi sai tả văn số làm cho kết không đạt nhƣ mong muốn Mục đích nghiên cứu thực hậu xử lý cho trình nhằm cải tiến chất lƣợng cho văn số đầu từ bƣớc chuyển đổi Trong phạm vi luận án, thực cách tiếp cận sau :  Thực chuyển đổi thơng tin từ hình ảnh sang văn số dƣới định dạng phù hợp gồm mục từ thân từ nhƣ từ điển gốc  Xây dựng sửa lỗi dựa mơ hình ngơn ngữ mức kí tự nhằm sửa lỗi tả cho tiếng Việt Mở rộng thêm với phƣơng thức nhằm tăng cƣờng khả sửa lỗi cho mơ hình  Đề xuất chiến lƣợc cho mơ hình ngơn ngữ việc đánh giá kí tự nguyên âm lỗi sai nhằm phù hợp với thực tế tốn Bên cạnh đó, dùng kĩ thuật nghiệm suy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết tốt Kết thực nghiệm cho thấy mơ hình đề xuất mang tính ứng dụng cao giúp cải thiện chất lƣợng cho kết thu đƣợc từ việc chuyển đổi hình ảnh sang văn từ điển Tiếng Việt Sau luận văn đƣa hƣớng mở rộng cho đề tài phát triển mơ hình nhằm đạt kết tốt sử dụng vào nghiên cứu khác liên quan đến sửa lỗi tả tiếng Việt v ABSTRACT Nowadays, many types of books, newspapers and documents that need to be archived in digital documents are very popular Over time the quality of printed documents will deteriorate, but digital documents will not deteriorate Recovering information stored in images, typically from a Vietnamese dictionary, brings importance to Vietnamese as it is possible to store and preserve them in digital text format However, this conversion does not always bring absolute accuracy, which leads to misspellings in digital documents, which make the results not as expected The purpose of this study is to post-processing stage for the above process to improve the quality of digital text output from the conversion step In the scope of the thesis, I take the following approaches:  Convert information from images to digital text in a suitable format including entries and word bodies like the original dictionary  Building a character-based language model to correct spelling mistakes for Vietnamese Extend with methods to increase perfomance for the model  Proposing a strategy for language model in evaluating vowel characters in error in order to match the reality of the problem Besides, using heuristic techniques to complement the error correction to bring the best results The experimental results show that the proposed model is highly applicable when it helps to improve the quality of the results obtained from converting images into text in Vietnamese dictionary Finally, the thesis gives an extension to the topic when it is possible to develop this model to get better results or use it in other studies related to correct Vietnamese spelling errors vi LỜI CAM ĐOAN Tôi xin cam đoan luận văn đề tài “Kết hợp học sâu mơ hình ngơn ngữ để nhận dạng chữ viết tiếng Việt từ hình ảnh” cơng trình nghiên cứu cá nhân tơi thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng chƣa đƣợc cơng bố dƣới hình thức Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu Ngƣời cam đoan Nguyễn Đình Duy vii MỤC LỤC Danh mục hình ảnh Danh mục bảng biểu x xii MỞ ĐẦU 1.1 Giới thiệu đề tài 1.2 Mục tiêu phạm vi đề tài 1.2.1 Mục tiêu 1.2.2 Phạm vi đề tài .2 1.3 Tính ứng dụng đề tài 1.4 Cấu trúc luận văn .4 TỔNG QUAN 2.1 Các cơng trình liên quan 2.2 Thách thức toán .6 2.3 Hƣớng giải .6 CƠ SỞ LÝ THUYẾT 3.1 Tổng quan Tesseract .8 3.2 Mạng nơ-ron hồi quy (RNN) 12 3.3 LSTM 18 3.4 Mơ hình ngơn ngữ - Language model .21 3.5 Các thuật tốn dị tìm hỗ trợ 25 3.5.1 Khoảng cách Levenshtein 25 3.5.2 Cây tìm kiếm Trie .26 HIỆN THỰC MƠ HÌNH 29 4.1 Thu thập liệu 29 4.2 Xây dựng mơ hình ngơn ngữ mức kí tự .30 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 41 5.1 Thực OCR 41 5.2 Đặc điểm lỗi 43 5.3 Hƣớng tiếp cận 46 5.3.1 Dùng mơ hình ngơn ngữ với phƣơng pháp hỗ trợ 46 5.3.2 Dùng thuận tốn dị tìm cho lỗi mục từ thân từ 51 5.4 Đánh giá kết 56 viii 5.5 Một số hạn chế mô hình 58 KẾT LUẬN VÀ KIẾN NGHỊ HƢỚNG MỞ RỘNG ĐỀ TÀI 59 6.1 Kết luận 59 6.2 Hƣớng mở rộng đề tài 59 Danh mục tài liệu tham khảo 61 ix Danh mục hình ảnh Hình 1.1: Trang bìa Từ điển Tiếng Việt – Hồng Phê chủ biên Hình 3.1: OCR tờ giấy cũ chuyển đổi sang văn số Hình 3.2: Quá trình OCR (Optical Character Recognition process) Hình 3.3: Kiến trúc Tesseract OCR 11 Hình 3.4: Mơ hình mạng Neural Network thông thƣờng 12 Hình 3.5: Kiến trúc mạng RNN .13 Hình 3.6: One-to-one RNN .14 Hình 3.7: One-to-many RNN 14 Hình 3.8: Many-to-one RNN 15 Hình 3.9: Many-to-many RNN loại .15 Hình 3.10: Many-to-many RNN loại .16 Hình 3.11: Kiến trúc LSTM .18 Hình 3.12: LSTM – cổng forget 19 Hình 3.13: LSTM – cổng input lớp 20 Hình 3.14: LSTM – cập nhật trạng thái tế bào (cell state) 20 Hình 3.15: LSTM – lớp output 20 Hình 3.16: Hình ảnh tìm kiếm Google 21 Hình 3.17: Mơ hình mạng one-to-many RNN 23 Hình 3.18: Mơ hình đơn giản thể ý tƣởng huấn luyện LM với RNN .24 Hình 3.19: Cấu trúc liệu trie 27 Hình 4.1: Mơ hình Học Sâu (Deep Learning) sử dụng cho NLP 30 Hình 4.2: Kiến trúc mơ hình ngơn ngữ mức kí tự đƣợc xây dựng 32 Hình 4.3: Xác suất xuất kí tự phƣơng pháp sửa thơng thƣờng 33 Hình 4.4: Các bƣớc kiểm tra phát lỗi phƣơng pháp thông thƣờng 34 Hình 4.5: Kết sửa lỗi với phƣơng pháp sửa thơng thƣờng 34 Hình 4.6: Sơ đồ sửa lỗi phƣơng pháp thông thƣờng .35 Hình 4.7: Kết sửa lỗi tăng cƣờng với phƣơng pháp N-lookahead .37 Hình 4.8: Sơ đồ sửa lỗi tăng cƣờng với phƣơng pháp N-lookahead .38 x  Tính xác suất cho kí tự xác suất look-ahead thêm kí tự sau kí tự (trong trƣờng hợp khơng có kí tự sau thay khoảng trắng) - Ví dụ 1: kim loại quy - Đầu vào cho mơ hình sửa lỗi: “kim loại quy” - Tổ hợp ứng với nguyên âm “y” : [y, ý, ỳ, ỷ, ỹ, ỵ] - Tính xác suất lần lƣợt cho nguyên âm xác suất với lookahead khoảng trắng - Chọn xác suất cao để thay Giả sử xác suất với kí tự “ý” cao thay từ sai thành kết : “kim loại quý” - Ví dụ 2: lắp trục mây - Đầu vào cho mơ hình sửa lỗi: “lắp trục mây” - Tổ hợp ứng với nguyên âm “â” : [a, ă, â, à, á, ã, ả, ạ, ắ, ằ, ẵ, ẳ, ặ, ấ, ầ, ẫ, ẩ, ậ] - Tính xác suất lần lƣợt cho nguyên âm xác suất với lookahead kí tự “y” sau - Chọn xác suất cao để thay Giả sử xác suất với kí tự “á” cao thay từ sai thành kết : “lắp trục máy” Trƣờng hợp : từ có ngun âm  Tìm tổ hợp ứng với ngun âm để đƣa vào language model  Tính xác suất cho kí tự look-ahead thêm kí tự sau kí tự (trong trƣờng hợp khơng có kí tự sau thay khoảng trắng) - Ví dụ 1: mỏng hinh trịn - Input : “tấm mỏng hinh tròn” - Tổ hợp ứng với ngun âm “i” : [i, í, ì, ỉ, ĩ, ị] - Tính xác suất lần lƣợt cho nguyên âm xác suất với lookahead kí tự „”n” sau - Chọn xác suất cao để thay Giả sử xác suất với kí tự “ì” cao thay từ sai thành kết : “tấm mỏng hình trịn” 49 - Ví dụ 2: Tạp - Input : “tạp chỉ” - Tổ hợp ứng với ngun âm “ỉ” : [i, í, ì, ỉ, ĩ, ị] - Tính xác suất lần lƣợt cho nguyên âm xác suất với lookahead khoảng trắng sau - Chọn xác suất cao để thay Giả sử xác suất với kí tự “í” cao thay từ sai thành kết : “tạp chí” Trƣờng hợp : từ có ngun âm ngun âm khơng “y” “i”  Ƣu tiên tìm nguyên âm chứa dấu trƣớc xử lý tổ hợp nguyên âm (dựa vào danh sách nguyên âm chứa dấu -diacritic nhƣ bảng 5.4)  Trƣờng hợp khơng có ngun âm chứa dấu tìm nguyên âm thuộc danh sách nguyên âm chứa dấu phụ [ă, â, ê, ô, ơ, ƣ] xử lý tổ hợp ngun âm  Nếu khơng rơi vào trƣờng hợp mà gặp trƣờng hợp âm tiết kết thúc nằm danh sách sau : [oa, oe] xử lý nguyên âm nguyên âm đó, khơng nằm trƣờng hợp xét tiếp trƣờng hợp sau: nguyên âm “a” xử lý tổ hợp nguyên âm “a”  Tính xác suất cho kí tự look-ahead thêm kí tự sau kí tự (trong trƣờng hợp khơng có kí tự sau thay khoảng trắng) Thứ tự Kí tự Tổ hợp kí tự nguyên âm chứa dấu a {á, à, ả, ã, ạ, ắ, ằ, ẳ, ẵ, ặ, ấ, ầ, ẩ, ẫ, ậ} e {é, è, ẻ, ẽ, ẹ, ế, ề, ể, ễ, ệ} i {í, ì, ỉ, ĩ, ị} o {ó, ị, ỏ, õ, ọ, ố, ồ, ổ, ỗ, ộ, ớ, ờ, ở, ỡ, ợ} u {ú, ù, ủ, ũ, ụ, ứ, ừ, ử, ữ, ự} y {ý, ỳ, ỷ, ỹ, ỵ} Bảng 5.4: Bảng kí tự nguyên âm chứa dấu tổ hợp ứng với kí tự 50 Trƣờng hợp 5: từ có ngun âm  Tìm nguyên âm chứa dấu trƣớc xử lý tổ hợp ngun âm  Trƣờng hợp khơng có ngun âm chứa dấu tìm ngun âm thuộc danh sách nguyên âm có dấu phụ [ă, â, ê, ô, ơ, ƣ] xử lý tổ hợp nguyên âm  Nếu khơng rơi vào trƣờng hợp xử lý nguyên âm “a” xử lý tổ hợp nguyên âm “a”  Tính xác suất cho kí tự look-ahead thêm kí tự sau kí tự (trong trƣờng hợp khơng có kí tự sau thay khoảng trắng) 5.3.2 Dùng thuận tốn dị tìm cho lỗi mục từ thân từ Nhận xét thấy việc sửa lỗi cho thân từ phần việc sửa lỗi cho mục từ chiếm phần quan trọng trong đề tài Tiếp theo, sử dụng phƣơng pháp sửa lỗi dựa mơ hình ngơn ngữ khơng đạt hiệu cao lƣợng từ mục từ ngắn (thông thƣờng rơi vào từ đứng riêng lẻ hai, ba từ), điều làm độ dài chuỗi kí tự q ngắn, khơng đủ để giúp việc dự đoán hoạt động tốt (độ dài q ngắn để mơ hình dự đốn xác) Nhƣ phần này, tơi xin trình bày số thuật tốn dị tìm bổ sung để phù hợp với dạng lỗi gặp phải Đối với lỗi mục từ, tơi đề xuất phƣơng pháp dị tìm dựa mục từ xung quanh mục từ xuất lỗi tả Ngồi ra, tơi cịn thực dị tìm từ bên ngồi trƣờng hợp dị mục từ xung quanh không khả thi Ở phần lỗi thân từ, tơi đề xuất thêm phƣơng pháp dị tìm từ mục từ ứng với thân từ chứa lỗi suy nghiệm cho loại lỗi bị Xóa khoảng trắng (thuộc lỗi Lớp 3) 5.3.2.1 Dị tìm cho lỗi mục từ Đối với lỗi mục từ, xây dựng Trie tổng hợp mục từ trích xuất đƣợc từ từ điển khác từ điển Tiếng Việt – tác giả Nguyễn Kim Thản Tự Điển Việt Nam – Ban Tu Thƣ Khai Trí Việc từ điển Tiếng Việt dẫn đến xuất mục từ có phần tƣơng 51 đồng Điều giúp tơi sử dụng kĩ thuật dị tìm bên ngồi (cross-check) để thực sửa lỗi tả cho từ điển Hồng Phê thực Quá trình sửa lỗi đƣợc thực nhƣ sau : Bƣớc 1: Scan file docx cần sửa, nhận diện chữ tô đỏ lƣu vào DataFrame ứng với cột :  Index : index chứa dòng liệu ứng với mục từ  Mục_từ : chứa mục từ  Lỗi_mục từ : chứa từ sai tơ đỏ (nếu có mục từ) Index Mục_từ Lỗi_mục_từ ban ngữ ban bát: nhạc bát: quán … … … Bảng 5.5: Xử lý lƣu văn cần sửa vào DataFrame để sửa lỗi phần mục từ Bƣớc 2: Tiền xử lý file XML từ điển Nguyễn Kim Thản Khai Trí để trích xuất mục từ Sau xây dựng Trie tìm kiếm (lƣu hết mục từ vào) dùng để thực kiểm tra chéo (cross-check) nhằm tìm kiếm mục từ để sửa lỗi Hình 5.8: Trích xuất mục từ file XML để thực việc kiểm tra chéo Bƣớc 3: Xử lý sửa lỗi ứng với dòng chứa lỗi mục từ Phân trƣờng hợp : mục từ chứa từ mục từ >= từ a) Mục từ chứa từ: (ví dụ : bằng) 52  So sánh dòng chứa mục từ lỗi với mục từ dịng trƣớc mục từ dịng sau (mục từ sau phải mục từ không sai)  Nếu mục từ trƣớc sau giống => thay mục từ sai thành mục từ dòng  Trong trƣờng hợp mục từ trƣớc sau khác dùng kĩ thuật suy nghiệm (heuristic) để đoán cho trƣờng hợp thay mục từ sai thành mục từ dịng dƣới Một ví dụ bên dƣới cho thấy kĩ thuật suy nghiệm dị đƣợc mục từ sai “bảng” sửa lại thành “bàng” thông qua việc mục từ sai từ nên từ khởi đầu cho mục từ sau Index … 15 16 17 … Mục_từ … bang tá bảng bàng bạc …  Ngƣợc lại, dùng kiểm tra chéo (cross-check) từ Trie tìm kiếm với hiệu chỉnh khoảng cách (edit distance) = để tìm từ thay cho mục từ sai b) Mục từ chứa >= từ: chia làm loại Loại - Từ đầu sai, từ sau (ví dụ : ban ngữ)  Dị từ sai với mục từ dƣới (mục từ sau phải mục từ không sai)  Nếu mục từ trƣớc sau giống => thay mục từ sai thành mục từ  Ngƣợc lại, dùng kiểm tra chéo (cross-check) từ Trie tìm kiếm với hiệu chỉnh khoảng cách (edit distance) = để tìm từ thay cho mục từ sai Loại - Từ đầu đúng, từ sau sai (ví dụ : bán tổng táng)  Dùng dùng kiểm tra chéo (cross-check) từ Trie tìm kiếm với hiệu chỉnh khoảng cách (edit distance) = n (với n ứng với số từ tô đỏ mục từ) 53 chọn kết hiệu chỉnh khoảng cách nhỏ để tìm từ thay cho mục từ sai  Trƣờng hợp dùng kiểm tra chéo (cross-check) mà xuất nhiều ứng viên cho việc thay lần lƣợt kiểm tra bƣớc : kiểm tra từ kiểm tra từ sai o Ví dụ 1: tìm kiếm mục từ “báo thủ” kết : “báo thù” “bảo thủ” o Qua bƣớc kiểm tra từ (“báo”) => chọn từ “báo thù” để sửa lỗi o Ví dụ : tìm kiếm mục từ “bão tổ” kết : “bão tổ”, “bão từ”, “bão tố” o Bƣớc kiểm tra từ (“bão”) vƣợt qua => chuyển qua bƣớc kiểm tra từ sai “tổ” – dùng suy nghiệm (heuristic) đốn kí tự sai ngun âm tìm tổ hợp giống phần thân từ o Từ “từ” (trong “bão từ”) : xét kí tự “ừ” thuộc tổ hợp “u” ứng với tổ hợp 54 o Từ “tổ” (trong “bão tổ”) : xét kí tự “ổ” thuộc tổ hợp “o” ứng với tổ hợp nó, tổ hợp “o” với mục từ sai (“bão tổ”) => chọn từ “bão tố” để sửa lỗi Loại - Tồn sai (ví dụ : bảng qua:g)  Dò từ đầu sai (bảng) với từ đầu mục từ từ đầu mục từ  Nếu mục từ trước sau giống => thay mục từ sai thành mục từ  Sau sửa từ đầu (ví dụ : bàng qua:g) đem kiểm tra chéo (crosscheck) với hiệu chỉnh khoảng cách (edit distance) nhỏ để tìm từ thay (logic giống với phần cross-check Loại 2)  Ngược lại không thay từ đầu mục từ sai cross-check chọn edit distance nhỏ để tìm từ thay 5.3.2.2 Dị tìm cho lỗi thân từ a) Xử lý lỗi hợp (Merge) – thuộc loại lỗi Với trƣờng hợp tổng số kí tự âm tiết lớn kí tự trƣờng hợp lỗi bị nhập vào Tơi thực dị từ kí tự thứ ba trở đi, gặp kí tự nguyên âm kí tự trƣớc phụ âm xét: phụ âm trƣớc nguyên âm vừa gặp không nằm danh sách phụ âm ghép chuẩn [ch, kh, gh, ng, ngh, nh, ph, th, tr] thực thêm khoảng trắng vào từ bị ghép sai Ví dụ :  Hồiniệm => hồi niệm  Nhữngbạn => bạn  Chiếntranh => chiến tranh  … 55 b) Xử lý dò lỗi thân từ so với mục từ Khi quan sát tập liệu đánh giá, nhận thấy số lỗi xuất phần thân từ đƣợc sửa thơng qua phần dò từ mục từ Điều hợp lý số câu phần thân từ mang tính chất giải thích ý nghĩa cho từ mục từ, từ mục từ xuất lại thân từ nên xuất lỗi sai mà lại ứng trƣờng hợp dùng suy nghiệm dị tìm để sửa  Ví dụ 1: sắc danh từ Màu sắc, tính chất riêng tạo thành đặc điểm Ban sắc dân tóc  tìm vị trí từ lỗi “Ban sắc”, thực so sánh từ dò với mục từ, edit_distance=1 thay từ sai “Ban” thành “Bản”  Ví dụ 2: thảo danh từ Văn soạn để đưa đánh máy đưa ín Bản thdo cơng  tìm vị trí từ lỗi “Bản thdo”, thực so sánh từ dò với mục từ, edit_distance=1 thay từ sai “thdo” thành “thảo” 5.4 Đánh giá kết Sau kết đánh giá thực tập liệu có chứa kết thực tế (label) Đối với định dạng cấu trúc từ điển bao gồm mục từ phần cịn lại thân từ, tơi tổng hợp lại kết tập đánh giá Mục đích đánh giá đƣợc kết tổng quát dựa việc phân loại lỗi thành loại lỗi chính: lỗi mục từ lỗi thân từ Loại lỗi Mục từ Thân từ Số lỗi 67 679 Số lỗi sửa 60 286 Độ xác 89.55% 42.12% Bảng 5.6: Bảng thống kê kết dựa phân loại thành mục từ thân từ 56 Tiếp theo, sâu vào chi tiết kết việc phân loại lỗi thành lỗi mục từ lỗi thân từ tập liệu đánh giá để xem xét việc chọn ngẫu nhiên tập đánh giá có mang lại kết q tƣơng đồng khơng loại lỗi Tập đánh giá Số mục từ 50 100 150 Loại lỗi Số lỗi Mục từ Thân từ Mục từ Thân từ Mục từ Thân từ 13 147 19 213 35 319 Số lỗi sửa 11 68 18 86 31 132 Độ xác 84.62% 46.26% 94.74% 40.38% 88.57% 41.38% Bảng 5.7: Bảng thống kê kết chi tiết tập đánh giá phân loại thành mục từ thân từ Nhận xét: phƣơng pháp sửa lỗi dùng cho lỗi mục từ mang lại kết cao với tập đánh giá (độ xác 84%) Riêng mơ hình sửa lỗi cho lỗi thân từ tăng số mục từ lên, đồng nghĩa tăng số lỗi nhiều độ xác có giảm đôi chút nhƣng giữ kết 40% Đối với mơ hình sửa lỗi đánh giá kí tự ngun âm tơi, nhƣ trình bày trƣớc tập trung vào loại lỗi Lớp Lớp 2, sau kết mơ hình đánh giá loại lỗi thân từ mà không xét loại lỗi Lớp 3: Tập đánh giá Tổng cộng Số lỗi 116 179 249 544 Số lỗi sửa 64 82 126 272 Độ xác 55.17% 45.81% 50.60% 50.00% Bảng 5.8: Bảng thống kê kết chi tiết lỗi thân từ không xét lỗi Lớp Tƣơng tự, mơ hình đánh giá kí tự ngun âm để sửa lỗi dựa việc thay kí tự nên tiếp tục đánh giá kết áp dụng mơ hình sửa lỗi tập trung vào tốn tử T ế thuộc Lớp Lớp 2: 57 Tập đánh giá Tổng cộng Số lỗi 113 167 238 518 Số lỗi sửa 68 83 130 281 Độ xác 60.18% 49.70% 54.62% 54.25% Bảng 5.9: Bảng thống kê kết chi tiết cho toán tử Thay lỗi thân từ Nhận xét: mơ hình đề xuất cho việc sửa lỗi thân từ mang lại kết có độ xác trung bình 50% trở lên Do hƣớng tiếp cận mơ hình khơng dùng để sửa loại lỗi Lớp nên độ xác tăng lên gần 8% so với ban đầu đánh giá chung Nếu xét loại lỗi tốn tử Thay gây độ xác mơ hình tiếp tục cải thiện lên 12% (từ 41.38% ban đầu lên thành 54.25%) tập đánh giá Ngoài ra, việc dùng phƣơng pháp nghiệm suy cho lỗi bị hợp (merge) thuộc lỗi Lớp mang lại kết độ xác đạt 60% Tuy nhiên, cần nhiều liệu để đánh giá gặp 15 trƣờng hợp tồn tập đánh giá Loại lỗi Hợp Số lỗi 15 Số lỗi sửa Độ xác 60.00% Bảng 5.10: Bảng thống kê kết loại lỗi hợp 5.5 Một số hạn chế mơ hình Với kết nhƣ trên, mơ hình cịn số hạn chế việc nâng cao chất lƣợng văn số đầu bƣớc hậu xử lý nhƣ:  Ngoại trừ trƣờng hợp tính xác suất kí tự “d” ”đ” mơ hình chƣa giải cách tổng quát cho trƣờng hợp gặp lỗi sai phụ âm  Gặp lỗi sai nhiều toán tử lỗi nhƣ Thay thế, Thay chèn, Xóa Thay Thế, chí phức tạp  Việc xử lý lỗi Lớp thách thức cách dùng mơ hình kí tự khó hoạt động hiệu 58 KẾT LUẬN VÀ KIẾN NGHỊ HƢỚNG MỞ RỘNG ĐỀ TÀI 6.1 Kết luận Trong nghiên cứu đề tài này, thực đƣợc việc xây dựng mơ hình sửa lỗi cho tiếng Việt thông qua việc áp dụng kĩ thuật Học Sâu (Deep Learning) kết hợp với mơ hình ngơn ngữ Dựa ý tƣởng từ mơ hình này, áp dụng thêm nhiều phƣơng pháp bổ trợ với sáng tạo cá nhân nhằm mang tính phù hợp đạt hiệu tốt cho việc sửa lỗi tả từ điển Tiếng Việt Hồng Phê Việc thực nghiệm sửa lỗi từ điển mang tính ứng dụng cao góp phần lƣu giữ bảo tồn văn số cho từ ngữ tiếng Việt nhƣ góp phần làm nên nghiên cứu đại vào ngơn ngữ quốc gia Thơng q giúp tơi thêm tự hào hiểu sâu sắc phong phú tiếng Việt Tuy chƣa đem lại hiệu suất tốt thời gian thực đề tài lần này, nhƣng với kết có hƣớng tiếp cận mang tính khả thi việc phát triển khả sửa lỗi nhằm giúp chất lƣợng từ điển số đầu đạt đƣợc kết tốt Ngồi ra, mơ hình sửa lỗi ứng dụng vào mục đích khác Xử Lý Ngôn Ngữ Tự Nhiên nhƣ tóm tắt văn bản, nhận diện giọng nói, dịch máy, … 6.2 Hƣớng mở rộng đề tài Ngồi cơng việc đƣợc thực mơ hình đề xuất, tin hƣớng mở rộng sau đem lại kết đầy hứa hẹn cho nghiên cứu tƣơng lai: 59  Mơ hình sửa lỗi kết hợp thêm với mơ hình ngơn ngữ mức từ để tạo nhiều trƣờng hợp ứng viên nhằm tối ƣu việc sửa lỗi tả cho tiếng Việt  Cách tiếp cận đánh giá kí tự nguyên âm xây dựng tổng quát hơn, chẳng hạn nhƣ có nhiều trƣờng hợp xử lý kết hợp với đánh giá phụ âm để cải thiện độ xác cho từ điển  Mở rộng tính học thuật sửa lỗi hồn tồn dùng cho tốn liên quan nhƣ sửa lỗi tả cho tài liệu sách báo khác, đề tài Xử Lý Ngơn Ngữ Tự Nhiên nhƣ nhận diện giọng nói, tóm tắt văn bản, dịch máy …  Mở rộng tính ứng dụng sau sửa đƣợc từ điển này, lấy làm liệu huấn luyện để sửa cho từ điển khác có tính tƣơng đồng mặt ngữ nghĩa câu cú 60 Danh mục tài liệu tham khảo [1] T Pham, X Pham and P Le-Hong (2017) “On the use of machine translation-based approaches for vietnamese diacritic restoration,” 2017 International Conference on Asian Language Processing (IALP), Singapore, pp 272-275 [2] P H Nguyen, T D Ngo, D A Phan, T P T Dinh and T Q Huynh (2008) "Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics," 2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies, pp 96-102 [3] V Tran, K Nguyen and D Bui (2016) “A Vietnamese language model based on Recurrent Neural Network,” 2016 Eighth International Conference on Knowledge and Systems Engineering (KSE), Hanoi , pp 274-278 [4] Wikipedia, “Optical character recognition.” Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct 18, 2020 [5] F Zelic, A Sable “A comprehensive guide to OCR with Tesseract, OpenCV and Python.” Internet: https://nanonets.com/blog/ocr-withtesseract/, Oct 20, 2020 [6] Boiangiu, Costin-Anton & Ioanitescu, Radu & Dragomir, Razvan-Costin (2016) VOTING-BASED OCR SYSTEM Journal of Information Systems & Operations Management 10 470-486 [7] D Britz “Recurrent neural networks tutorial, part – introduction to rnns.” Internet: http://www.wildml.com/2015/09/recurrent-neural-networkstutorial- part-1-introduction-to-rnns/, Nov 12, 2020 [8] S Amidi “Recurrent neural networks cheatsheet.” Internet: https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neuralnetworks, Nov 14, 2020 [9] T Mikolov, S Kombrink, L Burget, J Černocký and S Khudanpur, "Extensions of recurrent neural network language model," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing 61 (ICASSP), Prague, 2011, 10.1109/ICASSP.2011.5947611 pp 5528-5531, [10] C Olah “Understanding lstm networks.” http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020 doi: Internet: Dec 20, [11] M Collins, "Language Modeling," in COURSE NOTES FOR NLP, pp 19 [12] A See “Language Models and Recurrent Neural Networks.” Internet: https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture06rnnlm.pdf, Nov 18, 2020 [13] T Mikolov, M Karafiat, L Burget, J Cernocky, and S Khudanpur (2010) “Recurrent neural network based language model,” in INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, pp 1045–1048 [14] Wikipedia “Levenshtein distance.” Internet: https://en.wikipedia.org/wiki/Levenshtein_distance, Dec 20, 2020 [15] Wikipedia 20,2020 “Trie.” Internet: https://en.wikipedia.org/wiki/Trie, Dec [16] U.Griffo “A Mixed Trie and Levenshtein distance implementation in Java for extremely fast prefix string searching and string similarity.” Internet: https://github.com/umbertogriffo/Trie [17] Steve Hanov, “Fast and Easy Levenshtein distance using a Trie” Internet: http://stevehanov.ca/blog/index.php?id=114, Dec 20, 2020 [18] Keras, “About Keras.” Internet: https://keras.io/about/, Dec 25, 2020 [19] R Pascanu, C Gulcehre, K Cho, and Y Bengio (2013) “How to construct deep recurrent neural networks,” CoRR, vol abs/1312.6026 [20] Gomez-Perez J.M., Denaux R., Garcia-Silva A (2020) Understanding Word Embeddings and Language Models In: A Practical Guide to Hybrid Natural Language Processing Springer, Cham https://doi.org/10.1007/978-3-030-44830-1_3 62 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: NGUYỄN ĐÌNH DUY Sinh ngày: 16/06/1993 Nơi sinh: TP HCM Địa liên lạc: 8H‟ Cƣ xá Rạch Ông, Phƣờng 2, Quận 8, TP.HCM Q TRÌNH ĐÀO TẠO Trƣờng Học viện Cơng nghệ Bƣu Viễn thơng sở TP HCM – Sinh viên ngành Điện tử viễn thơng (khóa 2011 – 2016) Trƣờng Đại học Bách Khoa TP HCM – Học viên Cao học khoa Khoa học Máy tính (khóa 2018 – nay) Q TRÌNH CƠNG TÁC Tháng 5/2016 – Tháng 3/2018: Công ty TNHH Điện tử Samsung HCMC CE Complex Tháng 12/2018 – Tháng 4/2019: Công ty TNHH Komit Tháng 07/2019 – Tháng 11/2019: Công ty TNHH JA Việt Nam 63 ... công việc cho từ điển tiếng Việt chủ đề đáng đƣợc quan tâm, qua tìm hiểu nghiên cứu tơi xin thực đề tài : Kết hợp học sâu mơ hình ngơn ngữ để nhận dạng chữ viết tiếng Việt từ hình ảnh Đề tài tìm... luận văn đề tài ? ?Kết hợp học sâu mơ hình ngôn ngữ để nhận dạng chữ viết tiếng Việt từ hình ảnh? ?? cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu... Nơi sinh: TP.HCM Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 I TÊN ĐỀ TÀI: Kết hợp học sâu mơn hình ngơn ngữ để nhận dạng chữ viết tiếng Viết từ hình ảnh / Combine deep learning and language

Ngày đăng: 08/05/2021, 15:45

Tài liệu cùng người dùng

Tài liệu liên quan