Nhận diện các tạp chí hiện đại của nhật bản bằng cách kết hợp học sâu và mô hình ngôn ngữ

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THIỆN NHÂN NHẬN DIỆN CÁC TẠP CHÍ HIỆN ĐẠI CỦA NHẬT BẢN BẰNG CÁCH KẾT HỢP HỌC SÂU VÀ MƠ HÌNH NGƠN NGỮ Chun ngành: Khoa học Máy tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 01 năm 2021 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Quản Thành Thơ Cán chấm nhận xét 1: GS TS Phan Thị Tươi Cán chấm nhận xét 2: PGS TS Nguyễn Thanh Hiên Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 22 tháng 01 năm 2021 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Dương Tuấn Anh TS Nguyễn Tiến Thịnh GS TS Phan Thị Tươi PGS TS Nguyễn Thanh Hiên TS Nguyễn Hồ Mẫn Rạng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH i ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thiện Nhân MSHV: 1970021 Ngày, tháng, năm sinh: 16/04/1996 Nơi sinh: Phú Yên Chuyên ngành: Khoa học Máy tính Mã số : 8.48.01.01 I TÊN ĐỀ TÀI: Nhận diện tạp chí đại nhật cách kết hợp học sâu mơ hình ngơn ngữ / Recognizing modern Japanese magazines by combining Deep Learning with language models II NHIỆM VỤ VÀ NỘI DUNG : Phát triển mơ hình ngơn ngữ dựa kỹ thuật học sâu cho tạp chí đại Nhật Bản để cải thiện tính xác OCR tại, đồng thời, kết hợp hai kết từ mô hình ngơn ngữ hệ thống OCR để đánh giá tính xác kết từ OCR III NGÀY GIAO NHIỆM VỤ : 21/09/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ : 03/01/2021 V CÁN BỘ HƯỚNG DẪN : PGS TS Quản Thành Thơ Tp HCM, ngày … tháng 02 năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MƠN ĐÀO TẠO TRƯỞNG KHOA ii LỜI CÁM ƠN Tơi xin trân trọng gửi lời biết ơn chân thành đến thầy PGS.TS Quản Thành Thơ, người trực tiếp dẫn dắt tận tình bảo động viên tơi trình thực đề tài Xin chân thành cảm ơn giảng Trí tuệ Nhân tạo Xử lý ngôn ngữ tự nhiên thầy giúp cho tơi mở mang thêm nhiều kiến thức hữu ích Đồng thời, thầy người cho lời khuyên vô quý giá kiến thức chuyên môn định hướng phát triển nghiệp Một lần nữa, xin gửi lời cảm ơn đến thầy tất lòng biết ơn Cảm ơn thầy kiến thức kinh nghiệm quý báu mà thầy truyền đạt, q vơ giá người thầy Tơi xin chân thành cảm ơn tất quý Thầy, Cô khoa tận tình giúp đở đề tơi hồn thành đề tài Tôi xin chân thành cảm ơn tất người thân gia đĩnh động viên trình thực đề tài Xin cảm ơn cơng lao ni dạy tình u thương Cha Mẹ người thân để tơi có hội ngày hôm Sau cùng, Tôi xin cảm ơn tất giúp đỡ anh, chị bạn học viên học chung với giúp tơi hồn thành đề tài luận văn Thạc sĩ này, góp ý cho tơi q trình thực luận văn iii TÓM TẮT LUẬN VĂN Là quốc gia có văn hóa phong phú giới, Nhật Bản có lịch sử phong phú tạp chí Trong tạp chí đại Nhật Bản xuất suốt kỷ XIX - XX, cách sử dụng tiếng Nhật tương tự phong cách ngôn ngữ Nhật Bản Tuy nhiên, hầu hết tài liệu khơng số hóa, lưu trữ dạng hình ảnh Do tầm quan trọng văn hóa, lịch sử chủ đề khoa học - xã hội khác Nhật Bản, vấn đề sử dụng máy tính để giúp nhận diện tạp chí đại dựa hình ảnh nghiên cứu phổ biến rộng rãi thông qua việc sử dụng phương pháp khác Học sâu (Deep Learning) Thị giác máy tính (Computer Vision) Tuy nhiên, phương pháp mơ hình hạn chế để đạt hiệu suất mạnh mẽ việc nhận diện hình ảnh chữ viết, đặc biệt ký tự Kanji không phổ biến Mục đích nghiên cứu phát triển mơ hình ngơn ngữ dựa học sâu tích hợp vào hệ thống nhận diện chữ viết cho tài liệu tạp chí đại Nhật Bản Để hệ thống nhận diện tự động trích xuất văn từ hình ảnh tạp chí đại Nhật Bản cách xác mục tiêu nghiên cứu này, tơi hướng đến đóng góp sau: - Phát triển mơ hình ngơn ngữ dựa kỹ thuật học sâu cho tạp chí đại Nhật Bản để cải thiện tính xác OCR Đề xuất chiến lược kết hợp OCR mô hình ngơn ngữ tơi Chiến lược tìm hiểu liệu hệ thống nên dựa vào OCR để xác định câu tiếng Nhật từ tạp chí đại (ví dụ: Hiragana ký tự kanji thông thường OCR nhận dạng xác) mơ hình ngơn ngữ (ký tự Kanji không phổ biến thường OCR nhận diện không xác, hệ thống nên dựa vào mơ hình ngơn ngữ) iv ABSTRACT As one of the most culturally rich countries in the world, Japan also has a rich history of magazines In modern Japanese magazines which were published during the centuries XIX - XX, the usage of Japanese is similar with the current style of the Japanese language However, most of those documents are not digitized, only stored as images Due to their importance to Japanese culture, history and other socioscientific topics, the problem of using computers to help identify these image-based modern magazines have been investigated from research and widely dissemined through the use of different methods in Deep Learning (Deep Learning) and Computer Vision (Computer Vision) However, these methods and models are still limited to achieve strong performance in recognizing handwriting images, especially uncommon Kanji characters The purpose of this research is to develop a deep learning-based language model and integrate it into the current OCR system for Japanese modern magazine documents To automatically extract texts from those images accurately is the goal of this research, of which I vision the contributions as follows - I develop a language model based deep learning techniques for modern Japanese magazines to improve the accuracy of the current OCR; I propose a combination strategy between the current OCR and our language model The strategy will learn where the system should rely on OCR (eg Hiragana and Common kanji characters recognized correctly by OCR) or language model (uncommon Kanji character are frequently recognized incorrectly by OCR, the system should rely on the language model) v LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Nếu không nêu trên, xin hoàn toàn chịu trách nhiệm đề tài Người cam đoan Nguyễn Thiện Nhân vi MỤC LỤC NHIỆM VỤ LUẬN VĂN THẠC SĨ i LỜI CÁM ƠN i TÓM TẮT LUẬN VĂN iii ABSTRACT OF THE THESIS iv LỜI CAM ĐOAN v MỤC LỤC vi DANH MỤC HÌNH ẢNH ix DANH MỤC BẢNG BIỂU xi I GIỚI THIỆU ĐỀ TÀI 1 Tổng quan Thách thức đề tài Mục tiêu nghiên cứu đề tài Giới hạn đối tượng nghiên cứu đề tài Đầu nghiên cứu II CÁC CƠNG TRÌNH LIÊN QUAN .5 III CƠ SỞ LÝ THUYẾT 10 OCR – Optical Character Recognition .10 1.1 Giới thiệu Tesseract OCR Engine 12 1.2 Cấu trúc Tesseract .13 1.3 Cơ chế hoạt động Tesseract .13 1.4 Một số thử nghiệm 15 Mơ hình ngơn ngữ 17 2.1 Tổng quan Mạng hồi quy RNN LSTM 17 2.2 Khái qt kỹ thuật Word2Vec mơ hình ngơn ngữ 18 vii BERT (Bidirectional Encoder Representations from Transformers) .19 3.1 Tổng quan 20 3.2 Tại cần dùng BERT 20 3.3 Ý tưởng cốt lõi BERT 21 3.4 Cơ chế hoạt động BERT 22 3.5 Cách sử dụng BERT theo hướng Fine-tuning 27 Thư viện Transformers Datasets Huggingface 29 4.1 Datasets 29 4.2 Transformers 30 IV PHƯƠNG PHÁP NGHIÊN CỨU 31 Phương pháp thu thập liệu .31 1.1 Trích xuất liệu tiếng Nhật từ kho liệu Aozora Bunko dạng văn (text) 31 1.2 Trích xuất liệu tiếng Nhật từ kho liệu Aozora Bunko dạng ngôn ngữ đánh dấu mở rộng (XML) 33 1.3 Tổng hợp liệu trích xuất từ hai kho liệu Aozora Bunko dạng text XML thành tập liệu lớn 34 1.4 Trích xuất liệu kết từ hệ thống OCR 36 1.5 Tạo từ điển cho mơ hình học sâu từ liệu văn .38 Phương pháp xây dựng mô hình học sâu 39 2.1 Xây dựng đánh nhãn (tokenizer) cho tiếng Nhật 40 2.2 Xây dựng mơ hình BERT cho nhiệm vụ điền từ bị che (Masked LM) 42 2.3 Thực trình huấn luyện (training) BERT cho liệu tiếng Nhật 44 Kết hợp kết từ mơ hình học sâu kết từ hệ thống OCR 44 3.1 Tính điểm câu việc sử dụng mơ hình BERT tiếng Nhật huấn luyện 44 viii 3.2 Kết hợp kết điểm câu tính từ mơ hình huấn luyện kết từ hệ thống OCR .48 V ĐÁNH GIÁ KẾT QUẢ NGHIÊN CỨU 51 Đánh giá kết thông số Word Error Rate 51 1.1 Giới thiệu Character Error Rate (CER) Character Accuracy (CAcc) 51 1.2 Đánh giá kết nghiên cứu với CER CAcc 52 1.3 So sánh kết đánh giá CER CAcc mơ hình BERT mơ hình ngơn ngữ LSTM 55 VI KẾT LUẬN 57 Tổng kết đề tài .57 Giới hạn nghiên cứu .58 TÀI LIỆU THAM KHẢO 59 PHẦN LÝ LỊCH TRÍCH NGANG 61 47 Tương tự, luận văn cho câu nhỏ đầu vào thứ hai vào mơ hình sinh điểm Từ điểm hai câu nhỏ trên, luận văn tính tổng điểm cho câu đầu vào ban đầu sau: Hình IV-21: Kết tính điểm cho câu đầu vào 48 3.2 Kết hợp kết điểm câu tính từ mơ hình huấn luyện kết từ hệ thống OCR 1) Mơ hình OCR có danh sách 10 kết điểm tốt câu đầu vào 2) Mơ hình BERT tiếng Nhật huấn luyện xây dựng danh sách 10 kết tính điểm lại (rescore) từ 10 kết OCR 3) Nếu câu kết từ OCR nhận diện kí tự, lấy điểm câu làm kết điểm cuối việc kết hợp mơ hình BERT OCR mà khơng cần phải đưa câu vào mơ hình BERT để tính điểm lại 4) Nếu câu kết từ OCR nhận diện kí tự, tiến hành đưa câu kết vào mơ hình để tính điểm lại, sau kết hợp hai kết từ hai mơ hình với tạo điểm cho câu tương ứng theo công thức sau: Hình IV-22: Cơng thức tính điểm câu tiếng Nhật cách kết hợp mơ hình BERT hệ thống OCR Trong scoreAM điểm từ OCR scoreLM điểm từ mơ hình BERT 𝜆 biến số thay đổi 5) Ta cho 𝜆 = [0.1, 0.2, … , 0.9] Với 𝜆, ta thu 10 kết từ dòng liệu đầu vào Từ 10 kết đó, ta chọn kết có điểm số cao đưa vào tập kết Như vậy, ta có tổng cộng tập kết từ việc kết hợp điểm từ mô hình BERT hệ thống OCR Ví dụ, tơi có 10 kết tốt dịng liệu hệ thống OCR sinh sau: 49 Hình IV-23: 10 kết tốt dòng liệu hệ thống OCR sinh Như ta thấy hình trên, sau tiêu đề dịng liệu điểm số mà hệ thống OCR sinh với kết mà đọc Từ đây, luận văn trích xuất câu kết đưa câu vào mơ hình BERT, với giá trị 𝜆 = [0.1, 0.2, … , 0.9] Như vậy, tơi thu kết tính điểm lại từ mơ hình BERT với câu đầu vào trên: Hình IV-24: Kết tính điểm lại mơ hình BERT từ 10 kết OCR 50 Sau đó, luận văn kết hợp điểm số mơ hình BERT điểm từ OCR theo công thức bước 4), với giá trị 𝜆 = [0.1, 0.2, … , 0.9] Ví dụ, với 𝜆 = 0.1, thu kết điểm sau: Hình IV-25: Kết điểm 10 câu từ việc kết hợp mơ hình BERT hệ thống OCR Từ kết trên, ta chọn kết tốt với điểm số cao từ việc kết hợp trên: Hình IV-26: Cách chọn kết tốt từ việc kết hợp hai mơ hình Tương tự với giá trị 𝜆 khác, thu tập kết gồm kết tốt từ việc kết hợp hai mơ hình BERT OCR với 51 V ĐÁNH GIÁ KẾT QUẢ NGHIÊN CỨU Đánh giá kết thông số Word Error Rate 1.1 Giới thiệu Character Error Rate (CER) Character Accuracy (CAcc) Tỷ lệ lỗi từ (Word Error Rate - WER) thước đo phổ biến hiệu suất, thường dùng hệ thống nhận dạng giọng nói (speech recognition) dịch máy (machine translation) Khó khăn chung việc đo lường hiệu suất thực tế nằm chuỗi từ cơng nhận có độ dài khác với chuỗi từ tham chiếu (được cho đúng) WER có nguồn gốc từ độ đo khoảng cách Levenshtein, hoạt động cấp độ từ thay cấp độ âm vị WER cơng cụ có giá trị để so sánh hệ thống khác để đánh giá cải tiến hệ thống Tuy nhiên, loại phép đo không cung cấp thông tin chi tiết chất lỗi dịch cần phải làm thêm để xác định (các) nguồn lỗi tập trung nỗ lực nghiên cứu Vấn đề giải cách chỉnh chuỗi từ nhận dạng trước tiên với chuỗi từ tham chiếu (nói) cách sử dụng chỉnh chuỗi động Việc kiểm tra vấn đề nhìn nhận thơng qua lý thuyết gọi quy luật quyền lực nêu mối tương quan khó hiểu tỷ lệ lỗi từ [17] Giống với WER, ta cịn có Character Error Rate (CER) Vì cơng trình nghiên cứu này, tơi quan tâm đến việc đánh giá mức kí tự, nên sử dụng CER thay WER CER tính theo cơng thức sau: Hình V-1: Cơng thức tính Character Error Rate (CER) Trong đó: 52 - S số lần kí tự thay (number of substitutions) - D số lần kí tự bị bỏ qua khỏi ghi (the number of deletions) - I số lần kí tự thêm vào ghi (the number of insertions) C số lần kí tự sửa lại (the number of correct - characters) N tổng số kí tự ghi (the number of characters) Tuy nhiên, cần quan sát độ xác mơ hình, cần sử dụng cơng thức đo độ xác sau thay tính CER: Hình V-2: Cơng thức tính CAcc từ CER 1.2 Đánh giá kết nghiên cứu với CER CAcc Trước đánh giá kết từ việc kết hợp mơ hình BERT hệ thống OCR, luận văn đánh giá tập kết tốt OCR so với tập kết thực tế (ground truth) từ bên phía đối tác Nhật Bản cung cấp mà họ nhận diện từ tạp chí đại từ kỷ XIX-XX Ở đây, OCR sinh 10 kết tốt cho dịng mà nhận diện được, sau luận văn tiến hành chọn kết có điểm số tốt từ chúng Khi đó, kết việc tính CER CAcc cho tập kết OCR so với tập ground truth sau: Hình V-3: Kết đánh giá CER CAcc cho OCR 53 Sau đó, để đánh giá kết chọn kết tốt mà luận văn lọc từ Chương IV phần mục 3.2, tơi có tập kết tương ứng với 𝜆 = [0.1, 0.2, … , 0.9], tập kết thực tế (ground truth) Sau đó, luận văn tiến hành tính kết việc tính CER CAcc cho tập kết so với tập ground truth Ví dụ, với 𝜆 = 0.1, tơi có kết sau: Hình V-4: Kết đánh giá CER với mơ hình kết hợp với 𝜆 = 0.1 Như vậy, ứng với 𝜆 = 0.1 ta có CER = 30.4% CAcc = 69.6% Tương tự, ta có bảng đánh giá CER CAcc theo 𝜆 = [0.1, 0.2, … , 0.9] sau: 𝜆 𝐶𝐸𝑅𝐵𝐸𝑅𝑇+𝑂𝐶𝑅 0.1 0.30425248649071973 0.2 0.30367817892291227 0.3 0.3034693398073459 0.4 0.30339102513900856 0.5 0.30322134335761086 0.6 0.3031691335787193 0.7 0.3031691335787193 0.8 0.3031560811339964 0.9 0.3031169237998277 𝐶𝐸𝑅𝑂𝐶𝑅 0.38425092019735296 Bảng V-1: Bảng so sánh CER kết hợp (BERT + OCR) dùng OCR cho 𝜆 54 𝜆 𝐶𝐴𝑐𝑐𝐵𝐸𝑅𝑇+𝑂𝐶𝑅 𝐶𝐴𝑐𝑐𝑂𝐶𝑅 0.1 0.6957475135092803 0.2 0.6963218210770877 0.3 0.6965306601926541 0.4 0.6966089748609914 0.5 0.6967786566423891 0.6 0.6968308664212808 0.7 0.6968308664212808 0.8 0.6968439188660036 0.9 0.6968830762001723 0.615749079802647 Bảng V-2: Bảng so sánh CAcc kết hợp (BERT + OCR) dùng OCR cho 𝜆 Theo đánh giá trên, thấy 𝜆 = 0.9 cho kết CAcc tốt (độ xác 69.69%) Từ kết bảng V-2, so sánh bảng giá trị CAcc cho 𝜆 kết từ OCR, tơi thấy kết hợp mơ hình BERT vào hệ thống OCR, kết CAcc cải thiện rõ rệt bảng sau: 𝜆 𝐶𝐴𝑐𝑐𝐵𝐸𝑅𝑇+𝑂𝐶𝑅 − 𝐶𝐴𝑐𝑐𝑂𝐶𝑅 0.1 0.07999843370663329 0.2 0.0805727412744407 0.3 0.08078158039000705 0.4 0.08085989505834434 55 0.5 0.0810295768397421 0.6 0.08108178661863374 0.7 0.08108178661863374 0.8 0.08109483906335657 0.9 0.08113399639752528 Bảng V-3: Bảng giá trị mức độ cải thiện CAcc kết hợp mơ hình BERT hệ thống OCR Theo bảng trên, mơ hình BERT giúp hệ thống OCR cải thiện CAcc lên khoảng 8% 1.3 So sánh kết đánh giá CER CAcc mô hình BERT mơ hình ngơn ngữ LSTM Ở đây, tơi chọn mơ hình ngơn ngữ LSTM mức kí tự để đưa kết đánh giá CER CAcc từ việc kết hợp mơ hình với OCR, từ tơi so sánh kết mơ hình BERT LSTM Với việc sử dụng mơ hình LSTM tính điểm kết tốt từ OCR qua việc nhận diện từ tạp chí đại Nhật Bản kỷ XIX – XX, sau tơi tiến hành đánh giá CER CAcc theo bước mơ hình BERT trên, tơi thu kết so sánh CER CAcc BERT LSTM bảng sau: 𝜆 𝐶𝐸𝑅𝐵𝐸𝑅𝑇+𝑂𝐶𝑅 𝐶𝐸𝑅𝐿𝑆𝑇𝑀+𝑂𝐶𝑅 0.1 0.30425248649071973 0.3649855117863576 0.2 0.30367817892291227 0.34962278434750826 0.3 0.3034693398073459 0.32978306836870547 0.4 0.30339102513900856 0.32379199624089594 0.5 0.30322134335761086 0.32266948599472683 56 0.6 0.3031691335787193 0.3208682486229671 0.7 0.3031691335787193 0.3123711071083614 0.8 0.3031560811339964 0.30494426606103325 0.9 0.3031169237998277 0.3042394340459968 Bảng V-4: Kết so sánh CER mơ hình BERT mơ hình LSTM kết hợp mơ hình OCR 𝜆 𝐶𝐴𝑐𝑐𝐵𝐸𝑅𝑇+𝑂𝐶𝑅 𝐶𝐴𝑐𝑐𝐿𝑆𝑇𝑀+𝑂𝐶𝑅 0.1 0.6957475135092803 0.6350144882136424 0.2 0.6963218210770877 0.6503772156524917 0.3 0.6965306601926541 0.6702169316312945 0.4 0.6966089748609914 0.6762080037591041 0.5 0.6967786566423891 0.6773305140052732 0.6 0.6968308664212808 0.679131751377033 0.7 0.6968308664212808 0.6876288928916385 0.8 0.6968439188660036 0.6950557339389667 0.9 0.6968830762001723 0.6957605659540032 Bảng V-5: Kết so sánh CAcc mơ hình BERT mơ hình LSTM kết hợp mơ hình OCR Từ bảng trên, ta thấy kết CAcc mơ hình BERT lẫn LSTM tốt 𝜆 = 0.9 (BERT 69.69% LSTM 69.58%) Như vậy, việc kết hợp mơ hình BERT với OCR tốt chút so với việc kết hợp mơ hình LSTM với OCR 57 VI KẾT LUẬN Tổng kết đề tài Trong nghiên cứu này, thực mơ hình đánh giá khả nhận diện hệ thống OCR với tạp chí đại Nhật Bản, xuất rộng rãi Nhật Bản suốt kỷ 19-20 Những tài liệu nắm bắt nhiều tài nguyên quý giá cho nhà sử học Tuy nhiên, hầu hết số chúng khơng số hóa, tức chúng lưu trữ dạng hình ảnh Để tự động trích xuất văn từ hình ảnh cách xác mục tiêu nghiên cứu này, luận văn hướng đến phương pháp sau: - Thu thập liệu từ Kho liệu Aozora Bunko kỹ thuật trích xuất văn từ văn thông thường văn XML, để thực cho việc xây dựng mơ hình ngơn ngữ tiếng Nhật - Phát triển mơ hình BERT dựa kỹ thuật học sâu cho tạp chí đại Nhật Bản để đánh giá tính điểm kết tốt sinh từ hệ thống OCR - Hiện thực chiến lược kết hợp tính điểm câu, từ việc câu nhận diện OCR sau đưa câu vào mơ hình BERT tơi để tính điểm lại câu Chiến lược cho phép đánh giá xem hệ thống nên dựa vào kết từ OCR (ví dụ: Hiragana ký tự kanji thông thường OCR nhận dạng xác) từ mơ hình BERT (ký tự Kanji không phổ biến thường OCR nhận khơng xác, hệ thống nên dựa vào mơ hình ngôn ngữ), phải kết hợp hai - Đánh giá tỉ lệ lỗi kí tự (CER) từ việc so sánh kết với tập kết cung cấp từ bên đối tác Nhật Bản Sau hồn thành phần luận văn, tơi tạo hệ thống nhận diện với kiến trúc kết hợp từ hệ thống OCR mô hình BERT dựa phương pháp học sâu đưa kết khả quan sát với thực tế mục tiêu đề cho hệ thống 58 Giới hạn nghiên cứu Mặc dù thành công việc xây dựng mơ hình BERT kết hợp với hệ thống OCR để đưa đánh giá tốt cho kết nhận diện từ tạp chí đại Nhật Bản từ kỷ 19-20, mơ hình tơi cịn số hạn chế việc huấn luyện liệu Cụ thể, Kho liệu Aozora Bunko lớn, với việc giới hạn thời gian cơng cụ tính tốn mạnh mẽ, đưa tất liệu từ Aozora Bunko vào để huấn luyện mà sử dụng phần Vì thế, nói mơ hình khơng thể đạt độ xác cao dự đoán đánh giá Đề xuất hướng mở rộng đề tài Kết mà đề tài đạt khả quan, nhiên xem xét số hướng phát triển đề tài tương lai như: - - - Xây dựng mơ hình BERT sửa lỗi tiếng Nhật việc huấn luyện liệu cụm từ tiếng Nhật có nghĩa để vừa đánh giá kết từ hệ thống OCR, vừa sửa lỗi cho kết Phát triển hệ thống OCR để chuyển đổi tạp chí đại Nhật Bản thành văn bản, có hiệu suất tốt hệ thống OCR Xây dựng hệ thống dịch máy dịch kí tự Kanji từ tạp chí đại Nhật Bản sang văn tiếng Nhật đại 59 TÀI LIỆU THAM KHẢO [1] C Olah “Understanding lstm networks.” Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, Oct 25, 2020 [2] D Britz (2015) “Recurrent neural networks tutorial, part – introduction to rnns,” Internet: http://www.wildml.com/2015/09/recurrentneural- networkstutorial part-1-introduction-to-rnns/, Oct 18, 2020 [3] A Rosebrock (2020) “Tesseract OCR: Text localization and detection” Internet: https://www.pyimagesearch.com/2020/05/25/tesseract-ocr-textlocalization-and-detection/, Aug 18, 2020 [4] R Horev (2018) “BERT Explained: State of the art language model for NLP” Internet: https://towardsdatascience.com/bert-explained-state-of-theart-language-model-for-nlp-f8b21a9b6270, Sep 25, 2020 [5] T Pawar (2017) “Language modeling using Recurrent Neural Networks Part - 1” Internet: https://medium.com/praemineo/language-modelingusing-recurrent-neural-networks-part-1-427b165576c2 Sep 25, 2020 [6] E Arisoy, A Sethy, B Ramabhadran, and S Chen (2015) “Bidirectional recurrent neural network language models for automatic speech recognition” In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5421-5425 IEEE, 2015 [7] J Devlin, C Ming-Wei, K Lee, & K Toutanova (2019) “BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding” arXiv:1810.04805 [8] J Shin, Y Lee, & K Jung (2019) “Effective Sentence Scoring Method Using BERT for Speech Recognition” Proceedings of The Eleventh Asian Conference on Machine Learning, PMLR 101:1081-1093, 2019 [9] M Peters, M Neumann, L Zettlemoyer, Y Wen-tau (2018) “Dissecting Contextual Word Embeddings: Architecture and Representation” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing 60 [10] Y Kitagawa, M Komachi (2018) “Long Short-Term Memory for Japanese Word Segmentation” arXiv:1709.08011 [11] C Basich (2016) “Optical Character Recognition of Japanese Text” Internet: https://web.stanford.edu/class/cs231a/prev_projects_2016/egpaper_final%2 0.pdf , Oct 18, 2020 [12] T Mikolov, M Karafiat, L Burget, J Cernocky, & S Khudanpur (2010) “Recurrent neural network-based language model” In Eleventh annual conference of the international speech communication association, 2010 [13] R Smith (2007) “An Overview of the Tesseract OCR Engine” ICDAR '07: Proceedings of the Ninth International Conference on Document Analysis and Recognition, September 2007, pages 622-633 [14] K Jing, J Xu (2019) “A Survey on Neural Network Language Models” arXiv: 1906.03591 [15] T Mikolov, K Chen, G Corrado, J Dean (2013) “Efficient Estimation of Word Representations in Vector Space” arXiv: 1301.3781 [16] C Wang, M Li, A J Smola (2019) “Language Models with Transformers” arXiv: 1904.09408 [17] M Popovic, H Ney (2007) “Word Error Rates” DOI: 10.3115/1626355.1626362 [18] From Huggingface team “Transformer” https://huggingface.co/transformers/, Sep 20, 2020 Internet: [19] From Huggingface team “BERT” Internet: https://huggingface.co/transformers/model_doc/bert.html/, Oct 8, 2020 [20] From Huggingface team “Datasets” https://huggingface.co/docs/datasets/, Oct 8, 2020 Internet: [21] From github cl-tohoku “Pretrained Japanese BERT models” Internet: https://github.com/cl-tohoku/bert-japanese, Oct 8, 2020 [22] Y Kawazoe, D Shibata, E Shinohara, E Aramaki, K Ohe (2020) “A clinical specific BERT developed with huge size of Japanese clinical narrative” DOI: 10.1101/2020.07.07.20148585 61 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên khai sinh: NGUYỄN THIỆN NHÂN Sinh ngày: 16 tháng năm 1996 Nơi sinh: TP Tuy Hòa, tỉnh Phú Yên Nơi nay: chung cư Jamona City, 772 Đào Trí, phường Phú Thuận, quận 7, TP HCM Nghề nghiệp nay: Lập trình viên Q TRÌNH ĐÀO TẠO Trường Đại học Bách Khoa TP HCM – Sinh viên khoa KH & KT Máy tính (khóa 2014 – 2018) Trường Đại học Bách Khoa TP HCM – Học viên cao học Khoa học Máy tính (khóa 2019 – nay) Q TRÌNH CƠNG TÁC Tháng 4/2018 – Tháng 4/2019: Cơng ty ELCA Việt Nam Tháng 4/2019 – nay: Công ty Cổ phần iSciLab Việt Nam ... phong phú tạp chí Trong tạp chí đại Nhật Bản xuất suốt kỷ XIX - XX, cách sử dụng tiếng Nhật tương tự phong cách ngôn ngữ Nhật Bản Tuy nhiên, hầu hết tài liệu khơng số hóa, lưu trữ dạng hình ảnh... hóa Nhật Bản 3 Mục đích nghiên cứu phát triển mơ hình ngơn ngữ dựa học tập sâu tích hợp vào hệ thống OCR cho tài liệu tạp chí đại Nhật Bản Sự kết hợp thúc đẩy lý sau đây: - Hiện tại, liệu hình. .. I TÊN ĐỀ TÀI: Nhận diện tạp chí đại nhật cách kết hợp học sâu mơ hình ngôn ngữ / Recognizing modern Japanese magazines by combining Deep Learning with language models II NHIỆM VỤ VÀ NỘI DUNG :

Định dạng
Số trang	74
Dung lượng	2,03 MB