Ứng dụng mô hình ngôn ngữ cho bài toán nhận dạng chữ viết tay

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ————————————— Nguyễn Thái Bình ỨNG DỤNG MƠ HÌNH NGƠN NGỮ CHO BÀI TỐN NHẬN DẠNG CHỮ VIẾT TAY Chuyên ngành: Khoa học liệu LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC DỮ LIỆU NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Bình Minh HÀ NỘI - 2019 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Thái Bình Đề tài luận văn: Ứng dụng mơ hình ngơn ngữ cho tốn nhận dạng chữ viết tay Chuyên ngành: Khoa học liệu Mã số SV: CB180056 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 26/10/2019 với nội dung sau: Bổ sung phân tích kết quả, thời gian thực thi (Chương 6, trang 75): “Hình 6.2 số mẫu liệu tiến hành kiểm thử Bảng 6.5 kết đầu mơ hình nhận dạng Nhìn chung, kết tốt thuộc mơ hình có kết hợp mơ hình ngơn ngữ Lấy ví dụ mẫu liệu e, ký tự ‘a’ bị nhận nhầm ‘à’ sử dụng mơ hình CRNN, mơ hình nhận dạng khơng dấu sửa lại thành có dấu tượng khơng cịn Kết cửa mơ hình OCRLMPipeline mơ hình OCRLMJoint mẫu d thể thành phần mơ hình ngơn ngữ mơ hình OCRLMPipeline có tính chất suy diễn chuyển từ ‘Bình Thuận’ sang ‘Bình Phước’ Ví dụ c cho thấy mơ hình OCRLMJoint hoạt động tốt đưa hai số ‘0’.” “Bảng 6.5 so sánh kết thực thi mơ hình tồn tập liệu kiểm thử Thời gian chạy tiến hành đo đạc hai thiết bị phần cứng CPU (2.9 GHz Intel Core i9) GPU (GTX 2080 Ti) Bảng kết cho thấy mơ hình OCRLMJoint có tốc độ thực thi nhanh mơ hình OCRLMPipeline có thời gian chạy lâu phải kết hợp chạy hai mô hình con.” SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 Trình bày thêm nghiên cứu liên quan tới nhận dạng tiếng Việt Nhận dạng chữ viết tay tiếng Việt bước đầu có quan tâm Hướng tiếp cận chủ yếu rời rạc hoá ký tự tiến hành nhận dạng ký tự đơn lẻ Việc phân tách ký tự nghiên cứu với đề xuất Van cộng sự, 2015 [34] dựa đặc trưng độ dốc, cấu trúc độ lõm hình ảnh ký tự để phân tách hiệu Nghiên cứu Pham-Van cộng sự, 2014 [28] thực nhận dạng ký tự tiếng Việt rời rạc Với ký tự sau phân tách phân loại sơ việc đếm thành phần liên thơng ảnh Sau sử dụng đặc trưng wavelet Haar tạo thành 256 đặc trưng sử dụng phân loại SVM để tiến hành gán nhãn chi tiết Hiệu chỉnh lỗi soạn thảo: Vị trí Lỗi Sau chỉnh sửa Trang 37 dòng 11, 12, 13 label nhãn Trang 37 dòng 11 training set Dữ liệu huấn luyện Trang 37 dòng 12 test data Điểm liệu kiểm thử Trang 37 dòng 14, 21 test Kiểm thử Trang 24 dòng 17 Đại diện từ Biểu diễn từ Trang 44 ground truth Nhãn thực tế Trang 24 Word embedding Đại diện từ Ngày 04 tháng 11 năm 2019 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 Lời cam đoan Tơi - Nguyễn Thái Bình - cam kết luận văn cơng trình nghiên cứu thân tôi, hướng dẫn TS Nguyễn Bình Minh Các kết cơng bố báo cáo trung thực, chép cá nhân, tổ chức cơng bố khác Tất trích dẫn tham chiếu rõ ràng Ngày tháng 11 năm 2019 Tác giả luận văn: Xác nhận người hướng dẫn Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thơng tin Truyền Thơng Chính thầy giáo trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Đồng thời em xin gửi lời cảm ơn đặc biệt đến TS Nguyễn Bình Minh Các thầy người dẫn tận tình, cho em kinh nghiệm q báu để em hồn thành luận văn tốt nghiệp Thầy cô động viên, giúp đỡ em thời điểm khó khăn Em xin gửi lời cảm ơn tới gia đình bạn bè Lời động viên tinh thần từ gia đình bạn bè ln động lực để em tiến lên phía trước Học viên: Nguyễn Thái Bình, CB180056, khố 2018B, lớp 18B.KHDL.KH Tóm tắt nội dung Việc số hoá liệu mục tiêu quan trọng nhiều ngành nghề lĩnh vực, Một điểm làm hạn chế việc số hố hồn tốn việc nhận dạng chữ viết tay Đã có nhiều nghiên cứu toán tới việc nhận dạng chữ viết tay nhiều vấn đề khó giải quyết, phần người có phong cách viết khác nên chữ viết tay đa dạng, phần khác vấn đề mặt liệu, việc thu thập chữ viết tay gán nhãn điều gặp nhiều khó khăn đặc biệt với ngơn ngữ phổ biến tiếng Việt Luận văn trình bày đề tài nghiên cứu nhận dạng chữ viết tay tiếng Việt Luận văn đưa thành tựu bật lĩnh vực này, tổng hợp nghiên cứu liên quan, điểm khó khăn tốn nhận dạng chữ viết tay nói chung chữ viết tay tiếng Việt nói riêng Từ đề xuất hướng nghiên cứu cho tốn giúp cải thiện độ xác nhận dạng Do khơng có liệu chuẩn, nghiên cứu tập trung vào việc tiến hành thu thập, xây dựng tập liệu chữ viết tay tiếng Việt, thực nghiên cứu, đề xuất giải pháp giúp làm tăng chất lượng nhận dạng cách áp dụng mơ hình ngơn ngữ vào nhận dạng chữ viết tay Mục lục Lời cam đoan Lời cảm ơn Tóm tắt nội dung Danh sách hình vẽ Danh sách bảng Tổng quan 12 1.1 Động lực nghiên cứu 12 1.2 Mục tiêu nghiên cứu 14 1.3 Đóng góp nghiên cứu 14 1.4 Cấu trúc luận văn 15 Cơ sở lý thuyết 16 2.1 Học máy 16 2.2 Mạng neural 21 2.3 Thị giác máy tính 26 2.4 Xử lý ngôn ngữ tự nhiên 32 Các nghiên cứu liên quan 3.1 36 Nhận dạng ký tự đơn lẻ 36 3.2 Nhận dạng chuỗi ký tự 39 3.3 Connectionist Temporal Classification (CTC) 43 3.4 Mơ hình ngơn ngữ 45 3.5 Mô hình ngơn ngữ có điều kiện 49 3.6 Mô hình transformer 52 Dữ liệu chữ viết tay 57 4.1 Thu thập liệu chữ viết tay 57 4.2 Tạo chữ viết tay từ font 58 4.3 Các phương pháp tăng cường liệu 59 Mơ hình đề xuất 61 5.1 Vấn đề cần giải 61 5.2 Mơ hình ghép nối (OCRLMPipeline) 62 5.3 Mơ hình kết hợp (OCRLMJoint) 65 Thử nghiệm đánh giá 68 6.1 Dữ liệu kiểm thử 68 6.2 Cài đặt kiểm thử 69 6.3 Kết thử nghiệm đánh giá 72 Kết luận 76 Danh sách hình vẽ 2.1 Multilayer perceptron 21 2.2 Kiến trúc CNN cho toán nhận dạng thực thể thị giác máy tính 27 2.3 Ứng dụng nhân chập để làm mờ ảnh 28 2.4 Ứng dụng nhân chập để phát cạnh 28 2.5 Một số ứng dụng phép nhân chập 28 2.6 Minh họa hoạt động phép nhân chập 29 2.7 Minh họa hoạt động max pooling layer 31 3.1 Các ví dụ từ tập MNIST test 36 3.2 Kiến trúc mơ hình CRNN đề xuất Shi cộng sự, 2016 [31] 41 3.3 Ánh xạ phần ảnh đầu vào sang vector đặc trưng 42 3.4 Kết hợp CTC với mạng neural toán OCR 43 3.5 Gán nhãn ảnh theo không gian 44 3.6 Kết hợp CTC với mạng neural toán OCR 45 3.7 Kiến trúc mơ hình Window-base language model 48 3.8 Kiến trúc mơ hình RNN language model 50 3.9 Kiến trúc mơ hình Encoder - Decoder 51 3.10 Kiến trúc mơ hình Transformer 53 3.11 Scale Dot-Product Attention 54 3.12 Multi-head attention 54 4.1 Mẫu liệu ảnh chữ viết tay địa Việt Nam 57 4.2 Mẫu liệu ảnh chữ viết tay sinh từ font 58 4.3 Tăng cường liệu phép biến đổi Skewing 59 4.4 Tăng cường liệu phép biến đổi Distortion 59 4.5 Tăng cường liệu phép biến đổi Blurring 60 4.6 Tăng cường liệu cách thay đổi 60 4.7 Mẫu liệu chữ viết tay sinh từ cách ghép từ đơn 60 5.1 Mơ hình CRNN đề xuất Wang cộng 63 5.2 Mơ hình sequence to sequence 63 5.3 Kết hợp mơ hình nhận dạng ký tự quang học với mơ hình dịch 63 5.4 Kiến trúc mơ hình OCRLMJoint 65 6.1 Thống kê số lượng ký tự nhãn liệu 69 6.2 Một số mẫu liệu kiểm thử 74 thêm thao tác ngẫu nhiên thêm ký tự, xoá ký tự hay thay ký tự ký tự khác, tạo thành tương ứng 200.000 câu đầu vào để huấn luyện cho mơ hình Seq2Seq Thống kê tập liệu chữ viết tay bao gồm 100.000 mẫu Số lượng ký tự nhãn mẫu liệu chủ yếu rơi vào khoảng từ 25 tới 150 ký tự thể hình 6.1 17500 15000 T n su t 12500 10000 7500 5000 2500 25 50 75 100 125 S l ng ký t 150 175 200 Hình 6.1: Thống kê số lượng ký tự nhãn liệu Ảnh đầu vào thu thập có kích thước đa dạng, trình tiền xử lý chuẩn hố tồn ảnh kích thước width 1280 pixel, height 60 pixel, số lượng kênh màu giữ nguyên Q trình chuẩn hố kích thước đưa ảnh gốc vào khung 1280 × 60 chỉnh cho chiều rộng cao khít với khung ảnh 6.2 Cài đặt kiểm thử Để đánh giá độ hiệu mơ hình nhận dạng, nghiên cứu thực đo đạc hai thang đo Character Error Rate (CER) Word Error Rate (WER) Cơng thức tính hai thang đo tương tự 6.1 A B hai chuỗi Levenshtein cơng thức tính số lượng phép thay đổi để biến chuỗi sang chuỗi khác Các phép thay đổi bao gồm xoá phần tử, thêm phần tử thay phần tử khác 69 len phép lấy số lượng phần tử chuỗi Khi tính CER A B chuỗi ký tự, với WER, A B chuỗi từ ERRORA,B = Levenshtein(A, B) max(len(A), len(B)) (6.1) Thực ngiệm tiến hành mơ hình Mơ hình thứ CRNN có kiến trúc bảng 6.1, mơ hình thứ hai mơ hình dạng chuỗi (OCRLMPipeline) mô tả phần 5.2 kết hợp mơ hình CRNN mơ hình Seq2Seq dạng pipeline Mơ hình thứ ba mơ hình kết hợp (OCRLMJoint) mơ tả phần 5.3 mơ hình ghép nối CRNN phần Decoder sử dụng Transformer Ba kiến trúc sử dụng phần Encoder CRNN, phần thực nghiệm muốn chứng minh tính hiệu việc sử dụng mơ hình ngơn ngữ để nâng cao chất lượng nhận dạng, không tập trung vào việc đề xuất mô hình trích chọn đặc trưng cho ảnh đầu vào nên bỏ qua không thực nghiệm kiến trúc khác nghiên cứu trước cho phần Kiến trúc mơ hình Seq2Seq mơ hình OCRLMPipeline tiến hành thực nghiệm sau: Phần Encoder có cell Bidirection-LSTM, số lượng tầng ẩn 2, kích thước tầng ẩn 512, kích thước embedding ký tự 512 Phần Decoder sử dụng cell unidirection-LSTM, tương tự kích thước tầng ẩn kích thước embedding ký tự 512 Kết nối Encoder Decoder sử dụng Luong Attention Q trình infer sử dụng beam search có kích thước 20 Việc triển khai kiến trúc Seq2Seq sử dụng framework Tensorflow NMT [23] Kiến trúc phần Transformer Decoder mơ hình OCRLMJoint gồm có kích thước embedding ký tự 512, số lượng tầng ẩn 4, số lượng head Quá trình huấn luyện sử dụng Adam làm thuật toán tối ưu 70 Tầng Thông số CTC Decoder Beam search Bidirectional-LSTM #hidden units:512 Bidirectional-LSTM #hidden units:512 Map-to-Sequence - Convolution8 #maps:512, k:2 x 2, s:2 x 1, p:0 MaxPooling Window:1 x 2, s:2 x BatchNormalization - Convolution7 #maps:512, k:2 x 2, s:2 x 1, p:0 MaxPooling Window:1 x 2, s:2 BatchNormalization - Convolution6 #maps:512, k:3 x 3, s:1, p:1 BatchNormalization - Convolution5 #maps:512, k:3 x 3, s:1, p:1 MaxPooling Window:1 x 2, s:2 BatchNormalization - Convolution4 #maps:256, k:3 x 3, s:1, p:1 BatchNormalization - Convolution3 #maps:256, k:3 x 3, s:1, p:1 MaxPooling Window:2 x 2, s:2 Convolution2 #maps:128, k:3 x 3, s:1, p:1 MaxPooling Window:2 x 2, s:2 Convolution1 #maps:60, k:3 x 3, s:1, p:1 Input 60 x 1280 x images Bảng 6.1: Kiến trúc thực nghiệm mơ hình CRNN 71 6.3 Kết thử nghiệm đánh giá Bảng 6.4 đưa kết so sánh mơ hình nhận dạng Kết cho thấy việc áp dụng mơ hình ngôn ngữ cho việc nhận dạng mang lại kết khả quan So sánh mơ hình CRNN với OCRLMPipeline, lỗi mức ký tự cải thiện gần 5%, độ lỗi mức WER cải thiện đáng kể, 10% lỗi giảm thiểu, điều chứng tỏ mơ hình ngơn ngữ hoạt động tốt Mơ hình CER WER CRNN 14.98% 25.95% OCRLMPipeline 10.04% 15.03% OCRLMJoint 7.34% 11.92% Bảng 6.2: So sánh lỗi nhận dạng mơ hình Giữa mơ hình ghép nối OCRLMPipeline mơ hình kết hợp OCRLMJoint, độ lỗi cải thiện tốt mức 3% cho CER 3% cho mức WER Thay đổi hai mơ hình chủ yếu đến từ việc ghép nối, OCRLMPipeline truyền sang mơ hình ngơn ngữ tập ký tự CRNN dự đoán, OCRLMJoint truyền sang ma trận trọng số đại diện cho ký tự có khả xuất ảnh đầu vào, kết hợp lý mơ hình ngơn ngữ có nhiều hội để dự đoán kết đầu cách xác Trong phần 5.1 có đưa giả thuyết theo đặc trưng tiếng Việt có thêm điệu số dấu mũ, dẫn tới việc nhận dạng khó nhận dạng ký tự không dấu mơ hình ngơn ngữ chỉnh lại thành kết đem lại độ xác cao Kết bảng 6.4 chứng minh phần giả thuyết mà mơ hình CRNN nhận dạng trực tiếp nhãn ảnh đầu vào, hai mơ hình OCRLMPipeline OCRLMJoint phần CRNN nhận dạng ký tự khơng dấu để phần mơ hình ngôn ngữ chỉnh sửa lại Để khẳng định giả thuyết chắn Thực nghiệm tiến hành đo khả nhận dạng ký tự có dấu không dấu tập liệu 72 Mô hình CRNN huấn luyện phía nhận dạng tiếng Việt có dấu, truyền vào tập valid, kết chạy qua hàm bỏ dấu Mô hình OCRLMPipeline tách phần CRNN tiến hành nhận dạng tập liệu valid Phần CRNN mơ hình OCRLMPipeline theo thiết kế output ký tự khơng dấu Kết hai mơ hình sau tính lỗi với nhãn thực bỏ dấu theo hai thang đo CER WER Kết thể bảng 6.3 Mơ hình CER WER CRNN 12.12% 22.23% CRNN (OCRLMPipeline) 11.24% 18.03% Bảng 6.3: So sánh lỗi nhận dạng tiếng Việt không dấu Kết cho thấy việc nhận dạng tiếng Việt không dấu cho kết tốt nhận dạng trực tiếp có dấu độ lỗi mức ký tự giảm 1% mức từ 5% Điều thêm phần khảng định giả thuyết đưa phần 5.1 Để đánh giá ảnh hưởng mơ hình ngơn ngữ tới việc nhận dạng Một thực nghiệm tiến hành Thực nghiệm tiến hành bỏ tất dấu đầu CRNN hai mơ hình OCRLMPipeline OCRLMJoint so sánh với nhãn bỏ dấu Kết thể ảnh hưởng mơ hình ngơn ngữ tới việc sửa lỗi cho mơ hình nhận dạng Mơ hình CER WER CRNN 12.12% 22.23% OCRLMPipeline 9.14% 14.32% OCRLMJoint 7.04% 11.03% Bảng 6.4: So sánh ảnh hưởng mơ hình ngơn ngữ tới độ lỗi mơ hình Kết cho thấy, mơ hình ngơn ngữ thêm vào giúp sửa lỗi tốt cho mơ hình nhận dạng 3% - 5% cho mức ký tự 8% - 10% cho mức từ Hình 6.2 số mẫu liệu tiến hành kiểm thử Bảng 6.6 kết đầu 73 Mơ hình GPU (s/ảnh) CPU (s/ảnh) CRNN 0.09 2.72 OCRLMPipeline 0.12 2.96 OCRLMJoint 0.072 2.16 Bảng 6.5: So sánh thời gian chạy mơ hình thực liệu test Hình 6.2: Một số mẫu liệu kiểm thử mơ hình nhận dạng Nhìn chung, kết tốt thuộc mơ hình có kết hợp mơ hình ngơn ngữ Lấy ví dụ mẫu liệu e, ký tự ‘a’ bị nhận nhầm ‘à’ sử dụng mơ hình CRNN, mơ hình nhận dạng khơng dấu sửa lại thành có dấu tượng khơng cịn Kết cửa mơ hình OCRLMPipeline mơ hình OCRLMJoint mẫu d thể thành phần mơ hình ngơn ngữ mơ hình OCRLMPipeline có tính chất suy diễn chuyển từ ‘Bình Thuận’ sang ‘Bình Phước’ Ví dụ c cho thấy mơ hình OCRLMJoint hoạt động tốt đưa hai số ‘0’ Bảng 6.5 so sánh kết thực thi mơ hình toàn tập liệu kiểm thử Thời gian chạy tiến hành đo đạc hai thiết bị phần cứng CPU (2.9 GHz Intel Core i9) GPU (GTX 2080 Ti) Bảng kết cho thấy mô hình OCRLMJoint có tốc độ thực thi nhanh mơ hình OCRLMPipeline có thời gian chạy lâu phải kết hợp chạy hai mơ hình 74 Mẫu Mơ hình CRNN a Kết ố 70 đường Nguyễn Xí, Phường 26, Quận Bình Thạnh, TP Hồ Chí Mi CRNN (OCRLMPipeline) lo 70, duong nguyen bi, phuong 26, quan binh thinh, ho chi OCRLMPipeline Lô 70, đường Nguyễn Bí, Phường 26, Quận Bình Thạnh, TP Hồ Chí Minh OCRLMJoint Số 70, đường Nguyễn Xí, Phường 26, Quận Bình Thạnh, Thà phố Hồ Chí CRNN b CRNN (OCRLMPipeline) d van trang 1, huyen an cao, hai phong OCRLMPipeline Văn Tràng 1, Huyện An Châu, Hải Phòng OCRLMJoint Văn Tràng 1, Huyện An Lão, Hải Phòng CRNN c Văn Tràngg 1, Huyện An Lão, Hải Phơng CRNN (OCRLMPipeline) 20 Nguyễn Tri Phương, Phường 04, Quận 10, TP Hồ Chí Minh 20 nguyen tri phuong, phuong 04, quan 10, ho chi minh OCRLMPipeline 20 Nguyễn Tri Phương, Phường 04, Quận 10, TP Hồ Chí Minh OCRLMJoint 200 Nguyễn Tri Phương, Phường 04, Quận 10, TP Hồ Chí Minh CRNN Số 276 Ngô Quyền, Hu Phố 3, Phường Tân An, Thị Xã La 6i, Bình Tuận CRNN (OCRLMPipeline) so 176 ngo quyen, khu 3, phuong tan a, thi xa l i, binh huan OCRLMPipeline Số 176 Ngô Quyền, Khu phố 3, Phường Tân An, Thị xã La Gi, Bình Phước OCRLMJoint Số 276 Ngô Quyền, Khu phố 3, Phường Tân An, Thị Xã La Gi, Bình Thuận CRNN e 116 Công Chúá Ngọc Hân, Phường 12, Quận 11, Thành phố Hồ Chí Minh CRNN (OCRLMPipeline) 116 cong chua ngoc han, phuong 12, quan 11, ho chi minh OCRLMPipeline 116 Công Chúa Ngọc Hân, Phường 12, Quận 11, Thành phố Hồ Chí Minh OCRLMJoint 116 Cơng Ch Ngọc Hân, Phường 12, Quận 1, Thành phố Hồ Chí Minh Bảng 6.6: Kết nhận dạng số mẫu liệu kiểm thử 75 Kết luận Nghiên cứu nhận dạng chữ viết tay có ý nghĩa lớn việc số hố liệu, đặc biệt với ngơn ngữ thiểu số tiếng Việt Khơng có liệu chuẩn nhận dạng chữ viết tay tiếng Việt làm hạn chế nhà nghiên cứu thực cải thiện chất lượng nhận dạng Đồ án ghóp phần vào việc xây dựng liệu chữ viết tay tiếng Việt Nghiên cứu đồng thời đề xuất giải pháp tăng độ xác cho việc nhận dạng cách ứng dụng mơ hình ngơn ngữ vào với mơ hình nhận dạng Kết thực nghiệm chứng minh mơ hình ngơn ngữ giúp làm tăng độ xác lên đáng kể Việc áp dụng mơ hình khơng bị giới hạn tiếng Việt mà tiến hành ngơn ngữ nào, miễn có tập ngữ liệu để huấn luyện cho mơ hình ngơn ngữ Mơ hình ngơn ngữ thêm vào giúp làm tăng độ xác mơ hình nhận dạng đồng thời hạn chế mơ hình nhận dạng vấn đề mặt ngữ nghĩa quan trọng với mơ hình ngơn ngữ, đầu vào ảnh có nội dung ngẫu nhiên, việc áp dụng mơ hình ngơn ngữ có khả làm giảm chất lượng mơ hình nhận dạng Nên việc áp dụng mơ hình ngơn ngữ phải cân nhắc phù hợp cho trường hợp Hướng nghiên cứu tìm cách cải thiện vấn đề ảnh hưởng xấu mơ hình ngơn ngữ tới nhận dạng văn khơng mang tính ngữ nghĩa dạng hybrid mơ hình nhận dạng mơ hình ngơn ngữ để áp dụng mơ hình ngơn ngữ vào phần kết nhận dang Nhận dạng chữ viết tay tốn khó Tuy gần có tiến đáng kể việc cải thiện độ xác nhận dạng số 76 vấn đề cần nhiều lỗ lực nghiên cứu, thành cơng mở hướng việc máy tính tiếp cận với tri thức người 77 Tài liệu tham khảo [1] Juan Manuel Alonso-Weber, M Paz Sesmero, German Gutierrez, Agapito Ledezma, and Araceli Sanchis “Handwritten digit recognition with pattern transformations and neural network averaging” In: International Conference on Artificial Neural Networks Springer 2013, pp 335–342 [2] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Jauvin “A neural probabilistic language model” In: Journal of machine learning research 3.Feb (2003), pp 1137–1155 [3] Alessandro Bissacco, Mark Cummins, Yuval Netzer, and Hartmut Neven “Photoocr: Reading text in uncontrolled conditions” In: Proceedings of the IEEE International Conference on Computer Vision 2013, pp 785–792 [4] Théodore Bluche “Joint line segmentation and transcription for end-to-end handwritten paragraph recognition” In: Advances in Neural Information Processing Systems 2016, pp 838–846 [5] Théodore Bluche, Jérôome Louradour, and Ronaldo Messina “Scan, attend and read: End-to-end handwritten paragraph recognition with mdlstm attention” In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) Vol IEEE 2017, pp 1050–1055 [6] Dan Cires¸an, Ueli Meier, and Jăurgen Schmidhuber Multi-column deep neural networks for image classification In: arXiv preprint arXiv:1202.2745 (2012) 78 [7] DC Ciresan, U Meier, LM Gambardella, and J Schmidhuber Deep big simple neural nets excel on handwritten digit recognition CoRR abs/1003.0358 (2010) [8] Jeffrey L Elman “Finding structure in time” In: Cognitive science 14.2 (1990), pp 179–211 [9] Alex Graves, Santiago Fernández, Faustino Gomez, and Jăurgen Schmidhuber Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks” In: Proceedings of the 23rd international conference on Machine learning ACM 2006, pp 369–376 [10] Alex Graves, Navdeep Jaitly, and Abdel-rahman Mohamed “Hybrid speech recognition with deep bidirectional LSTM” In: 2013 IEEE workshop on automatic speech recognition and understanding IEEE 2013, pp 273–278 [11] Alex Graves, Marcus Liwicki, Santiago Fernỏndez, Roman Bertolami, Horst Bunke, and Jăurgen Schmidhuber “A novel connectionist system for unconstrained handwriting recognition” In: IEEE transactions on pattern analysis and machine intelligence 31.5 (2008), pp 855868 [12] Sepp Hochreiter and Jăurgen Schmidhuber Long short-term memory” In: Neural computation 9.8 (1997), pp 1735–1780 [13] Anca Ignat and Bogdan Aciobanitei “Handwritten digit recognition using rotations” In: 2016 18th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing (SYNASC) IEEE 2016, pp 303–306 [14] Nurul Ilmi, W Tjokorda Agung Budi, and R Kurniawan Nur “Handwriting digit recognition using local binary pattern variance and K-Nearest Neighbor classification” In: 2016 4th International Conference on Information and Communication Technology (ICoICT) IEEE 2016, pp 1–5 [15] Sebastiano Impedovo and Francesco Maurizio Mangini “A novel technique for handwritten digit classification using genetic clustering” In: 2012 Inter- 79 national Conference on Frontiers in Handwriting Recognition IEEE 2012, pp 236–240 [16] Kh Tohidul Islam, Ghulam Mujtaba, Ram Gopal Raj, and Henry Friday Nweke “Handwritten digits recognition with artificial neural network” In: 2017 International Conference on Engineering Technology and Technopreneurship (ICE2T) IEEE 2017, pp 1–4 [17] Max Jaderberg, Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman “Reading text in the wild with convolutional neural networks” In: International Journal of Computer Vision 116.1 (2016), pp 1–20 [18] Nal Kalchbrenner and Phil Blunsom “Recurrent continuous translation models” In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing 2013, pp 1700–1709 [19] Stefan Knerr, Léon Personnaz, and Gérard Dreyfus “Handwritten digit recognition by neural networks with single-layer training” In: IEEE Transactions on neural networks 3.6 (1992), pp 962–968 [20] Surafel M Lakew, Mauro Cettolo, and Marcello Federico “A comparison of transformer and recurrent neural networks on multilingual neural machine translation” In: arXiv preprint arXiv:1806.06957 (2018) [21] Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, cộng “Gradient-based learning applied to document recognition” In: Proceedings of the IEEE 86.11 (1998), pp 2278–2324 [22] ZQ Liu, J Cai, and R Buse “Markov random field model for recognizing handwritten digits, handwriting recognition” In: Stud Fuzziness Soft Comput 133 (2003), pp 1–5 [23] Minh-Thang Luong, Eugene Brevdo, and Rui Zhao “Neural Machine Translation (seq2seq) Tutorial” In: https://github.com/tensorflow/nmt (2017) 80 [24] Mark D McDonnell, Migel D Tissera, Tony Vladusich, André van Schaik, and Jonathan Tapson “Fast, simple and accurate handwritten digit classification by training shallow neural network classifiers with the ‘extreme learning machine’algorithm” In: PloS one 10.8 (2015), e0134254 [25] Bastien Moysset, Christopher Kermorvant, and Christian Wolf “Full-page text recognition: Learning where to start and when to stop” In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) Vol IEEE 2017, pp 871–876 [26] Binh Thai Nguyen, Hung Nguyen, Nguyen Thi Thu Hien, Phuong Ngoc Pham, The-Loc Nguyen, Truong Do, and Mai Luong “Fast and Accurate Capitalization and Punctuation for Automatic Speech Recognition Using Transformer and Chunk Merging” In: 2019 22nd Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA) (O-COCOSDA 2019) Cebu, Philippines, Oct 2019 [27] Olivier Pauplin and Jianmin Jiang “A dynamic bayesian network based structural learning towards automated handwritten digit recognition” In: International conference on hybrid artificial intelligence systems Springer 2010, pp 120– 127 [28] Hung Pham-Van, Hoach The Nguyen, and Shinq-Jen Wu “Vietnamese handwriting recognition for automatic data entry in enrollment forms” In: Proceedings of 2nd International Conference on Information Technology and Electronic Commerce (2014), pp 141–145 [29] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams, cộng “Learning representations by back-propagating errors” In: Cognitive modeling 5.3 (1988), p 81 [30] AL-Mansoori Saeed “Intelligent handwritten digit recognition using artificial neural network” In: Int Journal of Engineering Research and Applications, ISSN (2015), pp 2248–9622 [31] Baoguang Shi, Xiang Bai, and Cong Yao “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition” In: IEEE transactions on pattern analysis and machine intelligence 39.11 (2016), pp 2298–2304 [32] Bolan Su and Shijian Lu “Accurate scene text recognition based on recurrent neural network” In: Asian Conference on Computer Vision Springer 2014, pp 35–48 [33] Mohammad MA Taha and Christof Teuscher “Naive Bayesian inference of handwritten digits using a memristive associative memory” In: 2017 IEEE/ACM International Symposium on Nanoscale Architectures (NANOARCH) IEEE 2017, pp 139–140 [34] Thach Tran Van, Phi Nguyen Huu, and Trang Hoang “Isolated vietnamese handwriting recognition embedded system applied combined feature extraction method” In: 2015 International Conference on Advanced Technologies for Communications (ATC) (2015), pp 479–483 [35] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin “Attention is all you need” In: Advances in neural information processing systems 2017, pp 5998– 6008 [36] Paul Voigtlaender, Patrick Doetsch, and Hermann Ney “Handwriting recognition with large multidimensional long short-term memory recurrent neural networks” In: 2016 15th International Conference on Frontiers in Handwriting Recognition (ICFHR) IEEE 2016, pp 228–233 [37] Tao Wang, David J Wu, Adam Coates, and Andrew Y Ng “End-to-end text recognition with convolutional neural networks” In: Proceedings of the 21st In82 ternational Conference on Pattern Recognition (ICPR2012) IEEE 2012, pp 3304– 3308 [38] Paul J Werbos “Generalization of backpropagation with application to a recurrent gas market model” In: Neural networks 1.4 (1988), pp 339–356 [39] Hongjian Zhan, Qingqing Wang, and Yue Lu “Handwritten digit string recognition by combination of residual network and RNN-CTC” In: International conference on neural information processing Springer 2017, pp 583–591 83 ... hồn tốn việc nhận dạng chữ viết tay Đã có nhiều nghiên cứu toán tới việc nhận dạng chữ viết tay nhiều vấn đề khó giải quyết, phần người có phong cách viết khác nên chữ viết tay đa dạng, phần khác... chữ viết tay, việc nghiên cứu giải toán MNIST thúc đẩy giải toán nhận dạng chữ viết tay nói chung Tuy nhiên, 38 tập MNIST bao gồm chữ số, chữ số cắt thành ký tự riêng biệt Với nhận dạng chữ viết. .. tích diễn ngôn: Ngữ dụng học môn nghiên cứu mối quan hệ ngôn ngữ ngữ cảnh sử dụng (context-of-use) Ngữ cảnh sử dụng bao gồm danh tính người vật, ngữ dụng học bao gồm nghiên cứu cách ngôn ngữ dùng

Định dạng
Số trang	85
Dung lượng	4,56 MB