Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân TT

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Đình Mậu NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG MINH THƯ NHÂN DÂN Chuyên nghành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2021 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS Nguyễn Trọng Khánh Phản biện 1: ………………………………………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: .giờ .ngày tháng … năm 2021 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 1 MỞ ĐẦU Lý chọn đề tài: Chúng ta sống thời đại tổ chức công ty mở rộng quy mô để phù hợp phải thay đổi cách họ nhìn vào cơng nghệ thích nghi với thay đổi nhanh chóng cơng nghệ Chúng ta biết Google số hóa sách cách Google Earth sử dụng NLP để xác định địa Hoặc làm đọc văn tài liệu kỹ thuật số hóa đơn, giấy tờ pháp lý, vv Đó tốn nhận dạng ký tự quang học (OCR) thực luận văn Nhận dạng ký tự quang học ứng dụng công nghệ chuyên dùng để đọc text file ảnh Được biết đến công cụ scan kỹ thuật số chuyên nhận dạng ký tự, chữ viết tay, hay chữ đánh máy, công nghệ chuyên dùng để truyền tải, nhập liệu liệu, nhận dạng ký tự quang học có khả số hóa nhiều tài liệu khác như: hóa đơn, hộ chiếu, danh thiết, tài liệu, Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm chỉnh sửa thực cách tự động, tiết kiệm không gian lưu trữ thuận tiện việc tra cứu thông tin Xuất phát từ thực tế trên, tìm hiểu đề tài “Nhận dạng ký tự quang cho văn có cấu trúc, ứng dụng đọc chứng minh thư nhân dân” hướng dẫn TS Nguyễn Trọng Khánh Luận văn tập trung nghiên cứu, giải vấn đề liên quan đến toán phân tích cấu trúc, xác định bóc tách trường thông tin cần nhận dạng CMND Tổng quan vấn đề nghiên cứu Trên sở nghiên cứu tốn bóc tách thơng tin ký tự quang cho văn có cấu trúc phương pháp học máy để xử lý toán nhận dạng chứng minh thư nhân dân Tác giả tiến hành nghiên cứu thực nghiệm tập liệu chứng minh thu thập, sau đánh giá kết thu dựa phương pháp học máy nghiên cứu Mục đích nghiên cứu - Nghiên cứu phương pháp phân tích cấu trúc ảnh, bóc tách xác định vùng chữ, vùng caption, vùng content tài liệu có cấu trúc thu thập - Nghiên cứu phương pháp học máy phù hợp áp dụng cho toán nhận dạng chứng minh thư nhân dân - Xây dựng chương trình bóc tách trường thơng tin áp dụng tập liệu hình ảnh thu thập được, đánh giá kết thực nghiệm đưa kết luận Đối tượng nghiên cứu - Tập liệu ảnh chứng minh thư nhân dân thu thập - Phương pháp học máy sâu Deep Learning áp dụng cho toán dọc ký tự quang ORC Phương pháp nghiên cứu - Nghiên cứu lý thuyết - Thu thập xử lý liệu - Thực nghiệm phân tích đánh giá kết thu Bố cục luận văn Luận văn chia làm chương chính: CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1.1 Tổng quan nhận dạng ký tự quang 1.2 Các bước bản nhận dạng ký tự quang học 1.3 Mơ tả tốn nhận dạng chứng minh nhân dân CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ 2.1 Các phương pháp sử dụng để thực toán nhận dạng ký tự quang học 2.2 Mơ hình mạng học sâu SSD-V2 2.2.1 Đa hộp 2.2.2 Đa hộp giới hạn IoU 2.2.3 Những cải tiến mơ hình SSD-v2 2.3 Mơ hình CRAFT 2.4 Mạng nhớ dài - ngắn 2.5 Cơ chế Attention 2.5.1.Ý tưởng 2.5.2 Nguyên lý hoạt động 2.6 Nhận diện ký tự với mô hình transformer 2.6.1 Nhược điểm mơ hình RNN 2.6.2 Phương pháp Transformer 2.7 Phương pháp đề xuất 2.7.1 Xác định góc chứng minh thư sử dụng mơ hình SSD 2.7.2 Xoay chứng minh thư CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 3.1 Tập liệu 3.2 Thiết lập thực nghiệm 3.3 Phân tích kết quả: KẾT LUẬN Trong trình thực luận văn, cố gắng thu thập tài liệu, củng cố kiến thức luận văn hạn chế định Học viên mong nhận dạy, đóng góp tận tình thầy, để luận văn học viên hoàn thiện có tính ứng dụng cao thực tiễn 4 CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1.1 Tổng quan nhận dạng ký tự quang Chúng ta sống thời đại tổ chức công ty mở rộng quy mô để phù hợp phải thay đổi cách họ nhìn vào cơng nghệ thích nghi với thay đổi nhanh chóng cơng nghệ Chúng ta biết Google số hóa sách cách Google Earth sử dụng NLP để xác định địa Hoặc làm đọc văn tài liệu kỹ thuật số hóa đơn, giấy tờ pháp lý, vv Đó toán nhận dạng ký tự quang học (OCR) thực luận văn Nhận dạng ký tự quang học ứng dụng công nghệ chuyên dùng để đọc text file ảnh Được biết đến công cụ scan kỹ thuật số chuyên nhận dạng ký tự, chữ viết tay, hay chữ đánh máy, công nghệ chuyên dùng để truyền tải, nhập liệu liệu, nhận dạng ký tự quang học có khả số hóa nhiều tài liệu khác như: hóa đơn, hộ chiếu, danh thiết, tài liệu, Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm chỉnh sửa thực cách tự động, tiết kiệm không gian lưu trữ thuận tiện việc tra cứu thông tin Hiện ảnh chụp văn cần nhận dạng, ta chia làm loại : - Văn có cấu trúc - Văn tài liệu đánh máy thường xuất tảng tiêu chuẩn, có hàng lối, phơng chữ tiêu chuẩn Các văn thường gặp giấy tờ tùy thân chứng minh thư nhân dân, giấy khai sinh, hộ chiếu trang sách Đối với loại liệu này, việc trích xuất đặc trưng, xác định vị trí ký tự nhận dạng ký tự khơng khó văn khơng bị mờ, nhịe điều kiện ánh sáng q thiếu Văn phi cấu trúc - Văn vị trí ngẫu nhiên khung cảnh tự nhiên Văn thưa thớt, khơng có cấu trúc hàng thích hợp, phức tạp, vị trí ngẫu nhiên ảnh khơng có phơng chữ chuẩn Những văn biển hiệu quảng cáo, hóa đơn, biển số xe chữ viết tay Trong phạm vi đồ án, kí tự nằm sản phẩm gọi văn phi cấu trúc chúng có màu sắc, vị trí ngẫu nhiên ảnh 1.2 Các bước bản nhận dạng ký tự quang học Trước có bùng nổ công nghệ học sâu vào năm 2012, nhận dạng ký tự quang học vấn đề thách thức đặc biệt hình ảnh văn chụp mơi trường khơng bị giới hạn Khi hình ảnh chứa phức tạp, nhiễu, phông chữ khác biến dạng hình học hình ảnh Điều thể rõ trường hợp hóa đơn khách hàng chụp gửi lại cho điều kiện xấu lóa (do giấy in hóa đơn bóng), bị nhàu nát, khơng đủ sáng, bị ướt, Chính tình nhận dạng ký tự quang học kết hợp học sâu biện pháp tốt sử dụng để nhận dạng văn Bất kỳ hệ thống nhận dạng ký tự quang học tuân theo bước sau: - Tiền xử lý ảnh: Trước xác định vị trí kí tự, ảnh cần tiền xử lý để đạt số yêu cầu định Ảnh nâng cao chất lượng, phân cụm để giảm số lượng giá trị ảnh, lọc nhiễu sử dụng lọc Gaussian, Median đưa hệ màu đen trắng tốn có đơn giản phân loại biển số xe để giảm chiều liệu kích thước liệu Đối với số tốn sử dụng cơng nghệ học sâu, ảnh thay đổi kích thước định để phù hợp với mơ hình Q trình tiền xử lý cần thực cho giảm nhiễu thông tin ngoại lai nhiều nhiên phải giữ lại thơng tin cần thiết cho q trình xác định nhận diện sau - Phát ký tự: Sau ảnh tiền xử lý, ta tiến hành xác định vị trí ký tự nhóm kí tự có cấu trúc giống Mục tiêu nhận diện ký tự tương tự toán xác định vật thể với vật thể đặc thù vị trí ký tự Hiện nay, với bùng nổ công nghệ học sâu, mơ hình sinh để giải tốn với độ xác cao lên tới 90% kể đến DB, Text Fusnet[13], CRAFT[14], Các mơ hình cho kết nhận diện tốt văn có cấu trúc lẫn văn phi cấu trúc, tiêu biểu nhận diện biển báo (1 loại kĩ kết tốt văn có cấu trúc mà cịn loại văn phi cấu trúc tiêu biểu biển báo (1 loại văn cảnh) - Nhận diện ký tự: Sau xác định các hộp giới hạn, hộp xử lý để nhận dạng kí tự có vùng ảnh đó ghép thành từ cụ thể Hiện nay, số công cụ thông dụng thường sử dụng Tesseract, Google API nhiên gặp trường hợp ảnh bị mờ méo thường cho kết khơng tốt Các mơ hình học sâu thường dùng cho toán CRNN, ASTER, MORAN, DAN có cấu trúc chung biến đổi ảnh - trích xuất đặc trưng – mơ hình – dự đốn Trong mơ hình dự đốn phần đóng vai trị quan trọng mơ hình nhận dạng ký tự với kiến trúc tiếng LSTM, CTC Attention 1.3 Mơ tả tốn nhận dạng chứng minh nhân dân Với toán nhận diện ký tự quang học cho liệu ảnh chứng minh thư, có nhiều quy trình đề xuất, thường bao gồm bước sau: - Xác định vùng quan tâm chưa chứng minh thư Do ảnh chụp chứng minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh trước cho vào mơ hình nhận diện Các phương pháp thường sử dụng là: xác định biên chứng minh thư, xác định góc chứng minh thư Xác định biên chứng minh minh thư sử dụng kỹ thuật tìm đường biên xử lý ảnh, phân vùng đối tượng, xác định góc chứng minh thư Từ kết thực nghiệm, phương pháp tiếp cận cách xác định bốn góc chứng minh thư đạt kết ổn định nên luận văn này, phương pháp sử dụng Dựa vào vị trí bốn góc chứng minh thư, ta xác định vùng quan tâm chứa chứng minh thư ảnh Phần này, tác giả luận văn đề xuất sử dụng mơ hình học sâu SSD - v2[12] để xác định góc: trái, - phải, - trái, - phải Từ đó, tác giả xác định tâm xoay ma trận chuyển vị để từ thu ảnh vùng quan tâm vị trí tốt sử dụng cho phần nhận diện ký tự bước 7 - Xác định hộp giới hạn dòng ký tự ảnh Các hộp giới hạn ứng với dòng ký tự ảnh Phần xác định ký tự sử dụng mơ hình nhận diện vật thể phổ biến dùng mơ hình chuyên biệt cho toán xác định văn cảnh như: CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT, - Nhận diện nội dung ký tự hình giới hạn ký tự Phần nhận dạng ký tự sử dụng framework Tesseract mơ hình nhận dạng ký tự văn cảnh: CRNN-CTC loss, Attention-OCR, - Sử dụng mạng thần kinh đồ thị để xác định trường thông tin Đầu tiên, ta cần nhận diện chữ văn bản, chữ đưa qua mơ hình trích xuất đặc trưng Những đặc trưng biểu diễn mối liên hệ vị trí từ văn với Những liệu đưa qua mơ hình đồ thị để phân loại đặc trưng thuộc nốt Các nút hộp giới hạn thu sau bước xác định ký tự Dựa vào kết phân loại này, ta có kết cuối trường thông tin văn Việc định nghĩa cạnh graph thuộc phần mơ hình đồ thị đề cập phần sau luận văn Luận văn áp dụng phương pháp đề xuất báo Invoice-GCN, với việc xây dựng tổng hợp đặc trưng từ nhiều kiểu / thuộc tính khác Sau cùng, ta "nối" tất thuộc tính lại thu vectơ đặc trưng 317 chiều (1 + + + + + 300) làm nốt đặc trưng ban đầu ứng với nốt (từng hình hộp chứa ký tự) đồ đồ thị CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ Phần lớn mơ hình dùng cho nhận diện ký tự dựa công thức: Biến đổi ảnh - Trích xuất đặc trưng - Mơ hình hóa - Dự đốn Với mơ hình SOTA năm gần TPS- ResNet - BiLSTM - Attention, định sử dụng mơ hình phục vụ cho toán Text Recognition cho chứng minh thư 8 2.1 Các phương pháp sử dụng để thực toán nhận dạng ký tự quang học Phương pháp học sâu đạt nhiều thành tựu ứng dụng nhận dạng, xử lý hình ảnh Do đó, luận văn này, tác giả không sử dụng phương pháp học máy cổ điển mà sử dụng phương pháp học sâu để xử lý toán nhận dạng ký tự quang học cho văn có cấu trúc ứng dụng đọc thơng tin chứng minh thư Bài tốn nhận diện ký tự quang học chia làm ba phần: - Phát vùng ROI chứng minh thư: sử dụng mạng thần kinh nhân tạo SSD-v2 để xác định góc chứng minh thư Từ đó, xoay thẳng chứng minh thư để tăng chất lượng nhận diện ký tự - Xác định vùng vùng quan tâm dựa cấu trúc văn bản sử dụng mơ hình CRAFT Vùng quan tâm chứa ký tự văn bản, bốn góc vùng quan tâm tạo thành hình chữ nhật Vùng ảnh sử dụng bước sau: nhận diện ký tự - Nhận diện ký tự: mơ hình transformer cải thiện khả nhận diện ký tự văn có ngữ nghĩa so với mơ hình RNN mơ hình LSTM Mơ hình transformer sử dụng toán dựa mơ hình vietocr 2.2 Mơ hình mạng học sâu SSD-V2 2.2.1 Đa hộp Kỹ thuật hộp giới hạn sử dụng mạng SSD lấy ý tưởng từ báo Scalable, High-Quality Object Detection[18] tác giả Szegedy, phương pháp sử dụng nhiều hộp giới hạn với kích thước khác để phù hợp với đối tượng có kích thước lớn, nhỏ khác nhau Dưới kiến trúc mạng thần kinh dự đốn đa kích thước sử dụng SSD 2.2.2 Đa hộp giới hạn IoU Logic xoay quanh việc tạo hộp giới hạn phức tạp Trong đa hộp giới hạn, khái niệm sử dụng điểm ban đầu (hay thuật ngữ mỏ neo Faster-R-CNN), hộp giới hạn tính tốn trước với kích thước cố định tuân theo phân phối gần với phân phối hộp giới hạn mẫu Trong thực tế, điểm ban đầu lựa chọn tỉ lệ Intersection/Union (IoU) lớn ngưỡng 0.5 Như mô tả hình dây, giá trị IoU 0.5 chưa đủ tốt điểm bắt đầu tương đối ổn cho thuật cho giải thuật hồi quy hộp giới hạn(chính việc học tham số mạng) - điều thực tiết kiệm thời gian đem lại kết tốt nhiều so với việc bắt đầu vị trí ngẫu nhiên Do đa hộp giới hạn bắt đầu với điểm ban đầu dự đoán ban đầu khởi tạo tạo với mục đích hồi quy gần với hộp giới hạn thực Kiến trúc đa hộp giới hạn bao gồm 11 điểm ban đầu với tế bào đồ đặc trưng (8x8, 6x6, 4x4, 3x3, 2x2) cho điểm ban đầu với 1x1 đồ đặc trưng dẫn đến tổng cộng có 1420 điểm ban đầu với hình ảnh, cho phép bao phủ hồn tồn ảnh đầu vào tỉ lệ khác nhau, khiến việc nhận diện đối tượng kích thước khác trở nên dễ dàng 2.2.3 Những cải tiến mơ hình SSD-v2 Một vài cải tiến nhỏ thêm vào mạng để cải thiện khả nhận diện phân loại đối tượng a Điểm ban đầu cố định: Không giống với đa hộp giới hạn, tế bào đồ đặc trưng gắn với tập hình hộp giới hạn mặc định với số chiều tỉ lệ khác Các điểm ban đầu lựa chọn tay Phương pháp cho phép SSD tạo hình hộp giới hạn cho kiểu đầu vào mà không yêu cầu bước huấn luyện đầu để tạo điểm ban đầu Ví dụ, giả sử ta có điểm (x1, y1) (x2, y2) với tập hộp giới hạn mặc định cho tế bào đồ đặc trưng c nhóm cho việc phân loại Với ma trận đặc trưng có kích thước f = m x n, SSD tính f x b x (4+c) giá trị cho ma trận đặc trưng Hình minh họa cho ý tưởng điểm ban đầu cố định b Phân loại: Đa hộp giới hạn khơng thể phân loại đối tượng,vì vậy, với hình hộp giới hạn đưa ra, SSD tính tốn ln dự đốn cho việc phân loại đối tượng lớp tập liệu 10 2.3 Mơ hình CRAFT CRAFT (Character-Region Awareness For Text detection) mạng thần kinh nhân tạo dùng để xác định vị trí ký tự riêng lẻ liên kết ký tự xác định để tạo thành chữ có nghĩa Mạng CRAFT sử dụng kiến trúc mạng thần kinh tích chập dựa mạng VGG-16 làm sở Mạng VGG-16 sử dụng để làm kiến trúc trích xuất đặc trưng, dùng để mã hóa liệu đầu vào mạng để tạo thành biểu diễn đặc trưng định Phần giải mã mạng CRAFT tương tự với mạng UNet Nó bỏ qua kết nối tổng hợp đặc trưng mức low-levels Mạng CRAFT dự đoán hai giá trị cho ký tự: - Điểm vùng: chứa thông tin liên quan đến vùng ký tự, dùng để định vị ký tự - Điểm mối quan hệ: 'Mối quan hệ' mức độ mà chất có xu hướng kết hợp với chất khác Vì vậy, điểm số mối quan hệ hợp ký tự thành trường hợp (một từ) CRAFT tạo hai đồ dạng đầu ra: Bản đồ mức khu vực Bản đồ sở thích Bản đồ mối quan hệ đại diện hình ảnh cho nhân vật có liên quan Cuối cùng, điểm số sở thích khu vực kết hợp để đưa hộp giới hạn từ Các tọa độ theo thứ tự: (trái-trên), (phải-trên), (phải-dưới), (trái-dưới), tọa độ cặp (x, y) CRAFT mơ hình đa ngơn ngữ, có nghĩa phát văn viết tập lệnh nào, không tiếng Latinh Sau sử dụng CRAFT, với kết hộp giới hạn trích xuất ra, ta ảnh chứa ký tự tách rời (như hình dưới) Tuy nhiên, thực tế, chứng minh thư bị nghiêng cong Chính vậy, phép biến đổi TPS[14] để chỉnh ảnh bị cong nghiêng ảnh bình thường Mạng TPS có đầu vào tập điểm mốc tương ứng nhau, tập gồm K điểm thuộc ảnh đầu vào ảnh rectified Do yêu cầu ảnh rectified chữ phải thẳng, K điểm mốc thuộc ảnh 11 đầu có vị trí cố định dọc theo phía phía ảnh (các điểm màu tím) Khi đó, lấy điểm mốc ảnh đầu vào dọc theo phía phía kí tự (các điểm màu xanh), phép đổi TPS cho ảnh rectified chữ chỉnh méo Vấn đề lớn việc làm để tìm tập điểm mốc ảnh đầu vào Để dự đốn vị trí điểm này, em sử dụng thêm mạng neural network nhỏ với đầu vào ảnh input Giả sử ta có tập điểm mốc C’ C ảnh đầu vào I ảnh rectified Ir, C = [c1, ,cK] ϵ R2xK ma trận tọa độ K điểm mốc thuộc ảnh rectified, ck=[xk,yk]T tọa độ x,y điểm thứ k Tương tự với C’ = [c’1, ,c’K] Giá trị C C’ chuẩn hóa (0,1), với (0,0) góc bên trái (1,1) góc bên phải Phép biến đổi 2D TPS ma trận T chiều x (K+3) : (3.1) Trong u,v ϵ R1xK Với điểm p = [xp,yp]T ϵ Ir, phép biến đổi TPS tìm điểm p’ tương ứng cách: (3.2) Trong Các hệ số T tìm cách giải hệ phương trình K điểm mốc: 12 (3.3) Kết hợp với điều kiện biên: , , , Viết dạng ma trận ta nhận được: với (3.4) Từ ta tính ma trận T : Có thể thấy rằng, ma trận C ma trận biết ta biết tọa độ điểm mốc ảnh Ir Do ma trận ma trận số cần tính lần Sau có T, với điểm p nằm ảnh Ir, ta tính tọa độ tương ứng p’ ảnh I theo sơ đồ hình 6, từ lấy ảnh Ir phục vụ cho trình nhận dạng sau 2.4 Mạng nhớ dài - ngắn Mạng nhớ dài-ngắn (Long Short Term Memory networks), thường gọi LSTM - dạng đặc biệt RNN, có khả học phụ thuộc xa LSTM giới thiệu Hochereiter & Schmidhuber, sau cải tiến phổ biến nhiều người ngành Chúng hoạt động hiệu nhiều tốn khác nên dần trở nên phổ biến LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term 13 dependency) Việc nhớ thông tin suốt thời gian dài đặc tính mặc định chúng, ta khơng cần phải huấn luyện để nhớ được, rong nội ghi nhớ mà không cần can thiệp Mọi mạng hồi quy có dạng chuỗi mô-đun lặp lặp lại mạng nơ-ron Với mạng RNN chuẩn, mơ-đun có cấu trúc đơn giản, thường tầng LSTM có kiến trúc dạng chuỗi vậy, mơđun có cấu trúc khác với mạng RNN chuẩn Thay có tầng mạng nơ-ron, chúng có tới tầng tương tác với cách đặc biệt Chìa khóa LSTM trạng thái tế bào (cell state) - đường chạy thơng ngang phía sơ đồ hình vẽ Trạng thái tế bào dạng giống băng truyền Nó chạy xuyên suốt tất mắt xích (các nút mạng) tương tác tuyến tính đơi chút Vì mà thơng tin dễ dàng truyền thơng suốt mà khơng sợ bị thay đổi LSTM có khả bỏ thêm vào thông tin cần thiết cho trạng thái tế bào, chúng điều chỉnh cẩn thận nhóm gọi cổng (gate) Các cổng nơi sàng lọc thông tin qua nó, chúng kết hợp tầng mạng sigmoid phép nhân Tầng sigmoid cho đầu số khoản [0, 1], mô tả có thơng tin thơng qua Khi đầu có nghĩa khơng cho thơng tin qua cả, cịn có nghĩa cho tất thơng tin qua Một LSTM gồm có cổng để trì điều hành trạng thái tế bào Bước LSTM định xem thông tin cần bỏ từ trạng thái tế bào Quyết định đưa tầng sigmoid - gọi “tầng cổng quên” (forget gate layer) Nó lấy đầu vào ht-1 xt đưa kết số khoảng [0, 1] cho số trạng thái tế bào Ct-1 Đẩu thể giữ tồn thơng tin lại, cịn tồn thông tin bị bỏ Quay trở lại với ví dụ mơ hình ngơn ngữ dự đốn từ dựa tất từ trước đó, với tốn vậy, trạng thái tế bào mang thơng tin giới tính nhân vật giúp ta sử dụng đại từ nhân xưng chuẩn xác Tuy nhiên, đề cập tới người 14 khác ta khơng muốn nhớ tới giới tính nhân vật nữa, khơng cịn tác dụng với chủ Bước định xem thông tin ta lưu vào trạng thái tế bào Việc gồm phần Đầu tiên sử dụng tầng sigmoid gọi “tầng cổng vào” (input gate layer) để định giá trị ta cập nhật Tiếp theo tầng tạo vectơ cho giá trị nhằm thêm vào cho trạng thái Trong bước tiếp theo, ta kết hợp giá trị lại để tạo cập nhập cho trạng thái Chẳng hạn với ví dụ mơ hình ngơn ngữ ta, ta muốn thêm giới tính nhân vật vào trạng thái tế bào thay giới tính nhân vật trước Giờ lúc cập nhập trạng thái tế bào cũ Ct-1 thành trạng thái Ct Ở bước trước định việc cần làm, nên ta cần thực xong Ta nhân trạng thái cũ với ft để bỏ thông tin ta định quên lúc trước Trạng thái thu phụ thuộc vào việc ta định cập nhập giá trị trạng thái Với tốn mơ hình ngơn ngữ, việc ta bỏ thơng tin giới tính nhân vật cũ, thêm thơng tin giới tính nhân vật ta định bước trước Cuối cùng, ta cần định xem ta muốn đầu Giá trị đầu dựa vào trạng thái tế bào, tiếp tục sàng lọc Đầu tiên, ta chạy tầng sigmoid để định phần trạng thái tế bào ta muốn xuất Sau đó, ta đưa trạng thái tế bảo qua hàm để có giá trị khoảng [-1,1], nhân với đầu cổng sigmoid để giá trị đầu ta mong muốn Với ví dụ mơ hình ngơn ngữ, cần xem chủ thể mà ta đưa thơng tin trạng từ sau Ví dụ, đầu chủ thể số số nhiều ta biết dạng trạng từ theo sau phải Áp dụng vào tốn nhận dạng chữ viết, sau qua mạng Resnet để trích xuất đặc trưng, ảnh Ir trở thành tensor có kích thước height*width Tensor tách thành vector nhỏ có kích thước height*1, từ ta có width vector Ví dụ tensor sau trích xuất đặc trưng có kích thước 10*5, ta tách tensor 15 thành vector, vector có kích thước 10*1 Lần lượt vecto qua mạng LSTM, từ đầu phân bố xác suất kí tự mà vector biểu diễn 2.5 Cơ chế Attention 2.5.1.Ý tưởng Sau thu chuỗi xác suất kí tự, ta cần phải xử lý để tìm xem lấy vector vị trí để ghép thành từ hồn chỉnh Ví dụ đầu mạng LSTM tensor 36*5, số bước mạng LSTM chạy, với vector mà tách Lúc này, giả sử ảnh đầu vào chứa từ “Bye” có kí tự Lúc ta phải sử dụng chế Attention để tìm vector có kích thước 36*1, vector có xác suất kí tự B,y,e cao nhất, để từ có ghép lại thành từ Bye hồn chỉnh 2.5.2 Ngun lý hoạt động Attention mạng LSTM có chức decode thơng tin mã hóa mặt thời gian mạng LSTM mục 3.4 Giả sử đầu mạng LSTM tensor 36*5 Ta tách tensor thành vector h1,h2,h3,h4,h5 Trong h1,h3,h5 chứa thơng tin kí tự B,y,e cịn h2,h4 chứa thơng tin khoảng trống kí tự Lúc ta cần vector context để mang thông tin vị trí kí tự trước để phục vụ cho q trình tính tốn output sau Vector context tính dự gt-1 vector trạng thái mạng Attention step trước vector h dựa cơng thức sau: C = softmax(tanh(Wh*[h1,h2,h3,h4,h5]+ Ws*gt-1)) (3.5) Vector C mang thơng tin vị trí mà vector h đóng góp q trình dự đốn từ Từ ta tính vector đầu vào cho mạng attention: Input = ∑Ci.hi (3.6) Ví dụ C = [0.1,0.2,0.5,0.2,0.0] vector Input = 0.1h1 + 0.2h2 + 0.5h3 +0.2h4 +0.0h5 Khi Input thể đầy đủ đặc trưng vector h Khi qua mạng Attention, ta kí tự cần phải tìm Với ví dụ trên, vector C có C3 = 0.5 lớn nhất, ta thấy vector input mang 16 nhiều thông tin vị trí 3, output mạng Attention có xác suất cho ký tự “y” cao 2.6 Nhận diện ký tự với mơ hình transformer Mơ hình RNN LSTM có nhược điểm thời gian huấn luyện lâu không hiệu cầu dài địi hỏi phụ thuộc (long-range dependencies) Mơ hình Transformer gần đạt nhiều đột phá giúp giải vấn đề tồn việc xử lý ngôn ngữ tự nhiên gần mở rộng sang thị giác máy tính Trong luận văn này, luận văn có sử dụng mơ hình Transformer nhận dạng tiếng Việt qua thư viện VietOCR tác giả Phạm Quốc 2.6.1 Nhược điểm mơ hình RNN Khi làm toán NLP, thường sử dụng RNN hay LSTM, nhiên hai mơ hình có nhược điểm sau: - Thời gian huấn luyện lâu: Khi xử lý câu mô hình RNN, mơ hình xử lý câu văn cách theo bước thời gian (time step) trạng thái ẩn (hidden state) sau phụ thuộc trạng thái ẩn trước phải thực xong Điều khiến mơ hình khơng thể tận dụng lợi tính tốn song song máy tính có card đồ họa hỗ trợ tăng tốc huấn luyện.luyện - Khả ghi nhớ kém: Đây vấn đề cố hữu với mạng có kiến trúc RNN Giải thích đơn giản mơ hình học từ đầu câu, sau đặc trưng học giá trị gradient bị biến (vanishing gradient) Các kiến trúc LSTM hay GRU giới thiệu giải vấn đề việc học cầu dài thách thức lớn - Khả ý kém: Các lớp RNN học đặc trưng theo time step sau mã hóa (encode) chuỗi đầu vào thành vectơ context, nhiên vectơ context đó, từ giống từ Trong câu, xét mặt ngữ nghĩa, ln tồn từ có vai trị quan trọng từ quan trọng Do đó, việc coi đóng vai trị giống làm giảm độ xác mơ hình Trong mơ hình xử lý ngơn ngữ, có ba loại quan hệ cần ý: ○ Quan hệ token đầu vào đầu 17 ○ Quan hệ token đầu vào ○ Quan hệ token đầu - Cơ chế ý truyền thống đánh lại trọng số (reweight) vectơ context( gọi trọng số ý) nhờ giúp phần giải mã biết timestep cần ý (attention), mơ hình hóa mối quan hệ ngữ nghĩa đầu vào đầu Trọng số ý chất độ liên quan mã hóa trạng thái ẩn giải mã trạng thái ẩn bị mã hóa Mơ hình transformer dùng để thực trình tự ý đầu vào/đầu đến (self-attention) 2.6.2 Phương pháp Transformer Transformer giải nhược điểm mơ hình truyền thống nhờ chủ yếu vào hai cấu trúc ý đa hướng mã hóa vị trí Kiến trúc transformer giống với mơ hình sequence-tosequence bao gồm hai phần mã hóa ( trái ) giải mã(phải ) - Phần mã hóa, Gồm N khối, khối bao gồm hai lớp con: ý đa chiều mạng tiến Tác giả dùng kết nối dư lớp này, theo sau lớp lớp chuẩn hóa có ý nghĩa tương tự lớp Batch Norm mạng tích chập truyền thống Kết nối dư (Residual connection) góp phần giúp mơ hình sâu hơn, nhờ giảm tác động vanishing gradient - Phần giải mã tương tự mã hóa gồm N khối, khối gồm lớp Tuy nhiên, có lớp mặt nạ ý đa hướng Lớp lớp ý đa hướng Nó có chức ý đến tồn giải mã trạng thái ẩn trước Lý mà lại đặt tên huấn luyện Transformer, ta đưa toàn câu vào lúc nên ta đưa toàn câu mục tiêu (target sentence) cho giải mã trước mơ hình khơng học (do có thơng tin từ trước) Vì vậy, ta cần sử dụng mặt nạ (mask) để che bớt phần token decoder hidden state sau trình decode 18 2.7 Phương pháp đề xuất 2.7.1 Xác định góc chứng minh thư sử dụng mơ hình SSD Do ảnh đầu vào ảnh chụp từ điện thoại, ảnh bị nghiêng, bị xoay ngược cần bước xoay thẳng lại để dễ dàng xử lý Vì lý vậy, dùng phương pháp bình thường để xác định nguyên chứng minh thư khó xoay lại xử lý ảnh phải dùng phương pháp phức tạp Luận văn đề xuất phương pháp coi bốn góc chứng minh thư đối tượng cần xác định sau xoay thẳng tọa độ bốn góc Bốn đối tượng góc: - trái, - phải, - trái, - phải cần tìm Kết sau nhận diện hình Do ảnh đầu vào ảnh chụp từ điện thoại, ảnh bị nghiêng, bị xoay ngược cần bước xoay thẳng lại để dễ dàng xử lý Vì lý vậy, dùng phương pháp bình thường detect ngun chứng minh thư khó xoay lại xử lý ảnh phải dùng phương pháp phức tạp Để đơn giản, đề xuất phương pháp coi bốn góc chứng minh thư object cần detect sau xoay thẳng tọa độ bốn góc Nếu bạn làm quen với toán detect face, bike, car, , bike hay car object bốn góc : bottom left, bottom right, top left, top right object cần tìm 2.7.2 Xoay chứng minh thư Với trường hợp mơ hình xác định góc, t sử dụng phép toán nội suy tọa độ để suy tọa độ góc cịn lại Sau có tọa độ góc chứng minh thư, ta xoay thẳng ảnh lại dựa vào kích thước thực tế có chiều dài 500, chiều rộng 300 Ở đây, ta sử dụng hàm PerspectiveTransform OpenCV, kết cuối thu hình 19 Sơ đồ giải thuật tìm góc 2.7.3 Xác định từ chứng minh thư dùng mơ hình CRAFT Để xác định vị trí ký tự chứng minh thư, ta sử dụng mơ hình Thin Plate Spline để xác định ký tự chuyển ký tự dạng thẳng Từ đó, vùng ảnh nằm kình hộp bao tách để làm đầu vào cho bước xử lý nhận dạng ký tự 2.7.4 Nhận diện ký tự sử dụng mơ hình vietOCR[18] Mơ hình vietOCR mơ hình dạng attention OCR (Nhận diện ký tự quang ý) AttentionOCR kết hợp mơ hình mạng thần kinh tích chập mơ hình ý Seq2Seq Cách hoạt động mơ hình tương tự kiến trúc mơ hình seq2seq tốn dịch máy Với tốn dịch máy từ tiếng Việt sang Anh, cần mã hóa chuỗi tiếng việt thành vector đặc trưng, cịn mơ hình AttentionOCR, liệu đầu vào ảnh Một ảnh qua mơ hình mạng thần kinh tích chập cho ma trận đặc trưng có kích thước kênh x chiều cao x chiều rộng Ma trận đặc trưng trở thành đầu vào cho mơ hình LSTM, nhiên, mơ 20 hình LSTM nhận nhận đầu vào có kích thước hiddenxtime_step Một cách đơn giản hợp lý chiều cuối heightxwidth feature maps duổi thẳng Ma trận đặc trưng lúc có kích thước phù hợp với u cầu mơ hình LSTM Ma trận đặc trưng mơ hình mạng thần kinh tích chập sau làm phẳng truyền vào làm đầu vào mơ hình LSTM, thời điểm, mơ hình LSTM cần dự đốn từ ảnh Một ưu điểm transformer mơ hình có khả xử lý song song cho từ Bộ mã hóa mơ hình transformer dạng feedforward neural nets, bao gồm nhiều lớp mã hóa khác, lớp xử lý đồng thời từ Trong đó, với mơ hình LSTM, từ phải xử lý Ngồi ra, mơ hình Transformer cịn xử lý câu đầu vào theo hướng mà không cần phải stack thêm hình LSTM kiến trúc Bidirectional LSTM CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Tập liệu Trong phần thực nghiệm, tác giả thực thu thập liệu chứng minh thư nhóm Facebook đăng tin tìm kiếm, trả lại giấy tờ Tổng số mẫu ảnh thu 580 ảnh Phần engine nhận diện ký tự, luận văn sử dụng ký tự tự sinh với số lượng mẫu triệu ảnh 3.2 Thiết lập thực nghiệm Môi trường thực nghiệm chạy CPU Intel i7-10700F nhân, 16 luồng, RAM 32GB, card GTX 2070 8GB Thư viện sử dụng Pytorch 1.8 Thời gian huấn luyện mơ hình SSD-v2 xác định góc tiếng, với liệu 580 ảnh để xác định góc sử dụng, 300 ảnh sử dụng để huấn luyện, 280 ảnh sử dụng để kiểm tra Độ xác đạt được: F1 score: 97.3%, accuracy: 94.8% 21 3.3 Phân tích kết quả: Trong luận văn, tác giả xây dựng cách tiếp cận hoàn chỉnh giải tốn nhận diện ký tự quang học cho chứng minh thư nhân dân Mô hình nhận diện vùng chứng minh thư ảnh hoạt động tốt với ảnh đầu vào bị biến dạng: méo, xoay, góc Mơ hình xác định ký tự hoạt động tốt với liệu thực nghiệm, với ảnh mờ, lóa xác định ký tự ảnh Kết nhận diện hoạt động tốt liệu kiểm tra, mơ hình nhận diện huấn luyện với lượng liệu lớn, bao gồm liệu tự sinh, liệu thu thập từ nhiều nguồn văn khác Do thời gian thực có hạn, tác giả chưa thủ thập liệu đủ lớn Trong tương lai, để cải thiện kết phương pháp tại, tác giả đề xuất thu thập nhiều liệu Từ đó, tập liệu có độ phân bố rộng nhằm xác định trường hợp giới hạn giải thuật KẾT LUẬN Nhận dạng mẫu ngành khoa học học máy (hay trí tuệ nhân tạo) nhằm phân loại liệu (các mẫu) vào số lớp Mẫu thực thể cần nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng Ngày nay, phát triển khoa học kỹ thuật, ứng dụng nhận dạng mẫu mở rộng nhiều lĩnh vực, việc tự động hóa, nhận diện khơng cịn q xa lạ Chiếc điện thoại thơng minh tích hợp nhận diện khn mặt vân tay để mở khóa, thiết bị tự động khác khóa cửa sử dụng vân tay, hệ thống bảo mật trang bị khuôn mặt, võng mạc ngày khai thác tối đa, trở thành phần thiếu sống đại Nhận dạng mẫu ứng dụng phổ biến lĩnh vực phân tích nhận dạng ảnh tài liệu, có nguồn gốc từ hệ thống nhận dạng ký tự quang học, nhằm số hố tài liệu, thơng tin cá nhân Cho đến nay, tốn phân tích nhận dạng ảnh tài liệu giải gần trọn vẹn có sản phẩm thương mại 22 Luận văn tập trung nghiên cứu nhận dạng văn cho ảnh có cấu trúc, ứng dụng nhận dạng chứng minh thư nhân dân dựa tập liệu thu thập Kết Luận văn gồm: - Nghiên cứu thuật toán học máy cho toán đọc ký tự quang học - Nghiên cứu phương pháp nâng cao độ xác cải thiện tốc độ xử lý toán - Thử nghiệm xây dựng ứng dụng hỗ trợ người dùng ... nghiên cứu nhận dạng văn cho ảnh có cấu trúc, ứng dụng nhận dạng chứng minh thư nhân dân dựa tập liệu thu thập Kết Luận văn gồm: - Nghiên cứu thuật toán học máy cho toán đọc ký tự quang học -... trọng mơ hình nhận dạng ký tự với kiến trúc tiếng LSTM, CTC Attention 1.3 Mơ tả tốn nhận dạng chứng minh nhân dân Với toán nhận diện ký tự quang học cho liệu ảnh chứng minh thư, có nhiều quy trình... ? ?Nhận dạng ký tự quang cho văn có cấu trúc, ứng dụng đọc chứng minh thư nhân dân? ?? hướng dẫn TS Nguyễn Trọng Khánh Luận văn tập trung nghiên cứu, giải vấn đề liên quan đến tốn phân tích cấu trúc,

Định dạng
Số trang	24
Dung lượng	594,21 KB