(Luận văn) nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu

BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN PHẠM VĂN DƯƠNG HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ lu an Phạm Văn Dương n va p ie gh tn to w NGHIÊN CỨU BÀI TỐN BĨC TÁCH THƠNG TIN d oa nl ll u nf va an lu LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH oi m z at nh HỆ THỐNG THÔNG TIN TRONG CHỨNG MINH THƯ SỬ DỤNG HỌC SÂU z m co l gm @ an Lu 2021 Hà Nội – 2021 n va ac th si BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ lu Phạm Văn Dương an n va tn to p ie gh NGHIÊN CỨU BÀI TỐN BĨC TÁCH THÔNG TIN TRONG CHỨNG MINH THƯ SỬ DỤNG HỌC SÂU d oa nl w an lu Mã số: 8480104 ll u nf va Chuyên ngành : Hệ thống thông tin oi m z at nh LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH z gm @ NGƯỜI HƯỚNG DẪN KHOA HỌC : l m co PGS.TS NGÔ QUỐC TẠO an Lu Hà Nội – 2021 n va ac th si LỜI CAM ĐOAN Tôi Phạm Văn Dương, học viên khóa 2019B, ngành Máy tính, chun ngành Hệ thống thông tin Tôi xin cam đoan luận văn “Nghiên cứu tốn bóc tách thơng tin chứng minh thư sử dụng học sâu” nghiên cứu, tìm hiểu phát triển hướng dẫn PGS.TS Ngô Quốc Tạo, chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày năm 2021 tháng lu Tác giả an n va tn to p ie gh Phạm Văn Dương d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Lời cảm ơn trân trọng Tôi muốn dành tới thầy cô Học viện khoa học công nghệ Việt Nam, Viện công nghệ thông tin, Viện Hàn lâm khoa học công nghệ Việt Nam nói chung thầy môn Hệ thống thông tin khoa Công nghệ thơng tin nói riêng tận tình giảng dạy truyền đạt kiến thức quý báu suốt khoá cao học vừa qua, giúp tơi có kiến thức chuyên môn tảng để làm sở lý luận khoa học cho luận văn Đặc biệt Tôi xin chân thành cảm ơn thầy PGS.TS Ngô Quốc Tạo dìu lu dắt hướng dẫn tơi suốt q trình làm luận văn, bảo định hướng an thầy giúp tự tin nghiên cứu vấn đề giải toán n va cách khoa học gh tn to Tôi xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt p ie Nam - Viện Hàn lâm khoa học công nghệ Việt Nam tạo điều kiện cho w học tập làm luận văn cách thuận lợi oa nl Tôi xin cảm ơn hỗ trợ nhiệm vụ: “Hỗ trợ hoạt động nghiên cứu khoa d học cho nghiên cứu viên cao cấp năm 2021” mã số: nvcc02.01/21-21 Viện lu va an Hàn lâm Khoa học Công nghệ Việt Nam (VAST), Hà Nội, Việt Nam ll u nf Mặc dù cố gắng nhiều, chắn trình học tập oi m luận văn khơng khỏi thiết sót Tơi mong thông cảm z at nh bảo tận tình thầy bạn Hà Nội, ngày tháng năm 2021 z Tác giả m co l gm @ an Lu Phạm Văn Dương n va ac th si MỤC LỤC DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .8 MỞ ĐẦU .10 CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN, NHẬN DẠNG KÝ TỰ, SỰ PHÁT TRIỂN CỦA HỌC MÁY VÀ HỌC SÂU .12 1.1 Tổng quan phát nhận dạng ký tự 12 1.2 Sự phát triển học máy học sâu .13 1.3 Kết luận chương 17 lu CHƯƠNG GIỚI THIỆU VỀ MẠNG CONVOLUTION NEURAL NETWORK 18 an 2.1 Giới thiệu sơ lược CNN 18 va n 2.2 Convolution Layer – Tầng Tích Chập 18 gh tn to 2.3 Strides – Bước nhảy 20 p ie 2.4 Padding – Đệm 21 w 2.5 Non Linearity (ReLU) – Phi tuyến tính 21 oa nl 2.6 Pooling Layer – Tầng gộp 22 d 2.7 Full Connected Layer – Tầng kết nối đầy đủ 23 lu va an 2.8 Kết luận chương 23 ll u nf CHƯƠNG MƠ HÌNH MẠNG PIXELLINK CHO PHÁT HIỆN VĂN BẢN 24 oi m 3.1 Cấu trúc mạng 24 z at nh 3.2 Kết nối điểm ảnh 27 3.3 Tối ưu .27 z 3.3.1 Tính tốn vùng xác .27 @ gm 3.3.2 Hàm mát .28 l 3.4 Chuẩn bị liệu đào tạo .30 m co 3.4.1 Chuẩn bị liệu 30 an Lu 3.4.2 Dữ liệu thật: 31 3.4.3 Dữ liệu sinh .32 n va 3.4.4 Tiền xử lý liệu: 33 ac th si 3.4.5 Quá trình đào tạo 34 3.4.6 Tối ưu: 34 Kết đạt được: .35 3.4.7 3.4.8 Hạn chế mơ hình 35 3.5 Kết luận chương 36 CHƯƠNG GIỚI THIỆU VỀ CONVOLUTION RECURRENT NEURAL NETWORK 37 4.1 Giới thiệu toán lợi CRNN 37 4.2 Cấu trúc 38 4.3 Tầng trích xuất đặc trưng chuỗi 39 4.4 Gán nhãn trình tự 39 lu 4.5 Tầng Transcription 45 an n va 4.6 Hàm mát .47 Cách tạo liệu đào tạo .49 4.7.1 gh tn to 4.7 Tóm tắt cấu trúc mơ hình 48 Dữ liệu thật 49 4.7.3 Dữ liệu sinh .49 p ie 4.7.2 Hạn chế mô hình .49 nl w 4.7.4 d oa 4.8 Kết luận chương 50 an lu CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ .51 u nf va 5.1 Bài toán 51 ll 5.2 Mơ hình giải tốn .51 m oi 5.3 Môi trường cài đặt .52 z at nh 5.4 Dữ liệu kiểm thử 52 z 5.5 Kết thực nghiệm 53 @ gm KẾT LUẬN 55 m co l TÀI LIỆU THAM KHẢO .57 an Lu n va ac th si DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải lu an Convolutional Neural Network Mạng nơ-ron tích chập RNN Recurrent Neural Nework Mạng nơ-ron hồi quy CRNN Convolutional Recurrent Mạng nơ-ron hồi quy Neural Nework xoắn LSTM Long Short-term Memory Bộ nhớ ngắn hạn dài AI Artifical Intelligence Trí tuệ nhân tạo ML Machine Learning Học máy Deep Learning Học sâu Neural Network Mạng nơ-ron Optical Character Recognition Nhận dạng ký tự quang n va CNN gh tn to DL p ie OCR d oa nl w NN ll u nf va an lu học oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.0.1 Quá trình nhận dạng 10 Hình 1.0.2 Mối quan hệ giưa AI, ML, DL 11 Hình 1.0.3 Các giai đoạn AI 12 Hình 2.0.1 Mơ hình CNN sử dụng cho toán phân loại 14 Hình 2.0.2 Nhân ma trận ảnh với lọc 15 Hình 2.0.3 Ma trận lọc 15 Hình 2.0.4 Kết thực phép nhân 15 lu Hình 2.0.5 Đầu ma trận có bước nhảy hai 16 an Hình 2.0.6 Hoạt động hàm ReLU 17 va n Hình 2.0.7 Max Pooling 17 gh tn to Hình 2.0.8 Mơ tả tầng kết nối đầy đủ 18 p ie Hình 3.0.1 Mơ hình mạng VGG16 20 Hình 3.0.2 Quá trình Pixellink 21 oa nl w Hình 3.0.3 Các hộp với diện tích khác 23 d Hình 3.0.4 Hình minh họa trình xác định hộp 25 an lu Hình 3.0.5 Dữ liệu sinh 27 u nf va Hình 3.0.6 Nhãn liệu sinh 28 ll Hình 3.0.7 Hàm mát phân loại điểm ảnh 29 m oi Hình 3.8 hàm mát liên kết 29 z at nh Hình 3.0.9 Hình kết mơ hình Pixellink 29 Hình 3.0.10 Hình miêu tả hạn chế 30 z gm @ Hình 4.0.1 Cấu trúc mạng CRNN 32 l Hình 4.0.2 Mơ hình RNN 33 m co Hình 4.0.3 Cấu trúc mạng LSTM 34 an Lu Hình 4.0.4 Hình minh họa thơng tin truyền 35 Hình 4.0.5 Tầng mạng phép nhân 35 n va ac th si Hình 4.0.6 Hình minh họa cổng quên 36 Hình 4.0.7 Hình mơ tả cập nhật khối 37 Hình 4.0.8 Hình mơ tả q trình cập nhật trạng thái 37 Hình 4.0.9 Hình mơ tả qúa trình xác định đầu 45 Hình 4.0.10 Hình họa chọn giá trị có xác suất cao 47 Hình 4.0.11 Hình họa chọn giá trị có xác suất cao 49 Hình 5.0.1 Giao diện chương trình truy cập 52 Hình 5.0.2 Giao diện chương trình tải ảnh CMT thành cơng 52 Hình 5.0.3 Giao diện chương trình sau kết 53 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Nhận dạng mẫu ngành khoa học học máy (hay trí tuệ nhân tạo) nhằm phân loại liệu (các mẫu) vào số lớp Mẫu thực thể cần nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khn mặt, tiếng nói, hình dạng,… Cùng với phát triển khoa học kỹ thuật, ứng dụng nhận dạng mẫu ngày mở rộng, từ việc tự động hoá số quy trình sản xuất cơng nghiệp dự báo thời tiết, dự báo cháy rừng phần quan trọng hệ thống máy tính thơng minh… Một ứng dụng phổ biến nhận dạng mẫu phân tích nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), lu an nhằm số hoá trang tài liệu giấy sách, báo, tạp chí,… Cho đến nay, tốn n va phân tích nhận dạng ảnh tài liệu giải gần trọn vẹn tn to có sản phẩm thương mại, VnDOCR Viện công nghệ thông tin hay ie gh FineReader hãng ABBYY,… p Bên cạnh lớp tốn phân tích nhận dạng ảnh tài liệu cách tổng quát nl w cịn có lớp tốn riêng biệt cho ngành, lĩnh vực cụ thể, như: phân d oa tích nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ an lu chiếu,… Đối với lớp tốn việc phân tích cấu trúc ảnh tài liệu đặc va biệt quan trọng, định đến việc tách nhận dạng xác ll u nf trường thông tin cần thiết cho ứng dụng cụ thể oi m Trên giới có nhiều sản phẩm phần mềm phân tích nhận dạng ảnh thẻ z at nh chứa thông tin cá nhân (như hộ chiếu, danh thiếp,…) ứng dụng nhiều lĩnh vực, như: làm thủ tục hải quan, giao dịch cửa hàng, khách sạn,… Ở z @ Việt Nam loại thẻ chứa thông tin nhân sử dụng nhiểu Giấy chứng l gm minh nhân dân (CMND) Do đó, luận văn này, tơi xin đề xuất phương pháp lý hình ảnh thơng minh m co phân tích ảnh CMND dựa việc phân tích nhận dạng biểu mẫu với kỹ thuật xử an Lu n va ac th 10 si Hình 4.0.5 Tầng mạng phép nhân Số lượng thông tin qua định hàm số 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 , miền giá trị hàm 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 nằm khoảng [0,1] Nếu khơng cho thơng tin qua, lu an nghĩa cho tất thông tin qua n va Để cho tiết LSTM sâu vào bên LSTM to tn Đầu tiên đưa định thông tin cần bỏ từ khối Điều thực ie gh hàm 𝑠𝑖𝑔𝑚𝑜𝑖𝑑, hay gọi với tên khác “tầng cổng quên” Với đầu vào p ℎ𝑡−1 𝑥𝑡 qua hàm 𝑠𝑖𝑔𝑚𝑜𝑖𝑑, kết hàm 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 số thuộc d oa nl w [0, 1] định lượng thông tin qua ll u nf va an lu oi m z at nh z @ PT 5.0 m co 𝑓𝑡 = 𝜎(𝑊𝑓 [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑓 ) l gm Hình 4.0.6 Hình minh họa cổng quên an Lu n va ac th 43 si Sau định thông tin qua cổng hay không bước xem xét thơng tin lưu lại khối Ở bước chia thành hai phần • Sử dụng sigmoid để định thông tin cập nhật, biến đổi thông tin cách sử dụng hàm tạo giá trị để cập nhật trạng thái • Sử dụng kết để cập nhật trạng thái khối lu an n va p ie gh tn to d oa nl w Hình 4.0.7 Hình mơ tả cập nhật khối an lu 𝑖𝑡 = 𝜎(𝑊𝑖 [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑖 ) PT 5.2 u nf va 𝐶̃𝑡 = (𝑊𝑐 [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑐 ) ll Như trạng thái 𝐶𝑡−1 cũ trước cập nhật thành trạng thái 𝐶𝑡 Bằng m oi cách nhân trang thái cũ với ft, ft định lượng thơng tin qn, sau thêm z at nh thông tin vào, tức cộng thêm 𝑖𝑡 ∗ 𝐶̃𝑡 Như trạng thái phụ thuộc nhiều z vào định trước m co l gm @ an Lu n va ac th 44 si Hình 4.0.8 Hình mơ tả q trình cập nhật trạng thái Phương trình tương đương lu an 𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + 𝑖𝑡 ∗ 𝐶̃𝑡 PT5.4 va n Mỗi trạng thái khối định giá trị đầu ra, để xác định giá trị đầu cần to gh tn thực bước sau p ie • Dùng tầng sigmoid để xác định thông tin cần đưa từ khối, sử dụng hàm 𝑡𝑎𝑛ℎ w chuyển trạng thái tế bào khoảng [-1, 1] d oa nl • Thực phép nhân kết thực hàm với giá trị đầu ll u nf va an lu oi m z at nh z m co l gm @ Hình 4.0.9 Hình mơ tả qúa trình xác định đầu an Lu 4.5 Tầng Transcription n va ac th 45 si Tầng transcription trình chuyển kết dự đốn RNN sang chuỗi dự đốn Ở đây, transcription tìm nhãn với xác suất lớn dự đoán frame Trong thực tế tồn hai mơ hình để thực việc chuyển đổi từ xác suất dự đoán sang nhãn tương ứng, lexicon-free lexicon-based Trong lexicon tập chuỗi có nhãn cố định Người ta sử dụng CTC cho trình đào đạo q trình dự đốn, phương pháp đề xuất Graves Sau trình bày phương pháp Phương pháp bao gồm hai q trình mã hóa giải mã văn bản, trình từ chuỗi xác suất đưa chuỗi văn gọi q trình giải mã, khơng giống q trình đào tạo sử dụng mã hóa, biết nhãn chuỗi trước Quá lu an trình giả mã khác trình đào tạo chỗ có mơ hình đào n va tạo sử dụng để nhận dạng văn khơng nhìn thấy trước đó, nghĩa tn to chúng dựa vào ma trận đầu mạng để xác định chuỗi Nhưng chưa biết gh nhãn thực tế nó, mà mong muốn mơ hình xác định nhãn Nếu thử tất p ie trường hợp có vài chuỗi cố định, thực tế khơng thể w sử dụng cách Sử dụng thuật tốn đơn giản cho kết tốt với thực oa nl tế, gồm hai bước sau d • Tìm chuỗi tốt cách lấy kí tự có xác suất cao tầng frame an lu u nf va • Xóa bỏ tất “blank” từ chuỗi ll Ví dụ: Các kí tự “a”, “b” “-”(blank) m oi Nhìn vào hình dưới, giả sử có đặc trưng chuỗi, áp dụng đường mã hóa tốt từ z at nh ma trận, to kí tự phù hợp “a” tương tự với t1 , t2 blank có điểm số cao z t3 , cuối t4 “b” Như kết nhận “aaa-b”, sau xóa gm @ bỏ kí tự lặp lại gần kết đạt “a-b”, sau xóa bỏ m co l blank kết thu “ab” Vậy đầu nhận dạng chuỗi “ab” an Lu n va ac th 46 si lu an n va gh tn to p ie Hình 4.0.10 Hình họa chọn giá trị có xác suất cao nl w Nhưng kết cách xấp xỉ, dễ dàng nhận kết từ cách trên, an lu 4.6 Hàm mát d oa nhiên thuật toán xấp xỉ thường cho kết tốt với thực tế ll ảnh tương ứng, hàm tối ưu u nf va Định nghĩa tập đào tạo 𝜒 = {𝐼𝑖 , 𝑙𝑖 }𝑖 𝑙𝑖 ảnh cho đào tạo, 𝑙𝑖 nhãn oi m z at nh 𝛿 = − ∑ 𝑙𝑜𝑔𝑝(𝐼𝑖 | 𝑦𝑖 ) 𝐼𝑖 ,𝑙𝑖 𝜖𝜒 z PT 5.7 @ l gm Trong chuỗi sinh recunrrent convolution từ 𝐼𝑖 m co Nhận thấy đầu vào hàm mát mạng ảnh nhãn nội dung ảnh an Lu n va ac th 47 si 4.7 Tóm tắt cấu trúc mơ hình Cấu hình Transcription - Bidirectional-LSTM hidden units:256 Bidirectional-LSTM hidden units:256 Map-to-Sequence - Convolution maps:512, k:2 × 2, s:1, p:0 MaxPooling Window:1 × 2, s:2 BatchNormalization - Convolution maps:512, k:3 × 3, s:1, p:1 BatchNormalization - lu Kiểu an n va p ie gh tn to maps:512, k:3 × 3, s:1, p:1 oa nl w Convolution MaxPooling Window:1 × 2, s:2 d maps:256, k:3 × 3, s:1, p:1 Convolution maps:256, k:3 × 3, s:1, p:1 ll u nf va an lu Convolution Window:2 × 2, s:2 oi m MaxPooling z at nh maps:128, k:3 × 3, s:1, p:1 MaxPooling Window:2 × 2, s:2 z Convolution @ maps:64, k:3 × 3, s:1, p:1 Input W × 32 gray-scale image m co l gm Convolution an Lu Bảng 4.2 Bảng thành phần mơ hình CRNN n va ac th 48 si 4.7.1 Cách tạo liệu đào tạo Như đề cập từ trước thành cơng mơ hình học máy hay học sâu phụ thuộc nhiều vào liệu chất lượng liệu Đầu vào mạng ảnh với độ cao cố định 512, nội dung vùng ảnh Do hạn chế liệu thời gian làm đa dạng liệu, liệu chia thành hai phần liệu thật liệu sinh 4.7.2 Dữ liệu thật Tận dụng liệu gán nhãn việc đào tạo mơ hình pixellink, có chút thay đổi, đầu vào mạng ảnh có chiều cao 512 vùng nhãn lu nội dung vùng ảnh đó, nên sau cắt vùng ảnh từ ảnh gốc cần thay đổi an n va kích thước vùng ảnh phù hợp với kích thước đầu vào p ie gh tn to Ví dụ ảnh đầu vào nhãn của vùng Ảnh đầu vào: w Hình 4.0.11 Hình ví dụ ảnh đầu vào an lu 4.7.3 Dữ liệu sinh d oa nl Nhãn là: 459709241360 u nf va Sử dụng kỹ thuật xử lý ảnh để vẽ nội dung lên ảnh, trình muốn tạo đa dạng liệu đào tạo nên sử dụng thêm kỹ thuật ll oi m xử lý ảnh để tạo mẫu giống với liệu thực tế z at nh Tổng số liệu thật 1000 ảnh z Dữ liệu sinh tự động lúc đào tạo với tỉ lệ xác suất dùng ảnh thật để đào @ gm tạo 0.7, tỉ lệ xác suất dùng ảnh sinh để đào tạo 0.3, trình sinh tự động an Lu 4.7.4 Hạn chế mơ hình m co tạo l tránh việc chiếm nhiều nhớ, sinh nhiêu đưa vào đào n va ac th 49 si Bên cạnh điểm lợi trình đào tạo dự đoán dự vào đầu vào ảnh, bên cạnh mơ hình gặp số hạn chế định toán với phông chữ khác phải đào tạo phông tương ứng gần giống, lỗi thường gặp dự đốn sai kí tự có phân phối gần giống cặp sau: • Chữ “l” số “1” • Số “3” số “8” • Chữ “p” chữ “q” Những chữ phơng khác có phân phối gần thường lu bị nhầm, chuỗi dài xác suất tồn chữ chuỗi bị hạn an va chế, nên số tốn thực tế ứng sau bước cần phải chỉnh sửa n thông tin để kết đạt tốt tn to ie gh 4.8 Kết luận chương p Trong chương luận văn nghiên cứu mạng nơ ron hồi quy xoắn, nl w Convolution recurren neural network(CRNN) mạng nơ ron sử dụng học sâu an lu Có thể học trực tiếp chuỗi mà khơng cần xác vị trí phần tử chuỗi ll u nf va - d cấu trúc khác: oa với kết hợp DCNN RNN tạo nên cấu trúc CRNN với lợi m Có thể trích xuất trực tiếp đặc trưng từ ảnh không yêu cầu xử lý thủ công oi - z at nh tiền xử lý Có tính chất RNN sinh chuỗi đối tượng - Không bị ràng buộc độ dài chuỗi, yêu cầu chuẩn hóa chiều cao z - m co l - gm @ hai trình đào tạo kiểm tra Cần tham số mạng DCNN tiêu chuẩn, tiêu tốn nhớ an Lu n va ac th 50 si CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ Trong chương luận văn mơ tả cách q trình cài đặt thử nghiệm thuật toán, kết đạt liệu khác 5.1 Bài toán Xây dựng chương trình cài đặt thử nghiệm, chương trình cho phép người dùng tải lên hình ảnh mặt trước chứng minh thư nhân dân Chương trình bóc tách thông tin chứng minh thư sử dụng học sâu với thông tin: lu an n va Số Chứng minh thư nhân dân - Họ tên - Ngày sinh - Địa thường trú tn to - gh Mục đích chương trình hỗ trợ việc số hóa thơng tin chứng minh p ie thư nhân dân sử dụng thuật toán học sâu d oa nl w 5.2 Mơ hình giải toán ll u nf va an lu oi m z at nh z m co l gm @ an Lu Bước 1: Tiền xử lý n va ac th 51 si Giai đoạn tiền xử lý nhằm tăng độ xác hệ thống nhận dạng Vì quét ảnh thường gặp loại nhiễu, kích thước ảnh khơng đồng nhất, hình ảnh khơng chụp trực diện Nên bước tiến hành chuẩn hóa lại kích thước hình ảnh đầu vào, khử nhiễu để tăng độ xác cho thuật tốn Bước Trích chọn đặc trưng Để thực trích chọn đặc trưng, hệ thống sử dụng thuật toán Pixel Link để thực việc chọn đặc trưng hình ảnh đưa vào vào phần mềm Vì đối tượng có đặc điểm riêng nên bước giúp ta trích chọn đặc tính riêng để phục vụ cho bước nhận dạng phía sau lu an Bước Nhận dạng n va to Để nhận dạng phần mềm sử dụng học sâu với CRNN để thực nhận dạng ký tự ie gh tn ảnh đặc trưng p Sau mẫu liệu qua bước tiền xử lý trích chọn đặc trưng, dựa vào giá nl w trị tham số thu huấn luyện ta sử dụng thuật toán CRNN để thực việc d oa việc xác định nhận dạng ký tự u nf va an lu 5.3 Mơi trường cài đặt Thuật tốn thử nghiệm cài đặt ngơn ngữ lập trình Python [10] [11] ll z at nh ảnh thao tác xử lý ảnh oi m [12] (Microsoft Visual Studio), sử dụng thư viện xử lý ảnh Opencv cho việc đọc/ghi Chương trình thử nghiệm máy laptop Geforce GTX 1060, core i5, m co l gm @ 5.4 Dữ liệu kiểm thử z nhớ RAM 8,0 GB Chương trình thử nghiệm tập 100 ảnh CMND quét với độ phân an Lu giải 300dpi, kiểu ảnh mầu Các mẫu CMND lấy từ nhiều tỉnh thành khác qua mạng internet, đơn vị cấp CMND khác Mặc dù CMND in theo n va ac th 52 si mẫu chung có khác đơn vị cấp kích thước kiểu chữ, vị trí tương đối trường thông tin, … 5.5 Kết thực nghiệm Phần mềm cài đặt chạy thử nghiệm với kết quả: lu an n va p ie gh tn to w d oa nl Hình 5.0.1 Giao diện chương trình truy cập ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 5.0.2 Giao diện chương trình tải ảnh CMT thành cơng n va ac th 53 si lu an n va Hình 5.0.3 Giao diện chương trình sau kết p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th 54 si KẾT LUẬN Quá trình hồn thành luận văn, tơi nghiên cứu nhiều kiến thức trình xây dựng mơ hình học sâu, từ q trình tạo thu thập liệu, đến q trình đào tạo mơ hình đánh giá mơ hình Học sâu lĩnh vực phát triển mạnh mẽ với đầu tư nghiên cứu nhà khoa học, báo liên đến kỹ thuật OCR ý nhiều, qua giúp học cách tiếp cận cập nhật kiến thức cách nhanh chóng liên tục Qua q trình nghiên cứu tơi thí nghiệm bóc tách thông tin từ chứng minh thư sử dụng mơ hình học sâu, tơi nhận thấy đạt số kết sau: lu an + Nắm bắt bước hệ thống xử lý ảnh, hiểu khái n va niệm xử lý ảnh với thuật toán học sâu Thấy vai trò quan trọng học tn to sâu xử lý ảnh hệ nhận dạng, bước tiền xử lý nhằm nâng ie gh cao chất lượng nhận dạng p + Tìm hiểu tổng qt hố phương pháp phân tích ảnh tài liệu, nắm nl w ưu nhược điểm phương pháp Từ đưa giải pháp oa cho toán đặt luận văn d + Đã áp dụng thành công kiến thức tìm hiểu vào cài đặt thử nghiệm an lu va chương trình phân tích ảnh CMND Kết chương trình đạt tốt ll u nf áp dụng vào thực tế oi m Tuy nhiên, thời gian làm luận văn hạn chế, khối lượng công việc lớn nên z at nh nhiều vấn đề tồn chưa giải quyết: + Một số trường hợp bị phần thông tin coi nhiễu z phần thơng tin trường Thuật tốn thất bại trường hợp trường @ m co CMND l gm thông tin in/dập vào CMND bị lệch góc đánh kể so với dịng in sẵn + Chương trình dừng lại bước thử nghiệm, chưa phải chương trình an Lu hồn chỉnh, đầy đủ tính n va ac th 55 si + Thuật toán dừng lại việc phân tích ảnh CMND, chưa khái hoá cho ảnh thẻ Hướng phát triển là, tiếp tục nghiên cứu hoàn thiện chương trình để áp dụng vào thực tế Mở rộng tính chương trình (như thêm phần nhận dạng, kiểm lỗi tả) để thành chương trình hồn chỉnh Khái qt hố thuật tốn để xử lý ảnh thẻ khác lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th 56 si TÀI LIỆU THAM KHẢO [1] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee Character Region Awareness for Text Detection 2019 [2] Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao Detecting Text in Natural Image with Connectionist Text Proposal Network 2016 [3] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg SSD: Single Shot MultiBox Detector 2015 [4] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi You Only Look Once: Unified, Real-Time Object Detection 2015 lu an [5] Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai PixelLink: Detecting Scene va n Text via Instance Segmentation 2018 to gh tn [6] Chengquan, Zhang Multi-oriented Text Detection with Fully Convolutional p ie Networks 2016 w [7] Abhinav Shrivastava, Abhinav Gupta, Ross Girshick Raining Region- oa nl based Object Detectors with Online Hard Example Mining 2016 d [8] Benteng Ma, Yong Xia Autonomous Deep Learning: A Genetic DCNN an lu Designer for Image Classification 2018 u nf va [9] Baoguang Shi, Xiang Bai, Cong Yao An End-to-End Trainable Neural ll z at nh Text Recognition 2015 oi m Network for Image-based Sequence Recognition and Its Application to Scene [10] Machine Learning in Python, https://scikit-learn.org/stable/ z gm @ [11] Satya Mallick Support Vector Machines (SVM) m co l https://www.learnopencv.com/support-vector-machines-svm [12] Kushashwa Ravi Shrimali SVM using Scikit-Learn in Python an Lu https://www.learnopencv.com/svm-using-scikit-learn-in-python n va ac th 57 si

Định dạng
Số trang	57
Dung lượng	1,83 MB