Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,11 MB
Nội dung
BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN PHẠM VĂN DƯƠNG HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Phạm Văn Dương NGHIÊN CỨU BÀI TỐN BĨC TÁCH THƠNG TIN HỆ THỐNG THƠNG TIN TRONG CHỨNG MINH THƯ SỬ DỤNG HỌC SÂU LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH 202 Hà Nội – 2021 BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Phạm Văn Dương NGHIÊN CỨU BÀI TỐN BĨC TÁCH THƠNG TIN TRONG CHỨNG MINH THƯ SỬ DỤNG HỌC SÂU Chuyên ngành : Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH N G Ư Ờ I H Ư Ớ N G D Ẫ N K H O A H Ọ C : PGS.TS NGÔ QUỐC TẠO Hà Nội – 202 LỜI CAM ĐOAN Tôi Phạm Văn Dương, học viên khóa 2019B, ngành Máy tính, chun ngành Hệ thống thông tin Tôi xin cam đoan luận văn “Nghiên cứu tốn bóc tách thơng tin chứng minh thư sử dụng học sâu” tơi nghiên cứu, tìm hiểu phát triển hướng dẫn PGS.TS Ngô Quốc Tạo, chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2021 Tác giả Phạm Văn Dương LỜI CẢM ƠN Lời cảm ơn trân trọng Tôi muốn dành tới thầy cô Học viện khoa học công nghệ Việt Nam, Viện công nghệ thông tin, Viện Hàn lâm khoa học công nghệ Việt Nam nói chung thầy mơn Hệ thống thông tin khoa Công nghệ thông tin nói riêng tận tình giảng dạy truyền đạt kiến thức quý báu suốt khoá cao học vừa qua, giúp tơi có kiến thức chun môn tảng để làm sở lý luận khoa học cho luận văn Đặc biệt Tôi xin chân thành cảm ơn thầy PGS.TS Ngơ Quốc Tạo dìu dắt hướng dẫn tơi suốt q trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải tốn cách khoa học Tơi xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt Nam - Viện Hàn lâm khoa học công nghệ Việt Nam tạo điều kiện cho học tập làm luận văn cách thuận lợi Tôi xin cảm ơn hỗ trợ nhiệm vụ: “Hỗ trợ hoạt động nghiên cứu khoa học cho nghiên cứu viên cao cấp năm 2021” mã số: nvcc02.01/21-21 Viện Hàn lâm Khoa học Công nghệ Việt Nam (VAST), Hà Nội, Việt Nam Mặc dù cố gắng nhiều, chắn q trình học tập luận văn khơng khỏi thiết sót Tơi mong thơng cảm bảo tận tình thầy bạn Phạm Văn Dương MỤC LỤC DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN, NHẬN DẠNG KÝ TỰ, SỰ PHÁT TRIỂN CỦA HỌC MÁY VÀ HỌC SÂU 1.1Tổng quan phát nhận dạng ký tự 1.2Sự phát triển học máy học sâu 1.3Kết luận chương CHƯƠNG GIỚI THIỆU VỀ MẠNG CONVOLUTION NEURAL NETWORK 2.1Giới thiệu sơ lược CNN 2.2Convolution Layer – Tầng Tích Chập 2.3Strides – Bước nhảy 2.4Padding – Đệm 2.5Non Linearity (ReLU) – Phi tuyến tính 2.6Pooling Layer – Tầng gộp 2.7Full Connected Layer – Tầng kết nối đầy đủ 2.8Kết luận chương CHƯƠNG MÔ HÌNH MẠNG PIXELLINK CHO PHÁT HIỆN VĂN BẢN 3.1Cấu trúc mạng 3.2Kết nối điểm ảnh 3.3Tối ưu 3.3.1Tính tốn vùng xác 3.3.2Hàm mát 3.4Chuẩn bị liệu đào tạo 3.4.1Chuẩn bị liệu 3.4.2Dữ liệu thật: 3.4.3Dữ liệu sinh 3.4.4Tiền xử lý liệu: 3.4.5 Quá trình đào tạo 3.4.6 Tối ưu: 3.4.7 Kết đạt được: 3.4.8 Hạn chế mơ hình 3.5 Kết luận chương CHƯƠNG GIỚI THIỆU VỀ CONVOLUTION RECURRENT NEURAL NETWORK 4.1 Giới thiệu toán lợi CRNN 4.2 Cấu trúc 4.3 Tầng trích xuất đặc trưng chuỗi 4.4 Gán nhãn trình tự 4.5 Tầng Transcription 4.6 Hàm mát 4.7 Tóm tắt cấu trúc mơ hình 4.7.1 Cách tạo liệu đào t 4.7.2 Dữ liệu thật 4.7.3 Dữ liệu sinh 4.7.4 Hạn chế mô hình 4.8 Kết luận chương CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ 5.1 Bài toán 5.2 Mơ hình giải tốn 5.3 Môi trường cài đặt 5.4 Dữ liệu kiểm thử 5.5 Kết thực nghiệm KẾT LUẬN TÀI LIỆU THAM KHẢO DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt CNN RNN CRNN LSTM AI ML DL NN OCR DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.0.1 Quá trình nhận dạng 10 Hình 1.0.2 Mối quan hệ giưa AI, ML, DL 11 Hình 1.0.3 Các giai đoạn AI 12 Hình 2.0.1 Mơ hình CNN sử dụng cho tốn phân loại 14 Hình 2.0.2 Nhân ma trận ảnh với lọc 15 Hình 2.0.3 Ma trận lọc 15 Hình 2.0.4 Kết thực phép nhân 15 Hình 2.0.5 Đầu ma trận có bước nhảy hai 16 Hình 2.0.6 Hoạt động hàm ReLU 17 Hình 2.0.7 Max Pooling .17 Hình 2.0.8 Mô tả tầng kết nối đầy đủ 18 Hình 3.0.1 Mơ hình mạng VGG16 .20 Hình 3.0.2 Quá trình Pixellink .21 Hình 3.0.3 Các hộp với diện tích khác 23 Hình 3.0.4 Hình minh họa trình xác định hộp 25 Hình 3.0.5 Dữ liệu sinh 27 Hình 3.0.6 Nhãn liệu sinh .28 Hình 3.0.7 Hàm mát phân loại điểm ảnh .29 Hình 3.8 hàm mát liên kết 29 Hình 3.0.9 Hình kết mơ hình Pixellink 29 Hình 3.0.10 Hình miêu tả hạn chế 30 Hình 4.0.1 Cấu trúc mạng CRNN 32 Hình 4.0.2 Mơ hình RNN 33 Hình 4.0.3 Cấu trúc mạng LSTM .34 Hình 4.0.4 Hình minh họa thông tin truyền 35 Hình 4.0.5 Tầng mạng phép nhân 35 Hình 4.0.6 Hình minh họa cổng quên 36 Hình 4.0.7 Hình mô tả cập nhật khối 37 Hình 4.0.8 Hình mơ tả trình cập nhật trạng thái 37 Hình 4.0.9 Hình mơ tả qúa trình xác định đầu 45 Hình 4.0.10 Hình họa chọn giá trị có xác suất cao .47 Hình 4.0.11 Hình họa chọn giá trị có xác suất cao .49 Hình 5.0.1 Giao diện chương trình truy cập 52 Hình 5.0.2 Giao diện chương trình tải ảnh CMT thành cơng 52 Hình 5.0.3 Giao diện chương trình sau kết 53 Hình 4.0.5 Tầng mạng phép nhân Số lượng thơng tin qua định hàm số , miền giá trị hàm nằm khoảng [0,1] Nếu khơng cho thơng tin qua, nghĩa cho tất thông tin qua Để cho tiết LSTM sâu vào bên LSTM Đầu tiên đưa định thông tin cần bỏ từ khối Điều thực hàm , hay gọi với tên khác “tầng cổng quên” Với đầu vào ℎ −1 qua hàm , kết hàm số thuộc [0, 1] định lượng thơng tin qua Hình 4.0.6 Hình minh họa cổng quên = ( [ℎ , ]+ PT 5.0 −1 ) 43 Sau định thơng tin qua cổng hay khơng bước xem xét thông tin lưu lại khối Ở bước chia thành hai phần • Sử dụng sigmoid để định thơng tin cập nhật, biến đổi thông tin cách sử dụng hàm tạo giá trị để cập nhật trạng thái • Sử dụng kết để cập nhật trạng thái khối Hình 4.0.7 Hình mơ tả cập nhật khối = ( [ℎ −1, ]+ ̃ = ( [ℎ Như trạng thái quên, sau thêm −1 cũ −1 trước cập nhật thành trạng thái Bằng cách nhân trang thái cũ với ft, ft định lượng thông tin thông tin vào, tức cộng thêm vào định trước ̃ Như trạng thái phụ thuộc nhiều ∗ 44 Hình 4.0.8 Hình mơ tả q trình cập nhật trạng thái Phương trình tương đương ̃ = ∗ −1 + PT5.4 ∗ Mỗi trạng thái khối định giá trị đầu ra, để xác định giá trị đầu cần thực bước sau • Dùng tầng sigmoid để xác định thông tin cần đưa từ khối, sử dụng hàm • Thực phép nhân kết thực hàm với giá trị ℎ chuyển trạng thái tế bào khoảng [-1, 1] đầu Hình 4.0.9 Hình mơ tả qúa trình xác định đầu 4.5 Tầng Transcription 45 Tầng transcription q trình chuyển kết dự đốn RNN sang chuỗi dự đốn Ở đây, transcription tìm nhãn với xác suất lớn dự đoán frame Trong thực tế tồn hai mơ hình để thực việc chuyển đổi từ xác suất dự đốn sang nhãn tương ứng, lexicon-free lexicon-based Trong lexicon tập chuỗi có nhãn cố định Người ta sử dụng CTC cho trình đào đạo q trình dự đốn, phương pháp đề xuất Graves Sau trình bày phương pháp Phương pháp bao gồm hai q trình mã hóa giải mã văn bản, trình từ chuỗi xác suất đưa chuỗi văn gọi trình giải mã, khơng giống q trình đào tạo sử dụng mã hóa, biết nhãn chuỗi trước Quá trình giả mã khác trình đào tạo chỗ có mơ hình đào tạo sử dụng để nhận dạng văn khơng nhìn thấy trước đó, nghĩa chúng dựa vào ma trận đầu mạng để xác định chuỗi Nhưng chưa biết nhãn thực tế nó, mà mong muốn mơ hình xác định nhãn Nếu thử tất trường hợp có vài chuỗi cố định, thực tế khơng thể sử dụng cách Sử dụng thuật tốn đơn giản cho kết tốt với thực tế, gồm hai bước sau • Tìm chuỗi tốt cách lấy kí tự có xác suất cao tầng frame • Xóa bỏ tất “blank” từ chuỗi Ví dụ: Các kí tự “a”, “b” “-”(blank) Nhìn vào hình dưới, giả sử có đặc trưng chuỗi, áp dụng đường mã hóa tốt từ ma trận, to kí tự phù hợp “a” tương tự với t1 , t2 blank có điểm số cao t3 , cuối t4 “b” Như kết nhận “aaa-b”, sau xóa bỏ kí tự lặp lại gần kết đạt “a-b”, sau xóa bỏ blank kết thu “ab” Vậy đầu nhận dạng chuỗi “ab” 46 Hình 4.0.10 Hình họa chọn giá trị có xác suất cao Nhưng kết cách xấp xỉ, dễ dàng nhận kết từ cách trên, nhiên thuật toán xấp xỉ thường cho kết tốt với thực tế 4.6 Hàm mát Định nghĩa tập đào tạo = { , } ảnh cho đào tạo, nhãn ảnh tương ứng, hàm tối ưu = ,− ∑ ( | ) PT 5.7 Trong chuỗi sinh recunrrent convolution từ Nhận thấy đầu vào hàm mát mạng ảnh nhãn nội dung ảnh 47 4.7 Tóm tắt cấu trúc mơ hình Bảng 4.2 Bảng thành phần mơ hình CRNN 48 4.7.1 Cách tạo liệu đào tạo Như đề cập từ trước thành cơng mơ hình học máy hay học sâu phụ thuộc nhiều vào liệu chất lượng liệu Đầu vào mạng ảnh với độ cao cố định 512, nội dung vùng ảnh Do hạn chế liệu thời gian làm đa dạng liệu, liệu chia thành hai phần liệu thật liệu sinh 4.7.2 Dữ liệu thật Tận dụng liệu gán nhãn việc đào tạo mơ hình pixellink, có chút thay đổi, đầu vào mạng ảnh có chiều cao 512 vùng nhãn nội dung vùng ảnh đó, nên sau cắt vùng ảnh từ ảnh gốc cần thay đổi kích thước vùng ảnh phù hợp với kích thước đầu vào Ví dụ ảnh đầu vào nhãn của vùng Ảnh đầu vào: Hình 4.0.11 Hình ví dụ ảnh đầu vào Nhãn là: 459709241360 4.7.3 Dữ liệu sinh Sử dụng kỹ thuật xử lý ảnh để vẽ nội dung lên ảnh, trình muốn tạo đa dạng liệu đào tạo nên sử dụng thêm kỹ thuật xử lý ảnh để tạo mẫu giống với liệu thực tế Tổng số liệu thật 1000 ảnh Dữ liệu sinh tự động lúc đào tạo với tỉ lệ xác suất dùng ảnh thật để đào tạo 0.7, tỉ lệ xác suất dùng ảnh sinh để đào tạo 0.3, trình sinh tự động tránh việc chiếm nhiều nhớ, sinh nhiêu đưa vào đào tạo 4.7.4 Hạn chế mơ hình 49 Bên cạnh điểm lợi q trình đào tạo dự đốn dự vào đầu vào ảnh, bên cạnh mơ hình gặp số hạn chế định tốn với phơng chữ khác phải đào tạo phông tương ứng gần giống, lỗi thường gặp dự đốn sai kí tự có phân phối gần giống cặp sau: • Chữ “l” số “1” • Số “3” số “8” • Chữ “p” chữ “q” Những chữ phơng khác có phân phối gần thường bị nhầm, chuỗi dài xác suất tồn chữ chuỗi bị hạn chế, nên số tốn thực tế ứng sau bước cần phải chỉnh sửa thông tin để kết đạt tốt 4.8 Kết luận chương Trong chương luận văn nghiên cứu mạng nơ ron hồi quy xoắn, Convolution recurren neural network(CRNN) mạng nơ ron sử dụng học sâu với kết hợp DCNN RNN tạo nên cấu trúc CRNN với lợi cấu trúc khác: - Có thể học trực tiếp chuỗi mà khơng cần xác vị trí phần tử chuỗi - Có thể trích xuất trực tiếp đặc trưng từ ảnh không yêu cầu xử lý thủ công tiền xử lý - Có tính chất RNN sinh chuỗi đối tượng - Không bị ràng buộc độ dài chuỗi, yêu cầu chuẩn hóa chiều cao hai trình đào tạo kiểm tra - Cần tham số mạng DCNN tiêu chuẩn, tiêu tốn nhớ 50 CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ Trong chương luận văn mô tả cách q trình cài đặt thử nghiệm thuật tốn, kết đạt liệu khác 5.1 Bài tốn Xây dựng chương trình cài đặt thử nghiệm, chương trình cho phép người dùng tải lên hình ảnh mặt trước chứng minh thư nhân dân Chương trình bóc tách thơng tin chứng minh thư sử dụng học sâu với thông tin: - Số Chứng minh thư nhân dân - Họ tên - Ngày sinh - Địa thường trú Mục đích chương trình hỗ trợ việc số hóa thơng tin chứng minh thư nhân dân sử dụng thuật tốn học sâu 5.2 Mơ hình giải toán Bước 1: Tiền xử lý 51 Giai đoạn tiền xử lý nhằm tăng độ xác hệ thống nhận dạng Vì quét ảnh thường gặp loại nhiễu, kích thước ảnh khơng đồng nhất, hình ảnh không chụp trực diện Nên bước tiến hành chuẩn hóa lại kích thước hình ảnh đầu vào, khử nhiễu để tăng độ xác cho thuật tốn Bước Trích chọn đặc trưng Để thực trích chọn đặc trưng, hệ thống sử dụng thuật toán Pixel Link để thực việc chọn đặc trưng hình ảnh đưa vào vào phần mềm Vì đối tượng có đặc điểm riêng nên bước giúp ta trích chọn đặc tính riêng để phục vụ cho bước nhận dạng phía sau Bước Nhận dạng Để nhận dạng phần mềm sử dụng học sâu với CRNN để thực nhận dạng ký tự ảnh đặc trưng Sau mẫu liệu qua bước tiền xử lý trích chọn đặc trưng, dựa vào giá trị tham số thu huấn luyện ta sử dụng thuật toán CRNN để thực việc việc xác định nhận dạng ký tự 5.3 Mơi trường cài đặt Thuật tốn thử nghiệm cài đặt ngơn ngữ lập trình Python [10] [11] [12] (Microsoft Visual Studio), sử dụng thư viện xử lý ảnh Opencv cho việc đọc/ghi ảnh thao tác xử lý ảnh Chương trình thử nghiệm máy laptop Geforce GTX 1060, core i5, nhớ RAM 8,0 GB 5.4 Dữ liệu kiểm thử Chương trình thử nghiệm tập 100 ảnh CMND quét với độ phân giải 300dpi, kiểu ảnh mầu Các mẫu CMND lấy từ nhiều tỉnh thành khác qua mạng internet, đơn vị cấp CMND khác Mặc dù CMND in theo 52 mẫu chung có khác đơn vị cấp kích thước kiểu chữ, vị trí tương đối trường thông tin, … 5.5 Kết thực nghiệm Phần mềm cài đặt chạy thử nghiệm với kết quả: Hình 5.0.1 Giao diện chương trình truy cập Hình 5.0.2 Giao diện chương trình tải ảnh CMT thành cơng 53 Hình 5.0.3 Giao diện chương trình sau kết 54 KẾT LUẬN Quá trình hồn thành luận văn, tơi nghiên cứu nhiều kiến thức q trình xây dựng mơ hình học sâu, từ trình tạo thu thập liệu, đến q trình đào tạo mơ hình đánh giá mơ hình Học sâu lĩnh vực phát triển mạnh mẽ với đầu tư nghiên cứu nhà khoa học, báo liên đến kỹ thuật OCR ý nhiều, qua giúp học cách tiếp cận cập nhật kiến thức cách nhanh chóng liên tục Qua q trình nghiên cứu tơi thí nghiệm bóc tách thông tin từ chứng minh thư sử dụng mô hình học sâu, tơi nhận thấy đạt số kết sau: + Nắm bắt bước hệ thống xử lý ảnh, hiểu khái niệm xử lý ảnh với thuật tốn học sâu Thấy vai trị quan trọng học sâu xử lý ảnh hệ nhận dạng, bước tiền xử lý nhằm nâng cao chất lượng nhận dạng + Tìm hiểu tổng qt hố phương pháp phân tích ảnh tài liệu, nắm ưu nhược điểm phương pháp Từ đưa giải pháp cho toán đặt luận văn + Đã áp dụng thành cơng kiến thức tìm hiểu vào cài đặt thử nghiệm chương trình phân tích ảnh CMND Kết chương trình đạt tốt áp dụng vào thực tế Tuy nhiên, thời gian làm luận văn hạn chế, khối lượng cơng việc lớn nên cịn nhiều vấn đề tồn chưa giải quyết: + Một số trường hợp bị phần thơng tin coi nhiễu phần thông tin trường Thuật toán thất bại trường hợp trường thơng tin in/dập vào CMND bị lệch góc đánh kể so với dòng in sẵn CMND + Chương trình dừng lại bước thử nghiệm, chưa phải chương trình hồn chỉnh, đầy đủ tính 55 + Thuật tốn dừng lại việc phân tích ảnh CMND, chưa khái hoá cho ảnh thẻ Hướng phát triển là, tiếp tục nghiên cứu hoàn thiện chương trình để áp dụng vào thực tế Mở rộng tính chương trình (như thêm phần nhận dạng, kiểm lỗi tả) để thành chương trình hồn chỉnh Khái qt hố thuật tốn để xử lý ảnh thẻ khác 56 [1] TÀI LIỆU THAM KHẢO Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee Character Region Awareness for Text Detection 2019 [2] Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao Detecting Text in Natural Image with Connectionist Text Proposal Network 2016 [3] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg SSD: Single Shot MultiBox Detector 2015 [4] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi You Only Look Once: Unified, Real-Time Object Detection 2015 [5] Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai PixelLink: Detecting Scene Text via Instance Segmentation 2018 [6] Chengquan, Zhang Multi-oriented Text Detection with Fully Convolutional Networks 2016 [7] Abhinav Shrivastava, Abhinav Gupta, Ross Girshick Raining Regionbased Object Detectors with Online Hard Example Mining 2016 [8] Benteng Ma, Yong Xia Autonomous Deep Learning: A Genetic DCNN Designer for Image Classification 2018 [9] Baoguang Shi, Xiang Bai, Cong Yao An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 2015 [10] [11] Machine Learning in Python, https://scikit-learn.org/stable/ Satya Mallick Support Vector Machines (SVM) https://www.learnopencv.com/support-vector-machines-svm [12] Kushashwa Ravi Shrimali SVM using Scikit-Learn in Python https://www.learnopencv.com/svm-using-scikit-learn-in-python 57 ... lựa chọn đề tài: “ Nghiên cứu tốn bóc tách thơng tin chứng minh thư sử dụng học sâu. ” Mục đích đề tài Với đề tài: “ Nghiên cứu tốn bóc tách thơng tin chứng minh thư sử dụng học sâu ” Luận văn tập... TẠO KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ Phạm Văn Dương NGHIÊN CỨU BÀI TỐN BĨC TÁCH THƠNG TIN TRONG CHỨNG MINH THƯ SỬ DỤNG HỌC SÂU Chuyên ngành : Hệ thống thông tin Mã... Văn Dương, học viên khóa 2019B, ngành Máy tính, chun ngành Hệ thống thơng tin Tôi xin cam đoan luận văn ? ?Nghiên cứu tốn bóc tách thơng tin chứng minh thư sử dụng học sâu? ?? tơi nghiên cứu, tìm hiểu