Dữ liệu sinh

Một phần của tài liệu Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu. (Trang 63)

4 .1Giới thiệu bài toán và lợi thế của CRNN

4.7 Tóm tắt cấu trúc mơ hình

4.7.3 Dữ liệu sinh

Sử dụng các kỹ thuật xử lý ảnh để vẽ các nội dung lên một bức ảnh, nhưng quá trình này do muốn tạo sự đa dạng của dữ liệu đào tạo nên sử dụng thêm các kỹ thuật xử lý ảnh để tạo mẫu sao giống với dữ liệu thực tế nhất

Tổng số dữ liệu thật là 1000 ảnh

Dữ liệu sinh ra tự động trong lúc đào tạo với tỉ lệ xác suất dùng ảnh thật để đào tạo là 0.7, và tỉ lệ xác suất dùng ảnh sinh để đào tạo là 0.3, quá trình sinh tự động này tránh việc chiếm nhiều bộ nhớ, vì sinh ra bao nhiêu thì bấy nhiêu được đưa vào đào tạo.

4.7.5Bên cạnh nhưng điểm lợi thế của q trình đào tạo cũng như dự đốn dự vào đầu vào là ảnh, nhưng bên cạnh đó mơ hình gặp một số hạn chế nhất định như các bài toán với các phông chữ khác nhau phải đào tạo dưới các phông tương ứng hoặc gần giống, nhưng lỗi thường gặp như dự đốn sai các kí tự có phân phối gần giống nhau như các cặp sau:

• Chữ cái “l” và số “1” • Số “3” và số “8” • Chữ “p” và chữ “q”

Những chữ cái trong các phơng khác nhau có phân phối gần nhau cũng thường bị nhầm, và chuỗi càng dài thì xác suất đúng tồn bộ chữ cái trong chuỗi đó bị hạn chế, nên đối với một số bài tốn thực tế ứng thì sau bước này cần phải chỉnh sửa thông tin để kết quả đạt được tốt hơn.

4.9 Kết luận chương

Trong chương 4 luận văn nghiên cứu về mạng nơ ron hồi quy xoắn, Convolution recurren neural network(CRNN) đây là mạng nơ ron sử dụng học sâu với sự kết hợp của DCNN và RNN tạo nên cấu trúc CRNN với các lợi thế hơn các cấu trúc khác:

- Có thể học trực tiếp chuỗi mà khơng cần chính xác vị trí của các phần tử trong chuỗi.

- Có thể trích xuất trực tiếp các đặc trưng từ ảnh không yêu cầu xử lý thủ cơng cũng như tiền xử lý.

- Có tính chất RNN có thể sinh ra một chuỗi của các đối tượng.

- Không bị ràng buộc bởi độ dài của chuỗi, chỉ yêu cầu chuẩn hóa về chiều cao trong cả hai quá trình đào tạo và kiểm tra.

- CHƯƠNG 5: CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ

- -

- Trong chương này của luận văn sẽ mô tả một cách quá trình cài đặt thử nghiệm thuật tốn, cũng như kết quả đạt được trên các bộ dữ liệu khác nhau.

5.1 Bài tốn

-

- Xây dựng chương trình cài đặt thử nghiệm, chương trình cho phép người dùng tải lên hình ảnh mặt trước của chứng minh thư nhân dân. Chương trình sẽ bóc tách các thông tin trên chứng minh thư sử dụng học sâu với các thông tin:

- Số Chứng minh thư nhân dân - Họ và tên

- Ngày sinh

- Địa chỉ thường trú

- Mục đích của chương trình này là hỗ trợ việc số hóa thơng tin trên chứng minh thư nhân dân sử dụng các thuật tốn học sâu.

5.2Mơ hình giải quyết bài tốn

-

- - -

- Giai đoạn tiền xử lý nhằm tăng độ chính xác của hệ thống nhận dạng. Vì khi quét ảnh thường gặp các loại nhiễu, kích thước ảnh khơng đồng nhất, hình ảnh khơng được chụp trực diện... Nên ở bước này sẽ tiến hành chuẩn hóa lại kích thước hình ảnh đầu vào, khử nhiễu để tăng độ chính xác cho thuật tốn.

-

- Bước 2. Trích chọn đặc trưng

-

- Để thực hiện trích chọn đặc trưng, hệ thống sử dụng thuật tốn Pixel Link để thực hiện việc chọn đặc trưng của hình ảnh đưa vào vào phần mềm.

-

- Vì mỗi đối tượng đều có một đặc điểm riêng nên ở bước này sẽ giúp ta trích chọn được những đặc tính riêng đó để phục vụ cho bước nhận dạng phía sau.

-

- Bước 3. Nhận dạng

-

- Để nhận dạng phần mềm sử dụng học sâu với CRNN để thực hiện nhận dạng ký tự trong ảnh đặc trưng.

-

- Sau khi mẫu dữ liệu đã qua các bước tiền xử lý và trích chọn đặc trưng, dựa vào giá trị các tham số thu được khi huấn luyện ta sẽ sử dụng thuật toán CRNN để thực hiện việc việc xác định và nhận dạng các ký tự trong đó.

-

5.3Mơi trường cài đặt

-

- Thuật tốn thử nghiệm được cài đặt bằng ngơn ngữ lập trình Python [10] [11] - [12] (Microsoft Visual Studio), sử dụng thư viện xử lý ảnh Opencv cho việc

đọc/ghi ảnh và các thao tác xử lý ảnh cơ bản.

- Chương trình được thử nghiệm trên máy laptop Geforce GTX 1060, core i5, bộ nhớ RAM 8,0 GB.

5.4Dữ liệu kiểm thử

-

- Chương trình được thử nghiệm trên tập 100 ảnh CMND được quét với độ phân giải 300dpi, kiểu ảnh mầu. Các mẫu CMND được lấy từ nhiều tỉnh thành khác nhau qua mạng internet, các đơn vị cấp CMND khác nhau. Mặc dù CMND

- mẫu chung nhưng vẫn có sự khác nhau giữa các đơn vị cấp về kích thước kiểu chữ, vị trí tương đối giữa các trường thơng tin, …

5.5Kết quả thực nghiệm

-

- Phần mềm được cài đặt và chạy thử nghiệm với các kết quả: -

-

-

-

- -

- KẾT LUẬN

- -

- Q trình hồn thành luận văn, tôi đã nghiên cứu được nhiều kiến thức cũng như q trình xây dựng một mơ hình học sâu, từ quá trình tạo thu thập dữ liệu, đến quá trình đào tạo mơ hình và đánh giá mơ hình. Học sâu là một lĩnh vực đang phát triển mạnh mẽ cùng với sự đầu tư nghiên cứu của các nhà khoa học, bài báo liên đến kỹ thuật OCR được chú ý nhiều, qua đó giúp tơi học được cách tiếp cận cũng như cập nhật kiến thức một cách nhanh chóng và liên tục.

- Qua q trình nghiên cứu tơi đã thí nghiệm bóc tách thơng tin từ chứng minh thư khi sử dụng mơ hình học sâu, tơi nhận thấy đã đạt được một số kết quả chính sau:

+ Nắm bắt được các bước chính trong một hệ thống xử lý ảnh, hiểu được các khái niệm xử lý ảnh với các thuật tốn học sâu. Thấy được vai trị quan trọng của học sâu trong xử lý ảnh đối với một hệ nhận dạng, đó là bước tiền xử lý nhằm nâng cao chất lượng của nhận dạng.

+ Tìm hiểu và tổng qt hố các phương pháp phân tích ảnh tài liệu, cũng như nắm được các ưu nhược điểm của từng phương pháp. Từ đó đưa ra được các giải pháp cho bài tốn đặt ra trong luận văn.

+ Đã áp dụng thành cơng các kiến thức tìm hiểu được vào cài đặt thử nghiệm chương trình phân tích ảnh CMND. Kết quả của chương trình đạt được là tốt và có thể áp dụng vào thực tế.

- Tuy nhiên, do thời gian làm luận văn hạn chế, trong khi khối lượng cơng việc lớn nên cịn nhiều vấn đề tồn tại chưa được giải quyết:

+ Một số trường hợp các có thể bị mất một phần thơng tin hoặc coi nhiễu như một phần thông tin của trường. Thuật tốn chỉ thất bại trong trường hợp các trường thơng tin in/dập vào CMND bị lệch một góc đánh kể so với các dịng in sẵn trong CMND.

+ Chương trình mới dừng lại ở bước thử nghiệm, chưa phải là một chương trình hồn chỉnh, đầy đủ các tính năng.

+ Thuật tốn mới chỉ dừng lại ở việc phân tích ảnh CMND, chưa khái quá hoá cho các ảnh thẻ bất kỳ.

+ Hướng phát triển tiếp theo là, tiếp tục nghiên cứu hoàn thiện chương trình để có thể áp dụng vào thực tế. Mở rộng các tính năng của chương trình (như thêm phần nhận dạng, kiểm lỗi chính tả) để thành một chương trình hồn chỉnh. Khái qt hố thuật tốn để có thể xử lý được ảnh thẻ khác.

+ TÀI LIỆU THAM KHẢO

[1]Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee. Character Region Awareness for Text Detection. 2019.

[2]Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao. Detecting Text in Natural Image with Connectionist Text Proposal Network. 2016.

[3]Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. SSD: Single Shot MultiBox

Detector. 2015.

[4]Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi. You Only

Look Once: Unified, Real-Time Object Detection. 2015.

[5]Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai. PixelLink: Detecting Scene

Text via Instance Segmentation. 2018.

[6]Chengquan, Zhang. Multi-oriented Text Detection with Fully Convolutional

Networks. 2016.

[7] Abhinav Shrivastava, Abhinav Gupta, Ross Girshick. Raining Region-

based Object Detectors with Online Hard Example Mining. 2016.

[8] Benteng Ma, Yong Xia. Autonomous Deep Learning: A Genetic DCNN

Designer for Image Classification. 2018.

[9] Baoguang Shi, Xiang Bai, Cong Yao. An End-to-End Trainable Neural

Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition. 2015.

[10] Machine Learning in Python, https://scikit-learn.org/stable/ +

[11]Satya Mallick. Support Vector Machines (SVM)

https://www.learnopencv.com/support-vector-machines-svm

[12]Kushashwa Ravi Shrimali. SVM using Scikit-Learn in Python

Một phần của tài liệu Nghiên cứu bài toán bóc tác thông tin trong chứng minh thư sử dụng học sâu. (Trang 63)

Tải bản đầy đủ (DOCX)

(74 trang)
w