Ứng dụng thuật toán mạng neural tích chập để nhận dạng bìa sách

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	531,15 KB

Nội dung

Nghiên cứu này đã đề xuất một phương pháp để trích xuất văn bản tự động từ bìa màu dựa trên các thuật toán tiền xử lý và thuật toán CNN. Kết quả cho thấy phương pháp đề xuất có thể phát hiện chính xác 97% văn bản đối với ảnh bìa có nền phức tạp hoặc màu kí tự gần trùng với màu nền.

TRƯỜNG ĐẠI HỌC SÀI GỊN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 75 (03/2021) No 75 (03/2021) Email: tcdhsg@sgu.edu.vn ; Website: http://sj.sgu.edu.vn/ ỨNG DỤNG THUẬT TỐN MẠNG NEURAL TÍCH CHẬP ĐỂ NHẬN DẠNG BÌA SÁCH Application of convolutional neural network algorithm to recognize a complex book cover ThS Trần Hoàn(1), ThS Hồ Nhựt Minh(2), TS Văn Tấn Lượng(3) Trường Đại học Cơng nghiệp thực phẩm TP.HCM Học viện Bưu Viễn thơng, sở TP.HCM (1),(3) (2) TĨM TẮT Vấn đề lưu trữ thông tin số thư viện sách quan tâm Do số lượng đầu sách nhiều nên cần tra cứu lúc gặp khó khăn Do vậy, có chương trình tự động nhận dạng thơng tin sách giúp người quản lý nhiều việc xếp, quản lý sách thích hợp, giúp người đọc tìm đến sách cách nhanh chóng Nghiên cứu đề xuất phương pháp để trích xuất văn tự động từ bìa màu dựa thuật toán tiền xử lý thuật toán CNN Kết cho thấy phương pháp đề xuất phát xác 97% văn ảnh bìa có phức tạp màu kí tự gần trùng với màu Phương pháp có tiềm cao việc ứng dụng lưu trữ thông tin sách tự động thư viện sách Từ khóa: bìa sách, mạng neural tích chập (CNN), nhận dạng kí tự, trích xuất vùng kí tự ABSTRACT Nowadays, the issue of storing digital information in the book libraries is much-paid attention It is challenging to lot people search at the same time since there are so many books in the library Thus, if there is an automatic program to identify the book's information, this study could suggest an excellent way to manage the books appropriately in a library, as well as improve the readers to find the books quickly In this study, a method to extract the text automatically from colourful covers is proposed according to pre-processing algorithms and convolutional neural network (CNN) algorithms The effectiveness of the proposed method was verified by accurately detection capacity (approximately 97%) of the text for the cover images with their complex backgrounds or character colours These methods are very potential to improve the automatic detection system in the library Keywords: book cover, convolutional neural network (CNN), optical character recognition (OCR), text region extraction màu xen lẫn ảnh phức tạp làm cho việc tự động truy xuất thông tin liên quan từ bìa tài liệu tên tài liệu, tác giả, số mục, v.v nhiệm vụ đầy thách thức Ngoài ra, yếu tố văn gây thêm khó khăn khơng màu Giới thiệu Ngày nay, tăng trưởng nhanh chóng số lượng tài liệu thư viện sách làm cho việc tìm kiếm ngày khó khăn Sự phức tạp bìa tài liệu màu chữ gần trùng với màu nền, họa tiết Email: luongvt@hufi.edu.vn 72 TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN sắc, phơng chữ kích thước, mà cịn liên kết định hướng Vì việc hướng tới phát triển ứng dụng tự động nhận dạng tiêu đề sách để xây dựng kho liệu thông tin số nguồn tài liệu thư viện sách nhanh chóng tiện lợi việc cần thiết Có nhiều phương pháp nhận dạng bìa sách công bố Các phương pháp nhị phân ảnh khác áp dụng để có hình ảnh nhị phân đưa trực tiếp vào nhận dạng ký tự quang học (OCR) có sẵn [1-3] Tuy nhiên, khác biệt nhiều độ phân giải, điều kiện chiếu sáng, kích thước kiểu phơng chữ văn hình ảnh tự nhiên văn tài liệu scan thông thường nên kết nhị phân ảnh thường khó nhận dạng ký tự Ngồi ra, việc thơng tin q trình nhị phân ảnh gần khơng thể phục hồi Do đó, kết nhị phân ảnh khả phát xác văn nhỏ Bên cạnh đó, thuật tốn SIFT đề xuất để trích xuất đặc trưng quan trọng từ ảnh chụp biển số xe hay thuật toán Maximally Stable Extremal Region (MSER) sử dụng với ảnh chụp cảnh tự nhiên [4, 5] Hai giải thuật sử dụng ảnh đầu vào chụp từ điện thoại đạt độ xác cao với ảnh có đơn màu kí tự khác biệt với màu Tuy nhiên với ảnh có phức tạp có màu kí tự gần trùng với màu kết bị giảm độ xác nhiều Một giải thuật nhận dạng kí tự hình ảnh cảnh tự nhiên ảnh bìa sách, biển báo đường, biển quảng cáo hộp đóng gói đề xuất [6] Với giải thuật này, kí tự trích xuất tốt phương pháp trích xuất chọn thành phần kết nối Tuy nhiên, cịn tồn số vùng mà văn có màu tương tự văn nằm phức tạp khó chuyển đổi ảnh hưởng đến hiệu giải thuật Ngoài ra, hệ thống sử dụng Modest AdaBoost không đối xứng để phát văn cảnh tự nhiên đề xuất [7] Trong đó, 59 đặc trưng 16 thang khơng gian trích xuất để tạo CART phân loại yếu Modest AdaBoost, nhờ nâng cao kết nhận dạng văn Bên cạnh đó, phương pháp phân tách cảnh tự nhiên thành thành phần văn cách sử dụng phân tích thành phần hình thái (MCA) đề xuất [9] Điều làm giảm tác động bất lợi phức tạp lên kết phát Ngoài ra, mạng thần kinh đệ quy với mơ hình ý (R2AM) đề xuất để nhận dạng văn cảnh tự nhiên [10] Tuy nhiên, giải thuật đòi hỏi trình huấn luyện với lượng lớn nhớ [8-10] Trong báo này, thuật toán tiền xử lý ảnh đề xuất để làm tăng độ xác tách phần ảnh chứa kí tự, loại bỏ ảnh hưởng màu bìa sách phức tạp màu bìa trùng với màu kí tự Sau kết hợp thuật toán CNN phân loại nhận dạng kí tự quang học để trích xuất thơng tin cần thiết ảnh chụp bìa sách Ngồi ra, giải thuật không bị hạn chế nhiều tốc độ xử lý, hay đòi hỏi nhớ lớn huấn luyện Giải thuật đề xuất Lưu đồ giải thuật nhận dạng bìa sách thể Hình Đầu tiên, bìa sách scan chụp lại từ camera để làm ảnh đầu vào Tiếp theo, ảnh bìa sách hiệu chỉnh độ nghiêng để đảm bảo hàng chữ không bị lệch so với lề chuẩn góc Sau đó, giải thuật tiền xử lý ảnh 73 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) MSER áp dụng để phân đoạn vùng chứa thông tin sách tựa sách, tên tác giả… Cuối cùng, vùng kí tự tách thành kí tự riêng lẻ đem phân loại với thuật tốn CNN để thu thơng tin bìa sách hiệu chỉnh góc nghiêng đoạn thẳng dài tìm thấy ảnh, thường gáy sách phần cạnh gáy sách, cạnh chữ cạnh họa tiết bìa sách Giải thuật đề xuất Hình giải vấn đề hiệu chỉnh sai lệch góc nghiêng với độ xác 90% Ảnh bìa sách Chuyển ảnh màu RGB sang ảnh xám Hiệu chỉnh góc nghiêng Phát cạnh Phân đoạn vùng chứa văn Phát đoạn thẳng Tìm đoạn thẳng dài Phân loại CNN Tìm góc đoạn thẳng Hình Lưu đồ giải thuật nhận dạng bìa sách 2.1 Ảnh bìa sách Giải thuật đề xuất thực Python 3.7.4 Ảnh bìa sách đầu vào ảnh tải lên từ sở liệu máy, ảnh chụp trực tiếp từ camera môi trường tự nhiên Trong hai trường hợp, ảnh đầu vào ảnh màu RGB resize lại với chiều cao 1000 pixel để tăng tốc độ xử lý 2.2 Hiệu chỉnh góc nghiêng Do bìa sách scan khơng cẩn thận góc nghiêng chụp ảnh, hàng chữ bị lệch so với lề chuẩn góc Điều gây khó khăn việc tách chữ nhận dạng chữ, tách khơng nhận dạng Vì vậy, bước sau chọn ảnh đầu vào hiệu chỉnh góc nghiêng Đối với bìa sách, chữ in thường có phương thẳng đứng, tức phương với gáy sách Do đó, để hiệu chỉnh góc nghiêng chữ, chúng tơi đề xuất Tìm góc cần xoay Xoay ảnh Hình Lưu đồ giải thuật hiệu chỉnh góc nghiêng 2.3 Phân đoạn vùng chứa văn Thuật toán MSER [5] đề xuất để phân đoạn vùng chứa văn ảnh bìa sách hiệu chỉnh góc nghiêng Về bản, MSER trích xuất vùng có màu sắc quán độ tương phản cao Tuy nhiên, thuật tốn xác màu kí tự khác biệt với màu màu họa tiết gần quanh kí tự Do đó, để cải thiện kết quả, đề xuất sử dụng thuật toán tiền xử lý ảnh để loại bỏ ảnh hưởng màu sắc ảnh, với mục tiêu hướng tới biến ảnh bìa sách thành ảnh trắng đen gồm vùng trắng vùng chứa chữ họa tiết kín, cịn vùng đen vùng chứa họa tiết hở Q trình phân đoạn ảnh mơ tả lưu đồ giải thuật Hình 74 TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Output Fully Connected Pooling Convolution Bộ lọc hình thái học Pooling Input MSER Convolution Phép hình thái học Pooling Phát cạnh Convolution Mạng neural tích chập (CNN) điển hình bao gồm nhiều khối lớp lấy mẫu (sampling layer), kèm theo sau nhiều lớp kết nối đầy đủ (fully connected layer) lớp đầu (output layer) Hình Chuyển ảnh màu sang ảnh xám Hình Sơ đồ khối mạng CNN điển hình Nối khung bao Hình Lưu đồ giải thuật phân đoạn vùng chứa văn Trong thực tế, ngồi tựa sách tên tác giả, bìa sách cịn chứa thơng tin nhà xuất bản, số tái bản, giải thưởng nhận xét.v.v Những thông tin khơng cần thiết mục tiêu trích xuất thơng tin bìa sách để lập mục lục sách Do đó, lọc dựa vị trí kích thước kí tự chúng tơi đề xuất để loại bỏ vùng chứa thông tin không cần thiết Để tăng cường độ xác nhận dạng kí tự, thuật tốn tách kí tự nằm dòng khung giới hạn bước thành kí tự riêng lẻ đề xuất [8] Sau đó, kí tự đặt trung tâm khung vuông giới hạn nhỏ nhất, chuyển thành ảnh xám thay đổi kích thước 28x28 pixel Ảnh sử dụng làm đầu vào cho phân loại CNN huấn luyện nhận dạng để tìm kết nhận dạng kí tự cuối 2.4 Phân loại CNN Bước cuối nhận dạng kí tự Trong báo này, thuật tốn CNN đề xuất sử dụng mơ hình Deep Learning tiên tiến giúp cho xây dựng hệ thống thông minh với độ xác cao Lớp tích chập (convolutional layer) phần trung tâm mạng CNN Đối với ảnh tĩnh, tổ chức phần ảnh giống phần cịn lại ảnh Do đó, đặc trưng học khu vực ảnh phù hợp với đặc trưng khu vực lại Trong ảnh lớn, lấy phần nhỏ dịch chuyển qua tất điểm ảnh lớn (đầu vào) Khi vượt qua điểm nào, việc kết hợp chúng vào vị trí (đầu ra) thực Mỗi phần nhỏ hình ảnh qua hình ảnh lớn gọi lọc (kernel) Các lọc sau cấu hình dựa kỹ thuật lan truyền ngược Hình Lớp tích chập (convolutional layer) Lớp tổng hợp (pooling layer) làm giảm số lượng tham số tính Có nhiều kỹ thuật gộp khác gộp tối đa (max pooling), gộp chung (mean pooling), gộp trung bình (average pooling), v.v Gộp tối 75 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) đa (max pooling) chiếm giá trị pixel lớn vùng Hình (fully connected layer) tiêu chuẩn Sau đó, mạng có lớp kết nối đầy đủ (fully connected layer) với 128 node dùng hàm ReLU để kích hoạt Cuối lớp đầu (output layer) với 62 node sử dụng hàm softmax để chuyển sang xác suất C ONV 3*3 POOL 2*2 C ONV 3*3 POOL 2*2 FLATT EN FC 1: 28 FC 2: 62 Hình Phép gộp tối đa (max pooling) 28*28 28*28*32 14*14*32 14*14*32 Ou ut 7*7*32 Hình Kiến trúc end-to-end cho sở nhận dạng kí tự CNN Phần cuối mạng CNN lớp kết nối đầy đủ (fully connected layer) mô tả Hình Lớp lấy đầu vào từ tất neural lớp trước thực hoạt động với neural riêng lẻ lớp để tạo đầu Kết mô 3.1 Hiệu chỉnh góc nghiêng Trong Bảng 1, tập liệu bao gồm 100 ảnh bìa sách với góc quay khác (từ -450 đến +450) tạo Với thuật tốn đề xuất, kết hiệu chỉnh góc nghiêng xác 97/100 (97%) hình ảnh Bảng Kết hiệu chỉnh góc nghiêng Mẫu 100 Thành Thất bại cơng 97 Độ xác (%) 97 Lý trường hợp khơng thành cơng màu chất lượng ảnh độ tương phản ảnh Do đó, thuật tốn khơng thể phát xác đường dài nhất, thường mép bìa sách 3.2 Phân đoạn vùng chứa văn So sánh với nghiên cứu trước đó, phương pháp đề xuất phân đoạn vùng chứa văn xác [4], [5] [6] trường hợp phức tạp màu gần trùng với màu văn Kết phân đoạn vùng chứa thông tin sách trường hợp đơn sắc, phức tạp màu chữ gần trùng với màu thể Hình 9, Hình 10 Hình 11 Hình Lớp kết nối đầy đủ (fully connected layer) Mơ hình mạng CNN chúng tơi đề xuất Hình 8, bao gồm hai lớp tích chập (convolutional layer), hai lớp tổng hợp (pooling layer), hai lớp kết nối đầy đủ (fully connected layer) Các lớp lớp tích chập (convolutional layer) có 32 lọc (kernel) với kích thước 3x3, sử dụng hàm ReLU để kích hoạt trọng số node Các lớp tổng hợp (pooling layer) có kích thước cửa sổ 2x2 Lớp flatten chuyển từ tensor sang vector, cho phép đầu xử lý lớp kết nối đầy đủ 76 TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Ở Bảng 2, tập liệu 100 ảnh scan bìa sách bao gồm 50 bìa có đơn sắc, 50 bìa có phức tạp bìa có màu gần trùng với màu văn để tính tốn độ xác thuật tốn tạo Kết chia thành mức độ: • Mức 1: vùng chứa tựa sách tên tác giả phát • Mức 2: vùng chứa tựa sách phát • Mức 3: vùng chứa tên tác giả phát • Mức 4: khơng thể phát vùng chứa tựa sách tên tác giả Bảng Kết phân đoạn vùng chứa văn (a) (b) Hình Phân đoạn vùng chứa văn trường hợp đơn sắc (a) Ảnh màu bìa sách (b) Phân đoạn vùng chứa thông tin sách (a) (b) Hình 10 Phân đoạn vùng chứa văn trường hợp phức tạp (a) Ảnh màu bìa sách (b) Phân đoạn vùng chứa thơng tin sách Mức Độ xác (%) Mức 92% Mức 4% Mức 3% Mức 1% Độ xác 92% Các trường hợp khơng thành cơng rơi vào ảnh scan bìa sách có phức tạp, vùng xung quanh vùng văn chứa họa tiết phức tạp xen lẫn vào chữ Hình 12 (a) (b) Hình 11 Phân đoạn vùng chứa văn trường hợp màu gần trùng với màu văn (a) Ảnh màu bìa sách (b) Phân đoạn vùng chứa thơng tin sách Hình 12 Ảnh khơng phân đoạn vùng chứa thông tin sách 77 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 75 (03/2021) 3.3 Phân loại CNN Do khơng có sở liệu chữ đánh máy có sẵn, chúng tơi thực thu thập tập hợp kí tự gồm 44640 mẫu từ 720 font thuộc nhóm font chữ thường gặp sử dụng nhiều in ấn, nhóm Geometric Sans, nhóm Humanist San, nhóm Old Style, nhóm Transitional Modern nhóm Slab Serifs Mỗi kí tự font chữ có 62 mẫu, bao gồm 10 chữ số, 26 chữ viết hoa 26 chữ viết thường Hình 13 Để kiểm tra mơ hình đề xuất, sở liệu kí tự chia thành hai phần 37200 mẫu sử dụng cho giai đoạn huấn luyện 7440 mẫu sử dụng cho giai đoạn thử nghiệm Quá trình huấn luyện mơ hình CNN đề xuất Bảng tốn khoảng tiếng máy tính xách tay cấu hình CPU i7-4600U, Ram 8GB, ko có GPU Kết huấn luyện đạt độ xác 97.69% Bảng Cấu tạo mạng CNN Lớp Kiểu Mạng input 28x28 convolutional 32@3x3 maxpool 2x2 convolutional 32@3x3 maxpool 2x2 fully connected 128 fully connected 62 Kết luận Bài báo đề xuất phương pháp phân loại nhận dạng kí tự dựa sở kết hợp thuật toán tiền xử lý ảnh thuật toán CNN trường hợp phức tạp màu kí tự gần trùng với màu Tính khả thi phương pháp đề xuất xác minh kết mà phát xác 97% văn ảnh bìa có phức tạp Hình 13 62 mẫu thu thập từ font chữ Verdana TÀI LIỆU THAM KHẢO [1] Xiangrong Chen and Alan L Yuille (2004), “Detecting and reading text in natural scenes”, Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 366-373 [2] Minoru Yokobayashi and Toru Wakahara (2005), “Segmentation and recognition of characters in scene images using selective binarization in color space and gat correlation”, Eighth International Conference on Document Analysis and Recognition (ICDAR'05), pp 167-171 [3] Lukás Neumann and Jiri Matas (2012), “Real-time scene text localization and recognition”, 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 3538-3545 78 TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN [4] Wing Teng Ho, Hao Wooi Lim, and Yong Haur Tay (2009), “Two-stage license plate detection using gentle Adaboost and SIFT-SVM”, 2009 First Asian Conference on Intelligent Information and Database Systems, pages 109-114 [5] Huizhong Chen, Sam S Tsai, Georg Schroth, David Chen, Radek Grzeszczuk, Bernd Girod (2011), “Robust text detection in natural images with edge-enhanced maximally stable extremal regions”, 2011 18th IEEE International Conference on Image Processing, pages 2609-2612 [6] Wai-Lin Chan and Chi-Man Pun (2011), “Robust Character Recognition Using Connected-Component Extraction”, 2011 Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing, pages 310-313 [7] Jung-Jin Lee, Pyoung-Hean Lee, Seong-Whan Lee, Alan Yuille and Christof Koch (2011), “AdaBoost for Text Detection in Natural Scene”, 2011 International Conference on Document Analysis and Recognition, pages 429-434 [8] Amit Choudharya, Rahul Rishib and Savita Ahlawat (2013), “A New Approach to Detect and Extract Characters from Off-Line Printed Images and Text”, Procedia Computer Science, volume 17, pages 434–440 [9] Shuping Liu, Yantuan Xian, Huafeng Li and Zhengtao Yu (2017), “Text detection in natural scene images using morphological component analysis and Laplacian dictionary”, IEEE/CAA Journal of Automatica Sinica, Volume 7, Issue 1, pages 214222 [10] Chen-Yu Lee and Simon Osindero (2016), “Recursive Recurrent Nets with Attention Modeling for OCR in the Wild”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2231-2239 Ngày nhận bài: 23/9/2019 Biên tập xong: 15/3/2021 79 Duyệt đăng: 20/3/2021 ... phát triển ứng dụng tự động nhận dạng tiêu đề sách để xây dựng kho liệu thông tin số nguồn tài liệu thư viện sách nhanh chóng tiện lợi việc cần thiết Có nhiều phương pháp nhận dạng bìa sách công... ảnh chụp bìa sách Ngồi ra, giải thuật không bị hạn chế nhiều tốc độ xử lý, hay đòi hỏi nhớ lớn huấn luyện Giải thuật đề xuất Lưu đồ giải thuật nhận dạng bìa sách thể Hình Đầu tiên, bìa sách scan... dài Phân loại CNN Tìm góc đoạn thẳng Hình Lưu đồ giải thuật nhận dạng bìa sách 2.1 Ảnh bìa sách Giải thuật đề xuất thực Python 3.7.4 Ảnh bìa sách đầu vào ảnh tải lên từ sở liệu máy, ảnh chụp trực

Ngày đăng: 15/12/2021, 10:30