Nâng cao hiệu quả hoạt động ngân hàng bằng công nghệ nhận diện chữ viết trong hình ảnh

Nâng cao hiệu hoạt động ngân hàng công nghệ nhận diện chữ viết hình ảnh Trong thời đại kỷ nguyên chuyển đổi số Cách mạng công nghiệp lần thứ tư (CMCN 4.0), vi ệc ngân hàng ứng dụng trí tuệ nhân tạo (Artificial Intelligence - AI) trở thành xu hướng tất yếu Bài tốn số hóa văn tự động từ dạng cứng (trên giấy) thành liệu lưu trữ dạng số giúp ngân hàng tránh m ất mát thông tin, đồng thời, người sử dụng dễ dàng tìm kiếm truy xuất thông tin Bài viết đề xuất cách giải khâu quan trọng việc số hóa tài liệu, nhận dạng chữ viết hình ảnh (Optical Character Recognition - OCR) Trên thực tế, dạng chữ viết văn đa dạng nhiều kiểu từ chữ in hoa, chữ in thường chữ viết tay, chí lại có nhiều kiểu định dạng in đậm, in nghiêng gây tốn thời gian nhân viên để thao tác hoạt động truyền thống kiểm tra, lưu trữ biên lai, chứng minh thư Từ nhu cầu thực tế đó, việc sử dụng AI để chuyển hóa chữ viết từ hình ảnh văn thành văn số hóa giải pháp cần thiết Quy trình bao gồm bước: Chuyển liệu gốc ban đầu dạng ảnh; nhận diện thông tin từ ảnh chụp chuyển thể thành văn bản, bóc tách thành trư ờng thơng tin có ý nghĩa Để giải toán nhận dạng chữ viết từ hình ảnh văn bản, mơ hình phát chữ (text detection) nhận diện chữ (text recognition) mạng thần kinh tích chập (Convolutional Neural Network - CNN), mạng thần kinh hồi quy (Recurrent Neural Network RNN), chế ý (Attention Mechan ism) sử dụng Kết thử nghiệm giải pháp đề xuất liệu chữ viết tay người Việt đạt độ xác cao, ứng dụng thực tiễn I Giới thiệu Bài toán nhận diện chữ ảnh hay kỹ thuật OCR có từ năm 90 kỷ trước Lần OCR bắt đầu người biết đến rộng rãi vào năm 1913 Ti ến sĩ Edmund Fournier d’Albe phát minh máy th ị âm để quét chuyển hóa văn thành âm cho ngư ời mù Từ đến nay, OCR phát triển nhanh chóng giới lĩnh vực liên quan đến xử lý hình ảnh Việc ứng dụng OCR đa dạng ngành công nghiệp xe tự lái (Self-driving Car), dịch máy (Imagebased Machine Translation), h ệ thống thu phí thơng minh b ằng hình ảnh (Electronic Toll Collectio n - ETC), tự động hóa quy trình robot (Robotic Process Automation - RPA) hay lưu trữ sổ khám bệnh, đơn thuốc y tế mà bi ết Đối với lĩnh vực ngân hàng, từ phía người dùng, ứng dụng OCR rõ qua tiện nghi mà ứng dụng ngân hàng mang lại làm thẻ online từ xa nhờ định danh khách hàng điện tử (electronic Know Your Customer - eKYC), rút tiền chứng minh thư Thời gian thực giao dịch giảm xuống nhờ việc kiểm tra thông tin thực máy móc mà khơng cần tới kiểm tra thủ công người Với gia tăng nhanh chóng số lượng tài khoản ngân hàng giao dịch chi tiêu online, ứng dụng động kết nối tới tài khoản ngân hàng, khối lượng liệu đổ ngân hàng với giao dịch người dùng ngày lớn theo cấp số nhân Ứng dụng OCR điều kiện tiên cho ngân hàng đảm bảo đáp ứng gia tăng liệu Nếu loại giấy tờ từ giấy vay, chứng minh thư, cư ớc cơng dân, loại hợp đồng, hóa đơn, ghi ch ú ngân hàng, gi ủy quyền, báo cáo tài xử lý thủ cơng truyền thống khó đáp ứng u cầu thời gian xử lý nhanh chóng kỳ vọng Sử dụng OCR, ngân hàng có lợi việc số hóa tài liệu khối thống nhất, giúp ngân hàng chu ẩn hóa liệu, vận hành 24/7, đơn giản hóa quy trình, giảm gánh nặng hành chính, tối ưu hóa chí phí kinh doanh Trên giới, cụm từ AI từ năm 2019 trở thành cụm từ phổ biến giới tài Theo báo c áo tồn cầu Phịng Thương mại quốc tế (ICC) năm 2020, 28% s ố lượng ngân hàng sử dụng OCR cho việc bóc tách liệu số hóa văn bản, bao gồm ngân hàng l ớn lĩnh vực tài HSBC, Standard Chartered v ới nhiều tổ chức tài khác Nhiều ngân hàng khác Trung Quốc sử dụng OCR kết hợp với nhận diện khuôn mặt để cung cấp bảo mật lớp ATM Tại Việt Nam, theo Chương trình Chuy ển đổi số quốc gia đến năm 2025, định hướng đến năm 2030 Chính phủ nêu rõ vai trị c tổ chức tài ngân hàng công cu ộc chuyển đổi số đất nước Bên cạnh đó, ảnh hưởng đại dịch Covid-19 giới phần làm đẩy nhanh q trình s ố hóa tồn diện ngành Ngân hàng nước ta Xu hướng áp dụng hầu hết ngân hàng lớn Ngân hàng TMCP Tiên Phong (TPBank) có h ệ thống ATM tự động chạy 24/7 (LiveBank) hay Ngân hàng TMCP Bưu ện Liên Việt có LienViet24h Đặc biệt TPBank Ngân hàng TMCP Quân đ ội (MB) ghi nh ận 80% giao dịch tảng số Qua đó, thấy tranh tồn diện bối cảnh áp dụng số hóa Việt Nam phù hợp cho ứng dụng OCR nói riêng AI nói chung Ngày nay, OCR khơng phát triển mạnh với tiếng Latin mà cịn giải ngôn ngữ khác giới từ tiếng Ả Rập, Ấn Độ, Trung Quốc kể chữ tượng hình Nó có th ể xác định văn scan hình ảnh khơng phân bi ệt chữ in hay chữ viết tay, hệ thống xử lý với độ xác cao V ới quy định gắt gao an toàn liệu, bảo mật ngành Tài chính, OCR có th ể chạy máy server ngân hàng hay điện toán đám mây dịch vụ thông qua giao thức API Về phương pháp thực hiện, việc nhận diện chữ viết hình ảnh gồm 04 pha tiền xử lý (Preprocessing); xác định vị trí chữ (Text Detection); nhận diện chữ (Text Recognition) hậu xử lý (Postprocessing) V ới pha - tiền xử lý, ta loại bỏ nhiễu hình ảnh, xoay ảnh chiều chỉnh kích thước ảnh Pha sử dụng hình ảnh sau đư ợc chỉnh sử dụng mơ hình học sâu để nhận biết đâu vùng có chữ viết hình ảnh Sau sử dụng mơ hình mạng thần kinh kết hợp với chế ý (Attention Mechanism) đ ể nhận diện chữ viết tương ứng với vùng chữ chữ bảng chữ Pha cuối bước hiệu chỉnh chữ thu từ pha 3, giúp cải thiện kết thu cho chuẩn chữ tiếng Việt Trên giới, có nhiều cách thức phương pháp khác việc giải toán OCR cho ti ếng Anh như: DB, CRAFT Nghiên c ứu sử dụng hai số mơ hình đạt kết tốt tiếng Anh CRAFT (để phát chữ) CLOVA_AI (để nhận diện chữ) Tuy nhiên, để đạt kết tốt liệu tiếng Việt nghiên cứu thực số thay đổi cải tiến Để minh chứng cho hiệu giải pháp đề xuất, tác giả thực kiểm thử với liệu SROIE 2019 tiếng Anh VNOnDB gồm 1.146 đoạn văn tiếng Việt bao gồm 7.296 dòng v ới 380.000 ký tự viết 200 người khác II Tóm tắt sở lý thuyết Một số công nghệ sử dụng giải pháp đề xuất - Mạng thần kinh tích chập - CNN: Là loại mạng thần kinh nhân tạo, nhận đầu vào thường ảnh sử dụng phép tốn tích ch ập nhằm trích xuất thơng tin đối tượng - Mạng thần kinh hồi quy - RNN: Là mạng dùng để xử lý toán liệu dạng chuỗi với đầu vào có kích thư ớc khác Nó sử dụng thông tin đầu vào đầu vào khứ có kết Nói cách khác, theo trình t ự thời gian, RNN kết nối nút tạo thành đồ thị dọc, đầu vào tạo đầu khác dựa theo đầu vào trước - Cơ chế ý (Attention Mechanism): Theo nghiên c ứu nhận thức người, 3s đầu cần xác định vật thể số đặc điểm bật Áp dụng tư tưởng đó, kỹ thuật Attention giúp mơ hình t ập trung vào yếu tố định, đặc trưng liệu Trong lĩnh vực xử lý ảnh, Attention thường gồm 03 phần mã hóa (encoder), b ộ giải mã (decoder), xen vector biểu diễn ngữ cảnh (context vector) Encoder v ới đầu vào ma trận điểm ảnh, đầu cuối context vector - nơi tóm gọn tồn lượng thơng tin c encoder Từ đó, decoder dùng context vector, trạng thái ẩn đầu trước để dự đốn thơng tin decoder qua bước thời gian (timestep) - Mạng Resnet, mạng Unet, mạng VGG-16: Là kiến trúc mạng CNN, tạo thành từ loạt tầng CNN thiết kế khác - Batch normalization: Đây phương pháp chuẩn hóa liệu, giúp việc huấn luyện cách dễ dàng nhanh chóng b ằng cách tối ưu hàm mục tiêu Ngồi ra, cịn giúp cho mơ hình gi ảm phụ thuộc vào giá trị khởi tạo tránh phần khớp với liệu huấn luyện - Skip connection: Cơ chế bỏ qua số lớp mạng Neural lấy đầu lớp làm đầu vào cho lớp Nó có vai trị nâng cao khả giữ thông tin cần thiết, tránh mát thông tin ta tăng số lớp huấn luyện mạng học sâu Tổng quan giải pháp quy trình đề xuất Như đề cập, tốn nhận dạng chữ viết hình ảnh có đầu vào ảnh đầu từ tương ứng với vị trí ảnh Phương pháp đư ợc mơ tả gồm 04 pha (Hình 1): - Pha 1: Tiền xử lý, chuẩn hóa hình ảnh: chỉnh nhăn (dewarp), chỉnh lệch (deskew), chỉnh kích cỡ (resize) - Pha 2: Sử dụng mơ hình phát ký tự văn (text detection) đ ể tìm vùng có chữ xác định vị trí ảnh - Pha 3: Nhận diện chữ ảnh từ pha mơ hình nhận diện ký tự văn (text recognition) - Pha 4: Sửa lỗi văn đầu để gia tăng độ xác Mơ tả chi tiết pha quy trình Pha 1: Tiền xử lý Ban đầu, hệ thống áp dụng thuật toán liên quan đến xử lý ảnh để tăng chất lượng ảnh đầu vào Lý scan tài li ệu hay chụp ảnh tài liệu, ảnh thường bị nghiêng góc tương đối so với chiều văn Thêm vào đó, việc xử lý ảnh phóng to hay thu nhỏ cho tương thích với hệ thống khơng bị nghẽn ảnh q lớn hay chất lượng tối thiểu ảnh nhỏ điều cần thiết Ngoài ra, v ới văn giấy tờ ngân hàng hay kh ối dịch vụ nói chung thư ờng bao gồm nhiều dấu chấm nhỏ hay nhiễu hình ảnh chìm mà không cần thiết cho việc nhận diện chữ Chúng ta loại bỏ điểm ảnh nhằm giảm bớt vùng mà hệ thống cần dự đoán, giảm thiểu lỗi gặp phải Pha 2: Phát vùng chứa chữ Trong pha này, ta s ẽ thực việc phát chữ viết ảnh Như biết, ảnh tập hợp bao gồm nhiều điểm ảnh, xác định hai tọa độ theo chiều dọc chiều ngang Với mạng thần kinh phát chữ truyền thống chủ yếu gộp mạng CNN RNN v ới để trích chọn đặc trưng chữ ảnh dựa điểm ảnh Các đặc trưng hiểu cách đơn giản đặc điểm giúp ta nhận biết đâu chữ, đâu ảnh nền, đâu dấu dựa đặc tính đường nét, độ đậm nhạt, màu sắc, kích cỡ chữ Những thông tin trải qua việc huấn luyện mạng thần kinh học dần qua việc huấn luyện mơ hình qua b ộ liệu Đi sâu vào chi tiết mơ hình phát hi ện chữ ngun mơ hình CRAFT phát chữ mà chúng tơi áp dụng, mạng gồm có cấu trúc với khung VGG-16 gồm 06 lớp CNN với batch normalization skip connection tương tự mạng U-net liên kết với đặc trưng cấp thấp Ta sử dụng mơ hình mạng Neural để xác định vùng ký tự vùng nối ký tự liền làm đặc điểm để xác định phần ảnh ký tự chữ tầng cuối đầu Thông thư ờng việc đánh nhãn liệu mức ký tự (đánh ký tự từ - character) khó số lượng q lớn với văn có chữ (thường gán mức từ - word dịng line) Do đó, để phát mức ký tự phương pháp này, ta dùng liệu từ tập: Một liệu thực tế gán nhãn mức từ hai liệu không thực tế (ảnh sinh hay tự tạo - Synthetic Image) Do tập liệu thứ tự tạo nên ta kiểm sốt vị trí ký tự ảnh cách dễ dàng Ta huấn luyện mơ hình với liệu tự gen trước để model học đặc trưng model Sau ta dùng model đ ể train với phần ảnh thực tế đánh nhãn mức từ tạo model Ta tạo giả nhãn (pseudo ground truth) cho phần ảnh thực tế thuật toán watershed r ồi điều chỉnh cho độ xác model khơng thấp độ xác model Kiểu huấn luyện với data gọi học có giám sát yếu (weakly supervised learning) Cu ối cùng, ta dùng model làm pretrain model (model đư ợc huấn luyện) để điều chỉnh tiếp với data chưa tạo nhãn giả dựa độ dài từ (thông thường nhãn ảnh mức từ ta tính độ dài ký tự đó) Nếu model dự đốn ảnh từ tập mà ngắn so với nhãn ảnh ta điều chỉnh lại Cứ thế, ta điều chỉnh đến độ xác mơ hình đạt kết cao Đầu pha vùng ch ữ tương ứng với vị trí (gồm 04 vị trí: Trái trên, phải trên, phải dưới, trái tương ứng khung chữ nhật) Pha 3: Nhận diện chữ Pha gồm thành phần: - Thành phần (sự biến đổi): Chuẩn hóa làm thẳng lại chữ nghiêng, cong thành chữ nằm ngang việc sử dụng mơ hình STN - Thành phần (trích chọn đặc trưng): Ta sử dụng cấu trúc Resnet làm sở để trích xuất thông tin Đầu vector đặc trưng ảnh - Thành phần (mơ hình hóa tuần tự): Ghi lại thông tin m ột chuỗi ký tự để dự đốn ta khơng dự đoán ký tự từ - Thành phần (dự đoán): Giải mã chuỗi đặc trưng dạng mã hóa phần thành ký tự chữ việc sử dụng chế Attention Về bản, mơ hình nhận diện sử dụng sức mạnh kết hợp mạng CNN RNN mở rộng với thêm thành phần chỉnh hình ảnh chữ không gian (thành ph ần biến đổi) cải thiện q trình dự đốn thành phần cuối chế Attention Chúng m rộng so với mơ hình ban đầu tăng giới hạn tham số độ dài ảnh mà mơ hình dự đốn tăng số lượng trạng thái ẩn để thu giữ nhiều thông tin Việc điều chỉnh nhỏ có vai trị quan tr ọng việc dự đốn kết xác Ở đây, chúng tơi thay d ự đốn từ tương ứng với vùng xác định từ pha nhận diện cụm từ ảnh (ảnh gồm dòng từ, theo chiều ngang) Do ta có th ể nhận ngay, mà pha xác đ ịnh vùng lúc tương ứng ảnh từ với ảnh mà có hay từ việc dự đốn thực Mặt khác, việc thay đổi giảm thời gian đánh nhãn c chúng ta, trở nên thuận tiện với mơ hình gốc ta cần đánh nhãn ảnh (chỉ gồm từ) với chữ nó, khiến số lượng cần làm lớn (Hình 2) Pha 4: Sửa lỗi Trong phần này, sửa lỗi từ có khả cao mắc lỗi từ kết pha Chúng ta sử dụng khả (dựa độ xác) từ phần nhận diện chữ kết hợp với tập từ điển từ thông dụng Việt Nam Ngoài ra, từ xác định ảnh thuộc lĩnh vực hay ngành nghề ta thu thập thêm từ phổ biến tạo thành từ phổ biến lĩnh vực Sau đó, ta gán tr ọng số theo thứ tự ưu tiên cho: Kết từ pha 3, từ phổ biến từ điển gần giống từ đó, từ phổ biến lĩnh vực gần giống từ Chúng ta xếp từ cao xuống thấp điểm từ ứng viên (candidate) Cơ ch ế ta gọi “scoring mechanism” Cu ối cùng, ta chọn từ ứng viên có điểm cao làm kết cuối hệ thống III Tính tốn thử nghiệm Mơ tả liệu Chúng sử dụng liệu Sroie 2019 cho mơ hình phát hi ện từ liệu VNOnDB mức từ câu để đánh giá kết mơ hình nhận diện - Sroie 2019: Bộ liệu bao gồm ảnh hóa đơn từ 1.000 ngư ời nước Chúng chia làm phần tập huấn luyện/đánh giá gồm 600 ảnh tập kiểm tra gồm 400 ảnh Tương ứng với ảnh bao gồm vùng chữ nội dung - VNOnDB: Bộ liệu ảnh chữ viết tay người Việt Dữ liệu ban đầu dạng ảnh tương ứng với nét chữ online dạng xml, ta chuyển liệu dạng ảnh chữ tương ứng ảnh Ta chia b ộ liệu làm phần: (Bảng 1, Hình 3) - Phần liệu Training: Dùng để huấn luyện mơ hình - Phần liệu Validation: Dùng để đánh giá mơ hình hu ấn luyện - Phần liệu Testing: Dùng để kiểm tra kết mơ hình Tiêu chí đánh giá Với module phát hi ện chữ, ta đánh giá kết theo tiêu chí g ồm Precision, Recall, Hmean - Precision đo lư ờng tỉ lệ dự đốn mơ hình xác s ố dự đốn - Recall tỉ lệ mơ hình dự đốn liệu gán nhãn - Chỉ số Hmean giá trị cân đối Precision Recall: Trong đó: - TP (True Positive): Là đối tượng nhận dạng với tỉ lệ IOU>0,5 - FP (False Positive): Là đối tượng nhận dạng với tỉ lệ IOU Cần người để sửa lỗi lại (BPO Business process outsourcing) - Cần xây dựng đội ngũ phát triển ngân hàng đ ể hiểu nghiệp vụ bóc tách thơng tin c ần thiết sau OCR IV Kết luận Bài toán nhận diện chữ ảnh toán kinh điển quan trọng lĩnh vực ngân hàng nói riêng c ác ngành cơng nghiệp ứng dụng khác nói chung Các ngân hàng c ần nhanh chóng đào tạo, bồi dưỡng, bổ sung cho cán bộ, nhân viên kiến thức hiểu biết định công nghệ lõi để triển khai cách hiệu chuyển đổi số xu tất yếu Khi mà liệu ngày bùng nổ, ngân hàng có th ể nắm bắt phát triển nhanh chóng OCR c ầu nối để thúc đẩy tiến trình Bài vi ết mô tả chi tiết hệ thống nhận diện chữ viết việc sử dụng mô hình AI học sâu để nhận diện chữ tiếng Việt Phương pháp áp d ụng 04 thành phần tiền xử lý, phát chữ, nhận diện chữ hậu xử lý nhằm tìm đặc trưng để dự đoán chữ ảnh Với phương pháp này, ngân hàng có t hể tùy biến thêm, bớt thành phần tùy theo điều kiện, trường hợp cụ thể cách thích hợp Phương pháp hoạt động tương đối tốt với liệu loại chữ Latin bao gồm có tiếng Việt Bên cạnh đó, phát triển để áp dụng cho nhiều loại ngơn ngữ khác Lời cảm ơn Cơng trình nghiên c ứu thực hỗ trợ trường Đại học Bách khoa Hà Nội Tập đoàn FPT ... mơ hình học sâu để nhận biết đâu vùng có chữ viết hình ảnh Sau sử dụng mơ hình mạng thần kinh kết hợp với chế ý (Attention Mechanism) đ ể nhận diện chữ viết tương ứng với vùng chữ chữ bảng chữ. .. Như đề cập, toán nhận dạng chữ viết hình ảnh có đầu vào ảnh đầu từ tương ứng với vị trí ảnh Phương pháp đư ợc mơ tả gồm 04 pha (Hình 1): - Pha 1: Tiền xử lý, chuẩn hóa hình ảnh: chỉnh nhăn (dewarp),... kích cỡ (resize) - Pha 2: Sử dụng mơ hình phát ký tự văn (text detection) đ ể tìm vùng có chữ xác định vị trí ảnh - Pha 3: Nhận diện chữ ảnh từ pha mơ hình nhận diện ký tự văn (text recognition)

Định dạng
Số trang	14
Dung lượng	465,28 KB