Sự phụ thuộc mạnh mé vào từ vung của các mô hình nhận dạng văn bản là một thách thức nan giải, được nhấn mạnh trong nghiên cứu [32].. Theo các nghiên cứu [34] và [10], họ phân loại các p
Cơ chế giải mã với Greedy Search
Trong quá trình giải mã 6 Decoder của mô hình seq2seq, Greedy Search được sử dụng để dự đoán token đầu ra ở mỗi bước giải mã Ở mỗi bước giải mã, đầu ra của Decoder sẽ là một vector trạng thái ẩn và một vector p, vector p sẽ được dùng để dự đoán token ở bước giải mã hiện tại Vector p có số chiều tương ứng với số lượng từ trong tập từ điển ở ngôn ngữ dich Vector p sẽ được di qua hàm softmax để tạo thành một vector mà các giá trị của nó biểu diễn xác suất xuất hiện của token ở vị trí tương ứng trong vector đó Sau cùng, chỉ cần dùng hàm argmax để có thể biết được vị trí của token có xác suất xuất hiện cao nhất trong tập từ điển Các bước giải mã này sẽ ngừng lại khi gặp kí tự kết thúc < EOS > hoặc số từ trong câu sinh ra đạt độ dài tối đa quy định.
Cơ chế giải mã với Beam Search
Cơ chế giải mã Greedy Search có tốc độ nhanh, dễ dàng cài đặt, tuy nhiên nó lại có nhược điểm Với Greedy Search, nếu các kí tự đầu tiên của chuỗi dự đoán không chính xác có thể ảnh hưởng không tốt đến kết quả của câu sinh ra Do đó, thuật toán Beam Search được sử dụng để khắc phục nhược điểm của thuật toán Greedy Search Về cơ bản, thay vì ở mỗi bước giải mã chỉ lấy token có xác suất cao nhất, thuật toán Beam Search sẽ giữ lại k token có xác suất xuất hiện cao nhất (với k là beam width) Sau khi kết thúc việc giải mã (khi gặp kí tự kết thúc
2 Cơ sở lý thuyết và các nghiên cứu liên quan
< EOS > hoặc câu sinh ra đạt độ dài quy định), thuật toán Beam Search sẽ chọn ra câu có xác suất p(y,y›, ,y |xi,xa, ,x„) là lớn nhất Với ý tưởng này, thuật toán Beam Search có thể tạo ra câu có kết quả tốt hơn Greedy Search trong những trường hợp những từ đầu tiên của câu bị dự đoán không chính xác.
Môhình Attention
Một thách thức phổ biến khi sử dụng mô hình seq2seq là sự phụ thuộc lớn vào ngữ cảnh được biểu diễn bởi vector ẩn tại đầu ra của encoder, khiến việc duy trì ý nghĩa của chuỗi trở nên khó khăn khi chiều dài của nó tăng lên Khi câu quá dai, có thể xảy ra tình trạng mat mát thông tin khi vector ngữ nghĩa ở đầu chuỗi đầu vào không còn ảnh hưởng đến cuối câu Để giải quyết vẫn đề này, mô hình Attention (hay còn được gọi là cơ chế attention) được dé xuất trong các nghiên cứu [3] và [20].
Kiến trúc của mô hình sử dụng cơ chế Attention giữ nguyên cấu trúc cơ bản của seq2seq Tuy nhiên, điều chỉnh được thực hiện để tận dụng toàn bộ các vector trạng thái ẩn h; và giải quyết van dé phụ thuộc dài Cu thể, ở mô-đun Decoder, thay vì chỉ sử dung vector trạng thái ẩn đầu ra của Encoder, mô-đun Decoder sử dụng toàn bộ các vector trạng thái ẩn ở mỗi bước mã hóa của Encoder.
Encoder Encoder Encoder i š l Decoder i Decoder Decoder
RNN RNN RNN : RNN RNN RNN
Hình 2.9: Kiến trúc tổng quan của mô hình seq2seq có sử dụng cơ chế Attention Để tận dụng thông tin từ tất cả các vector trạng thái ẩn, một vector ngữ nghĩa
2 Cơ sở lý thuyết và các nghiên cứu liên quan
(context vector) được tạo ra bằng cách tính tổng có trọng số của các vector trạng thái ẩn, như được minh họa trong hình 2.10.
Hình 2.10: Vector ngữ nghĩa trong kiến trúc attention (Nguồn: Internet !) Để sử dụng vector ngữ nghĩa trong quá trình dự đoán, ở mỗi bước dự đoán, vector trạng thái ẩn attention được tạo ra bằng cách nối vector ngữ nghĩa và vector trạng thái ẩn ở bước thời gian tương ứng lại với nhau 2.11.
Cuối cùng, để xác định đầu vào nào quan trọng trong mỗi bước dự đoán, mô hình cần dự đoán điểm số attention Điểm số attention này được dự đoán bởi một mô hình alignment, được huấn luyện chung với mô hình seq2seq Mô hình alignment đánh giá mức độ quan trọng của mỗi đầu vào (được biểu diễn bởi vector trạng thái ẩn) đối với mỗi kết quả đầu ra trước đó (được biểu diễn bởi vector trạng thái ẩn attention) Hàm softmax được áp dụng trên tất cả các kết quả từ mô hình alignment để thu được điểm số attention.
'https: //towardsdatascience.com/day-1-2-attention-seq2seq-models-65df3f49e263
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Hình 2.11: Cách mô hình attention sử dụng dụng vector ngữ nghĩa để tạo ra vector trang thái ẩn attention (Nguồn: Internet !)
Mô hình Transformer
Năm 2017, mô hình Transformer [30] đã đem đến đột phá quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, vượt qua nhiều kỷ lục, đặc biệt là trong dịch máy Giống những mô hình dịch máy trước đó, Transformer sử dụng kiến trúc Encoder-Decoder Encoder trích xuất thông tin ngữ nghĩa từ câu gốc và truyền đến Decoder, nơi sinh ra câu ở ngôn ngữ đích, sử dụng vector ngữ nghĩa từ
Encoder Tuy nhiên, khác biệt với các mô hình trước đó, Transformer ưu tiên sử dụng khối Encoder và Decoder dựa trên cơ chế self-attention thay vì RNNs như LSTM hay GRU, đồng thời khắc phục được nhược điểm của chúng vốn được biết đến như: ằ_ Với văn bản dài như toàn bộ bài viết thay vỡ một cõu hoặc đoạn văn, sự mất thông tin ở đầu vào là van dé khi Encoder RNN duyệt qua chuỗi nhiều lần để tạo vector đầu ra cho Decoder. ô_ Vỡ thứ tự từng từ trong chuỗi cú vai trũ quan trọng trong việc biểu diễn ngữ
2 Cơ sở lý thuyết và các nghiên cứu liên quan nghĩa, RNNs chỉ có thể huấn luyện theo thứ tự tuần tự, làm cho quá trình lan truyền ngược trở nên phức tạp và chậm hơn, đặc biệt là đối với mô hình seq2seq hoặc RNNs. ¢ LSTM không hiệu quả trong việc chuyển giao kiến thức (transfer learning), yêu cầu huấn luyện lại từ đầu khi thực hiện tác vụ khác trên dữ liệu mới, mất nhiều thời gian. Để giải quyết những van dé trên, Google dé xuất các giải pháp như sử dụng cơ chế attention để tránh mất thông tin khi đầu vào quá dai, áp dung positional encoding va masking token để huấn luyện song song, tăng tốc quá trình huấn luyện Ngoài ra, Transformer cho phép đọc dữ liệu theo cả hai hướng, giống như Bidirectional LSTM (BiLSTM), mà không cần thêm mô hình ngược chiều như
Cũng tương tự như mô hình seq2seq, Transformer cũng có hai thành phan chính là Encoder và Decoder, tuy nhiên cấu tạo và cơ chế hoạt động hoàn toàn khác nhau. ° Encoder: trong Transformer, mỗi khối encoder bao gồm N layer giống nhau (N=6 trong bài báo), mỗi layer bao gồm 2 layer con: Multi-Head Attention và Feed forward network Và ở mỗi layer con đều có sử dụng residual connection, việc sử dụng residual connection sẽ giúp cho mô hình có thể mở rộng hơn theo chiều sâu, nhờ việc tránh được hiện tượng mất mát đạo ham (gradient vanishing). ¢ Decoder: tương tu như encoder, decoder cũng được tao thành từ 6 layer, với mỗi layer gồm 2 layer con, tuy nhiên, có thêm một layer con khác được thêm vào là Masked Multi-Head Attention, layer con này sẽ nhận đầu vào là đầu ra của Encoder, và layer con này cũng có residual connection.
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Hình 2.12: Kiến trúc của mô hình Transformer (Nguồn: Bài báo [30])
Transformer - Cơ chế self-attention
Trước khi đi chỉ tiết về hoạt động của mô hình Transformer, chúng ta cần tìm hiểu về cơ chế self-attention, trái tim của mô hình Transformer theo bai báo
2 Cơ sở lý thuyết và các nghiên cứu liên quan
"Attention is All You Need" Cơ chế này có thể xem như một thuật toán tìm kiếm trong câu đầu vào Khi xử lý từng từ, self-attention tập trung vào các từ liên quan nhất Ví dụ, với câu "The animal didn’t cross the street because it was too tired", khi xử lý từ "it", mô hình quan tâm đến "animal" hơn là "street" Cơ chế self-attention giúp mô hình mã hóa hiệu quả từ hiện tại bằng cách quan sát toàn bộ câu đầu vào để xác định nơi cần chú ý So với RNNs, nơi mỗi "cell" phải duy trì trạng thái ẩn và kết hợp các token trước để dự đoán, cơ chế self-attention giúp bộ mã hóa "hiểu" mức độ liên quan giữa các từ, cung cấp dự đoán chính xác hơn.
Layer:L 5 + Attention: | Input - Input 4 Ị _animal_ animal_ didn_ didn_ re t cross_ cross_ the_ the_ street_ street_ because_ ` because_ it_ \ it was_ was_ too_ too_ tire tire d d
Hình 2.13: Hình ảnh trực quan hóa quá cách hoạt động của Self-attention (Nguồn: Internet 2) Đầu vào của Self-attention là 3 vector Query, Key và Value, các vector này được tính bằng cách nhân đầu vào với các ma trận trọng số tương ứng với query,
*nttps://jalammar.github.io/illustrated-transformer/
2 Cơ sở lý thuyết và các nghiên cứu liên quan key và value.
* Query vector là vector dùng để chứa thông tin của từ đang xử lý ở bước thời gian hiện tại (là từ dùng để tìm kiếm, so sánh). ô Key vector là vector dựng để biểu diễn thụng tin cỏc từ được so sỏnh với từ đang xử lý ở trên.
* Value vector là vector biểu diễn nội dung, ý nghĩa của các từ.
Vector attention cho một từ thể hiện tính tương quan giữa các vector query, key và value Vector này được tính bằng cách nhân tích vô hướng giữa vector query và vector key, sau đó dùng hàm softmax để chuẩn hóa kết quả, sau cùng chỉ cần nhân với vector value Cụ thể từng bước như sau:
* Bước 1: Tính ma trận query, key va value bang cách nhân ma trận đầu vào với ma trận trọng số tương ứng. ằ Bước 2: Nhõn ma trận query va key vừa tớnh được với nhau Phộp tớnh nay thể hiện việc "học" sự tương quan giữa vector query và key Sau đó, kết quả được huẩn hóa về khoảng [0; 1] bằng hàm softmax, với giá trị càng cao thì sự tương quan giữa query và key càng nhiều và ngược lại.
* Bước 3: Kết quả sẽ được tạo ra bằng cách nhân ma trận có được ở bước 2 với vector value.
Hai ham attention được sử dung phổ biến là ham addictive attention va dot- product attention Đặc điểm của ham dot-product attention là sau khi nhân ma tran query và key với nhau, nó sẽ được chia cho x⁄4J¿,, trong đó d, là số chiều của vector key, trước khi đi qua hàm softmax.
*https://jalammar.github.io/illustrated-transformer/
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Trong sé Query tention Score = cacy T4 Softmax(QueryxKey)
Hình 2.14: Cách hoạt động của self-attention (Nguồn: Internet 7)
Transformer - Multi-Head Attention Đối với các mô hình attention truyền thống, chuỗi đầu vào không thé được khái quát hết do chỉ có một attention head trong nó Ví dụ câu "Trong buổi tiệc, Minh đã bỏ An về trước Bạn ấy có việc bận", nếu chỉ có một cơ chế attention thì khó có thể xác định được từ "Bạn" trong câu muốn nói An hay Minh Do đó,
Transformer đã sử dụng Multi-Head Attention để khái quát được ý nghĩa của câu dưới nhiều góc độ Multi-Head Attention là một trong những cơ chế quan trọng của mô hình Transformer Attention có thể hiểu là một cơ chế ánh xạ một query và một cặp key-value sang một đầu ra, với query, key và value đều là vector Đầu ra chính là tổng có trọng số giữa các giá trị trong value, với trọng số được tính từ query tương ứng với key Hoặc nói cách khác, ta có thể xem query là câu truy vấn để tìm được mã câu tương ứng (key) và ta sẽ có được nội dung, hay ý nghĩa
2 Cơ sở lý thuyết và các nghiên cứu liên quan của các câu đó chính là value Trong bài báo, nhóm tác giả ký hiệu query, key và value lần lượt là Q, K và V.
Scaled Dot-Product Attention Multi-Head Attention
Hinh 2.15: Hinh anh minh hoa co ché attention va kién tric Multi-Head Attention (Nguồn: Bai báo [30])
Trong kiến trúc Multi-Head Attention, với mỗi chuỗi đầu vào, ta có tương ứng Q, K và V sẽ được được biến đổi tuyến tính qua việc đi qua một lớp Linear
Mô hình Vision TransfOrmer
Sau khi mô hình Transformer [30] được giới thiệu và đạt được thành công đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên từ năm 2017, nghiên cứu đã tập trung vào việc tích hợp Transformer vào lĩnh vực thị giác máy tính Kết quả là năm 2020, mô hình Vision Transformer (ViT) [8] ra đời và nhanh chóng vượt qua các mô hình tiên tiến trong thị giác máy tính, cạnh tranh với mô hình CNN vốn đã thống trị rất lâu trong lĩnh vực thị giác máy tính Vậy thì tại sao Vision Transformer lại có thể đánh bại được CNN, trong phần này sẽ trình bày về kiến trúc mô hình và cách hoạt động của mô hình ViT để hiểu rõ hơn tại sao.
Mô hình Vision Transformer (ViT) có kiến trúc tổng quan như Hình 2.17 va dựa chủ yếu vào khối Encoder của mô hình Transformer Quá trình tính toán của ViT bao gồm các bước sau:
2 Cơ sở lý thuyết và các nghiên cứu liên quan
1 Chia hình ảnh thành các mảng (patch) với kích thước cố định cho mỗi mảng.
2 Làm phẳng các mảng hình ảnh.
3 Tạo feature embedding với chiều thấp hơn từ các mảng hình ảnh phẳng
4 Bảo toàn thứ tự của các mảng.
5 Sắp xếp chuỗi feature embedding để làm đầu vào cho transformer encoder.
6 Thực hiện pre-training trên mô hình ViT với nhãn hình ảnh và sau đó giám sát hoàn toàn trên tập dữ liệu lớn.
7 Tinh chỉnh mô hình trên bộ dữ liệu cụ thể của từng bài toán.
Vision Transformer (ViT) ' Transformer Encoder tr (a MLP
Linear Projection of Flattened Patches
Multi-Head Attention oy ar
Hình 2.17: Kiến trúc mô hình ViT [8] Ở bước chuyển đổi hình ảnh thành các vector embedding, ảnh đầu vào được chia thành các mảng có kích thước đồng đều Đầu vào x là ảnh 2D với chiều cao
H, chiều rộng W, và số kênh C (tức là x RữxWx©), Ảnh được chia thành các mang bằng nhau x, € RỲ* (PC) với (P,P) là kích thước của từng mảng ảnh và
H =HW/P? Vi Transformer Encoder yêu cầu đầu vào là vector có kích thước
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Môhình Sốlóp SốchiềuẩnD Số chiucủaMLP SốHead Số trọng số
Bang 2.1: Các phiên ban của mô hình ViT cố định D, các mảng ảnh được duỗi va đi qua một lớp tuyến tính để chuyển đổi thành vector D chiều.
Tương tự như Transformer, thứ tự của các mang ảnh trong ViT cũng quan trọng Một lớp Positional Embedding được thêm vào để giữ thông tin vị trí của các mang anh, tạo thành các Embedded Patches Trong [8], chỉ sử dụng vi trí 1 chiều vì không có cải thiện hiệu năng khi thử nghiệm với thông tin vị trí 2 chiều.
Khối Encoder giữ nguyên như trong Transformer, các Embedded Patches đi qua lớp chuẩn hóa, một lớp Multi-head attention và lớp MLP Cuối cùng, đầu ra từ khối Encoder đi qua một lớp MLP Head với số chiều K, tương ứng với số lớp trong tập dữ liệu.
Mô hình ViT có nhiều phiên bản, bằng cách thay đổi số lớp, số head trong
Multi-head attention, s6 chiều ẩn D, số chiều của lớp MLP, ViT có 3 phiên ban như trong bản sau 2.1. Để có tương quan với mô hình Transformer trong xử lý ngôn ngữ tự nhiên, mô hình ViT chú trọng vào từng mang ảnh va tập trung chú ý vào mang ảnh có liên quan nhất Hình 2.18 dưới đây trực quan hóa các lớp của mô hình sau khi được huấn luyện Nói chung, bản đồ attention tập trung chủ yếu vào đối tượng
(các vùng sáng) trong ảnh, giúp loại bỏ thành phần nhiễu như nền và nâng cao hiệu suất của mô hình.
‘https: //viso.ai/wp-content/up1oads/2021/09/attention-map-vision-transformers-vit jpg
2 Cơ sở lý thuyết và các nghiên cứu liên quan
SBE xe mR BHO Bowe SRR Bh a
Hình 2.18: Ban đồ Attention tương ứng với ảnh dau vào của mô hình ViT (Nguồn:
2.3 CÁC NGHIÊN CỨU LIEN QUAN
2.3.1 Các bộ dw liệu liên quan
Trước hết, chúng ta cần tiến hành nghiên cứu các bộ dữ liệu phổ biến trong bài toán STR, nhằm tìm hiểu các vấn đề, các giải pháp và mô hình đang được đánh giá và so sánh với nhau Đây cũng sẽ là các bộ dữ liệu mà nhóm khóa luận sử dụng để đánh giá và tạo ra dữ liệu OOV tiếng Việt.
2.3.1.1 Regular Latin Datasets Đối với bộ dữ liệu chữ Latin thong thường, hầu hết các trường hợp van ban đều ở dạng ngang, trong khi đó có một số ít có biến dạng. ¢ IITSK-Words (HIT5K): Bộ dữ liệu IIT5K bao gồm 5.000 hình ảnh về trường hợp văn bản, trong đó có 2.000 hình cho quá trình huấn luyện và 3.000 hình cho quá trình kiểm thử Bộ dữ liệu này chứa từ ngữ xuất hiện trên cảnh đường phố và từ hình ảnh số gốc. ô Street View Text (SVT): Bộ dữ liệu SVT gồm 350 hỡnh ảnh, trong đú cú
100 hình cho quá trình huấn luyện và 250 hình cho quá trình kiểm thử.
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Một số hình ảnh bị nhiễu, mờ và có độ phân giải thấp Mỗi hình ảnh liên kết với một từ điển 50 từ.
Hình 2.20: Tập dữ liệu SVT
ICDAR 2003 (C03): Bộ dữ liệu IC03 bao gồm 509 hình ảnh, trong đó có
258 hình cho quá trình huấn luyện và 251 hình cho quá trình kiểm thử Nó chứa 867 trường hợp văn ban đã được cắt sau khi loại bỏ những hình ảnh chứa ký tự không phải chữ số hoặc ít hơn ba ký tự.
Hình 2.21: Tap dữ liệu ICDAR 2003
ICDAR 2011 (C11): Bộ dữ liệu IC1 1 [26] gồm 485 hình anh Day là một bổ sung của bộ dif liệu được sử dụng cho các cuộc thi The text locating competitions of ICDAR 2003.
ICDAR 2013 (ICDAR13): Bộ dữ liệu từ cuộc thi "ICDAR Robust Read- ing Competitions", cuộc thi được tổ chức thường niên tập trung vào các bài toán nhận dang văn bản Dữ liệu từ tập ICDAR13 bao gồm 420 ảnh huấn luyện và 141 ảnh kiểm thử Tương tự như bộ dữ liệu IC03, bộ dữ liệu
2 Cơ sở lý thuyết và các nghiên cứu liên quan
IC13 chứa 1.015 hình ảnh các trường hợp văn bản đã được cắt sau khi loại bỏ các từ chứa ký tự không phải chữ số hoặc chữ cái Đáng chú ý, có 215 hình ảnh trường hợp văn bản trùng lặp giữa tập huấn luyện IC03 và tập kiểm thử IC13 Do đó, cần chú ý đến dif liệu chồng lấn khi đánh giá một mô hình trên dữ liệu kiểm thử của IC13.
Hình 2.22: Tap dữ liệu ICDAR 2013
2.3.1.2 Irregular Latin Datasets Đối với các bộ dữ liệu Irregular Latin, phan lớn trường hợp văn bản có độ phân giải thấp, bị méo mó theo góc nhìn, hoặc cong Các kiểu chữ và mẫu văn bản không đều với độ méo mó đa dạng mang lại thách thức đáng kể trong nhận dạng Văn bản trên Hình ảnh (STR). ô StreetViewText-Perspective (SVT-P): Bộ dữ liệu SVT-P bao gồm 238 hình ảnh với 639 trường hợp văn bản đã được cắt Nó được thiết kế đặc biệt để đánh giá khả năng nhận dạng văn bản bị méo mó theo góc nhìn. Phần lớn các trường hợp văn bản bị méo mó nặng do góc nhìn không phải phía trước.
Hình 2.23: Tập dữ liệu SVTP ằ CUTE80 (CUTE): Bộ dữ liệu CUTE [25] chứa 80 hỡnh anh độ phõn giải cao với 288 trường hợp văn bản đã được cắt Nó tập trung vào việc nhận
2 Cơ sở lý thuyết và các nghiên cứu liên quan dạng văn bản cong Tập dữ liệu đa phần là chữ cong chụp trên áo của các cầu thủ Da phần các chữ trong này đều bị nhiễu là chữ nghiêng, cong va
Hình 2.24: Tập dữ liệu CUTE80
CÁC NGHIÊN CỨU LIÊN QUAN
OOVDatasets
Vietnamese Datasets
Đối với ngôn ngữ tiếng Việt, có tập dữ liệu VinText [23] Với số lượng ảnh là
2.000, được thu thập bao gồm các ảnh chứa cảnh đời sống sinh hoạt hằng ngày của con người Việt Nam Tính đến hiện tại VinText là tập dữ liệu chuẩn đầu tiên bằng tiếng Việt.
Ngoài ra, còn một số tập dữ liệu được thu thập từ các cuộc thi hoặc các bài nghiên cứu khác như: ¢ BKAI2022: Dữ liệu được thu thập từ cuộc BKAI-NAVER Challenge nam
2022 về chủ dé Vietnamese Scene Text Detection and Recognition gồm
2 Cơ sở lý thuyết và các nghiên cứu liên quan
500 ảnh huấn luyện, 235 ảnh thuộc tập public test và 300 ảnh thuộc tập private test Day là tập dữ liệu ảnh ngoại cảnh, với các challenge như anh được cắt ra từ một ảnh lớn, ¢ VietSignBoard: Dữ liệu được thu thập bởi sinh viên của trường Đại học
CNTT TPHCM - UIT Bộ dữ liệu bao gồm 1.175 ảnh biển quảng cáo với 52.933 đối tượng văn bản (với nhãn được gán theo mức độ dòng và từ).
2.3.2 Các hướng tiếp cận bài toán STR
Trong thực tế, bài toán nhận dạng văn bản đối mặt với nhiều thách thức khác nhau như đã dé cập tại phần giới thiệu 2.1.1 - như chữ với nền, phông chữ phức tạp, hay chữ bị quá cong, quá mờ, Như vậy, để dé dàng giải quyết từng thách thức một, bài khảo sát của [5], cũng như nghiên cứu của [2] đã chuẩn hóa cấu trúc một thuật toán STR như sau:
* (1) Bước tiền xử lý ảnh Transformation Mục đích của bước này là góp phần nâng cao hiệu quả của bước tiếp theo Có một vài hướng tiếp cận như: sử dụng một mạng nắn thang (thường gặp trong trường hợp chữ cong) hoặc loại bỏ đi nhiễu nên;
* (2) Bước rút trích đặc trưng Feature extraction - một mang học sâu dùng để rút trích đặc trưng thị giác (thông thường đã được huấn luyện trước). Thường dùng nhất là mô hình CNN như VGG hay ResNet; tuy nhiên,
Các hướng tiếp cận baitoanSTR
trong những năm gần đây mô hình Transformer được ứng dụng cho các tác vụ thị giỏc mỏy tớnh như ViT [8], DeùT [29] đó được sử dụng để rỳt trớch đặc trưng;
* (3) Mô hình tuần tự Sequence modeling Kí tự trong một từ của một ngôn ngữ thường liên hệ mật thiết với nhau Cho nên bước này sử dụng mạng hồi quy như RNN/LSTM giúp tạo ra mối liên hệ giữa các đặc trưng thị giác xa/gần (cũng chính là đặc trưng của từng kí tự) Vì thế, giai đoạn này giúp cải thiện độ ổn định cho bước dự đoán kết quả hơn.
* Cuối cùng là (4) Giai đoạn dự đoán kết quả Prediction, và theo như một vài SOTA hiện nay, bước này thường sử dụng mô hình CTC [12] hoặc cơ chế Attention [3] nổi bật nhất trong cả lĩnh vực Thị giác máy tính lẫn Xử lý ngôn ngữ tự nhiên.
Bằng cách điều chỉnh sự quan trọng của hai giai đoạn Trích xuất Đặc trưng và Mô hình Chuỗi, nhận dạng Văn bản Trong cảnh có thể được chia thành hai phương pháp khác nhau: language-free và language-aware (language-based).
Dưới đây sinh viên sẽ trình bày rõ hơn từng hướng tiếp cận:
Các phương pháp tiếp cận theo hướng language-free là những phương pháp không yêu cầu bất kỳ kiến thức cụ thể nào về ngữ nghĩa ngôn ngữ cụ thể, mà thay vào đó tập trung vào phân tích các đặc trưng hình ảnh của văn bản, như màu sắc, kết cấu và hình dạng xuất hiện trong hình ảnh Những phương pháp này có thể được sử dụng để nhận dạng văn bản một cách nhanh chóng và chính xác, mà không cần biết ngôn ngữ của văn bản đó Hơn nữa, các phương pháp không ngôn ngữ rất hữu ích cho các nhiệm vụ yêu cầu nhận dạng văn bản trong nhiều ngôn ngữ, vì chúng có thể được sử dụng để nhanh chóng nhận dạng văn
2 Cơ sở lý thuyết và các nghiên cứu liên quan ban bằng bat kỳ ngôn ngữ nào Tuy nhiên, các phương pháp không ngôn ngữ không thể giải quyết một cách xuất sắc các van đề nhận dạng trên hình ảnh chất lượng thấp vì thiếu thông tin ngữ nghĩa ngôn ngữ.
Trong các nghiên cứu [10], [34] có một số phương pháp tiếp cận theo hướng language-free như sau: ¢ CTC-based method ¢ Segmentation-based method ¢ Vision Transformer
Dưới đây, sinh viên sẽ trình bay cơ sở lý thuyết của từng phương pháp tiếp cận như đã nêu ở trên:
Hướng tiếp cận CTC-based là một trong những phương pháp phổ biến để giải quyết bài toán nhận dạng văn bản trong hình ảnh (scene text recognition).
CTC (Connectionist Temporal Classification) là một kỹ thuật giúp phân loại dữ liệu chuỗi sequence data) mà không yêu cầu giả định rõ ràng về đầu ra của mô hình Phương pháp tiếp cận này sử dụng kỹ thuật CTC để đưa ra dự đoán kí tự cho toàn bộ chuỗi kí tự của văn bản.
Các bước thực hiện của phương pháp tiếp cận CTC-based decoding trong bài toán nhận dạng văn bản bao gôm:
1 Trích xuất đặc trưng: Ảnh chứa văn bản được đưa vào một mô hình neural network để trích xuất đặc trưng của ảnh.
2 Dự đoán kí tự: Mô hình sử dụng đặc trưng của ảnh để dự đoán kí tự tại mỗi vị trí trên ảnh.
2 Cơ sở lý thuyết và các nghiên cứu liên quan
3 Decoding: Kết quả dự đoán kí tự từ mô hình sẽ được đưa vào một bước decoding, sử dụng kỹ thuật CTC để đưa ra dự đoán kí tự cho toàn bộ chuỗi kí tự của văn bản.
4 Kết quả: Kết quả đầu ra của Phương pháp tiếp cận CTC-based decoding là chuỗi kí tự dự đoán cho văn bản trong ảnh.
Hình 2.33: Hình minh họa quá trình giải mã sử dụng CTC (Nguồn: Internet !)
CTC đạt được hiệu suất chuyển văn bản đáng chú ý và ổn định Tuy nhiên, nó đôi mặt với một sô hạn chê cơ bản: ô Phương phỏp chủ yếu của CTC tương đối phức tạp, dẫn đến chi phớ tớnh toán lớn cho chuỗi văn bản dài.
* CTC gặp van đề với phân phối có đỉnh và hiệu suất của nó thường giảm khi có các mẫu lặp lại.
* CTC khó có thể được áp dụng vào các vấn dé dự đoán hai chiều (2D), chẳng hạn như nhận dạng văn bản không đều, nơi các ký tự trong hình ảnh của một trường hợp văn bản đều phân bố trong một cấu trúc không gian. lhttps : //miro.medium.com/v2/resize:fit:1200/1*1_5knLvaTkGUFoyat2jHcQ png
2 Cơ sở lý thuyết và các nghiên cứu liên quan Để giải quyết van dé này, các nhà nghiên cứu đã mở rộng CTC cơ bản bằng cách thêm một chiều theo hướng chiều cao Mặc dù hiệu suất nhận dạng được cải thiện một phần, mô hình 2D-CTC được đề xuất vẫn chưa hoàn toàn giải quyết van dé dự đoán 2D Do đó, việc áp dụng CTC để giải quyết van dé dự đoán 2D có thể là một hướng nghiên cứu tiềm năng.
Các phương pháp dựa trên phân đoạn chia nhỏ các ky tự tai mức pixel bằng cách xác định ký tự thông qua việc tổ chức các pixel đã được phân đoạn thuộc vùng văn bản Để biết thêm thông tin, TextScanner [33] đã được dé xuất vào năm 2019 và bao gồm hai nhánh: nhánh lớp và nhánh hình học. ¢ Nhánh lớp tao ra các bản đồ phân đoạn đa kênh, trong đó giá trị tại mỗi vị trí đại diện cho xác suất của các lớp ký tự. ¢ Nhánh hình học cũng tạo ra các bản đồ phân đoạn đa kênh, trong đó ý nghĩa của giá trị tại mỗi vị trí là khác biệt so với nhánh lớp.
Nói cách khác, mô hình này dự đoán thông tin lớp và hình học - vị trí và thứ tự của các ký tự với hai nhánh riêng biệt Nhờ cấu trúc này, mô hình có thể tránh được hiện tượng mat tập trung chú ý và thể hiện khả năng thích ứng mạnh mẽ với văn bản dai và phức tạp hơn, đặc biệt là với các bảng chữ cái Trung Quốc.
Hình 2.34: Hình minh họa kiến trúc TextScanner [33]
2 Cơ sở lý thuyết và các nghiên cứu liên quan
Lấy cảm hứng từ thành công ấn tượng của Transformer [30] trong xử lý ngôn ngữ tự nhiên (NLP), việc tích hợp Transformer vào STR cũng đang thu hút sự chú ý rộng rai Vision Transformer (ViT) , bằng cách xử lý trực tiếp các mảnh ảnh thay vì sử dụng convolutions, mở đầu cho việc áp dụng khối Transformer thay vì CNN để giải quyết các thách thức trong thị giác máy tính, và đưa ra những kết quả nổi bật Trong khi đó, ViTSTR [1] cố gắng tận dụng đặc trưng của lớp cuối cùng của ViT để giải mã ký tự theo cách đồng thời.
Ngược lại với phương pháp Language-Free, các phương pháp dựa trên ngôn ngữ (Language-Aware) sử dụng các thuật toán nhận dạng và hiểu ngôn ngữ cụ thể trong văn bản, bao gồm ngữ pháp, cú pháp và ngữ nghĩa Các lợi ích của phương pháp Language-Aware so với Language-Free bao gồm:
* Các phương pháp Language-Aware có kha năng phát hiện ý nghĩa của văn bản, cho phép chúng cung cấp phân tích sâu hơn so với phương pháp
Languagpe-aware
Attention-basedmethod
Show, Attend, and Read (SAR) [18] được giới thiệu vào nam 2018 với ý định đề xuất một cơ sở mạnh mẽ dễ triển khai cho việc nhận diện văn bản không đều trong cảnh, sử dụng các thành phần mạng nơ-ron sẵn có và chỉ có các chú thích cấp từ Nó bao gồm một ResNet 31 tầng, một khung công việc mã hóa-giải mã dựa trên LSTM và một mô-đun chú ý 2 chiều.
Input Feature Holistic image ơ map feature
Tranformer-based method
Kiến trúc này không chỉ vượt trội đáng kể so với các thuật toán hiện tại trên văn bản không đều, đặc biệt là đối với ảnh bị biến dạng, mà còn đạt được hiệu suất tốt trên văn bản đều bằng cách sử dụng một cơ sở cơ bản và cơ chế Attention
Ngoài ra, ABINet [11], kết hợp rõ ràng giữa mô hình thị giác và mô hình ngôn ngữ, đã được dé xuất để mô phỏng quá trình đọc hiểu của con người thông qua ba bước:
2 Cơ sở lý thuyết và các nghiên cứu liên quan ô Tự động: dộ xuất chặn luồng thụng tin giữa mụ hỡnh thị giỏc và mụ hỡnh ngôn ngữ để mạnh mẽ hóa mô hình ngôn ngữ một cách rõ ràng. ¢ Hai chiều: sử dụng một mạng cloze hai chiều mới (BCN) như là mô hình ngôn ngữ với bộ biến đổi L-Layer. ¢ Lap lại: một phương pháp thực hiện việc sửa mô hình ngôn ngữ theo phương pháp lặp lại, giảm thiểu hiệu ứng của nhiễu đầu vào một cách hiệu quả.
Các thử nghiệm đầy đủ đã chứng minh rằng ABINet vượt trội khi áp dụng cho ảnh chất lượng thấp, đạt kết quả tiên tiến trên nhiều bộ kiểm tra phổ biến.
Hơn nữa, ABINet được đào tạo bằng phương pháp tự huấn luyện hợp nhất đã cho thấy sự tiến bộ hứa hẹn đối với việc nhận diện ở mức độ tương đương với con người.
LSTM-based method
Năm 2020, kiến trúc Selective Context Attentional Text Recognizer (SCAT-
TER) [19] cho nhận dang văn ban theo chuỗi (STR) da được giới thiệu SCAT-
TER sử dung một kiến trúc khối xếp chồng với giám sát trung gian trong quá trình huấn luyện, mở đường cho việc huấn luyện thành công một bộ mã hóa
BiLSTM sâu, từ đó cải thiện việc mã hóa các phụ thuộc ngữ cảnh Một bộ giải mã tập trung lựa chọn, đồng thời giải mã cả đặc trưng hình ảnh và ngữ cảnh bằng cách sử dụng một cơ chế tập trung hai bước: ô Xỏc định đặc trưng hỡnh ảnh và ngữ cảnh nào cần chỳ ý đến. ô Xử lý cỏc đặc trưng như một chuỗi và chỳ ý đến cỏc mối quan hệ trong chuỗi.
2 Cơ sở lý thuyết và các nghiên cứu liên quan
(a) General text recognition model (b) SCATTER (Ours) (c) SCATTER (Ours) speak at 205) Inference Training
Hinh 2.36: Kién tric SCATTER Để cụ thể hon, sau khi lớp CNN trích xuất các đặc trưng từ các ảnh được chuẩn hóa, các đầu ra được đưa vào một loạt các khối bao gồm hai thành phần BiLSTM và Bản đồ Đặc trưng Hình ảnh Các khối này có thể được xếp chồng nhiều lần tùy thuộc vào nhiệm vụ hoặc độ chính xác yêu cầu, với dự đoán cuối cùng được cung cấp bởi bộ giải mã từ khối cuối cùng.
Thách thứcOutof-vocabulary
Có rat ít công trình nghiên cứu hướng đến giải quyết vấn dé ngoài tập từ vựng (OOV), theo nghiên cứu [32] và cuộc thi OOV-ST đã chỉ ra van dé này va dé xuất một số hướng giải quyết như sau: ¢ Phương pháp dựa trên ensemble learning. ằ Tự động quyết định giữa phương phỏp đặc trưng hỡnh ảnh và ngụn ngữ.
2.3.3.1 Phương pháp dựa trên ensemble learning
Do ưu điểm của phương pháp dựa trên Attention và phương pháp dựa trên
Phân đoạn (Segmentation), nghiên cứu [32] đã kết hợp cả hai phương pháp này vào một chiến lược mới đơn giản, nơi mà các mô hình học chung Phương pháp
2 Cơ sở lý thuyết và các nghiên cứu liên quan này tập trung vào ý tưởng chính: việc tổng quát hóa từ bộ giải mã dựa trên Phân đoạn giám sát thành bộ giải mã dựa trên Attention để học cách giải quyết van dé từ vựng, đồng thời sự chính xác của bộ giải mã dựa trên Attention cũng cải thiện hiệu suất của bộ giải mã dựa trên Phân đoạn.
Dineen OM PTL nn ơsse6ssY^ I Tnneninn Af nttantinn hanndl
Hình 2.37: Phương pháp dựa trên essemble learning
Ngoài ra, Cuộc thi Cropped Word Recognition Task of the OOV-ST Chal- lenge tại Hội thảo TiE ECCV 2022 diễn ra vào tháng 7 năm 2022, và các đội hàng đầu đã sử dụng các kỹ thuật cơ bản được cải tiến như SCATTER [19] và ABINet [11] cùng với các phương pháp học hợp để góp phần giảm tình trang phụ thuộc vào từ vựng Giải pháp của họ đạt đến độ chính xác 69.7% trên bộ dữ liệu gồm cả hình ảnh In-vocab và Out-vocab Cụ thể, họ đã học hợp ba mô hình theo ba giai đoạn khác nhau: °O giai đoạn tiền huấn luyện và làm mịn, họ sử dụng ABINet [11] cho hình ảnh với độ phân giải thấp và nhiễu mờ cao, nhiễu Gaussian, nhiễu chuyển động và nén JPEG,
-O giai đoạn huấn luyện, mô hình SCATTER [19] được sử dung với các kiến trúc cơ sở khác nhau và các giá trị khởi tạo khác nhau, sau đó kết hợp kết quả dau ra của chúng.
2 Cơ sở lý thuyết và các nghiên cứu liên quan
* Ở giai đoạn dự đoán, chuỗi đầu ra của các ký tự là từ bộ giải mã cuối cùng trong quá trình suy luận, do đó, kết quả được kết hợp bằng cách lấy trung bình xác suất đầu ra của tất cả năm khối ở mỗi bước thời gian.
2.3.3.2 Tự động quyết định giữa phương pháp đặc trưng hình ảnh và ngôn ngữ. Động lực cho phương pháp này xuất phát từ sự phụ thuộc quá mức vào thông tin ngôn ngữ trong hầu hết các phương pháp ngôn ngữ hiện đại Không giảm tác động của thông tin ngôn ngữ so với thông tin hình ảnh như các phương pháp trước đó, mô hình này tự động quyết định mức độ thông tin nào về ngôn ngữ và hình ảnh có thể được giữ trong quá trình huấn luyện và dự đoán Phương pháp nay đã được triển khai bởi VLAMD [15] vào năm 2022 và cũng đã đứng đầu trong cuộc thi Cropped Word Recognition Task of the OOV-ST Challenge. ional Awa ttention key
Visual Aware Posit re Attention A key value value
Hình 2.38: Kiến trúc của VLAMD [15]
VLAMD bao gồm ba thành phần khác nhau: ¢ Một bộ giải mã LSTM dựa trên Attention được xây dựng với hai mô-đun chỉ hình ảnh được hợp nhất một cách tự động, tạo ra một nhánh chính cân bằng giữa hình ảnh và ngôn ngữ.
2 Cơ sở lý thuyết và các nghiên cứu liên quan ° Một đầu giải mã tự động được thêm vào phục vụ cho quá trình giải mã tự động cho hình ảnh và ngôn ngữ chung. ô Kết hợp hai thiết kế này với việc huấn luyện hai chiều để cú mụ hỡnh ngụn ngữ đa dạng hóa hơn và đạt được kết quả mạnh mẽ hơn.
Mô hình này đã được đánh giá trên bộ dữ liệu kết hợp In-vocab và Out-of- vocab và đạt được độ chính xác 70,31%, vượt qua tất cả các đội tham gia khác.
Tuy nhiên phương pháp này chỉ ở mức cuộc thi và thực nghiệm, chưa có cơ sở để công bồ chính thức phương pháp.
Ngoài ra, đã có những nghiên cứu khám phá việc học tự giám sát trong Nhận
Dạng Văn Bản Trong Cảnh (STR) Bằng cách sử dụng học tự giám sát, có thể phát triển mô hình chính xác và mạnh mẽ hơn để nhận dạng tốt hơn các từ và cum từ OOV Tuy nhiên hiện tại, các mô hình SOTA trong bài toán STR đã có một bước phát triển mới, được đánh giá sẽ giải quyết khá tốt vấn để ngoài tập từ vựng Do đó, sinh viên tiến hành đánh giá tập trung các hướng phát triển của bài toán STR, từ đó tìm ra một phương pháp mới để đạt hiệu suất tốt hơn đối với van dé OOV.
MỘT SỐ PHƯƠNG PHÁP ÁP DUNG CHO VAN ĐỀ NHAN DANG VĂN BẢN NGOÀI TẬP TỪ VỰNG 47
Language-Free Q Q Q 02 eee eee 47
Mô hình ViTSTR, giới thiệu trong [1], là một mô hình nhận dang văn bản đạt cân bằng giữa hiệu suất và chi phí tính toán Mô hình này mang lại độ chính xác cao với chi phí tính toán thấp hơn so với các phương pháp trước đó như TRBA (TPS-ResNet-BiLSTM-Attention) [2] ViTSTR chủ yếu tận dụng ưu điểm của
47 mô hình Vision Transformer, với sự đơn giản và hiệu quả của việc sử dụng mỗi khối Encoder của Transformer 3.1.
Framework nhan dang van ban dién hinh
Transformer Encoder-Decoder có dùng backbone
Transformer Encoder (ViTSTR) ee FLANDERS
Hình 3.1: Kiến trúc của ViTSTR so với các kiến trúc STR khác (Nguồn: Bài báo [1])
Bằng cách tận dụng sự đơn giản và hiệu quả của mô hình ViT, ViTSTR chỉ có sự khác biệt duy nhất ở đầu dự đoán (prediction head) Trong khi mô hình ViT được huấn luyện để dự đoán nhãn của một đối tượng, VITSTR đặt ra thách thức hơn khi phải dự đoán đồng thời nhiều ký tự và duy trì đúng thứ tự của chúng Vì mô hình ViTSTR giống với ViT, khối Encoder được giữ nguyên như trong mô hình Transformer, bao gồm lớp chuẩn hóa, lớp Multi-head Self-attention, các residual connection và lớp MLP, và được xếp chồng L lớp lên nhau (bên phải
Trong mô hình Vision Transformer, đầu ra dự đoán được sử dụng để phân loại đối tượng trong ảnh Trái lại, ViITSTR sử dung đầu ra nay để tương ứng với token đặc biệt [GO], thể hiện sự bắt đầu của câu dự đoán Để dự đoán nhiều ký tự cùng lúc, ViTSTR trích xuất nhiều vector đặc trưng cùng lúc, với số lượng vector
Transformer Encoder ee a a go sẽ retin + le [TH] R [zL] [4L] [s] | [6] | [7 ] [s] |
Hình 3.2: Kiến trúc của mô hình ViTSTR (Nguồn: Bài báo [1])
Phiên bản mảng ảnh Chiêu sâu torẩn Số Head Chiều dài câ
ViTSTR ga L vector a 6 Hea iéu dai cau
Bang 3.1: Các phiên ban của mô hình ViTSTR bằng chiều dài tối đa của câu sinh ra, được quy định từ trước Trong trường hợp chiều dai thực tế ít hơn, token đặc biệt [s] được sử dụng để biểu thị kết thúc câu hoặc khoảng trắng.
Cũng giống như ViTSTR, bang cách điều chỉnh số khối encoder L, số chiều của vector ẩn D, và số head H trong lớp Multi-head self-attention, ViTSTR tạo ra nhiều phiên bản khác nhau 3.1.
STVR là một phương pháp mới nhằm nhận diện văn bản trong hình ảnh, thay thế mô hình tuần tự bằng cách phân rã văn bản và sử dụng giai đoạn phân cấp để nhận diện ký tự Kết quả thử nghiệm cho thấy STVR có độ chính xác cạnh
49 tranh với các phương pháp trên tiếng Anh và vượt trội so với các phương pháp hiện tại trong tiếng Trung, đồng thời có tốc độ nhanh hơn. Đối với các phương pháp trước đó tập trung vào một mô hình hình ảnh, chỉ hiệu quả khi trích xuất được đặc trưng phân biệt của ký tự, SVTR được đề xuất để cải thiện khả năng nhận diện văn bản trong ảnh SVTR sử dụng cấu trúc tương tự Vision Transformer, chia văn bản thành các thành phần ký tự 2D để mã hóa và chú ý đến mỗi mảnh Kết quả là khả năng nhận diện văn bản được cải thiện và duy trì tốc độ xử lý nhanh chóng thông qua mô hình hình ảnh duy nhất.
3.1.2.1 Tổng quan về kiến trúc:
SVTR là một mạng gồm ba giai đoạn có chiều cao giảm dần, được thiết kế đặc biệt để nhận diện văn bản Ban đầu, hình ảnh văn bản kích thước H x W x 3 được chuyển đổi thành các patch kích thước “4 x © thông qua quá trình nhúng patch trùng lắp, với mỗi patch được gọi là thành phan ký tự.
Hình 3.3: Tổng quan kiến trúc mô hình SVTR (Nguồn: Bài báo [10]).
Sau đó, một chuỗi các giai đoạn thực hiện các khối trộn và hoạt động kết hợp ở các quy mô khác nhau để trích xuất đặc trưng cục bộ và toàn cục Các khối trộn cục bộ và toàn cục (Local and global mixing blocks) được tạo ra để nắm bắt
50 các mẫu cục bộ giống như nét vẽ và sự phụ thuộc giữa các thành phần Với sự hỗ trợ của backbone, đặc trưng và sự phụ thuộc của các thành phần ở các khoảng cách và quy mô khác nhau được trích xuất đặc trưng, tạo ra biểu diễn C kích thước | x T x D3, nhận diện đặc trưng ký tự đa cấp.
Cuối cùng, một dự đoán tuyến tính song song được thực hiện để tạo ra chuỗi ký tự, loại bỏ trùng lặp và mang lại khả năng nhận diện văn bản chính xác và nhanh chóng.
(a) Linear Patch Embedding (bo) Ours POPE
Hình 3.4: Kiến trúc module Patch embedding (Nguồn: Bai báo [10]
Module Patch Embedding nhận đầu vào là ma trận ảnh có kích thước H x
W x3 và chuyển đổi nó thành ma trận 4H x 4W với độ sâu Do phan tử Mỗi phần tử trong ma trận kết quả đóng vai trò như các "ký tự" trong các bài toán xử lý ngôn ngữ Cấu trúc Patch Embedding bao gồm 2 lớp convolution với kernel
3 x 3, bước nhảy 2, và theo sau là một lớp Batch Normalization Theo nghiên cứu của tác giả, các chiến thuật nhúng Patch khác nhau sẽ ảnh hưởng đến hiệu suât của mô hình.
Hình 3.5: So sánh module embedding (Nguồn: Bài báo [10]
Như ảnh trên ta có thể thay, Patch Embedding được dé xuất trong mô hình giúp outperform 0.75% và 2.8% so với các phương pháp còn lại.
Mixing Blocks bao gồm hai loại chính:
1 Local Mixing Block (Khối Tron Cục Bộ)
2 Global Mixing Block (Khối Trộn Toàn Cau) Động lực của hai khối này xuất phát từ hai ý tưởng chính Thứ nhất, dé mô hình có khả năng nhận diện văn bản tốt ngoài việc biểu diễn mối liên hệ giữa các chữ, cần phải biểu diễn thông tin toàn cục Điều này giống như các phương pháp như CRNN+Attention hiện đang được thực hiện Thứ hai, mô hình cũng cần biểu diễn tốt sự tương quan giữa các chỉ tiết trong cùng một ký tự Sự khác biệt giữa các nét cham, phẩy có thé tạo ra sự khác biệt giữa các chữ cái, vi dụ như chữ "o", "g", "ô", "6",
Global Mixing được sử dụng để biểu diễn mối quan hệ giữa các phần tử không phải văn bản và văn bản Qua đó, nó giúp biểu diễn sự phụ thuộc xa
LTD L1 11) ) Ă Ă) NC See COCCI o ỉữữ
Gee 20110106166148£1+00 eee ỉỉ3đđđđđửdd BAA
Figure 4: Illustration of (a) global mixing and (b) local mixing.
Merging và Combinng
Kiến trúc Merging có chức năng trích xuất đặc trưng trên nhiều ty lệ khác nhau để loại bỏ hiện tượng biểu diễn thừa thông tin Để thực hiện điều này, sau mỗi lớp Mixing Blocks, tác giả sử dụng một lớp convolution có kích thước kernel 3 x 3, bước nhảy 2 theo chiều cao và 1 theo chiều rộng Với đầu vào kích
53 thước h x w x đ;_¡, đầu ra sẽ có kích thước h/2 x w x dj Chiều cao giảm một nửa, nhưng chiều rộng của bản đồ đặc trưng được giữ nguyên, giúp giảm chi phí tính toán và đảm bảo rằng các tầng khác nhau không biểu diễn cùng một thông tin Điều này quan trọng vì ảnh trong bài toán nhận diện chữ thường có chiều rộng lớn hơn nhiều so với chiều cao.
Kiến trúc Combining được sử dụng ở tầng cuối cùng của mô hình thay thế cho kiến trúc Merging, đưa kích thước chiều cao về 1 bằng lớp Pooling Sau đó là một lớp fully connected và activation Việc sử dụng lớp Combining ở cuối thay vì Merging giúp tránh việc sử dụng lớp tích chập với các ma trận đặc trưng quá nhỏ, gây mất mát đặc trưng ban đầu.
VietOCR là mô hình được giới thiệu bởi Pham Bá Cường Quốc vào năm 2020
[24] VietOCR có 2 phiên bản là VietOCR-Seq2Seq và VietOCR-Transformer, trong đó hướng tiếp cận Transformer cho kết quả cao hơn theo thực nghiệm của tác giả, do đó, sinh viên sẽ chọn mô hình VietOCR-Transformer để đánh giá VietOCR-Transformer tận dụng điểm mạnh của kiến trúc Encoder-Decoder Transformer để tăng độ chính xác trong quá trình nhận dạng VietOCR bao gồm
2 phần chính, CNN để rút trích đặc trưng ảnh đầu vào và Transformer để dùng để sinh ra chuỗi dự đoán 3.7.
Mô hình CNN sử dụng trong mô hình VietOCR là VGG19 [27], tuy nhiên có chính sửa lại một chút để phù hợp với bài toán nhận dạng văn bản Thông thường, hình ảnh đầu vào của bài toán nhận dạng văn bản thường có chiều dài lớn hơn chiều cao, do đó tác giả đã điều chỉnh kích thước của cửa sổ trượt và lớp pooling về w x h = 2 x 1 Một trong những lý do khiến tác giả chọn mô
Hình 3.7: Tổng quan kiến trúc mô hình VietOCR-Transformer (Nguồn: [24]) hình VGG là do kiến trúc mô hình đơn giản, dễ dàng điều chỉnh các cửa sổ trượt và lớp pooling Với ảnh đầu vào có kích thước H x W x C, với H,W,C lần lượt là chiều cao, chiều rộng và số kênh của ảnh, đầu ra của mô hình CNN là một ma trận đặc trưng có kích thước C x H x W Để có thé đưa vào Transformer
Encoder, đầu vào phải có kích thước là D x 7, trong đó 7 là bước thời gian va
D là số chiều của vector đầu vào Do đó, ma trận đầu ra của CNN sẽ được duỗi thang để đưa vào encoder.
Mô hình Transformer được sử dụng giống với mô hình Transformer gốc, chỉ khác duy nhất là đầu vào thay vì là vector embedding của token thì đầu
55 vào Transformer của VietOCR là vector embedding của ảnh được trích xuất từ mô hình CNN Mô hình Transformer trong VietOCR có số chiều của vector ẩn
D = 256, số head trong Multi-head self-attention H = 8 va số khối Encoder, Decoder xếp chồng lên nhau N = 6.
Mô hình Semantic Reasoning Network (SRN) nhằm cải thiện khả năng nhận dạng văn bản trong ngữ cảnh bằng cách giải quyết nhược điểm của các phương pháp trước đó, như sự phụ thuộc vào thời gian và truyền tải ngữ nghĩa một chiều. SRN bao gồm các thành phần chính như Backbone Network, Parallel Visual At- tention Module, Global Semantic Reasoning Module, và Visual-Semantic Fu- sion Decoder.
| Atien ire —© a Semantic [~~ ~t mm ic | '
Semantic {ằ! Semantic —^ Features $ Ì Embedding | Reasoning) ‡ 1
Figure 3 The pipeline of the semantic reasoning network (SRN).
Hình 3.8: Kiến trúc của SRN (Nguồn: Bài báo [36])
Trong môi trường của mang lập luận ngữ nghĩa (SRN), mạng cốt lõi chịu trách nhiệm xử lý thông tin hình ảnh Mô hình kết hợp FPN và ResNet50 để tổng hợp bản đồ đặc trưng từ các giai đoạn khác nhau Bản đồ đặc trưng có kích thước 1/8 của hình ảnh đầu vào và số kênh là 512 Mạng cốt lõi tích hợp các đơn vị biến đổi transformer để nắm bắt các phụ thuộc không gian toàn cầu một cách hiệu quả.
3.2.2.2 Parallel Visual Attention Module - PVAM
Tác giả giới thiệu một cơ chế chú ý song song để nhận dạng chính xác văn bản trên cảnh Cơ chế chú ý này sắp xếp thông tin liên quan trong đầu vào để tạo ra các đặc trưng đầu ra bằng cách tính toán sự tương đồng giữa một truy vấn và một tập hợp các khóa, sau đó tổng hợp các giá trị tương ứng dựa trên những sự tương đồng này.
Thay vì sử dụng thuật ngữ phụ thuộc vào thời gian như truy vấn cho việc tính toán chú ý, thứ tự đọc của các ký tự được sử dụng làm truy vấn Điều này tạo điều kiện cho việc tính toán hiệu quả hơn vì nó cho phép xử lý song song thay vì xử lý tuần tự.
Với một bộ đặc trưng 2D đầu vào (v; 7> Vij), trong đó i đại diện cho vi trí không gian và j đại diện cho chỉ số kênh, và một thứ tự đọc ¢ đại diện cho vị trí ký tự trong chuỗi văn bản:
1 Sự tương đồng giữa mỗi cặp khóa-giá trị (k;,v;) được tính toán bằng cách sử dụng một phép đo sự tương đồng nào đó.
2 Các giá trị v; được tổng hợp dựa trên sự tương đồng của chúng đối với truy van tương ứng.
3 Trong phương pháp của nghiên cứu này, thay vì sử dụng #,_¡ (trạng thái ẩn tại thời điểm ¢ — 1) làm truy vấn như các phương pháp trước đó theo mô hình chú ý của Bahdanau, họ sử dụng ngay chính /, tương ứng với thứ tự đọc.
4 Ký tự đầu tiên có thứ tự đọc là 0, ký tự thứ hai có thứ tự là 1 và cứ tiếp tục, tạo điều kiện cho tính toán song song.
Trong phan nay, tác giả dé xuất một giải pháp được gọi là mô-đun lập luận ngữ nghĩa toàn cầu (GSRM) để giải quyết nhược điểm của việc truyền tải ngữ nghĩa một chiêu trong cấu trúc giống RNN Ý tưởng chính là sử dụng một nhúng gần đúng không phụ thuộc vào thời gian thay vì sử dụng nhúng từ thực tế.
(a) Visual-to-Semantic (b) Global Semantic
Hình 3.9: Kiến trúc của GSRM (Nguồn: Bài báo [36])
Với công thức xác suất cần tối đa hóa trong cơ chế chú ý Bahdanau ban đầu:
Với việc xử ly theo tuần tự, phụ thuộc vào các nhãn trước đó hoặc kết qua dự đoán tại mỗi bước thời gian, câu trúc giỗng RNN giới hạn khả năng lập luận ngữ nghĩa và gây ra hiệu suất kém trong quá trình suy luận Tính tuần tự này ngăn can khả năng thu thập thông tin từ quá khứ như œ;_¡ và H;_, tại bước thời gian t. Để giải quyết nhược điểm của xử ly tuần tự và nắm bắt thông tin ngữ nghĩa toàn cầu, phương pháp dé xuất sử dụng một nhúng gần đúng thay vì nhúng từ thực tế, cho phép xử lý song song và kết hợp ký tự trước và ký tự sau để suy
58 luận Điều này dẫn đến một biểu thức xác suất nâng cấp tích hợp một ham (ƒ,) kết nỗi bối cảnh ngữ nghĩa toàn cầu và thông tin ngữ nghĩa hiện tại.
MôhìnhABINet
Trong những năm gan đây, lĩnh vực xử lý ngôn ngữ tự nhiên đã đạt được nhiều kết quả đáng chú ý nhờ vào sự phát triển của các mô hình như Transformer, BERT [7], các mô hình đó ngày càng "hiểu" rõ được thông tin kiến thức về ngôn ngữ, nếu chúng ta có thể tận dụng được kiến thức này để dự đoán văn bản trong ảnh được tốt hơn thì sao? Đó là lý do mô hình ABINet (tên đầy đủ là Read
Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition)[11] được dé xuất, mô hình nay sử dung thông tin thị giác va cả thông tin ngôn ngữ hoc được để có thể đưa ra dự đoán chính xác hơn thay vì chỉ sử dụng mỗi thông tin thị giác như các phương pháp nhận dạng văn bản khác.
3.2.4.1 Cách nhìn tổng quan về mô hình ABINet
Nhìn chung, ABINet tập trung vào đặc trưng ngôn ngữ để cải thiện kết qua của thuật toán Tác giả của ABINet đã đề cập đến các hạn chế của các mô hình trước đó như sau:
1 Các mô hình trước đó thường kết hợp mô hình thị giác và mô hình ngôn ngữ, ảnh hưởng đáng kể đến kết quả cuối cùng Tác giả đề xuất sự độc lập giữa hai mô hình này, gọi là "Autonomous", để mỗi mô hình hoạt động độc lập và không phụ thuộc lẫn nhau.
2 Tiếp theo, một điều phải công nhận là thông tin theo hai hướng Bidirec- tional sẽ mang nhiều ngữ nghĩa hơn thông tin đến chỉ từ một hướng (Uni- directional) Đã có rất nhiều công trình chứng minh điều này, nổi tiếng nhất đó chính là BERT[7].
3 Hầu hết các thuật toán trước đó thường chỉ thực hiện dự đoán một lần duy nhất ABINet giải quyết van đề này bằng cách thực hiện điều này nhiều lần
(Iterative), giúp tận dụng đặc trưng thị giác và giảm ảnh hưởng tích tụ của lôi Ke Để khắc phục những hạn chế này, tác giả đã đề xuất các giải pháp:
1 Tách mô hình ngôn ngữ khỏi mô hình thị giác để tránh ảnh hưởng của việc tinh chỉnh chính tả lên mô hình thị giác.
2 Thiết kế lại mô hình ngôn ngữ, gọi là BCN (bidirectional cloze network), được thiết kế để dự đoán kí tự và tận dụng thông tin từ cả hai hướng.
3 Sử dụng cơ chế Iterative Correction để điều chỉnh kết quả dự đoán nhiều lần và tận dụng thông tin từ cả mô hình thị giác và ngôn ngữ.
I Bidirectional Nx | ty —> Current time step
Language Model Language prediction „ ‡ Parallel time step
VỆ %i0teslie we xệXeets SOs Clee Fee Ter sv CoiVSe 5ý — Iterative % $ Blocking gracient fow
Hình 3.12: Hình tổng quan thuật toán ABINet (Nguồn: Bai báo [11])
Trong phần mô hình thị giác này (Vision Model viết tắt là VM), gồm có backbone và một mô đun Positional Attention Backbone để rút trích đặc trưng bao gồm một mạng ResNet [14] và các đơn vị Transformer, chúng đóng vai trò như là mô hình trích xuất đặc trưng (feature extraction) và mô hình hóa chuỗi
Phần Language Model (LM) của ABINet được thực hiện dựa trên ba đặc điểm chính như sau:
1 Độc lập với Vision model (VM) - Autonomous: Các kết quả dự đoán
(Fusion Prediction) là sự kết hợp giữa VM và LM Điều quan trọng là tránh sự ảnh hưởng của gradient VM đến LM, và ngược lại Để đảm bảo điều này, ta chặn gradient của Fusion Prediction trong quá trình back-propagation
(hình 3.12) Khác biệt với BERT, VM dự đoán kí tự thay vì từ tại vị trí được che (mask), tạo ra một vector phân phối xác suất cho kí tự dự đoán.
Vision Prediction ằ Parallel time step
Hình 3.13: Tổng quan phan Vision Model (VM) của ABINet (Nguồn: Bài báo [11])
Huấn luyện VM có thể được thực hiện độc lập với LM trên dữ liệu text từ cỏc nguồn như tập MJ[16], ST[13], và WiKùText-103[21].
2 Tận dụng đặc trưng từ cả hai phía - Bidirectional: Công thức biểu diễn đầu ra tại mỗi vị trí bao gồm kết quả dự đoán bidirectional và unidirec- tional Sự kết hợp này giúp khắc phục hạn chế của cả hai phương pháp truyền thống, unidirectional chỉ sử dụng thông tin từ một hướng, trong khi bidirectional kết hợp giữa hai mô hình unidirectional (hình ?? - e) Điều này giúp tối ưu hóa quá trình dự đoán với độ chính xác cao hơn.
3 Tỉnh chỉnh nhiều lần kết quả dự đoán - Iterative: Quá trình tinh chỉnh này bao gồm bước dự đoán đầu tiên (Vision Prediction) và n lần tinh chỉnh tiếp theo (Fusion Prediction) Tác giả đã thực nghiệm và đề xuất rằng số lần tinh chỉnh tối ưu là 3 lần trong quá trình huấn luyện và cũng 3 lần khi chạy test để đảm bảo độ chính xác ổn định sau khi đã đạt mức bão hòa
LD Allow to attend Rl Prevent from attending
Hình 3.14: Tổng quan phan Language Model (LM) của ABINet - Kiến trúc BCN (Nguồn: Bài báo [1 1])
Hình 3.12 minh họa kiến trúc tổng quan của ABINet, trong đó quá trình độc lập giữa LM và VM được thể hiện thông qua việc chặn gradient của Fusion Prediction Hình ?? (e) so sánh giữa mô hình bidirectional của ABINet và sự kết hợp của hai mô hình unidirectional.
Hình 3.14 minh họa kiến trúc BCN (Bidirectional Cloze Network) trong phan LM, với su kết hợp linh hoạt giữa đặc điểm Autonomous, Bidirectional và Iterative Cơ chế attention trong BCN sử dụng attention-mask để đảm bảo rằng mỗi kí tự không tự thấy chính nó, và điều này giúp cải thiện khả năng dự đoán và tinh chỉnh của mô hình.
Giống như ABINet [11], PARSeq [4] cũng áp dụng một phương pháp tích hợp mô hình ngôn ngữ vào thuật toán của họ Tuy nhiên, PARSeq đã chỉ ra
Độchínhxác 00.000 ee eee 80
Trong nhận dạng văn bản, độ chính xác (Accuracy) có nhiều mức độ khác nhau, tuy nhiên đều có công thức chung là:
Số mẫu dự đoán đúng Độ chính xác = (4.1)
Tổng số mẫu dự đoán Đối với bài toán và trong khuôn khổ khóa luận này, sinh viên sử dụng độ chính xác ở mức độ từ Ở mức độ từ, mỗi từ được tính đúng khi và chỉ khi toàn bộ kí tự dự đoán trùng khợp với toàn bộ kí từ ở nhãn tương ứng Ví dụ, kết quả mô hình dự đoán là "Thương" và nhãn là "Thương" sẽ được tính là một mẫu đúng, ngược lại néu mô hình dự đoán "thương" thì sẽ được xem là một mẫu sai.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Trong nghiên cứu nay, ngoài việc sử dung thang do độ chính xác (accuracy), sinh viên cũng áp dụng kỹ thuật khoảng cách Levenshtein để đếm số lượng tối thiểu các hoạt động chỉnh sửa ký tự cần thiết để chuyển đổi văn bản tham chiếu đầu vào thành tệp đầu ra một cách chính xác Công thức để tính chỉ số edit distance như sau:
Trong đó: ô S là số lần thay thộ (substitution)
* D là số lần xóa (deletion) ¢ I là số lần chèn vào (insertion)
Example p stTR1 ——>G|E|E|X SIFIRGEEKKS sra2 ——>|6|E[E|KS| r |o| R|@| E| E| K|s
Repla Insert Remove XToS OBetweenF&R K ý | \
Minimum Number Of Edits To Convert Str] To Str 2 = 3
Hình 4.3: Hình anh minh hoa cách tính chỉ số edit distance (Nguồn: Internet !)
'https://www.geeksforgeeks.org/edit-distance-dp-5/
Kétquavadanhgid 20 0.0.00 ee eee 82
4.3 Kết quả và đánh giá Ở phần này, nhóm sẽ trình bày việc cài đặt môi trường thực nghiệm và kết quả đánh giá các phương pháp trên tập dữ liệu OOV-ST và tập dữ liệu đã xây dựng. Đầu tiên về phan dif liệu, để đánh giá công bang và có thể so sánh với các phương pháp khác, nhóm sẽ sử dụng pretrained được huấn luyện trên hai tập dữ liệu là MJSynth[16] và SynthText [13].
Các phương pháp được giữ cài đặt như trong bài báo gốc, chỉ thay đổi số đơn vị ở lớp cuối cùng để phù hợp với độ dài tối đa và số kí tự trong tập dif liệu Các mô hình được huấn luyện trên tập dữ liệu huấn luyện với cùng số epoch, được huấn luyện trên card RTX 2080Ti (12GB VRAM).
Sau đây, sinh viên sẽ trình bày kết quả thực nghiệm trên từng tập dữ liệu:
4.3.1 OOV-ST Đối với tap dữ liệu OOV-ST, dữ liệu huấn luyện va dữ liệu đánh giá gồm: ¢ Dữ liệu huấn luyện gồm 4.356.857 ảnh văn bản.
* Dữ liệu validation gồm 128.527 ảnh văn bản với 32.437 trường hợp In-
Vocab va 96.090 trường hợp Out-Vocab. ¢ Dữ liệu test gồm 269.434 ảnh gồm các trường hợp In-Vocab và Out-Vocab. Đối với tập dữ liệu này, nhóm chỉ tiến hành đánh giá trên các phương pháp hướng language-free bao gồm ABINet* (Trường hợp không sử dung LM), ViSTR[1], SVTR [10]; language-aware bao gồm ABINet [11], Parseq [4], CPPD [9] Kết quả được liệt kê đầy đủ ở bảng 4.4
Nhìn vào bảng 4.4 ta có thể thấy, các phương pháp thuộc hướng tiếp cận language-aware có độ chính xác cao hơn so với các phương pháp thuộc hướng
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
ED Accuracy | ED | Accuracy ABINet* | 64.75% | 131881 | 76.09% | 53684 | 53.80%
Bảng 4.4: Bang kết qua đánh giá độ chính xác va edit distance trên tap dữ liệu OOV-ST tiếp cận language-free về cả dữ liệu In-Vocab và Out-Vocab Điều này cho thấy sự hiệu quả của việc sử dụng đặc trưng ngôn ngữ trong nhận dạng văn bản.
Mô hình PARSeq đạt được kết quả cao nhất với 69.29% độ chính xác trên cả hai trường hợp, 80.68% độ chính xác trên tập IV và 57.89% trên tập OV.
PARSeq vượt trội hơn tất cả các phương pháp khác ở cả hai trường hợp IV-OV, cho thấy khả năng học tổng quát xuất sắc, đặc biệt là với trường hợp OV nó đã vượt xa các phương pháp khác Độ chính xác xuất sắc của PARSeq có thể xuất phát từ việc tận dụng hiệu quả thông tin ngữ cảnh bằng cách sử dụng cơ chế hoán vị (PLM - Permutation Language Modeling) Mô hình PARSeq sử dụng một tập hợp các mô hình tự hồi quy (AR) để thực hiện các phép giải mã khác nhau. Với các thông số giải mã chính xác, nó có thể được huấn luyện với Permutation Language Modeling để cho phép suy luận cho các vị trí đầu ra tùy ý trong bat kỳ ngữ cảnh đầu vào nào Điều này giúp PARSeq thực hiện giải mã tùy ý, giảm thiểu việc phụ thuộc quá nhiều vào từ vựng. Đối với mô hình CPPD, độ chính xác của mô hình cũng khá cao ở cả trường hợp IV và OV Ở trường hợp OV, CPPD cho thấy được độ chính xác khá tốt, đều này có thể đến từ cơ chế Context Perception Parralel Decoder dự đoán chuỗi kí tự trong một lần đi qua Bên cạnh đó các module đếm ký tự và module sắp xếp kí tự giúp cho mô hình này có thể xử lý văn bản mà không cần phải dựa hoàn toàn vào nội dung ngôn ngữ So với mô hình SVTR, thì cơ chế Context
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Perception Parralel Decoder đã cho thay được sự hiệu qua cho cả van dé IV và
OV so với mô hình gốc.
Mô hình ABINet cho thấy khả năng xử lý khá thấp đối với các trường hợp
OV Mặc dù độ chính xác IV khá cao tuy nhiên ta có thể thấy rằng việc sử dụng một mô hình ngôn ngữ riêng biệt đã làm cho mô hình phụ thuộc quá nhiều vào ngôn ngữ Giữa hai phiên bản sử dụng LM và không sử dụng LM, đối với trường hợp IV, mô hình ngôn ngữ giúp cho ABINet cải thiện được 1,9% tuy nhiên độ chính xác trong trường hợp OV lại giảm.
Mô hình có kết quả đánh giá thấp nhất đối với trường hợp OV là mô hình ViTSTR tuy nhiên mô hình lại có độ chính xác cao nhất đối với các trường hợp
4.3.2 OOV tiếng Việt Đối với tập dữ liệu OOV tiếng Việt do nhóm xây dựng, các mô hình được huấn luyện và đánh giá trên độ dữ liệu đã được chia như bảng 4.3 Các mô hình được train với cùng số epoch là 100 Đối với tập dữ liệu này, sinh viên đánh giá dựa trên hai hướng nghiên cứu gồm các mô hình như trong bảng 4.4.
Các phương pháp tiếp cận language-aware thể hiện độ chính xác cao hơn trên tập In-Vocab (IV) so với phương pháp language-free, làm nổi bật sự quan trọng của việc tích hợp ngữ nghĩa ngôn ngữ trong quá trình nhận dạng văn bản Cụ thể, khi áp dụng thông tin ngôn ngữ, các phương pháp SRN, VisionLAN, ABINet đều có độ chính xác tốt hơn so với việc không sử dụng ngôn ngữ Tuy nhiên, điểm đáng chú ý là độ chính xác trên tập Out-Vocab (OV) giảm, đặt ra vấn đề về cách mô hình ngôn ngữ ảnh hưởng đến quá trình nhận dạng văn bản chưa xuất hiện trong tập dữ liệu huấn luyện.
Từ bảng đánh giá 4.5, mặc dù tiếng Việt đặt ra nhiều thách thức với sự phức tạp của các dấu trọng âm, PARSeq vẫn tỏ ra xuất sắc với độ chính xác đáng kể,
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Method Accuracy ED | Accuracy | ED | Accuracy
SRN* (2020) 0.7241 | 3697 | 0.8052 | 4292 | 0.4686 ViSTR (2021) 0.7641 | 2715 | 0.8540 | 4052 | 0.4806 Language-free | VisionLAN* (2021) | 0.7708 | 2722 | 0.8432 | 3124) 0.5423
Bang 4.5: Bang kết quả đánh giá độ chính xác va edit distance trên tập dữ liệu OOV tiêng Việt đạt 82.08% cho cả hai trường hợp In-Vocab (IV) và Out-Vocab (OV) Điều đặc biệt đáng chú ý là PARSeq đạt đến 66.64% độ chính xác ở trường hợp OV, vượt xa so với các phương pháp khác Điều này một lần nữa làm rõ sức mạnh của cơ chế hoán vị trong xử lý các thách thức nhận dạng văn bản trong ngữ cảnh, đồng thời cũng củng cố vị thế của PARSeq là một phương pháp đáng kỳ vọng trong lĩnh vực này.
Mô hình CPPD (Context Perception Parallel Decoder) từ bảng đánh giá trên cũng thể hiện độ chính xác đáng kể, dat 80.32% cho cả In-Vocab (IV) va Out-
Vocab (OV) Trong trường hợp OV, CPPD xuất sắc với 59.84% độ chính xác, tuy chưa bằng PARSeq nhưng CPPD cũng chứng tỏ khả năng ưu việt trong việc nhận diện văn bản chưa xuất hiện trong tập huấn luyện Cơ chế Context Perception
Parallel Decoder làm nổi bật sự linh hoạt và hiệu quả của mô hình, đặc biệt khi so sánh với các phương pháp khác, đồng thời củng cố vi thé của CPPD trong việc giải quyết thách thức nhận dạng văn bản tiếng Việt, đặc biệt là trên tập dữ liệu Out-Vocab.
Mô hình SVTR từ bảng đánh giá trên 4.5 cho thấy độ chính xác cao với
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
PHAT PHAT PHAT PHAT PHAT PHAT PHAT
Se oe c&t eaweed eaweed eaweed eaweed eaweed eaweed
CÁPCỨU | CAPCUU CAPCUU CAPCUU CAPCUU CAPCUU
SaleOff Saleof SaleOft SaleOft SaleOff SaleOff bichx bichx bichx bicha bịchx bichx
TRANG TRANG TRANG TRANG TRANG TRANG
| Non-GMO | Non-GMo | Non-GMO | Non-GMO | Non-GMo | Non-GMO.
Hình 4.4: Một số kết quả dự đoán trường hợp OV của các mô hình sau khi đã huấn luyện
79.18% cho cả hai trường hợp In-Vocab (IV) và Out-Vocab (OV), là phương pháp tốt nhất theo hướng tiếp cận language-free.
Mô hình ViSTR trong bảng đánh giá cho thấy độ chính xác thấp nhất đối với cả IV va OV Điều này có thể cho thay khả năng hạn chế của mô hình trong việc nhận dạng văn bản tiếng Việt.
Home Addresses | 0.8435 | 0.7771 URL 0.455 | 0.2231 Dates/Time 0.8052 | 0.7571
Bang 4.6: Bảng đánh giá độ chính xác trên các loại dữ liệu
Nhìn bảng trên ta có thể thấy, các model hiện tại giải quyết khá tốt các trường hợp như phone number, home address, date/time Tuy nhiên, đối với hai trường dữ liệu là Email và URL, độ chính xác rất thấp, đặc biệt là trên tập Out-Vocab (OV), nơi mà mô hình đối mặt với các từ vựng không xuất hiện trong quá trình
Datvandé ee va 88
Dựa trên những thử nghiệm đã được thực hiện va theo hình anh mô tả tại 5.1, quá trình nhận dạng của các mô hình hiện tại đang gặp phải một thách thức đáng kể khi phải xử lý một số ký tự trong văn bản Thách thức này xuất phát từ việc mô hình phụ thuộc quá nhiều vào ngôn ngữ, có nghĩa là chúng hoàn toàn dựa vào sự nhớ từ vựng đã được học dẫn đến sự sai sót một số kí tự trong văn bản dấn đến sai lệch về ngữ nghĩa Tuy nhiên, điều đáng chú ý là các từ vựng này thường có sự khác biệt về mặt thị giác.
Chẳng hạn, khi so sánh từ "universiti" và "university", ta nhận thấy rằng chữ
"i" và "y" có sự khác biệt hoàn toàn từ góc độ hình ảnh Điều nay đặt ra vấn dé quan trọng về khả năng nhận diện của mô hình, đặc biệt là trong trường hợp các ký tự nằm ngoài phạm vi từ vựng đã được học Một trường hợp khác
"QINGYUANLYU" và "AINGYUANLYU", chữ "Q" và "A" khác nhau hoàn toàn về mặt thị giác tuy nhiên vẫn nhận dạng sai.
5 PHƯƠNG PHÁP CẢI THIỆN ĐỘ CHÍNH XÁC
Hình 5.1: Trường hợp minh họa cho van dé mô hình phụ thuộc vào từ vựng (Nguồn:
Nhận thức về vấn đề này, sinh viên đề xuất một giải pháp hứa hẹn, đó là sử dụng hàm character cluster loss Mục tiêu của hàm này là hướng dẫn mô hình học cách xác định chính xác hơn trong các trường hợp mà các ký tự không thuộc từ vựng đã học Bằng cách này, mô hình có thể phát triển khả năng nhận diện chữ viết chính xác dựa trên các đặc trưng hình ảnh thay vì chỉ dựa vào việc nhớ từ vựng Đây là một bước quan trọng để cải thiện khả năng tổng quát và độ chính xác của mô hình trong ứng dụng thực tế.
5.2 Y tưởng Để xây dựng ham loss Cluster Character, chúng tôi đặt ra khái niệm về Clus- ter Character như sau: Một Cluster Character được định nghĩa là một tập hợp các ký tự mà con người dễ nhầm lẫn với nhau Vi dụ, trong tập hợp các ký tự "o" (chữ ’o’ viết thường), "O" (chữ ’O” viết hoa), và "0" (số 0), chúng có thể được xem xét như là một Cluster Character Quá trình xây dựng Cluster Character là một quá trình chủ quan, được thực hiện thông qua việc quan sát và đặt ra các tiêu chí đánh giá, bao gồm:
1 Sự nhầm lẫn về mặt hình ảnh kí tự: Cluster Character nên bao gồm những ký tự giống nhau từ góc nhìn hình ảnh, ví dụ: "o" và "O" có thể
5 PHƯƠNG PHÁP CẢI THIỆN ĐỘ CHÍNH XÁC giống nhau từ góc nhìn hình ảnh.
2 Sự nhầm lần về mặt dau câu: Nếu một dấu câu xuất hiện trong một woe
Cluster Character, như sự nhằm lẫn giữa "." (chấm) và "," (dấu phẩy), nó cũng nên được xem xét.
Hàm loss Cluster Character có thể được xây dựng bằng cách đo lường mức độ nhầm lẫn giữa các ký tự trong một Cluster Character Sinh viên đã xây dựng
15 cum ký tự nhầm lẫn về mặt thị giác, không xem xét các ký tự đặc biệt như một Cluster riêng biệt trong quá trình huấn luyện.
Hình 5.2: Cac cum Cluster Character được xây dựng
5 PHƯƠNG PHÁP CẢI THIỆN ĐỘ CHÍNH XÁC
5.3 Triển khai và đánh giá kết quả
Mất mát cụm kí tự (Clustering Character Loss - CLL) với hệ số phạt F, p cho biết mức độ nhầm lẫn giữa hai kí tự, được thể hiện bởi công thức:
0 nếu (xUy) = {x} hoặc (xUy) = {x,y} EC
Trong đó, C là một cum kí tu (cluster character) trong từ điển hiệu chỉnh va
A là một siêu tham số với ràng buộc 0 < A < 1 Khi đó, hàm mắt mát theo cụm kí tu kccr trên toàn bộ dữ liệu sẽ là: lea == Y Y Pp(gi(m) pi(m)) meM ic|g(m)|
Sinh viên sử dung mô hình VietOCR để triển khai ham loss và đánh giá độ chính xác Trong mô hình gốc tác giá sử dụng hàm mất mát Cross-Entropy (CE) loss Khi đó ham loss để huấn luyện mô hình này sau khi bổ sung Clustering
Character Loss sẽ như sau:
Hình 5.3: Kiến trúc mô hình và phương pháp sử dung hàm mất mát dé xuất.
5 PHƯƠNG PHÁP CẢI THIỆN ĐỘ CHÍNH XÁC
Sinh viên triển khai huấn luyện với ham loss mới trên hai bộ dữ liệu OOV-ST và dữ liệu OOV tiếng Việt do nhóm xây dựng Kết quả như bảng dưới đây:
Bang 5.1: Bang kết quả đánh giá giữa phương pháp gốc và phương pháp dé xuất
Bảng 5.1 thể hiện một so sánh rõ ràng giữa độ chính xác của phương pháp mới và phương pháp gốc trên OV (Out-Vocab) Kết quả cho thấy, độ chính xác trên tập OV của phương pháp mới đều cao hơn so với phương pháp gốc, điều này là rất tích cực và cho thấy được sự cải thiện của phương pháp mới đối với trường hợp văn bản nằm ngoài từ vựng.
Trong khi đó, trên tập IV, phương pháp mới cũng thể hiện sự cải thiện trên tập OOV-ST so với phương pháp góc Tuy nhiên, với tập tiếng Việt cho kết quả thấp hơn so với phương pháp gốc Điều này có thể cho thấy rằng phương pháp mới chủ yếu để cải thiện cho các dữ liệu OV, và vẫn giữ được độ chính xác trên tập IV.
Tuy nhiên, trên bảng so sánh các kết quả thực nghiệm 5.4, có thể thấy các trường hợp khác nhau hoàn toàn về thị giác đã chính xác hơn tuy nhiên các trường hợp trong các cụm cluster lại sai đi, điều này cho thấy phương pháp vẫn chưa đạt được sự hiệu quả mong đợi.
5 PHƯƠNG PHÁP CẢI THIỆN ĐỘ CHÍNH XÁC
Hình 5.4: Kết quả chạy thực nghiệm hàm mit cũ va mới
XÂY DỰNG ỨNG DỤNG MINH HOA
Trong phần này, sinh viên sẽ mô tả quy trình xây dựng một ứng dụng minh họa nhận dạng văn bản Ứng dụng này được phát triển trên nền tảng web, cho phép người dùng lựa chọn ảnh từ máy tính Sau đó, họ có thể xác định khu vực cụ thể trên ảnh để thực hiện quá trình nhận dạng văn bản Kết quả của quá trình này sẽ được hiển thị trực tiếp trên giao điện của ứng dụng.
Nhóm sử dụng Streamlit để xây dựng ứng dụng demo nhận dạng văn bản trong ảnh Ưu điểm của Streamlit:
* Dé sử dụng: Streamlit được thiết kế để đơn giản va dễ sử dụng ngay cả với những người không có kinh nghiệm nhiều về phát triển web. ô Tốc độ phỏt triển nhanh: Streamlit giỳp tăng tốc quỏ trỡnh phỏt triển ứng dụng bằng cách cung cấp các API đơn giản và tự động cập nhật giao diện người dùng.
* Tích hợp dé dàng: Streamlit có thể tích hợp linh hoạt với nhiều thư viện và frameworks khác như: Pandas, Matplotlib, Plotly, giúp việc hiển thị dữ
6 XÂY DỰNG UNG DUNG MINH HOA liệu và đồ thị trở nên thuận tiện.
Tuy nhiên Streamlit chỉ phù hợp với các dự án nhỏ và trung bình vì khả năng mở rộng, hiệu suất không cao.
Hình 6.1: Giao diện ứng dụng demo
Mô hình được sử dụng để demo là mô hình VietOCR.
Uu điểm: ô Giao diện thõn thiện, đơn giản, dộ sử dụng ¢ Thao tác đơn giản, người dùng chỉ chon vùng ảnh và không thao tác gi thêm.
* Chưa phóng to, thu nhỏ được hình ảnh
* Chưa có tính năng kéo thả ảnh vào ứng dung
KÊT LUẬN VÀ HƯỚNG PHÁT
Trong khóa luận này, nhóm nghiên cứu đã tìm hiểu tổng quan về bài toán nhận dạng văn bản, đặc biệt là tính thách thức của vấn dé OOV Xây dựng bộ dữ liệu OOV tiếng Việt gồm 91658 ảnh chữ được cắt ra từ các tập dif liệu Vintext,
BKAI, VietSignBoard Nhóm nghiên cứu đã tìm hiểu các mô hình nhận dang văn bản của hai hướng tiếp cận language-free và language-aware, qua đó nhóm đã chạy thực nghiệm và đánh giá các hướng tiếp cận này trên hai bộ dữ liệu OOV tiếng Anh và OOV tiếng Việt Từ đó nhóm đã đưa ra phương pháp cải thiện độ chính xác của mô hình trên tập dữ liệu nhóm đề xuất Cuối cùng nhóm đã xây dựng một ứng dụng demo đơn giản.
Về tương lai, nhóm nghiên cứu mong muốn hoàn thiện hơn dé tài này với các van dé sau: