Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Tran Thanh Tùng, Lê Tran Trọng Khiêm,
Do Văn Tiên, Ngô Đức Thành
Khoa Khoa học máy tính, Trường Đại học Công nghệ thông tin
ĐHQG TP. Hỗ Chí Minh (20520347, 20520835, 21522771 }® gm.uit.edu.vn , (khiemlrt,tiendv, thanhnd} ®uit.edu.vn
TOM TAT: Thư pháp là phương thức thể hiện tâm trạng hay thông điệp của người viết thông qua tạo hình chữ viết. Do tính
cá nhân hóa cao nên thư pháp ít có sự tương tự, ngoài ra thư pháp có sự da dạng về nét chữ, cách thức trình bày, hình dáng câu chữ, màu sắc. Chính những đặc điểm này của thư pháp tạo nên thách thức bài toán nhận dạng nhằm phục vụ cho nhu cầu lưu trữ,
tìm kiếm. Mặt khác, đối với bài toán nhận dạng thư pháp tiếng Việt hiện tại chưa có nhiều nhiều công bố cũng như tập dit liệu chuẩn so với các ngôn ngữ khác như Trung Quốc va A Rap. Theo đó trong nghiên cứu này chúng tôi giới thiệu tập dữ liệu
ViCalligraphy với 15441 ảnh thư pháp tiếng Việt có sự đa dạng nội dung và phong cách. Ngoài ra, kết quả đánh giá trên các các
mô hình nhận dạng tiên tiến cho thấy với độ chính xác cao nhất 0,1519 CER cho thấy bài toán còn nhiễu thách thức, cùng với đó các phân tích trên các kết quả thực nghiệm sẽ là tiền dé tốt cho cộng đồng nghiên cứu quan tâm đến bài toán.
Từ khóa: Calligraphy Text Recognition, Deep learning.
I. GIOI THIEU
Trong lĩnh vực thị giác máy tính thì bài toán nhận dang chữ thư pháp đặc biệt là thư pháp tiếng Việt chưa có nhiều nghiên cứu. Ngoài ra do đặc điểm của dạng đữ liệu thư pháp gây nên nhiều thách thức cho bài toán nhận dạng như sự đa dạng trên nét chữ, cách trình bày, và thậm chí màu sac. Bài toán nhận diện chữ thu pháp tiếng Việt được định nghĩa như sau: đầu vào là một ảnh chứa một từ thư pháp tiếng Việt (calligraphy text), kết quả đầu ra là văn bản về
nội dung của chữ trong hình đầu vào (Hình 2).
Calligraphy Text
Recogniton Long
Hình 2. Ví dụ minh họa về ảnh đầu vào và văn bản đầu ra của bài toán nhận điện chữ thư pháp tiếng Việt
Mục tiêu của việc giải quyết bài toán nhận dạng thư pháp không chỉ là giúp máy tính hiểu và phân loại các dạng thư pháp khác nhau, mà còn tạo ra khả năng tìm kiếm và truy xuất dữ liệu trong các bộ sưu tập thư pháp lớn. Ví dụ, các
Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Trần Thanh Tùng, Lê Trần Trọng Khiêm, Đỗ Văn Tiến, Ngô Đức Thành 621
hệ thống nhận dạng thư pháp phức tạp có thể giúp các nhà nghiên cứu và nhà khoa học dữ liệu tìm kiếm thông tin cụ
thê trong tài liệu thư pháp một cách nhanh chóng và hiệu quả.
Mặt khác, đối với bài toán nhận dạng thư pháp tiếng Việt, hiện tại vẫn chưa có nhiều công trình nghiên cứu
được công bố, cũng như tập dữ liệu chuẩn dé thực hiện nhiệm vu này, đặc biệt so với các ngôn ngữ khác như Trung
Quốc [1, 2, 3] và A Rap J4: Các nghiên cứu về nhận dạng thư pháp thường tập trung vào các ngôn ngữ có truyền thống
thư pháp lâu đời va có san tài liệu dé phân tích và nghiên cứu. Sự thiếu hụt về tài liệu và đữ liệu chuân tiếng Việt khiến
cho việc phát triển các hệ thống nhận dạng thư pháp trong ngôn ngữ này trở nên phức tạp hơn. Dé xây dựng các mô
hình nhận dạng thư pháp hiệu quả, cần có một tập dit liệu đủ lớn và da dang để huấn luyện và đánh giá. Ngoài ra, sự
độc đáo của thư pháp tiếng Việt cũng đòi hỏi sự tỉnh chỉnh đặc biệt trong việc phát triển các thuật toán và mô hình.
Theo đó, trong bài báo này thực hiện cũng như có một số đóng góp chính sau đây:
1. Xây dựng bộ dữ liệu cho bài toán nhận dạng chữ thư pháp Việt Nam (ViCalligraphy) với hơn 15000 ảnh.
Dữ liệu này được thu thập từ nhiều nguồn khác nhau dưới sự hỗ trợ và góp ý của các chuyên gia thư pháp.
Bộ dữ liệu thu thập được đa dạng về hình dáng, kích thước, góc nhìn, chất lượng ảnh và màu sắc của chữ.
Sự đa dang này đến từ việc bao gồm cả ảnh đồ họa và ảnh người dùng chụp trực tiếp bằng máy ảnh.
2. Thực nghiệm, đánh giá và phân tích kết quả trên các phương pháp nhận dang tiên tiến nhất hiện nay cho bài
toán nhận dạng trên tập dữ liệu thu thập được bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], ABINet [10]. Kết quả cho thấy, phương pháp VietOCR cho độ chính xác cao nhất, với độ chính xác trung bình đạt 67, 29% và 0,1519 trên thang đo CER. Kết quả cho thấy tập dữ liệu đề xuất còn rất nhiều thách thức cho các nhóm nghiên cứu quan tâm đến bài toán này.
Bồ cục của bài báo được trình bày như sau: Mục II sẽ khảo sát một 36 công trình liên quan; Mục II, IV và V
trình bày về tập dữ liệu thu thập được cũng như các phân tích và nhận định dựa trên kết quả đánh giá; Kết luận được trình bày trong Mục VI.
Il. MỘT SỐ NGHIÊN CỨU LIEN QUAN
Trong phần này, chúng tôi giới thiệu một số phương pháp liên quan đến bài toán nhận diện chữ viết trong ảnh nói chung cũng như áp dụng cho bải toán nhận diện chữ thư pháp tiếng Việt. Trong lĩnh vực thị giác máy thì bài toán nhận diện chữ viết trong ảnh đã đạt được nhiều kết quả khi áp dụng hướng tiếp cận Deep Learning. Có thé kế đến một
số hướng tiếp cận tiên tiến nhất hiện nay bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], ABINet
[10],... Trong đó, các phương pháp này được chia thành 2 loại cơ bản. Hướng phương pháp không chia vùng
(segmentation- free)[11], trong đó không can phải phân đoạn các thành phần của văn bản. Phương pháp này bao gôm
việc chuẩn hóa ảnh văn bản đầu vào, “trích xuất các đặc trưng quan trọng, mô hình hóa chuỗi (sequence modeling)
nhằm thêm thông tin ngữ cảnh và cuối cùng là dự đoán văn bản đầu ra. Hướng tiếp cận thứ hai dua trên kiến trúc
transformer [12]. Trong đó, việc chuân hóa ảnh và trích xuất đặc trưng hình ảnh vẫn được thực hiện tương tự nhưng
sau đó các đặc trưng được đưa vào mạng transformer. Quá trình này bao gồm việc sử dung encoder dé tạo ra biểu diễn đặc trưng cấp cao từ ảnh va sử dụng decoder dé dự đoán dãy ký tự đầu ra dựa trên đầu ra của encoder và sự chú ý (attention) đến các đặc trưng đó. Trong nghiên cứu này, chúng tôi đánh giá sự hiệu quả của các phương pháp khác nhau trong việc nhận diện văn bản trong hình anh. Cụ thé, chúng tôi xem xét các phương pháp sau đây: VietOCR [5], ViTSTR [9] sử dung kiến trúc transformer, cùng với SRN [6], SPIN [7], SVTR [8], ABINet [10] là các phương pháp
không chia vùng (segmentation-free).
A. VietOCR - VietOCR [5] là một phương pháp nhận diện ký tự quang học (OCR) cho tiếng Việt sử dụng mô hình học sâu. VietOCR được xây dựng dựa trên mô hình Transformer OCR, một mô hình Transformer[13] được huấn luyện
để nhận diện ký tự trong ảnh. VietOCR hoạt động bằng cách sử dụng một mạng nơ-ron tích chập (CNN[14]) để trích
xuất các đặc trưng từ anh. Sau đó, các đặc trưng này được đưa vào một mô hình Transformer OCR dựa trên kiến trúc Transformer, mô hình này sử dụng các trọng số để tập trung vào các khu vực quan trọng trong ảnh. Mô hình
Transformer OCR sau đó dự đoán các ký tự trong ảnh và xác suất của từng ký tự. Các ký tự được dự đoán sau đó được
ghép lại để tạo thành văn bản.
B. SRN - Semantic Reasoning Network [6] có nội dung tập trung vào việc tăng cường kha năng nhận dạng văn ban
trong ngữ cảnh bằng cách giới thiệu mô-đun lý giải ngữ nghĩa toàn cầu (GSRM). Mô-đun này cho phép truyền tải
thông tin ngữ nghĩa theo nhiều hướng song song, từ đó cải thiện khả năng nhận biết ngữ nghĩa của từng ký tự và giảm thiểu ảnh hưởng của sai lệch ngữ nghĩa đến quá trình nhận dạng tông thé. Mô hình SRN được xây dựng gôm bốn thành
phần chính: mạng cơ sở, mô- -đun chú ý hình ảnh song song (PVAM) dé tạo sự chú ý đồng thời đối với hình ảnh, mô-
đun lý giải ngữ nghĩa toàn cầu (GSRM) như đã nêu, và bộ giải mã kết hợp hình ảnh và ngữ nghĩa (VSFD). Mô hình
này hoạt động bằng cách trích xuất đặc trưng 2D từ hình ảnh đầu vào, chuyển chúng thành đặc trưng 1D được điều
chỉnh dé thu thập thông tin hình ảnh và ngữ nghĩa. Sau đó, mô hình kết hợp ca hai loại đặc trưng dé dự đoán văn ban trong hình ảnh.
C. SPIN- Structure-Preserving Inner Offset Network [7] tiếp cận mới với khả năng điều chỉnh câu trúc bên trong
mạng dự đoán. SPIN tích hợp trước vào các kiên trúc nhận dạng đê tùy biên độ sáng đâu vào và tăng cường hiệu suât
so với các mạng chỉnh sửa (rectification networks) trước đây. Mô hình SPIN gôm hai phân chính: Structure Preserving
622 ViCalligraphy: TẬP DỮ LIEU CHO BÀI TOÁN NHẬN DIỆN CHỮ THU PHÁP TIENG VIỆT VÀ MOT SO ĐÁNH GIA
Network (SPN) sử dụng nguyên tắc Structure Preserving Transformation (SPT) để điều chỉnh mau sắc và Auxiliary Inner-offset Network (AIN) giải quyết vân đề biến đổi nội bộ bằng cách áp dụng đo sai lệch. Kết hợp hai thành phần
này giúp kiểm soát chất lượng màu sắc và giải quyết hạn chế từ đữ liệu đầu vào của các mô hình trước đây.
D. SVTR - Mô hình SVTR [8] có mục tiêu cải thiện hiệu suất và độ chính xác so với các phương pháp tiền nhiệm, nhóm nghiên cứu đã tập trung vào tối ưu hóa quá trình trích xuất đặc trưng từ hình anh và cải thiện kha năng nhận dang chuỗi ký tự. Mô hình SVTR thực hiện việc này bằng cách chia văn bản hình ảnh thành các mảng 2D nhỏ - được gọi là
thành phần ký tự - và áp dụng token hóa hình ảnh cho từng mảng. Kết hợp với cơ chế tự chú ý, mô hình tập trung vào
việc thu thập dấu hiệu nhận dạng. Kiến trúc SVTR có ba giai đoạn quan trọng: kết hợp, trộn và tong hợp. Sự kết hợp
của các khối trộn cục bộ và toàn cầu giúp trích xuất đặc trưng ký tự đa cấp và mang lại khả năng nhận dạng văn bản hiệu quả.
E. ViTSTR - ViTSTR [9] nhóm nghiên cứu sử dụng kiến trúc Transformer[13], một loại mang nơ-ron đã được
chứng minh là hiệu quả trong các nhiệm vụ xử lý ngôn ngữ tự nhiên. Tuy nhiên, kiến trúc Transformer thuong cham vi
nó sử dung phép biến đổi đầy đủ (encoder-decoder). Dé cải thiện tốc độ, bai báo đề xuất sử dụng một biến thé của mô
hình ViT[15]. Mô hình sẽ định hình lại hình ảnh thành một chuỗi các mảng 2D phẳng. Sau đó, các bản vá này được
chuyền đối thành các phần nhúng có chiều rộng không đổi bằng cách sử dụng phép chiếu tuyến tính để phù hợp với kích thước mà bộ mã hóa (encoder) yêu cầu. Sự khác biệt duy nhất giữa ViT và VITSTR là đầu dự đoán.
F. ABINet- Mô hình ABINet [10] được giới thiệu là phương pháp tối ưu việc nhận điện văn ban trong ngoại cảnh
bằng cách tích hợp kiến thức ngôn ngữ vào mạng sâu, sử dụng đại diện tính năng hai chiều và thực hiện phương pháp
sửa lỗi để giảm tác động của nhiễu. Kiến trúc ABINet bao gồm ba thành phần chính: mạng lõi, mô-đun chú ý vị trí và thành phần dự đoán thị giác. Mạng lõi kết hợp ca ResNet[18] va Transformer[13] để trích xuất đặc trưng từ hình ảnh.
Mô-đun chú ý vị trí sau đó chuyển đổi đặc trưng này thành xác suất của các ký tự. Mục tiêu của kiến trúc này là cải thiện khả năng biểu diễn ngôn ngữ và giới hạn sai sót trong việc nhận diện, đặc biệt trong tình huống thiếu thông tin về ngữ cảnh.
II. BO DU LIEU ViCalligraphy
A. Thu thập va gan nhãn
Chúng tôi đã thu thập dữ liệu cho việc nhận dạng thư pháp tiếng Việt từ nhiều nguồn khác nhau, bao gồm chụp ảnh trực tiếp và thu thập từ diễn đàn, mạng xã hội và công cụ tìm kiếm (Hình 3a). Ban đầu ảnh được cắt theo hình chữ
nhật, nhưng để giảm nhiễu và bảo toàn nét chữ tốt nhất, chúng tôi đã áp dụng phương pháp cắt ảnh theo hình đa giác
(polygon) cho các trường hợp thư pháp không thang hàng và có kích thước giống nhau. Kết quả là, ảnh gốc sau khi cắt
được chia thành nhiều ảnh con, mỗi ảnh con chứa một từ thư pháp tiếng Việt và được gắn nhãn cho đữ liệu (Hình 3b).
Hình 3. Một số hình ảnh (a) ảnh thư pháp trên mạng xã hội và (b) ảnh sau khi được cắt chứa một từ thư pháp
B. Đặc điểm của tập dữ liệu
Tập dữ liệu ViCalligraphy mà chúng tôi xây dựng gồm tổng cộng 15441 ảnh, được chia thành 2980 từ (class).
Trong đó các từ có sô lượng ảnh từ 6 đên 20 chiêm tỷ lệ 37,82% tông sô ảnh. (Hình 4). Con sô thông kê cho thây tập
dữ liệu có phạm vi rộng trong việc biéu diễn các từ trong nhiều ngữ cảnh khác nhau.
40.00% 37.82%
35.00%
30.00% 28.35%
25.00% 24-08%
20.00%
15.00%
10.00% 7.44%
5.00% || 2.32%
0.00% _
1-5 6-20 21-50 51-100 101-150
Số ảnh của từ
Hình 4. Biểu đồ phân phối tần suất số lượng ảnh của từ trên tổng dữ liệu
Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Trần Thanh Tùng, Lê Trần Trọng Khiêm, Đỗ Văn Tiến, Ngô Đức Thành 623
l Ngoài tính đa dạng về hình dáng và kích thước, tập dữ liệu còn đối mặt với khó khăn khác như ảnh chụp từ
nhiêu góc nhìn, phông nên phức tạp, hình ảnh có hình dạng cắt bât thường như hình chữ nhật và đa giác, cùng với các đặc diém phức tap của chữ việt (Hình 5).
IV. THỰC NGHIEM VA PHAN TÍCH
Đánh giá các phương pháp tiên tiến hiện nay trên tập dữ liệu xây dựng là một phần quan trọng và cần thiết. Trong phần này, chúng tôi sẽ thực hiện đánh giá và phân tích một loạt các phương pháp tiên tiến bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], va ABINet [10] trén nhiéu tiêu chí khác nhau như độ chính xác và tốc độ xử
lý. Nghiên cứu cũng xem xét tác động của yếu tố ngôn ngữ, đặc biệt là tiếng Việt (với dấu), đối với quá trình nhận dạng.
A. Tiêu chí và độ đo đánh giá
Chúng tôi đánh giá và so sánh các phương pháp trên các yếu tố sau:
„ I. Độ chính xác của các phương pháp trên dữ liệu thực tế. Một trong những lý do cần xét tới tiêu chí này VÌ có
rât nhiêu trường hợp phương pháp chạy tôt trên tập dữ liệu chuân, nhưng bị hạn chê trên tập dữ liệu thực tê do tính phức tạp của dữ liệu.
2.Tốc độ cũng như thời gian xử lý đóng vai trò quan trọng trong các ứng dụng, việc cân bằng giữa độ chính xác
và tôc độ xử lý cũng là một thách thức.
Dé đánh giá các yếu tố nay, chúng tôi sử dụng các độ đo chuẩn của bài toán nhận diện văn bản trong ảnh. Trong
đó, với tiêu chí chính xác chúng tôi sử dụng độ đo Sự chính xác (Accuracy) và Tỷ lệ lỗi ký tự (Character Error Rate - CER) như công thức bên dưới. Do thời gian huấn luyện mô hình bằng giờ và thời gian dự đoán bằng giây.
Công thức tính sự chính xác (Accuracy):
Tổng số dự đoán đúng
Accuracy = = i : x 100
Tổng số dự đoán
Công thức tính tỷ lệ lỗi ký tự (CER):
S D I
CER =2 tt
trong đó: S là số lần thay thé, D là số lần xóa, / là số lần chèn, N là tổng số ký tự trong văn bản tham chiếu được tính
băng công thức như sau:
„ N=S+D4+C với C là sô ky tự đúng.
B. Một số thiết đặt trơng ứng với các phương pháp đánh giá
Các phương pháp phát hiện đối tượng thường yêu cầu việc cấu hình các tham số mô hình như tốc độ học (Learning rate), số lần lặp (Iteration), kích thước ảnh đầu vào (Image size), và nhiều yếu tố khác. Ngoài ra, lựa chon
mô hình trích xuất đặc trưng (backbone) cũng đóng vai trò quan trọng trong quá trình chạy phương pháp. Tất cả các cài
đặt này đều ảnh hưởng đến độ chính xác, tốc độ, thời gian huấn luyện và dự đoán. Trong phần thực nghiệm, chúng tôi
đã so sánh các phương pháp và thực hiện cấu hình các tham số khác nhau cho từng phương pháp dé tìm ra các cài đặt
tốt nhất. Chúng tôi đã đánh giá các mô hình như VietOCR, SRN, SPIN, SVTR, ViTSTR và ABINet, kết hợp với các
backbone khỏc nhau như VGG19-bn-Transformer [5], ResNet [18], SVTRNet [8], VùTSTR [9].
Chúng tôi huấn luyện các mô hình mang Deep Learning này bằng phương pháp transfer learning- tức là sử dụng bộ trọng số đã được huấn luyện trước đó trên các tập dữ liệu lớn như MJSynth[19], SynthText[20], VietOCR[5]
sau đó bằng cách sử dụng trọng số đã được học và tiếp tục huấn duyện trên tập dữ liệu nhóm đã thu thập. Việc huấn
luyện theo phương pháp này giúp chúng tôi giải quyết được vấn đề thiếu dữ liệu trong việc huấn luyện các mạng Deep
Learning. Cụ thé hơn, các mô hình được huấn luyện với tổng cộng 50 epochs, riêng với VietOCR chúng tôi huấn luyện với 20000 iters. Từ kết quả thu được chúng tôi sẽ tiến hành so sánh các phương pháp lẫn nhau dựa trên các tiêu chí đã đặt ra từ đó tìm ra những ưu điểm và hạn chế của từng phương pháp.