CHU’ THU’ PHAP TIENG VIET VA MOT SO DANH GIA

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp nhận dạng văn bản nghệ thuật trong ảnh (Trang 101 - 108)

Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Tran Thanh Tùng, Lê Tran Trọng Khiêm,

Do Văn Tiên, Ngô Đức Thành

Khoa Khoa học máy tính, Trường Đại học Công nghệ thông tin

ĐHQG TP. Hỗ Chí Minh (20520347, 20520835, 21522771 }® gm.uit.edu.vn , (khiemlrt,tiendv, thanhnd} ®uit.edu.vn

TOM TAT: Thư pháp là phương thức thể hiện tâm trạng hay thông điệp của người viết thông qua tạo hình chữ viết. Do tính

cá nhân hóa cao nên thư pháp ít có sự tương tự, ngoài ra thư pháp có sự da dạng về nét chữ, cách thức trình bày, hình dáng câu chữ, màu sắc. Chính những đặc điểm này của thư pháp tạo nên thách thức bài toán nhận dạng nhằm phục vụ cho nhu cầu lưu trữ,

tìm kiếm. Mặt khác, đối với bài toán nhận dạng thư pháp tiếng Việt hiện tại chưa có nhiều nhiều công bố cũng như tập dit liệu chuẩn so với các ngôn ngữ khác như Trung Quốc va A Rap. Theo đó trong nghiên cứu này chúng tôi giới thiệu tập dữ liệu

ViCalligraphy với 15441 ảnh thư pháp tiếng Việt có sự đa dạng nội dung và phong cách. Ngoài ra, kết quả đánh giá trên các các

mô hình nhận dạng tiên tiến cho thấy với độ chính xác cao nhất 0,1519 CER cho thấy bài toán còn nhiễu thách thức, cùng với đó các phân tích trên các kết quả thực nghiệm sẽ là tiền dé tốt cho cộng đồng nghiên cứu quan tâm đến bài toán.

Từ khóa: Calligraphy Text Recognition, Deep learning.

I. GIOI THIEU

Trong lĩnh vực thị giác máy tính thì bài toán nhận dang chữ thư pháp đặc biệt là thư pháp tiếng Việt chưa có nhiều nghiên cứu. Ngoài ra do đặc điểm của dạng đữ liệu thư pháp gây nên nhiều thách thức cho bài toán nhận dạng như sự đa dạng trên nét chữ, cách trình bày, và thậm chí màu sac. Bài toán nhận diện chữ thu pháp tiếng Việt được định nghĩa như sau: đầu vào là một ảnh chứa một từ thư pháp tiếng Việt (calligraphy text), kết quả đầu ra là văn bản về

nội dung của chữ trong hình đầu vào (Hình 2).

Calligraphy Text

Recogniton Long

Hình 2. Ví dụ minh họa về ảnh đầu vào và văn bản đầu ra của bài toán nhận điện chữ thư pháp tiếng Việt

Mục tiêu của việc giải quyết bài toán nhận dạng thư pháp không chỉ là giúp máy tính hiểu và phân loại các dạng thư pháp khác nhau, mà còn tạo ra khả năng tìm kiếm và truy xuất dữ liệu trong các bộ sưu tập thư pháp lớn. Ví dụ, các

Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Trần Thanh Tùng, Lê Trần Trọng Khiêm, Đỗ Văn Tiến, Ngô Đức Thành 621

hệ thống nhận dạng thư pháp phức tạp có thể giúp các nhà nghiên cứu và nhà khoa học dữ liệu tìm kiếm thông tin cụ

thê trong tài liệu thư pháp một cách nhanh chóng và hiệu quả.

Mặt khác, đối với bài toán nhận dạng thư pháp tiếng Việt, hiện tại vẫn chưa có nhiều công trình nghiên cứu

được công bố, cũng như tập dữ liệu chuẩn dé thực hiện nhiệm vu này, đặc biệt so với các ngôn ngữ khác như Trung

Quốc [1, 2, 3] và A Rap J4: Các nghiên cứu về nhận dạng thư pháp thường tập trung vào các ngôn ngữ có truyền thống

thư pháp lâu đời va có san tài liệu dé phân tích và nghiên cứu. Sự thiếu hụt về tài liệu và đữ liệu chuân tiếng Việt khiến

cho việc phát triển các hệ thống nhận dạng thư pháp trong ngôn ngữ này trở nên phức tạp hơn. Dé xây dựng các mô

hình nhận dạng thư pháp hiệu quả, cần có một tập dit liệu đủ lớn và da dang để huấn luyện và đánh giá. Ngoài ra, sự

độc đáo của thư pháp tiếng Việt cũng đòi hỏi sự tỉnh chỉnh đặc biệt trong việc phát triển các thuật toán và mô hình.

Theo đó, trong bài báo này thực hiện cũng như có một số đóng góp chính sau đây:

1. Xây dựng bộ dữ liệu cho bài toán nhận dạng chữ thư pháp Việt Nam (ViCalligraphy) với hơn 15000 ảnh.

Dữ liệu này được thu thập từ nhiều nguồn khác nhau dưới sự hỗ trợ và góp ý của các chuyên gia thư pháp.

Bộ dữ liệu thu thập được đa dạng về hình dáng, kích thước, góc nhìn, chất lượng ảnh và màu sắc của chữ.

Sự đa dang này đến từ việc bao gồm cả ảnh đồ họa và ảnh người dùng chụp trực tiếp bằng máy ảnh.

2. Thực nghiệm, đánh giá và phân tích kết quả trên các phương pháp nhận dang tiên tiến nhất hiện nay cho bài

toán nhận dạng trên tập dữ liệu thu thập được bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], ABINet [10]. Kết quả cho thấy, phương pháp VietOCR cho độ chính xác cao nhất, với độ chính xác trung bình đạt 67, 29% và 0,1519 trên thang đo CER. Kết quả cho thấy tập dữ liệu đề xuất còn rất nhiều thách thức cho các nhóm nghiên cứu quan tâm đến bài toán này.

Bồ cục của bài báo được trình bày như sau: Mục II sẽ khảo sát một 36 công trình liên quan; Mục II, IV và V

trình bày về tập dữ liệu thu thập được cũng như các phân tích và nhận định dựa trên kết quả đánh giá; Kết luận được trình bày trong Mục VI.

Il. MỘT SỐ NGHIÊN CỨU LIEN QUAN

Trong phần này, chúng tôi giới thiệu một số phương pháp liên quan đến bài toán nhận diện chữ viết trong ảnh nói chung cũng như áp dụng cho bải toán nhận diện chữ thư pháp tiếng Việt. Trong lĩnh vực thị giác máy thì bài toán nhận diện chữ viết trong ảnh đã đạt được nhiều kết quả khi áp dụng hướng tiếp cận Deep Learning. Có thé kế đến một

số hướng tiếp cận tiên tiến nhất hiện nay bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], ABINet

[10],... Trong đó, các phương pháp này được chia thành 2 loại cơ bản. Hướng phương pháp không chia vùng

(segmentation- free)[11], trong đó không can phải phân đoạn các thành phần của văn bản. Phương pháp này bao gôm

việc chuẩn hóa ảnh văn bản đầu vào, “trích xuất các đặc trưng quan trọng, mô hình hóa chuỗi (sequence modeling)

nhằm thêm thông tin ngữ cảnh và cuối cùng là dự đoán văn bản đầu ra. Hướng tiếp cận thứ hai dua trên kiến trúc

transformer [12]. Trong đó, việc chuân hóa ảnh và trích xuất đặc trưng hình ảnh vẫn được thực hiện tương tự nhưng

sau đó các đặc trưng được đưa vào mạng transformer. Quá trình này bao gồm việc sử dung encoder dé tạo ra biểu diễn đặc trưng cấp cao từ ảnh va sử dụng decoder dé dự đoán dãy ký tự đầu ra dựa trên đầu ra của encoder và sự chú ý (attention) đến các đặc trưng đó. Trong nghiên cứu này, chúng tôi đánh giá sự hiệu quả của các phương pháp khác nhau trong việc nhận diện văn bản trong hình anh. Cụ thé, chúng tôi xem xét các phương pháp sau đây: VietOCR [5], ViTSTR [9] sử dung kiến trúc transformer, cùng với SRN [6], SPIN [7], SVTR [8], ABINet [10] là các phương pháp

không chia vùng (segmentation-free).

A. VietOCR - VietOCR [5] là một phương pháp nhận diện ký tự quang học (OCR) cho tiếng Việt sử dụng mô hình học sâu. VietOCR được xây dựng dựa trên mô hình Transformer OCR, một mô hình Transformer[13] được huấn luyện

để nhận diện ký tự trong ảnh. VietOCR hoạt động bằng cách sử dụng một mạng nơ-ron tích chập (CNN[14]) để trích

xuất các đặc trưng từ anh. Sau đó, các đặc trưng này được đưa vào một mô hình Transformer OCR dựa trên kiến trúc Transformer, mô hình này sử dụng các trọng số để tập trung vào các khu vực quan trọng trong ảnh. Mô hình

Transformer OCR sau đó dự đoán các ký tự trong ảnh và xác suất của từng ký tự. Các ký tự được dự đoán sau đó được

ghép lại để tạo thành văn bản.

B. SRN - Semantic Reasoning Network [6] có nội dung tập trung vào việc tăng cường kha năng nhận dạng văn ban

trong ngữ cảnh bằng cách giới thiệu mô-đun lý giải ngữ nghĩa toàn cầu (GSRM). Mô-đun này cho phép truyền tải

thông tin ngữ nghĩa theo nhiều hướng song song, từ đó cải thiện khả năng nhận biết ngữ nghĩa của từng ký tự và giảm thiểu ảnh hưởng của sai lệch ngữ nghĩa đến quá trình nhận dạng tông thé. Mô hình SRN được xây dựng gôm bốn thành

phần chính: mạng cơ sở, mô- -đun chú ý hình ảnh song song (PVAM) dé tạo sự chú ý đồng thời đối với hình ảnh, mô-

đun lý giải ngữ nghĩa toàn cầu (GSRM) như đã nêu, và bộ giải mã kết hợp hình ảnh và ngữ nghĩa (VSFD). Mô hình

này hoạt động bằng cách trích xuất đặc trưng 2D từ hình ảnh đầu vào, chuyển chúng thành đặc trưng 1D được điều

chỉnh dé thu thập thông tin hình ảnh và ngữ nghĩa. Sau đó, mô hình kết hợp ca hai loại đặc trưng dé dự đoán văn ban trong hình ảnh.

C. SPIN- Structure-Preserving Inner Offset Network [7] tiếp cận mới với khả năng điều chỉnh câu trúc bên trong

mạng dự đoán. SPIN tích hợp trước vào các kiên trúc nhận dạng đê tùy biên độ sáng đâu vào và tăng cường hiệu suât

so với các mạng chỉnh sửa (rectification networks) trước đây. Mô hình SPIN gôm hai phân chính: Structure Preserving

622 ViCalligraphy: TẬP DỮ LIEU CHO BÀI TOÁN NHẬN DIỆN CHỮ THU PHÁP TIENG VIỆT VÀ MOT SO ĐÁNH GIA

Network (SPN) sử dụng nguyên tắc Structure Preserving Transformation (SPT) để điều chỉnh mau sắc và Auxiliary Inner-offset Network (AIN) giải quyết vân đề biến đổi nội bộ bằng cách áp dụng đo sai lệch. Kết hợp hai thành phần

này giúp kiểm soát chất lượng màu sắc và giải quyết hạn chế từ đữ liệu đầu vào của các mô hình trước đây.

D. SVTR - Mô hình SVTR [8] có mục tiêu cải thiện hiệu suất và độ chính xác so với các phương pháp tiền nhiệm, nhóm nghiên cứu đã tập trung vào tối ưu hóa quá trình trích xuất đặc trưng từ hình anh và cải thiện kha năng nhận dang chuỗi ký tự. Mô hình SVTR thực hiện việc này bằng cách chia văn bản hình ảnh thành các mảng 2D nhỏ - được gọi là

thành phần ký tự - và áp dụng token hóa hình ảnh cho từng mảng. Kết hợp với cơ chế tự chú ý, mô hình tập trung vào

việc thu thập dấu hiệu nhận dạng. Kiến trúc SVTR có ba giai đoạn quan trọng: kết hợp, trộn và tong hợp. Sự kết hợp

của các khối trộn cục bộ và toàn cầu giúp trích xuất đặc trưng ký tự đa cấp và mang lại khả năng nhận dạng văn bản hiệu quả.

E. ViTSTR - ViTSTR [9] nhóm nghiên cứu sử dụng kiến trúc Transformer[13], một loại mang nơ-ron đã được

chứng minh là hiệu quả trong các nhiệm vụ xử lý ngôn ngữ tự nhiên. Tuy nhiên, kiến trúc Transformer thuong cham vi

nó sử dung phép biến đổi đầy đủ (encoder-decoder). Dé cải thiện tốc độ, bai báo đề xuất sử dụng một biến thé của mô

hình ViT[15]. Mô hình sẽ định hình lại hình ảnh thành một chuỗi các mảng 2D phẳng. Sau đó, các bản vá này được

chuyền đối thành các phần nhúng có chiều rộng không đổi bằng cách sử dụng phép chiếu tuyến tính để phù hợp với kích thước mà bộ mã hóa (encoder) yêu cầu. Sự khác biệt duy nhất giữa ViT và VITSTR là đầu dự đoán.

F. ABINet- Mô hình ABINet [10] được giới thiệu là phương pháp tối ưu việc nhận điện văn ban trong ngoại cảnh

bằng cách tích hợp kiến thức ngôn ngữ vào mạng sâu, sử dụng đại diện tính năng hai chiều và thực hiện phương pháp

sửa lỗi để giảm tác động của nhiễu. Kiến trúc ABINet bao gồm ba thành phần chính: mạng lõi, mô-đun chú ý vị trí và thành phần dự đoán thị giác. Mạng lõi kết hợp ca ResNet[18] va Transformer[13] để trích xuất đặc trưng từ hình ảnh.

Mô-đun chú ý vị trí sau đó chuyển đổi đặc trưng này thành xác suất của các ký tự. Mục tiêu của kiến trúc này là cải thiện khả năng biểu diễn ngôn ngữ và giới hạn sai sót trong việc nhận diện, đặc biệt trong tình huống thiếu thông tin về ngữ cảnh.

II. BO DU LIEU ViCalligraphy

A. Thu thập va gan nhãn

Chúng tôi đã thu thập dữ liệu cho việc nhận dạng thư pháp tiếng Việt từ nhiều nguồn khác nhau, bao gồm chụp ảnh trực tiếp và thu thập từ diễn đàn, mạng xã hội và công cụ tìm kiếm (Hình 3a). Ban đầu ảnh được cắt theo hình chữ

nhật, nhưng để giảm nhiễu và bảo toàn nét chữ tốt nhất, chúng tôi đã áp dụng phương pháp cắt ảnh theo hình đa giác

(polygon) cho các trường hợp thư pháp không thang hàng và có kích thước giống nhau. Kết quả là, ảnh gốc sau khi cắt

được chia thành nhiều ảnh con, mỗi ảnh con chứa một từ thư pháp tiếng Việt và được gắn nhãn cho đữ liệu (Hình 3b).

Hình 3. Một số hình ảnh (a) ảnh thư pháp trên mạng xã hội và (b) ảnh sau khi được cắt chứa một từ thư pháp

B. Đặc điểm của tập dữ liệu

Tập dữ liệu ViCalligraphy mà chúng tôi xây dựng gồm tổng cộng 15441 ảnh, được chia thành 2980 từ (class).

Trong đó các từ có sô lượng ảnh từ 6 đên 20 chiêm tỷ lệ 37,82% tông sô ảnh. (Hình 4). Con sô thông kê cho thây tập

dữ liệu có phạm vi rộng trong việc biéu diễn các từ trong nhiều ngữ cảnh khác nhau.

40.00% 37.82%

35.00%

30.00% 28.35%

25.00% 24-08%

20.00%

15.00%

10.00% 7.44%

5.00% || 2.32%

0.00% _

1-5 6-20 21-50 51-100 101-150

Số ảnh của từ

Hình 4. Biểu đồ phân phối tần suất số lượng ảnh của từ trên tổng dữ liệu

Lê Xuân Tùng, Phạm Nguyễn Xuân Trường, Trần Thanh Tùng, Lê Trần Trọng Khiêm, Đỗ Văn Tiến, Ngô Đức Thành 623

l Ngoài tính đa dạng về hình dáng và kích thước, tập dữ liệu còn đối mặt với khó khăn khác như ảnh chụp từ

nhiêu góc nhìn, phông nên phức tạp, hình ảnh có hình dạng cắt bât thường như hình chữ nhật và đa giác, cùng với các đặc diém phức tap của chữ việt (Hình 5).

IV. THỰC NGHIEM VA PHAN TÍCH

Đánh giá các phương pháp tiên tiến hiện nay trên tập dữ liệu xây dựng là một phần quan trọng và cần thiết. Trong phần này, chúng tôi sẽ thực hiện đánh giá và phân tích một loạt các phương pháp tiên tiến bao gồm VietOCR [5], SRN [6], SPIN [7], SVTR [8], ViTSTR [9], va ABINet [10] trén nhiéu tiêu chí khác nhau như độ chính xác và tốc độ xử

lý. Nghiên cứu cũng xem xét tác động của yếu tố ngôn ngữ, đặc biệt là tiếng Việt (với dấu), đối với quá trình nhận dạng.

A. Tiêu chí và độ đo đánh giá

Chúng tôi đánh giá và so sánh các phương pháp trên các yếu tố sau:

„ I. Độ chính xác của các phương pháp trên dữ liệu thực tế. Một trong những lý do cần xét tới tiêu chí này VÌ có

rât nhiêu trường hợp phương pháp chạy tôt trên tập dữ liệu chuân, nhưng bị hạn chê trên tập dữ liệu thực tê do tính phức tạp của dữ liệu.

2.Tốc độ cũng như thời gian xử lý đóng vai trò quan trọng trong các ứng dụng, việc cân bằng giữa độ chính xác

và tôc độ xử lý cũng là một thách thức.

Dé đánh giá các yếu tố nay, chúng tôi sử dụng các độ đo chuẩn của bài toán nhận diện văn bản trong ảnh. Trong

đó, với tiêu chí chính xác chúng tôi sử dụng độ đo Sự chính xác (Accuracy) và Tỷ lệ lỗi ký tự (Character Error Rate - CER) như công thức bên dưới. Do thời gian huấn luyện mô hình bằng giờ và thời gian dự đoán bằng giây.

Công thức tính sự chính xác (Accuracy):

Tổng số dự đoán đúng

Accuracy = = i : x 100

Tổng số dự đoán

Công thức tính tỷ lệ lỗi ký tự (CER):

S D I

CER =2 tt

trong đó: S là số lần thay thé, D là số lần xóa, / là số lần chèn, N là tổng số ký tự trong văn bản tham chiếu được tính

băng công thức như sau:

„ N=S+D4+C với C là sô ky tự đúng.

B. Một số thiết đặt trơng ứng với các phương pháp đánh giá

Các phương pháp phát hiện đối tượng thường yêu cầu việc cấu hình các tham số mô hình như tốc độ học (Learning rate), số lần lặp (Iteration), kích thước ảnh đầu vào (Image size), và nhiều yếu tố khác. Ngoài ra, lựa chon

mô hình trích xuất đặc trưng (backbone) cũng đóng vai trò quan trọng trong quá trình chạy phương pháp. Tất cả các cài

đặt này đều ảnh hưởng đến độ chính xác, tốc độ, thời gian huấn luyện và dự đoán. Trong phần thực nghiệm, chúng tôi

đã so sánh các phương pháp và thực hiện cấu hình các tham số khác nhau cho từng phương pháp dé tìm ra các cài đặt

tốt nhất. Chúng tôi đã đánh giá các mô hình như VietOCR, SRN, SPIN, SVTR, ViTSTR và ABINet, kết hợp với các

backbone khỏc nhau như VGG19-bn-Transformer [5], ResNet [18], SVTRNet [8], VùTSTR [9].

Chúng tôi huấn luyện các mô hình mang Deep Learning này bằng phương pháp transfer learning- tức là sử dụng bộ trọng số đã được huấn luyện trước đó trên các tập dữ liệu lớn như MJSynth[19], SynthText[20], VietOCR[5]

sau đó bằng cách sử dụng trọng số đã được học và tiếp tục huấn duyện trên tập dữ liệu nhóm đã thu thập. Việc huấn

luyện theo phương pháp này giúp chúng tôi giải quyết được vấn đề thiếu dữ liệu trong việc huấn luyện các mạng Deep

Learning. Cụ thé hơn, các mô hình được huấn luyện với tổng cộng 50 epochs, riêng với VietOCR chúng tôi huấn luyện với 20000 iters. Từ kết quả thu được chúng tôi sẽ tiến hành so sánh các phương pháp lẫn nhau dựa trên các tiêu chí đã đặt ra từ đó tìm ra những ưu điểm và hạn chế của từng phương pháp.

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu phương pháp nhận dạng văn bản nghệ thuật trong ảnh (Trang 101 - 108)

Tải bản đầy đủ (PDF)

(108 trang)