Kết quả và đánh giá

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá một số phương pháp nhận dạng văn bản ngoại ảnh cho ảnh có độ phân giải thấp (Trang 83 - 93)

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.4. Kết quả và đánh giá

Trong phần nay, nhóm sẽ trình bày về việc cai đặt các môi trường thực nghiệm

và kết quả đánh giá các phương pháp trên tập dữ liệu đã xây dựng. Đầu tiên về phần

dữ liệu, theo như bai báo [1], để đánh giá công bằng và có thé so sánh được với các phương pháp khác, nhóm nghiên cứu đã huấn luyện trên 2 tập dir liệu là MJSynth và

SynthText, sau đó đánh giá trên tập dữ liệu LowRes. Theo như nghiên cứu này, sinh viên sẽ chia dit liệu huân luyện và đánh giá như sau:

Dữ liệu huấn luyện: Gồm các ảnh thuộc bộ hai bộ dữ liệu MJ và ST, đây là hai

bộ dữ liệu synthetic.

72

Dữ liệu đánh giá: Gôm các ảnh van bản có độ phân giải thâp, có tông

cộng 1478 ảnh.

Pretrai Metric IC15 IHISK SVT TextZo LowRes ned (%) om

CRNN MJ+ST Acc 60.81 91.10 65.38 44.28 67.13

ASTER MJ+ST Acc - 67.83 91.81 73.07 57.85 70.40

SVTR MJ+ST Acc 84.21 95.72 85.77 48.66 79.45

ABI- MJ+ST Acc 81.28 97.86 84.61 58.23 78.45

Net

ParSeq MJ+ST Acc 83.04 96.44 88.46 61.68 80.81

Bang 3. Kết quả đánh giá các mô hình với tập dữ liệu pretrain là MJ và ST

ParSeq nồi bật là mô hình có hiệu suất cao nhất, đạt độ chính xác nhiều nhất 3 trong số 5 bộ dit liệu (SVT, TextZoom, LowResData). Điều này cho thấy ParSeq có hiệu suất mạnh mẽ nhất trên nhiều phân phối dữ liệu khác nhau.

SVTR đạt độ chính xác tốt nhất trên bộ đữ liệu IC15, vượt qua ParSeq 1,17%. Điều này cho thay SVTR được tối ưu hóa đặc biệt cho dit liệu IC15.

73

Trên bộ dữ liệu TextZoom, phương pháp ParSeq và phương pháp CRNN chênh lệch nhau một khoảng khá lớn (67,13% so với 80,81%).

Độ chính xác thường thấp nhất trên TextZoom va cao nhất trên IIISK, thể hiện rằng bộ dit liệu TextZoom là bộ dit liệu khó và nhiều thách thức. Các ảnh trong bộ

dữ liệu IIT5K dé dàng dé nhận dạng hơn so với TextZoom.

Không có một mô hình duy nhất nào đạt điểm cao nhất trên tất cả các bộ dữ

liệu, nhân mạnh nhu câu nghiên cứu tiép tục vào kiên trúc chuyên biệt cho các loại

đữ liệu khác nhau.

Sau khi thực hiện đánh giá, chúng tôi quyết định dùng kĩ thuật fine-tuning trên tập dữ liệu LowRes để đánh giá lại các mô hình đã nêu, kết quả được trình bay trong

bảng dưới đây.

Pretrai Metric IC15 IHTSK SVT TextZo LowRes ned om

CRNN MJ+ST Acc 66.66 90.39 73.07 46.36 68.78

ASTER MJ+ST Acc 74.85 90.74 73.07 50.19 72.29

SVTR MJ+ST Acc 87.13 96.44 76.92 50.19 79.45

ABI- MJ+ST = Acc 81.28 97.86 84.61 58.23 78.45

Net

74

ParSeq MJ+ST Acc 89.47 98.57 92.30 66.28 84.86

Bảng 4. Kết quả đánh giá các mô hình sau khi huấn luyện thêm 20 epoch

trên tập dữ liệu LowRes

Tinh chỉnh (fine-tuning) trên dit liệu LowResData đã cải thiện hiệu suất tong thé trén TextZoom, cho thay lợi ich của việc tùy chỉnh mô hình cho dữ liệu độ phân

giải thấp. ParSeq vẫn đạt được độ chính xác cao nhất sau khi tinh chỉnh, hiện đạt

84,86% trên LowResData. Độ chính xác của nó trên TextZoom tăng gần 5% sau khi

tinh chỉnh.

SVTR cho thấy mức cải thiện lớn thứ hai trên TextZoom sau khi tinh chỉnh, tăng gần 7%. Điều này cho thấy mô hình SVTR thích ứng tốt với dữ liệu độ phân giải thấp.

ABINet va Aster có những cải thiện rất nhỏ trên TextZoom, chỉ tăng đưới 1%. Kiến trúc của chúng dường như kém khả năng tận dụng việc tinh chỉnh LowResData.

Tat cả các mô hình ngoại trừ CRNN đều đạt độ chính xác trên 80% trên dataset LowRes sau khi tinh chỉnh. CRNN bi tụt lại khoảng 69%, cho thấy những hạn chế

của câu trúc CNN-RNN của nó.

ParSeq duy trì độ chính xác hang đầu sau khi tinh chỉnh, khang định lợi ich

của kiên trúc Transformer và phương pháp tiên huân của nó.

Mặc dù độ chính xác tăng nhẹ trên các tập dữ liệu sau khi tinh chỉnh, việc thích

ứng chuyên biệt LowResData mang lai lợi ích lớn hơn trên dit liệu đầy thách thức

như TextZoom.

Tóm lại, việc tinh chỉnh trên dữ liệu LowResData đã cải thiện dang kề hiệu suất của tất cả các mô hình nhận dạng van ban được thử nghiệm. Mô hình ParSeq, sử

75

dụng kiến trúc Transformer, tiếp tục đạt được độ chính xác hàng đầu sau khi tinh chỉnh, cho thấy lợi ích của việc sử dụng kiến trúc mạnh mẽ và phương pháp tiền huấn

hiệu quả.

Ngoài độ chính xác, chúng tôi sẽ xem xét đánh giá các mô hình dựa trên FPS

như đã trình bày ở phần trước, kết quả đánh giá được trình bày trong bảng dưới đây.

Dataset Accuracy FPS

(%)

CRNN LowRes 68.78 28.61

ASTER LowRes 72.29 24.39

SVTR LowRes 79.45 15.58

ABI-Net LowRes 78.45 16.33

ParSeq LowRes 84.86 25.28

Bảng 5. Kết quả đánh giá dựa trên độ chính xác va FPS

Các mô hình được chia thành hai nhóm:

e_ Mô hình truyền thống: CRNN, ASTER

e Mô hình dựa trên Transformer: SVTR, ABI-Net, ParSeq

Các mô hình dựa trên Transformer vượt trội đáng kể so với các mô hình truyền

thống về độ chính xác trên tập dữ liệu LowRes. Mô hình Transformer tốt nhất (ParSeq) đạt độ chính xác cao hơn 16% so với mô hình truyền thống tốt nhất

(ASTER).

76

Các mô hình dựa trên Transformer cũng nhanh hơn nhiều so với các mô hình truyền thống về tốc độ khung hình (FPS). Mô hình Transformer nhanh nhất (ParSeq) nhanh hơn 3 lần so với mô hình truyền thống nhanh nhất (ASTER).

Điêu này cho thây các mô hình dựa trên Transformer có ưu thê so với các mô hình truyện thông trong nhận dang văn bản trong ảnh, đặc biệt là đôi với ảnh có độ phân giải thâp. Hiệu suât của chúng cao hơn đáng kê về cả độ chính xác và tôc độ.

Trong số các mô hình Transformer, ParSeq đạt được sự cân bằng tốt nhất giữa

độ chính xác cao và tốc độ nhanh. Điều nay cho thấy nó có thé là mô hình tong thé tốt nhất cho nhận dạng văn bản trong ảnh có độ phân giải thấp.

Độ chính xác của mô hình PARSeq đến từ việc nó có thé tận dụng triệt dé thông tin ngữ cảnh nhờ vao việc sử dụng co chế hoán vị (PLM). Bên cạnh đó, tốc độ

xử lý nhanh của mô hình là do nó chi sử dụng khối Transformer Encoder dé mã hóa ảnh đầu vào, thông tin ngôn ngữ được kết hợp với thông tin thị giác thông qua lớp Multi-head Attention, do đó tốc độ xử lý nhanh.

Để quan sát rõ hơn kết quả dự đoán, chúng tôi lập bảng so sánh kết qua cho

các mô hình như sau

Nhãn CRNN | ASTER | ABINet | SVTR ParSeq

fok fef fork fox fox fox

j ASD T7 | asfixia Asfcla aspocia asfixia asfxia asfixia

ĐO In P auto oina oine one auto one

77

copyright xk se slabty | codyyrrht | copyinabl

e

liverpool | livirfook | liverfook | liverfoot | liverfool | liverfool

~~" | movemen | moronont | moremon | movemen | movemen | movemen

t t t t t

Bick rock fox pay pack poght back

Bang 6. Kết quả chạy dự đoán trên một số ảnh khó

Đối với những từ đơn giản như "fok", các mô hình truyền thống có thé gặp khó khăn do khả năng nhận dạng mẫu hình ảnh hạn chế hơn so với các mô hình

Transformer. Hình dạng trực quan của "fok" đơn giản, nhưng những khác biệt nhỏ

như hình dạng chữ 'f có thé khiến CRNN/ASTER gặp lỗi.

Đối với những từ dai hơn như "asfixia", tôi cho rằng CRNN và ASTER gặp khó khăn do chúng xử lý văn bản theo trình tự. Lỗi ở đầu từ có thể ảnh hưởng đến phần sau. Transformer tốt hơn hơn trong việc nhận dạng toàn bộ ngữ cảnh/hình dạng

của từ một cách song song.

Đối với "copyright", đây là trường hợp khá đặc biệt do chữ không những nam trong ảnh có chất lượng thấp mà còn bị nghiêng 180°. Tất cả các mô hình đều đưa ra

78

dự đoán sai cho trường hợp này. Tuy nhiên ParSeq vẫn cho ra dự đoán có phần chính

xác hơn so với các mô hình còn lại.

Đối với "liverpool", những từ NGẮN hơn dường như là một thách thức liên tục đối với CRNN/ASTER. Bản chất tuần tự của chúng dẫn đến việc tích lũy lỗi.

Transformer tôt hơn trong ngữ cảnh nhiêu chữ cái.

Các lỗi chính ta có thé do độ phân giải thấp gây ra - những thay đổi nhỏ về hình dạng chữ cái có thể gây nhằm lẫn cho các mô hình. Transformer có khả năng

nhận dạng mẫu hình ảnh mạnh mẽ hơn dé xử lý việc nay.

Đôi với "rock", day là một hình ảnh kha khó vì màu của văn ban gân như trùng

với mau của phông nên, tat cả các mô hình đêu đưa ra dự đoán sai cho hình ảnh nay.

ParSeq va ABINet tuy cũng đưa ra dự đoán sai nhưng đúng ở hai kí tự cuối “ck”.

Qua quá trình huân luyện và đánh giá các mô hình, chúng tôi có nhận xét như

sau

Đối với các mô hình truyền thống (CRNN và ASTER):

e Phuong pháp CRNN có ưu điểm là đơn giản, hiệu quả. Tuy nhiên,

phương pháp này có thể gặp khó khăn trong việc xử lý văn bản phức tạp, chăng hạn như văn bản bị xô lệch, mờ, bị nhiễu, v.v.

e Phương pháp ASTER có ưu điểm là độ chính xác cao, hiệu quả và thích

ứng với các loại văn bản khác nhau. Tuy nhiên, phương pháp này có

cau trúc phức tạp hơn phương pháp CRNN, do đó khó hiểu và khó triển

khai hơn.

e Nhìn chung, phương pháp CRNN phù hợp cho các ứng dụng yêu cầu

độ chính xác cao và hiệu quả nhưng không cần xử lý văn bản phức tạp. Phương pháp ASTER phù hợp cho các ứng dụng yêu cầu xử lý văn bản phức tap, chang hạn như nhận dạng biển báo giao thông, nhận dang

nhãn sản phâm, v.v.

79

Phương pháp CRNN gặp nhiều khó khăn trong việc nhận dạng các văn bản bị

mờ, bị nghiêng có thể vì những lý do sau đây:

e Mạng CNN: Mạng CNN được sử dụng dé phát hiện văn bản trong

phương pháp CRNN. Mạng CNN hoạt động bằng cách học hỏi các đặc trưng của văn bản từ đữ liệu huấn luyện. Tuy nhiên, các văn bản phức tạp, chang hạn như văn bản bị xô lệch, mờ, bị nhiễu, v.v., có thể chứa các đặc trưng không mong muốn, khiến mạng CNN khó phát hiện chính

xác các văn bản nảy.

e Mang RNN: Mạng RNN được sử dung để nhận dạng văn ban trong

phương pháp CRNN. Mạng RNN hoạt động bằng cách học hỏi các mỗi quan hệ giữa các chữ cái và ký hiệu trong một chuỗi văn bản. Tuy nhiên, các văn bản phức tap có thé chứa các lỗi, chang hạn như lỗi sai chính

tả và lỗi bỏ sót, khiến mạng RNN khó nhận dạng chính xác các văn bản

này.

Cụ thé, đối với văn bản bị xô lệch, mạng CNN có thê khó phát hiện các cạnh của văn bản. Đối với văn bản mờ, mạng CNN có thé khó phân biệt các chữ cái và ký hiệu. Đối với văn bản bị nhiễu, mạng CNN có thê khó loại bỏ các nhiễu ảnh. Đối với văn bản chứa lỗi, mạng RNN có thê khó học hỏi các mối quan hệ chính xác giữa các

chữ cái và ký hiệu.

Đối với các mô hình có sử dung Transformer (SVTR, ABINet và ParSeq):

e Mạng Transformer có khả năng xử lý các chuỗi dài một cách hiệu qua

hơn so với mạng RNN do không bị hạn chế bởi độ dài của chuỗi. Không những thế, nó có khả năng học các mối quan hệ giữa các chữ cái và ký hiệu ở khoảng cách xa trong chuỗi, giúp cải thiện độ chính xác trong việc nhận dạng văn bản. Điều này là nhờ vào sự linh hoạt của việc sử

dụng sự chú ý trong mang Transformer, giúp tập trung vào các vung

quan trọng của văn ban dé học các mối quan hệ phức tạp. Không chi

80

vậy, mạng Transformer cũng có khả năng học các đặc trưng không gian

từ ảnh thông qua việc sử dụng các nút đầu vào và đầu ra có kích thước

có định. Những nút này có thé được áp dụng dé học các đặc trưng không gian của văn bản trong ảnh, mở ra tiềm năng rộng lớn cho việc áp dụng

của mạng Transformer trong việc xử lý dữ liệu đa dạng.

SVTR có nhược điểm là yêu cầu nhiều đữ liệu huấn luyện và cấu trúc phức tạp. Điều này là do SVTR sử dụng cả đặc trưng không gian và đặc trưng từ mạng Transformer. Các đặc trưng không gian cần được học

hỏi từ dữ liệu ảnh có chứa văn bản, trong khi các đặc trưng từ mạng

Transformer có thể được học hỏi từ đữ liệu văn bản. Cấu trúc phức tạp của SVTR có thể khiến mô hình khó hiểu và khó triển khai hơn.

ABINet có nhược điểm là yêu cầu nhiều dữ liệu huấn luyện và cấu trúc phức tạp. Điều này là do ABINet sử dụng sự chú ý, một kỹ thuật học máy đòi hỏi nhiều dit liệu dé học hỏi. Cấu trúc phức tạp của ABINet cũng có thé khiến mô hình khó hiéu và khó triển khai hơn.

ParSeq có nhược diém là yêu cầu nhiều tài nguyên và hiệu quả giảm khi kích thước văn bản tăng. Điều này là do ParSeq sử dụng song song

dé xử lý các khu vực khác nhau của văn bản cùng một lúc. Song song đòi hỏi nhiều tài nguyên, và khi kích thước văn bản tăng, có thể có xung

đột giữa các khu vực, điêu này có thê làm giảm hiệu quả của mô hình.

81

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Đánh giá một số phương pháp nhận dạng văn bản ngoại ảnh cho ảnh có độ phân giải thấp (Trang 83 - 93)

Tải bản đầy đủ (PDF)

(97 trang)