Khóa luận tốt nghiệp Khoa học dữ liệu: Trích xuất thông tin từ ảnh chụp chứng chỉ tiếng Anh

Đầu tiên, bộ đữ liệu UIT-IELC là bộ đữ liệu đểphục vụ cho bài toán Xây dựng bộ dữ liệu và phương pháp cho bài toán trích xuấtthông tin trên ảnh chứng chỉ ngoại ngữ, bao gồm 8,837 hình ản

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRẢN PHẠM GIA PHÚ - 20520694

QUÁCH CƠ THÁI - 20520756

KHÓA LUẬN TÓT NGHIỆP

TRÍCH XUẤT THÔNG TIN TỪ ẢNH CHỤP CHỨNG CHỈ

TIENG ANH

INFORMATION EXTRACTION FROM ENGLISH

CERTIFICATE IMAGES

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHÍ MINH, NAM 2023

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

n8ảy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LOI CAM ON

Trong quá trình học tập và nghiên cứu tại trường đại học của mỗi sinh

viên, khoá luận tốt nghiệp là vô cùng quan trọng, cũng là bước chạy đà cuốicùng trước khi tốt nghiệp Đồng thời, nó cũng là tiền đề để những sinh viên có ýđịnh tiếp tục học thạc sĩ, tiến sĩ sau này cải thiện và củng có khả năng nghiên

cứu của mình.

Trước hết, em xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn củamình - thầy Đỗ Trọng Hợp, người đã trực tiếp hướng dẫn chúng em sâu sát, tận

tình trong suốt thời gian hoàn thành khóa luận này; những lời động viên và sự

hỗ trợ của thầy đã giúp chúng em vượt qua những khó khăn trong quá trình thựchiện Tiếp theo, em xin gửi lời biết ơn sâu sắc đến quý thầy cô giảng viên khoa

Khoa học và Kỹ thuật Thông tin - trực thuộc trường Đại học Công nghệ Thông

tin — Dai học Quốc gia Thành phố Hồ Chí Minh vi đã truyền đạt và giảng daynhững kiến thức, những bài học quý báu và hỗ trợ bồi đưỡng kỹ năng cho chúng

em trong thời gian ở giảng đường đại học Và xin chân thành cảm ơn đến gia

đình, bạn bẻ đã ủng hộ, giúp đỡ trong qua trình học tập và làm khóa luận tai

trường Sự đồng hành của tất cả mọi người là phần động lực to lớn giúp em tiếptục tiến về phía trước

Dù đã trải qua việc làm đề tài trước đây, nhưng em nhận thấy mình vẫncòn nhiều hạn chế trong kiến thức, trong khoá luận này hăn sẽ không tránh khỏi

những mặt thiếu sót Em mong rằng mình sẽ tiếp tục nhận được những ý kiến

đóng góp, đánh giá và nhận xét từ thầy/cô để cho khoá luận tốt nghiệp lần này

được chỉnh chu và hoàn thiện nhất có thê

Cuối cùng, em xin chúc quý thầy/cô luôn mạnh khoẻ, hạnh phúc và gặt

hái nhiều thành công, và em mong những điều tốt đẹp nhất sẽ luôn sát cánh

đông hành bên cạnh mọi người.

Trang 4

MỤC LỤC

DANH MỤC HÌNH

DANH MỤC BANG

DANH MỤC TU VIET TAT

TOM TAT KHÓA LUẬN : 222cc nh |

MO DAU 0 2 Chương 1 TONG QUAN VE DE TÀI 2-52 52+SE+EE+E2EE+EzExersered 8

1.1 Giới thiệu về để tài che 8

1.2 Tính ứng dụng và đóng góp của đề tài - 2-5 tt eEerkerkerrreret II

1.3 Những công trình nghiên cứu liên quan 5 5 55+ ++£sveseeseeses 12

Chuong 2 BAI TOÁN TRÍCH XUẤT THONG TIN TREN ANH CHUNG CHI TOEIC NGHE VÀ ĐỌC -:¿-222t22xtttrEtttrrrrtrrrirrrrrrrrrree 19

2.1 Đặt van đề và xây dựng bài toán chính của đề tài - 2 sec: 19

2.2 Động lực và thách thức cho việc nghiên cứu bai toán - -‹- 21

2.3 Các phương pháp giải quyết bai toán - 2 2+ckeEEe2E2EeEEerxerrrerxees 23

Chương3 XÂY DỰNG BỘ DỮ LIỆU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN ANH CHUNG CHI TOEIC NGHE VÀ ĐỌC 25

3.1 Xây dựng bộ dữ liệu 5+ tt SH 25

3.2 _ Hướng dan gan nhãn dữ liệu và quá trình gan nhãn dif liệu 273.3 Phân tích, thống kê về bộ dữ liệu và phân chia dữ liệu huấn luyện 31

Chương 4 CÁC PHƯƠNG PHAP TIẾP CAN BÀI TOÁN CHINH 34

4.1 Huấn luyện mô hình YOLOv8 cho tác vụ xác định vi trí của văn ban, sau đó

sử dụng các mô hình nhận diện có san dé nhận diện văn bản - s5 +s+sss2 35

Trang 5

4.2 Huấn luyện các mô hình của thư viện PaddleOCR cho tác vụ phát hiện, xác

định vi trí của văn bảñ - << 1E 1122221111111 11 1111193511119 1kg key 37

4.3 Mô hình cho tác vụ Nhận diện vi trí của Van bản - +++-<<5: 4I

4.4 Mô hình cho tác vụ Trích xuất thông tin chính 2 2 z+sz+sz+se2 44

Chương 5 CÀI ĐẶT, THUC NGHIEM VÀ ĐÁNH GIÁ KET QUẢ 49

5.1 Cai dat, thurc nghigm 01177 Ả 49

5.2 Đánh giá kết qua c ccececececccscescssessessesesessessessessessesucsscssstssesseseeseessessesesens 51

5.3 Phân tích 160i cceccecceccccssssssssssessessessesseessesssvsssssessesssssssssaucsucsessessessssssesseeseees 56

Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIÉN - 59

6.1 Kt aan cecccccccssssseessesssesssesseessssuesssssscesueesustiecssesssssssessessssessessesssessseesees 59

6.2 Hướng pháttriỂn -++2c2EkC2EktEEEEEESEECErrrrrerkree 59

TÀI LIỆU THAM KHẢO

Trang 6

DANH MỤC HÌNH

Hình 1: Hình mẫu của các chứng chỉ TOEIC nghe và đọc 2-2 2+52+s++z+x+zx+zxe2 8

Hình 2: Các ví du về văn bản ph cấu trúc trên hình ảnh trong bộ dữ liệu TotalText 13 Hình 3: Ví dụ về hình và bộ nhãn cho tác vụ Nhận diện văn bản trong bộ dir liệu Incidental

Scene Text, ICDAAR.20 Í Š - - cG 1 22111112231 111 12931 1111023 111110 11g vn vn re 14

Hình 4: Ví dụ về hình ảnh và bộ nhãn cho tác vụ Phát hiện văn bản trong bộ dữ liệu

Incidental Scene Dataset, ICDAR 2015 E111 6123111111153 11 111951111 E2 1 ky, 14

Hình 5: Ví dụ về văn bản bán cấu trúc trên hình ảnh trong bộ dữ liệu hóa đơn tiếng Việt

Hình 6: Mô tả đầu vào và đầu ra của task (2) trích xuất 4 thông tin chính trên hình ảnh hóa đơn tiếng Việt trong cuộc thi MC-OCR RIVF 2021 2: 2-©5222+2£Et2E2EEczxerxerreee 16 Hình 7: Đầu vào và đầu ra của bài toán trích xuất thông tin trên hình ảnh bìa-sách 17 Hình 8: Vi dụ mô tả đầu vào và đầu ra cho hệ thống trích xuất thông tin từ ảnh chứng chỉ

TOEIC nghe va đọc của chúng tÔI - 2-6 2322191321211 21 1112 11511151 11 11 1kg re 20

Hình 9: Minh họa cho quy trình của hướng tiếp cận thứ nhất 2-5225: 21 Hình 10: Minh họa cho quy trình của hướng tiếp cận thứ hai 2:©25¿ 5552555: 22 Hình 11: Mô hình minh họa cho các bước thực hiện đề tài -2- 2 2 s2 s+£+£++£++z+zz 25

Hình 12: Mô tả các khó khăn gặp phải khi thu thập dt liệu trên Internet 26

Hình 13: Sơ đồ mô tả quy trình xây dựng bộ dữ liệu -2- 2 5¿2+2cx+zx+zz+zxeez 26 Hình 14: Mô tả cách chụp từ tệp dữ liệu mềm sang hình ảnh -2- z5: 27 Hình 15: Minh họa về bốn hình ảnh của một chứng chỉ TOEIC nghe và đọc chụp ở các góc

Chup khac hau 0 28

Hình 16: Ví dụ về nhãn của mô hình YOLO wu cecsecesscsecseseseceesesesecsesesecsesesessvevesevevseseeeees 30

Hình 17: Minh họa nhãn cho tac vụ Phân loại văn bản của mô hình PaddleOCR-KIE 30

Hình 18: Mô tả minh họa về cách gan nhãn của ảnh chứng chỉ TOEIC nghe và doc 31

Hình 19: Minh hoa nhãn cho tác vụ Nhận diện văn ban của các mô hình PaddleOCR 31

Hình 20: Lưu đồ mô tả quy trình gan nhãn dữ liệu - 2-5 2 ++£E2E2EEe£x+zEerseee 32 Hình 21: Biéu đồ thống kê các tập dữ liệu sau khi được chia - -+-s++s=+s<><+ 34 Hình 22: Biéu đồ thé hiện phân phối số ký tự của chuỗi văn bản có nhãn “Name” 34 Hình 23: Kiến trúc YOLOV8 - ¿5+ S2E29E121127121121121121121111121111111 211.11 ee 37

Hinh 24: EasyOCR Framework 0 3 38

Trang 7

Hình 25: Tổng quan về Pipeline của mô hình SAST - 2 2¿2z+2+++2z++£x+zzxzzzxzeex 40 Hình 26: Kiến trúc của mô hình DB . -2222¿¿2EEEkvrrirtEEkktrrrrtrtrrrrrrrrii 4I Hình 27: Kiến trúc của mô hình DB++, khi thêm một mô đun là ASF .- 42 Hình 28: Kiến trúc của mô đun Adaptive Scale Fusion - 2 5¿©cz2czccxczzserxeee 42 Hình 29: Cơ chế Spatial Attention -2¿©2+22+222E22E122E122312211221122112211 221.22 ee 42

Hình 30: Kiến trúc của CRNN, với backbone là phần Convolutional Layers và head là

phần Recurrent Lay€TS - + + s+SE£SE£EEEEEEEEEEEEEXEE1E7111112111121111111121121111 111 xe 43

Hình 31: Pipeline của mô hình SRN - c1 2 223112 112 1311111111 1111111111111 1 re 43

Hình 32: Sơ đồ tổng quan về A BINNet 2 25: 222 2E2221223122212231221122112211 2211211 1 ee 44

Hình 33: Kiến trúc của Vision Model (bên trái) va Language Model (bên phải) 45 Hình 34: Cấu trúc của LayoutXLM, với hướng tiếp cận SER được minh họa 48

Hình 35: Minh họa về Key Information Extraction trong thư viện PP-StructureV2, với đầu vào là thông tin của một chiếc thẻ định danh - 2-2 ++EE+EE+EE+EE+EE+EE+EE+EzEesreee 48 Hình 36: Kiến trúc của mô hình SDMGR - 2-52 2SE+SE£2EE2EE£EE2EEEEEEE2EEEEEErkrrrree 49 Hình 37: Hình minh họa sau khi thử nghiệm mô hình và nhãn đầu ra ở tác vụ Trích xuất

thông tin khóa (Phân loại văn bản) - - 2E 2c 3221331113111 3323311111111 rre 52

Hình 38: Hình minh họa sau khi thử nghiệm mô hình đã được huấn luyện ở hai tác vụ Phát

hiện văn bản (a) và Nhận diện văn bản ((b) - ¿5c 2c 3221133113313 Esxx 52

Hình 39: Minh họa hình ảnh sau khi thực hiện tac vu phát hiện văn bản bằng mô hình

YOLO và vùng cắt của văn bản -ss- 56c St E1 112112211211211111211 11211211111 11g 57

Hình 40: Hình minh họa sau khi thực hiện tác vụ phát hiện văn bản bằng mô hình DB++ 57 Hình 41: Minh họa cho lỗi sai ký tự khi trích xuất bằng mô hình EasyOCR có sẵn 58

Trang 8

DANH MỤC BANG

Bảng |: Bảng xác định các nhãn và nội dung của nhãn 5552 ++*++s+ex+eessess 29

Bang 2: Thống kê số lượng Bounding box đã được gan theo nhãn 2-2: 5+: 33 Bảng 3: Thống kê số lượng Bouding box theo nhãn ở mỗi tập dữ liệu được chia 33 Bảng 4: Minh họa cho các nhãn có thể được nhận diện khi sử dụng hai mô hình SER và

Bang 5: Tham số sử dụng khi huấn luyện các mô hình phát hiện văn bản - 50 Bảng 6: Tham SỐ Sử dụng khi huấn luyện các mô hình nhận diện văn bản - 51

Bang 7: Bảng các mô hình và tham số được sử dung cho tác vụ Trích xuất thông tin chính

(Key Information 8554101007777 - a 51-52

Bang 8: Kết quả đánh giá kiểm thử của mô hình YOLOv8 sau khi huấn luyện 55 Bảng 9: Kết qua mô hình Phát hiện văn ban (Text Detection) c.cccccscesssesssesstessteesteeses 55 Bang 10: Kết qua các mô hình Nhận diện văn ban (Text Recognition) - 55 Bang 11: Kết quả nhận điện của mô hình Trích xuất thông tin khóa (Key Information

Extraction - Field ClasSIÍICafIOR)) - c2 222 1221132111331 151152 115 1111111 11 1 E11 E111 vn trên 56

Bảng 12: Kết quả đánh giá của hệ thống trên tập kiêm thử và tập dữ liệu thực tế 56 Bảng 13: Mô tả các lỗi gặp phải khi cho hệ thống trích xuất các điểm dữ liệu trong tập

Trang 9

DANH MỤC TỪ VIET TAT

STT | Chữ viết tắt Chữ viết đầy đủ

1 ABINet Autonomous, Bidirectional and Iterative

2 ASF Adaptive Scale Fusion

3 Bi-LSTM Bidirectional Long Short-Term Memory

4 BGF Blocking Gradient Flow

5 CAB Context Attention Block

6 CRAFT Character Region Awareness for Text Detection

7 CRNN Convolutional Recurrent Neural Network

8 CMND/CCCD | Chứng minh nhân dân/ Căn cước công dân

9 CT Centripetal Text

I0 | CTC Connectionist Temporal Classification

II | DB Differentiable binarization

12 |DRRG Deep Relational Reasoning Graph

13 |DoB Date of Birth

14 |EAST Efficient and Accurate Scene Text

15 |ETS Educational Testing Service

16 |ECE Fourier Contour Embedding

17 | FN False Negative

18 | FP False Positive

19 | FPN Feature Pyramid Network

20 | GCN Graph Convolutional Network

21 | GSMR Global Semantic Reasoning Module

22_ |ICDAR International Conference on Document Analysis and Recognition 23_ | ID Identification

24 | IDC Intelligent Distributed Computing

25_ | JSON JavaScript Object Notation

26 | KIE Key Information Extraction

27 |LM Language Model

28 | LSTM Long Short-Term Memory

29 | NER Named Entity Recognition

30 | NLP Natural Language Processing

31 | OCR Optical Character Recognition

32_ |PPOCR PaddlePaddle OCR

33 |PVAM Parallel Visual Attention Module

34 |RCNN Region-based Convolutional Neural Network

35 |RE Relationship Extraction

36 RIVF Research, Innovation and Vision for the Future

37 |SAST Single-Shot Arbitrarily-Shaped Text

38 | SDMGR Spatial Dual-Modality Graph Reasoning

39 |SER Semantic Entity Recognition

40 | SRN Semantic Reasoning Network

41 _ |SVM Support Vector Machine

Trang 10

42_ | TOEIC Test of English for International Communication 43_ |TP True Positive

44 | TRIE Text Reading and Information Extraction

45_ | VI Visual-feature Independent

46 | VỌA Visual Question Answering

47 | VSFD Visual-semantic Fusion Decoder

48 | YOLO You Only Look Once

Trang 11

TÓM TẮT KHÓA LUẬN

Tiếng Anh là một trong những ngôn ngữ quốc tế quan trọng nhất trên thế giới,

đóng vai trò quan trọng trong giao tiếp, học tập, và sự phát triển cá nhân cũng như

sự nghiệp Sự thành tiếng Anh mở ra cơ hội lớn cho cá nhân, giúp họ tương tác trựctiếp với cộng đồng toàn cầu Chứng chỉ tiếng Anh, như IELTS, TOEFL, TOEICNghe đọc, TOEIC Nói viết, VNU-EPT hoặc Cambridge English Certificates, không chỉ là chứng chỉ tiếng Anh mà còn là công cụ quan trọng để xác nhận năng

lực và sự chuẩn bị cho các thử thách tiếng Anh trong học tập và công việc Nó

không chỉ thé hiện khả năng ngôn ngữ, mà còn là một phần quan trọng của hồ sơ cánhân, đặc biệt khi tham gia vào các chương trình đào tạo quốc tế hoặc tuyên dụngnghề nghiệp yêu cầu sử dụng tiếng Anh Với thế giới ngày càng hội nhập, việc sởhữu chứng chỉ tiếng Anh không chỉ tăng cường khả năng giao tiếp quốc tế mà còn

mở ra cánh cửa cho nhiều cơ hội nghề nghiệp toàn cầu Các doanh nghiệp quốc tếđánh giá cao những ứng viên có khả năng sử dụng tiếng Anh thành thạo, và nhiều tổchức chỉ chọn những người có chứng chỉ tiếng Anh đề đảm bảo chất lượng và hiệusuất làm việc

Tuy nhiên, bên cạnh những sự quan trọng về tiếng Anh cũng như chứng chỉtiếng Anh thì công tác quản lý các chứng chỉ tiếng Anh vẫn còn hạn chế, việc nhậpmột lượng lớn thông tin trong các chứng chỉ tiếng Anh bằng cách thủ công khiếncho người nhập dễ bị sai sót, nhằm lẫn dẫn đến thông tin lưu trữ không được chínhxác, ngoài ra việc nhập thủ công bằng tay các thông tin ấy dễ gây ra sự nhàm chán,

mệt mỏi cho người nhập.

Vì vậy, trong khóa luận này chúng tôi trình bay về quy trình xây dựng bộ dữliệu UIT-IELC, và các phương pháp mới dựa trên học sâu dé trích xuất thông tin từảnh chứng chỉ TOEIC Nghe và đọc Đầu tiên, bộ đữ liệu UIT-IELC là bộ đữ liệu đểphục vụ cho bài toán Xây dựng bộ dữ liệu và phương pháp cho bài toán trích xuấtthông tin trên ảnh chứng chỉ ngoại ngữ, bao gồm 8,837 hình ảnh chứng chỉ

TOEIC nghe va đọc được gan nhãn với vi trí văn bản trên ảnh, nội dung văn bản va nhãn phân loại của các nội dung văn bản thành 8 trường văn bản là Name, ID, DoB,

Trang 12

TestDate, ValidUntil, ListeningScore, Reading-Score va Total Score của các chứng

chi TOEIC nghe va doc Tiép theo, các thuật toán trên hoc sâu đã được triển khai

trên bộ dữ liệu UIT-IELC để trích xuất thông tin văn bản trên hình ảnh chứng chỉ

TOEIC nghe và đọc, với kết quả cuối cùng là 99,91% Fl-score cho tác vụ trích xuất

thông tin chính (Key Information Extraction)

Trang 13

MỞ ĐẦU

Dat van đề:

Công nghệ thông tin ngày nay đã phat triển một cách vượt bậc, vượt xa moi

thời đại, sự phát triển ấy góp phần giúp cho cuộc sống của con người trở nên nhiều

tiện lợi cho việc nghiên cứu và phát triển, và khoa học — kỹ thuật, công nghệ sẽ luônluôn được tiếp tục nâng cấp lên và giúp tối ưu hóa cho công việc của con người trởnên dễ dàng, đơn giản, tiết kiệm hơn cả về thời gian lẫn tiền bạc

Trên thị trường quốc tế cũng như trong nước ta, việc đầu tư vào việc nâng

cao kỹ năng tiếng Anh thông qua các khóa đào tạo và luyện thi tiếng Anh ngày càng

trở nên phô biến, điều này không chỉ giúp cho các cá nhân cải thiện trình độ tiếngAnh, các nhà trường xét tốt nghiệp cho sinh viên bằng các chứng chỉ tiếng Anh màcòn mang lại lợi ich lâu dai cho các tổ chức và doanh nghiệp khi nhân viên có khảnăng giao tiếp mạnh mẽ và linh hoạt trong môi trường làm việc toàn cầu Tuy nhiên,mặc du tiếng Anh đóng vai trò quan trọng trong cuộc sông hàng ngày của chúng ta,nhưng quá trình quản lý và nhập liệu thông tin từ các chứng chỉ tiếng Anh đang đốimặt với nhiều thách thức, phương pháp nhập liệu thủ công đang gặp khó khăn dođòi hỏi nhiều công sức và thời gian từ con người, việc nhập chính xác từng chỉ tiếtnhư điểm số, ngày sinh, và họ tên đôi khi trở thành công việc phức tap và dé xảy ra

sai sót, ảnh hưởng đến tính chính xác và đáng tin cậy của thông tin và còn bị mat

thời gian khi phải nhập liệu thủ công.

Trước khi thực hiện đề tài này, chúng tôi mong muốn được giúp các nhânviên của các trường đại học ở nước ta băng cách xây dựng một hệ thống giúp đọcchính xác các thông tin quan trọng được xuất hiện trên các chứng chỉ đó, hệ thốngchúng tôi xây dựng có mục tiêu đọc được cảng đa dạng các loại chứng chỉ tiếngAnh khác nhau càng tốt, và hỗ trợ nhập liệu thông qua công nghệ OCR giúp trích

xuất chính xác họ tên, số định danh, ngày sinh, ngày thị, điểm thi, Từ đó hỗ trợ

Trang 14

cho các nhân viên nhà trường nhập dtr liệu tiếng Anh lên cơ sở dữ liệu một cách dễ

dàng, chính xác và tiết kiệm nhat.

Mục tiêu của khóa luận:

Chúng tôi đã làm một nghiên cứu về đề tài này ở học kỳ trước, tuy nhiên kết

quả nghiên cứu vẫn chưa được khả quan, vẫn còn một vài lỗi tồn đọng khi kiểm thử,

vì vậy ở khóa luận này, chúng tôi nêu lại những nghiên cứu đã làm trước và đặt mục

tiêu là khắc phục các lỗi còn tồn đọng và nâng quy mô của bộ dữ liệu lên

Trong khóa luận nảy, chúng tôi tập trung xây dựng thêm bộ dữ liệu ảnh

chứng chỉ tiếng Anh có tên là TOEIC dành cho hai kỹ năng nghe và đọc, sau đóthực hiện gán nhãn và cuối cùng là huấn luyện các mô hình học máy, học sâu dựa

trên thư viện Paddle Chúng tôi đặt ra các mục tiêu như sau:

+ Thứ nhất, tiến hành xây dựng thêm bộ dữ liệu có tên là UIT-IELC bao

gồm hơn 8,800 ảnh chứng chỉ TOEIC nghe và đọc và gan nhãn đủ tám trường thôngtin văn bản có trên chứng chỉ, nội dung văn bản bao gồm: Họ Tên, Ngày sinh, Sốđịnh danh, Ngày thi, Ngày hết hạn, Điểm thi nghe, Điểm thi đọc, Tổng điểm của thísinh dựa trên bảng điểm TOEIC nghe đọc, theo định dạng nhãn của mô hình Paddle

+ Thứ hai, thử nghiệm phương pháp tiếp cận huấn luyện mô hình YOLO vàcho kết quả đầu ra của YOLO vào mô hình nhận điện OCR có sẵn va chỉ ra các lỗi

+ Thứ ba, xây dựng các mô hình cho tác vụ Phát hiện văn bản dựa trên thư viện Paddle.

+ Thứ tư, xây dựng các mô hình Nhận diện văn bảng sau khi hoàn thành tác

vụ ở bước thứ ba cũng dựa trên thư viện Paddle.

+ Thứ năm, xây dựng mô hình PaddleOCR KIE (Key Information

Extraction) với tác vụ SER (Semantic Entity Recognition) nhằm Trích xuất các

thông tin vừa được nhận diện thành tắm trường văn bản đã nêu ở bước thứ nhất.

+ Cuối cùng, đánh giá kết quả của các mô hình và đánh giá hệ thống trích

xuất thông tin trên ảnh chứng chỉ TOEIC nghe và đọc trên bộ dữ liệu thực tế.

Trang 15

Doi tượng và phạm vi nghiÊn cứu:

Đối tượng: Bài toán trích xuất thông tin trên ảnh chứng chỉ tiếng Anh

Phạm vi: Khóa luận này của chúng tôi tập trung nghiên cứu các mô hình

nhằm trích xuất thông tin văn bản trên hình ảnh của các chứng chỉ điểm tiếng Anh.Chúng tôi tập trung nghiên cứu giải quyết những vấn đề như sau: Xây dựng bộ dữliệu ảnh chứng chỉ điểm TOEIC Nghe Đọc, sau đó nghiên cứu và chạy thử một vài

mô hình cho các tác vụ Xác định vị trí, Nhận diện và Phân loại các trường văn bản

trên bộ dir liệu chúng tôi đã xây dựng.

Kết quả nghiên cứu:

Sau khi hoàn thành khóa luận, chúng tôi đã đạt được kết quả như sau:

* Xây dựng được bộ dit liệu bao gồm hơn 8800 anh chứng chỉ ảnh TOEIC

nghe và đọc

* Huấn luyện mô hình YOLOv§ sẵn cho hai tác vụ là phát hiện vị trí của vănbản và phân loại các văn ban ấy thành 8 trường thông tin chính, sau đó cắt các vùng

văn bản ấy ra và cho vào các mô hình nhận điện EasyOCR đã có sẵn

- Huấn luyện và thử nghiệm các mô hình học sâu cho tác vụ Phát hiện vănbản trên bộ đữ liệu, mô hình SAST, DB++ của thư viện Paddle, và kết quả rất tốt

với mô hình DB++ đạt đến 99.59% với độ đo H-mean

- Huấn luyện và thử nghiệm các mô hình học sâu cho tác vụ Nhận diện vănbản trên bộ dữ liệu, bao gồm các mô hình: CRNN, SRN và ABINet của thư việnPaddle và đạt kết qua cao nhất là mô hình ABINet với độ chính xác (Acc_full seq)

đến 99.59%

- Huấn luyện và thử nghiệm CÁC mô hình Trích xuất thông tin khóa theohướng tiếp cận SER (Semantic Entity Recognition) thành tám trường văn bản chính,

đó là mô hình VI-LayoutXLM và mô hình SDMGR của thư viện PP-Structure và

đạt được kết quả rất cao đến 99.91% trên độ đo Fl-Score cho mô hình

VI-LayoutXLM

Trang 16

=> Chúng tôi sẽ tiếp tục phát triển, nâng quy mô bộ đữ liệu lên và phát triển

thêm các mô hình đề có thể đọc được nhiều loại chứng chỉ cùng lúc trong

một tâm ảnh.

Câu trúc của phan nội dung khóa luận:

Khóa luận này của chúng tôi bao gôm 7 chương với các nội dung chính ở

từng chương như sau:

* Chương 1: Tổng quan về đề tài

Nội dung của chương này giới thiệu về hiện trạng nghiên cứu của công nghệOCR va ứng dụng của nó trong cuộc sống hiện nay, và trình bày sự quan trọng của

ngoại ngữ, các chứng chỉ điểm, mong muốn về tính ứng dụng của đề tài và hiện

trạng nhập liệu ở các cơ quan hiện nay Và chúng tôi còn trình bày một số công

trình nghiên cứu mà chúng tôi đã tham khảo trong quá trình chúng tôi nghiên cứu

cách xác định bài toàn cũng như cách giải quyết bài toán chính của khóa luận này

« Chương 2: Bài toán trích xuất thông tin trên ảnh chụp chứng chi

TOEIC Nghe và đọc.

Chương này trình bày cách xác định bài toán, đầu vào cũng như đầu ra của

bài toán, nêu những thách thức, vân dé cân giải quyét và hướng giải quyết của nó.

Trang 17

* Chương 3: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên

ảnh chứng chỉ TOEIC Nghe và đọc.

Trong chương này, chúng tôi trình bày chỉ tiết cách chúng tôi tạo ra các điểm

dữ liệu, cách chụp ảnh dữ liệu cũng như cách gán nhãn cho bộ dữ liệu ảnh chứng chỉ TOEIC nghe và đọc.

* Chương 4: Cơ sở lý thuyết về hướng tiếp cận và giải quyết bài toán

chính.

Đến chương này, chúng tôi trình bày chỉ tiết về các phương pháp tiếp cậncũng như các mô hình mà chúng tôi dùng huấn luyện cho ba tác vụ là Phát hiện,Nhận diện và Trích xuất thông tin khóa trên ảnh chứng chỉ tiếng Anh

¢ Chương 5: Cai đặt, thực nghiệm và đánh giá.

Trình bảy cách thức cài đặt các tham số cho việc huấn luyện mô hình, cách

thức CÀI ĐẶT cho bài toán Trích xuất thông tin trên ảnh chụp chứng chỉ TOEICnghe và đọc của chúng tôi và đánh giá kết quả dựa trên các mô hình đã huấn luyện,

và hệ thống của chúng tôi

* Chương 6: Kết luận và hướng phát triển

Tổng kết lại những kết quả đã đạt được và nêu những hướng phát triển chúngtôi sẽ tiếp tục thực hiện sau khi hoàn thành khóa luận này

Trang 18

CHƯƠNG 1 TONG QUAN VE DE TÀI.

1.1 Giới thiệu về đề tài

Tiếng Anh là một ngôn ngữ quốc tế được sử dụng rộng rãi trên toàn thế giới.Theo số liệu của Educational Testing Service (ETS), tổ chức hàng đầu về biên soạnchương trình kiểm tra và đánh giá ngôn ngữ, hàng triệu người trên toàn cầu đangtận dụng kết quả của các bài thi đánh giá năng lực tiếng Anh dé đo lường và xácđịnh trình độ ngoại ngữ cá nhân, kết quả của những bài thi này không chỉ là một

đánh giá về khả năng sử dụng tiếng Anh mà còn trở thành một tiêu chí quan trọng

trong quá trình tuyển dụng của nhiều doanh nghiệp, tạo ra cơ hội mở rộng cho sựphát triển sự nghiệp và tìm kiếm cơ hội du học Trong danh sách những bài kiểm tra

đó, Test of English for International Communication (TOEIC) nổi bật như một bàikiểm tra phô biến và được sử dụng rộng rãi trên hon 160 quốc gia trên thé giới.TOEIC không chỉ đơn thuần là một bài kiểm tra, mà là một phương tiện quan trọng

để đánh giá khả năng sử dụng tiếng Anh trong môi trường quốc tế, phản ánh chân

thực kỹ năng ngôn ngữ của người thi Tại Việt Nam, kết quả TOEIC nghe và đọc đã

trở thành một tiêu chuẩn dau ra quan trọng đối với hầu hết các trường Đại học, sinhviên không chỉ nắm bắt kiến thức chuyên ngành mà còn cần có khả năng sử dụngtiếng Anh một cách linh hoạt và hiệu quả, điều này đặt ra một thách thức lớn, đồngthời mở ra nhiều cơ hội khi có kết quả TOEIC xuất sắc Không chỉ ảnh hưởng đếnsinh viên, mà kết quả TOEIC cũng chịu tác động lớn trong lĩnh vực tuyên dụng của

các doanh nghiệp trong nước, việc sử dụng TOEIC như một tiêu chí đánh giá khả

năng sử dụng tiếng Anh hiệu quả giúp đảm bảo răng nguồn nhân lực có đủ kỹ năng

dé thích ứng và giao tiếp trong môi trường làm việc ngày càng quốc tế hóa Kết quaTOEIC nghe đọc không chi là một con số trên bảng điểm, mà là một phản ánh chínhxác về khả năng hiểu và sử dụng tiếng Anh của người thi trong cả bốn kỹ năng lànghe, nói, đọc và viết, sự linh hoạt này làm cho TOEIC nghe đọc trở thành một

công cụ đa chiều, không chỉ đánh giá trình độ mà còn cung cấp thông tin chỉ tiết về

khả năng giao tiếp thực tế.

Trang 19

"¬ 1 :

CAk-elfmgrseerieesirlIẤ số vata MO iain Lee Giana Caren Oh Estey Wee WS

1 NA, eset, ape gee ecient tL te aS

Tuy nhiên, ở trong thời đại hiện nay, nhu cầu trích xuất thông tin từ tài liệu,

văn bản, quét hoặc chụp nhanh chóng và chính xác là ngày cảng quan trọng Quy

trình này không chỉ giúp các cơ quan, tô chức tiết kiệm thời gian mà còn đảm bảotính chính xác và độ tin cậy của đữ liệu Tuy nhiên, đề thực hiện công việc nảy mộtcách hiệu quả và chính xác, doi hỏi sự khắt khe và chuyên nghiệp, đặc biệt là khi

nói đến việc xác định từng ký tự và trường thông tin quan trọng Mặt khác, các máyscan hiện nay chỉ có thé quét các hình ảnh và trả về chúng ở hình dang số hóa,

không thé đọc được những thông tin cần thiết dé trích xuất

May mắn thay, với sự phát triển mạnh mẽ của công nghệ học sâu, máy tính

ngày nay có khả năng hỗ trợ con người trong việc xác định vị trí, nhận diện và phân

loại thông tin văn bản từ các tài liệu tiếng Anh một cách nhanh chóng và chính xác

Công nghệ này không chỉ giúp giảm gánh nặng công việc cho nhân viên mà còn

đảm bảo tính chính xác cao đến từng ký tự, giúp người dùng dễ dàng xác minhthông tin một cách chính xác và thuận tiện Sự kết hợp giữa máy tính, đặc biệt là

công nghệ học sâu và quá trình quản lý thông tin từ chứng chỉ TOEIC nghe đọc có

thê mang lại nhiều lợi ích, việc áp dụng công nghệ giúp tăng cường hiệu suất, giảm

nguy cơ sai sót, và tôi ưu hóa quy trình làm việc Dong thời, việc nhanh chóng xác

Trang 20

định và chính xác thông tin từ tài liệu giúp tăng cường tính minh bạch và tin cậy

trong quá trình quản lý thông tin chứng chỉ TOEIC nghe và đọc Gần đây, việc nhậndiện và trích xuất các thông tin từ hình ảnh thu hút được sự quan tâm lớn từ cộngđồng nghiên cứu và đây cũng là bài toán day tính thách thức bởi vi anh có thé bị

mờ, không chất lượng do thiếu ánh sáng gây khó khăn trong quá trình xử lý Tuynhiên, với sự phát triển và tốc độ xử lý của các mô hình học máy, vấn đề nhận diệnvăn bản đã được giải quyết bằng nhiều phương pháp Một trong những phương

pháp này là phát hiện các ky tự quang học riêng lẻ (Optical Character Recognition —

OCR) và sau đó kết hợp chúng thành các từ có nghĩa phục vụ cho bài toán Tríchxuất thông tin khóa (Key Information Extraction — KIE) — Có thé thấy công nghệOCR hiện nay đã được ứng dụng rộng rãi trong đời sống, trong nhiều lĩnh vực, đã

có rất nhiều các công bố khoa học đã được đăng tại những hội nghị lớn nhỏ uy tíntrên toàn thế giới

Vì những lý do được nêu trên, trong khóa luận này, chúng tôi tiến hành Xâydựng bộ dữ liệu và hệ thống cho bài toán trích xuất thông tin trên hình ảnh Chứngchỉ TOEIC nghe đọc mà chúng tôi tự thu thập bằng cách sử dụng các kỹ thuật xử lýảnh, phát hiện và trích xuất thông tin trên bộ dữ liệu bao gồm hình ảnh của cácchứng chỉ TOEIC nghe đọc do chúng tôi thu thập Chúng tôi mong muốn rằng giải

pháp này sẽ giúp các trường đại học, doanh nghiệp, tập đoàn tiết kiệm thời gian và

giảm thiểu sai sót trong quá trình quản lý thông tin Đề tài trích xuất thông tin từảnh chụp chứng chỉ tiếng Anh này của chúng tôi có đầu vào là hình ảnh các chứngchỉ điểm qua các cuộc thi tiếng Anh, tuy nhiên, chúng tôi chỉ mới xây dựng được bộ

dữ liệu bao gồm hơn 8.800 ảnh chụp chứng chỉ TOEIC nghe đọc, chưa bao gồm cácchứng chỉ khác, và chúng tôi cũng đã xây dựng một hệ thống trích xuất thông tin

dựa trên sự huấn luyện của bộ dir liệu chứa các ảnh chụp chứng chỉ TOEIC ngheđọc này, hệ thống của chúng tôi giải quyết ba tác vụ cơ bản như sau: (1) phát hiện,

xác định vị trí văn bản trên ảnh chứng chỉ có chứa văn bản, (2) nhận diện các văn

bản vừa được xác định vi trí ở tác vụ (1), (3) sau đó phân loại văn bản đã nhận diện

được ở tác vụ (2) xuất ra thành tám trường thông tin của chứng chỉ, đó chính là: Họ

10

Trang 21

tên, Ngày sinh, Số định danh, Ngày thi, Ngày hết hạn chứng chỉ, Điểm thi Nghe,

Điểm thi Đọc và Tổng điểm

1.2 Tính ứng dụng và đóng góp của đề tài

Với những nghiên cứu ở trong khóa luận này của chúng tôi, chúng tôi mong

muốn răng mình sẽ mang đến một số đóng góp nhỏ cho cộng đồng xử lý ảnh trên

toàn thế giới nói chung cũng như ở nước ta nói riêng, đóng góp cho cộng đồng

nghiên cứu bộ dữ liệu đề tiếp tục phát triển thêm những bai toán mới và làm phongphú thêm cho bộ dữ liệu hình ảnh trong lĩnh vực trích xuất thông tin Và tôi mongmuốn đề tài này sẽ được ứng dụng rộng rãi ở các trường đại học, các cơ quan, tổ

chức, khi mà các trường đại học dùng các chứng chỉ điểm tiếng Anh dé xét chuẩn

ngoại ngữ đầu ra, hoặc có thé dùng làm tiêu chí xét điểm chuẩn đầu vào Các cơquan, t6 chức dùng các chứng chỉ điểm tiếng Anh dé xét bậc hạng lương dành chonhân viên, hoặc với mục đích đọc thông tin dé tự động điền vào CV dé xin việc Cụthể hơn, đó là:

* Trong lĩnh vực quản lý nhân sự, quá trình tự động hóa việc trích xuất thông

tin từ hình ảnh chứng chỉ tiếng Anh đóng vai trò quan trọng trong việc nâng cao

hiệu suất của hệ thống quản lý thông tin nhân sự Cụ thé, thông tin quan trọng nhưbăng cấp và chứng chỉ chuyên môn có thể được tự động xác định và nhập vào hệthống một cách hiệu quả Trong quá trình tuyển dụng, ứng dụng này giúp đánh giá

kỹ năng và trình độ của ứng viên một cách chính xác và nhanh chóng.

¢ Trong lĩnh vực giáo dục, việc tự động trích xuất thông tin từ chứng chỉ làm

nền tảng cho quản lý học vụ hệ thống Các thông tin về học vụ của sinh viên, bao

gồm cả đăng ký môn học và xác nhận tốt nghiệp, có thể được đánh giá và quản lýmột cách tự động và hiệu quả Hơn nữa, dữ liệu từ chứng chỉ cung cấp nguồn thôngtin quan trọng dé hỗ trợ quá trình tư vấn nghề nghiệp, định hình sự nghiệp, và dé

xuất các chương trình đào tạo hoặc khoá học phù hợp

11

Trang 22

* Trong lĩnh vực ngân hàng và tài chính, việc tự động xác minh thông tin từ

chứng chi đóng vai trò quan trọng trong việc cải thiện quá trình đánh giá rủi ro va

quản lý hồ sơ khách hàng Thông qua việc kiểm tra và xác minh danh tính dựa trên

thông tin từ chứng chỉ, ứng dụng này không chỉ tăng cường độ chính xác mà còn

nâng cao chất lượng quản lý và đánh giá khách hàng trong lĩnh vực tài chính

> Tiểu kết: Sau những căn cứ ở trên, chúng ta thay được hai quan điểm.Một là tiếng Anh đang đóng vai trò ngày một quan trọng trong cuộc sống hiện nay

của mỗi chúng ta, và chứng chỉ điểm tiếng Anh đặc biết giúp chúng ta tự đánh giá

về khả năng ngoại ngữ của bản thân, cũng như có thé một chương trình dao tạo tốt,

hay là một công việc với mức thu nhập mà ta mơ ước Hai là, công nghệ thông tin

nói chung và bài toán OCR nói riêng đã và đang được thúc day việc nghiên cứu vàứng dụng trong cuộc sông của chúng ta, góp phan tạo ra nhiều giá trị cho cuộc sông

con người Đồng thời, qua một quá trình dài nghiên cứu, xây dựng đề tài này, chúngtôi mong muốn đề tài của mình sẽ được áp dụng trong cuộc sống, đặc biệt ở thời kỳ

chuyên đổi số như ngày nay

1.3 Các công trình nghiên cứu liên quan đến đề tài.

Trong cộng đồng nghiên cứu quốc tế, công nghệ OCR đã trở thành một lĩnhvực đầy triển vọng và thu hút sự quan tâm của nhiều nhóm nghiên cứu Vì vậy hiệnnay, đã có nhiều bộ dữ liệu hình ảnh được xây dựng và nhiều công bố nghiên cứukhoa học nhằm phục vụ cho bài toán Trích xuất thông tin dựa trên công nghệ OCR

Những bộ dữ liệu phục vụ cho bài toán trích xuất thông tin trên ảnh sử dụng

công nghệ OCR có thể được chia ra thành hai loại là dữ liệu ảnh có cấu trúc vănbản, bán cấu trúc văn bản và dữ liệu ảnh không có cấu trúc văn bản, đữ liệu không

có cấu trúc văn bản là những hình ảnh có văn bản nhưng văn bản thưa thớt, không

có cấu trúc hàng phù hợp, nền phức tạp, có vị trí ngẫu nhiên trong hình ảnh vàkhông có phông chữ chuẩn, dữ liệu có cấu trúc thi ngược lại, là kiểu văn bản đánhmáy, không phức tạp, có phông chữ, cỡ chữ đồng nhất, có vị trí cỗ định Một số bộ

12

Trang 23

dữ liệu đáng chú ý có thé ké đến như: Bộ dữ liệu hóa đơn bằng tiếng Anh SROIE

được công bố trong cuộc thi ICDAR 2019 [1] là một bộ dữ liệu bán cau trúc văn

bản, bộ dit liệu hóa don bang tiếng Việt (Vietnamese Receipts) là bộ dữ liệu chính

của cuộc thi MC-OCR được đề cập trong bài báo “MC-OCR Challenge 2021: to-end system to extract key information from Vietnamese Receipts” công bồ tronghội nghị RIVF 2021 MC-OCR [2] cũng là một bộ đữ liệu bán cấu trúc về văn bản

End-Về dit liệu không có cấu trúc văn bản, có thé kế đến như bộ dit liệu Total-Text [3],

bộ dữ liệu Incidental Scence Text ở trong cuộc thi ICDAR2015 [4], bộ dữ liệu

English COCO-TEXT ở trong cuộc thi ICDAR2017 [5] và bộ dữ liệu Vi-BCI được

đăng ở hội nghị IDC2022 [6] bao gồm hơn 7700 hình ảnh bìa của những quyên sách

được phát hành ở Việt Nam và đã được gán nhãn văn bản và chia ra thành 4 trường

cụ thê như Tiêu đề, Tên tác giả, Nhà xuất bản và Những nội dung khác Đa số các

bộ dữ liệu được nêu trên được sử dụng công nghệ OCR dé phat hién va nhan dién

Hình 2: Các vi dụ về văn bản phi cấu trúc trên hình ảnh trong bộ dữ liệu TotalText

13

Trang 24

shih A

a AY

word_ 1 png word_2 png word_3 png word_4 png

pais =

word_5 png word_6 png word_7 png

word_& png Word_9.png word_1@.png

word 1

word 2

word 3 word 4.

word _5

word 6.

word _ 7 word _ 6.

word 9.

-png,

-png, png, -png, png,

-png,

pne, png,

Hình 3: Vi dụ về hình anh và bộ nhãn cho tác vụ Nhận diện van bản trong bộ dữ

liệu Incidental Scene Dataset, ICDAR 2015

1801, 249, 1862, 255, 1062,276, 1001, 270, #f#

980,37,1041,27, 1842,53, 981,63 ,Sauth

981,86,1074, 75, 1078, 130, 985, 134, L14

984 ,185, 1055 ,182, 1056,205, 99, 202 ,#14-01

Hình 4: Ví dụ về hình và bộ nhãn cho tác vụ Phát hiện văn bản trong bộ dữ liệu

Incidental Scene Text, ICDAR2015

Cho đến nay, việc áp dụng các mô hình học sâu dé phát hiện ky tự cũng dat

được hiệu suât cao hơn va tiêu tôn thời gian xử ly thâp hon so với học máy truyén

thống, và nhiều phương pháp đột phá được công bố để phục vụ các công trình

nghiên cứu phát hiện, nhận diện và trích xuât văn bản trong hình ảnh các tài liệu câu

trúc văn bản hay ban cấu trúc văn bản chang hạn như biên lai, thẻ ngân hàng, danh

thiếp, hóa đơn, và đạt được độ chính xác cao Vi dụ, mô hình CRAFT [7] giúp

14

Trang 25

Hình 5: Ví du về van ban bán cấu trúc trên hình ảnh trong bộ dữ liệu hóa đơn tiếng

Việt (Vietnamese Receipts) của cuộc thi MC-OCR RIVF 2021

phát hiện các vùng văn bản bằng cách phát hiện từng ký tự và liên kết chúng lại với

nhau Hay mô hình YOLO [8] đã đề xuất một phương pháp khác có thé phát hiện

các đối tượng trong thời gian thực một cách hiệu quả Với tác vụ nhận diện văn bản,một nhóm đã dựa trên mạng CRNN được đăng ở tập kỷ yếu của hội nghị CONF-SPML 2024 [9] dé nhận diện văn bản trong những hình anh của các trận đấu bóng

đá, và mô hình Tesseract của Google được công bố tại hội nghị DCA 2012 [10]cũng dùng để nhận diện mẫu văn bản; ở trong nước ta, có một mô hình rất hay được

sử dụng dé nhận diện các từ, ký tự quang học, văn bản tiếng Việt có tên là VietOCR[11] sử dụng ngôn ngữ lập trình Java, có hỗ trợ sẵn với giao diện front end; và một

số mô hình khác Trong cuộc thi trích xuất thông tin từ ảnh hóa đơn tiếng Việt

(MC-OCR 2021), một nhóm nghiên cứu đã sử dụng các mô hình CRAFT va

VietOCR cho tác vụ nhận diện và phát hiện văn bản tiếng Việt và sử dụng hai môhình là SVM và PhoBERT [12] để phân loại văn bản thành các trường thông tin cần

trích xuất [13] Với bộ dữ liệu Vi-BCI, nhóm tác giả đã áp dụng mô hình SAST [14]của thư viện PaddleOCR, một thư viện mã nguồn mở cho tác vụ phát hiện văn bản

và mô hình TransformerOCR của VietOCR cho tác vụ nhận diện thông tin có trên

hình ảnh bìa cuốn sách [6]

15

Trang 26

Thu ngân cast —

Gò Vap||iNgay 30.03.2019|I|Tiền Thanh

Hình 6: Mô tả đầu vào và đầu ra của task (2) trích xuất 4 thông tin chính trên hìnhảnh hóa đơn tiếng Việt trong cuộc thi MC-OCR RIVF 2021 Nguồn: RIVF2021

MC-OCR Competition.

Sau khi hoàn thành tác vụ phát hiện và nhận diện thông tin văn bản trên hình

ảnh, cần phải có một tác vụ cụ thê hơn đề giải quyết bài toán trích xuất thông tin

trên các loại dữ liệu có cấu trúc văn bản hoặc bán cấu trúc, ví dụ như hóa don, tacần phân loại văn bản thành các trường thông tin như tên cửa hàng, địa chỉ, tổng số

tiền, ngày lập hóa đơn đối với bộ dit liệu hóa đơn; hoặc với dữ liệu là ảnh Chứng

minh nhân dân hoặc căn cước công dân, ta cần phải phân loại văn bản thành tên, SỐ

CMND/CCCD, quê quan, dia chỉ, và các trường thông tin khác Vi dụ, ở bộ dir liệu

Vi-BCI, bài báo đầu tiên chỉ đề cập đến việc phát hiện và nhận diện văn bản trên

hình ảnh bìa sách [6], nhưng chưa thực hiện phân loại các văn bản đó thành 4

trường thông tin cụ thể đã nêu trên, một nhóm nghiên cứu khác đã viết một bài báo

được chấp nhận đăng tại hội nghị RIVF 2023 [15] nhằm phân loại các trường văn

bản thành 4 trường cụ thé và đạt độ kết quả là 0.0973 khi đánh giá theo CER trên

mô hình Bi-LSTM Hình 7 dưới đây mô ta đầu vào và dau ra của bài toán trích xuất

thông tin trên anh bìa sách dựa trên bộ dữ liệu VI-BCI.

16

Trang 27

Đâu vào Đâu ra

C— Món Xưa VỊ Nay||/Top Chef Việt Nam Võ

AJ, ÑẨ +51 oe RE

NỮIIINÉT DUGNG ĐẠI TRONG AM THỰC

VIỆT

aN ale ill

Hinh 7: Dau vao va dau ra cua bai toan trich xuat thong tin trén hinh anh bia sach.

Nguồn: Nhóm tac gia

Với tác vu phân loại văn bản thành các trường thông tin chính, hiện nay có

nhiều hướng tiếp cận, tuy nhiên trong những năm gần đây, hầu hết các nhóm nghiêncứu đã kết hợp các đặc điểm multi-modal dé nâng cao tính chính xác của mô hình

Key Information Extraction, các phương pháp đó như sau:

- Grid-based: Các mô hình này tập trung chủ yếu vào việc hợp nhất các

thông tin multi-modal ở cấp độ hình ảnh, thường cho dir liệu có cấu trúc

văn bản và không bị phức tạp, ví dụ như mô hình Chargrid [16]

- Token-based: Các mô hình này đề cập đến mô hình NLP như Bert, mã hóa

vị trí, tầm nhìn và các đặc trưng khác vào mô hình multi-modal va tiến

hành huấn luyện trước trên các bộ dữ liệu lớn dé khi đưa ra huấn luyện ởcác tác vụ nhỏ tiếp theo, chỉ cần một bộ dữ liệu nhỏ với bộ nhãn thì sẽ cóđược một mô hình có kết quả tốt, ví dụ như các mô hình LayoutLM [17],

LayoutLMv2 [18], LayoutXLM [19], Structext [20].

17

Trang 28

- GCN-based: Các mô hình này sẽ cố gắng học thông tin về cấu trúc giữa

hình anh và các ký tự dé giải quyết van dé trích xuất thông tin ở các tập dữliệu không được huấn luyện, chăng hạn như GCN [21], SDMGR [22] va

các thuật toán khác.

- End-to-end based: Các mô hình nay đưa công nghệ OCR và KIE vào một

mạng chung để học và tăng cường lẫn nhau trong quá trình học Ví dụ như

mô hình TRIE [23]

Do tính chất đề tài nghiên cứu của chúng tôi có nhiều điểm tương đồng vớicác đề tài nghiên cứu ở trên về các kỹ thuật phát hiện, nhận diện và phân loại văn

bản, nhất là đối với bài toán Trích xuất thông tin khóa trên hóa đơn tiếng Việt, vì

vậy chúng tôi đã tham khảo, học hỏi và áp dụng một sỐ phương pháp đã được trìnhbày ở trên vào khóa luận này nhằm đạt được kết quả tốt nhất cho bài toán chính cầngiải quyết của chúng tôi

18

Trang 29

CHƯƠNG 2 BÀI TOÁN TRÍCH XUẤT THÔNG

TIN TREN ANH CHUNG CHỈ TOEIC NGHE VA

DOC.

2.1 Đặt van dé và xây dựng bài toán chính của đề tài

Ban chất của van dé số hóa các chứng chỉ tiếng Anh nói chung hay chứng chiTOEIC Nghe và đọc nói riêng là bài toán trích xuất văn bản trên hình ảnh có chứavăn bản, bài toán này đang được rất nhiều nhà nghiên cứu quan tâm trong thời gian

gần đây, bằng chứng là nhiều nghiên cứu đã được công bố, cũng như được ứng

dụng rộng rãi hơn trong thực tế Cu thé là, bài toán này sử dụng công nghệ Nhậndiện ký tự quang học (OCR) và xử lý ngôn ngữ tự nhiên (NLP) nhằm tự động hóaquá trình trích xuất thông tin về sách từ ảnh giúp tiết kiệm đáng kể chỉ phí nhân sự,

thời gian mà mang lại sự hiệu quả rât cao.

Quay trở lại với bài toán trích xuất thông tin trên ảnh chứng chỉ điểm TOEICNghe và đọc, bản chất của bài toán này là bài toán trích xuất các thông tin chính,

thông tin quan trọng trên hình ảnh (Key Information Extraction) Chúng tôi xác

định đầu vào (Input) và dau ra (Output) chính của bài toán trích xuất thông tin này

như sau:

* Đầu vào: Một ảnh chụp chứng chỉ điểm TOEIC Nghe doc

+ Yêu cầu của đầu vào: Hình ảnh rõ ràng, sắc nét, không bị mờ, không bixoay nghiêng quá 90 độ, mỗi hình ảnh chỉ chứa duy nhất một chứng chỉTOEIC Nghe đọc và hình ảnh có thé chứa các văn bản không liên quan khác ở

Trang 30

+ Yêu câu của dau ra: Các chuôi văn bản vê thông tin chứng chi vừa được

- Họ tên: Tran Pham Gia Phu

Hình 8: Ví du mô tả đầu vào và đầu ra cho bài toán trích xuất thông tin từ anh

chứng chỉ TOEIC Nghe và đọc của chúng tôi.

Ta có thé chia bài toán này thành ba tác vụ nhỏ, đó là: (4) Phát hiện, xác định

vị trí có văn bản trên hình ảnh chứng chỉ TOEIC nghe va đọc (Text Detection), (ii)

Nhận diện các văn bản sau khi thực hiện xong thao tác Phát hiện (i) và xuất ra dưới

dạng chuỗi (Text Recognition), (iii) Phân loại các chuỗi văn bản vừa được nhận

dạng thành đúng chính xác tám trường thông tin Tên, Ngày sinh, Số định danh,

Ngày thi, Ngày hết hạn chứng chỉ, Điểm thi nghe, Điểm thi đọc và Tổng điểm

(Field Classfication) Ở trong khóa luân này, chúng tôi có 2 hướng tiếp cận: Một làText Detection kết hợp với Field Classification sau đó tiếp tục xử ly TextRecognition, hai là Text Detection đến Text Recogniton cuối cùng là xử lý Field

Classification Ở hướng tiếp cận thứ nhất, chúng tôi sẽ sử dụng mô hình YOLOv8

cho hai tac vụ là Text Detection và Field Classification, và EasyOCR cho tác vụ

Text Recognition với đầu vào là các ảnh cắt là đầu ra của mô hình YOLOv8, tuy

nhiên hướng tiếp cận này có một vài lỗi rất nghiêm trọng (lỗi sẽ được mô tả chỉ tiết

ở phần phân tích lỗi chương 5), vì thế chúng tôi chuyền sang hướng tiếp cận thứ hai

20

Trang 31

Đâu vào và dau ra của từng tác vụ ở moi hướng tiêp cận được mô tả và đính kém hình minh họa như sau:

Hướng tiếp cận thứ nhất:

(i) + (1m) Text Detection and Field Classfication: Xác định vi trí của các văn

bản cần trích xuất trên ảnh chứng chi TOEIC nghe đọc

* Đầu vào: Một hình ảnh chứa một chứng chỉ TOEIC nghe đọc

» Đâu ra: Tọa độ các diém cua Bounding box chứa các văn ban đó, các văn ban đó đã được phân loại thành tám trường thông tin.

(ii) Text Recognition: Nhận diện văn ban đã được xác định vi trí và phân loại

ở tác vu (i) + (1H)

» Đâu vào: Các hình anh đã được cat dựa vao tọa độ dau ra ở tác vụ (1) + (1)

<Input: TOEIC LR Certificate> <Text Detection and Field Classification>

Ho tén: Tran Pham Gia Phu

Số định danh: 052202011241

Ngày sinh: 2002/07/14 Ngày thi: 2022/05/26

Hình 9: Minh họa cho quy trình của hướng tiếp cận thứ nhất

21

Trang 32

Hướng tiếp cận thứ hai:

() Text Detection: Xác định vị trí của các văn bản cân trích xuât trên ảnh

chứng chỉ TOEIC nghe đọc

- Đầu vào: Một hình ảnh chứa một chứng chỉ TOEIC nghe đọc

- Đầu ra: Tọa độ các điểm của Bounding box chứa các văn bản đó

(ii) Text Recognition: Nhận diện văn bản đã được xác định vi trí ở tác vụ (i)

+ Đầu vao: Các hình anh đã được cắt ra dựa vào tọa độ đầu ra ở tác vụ (i)

* Đầu ra: Các chuỗi ký tự chứa van ban vừa được nhận diện

(iii) Field Classification:

» Đâu vào: Cac chuoi ký tự dau ra vừa được nhận dang ở tac vu (il) va các đặc trưng của văn bản đó như vi trí (Position), không gian (Layout, Spatial) trên anh

- Đầu ra: Nhãn phân loại của các chuỗi ký tự (Name, ID, DOB, TestDate, )

<Input: TOEIC LR Certificate> <Text Detection>

| Tia Phaco Gia Pt | Geen (asl

=) c— IS _=m_l—=

=<Output: Results>

Hình 10: Minh họa cho quy trình của hướng tiếp cận thứ hai

22

Trang 33

Ở tác vụ (iii), với các mô hình KIE thông thường, sẽ dùng hướng tiếp cận

NER (Named Entity Recognition) dé phân loại các văn bản, tuy nhiên, NER thường

sử dụng nội dung của văn bản dé phân loại, sẽ bỏ qua các thông tin về vị trí, không

gian, đặc trưng hình ảnh Vì vậy đầu vào ở tác vụ này của chúng tôi khác với các

mô hình KIE thông thường khác

2.2 Động lực và thách thức cho việc nghiên cứu bài toán

Không thể phủ nhận rằng hiện nay công nghệ OCR được nghiên cứu và ứngdụng rộng rãi trong thực tẾ, tuy nhiên bên cạnh đó, có không ít những thuận lợi và

khó khăn của các nhà nghiên cứu, khó khăn cho những nhà nghiên cứu tiên phong,

và càng đến thế hệ nghiên cứu sau càng ít sự thách thức và nhiều động lực nghiêncứu hơn Ví dụ như Dữ liệu là điều kiện cần và thiết yếu dé thực hiện bất kỳ mô

hình học máy nảo, dữ liệu cho bài toán OCR sẽ là dữ liệu hình ảnh có chứa văn bản,

tuy nhiên, với các nhà nghiên cứu đi trước, muốn thực hiện một mô hình nào đó, họphải tự đi thu thập và xử lý, vì đữ liệu không hề có san cho nên sẽ mat một khoảngthời gian rất lâu đề thu thập và xây dựng, và họ phải tự thiết kế các mô hình phùhợp để huấn luyện trên các bộ dữ liệu đã thu thập Chúng tôi cũng như vậy, hiện

trạng là chúng tôi chưa từng đọc được một công trình nghiên cứu trên bộ dữ liệu

nào về các chứng chỉ TOEIC nghe và đọc, ké ca, IELTS hay TOEFL, hoặc các

chứng chỉ ngoại ngữ khác, có thé có nhưng vì dữ liệu mang tinh chất bao mật, riêng

tư (Vì có chứa thông tin cá nhân trên tam chứng chi) cho nên không được phổ biến

ra cộng đồng, bởi việc sử dụng thông tin cá nhân khi chưa được sự cho phép là bấthợp pháp, từ đó đặt ra thách thức thúc đây chúng tôi cần xây dựng một bộ đữ liệuảnh chứng chỉ tiếng Anh và tự gan nhãn dé làm đầu vào cho các mô hình chúng tôi

đề xuất, thách thức này làm cho chúng tôi mat khá nhiều thời gian và công sức dé

hoàn hành Bên cạnh đó chúng tôi đã có tham khảo và thu thập dữ liệu chứng chỉ

TOEIC nghe và đọc trên Internet, tuy nhiên với số lượng không nhiều cộng vớiphần ảnh bị ảnh hưởng bởi các yếu tô bên ngoài như điều kiện ánh sáng khiến ảnh

bị tối, ảnh bị mờ, bị nhòe, bị các watermark được thiết kế đè lên, bị che đi một phần

23

Trang 34

các thông tin cá nhân quan trọng như số định danh, bị xoay dọc xoay ngang khiến

nội dung trong ảnh không thể đọc được, một số ít ảnh bị cắt xén khiến thông tin

được trích xuất bị thiếu, ảnh hưởng đến chất lượng đầu ra Cùng với đó, một sỐ ký

tự gần giống nhau do cùng một phông chữ, cỡ chữ nhỏ nên dé gây nhầm lẫn trongquá trình trích xuất dẫn đến mô hình đã đọc nhằm và thông tin được trích xuất đãgặp một số lỗi không mong muốn

Tuy nhiên, vẫn có một số thuận lợi nhất định giúp cho chúng tôi dé dànghoàn thành nghiên cứu này, đó là dir liệu của chúng tôi là một loại dữ liệu có cấutrúc văn bản hoàn chỉnh, có nghĩa là mỗi ảnh chỉ khác nhau ở nội dung văn bản cầntrích xuất, chứ không khác nhau về vị trí, hơn nữa là phông chữ được cho là cốđịnh, đơn giản, dé đọc, và nội dung văn ban đa số là các ký tự sỐ nguyên từ 0 đến 9,duy nhất chỉ có trường thông tin Tên là ở chuỗi ký tự bảng chữ cái, mà mặc dù làtên của người Việt ta nhưng các ký tự ấy không có dấu như các ký tự tiếng Việt và

mặc định là tên người Việt mình sẽ không có các ký tự ‘J’, “W’, ‘Z’’, vì vậy nên mô

hình nhận diện sẽ đỡ nhầm lẫn hơn Ở một khía cạnh khác, chúng tôi còn nhận thayđộng lực nghiên cứu từ các nhà phát triển ở các đề tài trước sử dụng công nghệ

OCR, chúng tôi chỉ cần ứng dụng, kế thừa lại mô hình của họ và điều chỉnh tham

sô, cho huân luyện trên bộ dữ liệu của chúng tôi.

2.3 Các phương pháp giải quyết bài toán

Dựa vào cách đặt van dé, phân tích điều kiện cần và nội dung của bài toáncũng như những thuận lợi và khó khăn, dé giải quyết bài toán chính, chúng tôi dé

xuất các bước dé giải quyết các van dé này như sau:

» Xây dung bộ dit liệu chứa ảnh các chứng chỉ TOEIC nghe đọc và bộ dữ

liệu đạt hơn 8,800 điểm dữ liệu, bộ dit liệu phải đa dạng góc nhìn, đa dạng chứng

chỉ TOEIC với nhiều văn bản khác nhau và hoàn thành việc gán nhãn theo định

dạng định dạng PaddleOCR ở cả ba tác vụ (1), (11) va (11) cho bộ dữ liệu Còn với

định dang PaddleOCR, ở tác vụ (1) nhãn là tọa độ của bốn đỉnh bounding box chứa

van bản cân xác định vi trí, sang tac vụ (ii) nhãn là nội dung của chuôi ky tự cân

24

Trang 35

được nhận diện và với tác vụ (iii) nhãn là các lớp của văn bản cần trích xuất đã

được phân thành tam nhãn, đó là các nhăn (NAME, DOB, ID, TESTDATE,

VALIDUNTIL, LISTENINGSCORE, READINGSCORE và TOTALSCORE)

- Huan luyện mô hình YOLOv8 cho tác vu phát hiện van bản và phân loạivăn bản, sau đó sử dụng mô hình nhận diện văn bản có san như EasyOCR dé nhậndiện các văn bản được xác định vi trí bằng mô hình YOLOv8

* Huấn luyện các mô hình SAST, DB++ của PaddleOCR (PP-OCR) cho tác

vụ (i) xác định vi trí văn bản cần trích xuất trên ảnh chứng chỉ TOEIC nghe và đọc

* Huấn luyện các mô hình CRNN, SRN và ABINet của Paddle cho tác vụ (ii)

nhận diện văn bản cần trích xuất trên ảnh chứng chỉ (Được xác định vị trí bang tac

vu (i))

* Huan luyện mô hình VI-LayoutXLM là một mô hình multimodal của

PaddleStructure (PP-Structure) và mô hình SDMGR cho tác vụ (11) phân loại các

chuỗi văn bản cần trích xuất vừa được nhận diện ở tác vụ (11) thành tam trườngthông tin chính, với hướng tiếp cận của mô hình này là SER (Semantic EntityRecognition), vì vậy mô hình này cần có thêm đầu vào là thông tin về vị trí của văn

bản, đặc trưng về không gian, hình ảnh

Xây dựng dữ liêu ® Xây dựng bộ dữ liệu chứng chi TOEIC với khoảng

hơn 8800 ảnh.

Huấn luyện mỏ hình YOLOv8 cho tic vụ phát

hiện và nhân lớp sẵn thông tin cần trích xuất,

sau đỏ cho thử nhận diện van ban vừa được

phát hiện với các mỏ hình nhận diện văn ban

đã có sẵn như EasyOCR, Tesseract.

Huãn luyện mỏ hình SAST, DB++ của

Phát hiên văn ban PaddleOCR cho tác vụ xác định vị trí văn ban cần

trich xuất trên ảnh chứng chỉ.

Phương pháp thử nghiệm

Huan luyện mỏ hình CRNN, SRN, SAR và "ms = 2

văn bản cần trích xuất trên ảnh chứng chỉ,

Huấn luyện mỏ hinh VI-LayouXLM của

Phân loại văn bản PaddlkOCR với hướng tiếp cận là SER cho tác

vu phản loại vin ban cần trích xuất thành tắm trưởng thông tin chỉnh

Hình 11: Mô hình minh họa cho các bước thực hiện đề tài

25

Trang 36

CHƯƠNG 3 XÂY DỰNG BỘ DỮ LIỆU CHO

BÀI TOÁN TRÍCH XUẤT THONG TIN TREN

ẢNH CHỨNG CHÍ TOEIC NGHE ĐỌC.

3.1 Xây dựng bộ dữ liệu.

Sau khoảng 2 tuần tìm hiểu về dé tai và bộ dữ liệu cho bai toán trước khi bắtđầu cho việc nghiên cứu, chúng tôi rút ra được những khó khăn về việc thu thập dữliệu trên mạng đã nêu ở phần 2.2 chương 2, chúng tôi sẽ nhắc lại như sau: “chúng

tôi đã có tham khảo và thu thập dữ liệu chứng chỉ TOEIC Nghe đọc trên Internet,

tuy nhiên với số lượng không nhiều cộng với phan ảnh bi ảnh hưởng bởi các yếu tốbên ngoài như điều kiện ánh sang khiến ảnh bị tối, ảnh bị mờ, bị nhòe, bị cácwatermark được thiết kế đè lên, bị che đi một phần các thông tin cá nhân quan trọngnhư số định danh, bị xoay đọc xoay ngang khiến nội dung trong ảnh không thé đọcđược, một số ít ảnh bị cắt xén khiến thông tin được trích xuất bị thiếu, ảnh hưởng

đên chat lượng đâu ra, và một sô lôi khác ”.

(a) (b)

Hình 12: Mô tả các khó khăn gặp phải khi thu thập dữ liệu trên Internet Hình (a):

Ảnh mờ, không thấy rõ chữ Hình (b): Không đủ thông tin, bị che phần thông tin ID

và Ngày sinh.

Chính vì những yếu tố trên đã thúc đây chúng tôi phải tạo ra một bộ dữ liệu

“giả lập” trên khung nền của chứng chỉ TOEIC Nghe đọc thật, có nghĩa là hình ảnh

26

Trang 37

các chứng chỉ TOEIC nghe đọc có đầy đủ tám trường thông tin giống với thực tế

nhất, tuy nhiên chủ nhân của những chứng chỉ này không có thật, điều này giúp chochúng tôi không phải lo nghĩ về chuyện bản quyền hay xin phép chủ sở hữu củanhững tắm chứng chỉ Chúng tôi sẽ mô tả chỉ tiết quy trình tạo ra bộ đữ liệu như

Hình 13: Sơ đồ mô tả quy trình xây dựng bộ dit liệu

* Bước 1: Tạo phôi chứng chỉ TOEIC nghe và đọc trắng không chứa văn bản

ở trong trình soạn thảo văn bản Word với các thông tin cần điền được nằm trong

dâu ngoặc “<<” và “>>”:

* Bước 2: Tạo các trường thông tin ngẫu nhiên bang cách sử dụng các hàm

trong bảng tính Excel, sau đấy kết hợp với chức năng Mailing trong Word Riêng ởphần ảnh chân dung, chúng tôi thấy đây không phải là một thông tin cần trích xuất,

vì vậy chúng tôi sẽ không ghép các ảnh chân dung vào.

* Bước 3: In màu cho các chứng chỉ vừa được tạo, sau đó chụp hình các

chứng chi được ấy, mỗi chứng chi sẽ được chụp bốn tắm ở bốn góc độ khác nhau.

27

Trang 38

Hình 15: Minh họa về bốn hình ảnh của một chứng chỉ TOEIC chụp ở các góc chụp

khác nhau

3.2 Hướng dẫn gán nhãn dữ liệu và quá trình gán nhãn dữ liệu

* Hướng dẫn gan nhãn dữ liệu:

Đầu tiên, chúng tôi sẽ định nghĩa nhãn của tám trường thông tin: Tên, Ngày

sinh, số định danh, Ngày thi, Ngày hết hạn chứng chỉ, Diém thi đọc, Điểm thi nghe

và Tông điêm băng bang sau:

STT

0 Là nhãn cua trường thông tin chứa

họ và tên của thí sinh

ID Là nhãn của trường thông tin chứa

Tiêu đề	Trích xuất thông tin từ ảnh chụp chứng chỉ tiếng Anh
Tác giả	Trần Phạm Gia Phú, Quách Cơ Thái
Người hướng dẫn	TS. Đỗ Trọng Hợp, TS. Trần Văn Thanh
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	53,97 MB