Đầu tiên, bộ đữ liệu UIT-IELC là bộ đữ liệu đểphục vụ cho bài toán Xây dựng bộ dữ liệu và phương pháp cho bài toán trích xuấtthông tin trên ảnh chứng chỉ ngoại ngữ, bao gồm 8,837 hình ản
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
TRẢN PHẠM GIA PHÚ - 20520694
QUÁCH CƠ THÁI - 20520756
KHÓA LUẬN TÓT NGHIỆP
TRÍCH XUẤT THÔNG TIN TỪ ẢNH CHỤP CHỨNG CHỈ
TIENG ANH
INFORMATION EXTRACTION FROM ENGLISH
CERTIFICATE IMAGES
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHÍ MINH, NAM 2023
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
n8ảy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LOI CAM ON
Trong quá trình học tập và nghiên cứu tại trường đại học của mỗi sinh
viên, khoá luận tốt nghiệp là vô cùng quan trọng, cũng là bước chạy đà cuốicùng trước khi tốt nghiệp Đồng thời, nó cũng là tiền đề để những sinh viên có ýđịnh tiếp tục học thạc sĩ, tiến sĩ sau này cải thiện và củng có khả năng nghiên
cứu của mình.
Trước hết, em xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn củamình - thầy Đỗ Trọng Hợp, người đã trực tiếp hướng dẫn chúng em sâu sát, tận
tình trong suốt thời gian hoàn thành khóa luận này; những lời động viên và sự
hỗ trợ của thầy đã giúp chúng em vượt qua những khó khăn trong quá trình thựchiện Tiếp theo, em xin gửi lời biết ơn sâu sắc đến quý thầy cô giảng viên khoa
Khoa học và Kỹ thuật Thông tin - trực thuộc trường Đại học Công nghệ Thông
tin — Dai học Quốc gia Thành phố Hồ Chí Minh vi đã truyền đạt và giảng daynhững kiến thức, những bài học quý báu và hỗ trợ bồi đưỡng kỹ năng cho chúng
em trong thời gian ở giảng đường đại học Và xin chân thành cảm ơn đến gia
đình, bạn bẻ đã ủng hộ, giúp đỡ trong qua trình học tập và làm khóa luận tai
trường Sự đồng hành của tất cả mọi người là phần động lực to lớn giúp em tiếptục tiến về phía trước
Dù đã trải qua việc làm đề tài trước đây, nhưng em nhận thấy mình vẫncòn nhiều hạn chế trong kiến thức, trong khoá luận này hăn sẽ không tránh khỏi
những mặt thiếu sót Em mong rằng mình sẽ tiếp tục nhận được những ý kiến
đóng góp, đánh giá và nhận xét từ thầy/cô để cho khoá luận tốt nghiệp lần này
được chỉnh chu và hoàn thiện nhất có thê
Cuối cùng, em xin chúc quý thầy/cô luôn mạnh khoẻ, hạnh phúc và gặt
hái nhiều thành công, và em mong những điều tốt đẹp nhất sẽ luôn sát cánh
đông hành bên cạnh mọi người.
Trang 4MỤC LỤC
DANH MỤC HÌNH
DANH MỤC BANG
DANH MỤC TU VIET TAT
TOM TAT KHÓA LUẬN : 222cc nh |
MO DAU 0 2 Chương 1 TONG QUAN VE DE TÀI 2-52 52+SE+EE+E2EE+EzExersered 8
1.1 Giới thiệu về để tài che 8
1.2 Tính ứng dụng và đóng góp của đề tài - 2-5 tt eEerkerkerrreret II
1.3 Những công trình nghiên cứu liên quan 5 5 55+ ++£sveseeseeses 12
Chuong 2 BAI TOÁN TRÍCH XUẤT THONG TIN TREN ANH CHUNG CHI TOEIC NGHE VÀ ĐỌC -:¿-222t22xtttrEtttrrrrtrrrirrrrrrrrrree 19
2.1 Đặt van đề và xây dựng bài toán chính của đề tài - 2 sec: 19
2.2 Động lực và thách thức cho việc nghiên cứu bai toán - -‹- 21
2.3 Các phương pháp giải quyết bai toán - 2 2+ckeEEe2E2EeEEerxerrrerxees 23
Chương3 XÂY DỰNG BỘ DỮ LIỆU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN ANH CHUNG CHI TOEIC NGHE VÀ ĐỌC 25
3.1 Xây dựng bộ dữ liệu 5+ tt SH 25
3.2 _ Hướng dan gan nhãn dữ liệu và quá trình gan nhãn dif liệu 273.3 Phân tích, thống kê về bộ dữ liệu và phân chia dữ liệu huấn luyện 31
Chương 4 CÁC PHƯƠNG PHAP TIẾP CAN BÀI TOÁN CHINH 34
4.1 Huấn luyện mô hình YOLOv8 cho tác vụ xác định vi trí của văn ban, sau đó
sử dụng các mô hình nhận diện có san dé nhận diện văn bản - s5 +s+sss2 35
Trang 54.2 Huấn luyện các mô hình của thư viện PaddleOCR cho tác vụ phát hiện, xác
định vi trí của văn bảñ - << 1E 1122221111111 11 1111193511119 1kg key 37
4.3 Mô hình cho tác vụ Nhận diện vi trí của Van bản - +++-<<5: 4I
4.4 Mô hình cho tác vụ Trích xuất thông tin chính 2 2 z+sz+sz+se2 44
Chương 5 CÀI ĐẶT, THUC NGHIEM VÀ ĐÁNH GIÁ KET QUẢ 49
5.1 Cai dat, thurc nghigm 01177 Ả 49
5.2 Đánh giá kết qua c ccececececccscescssessessesesessessessessessesucsscssstssesseseeseessessesesens 51
5.3 Phân tích 160i cceccecceccccssssssssssessessessesseessesssvsssssessesssssssssaucsucsessessessssssesseeseees 56
Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIÉN - 59
6.1 Kt aan cecccccccssssseessesssesssesseessssuesssssscesueesustiecssesssssssessessssessessesssessseesees 59
6.2 Hướng pháttriỂn -++2c2EkC2EktEEEEEESEECErrrrrerkree 59
TÀI LIỆU THAM KHẢO
Trang 6DANH MỤC HÌNH
Hình 1: Hình mẫu của các chứng chỉ TOEIC nghe và đọc 2-2 2+52+s++z+x+zx+zxe2 8
Hình 2: Các ví du về văn bản ph cấu trúc trên hình ảnh trong bộ dữ liệu TotalText 13 Hình 3: Ví dụ về hình và bộ nhãn cho tác vụ Nhận diện văn bản trong bộ dir liệu Incidental
Scene Text, ICDAAR.20 Í Š - - cG 1 22111112231 111 12931 1111023 111110 11g vn vn re 14
Hình 4: Ví dụ về hình ảnh và bộ nhãn cho tác vụ Phát hiện văn bản trong bộ dữ liệu
Incidental Scene Dataset, ICDAR 2015 E111 6123111111153 11 111951111 E2 1 ky, 14
Hình 5: Ví dụ về văn bản bán cấu trúc trên hình ảnh trong bộ dữ liệu hóa đơn tiếng Việt
Hình 6: Mô tả đầu vào và đầu ra của task (2) trích xuất 4 thông tin chính trên hình ảnh hóa đơn tiếng Việt trong cuộc thi MC-OCR RIVF 2021 2: 2-©5222+2£Et2E2EEczxerxerreee 16 Hình 7: Đầu vào và đầu ra của bài toán trích xuất thông tin trên hình ảnh bìa-sách 17 Hình 8: Vi dụ mô tả đầu vào và đầu ra cho hệ thống trích xuất thông tin từ ảnh chứng chỉ
TOEIC nghe va đọc của chúng tÔI - 2-6 2322191321211 21 1112 11511151 11 11 1kg re 20
Hình 9: Minh họa cho quy trình của hướng tiếp cận thứ nhất 2-5225: 21 Hình 10: Minh họa cho quy trình của hướng tiếp cận thứ hai 2:©25¿ 5552555: 22 Hình 11: Mô hình minh họa cho các bước thực hiện đề tài -2- 2 2 s2 s+£+£++£++z+zz 25
Hình 12: Mô tả các khó khăn gặp phải khi thu thập dt liệu trên Internet 26
Hình 13: Sơ đồ mô tả quy trình xây dựng bộ dữ liệu -2- 2 5¿2+2cx+zx+zz+zxeez 26 Hình 14: Mô tả cách chụp từ tệp dữ liệu mềm sang hình ảnh -2- z5: 27 Hình 15: Minh họa về bốn hình ảnh của một chứng chỉ TOEIC nghe và đọc chụp ở các góc
Chup khac hau 0 28
Hình 16: Ví dụ về nhãn của mô hình YOLO wu cecsecesscsecseseseceesesesecsesesecsesesessvevesevevseseeeees 30
Hình 17: Minh họa nhãn cho tac vụ Phân loại văn bản của mô hình PaddleOCR-KIE 30
Hình 18: Mô tả minh họa về cách gan nhãn của ảnh chứng chỉ TOEIC nghe và doc 31
Hình 19: Minh hoa nhãn cho tác vụ Nhận diện văn ban của các mô hình PaddleOCR 31
Hình 20: Lưu đồ mô tả quy trình gan nhãn dữ liệu - 2-5 2 ++£E2E2EEe£x+zEerseee 32 Hình 21: Biéu đồ thống kê các tập dữ liệu sau khi được chia - -+-s++s=+s<><+ 34 Hình 22: Biéu đồ thé hiện phân phối số ký tự của chuỗi văn bản có nhãn “Name” 34 Hình 23: Kiến trúc YOLOV8 - ¿5+ S2E29E121127121121121121121111121111111 211.11 ee 37
Hinh 24: EasyOCR Framework 0 3 38
Trang 7Hình 25: Tổng quan về Pipeline của mô hình SAST - 2 2¿2z+2+++2z++£x+zzxzzzxzeex 40 Hình 26: Kiến trúc của mô hình DB . -2222¿¿2EEEkvrrirtEEkktrrrrtrtrrrrrrrrii 4I Hình 27: Kiến trúc của mô hình DB++, khi thêm một mô đun là ASF .- 42 Hình 28: Kiến trúc của mô đun Adaptive Scale Fusion - 2 5¿©cz2czccxczzserxeee 42 Hình 29: Cơ chế Spatial Attention -2¿©2+22+222E22E122E122312211221122112211 221.22 ee 42
Hình 30: Kiến trúc của CRNN, với backbone là phần Convolutional Layers và head là
phần Recurrent Lay€TS - + + s+SE£SE£EEEEEEEEEEEEEXEE1E7111112111121111111121121111 111 xe 43
Hình 31: Pipeline của mô hình SRN - c1 2 223112 112 1311111111 1111111111111 1 re 43
Hình 32: Sơ đồ tổng quan về A BINNet 2 25: 222 2E2221223122212231221122112211 2211211 1 ee 44
Hình 33: Kiến trúc của Vision Model (bên trái) va Language Model (bên phải) 45 Hình 34: Cấu trúc của LayoutXLM, với hướng tiếp cận SER được minh họa 48
Hình 35: Minh họa về Key Information Extraction trong thư viện PP-StructureV2, với đầu vào là thông tin của một chiếc thẻ định danh - 2-2 ++EE+EE+EE+EE+EE+EE+EE+EzEesreee 48 Hình 36: Kiến trúc của mô hình SDMGR - 2-52 2SE+SE£2EE2EE£EE2EEEEEEE2EEEEEErkrrrree 49 Hình 37: Hình minh họa sau khi thử nghiệm mô hình và nhãn đầu ra ở tác vụ Trích xuất
thông tin khóa (Phân loại văn bản) - - 2E 2c 3221331113111 3323311111111 rre 52
Hình 38: Hình minh họa sau khi thử nghiệm mô hình đã được huấn luyện ở hai tác vụ Phát
hiện văn bản (a) và Nhận diện văn bản ((b) - ¿5c 2c 3221133113313 Esxx 52
Hình 39: Minh họa hình ảnh sau khi thực hiện tac vu phát hiện văn bản bằng mô hình
YOLO và vùng cắt của văn bản -ss- 56c St E1 112112211211211111211 11211211111 11g 57
Hình 40: Hình minh họa sau khi thực hiện tác vụ phát hiện văn bản bằng mô hình DB++ 57 Hình 41: Minh họa cho lỗi sai ký tự khi trích xuất bằng mô hình EasyOCR có sẵn 58
Trang 8DANH MỤC BANG
Bảng |: Bảng xác định các nhãn và nội dung của nhãn 5552 ++*++s+ex+eessess 29
Bang 2: Thống kê số lượng Bounding box đã được gan theo nhãn 2-2: 5+: 33 Bảng 3: Thống kê số lượng Bouding box theo nhãn ở mỗi tập dữ liệu được chia 33 Bảng 4: Minh họa cho các nhãn có thể được nhận diện khi sử dụng hai mô hình SER và
Bang 5: Tham số sử dụng khi huấn luyện các mô hình phát hiện văn bản - 50 Bảng 6: Tham SỐ Sử dụng khi huấn luyện các mô hình nhận diện văn bản - 51
Bang 7: Bảng các mô hình và tham số được sử dung cho tác vụ Trích xuất thông tin chính
(Key Information 8554101007777 - a 51-52
Bang 8: Kết quả đánh giá kiểm thử của mô hình YOLOv8 sau khi huấn luyện 55 Bảng 9: Kết qua mô hình Phát hiện văn ban (Text Detection) c.cccccscesssesssesstessteesteeses 55 Bang 10: Kết qua các mô hình Nhận diện văn ban (Text Recognition) - 55 Bang 11: Kết quả nhận điện của mô hình Trích xuất thông tin khóa (Key Information
Extraction - Field ClasSIÍICafIOR)) - c2 222 1221132111331 151152 115 1111111 11 1 E11 E111 vn trên 56
Bảng 12: Kết quả đánh giá của hệ thống trên tập kiêm thử và tập dữ liệu thực tế 56 Bảng 13: Mô tả các lỗi gặp phải khi cho hệ thống trích xuất các điểm dữ liệu trong tập
Trang 9DANH MỤC TỪ VIET TAT
STT | Chữ viết tắt Chữ viết đầy đủ
1 ABINet Autonomous, Bidirectional and Iterative
2 ASF Adaptive Scale Fusion
3 Bi-LSTM Bidirectional Long Short-Term Memory
4 BGF Blocking Gradient Flow
5 CAB Context Attention Block
6 CRAFT Character Region Awareness for Text Detection
7 CRNN Convolutional Recurrent Neural Network
8 CMND/CCCD | Chứng minh nhân dân/ Căn cước công dân
9 CT Centripetal Text
I0 | CTC Connectionist Temporal Classification
II | DB Differentiable binarization
12 |DRRG Deep Relational Reasoning Graph
13 |DoB Date of Birth
14 |EAST Efficient and Accurate Scene Text
15 |ETS Educational Testing Service
16 |ECE Fourier Contour Embedding
17 | FN False Negative
18 | FP False Positive
19 | FPN Feature Pyramid Network
20 | GCN Graph Convolutional Network
21 | GSMR Global Semantic Reasoning Module
22_ |ICDAR International Conference on Document Analysis and Recognition 23_ | ID Identification
24 | IDC Intelligent Distributed Computing
25_ | JSON JavaScript Object Notation
26 | KIE Key Information Extraction
27 |LM Language Model
28 | LSTM Long Short-Term Memory
29 | NER Named Entity Recognition
30 | NLP Natural Language Processing
31 | OCR Optical Character Recognition
32_ |PPOCR PaddlePaddle OCR
33 |PVAM Parallel Visual Attention Module
34 |RCNN Region-based Convolutional Neural Network
35 |RE Relationship Extraction
36 RIVF Research, Innovation and Vision for the Future
37 |SAST Single-Shot Arbitrarily-Shaped Text
38 | SDMGR Spatial Dual-Modality Graph Reasoning
39 |SER Semantic Entity Recognition
40 | SRN Semantic Reasoning Network
41 _ |SVM Support Vector Machine
Trang 1042_ | TOEIC Test of English for International Communication 43_ |TP True Positive
44 | TRIE Text Reading and Information Extraction
45_ | VI Visual-feature Independent
46 | VỌA Visual Question Answering
47 | VSFD Visual-semantic Fusion Decoder
48 | YOLO You Only Look Once
Trang 11TÓM TẮT KHÓA LUẬN
Tiếng Anh là một trong những ngôn ngữ quốc tế quan trọng nhất trên thế giới,
đóng vai trò quan trọng trong giao tiếp, học tập, và sự phát triển cá nhân cũng như
sự nghiệp Sự thành tiếng Anh mở ra cơ hội lớn cho cá nhân, giúp họ tương tác trựctiếp với cộng đồng toàn cầu Chứng chỉ tiếng Anh, như IELTS, TOEFL, TOEICNghe đọc, TOEIC Nói viết, VNU-EPT hoặc Cambridge English Certificates, không chỉ là chứng chỉ tiếng Anh mà còn là công cụ quan trọng để xác nhận năng
lực và sự chuẩn bị cho các thử thách tiếng Anh trong học tập và công việc Nó
không chỉ thé hiện khả năng ngôn ngữ, mà còn là một phần quan trọng của hồ sơ cánhân, đặc biệt khi tham gia vào các chương trình đào tạo quốc tế hoặc tuyên dụngnghề nghiệp yêu cầu sử dụng tiếng Anh Với thế giới ngày càng hội nhập, việc sởhữu chứng chỉ tiếng Anh không chỉ tăng cường khả năng giao tiếp quốc tế mà còn
mở ra cánh cửa cho nhiều cơ hội nghề nghiệp toàn cầu Các doanh nghiệp quốc tếđánh giá cao những ứng viên có khả năng sử dụng tiếng Anh thành thạo, và nhiều tổchức chỉ chọn những người có chứng chỉ tiếng Anh đề đảm bảo chất lượng và hiệusuất làm việc
Tuy nhiên, bên cạnh những sự quan trọng về tiếng Anh cũng như chứng chỉtiếng Anh thì công tác quản lý các chứng chỉ tiếng Anh vẫn còn hạn chế, việc nhậpmột lượng lớn thông tin trong các chứng chỉ tiếng Anh bằng cách thủ công khiếncho người nhập dễ bị sai sót, nhằm lẫn dẫn đến thông tin lưu trữ không được chínhxác, ngoài ra việc nhập thủ công bằng tay các thông tin ấy dễ gây ra sự nhàm chán,
mệt mỏi cho người nhập.
Vì vậy, trong khóa luận này chúng tôi trình bay về quy trình xây dựng bộ dữliệu UIT-IELC, và các phương pháp mới dựa trên học sâu dé trích xuất thông tin từảnh chứng chỉ TOEIC Nghe và đọc Đầu tiên, bộ đữ liệu UIT-IELC là bộ đữ liệu đểphục vụ cho bài toán Xây dựng bộ dữ liệu và phương pháp cho bài toán trích xuấtthông tin trên ảnh chứng chỉ ngoại ngữ, bao gồm 8,837 hình ảnh chứng chỉ
TOEIC nghe va đọc được gan nhãn với vi trí văn bản trên ảnh, nội dung văn bản va nhãn phân loại của các nội dung văn bản thành 8 trường văn bản là Name, ID, DoB,
Trang 12TestDate, ValidUntil, ListeningScore, Reading-Score va Total Score của các chứng
chi TOEIC nghe va doc Tiép theo, các thuật toán trên hoc sâu đã được triển khai
trên bộ dữ liệu UIT-IELC để trích xuất thông tin văn bản trên hình ảnh chứng chỉ
TOEIC nghe và đọc, với kết quả cuối cùng là 99,91% Fl-score cho tác vụ trích xuất
thông tin chính (Key Information Extraction)
Trang 13MỞ ĐẦU
Dat van đề:
Công nghệ thông tin ngày nay đã phat triển một cách vượt bậc, vượt xa moi
thời đại, sự phát triển ấy góp phần giúp cho cuộc sống của con người trở nên nhiều
tiện lợi cho việc nghiên cứu và phát triển, và khoa học — kỹ thuật, công nghệ sẽ luônluôn được tiếp tục nâng cấp lên và giúp tối ưu hóa cho công việc của con người trởnên dễ dàng, đơn giản, tiết kiệm hơn cả về thời gian lẫn tiền bạc
Trên thị trường quốc tế cũng như trong nước ta, việc đầu tư vào việc nâng
cao kỹ năng tiếng Anh thông qua các khóa đào tạo và luyện thi tiếng Anh ngày càng
trở nên phô biến, điều này không chỉ giúp cho các cá nhân cải thiện trình độ tiếngAnh, các nhà trường xét tốt nghiệp cho sinh viên bằng các chứng chỉ tiếng Anh màcòn mang lại lợi ich lâu dai cho các tổ chức và doanh nghiệp khi nhân viên có khảnăng giao tiếp mạnh mẽ và linh hoạt trong môi trường làm việc toàn cầu Tuy nhiên,mặc du tiếng Anh đóng vai trò quan trọng trong cuộc sông hàng ngày của chúng ta,nhưng quá trình quản lý và nhập liệu thông tin từ các chứng chỉ tiếng Anh đang đốimặt với nhiều thách thức, phương pháp nhập liệu thủ công đang gặp khó khăn dođòi hỏi nhiều công sức và thời gian từ con người, việc nhập chính xác từng chỉ tiếtnhư điểm số, ngày sinh, và họ tên đôi khi trở thành công việc phức tap và dé xảy ra
sai sót, ảnh hưởng đến tính chính xác và đáng tin cậy của thông tin và còn bị mat
thời gian khi phải nhập liệu thủ công.
Trước khi thực hiện đề tài này, chúng tôi mong muốn được giúp các nhânviên của các trường đại học ở nước ta băng cách xây dựng một hệ thống giúp đọcchính xác các thông tin quan trọng được xuất hiện trên các chứng chỉ đó, hệ thốngchúng tôi xây dựng có mục tiêu đọc được cảng đa dạng các loại chứng chỉ tiếngAnh khác nhau càng tốt, và hỗ trợ nhập liệu thông qua công nghệ OCR giúp trích
xuất chính xác họ tên, số định danh, ngày sinh, ngày thị, điểm thi, Từ đó hỗ trợ
Trang 14cho các nhân viên nhà trường nhập dtr liệu tiếng Anh lên cơ sở dữ liệu một cách dễ
dàng, chính xác và tiết kiệm nhat.
Mục tiêu của khóa luận:
Chúng tôi đã làm một nghiên cứu về đề tài này ở học kỳ trước, tuy nhiên kết
quả nghiên cứu vẫn chưa được khả quan, vẫn còn một vài lỗi tồn đọng khi kiểm thử,
vì vậy ở khóa luận này, chúng tôi nêu lại những nghiên cứu đã làm trước và đặt mục
tiêu là khắc phục các lỗi còn tồn đọng và nâng quy mô của bộ dữ liệu lên
Trong khóa luận nảy, chúng tôi tập trung xây dựng thêm bộ dữ liệu ảnh
chứng chỉ tiếng Anh có tên là TOEIC dành cho hai kỹ năng nghe và đọc, sau đóthực hiện gán nhãn và cuối cùng là huấn luyện các mô hình học máy, học sâu dựa
trên thư viện Paddle Chúng tôi đặt ra các mục tiêu như sau:
+ Thứ nhất, tiến hành xây dựng thêm bộ dữ liệu có tên là UIT-IELC bao
gồm hơn 8,800 ảnh chứng chỉ TOEIC nghe và đọc và gan nhãn đủ tám trường thôngtin văn bản có trên chứng chỉ, nội dung văn bản bao gồm: Họ Tên, Ngày sinh, Sốđịnh danh, Ngày thi, Ngày hết hạn, Điểm thi nghe, Điểm thi đọc, Tổng điểm của thísinh dựa trên bảng điểm TOEIC nghe đọc, theo định dạng nhãn của mô hình Paddle
+ Thứ hai, thử nghiệm phương pháp tiếp cận huấn luyện mô hình YOLO vàcho kết quả đầu ra của YOLO vào mô hình nhận điện OCR có sẵn va chỉ ra các lỗi
+ Thứ ba, xây dựng các mô hình cho tác vụ Phát hiện văn bản dựa trên thư viện Paddle.
+ Thứ tư, xây dựng các mô hình Nhận diện văn bảng sau khi hoàn thành tác
vụ ở bước thứ ba cũng dựa trên thư viện Paddle.
+ Thứ năm, xây dựng mô hình PaddleOCR KIE (Key Information
Extraction) với tác vụ SER (Semantic Entity Recognition) nhằm Trích xuất các
thông tin vừa được nhận diện thành tắm trường văn bản đã nêu ở bước thứ nhất.
+ Cuối cùng, đánh giá kết quả của các mô hình và đánh giá hệ thống trích
xuất thông tin trên ảnh chứng chỉ TOEIC nghe và đọc trên bộ dữ liệu thực tế.
Trang 15Doi tượng và phạm vi nghiÊn cứu:
Đối tượng: Bài toán trích xuất thông tin trên ảnh chứng chỉ tiếng Anh
Phạm vi: Khóa luận này của chúng tôi tập trung nghiên cứu các mô hình
nhằm trích xuất thông tin văn bản trên hình ảnh của các chứng chỉ điểm tiếng Anh.Chúng tôi tập trung nghiên cứu giải quyết những vấn đề như sau: Xây dựng bộ dữliệu ảnh chứng chỉ điểm TOEIC Nghe Đọc, sau đó nghiên cứu và chạy thử một vài
mô hình cho các tác vụ Xác định vị trí, Nhận diện và Phân loại các trường văn bản
trên bộ dir liệu chúng tôi đã xây dựng.
Kết quả nghiên cứu:
Sau khi hoàn thành khóa luận, chúng tôi đã đạt được kết quả như sau:
* Xây dựng được bộ dit liệu bao gồm hơn 8800 anh chứng chỉ ảnh TOEIC
nghe và đọc
* Huấn luyện mô hình YOLOv§ sẵn cho hai tác vụ là phát hiện vị trí của vănbản và phân loại các văn ban ấy thành 8 trường thông tin chính, sau đó cắt các vùng
văn bản ấy ra và cho vào các mô hình nhận điện EasyOCR đã có sẵn
- Huấn luyện và thử nghiệm các mô hình học sâu cho tác vụ Phát hiện vănbản trên bộ đữ liệu, mô hình SAST, DB++ của thư viện Paddle, và kết quả rất tốt
với mô hình DB++ đạt đến 99.59% với độ đo H-mean
- Huấn luyện và thử nghiệm các mô hình học sâu cho tác vụ Nhận diện vănbản trên bộ dữ liệu, bao gồm các mô hình: CRNN, SRN và ABINet của thư việnPaddle và đạt kết qua cao nhất là mô hình ABINet với độ chính xác (Acc_full seq)
đến 99.59%
- Huấn luyện và thử nghiệm CÁC mô hình Trích xuất thông tin khóa theohướng tiếp cận SER (Semantic Entity Recognition) thành tám trường văn bản chính,
đó là mô hình VI-LayoutXLM và mô hình SDMGR của thư viện PP-Structure và
đạt được kết quả rất cao đến 99.91% trên độ đo Fl-Score cho mô hình
VI-LayoutXLM
Trang 16=> Chúng tôi sẽ tiếp tục phát triển, nâng quy mô bộ đữ liệu lên và phát triển
thêm các mô hình đề có thể đọc được nhiều loại chứng chỉ cùng lúc trong
một tâm ảnh.
Câu trúc của phan nội dung khóa luận:
Khóa luận này của chúng tôi bao gôm 7 chương với các nội dung chính ở
từng chương như sau:
* Chương 1: Tổng quan về đề tài
Nội dung của chương này giới thiệu về hiện trạng nghiên cứu của công nghệOCR va ứng dụng của nó trong cuộc sống hiện nay, và trình bày sự quan trọng của
ngoại ngữ, các chứng chỉ điểm, mong muốn về tính ứng dụng của đề tài và hiện
trạng nhập liệu ở các cơ quan hiện nay Và chúng tôi còn trình bày một số công
trình nghiên cứu mà chúng tôi đã tham khảo trong quá trình chúng tôi nghiên cứu
cách xác định bài toàn cũng như cách giải quyết bài toán chính của khóa luận này
« Chương 2: Bài toán trích xuất thông tin trên ảnh chụp chứng chi
TOEIC Nghe và đọc.
Chương này trình bày cách xác định bài toán, đầu vào cũng như đầu ra của
bài toán, nêu những thách thức, vân dé cân giải quyét và hướng giải quyết của nó.
Trang 17* Chương 3: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên
ảnh chứng chỉ TOEIC Nghe và đọc.
Trong chương này, chúng tôi trình bày chỉ tiết cách chúng tôi tạo ra các điểm
dữ liệu, cách chụp ảnh dữ liệu cũng như cách gán nhãn cho bộ dữ liệu ảnh chứng chỉ TOEIC nghe và đọc.
* Chương 4: Cơ sở lý thuyết về hướng tiếp cận và giải quyết bài toán
chính.
Đến chương này, chúng tôi trình bày chỉ tiết về các phương pháp tiếp cậncũng như các mô hình mà chúng tôi dùng huấn luyện cho ba tác vụ là Phát hiện,Nhận diện và Trích xuất thông tin khóa trên ảnh chứng chỉ tiếng Anh
¢ Chương 5: Cai đặt, thực nghiệm và đánh giá.
Trình bảy cách thức cài đặt các tham số cho việc huấn luyện mô hình, cách
thức CÀI ĐẶT cho bài toán Trích xuất thông tin trên ảnh chụp chứng chỉ TOEICnghe và đọc của chúng tôi và đánh giá kết quả dựa trên các mô hình đã huấn luyện,
và hệ thống của chúng tôi
* Chương 6: Kết luận và hướng phát triển
Tổng kết lại những kết quả đã đạt được và nêu những hướng phát triển chúngtôi sẽ tiếp tục thực hiện sau khi hoàn thành khóa luận này
Trang 18CHƯƠNG 1 TONG QUAN VE DE TÀI.
1.1 Giới thiệu về đề tài
Tiếng Anh là một ngôn ngữ quốc tế được sử dụng rộng rãi trên toàn thế giới.Theo số liệu của Educational Testing Service (ETS), tổ chức hàng đầu về biên soạnchương trình kiểm tra và đánh giá ngôn ngữ, hàng triệu người trên toàn cầu đangtận dụng kết quả của các bài thi đánh giá năng lực tiếng Anh dé đo lường và xácđịnh trình độ ngoại ngữ cá nhân, kết quả của những bài thi này không chỉ là một
đánh giá về khả năng sử dụng tiếng Anh mà còn trở thành một tiêu chí quan trọng
trong quá trình tuyển dụng của nhiều doanh nghiệp, tạo ra cơ hội mở rộng cho sựphát triển sự nghiệp và tìm kiếm cơ hội du học Trong danh sách những bài kiểm tra
đó, Test of English for International Communication (TOEIC) nổi bật như một bàikiểm tra phô biến và được sử dụng rộng rãi trên hon 160 quốc gia trên thé giới.TOEIC không chỉ đơn thuần là một bài kiểm tra, mà là một phương tiện quan trọng
để đánh giá khả năng sử dụng tiếng Anh trong môi trường quốc tế, phản ánh chân
thực kỹ năng ngôn ngữ của người thi Tại Việt Nam, kết quả TOEIC nghe và đọc đã
trở thành một tiêu chuẩn dau ra quan trọng đối với hầu hết các trường Đại học, sinhviên không chỉ nắm bắt kiến thức chuyên ngành mà còn cần có khả năng sử dụngtiếng Anh một cách linh hoạt và hiệu quả, điều này đặt ra một thách thức lớn, đồngthời mở ra nhiều cơ hội khi có kết quả TOEIC xuất sắc Không chỉ ảnh hưởng đếnsinh viên, mà kết quả TOEIC cũng chịu tác động lớn trong lĩnh vực tuyên dụng của
các doanh nghiệp trong nước, việc sử dụng TOEIC như một tiêu chí đánh giá khả
năng sử dụng tiếng Anh hiệu quả giúp đảm bảo răng nguồn nhân lực có đủ kỹ năng
dé thích ứng và giao tiếp trong môi trường làm việc ngày càng quốc tế hóa Kết quaTOEIC nghe đọc không chi là một con số trên bảng điểm, mà là một phản ánh chínhxác về khả năng hiểu và sử dụng tiếng Anh của người thi trong cả bốn kỹ năng lànghe, nói, đọc và viết, sự linh hoạt này làm cho TOEIC nghe đọc trở thành một
công cụ đa chiều, không chỉ đánh giá trình độ mà còn cung cấp thông tin chỉ tiết về
khả năng giao tiếp thực tế.
Trang 19"¬ 1 :
CAk-elfmgrseerieesirlIẤ số vata MO iain Lee Giana Caren Oh Estey Wee WS
1 NA, eset, ape gee ecient tL te aS
Tuy nhiên, ở trong thời đại hiện nay, nhu cầu trích xuất thông tin từ tài liệu,
văn bản, quét hoặc chụp nhanh chóng và chính xác là ngày cảng quan trọng Quy
trình này không chỉ giúp các cơ quan, tô chức tiết kiệm thời gian mà còn đảm bảotính chính xác và độ tin cậy của đữ liệu Tuy nhiên, đề thực hiện công việc nảy mộtcách hiệu quả và chính xác, doi hỏi sự khắt khe và chuyên nghiệp, đặc biệt là khi
nói đến việc xác định từng ký tự và trường thông tin quan trọng Mặt khác, các máyscan hiện nay chỉ có thé quét các hình ảnh và trả về chúng ở hình dang số hóa,
không thé đọc được những thông tin cần thiết dé trích xuất
May mắn thay, với sự phát triển mạnh mẽ của công nghệ học sâu, máy tính
ngày nay có khả năng hỗ trợ con người trong việc xác định vị trí, nhận diện và phân
loại thông tin văn bản từ các tài liệu tiếng Anh một cách nhanh chóng và chính xác
Công nghệ này không chỉ giúp giảm gánh nặng công việc cho nhân viên mà còn
đảm bảo tính chính xác cao đến từng ký tự, giúp người dùng dễ dàng xác minhthông tin một cách chính xác và thuận tiện Sự kết hợp giữa máy tính, đặc biệt là
công nghệ học sâu và quá trình quản lý thông tin từ chứng chỉ TOEIC nghe đọc có
thê mang lại nhiều lợi ích, việc áp dụng công nghệ giúp tăng cường hiệu suất, giảm
nguy cơ sai sót, và tôi ưu hóa quy trình làm việc Dong thời, việc nhanh chóng xác
Trang 20định và chính xác thông tin từ tài liệu giúp tăng cường tính minh bạch và tin cậy
trong quá trình quản lý thông tin chứng chỉ TOEIC nghe và đọc Gần đây, việc nhậndiện và trích xuất các thông tin từ hình ảnh thu hút được sự quan tâm lớn từ cộngđồng nghiên cứu và đây cũng là bài toán day tính thách thức bởi vi anh có thé bị
mờ, không chất lượng do thiếu ánh sáng gây khó khăn trong quá trình xử lý Tuynhiên, với sự phát triển và tốc độ xử lý của các mô hình học máy, vấn đề nhận diệnvăn bản đã được giải quyết bằng nhiều phương pháp Một trong những phương
pháp này là phát hiện các ky tự quang học riêng lẻ (Optical Character Recognition —
OCR) và sau đó kết hợp chúng thành các từ có nghĩa phục vụ cho bài toán Tríchxuất thông tin khóa (Key Information Extraction — KIE) — Có thé thấy công nghệOCR hiện nay đã được ứng dụng rộng rãi trong đời sống, trong nhiều lĩnh vực, đã
có rất nhiều các công bố khoa học đã được đăng tại những hội nghị lớn nhỏ uy tíntrên toàn thế giới
Vì những lý do được nêu trên, trong khóa luận này, chúng tôi tiến hành Xâydựng bộ dữ liệu và hệ thống cho bài toán trích xuất thông tin trên hình ảnh Chứngchỉ TOEIC nghe đọc mà chúng tôi tự thu thập bằng cách sử dụng các kỹ thuật xử lýảnh, phát hiện và trích xuất thông tin trên bộ dữ liệu bao gồm hình ảnh của cácchứng chỉ TOEIC nghe đọc do chúng tôi thu thập Chúng tôi mong muốn rằng giải
pháp này sẽ giúp các trường đại học, doanh nghiệp, tập đoàn tiết kiệm thời gian và
giảm thiểu sai sót trong quá trình quản lý thông tin Đề tài trích xuất thông tin từảnh chụp chứng chỉ tiếng Anh này của chúng tôi có đầu vào là hình ảnh các chứngchỉ điểm qua các cuộc thi tiếng Anh, tuy nhiên, chúng tôi chỉ mới xây dựng được bộ
dữ liệu bao gồm hơn 8.800 ảnh chụp chứng chỉ TOEIC nghe đọc, chưa bao gồm cácchứng chỉ khác, và chúng tôi cũng đã xây dựng một hệ thống trích xuất thông tin
dựa trên sự huấn luyện của bộ dir liệu chứa các ảnh chụp chứng chỉ TOEIC ngheđọc này, hệ thống của chúng tôi giải quyết ba tác vụ cơ bản như sau: (1) phát hiện,
xác định vị trí văn bản trên ảnh chứng chỉ có chứa văn bản, (2) nhận diện các văn
bản vừa được xác định vi trí ở tác vụ (1), (3) sau đó phân loại văn bản đã nhận diện
được ở tác vụ (2) xuất ra thành tám trường thông tin của chứng chỉ, đó chính là: Họ
10
Trang 21tên, Ngày sinh, Số định danh, Ngày thi, Ngày hết hạn chứng chỉ, Điểm thi Nghe,
Điểm thi Đọc và Tổng điểm
1.2 Tính ứng dụng và đóng góp của đề tài
Với những nghiên cứu ở trong khóa luận này của chúng tôi, chúng tôi mong
muốn răng mình sẽ mang đến một số đóng góp nhỏ cho cộng đồng xử lý ảnh trên
toàn thế giới nói chung cũng như ở nước ta nói riêng, đóng góp cho cộng đồng
nghiên cứu bộ dữ liệu đề tiếp tục phát triển thêm những bai toán mới và làm phongphú thêm cho bộ dữ liệu hình ảnh trong lĩnh vực trích xuất thông tin Và tôi mongmuốn đề tài này sẽ được ứng dụng rộng rãi ở các trường đại học, các cơ quan, tổ
chức, khi mà các trường đại học dùng các chứng chỉ điểm tiếng Anh dé xét chuẩn
ngoại ngữ đầu ra, hoặc có thé dùng làm tiêu chí xét điểm chuẩn đầu vào Các cơquan, t6 chức dùng các chứng chỉ điểm tiếng Anh dé xét bậc hạng lương dành chonhân viên, hoặc với mục đích đọc thông tin dé tự động điền vào CV dé xin việc Cụthể hơn, đó là:
* Trong lĩnh vực quản lý nhân sự, quá trình tự động hóa việc trích xuất thông
tin từ hình ảnh chứng chỉ tiếng Anh đóng vai trò quan trọng trong việc nâng cao
hiệu suất của hệ thống quản lý thông tin nhân sự Cụ thé, thông tin quan trọng nhưbăng cấp và chứng chỉ chuyên môn có thể được tự động xác định và nhập vào hệthống một cách hiệu quả Trong quá trình tuyển dụng, ứng dụng này giúp đánh giá
kỹ năng và trình độ của ứng viên một cách chính xác và nhanh chóng.
¢ Trong lĩnh vực giáo dục, việc tự động trích xuất thông tin từ chứng chỉ làm
nền tảng cho quản lý học vụ hệ thống Các thông tin về học vụ của sinh viên, bao
gồm cả đăng ký môn học và xác nhận tốt nghiệp, có thể được đánh giá và quản lýmột cách tự động và hiệu quả Hơn nữa, dữ liệu từ chứng chỉ cung cấp nguồn thôngtin quan trọng dé hỗ trợ quá trình tư vấn nghề nghiệp, định hình sự nghiệp, và dé
xuất các chương trình đào tạo hoặc khoá học phù hợp
11
Trang 22* Trong lĩnh vực ngân hàng và tài chính, việc tự động xác minh thông tin từ
chứng chi đóng vai trò quan trọng trong việc cải thiện quá trình đánh giá rủi ro va
quản lý hồ sơ khách hàng Thông qua việc kiểm tra và xác minh danh tính dựa trên
thông tin từ chứng chỉ, ứng dụng này không chỉ tăng cường độ chính xác mà còn
nâng cao chất lượng quản lý và đánh giá khách hàng trong lĩnh vực tài chính
> Tiểu kết: Sau những căn cứ ở trên, chúng ta thay được hai quan điểm.Một là tiếng Anh đang đóng vai trò ngày một quan trọng trong cuộc sống hiện nay
của mỗi chúng ta, và chứng chỉ điểm tiếng Anh đặc biết giúp chúng ta tự đánh giá
về khả năng ngoại ngữ của bản thân, cũng như có thé một chương trình dao tạo tốt,
hay là một công việc với mức thu nhập mà ta mơ ước Hai là, công nghệ thông tin
nói chung và bài toán OCR nói riêng đã và đang được thúc day việc nghiên cứu vàứng dụng trong cuộc sông của chúng ta, góp phan tạo ra nhiều giá trị cho cuộc sông
con người Đồng thời, qua một quá trình dài nghiên cứu, xây dựng đề tài này, chúngtôi mong muốn đề tài của mình sẽ được áp dụng trong cuộc sống, đặc biệt ở thời kỳ
chuyên đổi số như ngày nay
1.3 Các công trình nghiên cứu liên quan đến đề tài.
Trong cộng đồng nghiên cứu quốc tế, công nghệ OCR đã trở thành một lĩnhvực đầy triển vọng và thu hút sự quan tâm của nhiều nhóm nghiên cứu Vì vậy hiệnnay, đã có nhiều bộ dữ liệu hình ảnh được xây dựng và nhiều công bố nghiên cứukhoa học nhằm phục vụ cho bài toán Trích xuất thông tin dựa trên công nghệ OCR
Những bộ dữ liệu phục vụ cho bài toán trích xuất thông tin trên ảnh sử dụng
công nghệ OCR có thể được chia ra thành hai loại là dữ liệu ảnh có cấu trúc vănbản, bán cấu trúc văn bản và dữ liệu ảnh không có cấu trúc văn bản, đữ liệu không
có cấu trúc văn bản là những hình ảnh có văn bản nhưng văn bản thưa thớt, không
có cấu trúc hàng phù hợp, nền phức tạp, có vị trí ngẫu nhiên trong hình ảnh vàkhông có phông chữ chuẩn, dữ liệu có cấu trúc thi ngược lại, là kiểu văn bản đánhmáy, không phức tạp, có phông chữ, cỡ chữ đồng nhất, có vị trí cỗ định Một số bộ
12
Trang 23dữ liệu đáng chú ý có thé ké đến như: Bộ dữ liệu hóa đơn bằng tiếng Anh SROIE
được công bố trong cuộc thi ICDAR 2019 [1] là một bộ dữ liệu bán cau trúc văn
bản, bộ dit liệu hóa don bang tiếng Việt (Vietnamese Receipts) là bộ dữ liệu chính
của cuộc thi MC-OCR được đề cập trong bài báo “MC-OCR Challenge 2021: to-end system to extract key information from Vietnamese Receipts” công bồ tronghội nghị RIVF 2021 MC-OCR [2] cũng là một bộ đữ liệu bán cấu trúc về văn bản
End-Về dit liệu không có cấu trúc văn bản, có thé kế đến như bộ dit liệu Total-Text [3],
bộ dữ liệu Incidental Scence Text ở trong cuộc thi ICDAR2015 [4], bộ dữ liệu
English COCO-TEXT ở trong cuộc thi ICDAR2017 [5] và bộ dữ liệu Vi-BCI được
đăng ở hội nghị IDC2022 [6] bao gồm hơn 7700 hình ảnh bìa của những quyên sách
được phát hành ở Việt Nam và đã được gán nhãn văn bản và chia ra thành 4 trường
cụ thê như Tiêu đề, Tên tác giả, Nhà xuất bản và Những nội dung khác Đa số các
bộ dữ liệu được nêu trên được sử dụng công nghệ OCR dé phat hién va nhan dién
Hình 2: Các vi dụ về văn bản phi cấu trúc trên hình ảnh trong bộ dữ liệu TotalText
13
Trang 24shih A
a AY
word_ 1 png word_2 png word_3 png word_4 png
pais =
word_5 png word_6 png word_7 png
word_& png Word_9.png word_1@.png
word 1
word 2
word 3 word 4.
word _5
word 6.
word _ 7 word _ 6.
word 9.
-png,
-png,
-png, png, -png, png,
-png,
pne, png,
Hình 3: Vi dụ về hình anh và bộ nhãn cho tác vụ Nhận diện van bản trong bộ dữ
liệu Incidental Scene Dataset, ICDAR 2015
1801, 249, 1862, 255, 1062,276, 1001, 270, #f#
980,37,1041,27, 1842,53, 981,63 ,Sauth
981,86,1074, 75, 1078, 130, 985, 134, L14
984 ,185, 1055 ,182, 1056,205, 99, 202 ,#14-01
Hình 4: Ví dụ về hình và bộ nhãn cho tác vụ Phát hiện văn bản trong bộ dữ liệu
Incidental Scene Text, ICDAR2015
Cho đến nay, việc áp dụng các mô hình học sâu dé phát hiện ky tự cũng dat
được hiệu suât cao hơn va tiêu tôn thời gian xử ly thâp hon so với học máy truyén
thống, và nhiều phương pháp đột phá được công bố để phục vụ các công trình
nghiên cứu phát hiện, nhận diện và trích xuât văn bản trong hình ảnh các tài liệu câu
trúc văn bản hay ban cấu trúc văn bản chang hạn như biên lai, thẻ ngân hàng, danh
thiếp, hóa đơn, và đạt được độ chính xác cao Vi dụ, mô hình CRAFT [7] giúp
14
Trang 25Hình 5: Ví du về van ban bán cấu trúc trên hình ảnh trong bộ dữ liệu hóa đơn tiếng
Việt (Vietnamese Receipts) của cuộc thi MC-OCR RIVF 2021
phát hiện các vùng văn bản bằng cách phát hiện từng ký tự và liên kết chúng lại với
nhau Hay mô hình YOLO [8] đã đề xuất một phương pháp khác có thé phát hiện
các đối tượng trong thời gian thực một cách hiệu quả Với tác vụ nhận diện văn bản,một nhóm đã dựa trên mạng CRNN được đăng ở tập kỷ yếu của hội nghị CONF-SPML 2024 [9] dé nhận diện văn bản trong những hình anh của các trận đấu bóng
đá, và mô hình Tesseract của Google được công bố tại hội nghị DCA 2012 [10]cũng dùng để nhận diện mẫu văn bản; ở trong nước ta, có một mô hình rất hay được
sử dụng dé nhận diện các từ, ký tự quang học, văn bản tiếng Việt có tên là VietOCR[11] sử dụng ngôn ngữ lập trình Java, có hỗ trợ sẵn với giao diện front end; và một
số mô hình khác Trong cuộc thi trích xuất thông tin từ ảnh hóa đơn tiếng Việt
(MC-OCR 2021), một nhóm nghiên cứu đã sử dụng các mô hình CRAFT va
VietOCR cho tác vụ nhận diện và phát hiện văn bản tiếng Việt và sử dụng hai môhình là SVM và PhoBERT [12] để phân loại văn bản thành các trường thông tin cần
trích xuất [13] Với bộ dữ liệu Vi-BCI, nhóm tác giả đã áp dụng mô hình SAST [14]của thư viện PaddleOCR, một thư viện mã nguồn mở cho tác vụ phát hiện văn bản
và mô hình TransformerOCR của VietOCR cho tác vụ nhận diện thông tin có trên
hình ảnh bìa cuốn sách [6]
15
Trang 26Thu ngân cast —
Gò Vap||iNgay 30.03.2019|I|Tiền Thanh
Hình 6: Mô tả đầu vào và đầu ra của task (2) trích xuất 4 thông tin chính trên hìnhảnh hóa đơn tiếng Việt trong cuộc thi MC-OCR RIVF 2021 Nguồn: RIVF2021
MC-OCR Competition.
Sau khi hoàn thành tác vụ phát hiện và nhận diện thông tin văn bản trên hình
ảnh, cần phải có một tác vụ cụ thê hơn đề giải quyết bài toán trích xuất thông tin
trên các loại dữ liệu có cấu trúc văn bản hoặc bán cấu trúc, ví dụ như hóa don, tacần phân loại văn bản thành các trường thông tin như tên cửa hàng, địa chỉ, tổng số
tiền, ngày lập hóa đơn đối với bộ dit liệu hóa đơn; hoặc với dữ liệu là ảnh Chứng
minh nhân dân hoặc căn cước công dân, ta cần phải phân loại văn bản thành tên, SỐ
CMND/CCCD, quê quan, dia chỉ, và các trường thông tin khác Vi dụ, ở bộ dir liệu
Vi-BCI, bài báo đầu tiên chỉ đề cập đến việc phát hiện và nhận diện văn bản trên
hình ảnh bìa sách [6], nhưng chưa thực hiện phân loại các văn bản đó thành 4
trường thông tin cụ thể đã nêu trên, một nhóm nghiên cứu khác đã viết một bài báo
được chấp nhận đăng tại hội nghị RIVF 2023 [15] nhằm phân loại các trường văn
bản thành 4 trường cụ thé và đạt độ kết quả là 0.0973 khi đánh giá theo CER trên
mô hình Bi-LSTM Hình 7 dưới đây mô ta đầu vào và dau ra của bài toán trích xuất
thông tin trên anh bìa sách dựa trên bộ dữ liệu VI-BCI.
16
Trang 27Đâu vào Đâu ra
C— Món Xưa VỊ Nay||/Top Chef Việt Nam Võ
AJ, ÑẨ +51 oe RE
NỮIIINÉT DUGNG ĐẠI TRONG AM THỰC
VIỆT
aN ale ill
Hinh 7: Dau vao va dau ra cua bai toan trich xuat thong tin trén hinh anh bia sach.
Nguồn: Nhóm tac gia
Với tác vu phân loại văn bản thành các trường thông tin chính, hiện nay có
nhiều hướng tiếp cận, tuy nhiên trong những năm gần đây, hầu hết các nhóm nghiêncứu đã kết hợp các đặc điểm multi-modal dé nâng cao tính chính xác của mô hình
Key Information Extraction, các phương pháp đó như sau:
- Grid-based: Các mô hình này tập trung chủ yếu vào việc hợp nhất các
thông tin multi-modal ở cấp độ hình ảnh, thường cho dir liệu có cấu trúc
văn bản và không bị phức tạp, ví dụ như mô hình Chargrid [16]
- Token-based: Các mô hình này đề cập đến mô hình NLP như Bert, mã hóa
vị trí, tầm nhìn và các đặc trưng khác vào mô hình multi-modal va tiến
hành huấn luyện trước trên các bộ dữ liệu lớn dé khi đưa ra huấn luyện ởcác tác vụ nhỏ tiếp theo, chỉ cần một bộ dữ liệu nhỏ với bộ nhãn thì sẽ cóđược một mô hình có kết quả tốt, ví dụ như các mô hình LayoutLM [17],
LayoutLMv2 [18], LayoutXLM [19], Structext [20].
17
Trang 28- GCN-based: Các mô hình này sẽ cố gắng học thông tin về cấu trúc giữa
hình anh và các ký tự dé giải quyết van dé trích xuất thông tin ở các tập dữliệu không được huấn luyện, chăng hạn như GCN [21], SDMGR [22] va
các thuật toán khác.
- End-to-end based: Các mô hình nay đưa công nghệ OCR và KIE vào một
mạng chung để học và tăng cường lẫn nhau trong quá trình học Ví dụ như
mô hình TRIE [23]
Do tính chất đề tài nghiên cứu của chúng tôi có nhiều điểm tương đồng vớicác đề tài nghiên cứu ở trên về các kỹ thuật phát hiện, nhận diện và phân loại văn
bản, nhất là đối với bài toán Trích xuất thông tin khóa trên hóa đơn tiếng Việt, vì
vậy chúng tôi đã tham khảo, học hỏi và áp dụng một sỐ phương pháp đã được trìnhbày ở trên vào khóa luận này nhằm đạt được kết quả tốt nhất cho bài toán chính cầngiải quyết của chúng tôi
18
Trang 29CHƯƠNG 2 BÀI TOÁN TRÍCH XUẤT THÔNG
TIN TREN ANH CHUNG CHỈ TOEIC NGHE VA
DOC.
2.1 Đặt van dé và xây dựng bài toán chính của đề tài
Ban chất của van dé số hóa các chứng chỉ tiếng Anh nói chung hay chứng chiTOEIC Nghe và đọc nói riêng là bài toán trích xuất văn bản trên hình ảnh có chứavăn bản, bài toán này đang được rất nhiều nhà nghiên cứu quan tâm trong thời gian
gần đây, bằng chứng là nhiều nghiên cứu đã được công bố, cũng như được ứng
dụng rộng rãi hơn trong thực tế Cu thé là, bài toán này sử dụng công nghệ Nhậndiện ký tự quang học (OCR) và xử lý ngôn ngữ tự nhiên (NLP) nhằm tự động hóaquá trình trích xuất thông tin về sách từ ảnh giúp tiết kiệm đáng kể chỉ phí nhân sự,
thời gian mà mang lại sự hiệu quả rât cao.
Quay trở lại với bài toán trích xuất thông tin trên ảnh chứng chỉ điểm TOEICNghe và đọc, bản chất của bài toán này là bài toán trích xuất các thông tin chính,
thông tin quan trọng trên hình ảnh (Key Information Extraction) Chúng tôi xác
định đầu vào (Input) và dau ra (Output) chính của bài toán trích xuất thông tin này
như sau:
* Đầu vào: Một ảnh chụp chứng chỉ điểm TOEIC Nghe doc
+ Yêu cầu của đầu vào: Hình ảnh rõ ràng, sắc nét, không bị mờ, không bixoay nghiêng quá 90 độ, mỗi hình ảnh chỉ chứa duy nhất một chứng chỉTOEIC Nghe đọc và hình ảnh có thé chứa các văn bản không liên quan khác ở
Trang 30+ Yêu câu của dau ra: Các chuôi văn bản vê thông tin chứng chi vừa được
- Họ tên: Tran Pham Gia Phu
Hình 8: Ví du mô tả đầu vào và đầu ra cho bài toán trích xuất thông tin từ anh
chứng chỉ TOEIC Nghe và đọc của chúng tôi.
Ta có thé chia bài toán này thành ba tác vụ nhỏ, đó là: (4) Phát hiện, xác định
vị trí có văn bản trên hình ảnh chứng chỉ TOEIC nghe va đọc (Text Detection), (ii)
Nhận diện các văn bản sau khi thực hiện xong thao tác Phát hiện (i) và xuất ra dưới
dạng chuỗi (Text Recognition), (iii) Phân loại các chuỗi văn bản vừa được nhận
dạng thành đúng chính xác tám trường thông tin Tên, Ngày sinh, Số định danh,
Ngày thi, Ngày hết hạn chứng chỉ, Điểm thi nghe, Điểm thi đọc và Tổng điểm
(Field Classfication) Ở trong khóa luân này, chúng tôi có 2 hướng tiếp cận: Một làText Detection kết hợp với Field Classification sau đó tiếp tục xử ly TextRecognition, hai là Text Detection đến Text Recogniton cuối cùng là xử lý Field
Classification Ở hướng tiếp cận thứ nhất, chúng tôi sẽ sử dụng mô hình YOLOv8
cho hai tac vụ là Text Detection và Field Classification, và EasyOCR cho tác vụ
Text Recognition với đầu vào là các ảnh cắt là đầu ra của mô hình YOLOv8, tuy
nhiên hướng tiếp cận này có một vài lỗi rất nghiêm trọng (lỗi sẽ được mô tả chỉ tiết
ở phần phân tích lỗi chương 5), vì thế chúng tôi chuyền sang hướng tiếp cận thứ hai
20
Trang 31Đâu vào và dau ra của từng tác vụ ở moi hướng tiêp cận được mô tả và đính kém hình minh họa như sau:
Hướng tiếp cận thứ nhất:
(i) + (1m) Text Detection and Field Classfication: Xác định vi trí của các văn
bản cần trích xuất trên ảnh chứng chi TOEIC nghe đọc
* Đầu vào: Một hình ảnh chứa một chứng chỉ TOEIC nghe đọc
» Đâu ra: Tọa độ các diém cua Bounding box chứa các văn ban đó, các văn ban đó đã được phân loại thành tám trường thông tin.
(ii) Text Recognition: Nhận diện văn ban đã được xác định vi trí và phân loại
ở tác vu (i) + (1H)
» Đâu vào: Các hình anh đã được cat dựa vao tọa độ dau ra ở tác vụ (1) + (1)
<Input: TOEIC LR Certificate> <Text Detection and Field Classification>
Ho tén: Tran Pham Gia Phu
Số định danh: 052202011241
Ngày sinh: 2002/07/14 Ngày thi: 2022/05/26
Hình 9: Minh họa cho quy trình của hướng tiếp cận thứ nhất
21
Trang 32Hướng tiếp cận thứ hai:
() Text Detection: Xác định vị trí của các văn bản cân trích xuât trên ảnh
chứng chỉ TOEIC nghe đọc
- Đầu vào: Một hình ảnh chứa một chứng chỉ TOEIC nghe đọc
- Đầu ra: Tọa độ các điểm của Bounding box chứa các văn bản đó
(ii) Text Recognition: Nhận diện văn bản đã được xác định vi trí ở tác vụ (i)
+ Đầu vao: Các hình anh đã được cắt ra dựa vào tọa độ đầu ra ở tác vụ (i)
* Đầu ra: Các chuỗi ký tự chứa van ban vừa được nhận diện
(iii) Field Classification:
» Đâu vào: Cac chuoi ký tự dau ra vừa được nhận dang ở tac vu (il) va các đặc trưng của văn bản đó như vi trí (Position), không gian (Layout, Spatial) trên anh
- Đầu ra: Nhãn phân loại của các chuỗi ký tự (Name, ID, DOB, TestDate, )
<Input: TOEIC LR Certificate> <Text Detection>
| Tia Phaco Gia Pt | Geen (asl
=) c— IS _=m_l—=
=<Output: Results>
Hình 10: Minh họa cho quy trình của hướng tiếp cận thứ hai
22
Trang 33Ở tác vụ (iii), với các mô hình KIE thông thường, sẽ dùng hướng tiếp cận
NER (Named Entity Recognition) dé phân loại các văn bản, tuy nhiên, NER thường
sử dụng nội dung của văn bản dé phân loại, sẽ bỏ qua các thông tin về vị trí, không
gian, đặc trưng hình ảnh Vì vậy đầu vào ở tác vụ này của chúng tôi khác với các
mô hình KIE thông thường khác
2.2 Động lực và thách thức cho việc nghiên cứu bài toán
Không thể phủ nhận rằng hiện nay công nghệ OCR được nghiên cứu và ứngdụng rộng rãi trong thực tẾ, tuy nhiên bên cạnh đó, có không ít những thuận lợi và
khó khăn của các nhà nghiên cứu, khó khăn cho những nhà nghiên cứu tiên phong,
và càng đến thế hệ nghiên cứu sau càng ít sự thách thức và nhiều động lực nghiêncứu hơn Ví dụ như Dữ liệu là điều kiện cần và thiết yếu dé thực hiện bất kỳ mô
hình học máy nảo, dữ liệu cho bài toán OCR sẽ là dữ liệu hình ảnh có chứa văn bản,
tuy nhiên, với các nhà nghiên cứu đi trước, muốn thực hiện một mô hình nào đó, họphải tự đi thu thập và xử lý, vì đữ liệu không hề có san cho nên sẽ mat một khoảngthời gian rất lâu đề thu thập và xây dựng, và họ phải tự thiết kế các mô hình phùhợp để huấn luyện trên các bộ dữ liệu đã thu thập Chúng tôi cũng như vậy, hiện
trạng là chúng tôi chưa từng đọc được một công trình nghiên cứu trên bộ dữ liệu
nào về các chứng chỉ TOEIC nghe và đọc, ké ca, IELTS hay TOEFL, hoặc các
chứng chỉ ngoại ngữ khác, có thé có nhưng vì dữ liệu mang tinh chất bao mật, riêng
tư (Vì có chứa thông tin cá nhân trên tam chứng chi) cho nên không được phổ biến
ra cộng đồng, bởi việc sử dụng thông tin cá nhân khi chưa được sự cho phép là bấthợp pháp, từ đó đặt ra thách thức thúc đây chúng tôi cần xây dựng một bộ đữ liệuảnh chứng chỉ tiếng Anh và tự gan nhãn dé làm đầu vào cho các mô hình chúng tôi
đề xuất, thách thức này làm cho chúng tôi mat khá nhiều thời gian và công sức dé
hoàn hành Bên cạnh đó chúng tôi đã có tham khảo và thu thập dữ liệu chứng chỉ
TOEIC nghe và đọc trên Internet, tuy nhiên với số lượng không nhiều cộng vớiphần ảnh bị ảnh hưởng bởi các yếu tô bên ngoài như điều kiện ánh sáng khiến ảnh
bị tối, ảnh bị mờ, bị nhòe, bị các watermark được thiết kế đè lên, bị che đi một phần
23
Trang 34các thông tin cá nhân quan trọng như số định danh, bị xoay dọc xoay ngang khiến
nội dung trong ảnh không thể đọc được, một số ít ảnh bị cắt xén khiến thông tin
được trích xuất bị thiếu, ảnh hưởng đến chất lượng đầu ra Cùng với đó, một sỐ ký
tự gần giống nhau do cùng một phông chữ, cỡ chữ nhỏ nên dé gây nhầm lẫn trongquá trình trích xuất dẫn đến mô hình đã đọc nhằm và thông tin được trích xuất đãgặp một số lỗi không mong muốn
Tuy nhiên, vẫn có một số thuận lợi nhất định giúp cho chúng tôi dé dànghoàn thành nghiên cứu này, đó là dir liệu của chúng tôi là một loại dữ liệu có cấutrúc văn bản hoàn chỉnh, có nghĩa là mỗi ảnh chỉ khác nhau ở nội dung văn bản cầntrích xuất, chứ không khác nhau về vị trí, hơn nữa là phông chữ được cho là cốđịnh, đơn giản, dé đọc, và nội dung văn ban đa số là các ký tự sỐ nguyên từ 0 đến 9,duy nhất chỉ có trường thông tin Tên là ở chuỗi ký tự bảng chữ cái, mà mặc dù làtên của người Việt ta nhưng các ký tự ấy không có dấu như các ký tự tiếng Việt và
mặc định là tên người Việt mình sẽ không có các ký tự ‘J’, “W’, ‘Z’’, vì vậy nên mô
hình nhận diện sẽ đỡ nhầm lẫn hơn Ở một khía cạnh khác, chúng tôi còn nhận thayđộng lực nghiên cứu từ các nhà phát triển ở các đề tài trước sử dụng công nghệ
OCR, chúng tôi chỉ cần ứng dụng, kế thừa lại mô hình của họ và điều chỉnh tham
sô, cho huân luyện trên bộ dữ liệu của chúng tôi.
2.3 Các phương pháp giải quyết bài toán
Dựa vào cách đặt van dé, phân tích điều kiện cần và nội dung của bài toáncũng như những thuận lợi và khó khăn, dé giải quyết bài toán chính, chúng tôi dé
xuất các bước dé giải quyết các van dé này như sau:
» Xây dung bộ dit liệu chứa ảnh các chứng chỉ TOEIC nghe đọc và bộ dữ
liệu đạt hơn 8,800 điểm dữ liệu, bộ dit liệu phải đa dạng góc nhìn, đa dạng chứng
chỉ TOEIC với nhiều văn bản khác nhau và hoàn thành việc gán nhãn theo định
dạng định dạng PaddleOCR ở cả ba tác vụ (1), (11) va (11) cho bộ dữ liệu Còn với
định dang PaddleOCR, ở tác vụ (1) nhãn là tọa độ của bốn đỉnh bounding box chứa
van bản cân xác định vi trí, sang tac vụ (ii) nhãn là nội dung của chuôi ky tự cân
24
Trang 35được nhận diện và với tác vụ (iii) nhãn là các lớp của văn bản cần trích xuất đã
được phân thành tam nhãn, đó là các nhăn (NAME, DOB, ID, TESTDATE,
VALIDUNTIL, LISTENINGSCORE, READINGSCORE và TOTALSCORE)
- Huan luyện mô hình YOLOv8 cho tác vu phát hiện van bản và phân loạivăn bản, sau đó sử dụng mô hình nhận diện văn bản có san như EasyOCR dé nhậndiện các văn bản được xác định vi trí bằng mô hình YOLOv8
* Huấn luyện các mô hình SAST, DB++ của PaddleOCR (PP-OCR) cho tác
vụ (i) xác định vi trí văn bản cần trích xuất trên ảnh chứng chỉ TOEIC nghe và đọc
* Huấn luyện các mô hình CRNN, SRN và ABINet của Paddle cho tác vụ (ii)
nhận diện văn bản cần trích xuất trên ảnh chứng chỉ (Được xác định vị trí bang tac
vu (i))
* Huan luyện mô hình VI-LayoutXLM là một mô hình multimodal của
PaddleStructure (PP-Structure) và mô hình SDMGR cho tác vụ (11) phân loại các
chuỗi văn bản cần trích xuất vừa được nhận diện ở tác vụ (11) thành tam trườngthông tin chính, với hướng tiếp cận của mô hình này là SER (Semantic EntityRecognition), vì vậy mô hình này cần có thêm đầu vào là thông tin về vị trí của văn
bản, đặc trưng về không gian, hình ảnh
Xây dựng dữ liêu ® Xây dựng bộ dữ liệu chứng chi TOEIC với khoảng
hơn 8800 ảnh.
Huấn luyện mỏ hình YOLOv8 cho tic vụ phát
hiện và nhân lớp sẵn thông tin cần trích xuất,
sau đỏ cho thử nhận diện van ban vừa được
phát hiện với các mỏ hình nhận diện văn ban
đã có sẵn như EasyOCR, Tesseract.
Huãn luyện mỏ hình SAST, DB++ của
Phát hiên văn ban PaddleOCR cho tác vụ xác định vị trí văn ban cần
trich xuất trên ảnh chứng chỉ.
Phương pháp thử nghiệm
Huan luyện mỏ hình CRNN, SRN, SAR và "ms = 2
ABINet của PaddleOCR cho tac vụ nhận diện © Nhan di€n van ban
văn bản cần trích xuất trên ảnh chứng chỉ,
Huấn luyện mỏ hinh VI-LayouXLM của
Phân loại văn bản PaddlkOCR với hướng tiếp cận là SER cho tác
vu phản loại vin ban cần trích xuất thành tắm trưởng thông tin chỉnh
Hình 11: Mô hình minh họa cho các bước thực hiện đề tài
25
Trang 36CHƯƠNG 3 XÂY DỰNG BỘ DỮ LIỆU CHO
BÀI TOÁN TRÍCH XUẤT THONG TIN TREN
ẢNH CHỨNG CHÍ TOEIC NGHE ĐỌC.
3.1 Xây dựng bộ dữ liệu.
Sau khoảng 2 tuần tìm hiểu về dé tai và bộ dữ liệu cho bai toán trước khi bắtđầu cho việc nghiên cứu, chúng tôi rút ra được những khó khăn về việc thu thập dữliệu trên mạng đã nêu ở phần 2.2 chương 2, chúng tôi sẽ nhắc lại như sau: “chúng
tôi đã có tham khảo và thu thập dữ liệu chứng chỉ TOEIC Nghe đọc trên Internet,
tuy nhiên với số lượng không nhiều cộng với phan ảnh bi ảnh hưởng bởi các yếu tốbên ngoài như điều kiện ánh sang khiến ảnh bị tối, ảnh bị mờ, bị nhòe, bị cácwatermark được thiết kế đè lên, bị che đi một phần các thông tin cá nhân quan trọngnhư số định danh, bị xoay đọc xoay ngang khiến nội dung trong ảnh không thé đọcđược, một số ít ảnh bị cắt xén khiến thông tin được trích xuất bị thiếu, ảnh hưởng
đên chat lượng đâu ra, và một sô lôi khác ”.
= 5 = = Cea Repiasenfaion of STS: Vielnah NG Eduelieh tao, LƠIBdjtsdef cảm oán" Heda igen 2 Han ©
(a) (b)
Hình 12: Mô tả các khó khăn gặp phải khi thu thập dữ liệu trên Internet Hình (a):
Ảnh mờ, không thấy rõ chữ Hình (b): Không đủ thông tin, bị che phần thông tin ID
và Ngày sinh.
Chính vì những yếu tố trên đã thúc đây chúng tôi phải tạo ra một bộ dữ liệu
“giả lập” trên khung nền của chứng chỉ TOEIC Nghe đọc thật, có nghĩa là hình ảnh
26
Trang 37các chứng chỉ TOEIC nghe đọc có đầy đủ tám trường thông tin giống với thực tế
nhất, tuy nhiên chủ nhân của những chứng chỉ này không có thật, điều này giúp chochúng tôi không phải lo nghĩ về chuyện bản quyền hay xin phép chủ sở hữu củanhững tắm chứng chỉ Chúng tôi sẽ mô tả chỉ tiết quy trình tạo ra bộ đữ liệu như
Hình 13: Sơ đồ mô tả quy trình xây dựng bộ dit liệu
* Bước 1: Tạo phôi chứng chỉ TOEIC nghe và đọc trắng không chứa văn bản
ở trong trình soạn thảo văn bản Word với các thông tin cần điền được nằm trong
dâu ngoặc “<<” và “>>”:
* Bước 2: Tạo các trường thông tin ngẫu nhiên bang cách sử dụng các hàm
trong bảng tính Excel, sau đấy kết hợp với chức năng Mailing trong Word Riêng ởphần ảnh chân dung, chúng tôi thấy đây không phải là một thông tin cần trích xuất,
vì vậy chúng tôi sẽ không ghép các ảnh chân dung vào.
* Bước 3: In màu cho các chứng chỉ vừa được tạo, sau đó chụp hình các
chứng chi được ấy, mỗi chứng chi sẽ được chụp bốn tắm ở bốn góc độ khác nhau.
27
Trang 38Hình 15: Minh họa về bốn hình ảnh của một chứng chỉ TOEIC chụp ở các góc chụp
khác nhau
3.2 Hướng dẫn gán nhãn dữ liệu và quá trình gán nhãn dữ liệu
* Hướng dẫn gan nhãn dữ liệu:
Đầu tiên, chúng tôi sẽ định nghĩa nhãn của tám trường thông tin: Tên, Ngày
sinh, số định danh, Ngày thi, Ngày hết hạn chứng chỉ, Diém thi đọc, Điểm thi nghe
và Tông điêm băng bang sau:
STT
0 Là nhãn cua trường thông tin chứa
họ và tên của thí sinh
ID Là nhãn của trường thông tin chứa