Chúng tôi sử dụng mô hình EAST,SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản đ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VÕ KIEU HOA - 18520767 NGUYEN THỊ THÁM - 18521384
KHÓA LUẬN TÓT NGHIỆP
TRÍCH XUẤT THONG TIN TREN
BIA SACH TIENG VIET
INFORMATION EXTRACTION FROM
VIETNAMESE BOOK COVER IMAGES
CU NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
ThS TA THU THUY
TP HO CHi MINH, 2022
Trang 2THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày
fee beee eee eeeeee eee của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
| rer rn reas - Chu tich
Qe Q22 n nh này - Thư ký
¬ een ee ee - Ủy Viên
Trang 3LỜI CẢM ƠN
Lời đầu tiên chúng em chân thành gửi lời cảm ơn đến quý Thầy/Cô trong Khoa Khoa
học và Kỹ thuật Thông tin thuộc Trường Đại học Công Nghệ Thông Tin - Đại học
Quốc Gia Thành Phó Hồ Chí Minh đã tận tình giúp đỡ chúng em trong quá trình họctập, nghiên cứu và tạo điều kiện để chúng em thực hiện Khóa luận Tốt nghiệp Đặcbiệt, chúng em xin cảm ơn sâu sắc đến thầy Dé Trọng Hợp cùng cô Tạ Thu Thủy đãdành nhiều thời gian, hết lòng hỗ trợ và hướng dẫn tận tình cho nhóm chúng em từ
kiến thức và quy trình thực hiện trong suốt thời gian làm Khóa luận Tốt nghiệp Cuối
cùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và anh chị đã luôn ủng hộ,
động viên và đồng hành cùng chúng em trong cuộc sông cũng như trong quá trình học
tập tại Đại học Công Nghệ Thông Tin.
Thành phố Hồ Chí Minh, ngày tháng năm 2022
Tac giả khóa luậnNguyễn Thị Thắm - Võ Kiều Hoa.
Trang 4ĐỀ CƯƠNG CHI TIẾT
TÊN DE TÀI: TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIENG VIET.
TEN DE TAI (tiéng Anh): INFORMATION EXTRACTION FROM VIETNAMESE
BOOK COVER IMAGES.
Cán bộ hướng dẫn:
TS Đỗ Trọng Hợp
ThS Tạ Thu Thủy
Thời gian thực hiện: Từ ngày 10/02/2022 đến ngày 10/07/2022
Sinh viên thực hiện:
— Nghiên cứu các mô hình, các kỹ thuật liên quan cho bài toán trên.
— Chạy thực nghiệm các mô hình và các kỹ thuật để kiểm chứng độ chính xác
và đánh giá hiệu suất của các mô hình đã thực nghiệm
— Cải thiện độ chính xác của mô hình và chọn ra mô hình tốt nhất cho bộ dữ
liệu.
— Xây dựng ứng dụng hỗ trợ quản lý sách cho người dùng.
» Pham vi nghiên cứu:
— Miền dữ liệu ảnh là ảnh tự chụp bìa sách Tiếng Việt, nguồn thu thập là ảnh
bìa sách được chụp từ nhà sách, thư viện.
V
Trang 5— Chúng tôi chọn bìa sách Tiếng Việt vì hiện nay dữ liệu sách Tiếng Việt ngàymột nhiều mà các nghiên cứu trên nó còn nhiều hạn chế Mặt khác, chưa có
bộ dữ liệu bìa sách Tiếng Việt nào có thể đáp ứng nhu cầu nghiên cứu và ứng
dụng.
s Các công trình nghiên cứu liên quan:
— Bài báo ở tạp chí khoa học Da Lạt: “VIETNAMESE TEXT EXTRACTION
FROM BOOK COVERS”[I] Nghiên cứu nhận dạng văn ban tiếng Việt từảnh bìa sách Các bước xử lý bao gồm: tiền xử lý ảnh bìa sách ở đầu vào,
định vị các vùng chứa văn bản, áp dụng kĩ thuật nhận dạng ký tự quang học
(OCR), sử dụng từ điển để nâng cao độ chính xác của văn bản nhận diện
được Ở bước tiền xử lý ảnh đầu vào bao gồm các kĩ thuật: skew,
de-noise, enhance, crop,remove background Ở bước detection va OCR, tác gia
huấn luyện với mô hình Tesseract sau đó sử dung từ điển để chuẩn hóa vănbản đầu ra.Kết quả đạt được tốt nhất với 82% accuracy (ảnh đầu vào kíchthước tối thiểu 300px mỗi chiều)
— Bài báo khoa học “FUNSD: A Dataset for Form Understanding in Noisy
Scanned Documents”[2] nghiên cứu trích xuất thông tin từ các mẫu đơn.Đầu vào là các mẫu đơn đã được điền nội dung, đầu ra trích xuất được thông
tin dưới dạng quan hệ khóa-giá trị( key-value) với khóa(key) là các từ khóa
được in sẵn trên đơn và giá trị(value) là nội dung được điền vào tương ứngvới khóa Nghiên cứu thực hiện 3 nhiệm vụ và kết quả tương ứng:
1 ext detection: Sử dụng 4 phương pháp Tesseract, EAST, Google Vision,
Faster R-CNN đạt kết quả cao nhất với mô hình Faster R-CNN với Recall
bằng 84.8%, F1-score bằng 0.76%.
2 Text recognition với OCR: Sử dụng 2 phương pháp Tesseract và Google
Vision và đạt kết quả OCR bằng 94.4%
3 Form understanding: với ba nhiệm vụ nhỏ Nhiệm vụ nhóm từ( word
vi
Trang 6grouping) đạt ARI(the adjusted index) là 0.41% với phương pháp Google
Vision, với nhiệm vụ nhận dạng thực thé (entity labeling) đạt Fl-score
bang 0.57%, nhiệm vụ liên kết thực thé (entity linking) đạt F1-score bằng
0.04%.
« Đối tượng:
~ Bài toán trích xuất thông tin trên bìa sách Tiếng Việt
— Ngôn ngữ Tiếng Việt
= Các hình ảnh chụp bìa sách Tiếng Việt chứa các nội dung: Tên sách, tên tácgiả, tên nhà xuất bản
s Phương pháp thực hiện:
— Xây dựng tập dữ liệu:
+ Thu thập dữ liệu: các hình ảnh chụp bìa sách được chụp thủ công bằng
nhiều thiết bị điện thoại di động
+ Tao bộ dữ liệu: Chúng tôi sử dụng công cu gan nhãn PaddleOCR dé gan
nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường
nào trong ba trường: Tên sách, tên tác giả, tên nhà xuất bản
~— Bài toán: số hóa tủ sách - trích xuất thông tin sách từ ảnh bìa sách Tiếng
Việt.
+ Đầu vào: ảnh bìa sách.
+ Đầu ra: Thông tin của sách gồm: tên sách, tên tác giả, tên nhà xuất bản.
— Nghiên cứu phương pháp thực nghiệm: bài toán được thực hiện bởi ba nhiệm
vụ chính: text detection, text recognition, form understanding( word
group-ing, semantic entity labeling)
+ Text detection: Đối với bài toán text detection chúng tôi sử dụng nhiều
mô hình như: EasyOCR[3], Craft[4], PAN, PaddleOCR[5]để so sánh,
Vii
Trang 7e Tên tác giả: NGUYEN
THÀNH VÁN DƯƠNG HIẾU BAU
-e _ Tên sách: Cơ Nhiệt đại
đánh giá và tìm ra mô hình tốt nhất với bộ dữ liệu Sử dụng độ đo đánh
giá IoU để đo độ khớp của bounding box dự đoán so với bounding box
bounding box dự đoán có IoU >= 0.5 được coi là khớp Trong trường
hợp có nhiều bounding box thỏa mãn, bounding box có IoU lớn nhất
sẽ được chon (True Positive — TP); các bounding box còn lại được
tính là (False Positive — FP) False Negative - FN: trường hợp tôn taibounding box thực tế nhưng mô hình không detect được
- Precision va Recall để đo độ chính xác và độ phủ của mô hình text
detection.
so TP TP
Precision = TP ap Reeall = TPLFN
viii
Trang 8- Độ đo H-mean là trung bình điều hòa của Precision và Recall.
Hmea 2.Precision.Recall
mean ==———————
Precision + Recall
+ Text recognition: Ở bài toán này chúng tôi sử dung hai mô hình EasyOCR
và VietOCR Trong đó EasyOCR là mô hình pre-train hỗ trợ hơn 80
ngôn ngữ trong đó có Tiếng Việt VietOCR là mô hình pre-train trên
Tiếng Việt được huấn luyện trên tập dữ liệu gồm 1 triệu ảnh, bao gồm
đa dạng loại ảnh Chúng tôi sử dụng độ đo CER(character error rate) và
WER(word error rate) CER va WER là hai độ đo được sử dụng phổ biến
trong bài toán OCR.
- word grouping: Mỗi bìa sách, các thông tin của bìa sách đặc biệt là tên
cuốn sách được thiết kế rời rạc, nhiều hình dạng trong quá trình gánnhãn thì tên của một bìa sách có thể phải dùng đến nhiều bounding
box để gán Do đó task này thực hiện ghép các văn bản trong cùng
một nhãn về thành câu có nghĩa Độ đo đánh giá sử dụng ARI (theadjusted index) là một độ đo phổ biến dùng để tính hiệu suất phân
nhóm, là một biến thể của chỉ số Rand index Giả sử C là phép gán
1X
Trang 9nhãn đung của các đối tượng, K là bộ phân cụm thì a,b được địnhnghĩa như sau: a là số lượng các cặp điểm ở cùng một tập trên C vàcùng một tập trên K Còn b là số lượng các cặp điểm ở các tập khác
nhau trên C và ở các tập khác nhau trên K Chỉ số Rand index là:
bảo rằng các phép gán nhãn ngẫu nhiên sẽ có giá trị gần bằng 0 (đặc
biệt nều số cụm có cùng độ lớn với số lượng mẫu) Để tránh được hạnchế này, ARI thực hiện chiết khấu RI dự kiến — E(RI) của các phép
gán nhãn ngẫu nhiên, với công thức:
R1 — E[RI]
ARI = ————
max(RI) — E[RI]
- semantic entity labeling: Sau khi có được thông tin văn bản của cuốn
sách là đầu ra của các task nói trên, công việc thực hiện ở nhiệm vụnày là phân loại đúng thông tin của cuốn sách về đúng nhãn tươngứng: Tên sách, Tên tác giả, Tên nhà xuất bản Độ đo sử dụng đánh giá
là Precision, Recall, F1-score.
+ Ngoài ra chúng tôi sử dụng mô hình Detectron2 để thực hiện tiền xử lý
background của ảnh bìa sách.
+ Kết quả mong đợi:
— Xây dựng được bộ dữ liệu ảnh bìa sách khoảng 10.000 ảnh chụp bìa sách
phục vụ cho bài toán số hóa tủ sách
x
Trang 10— Thực nghiệm được nhiều mô hình, sử dụng các kỹ thuật xử lý để nâng caokết quả mô hình, tìm được mô hình tốt nhất với bộ dữ liệu Kết quả dự kiếnvới độ do đánh giá h-mean, fl-score từ 75% trở lên và CER, WER tối đa
25%.
— Xây dựng được ứng dụng trích xuất thông tin từ ảnh chụp bìa sách để phục
vụ cho việc quản lý sách.
KẾ hoạch thực hiện: chúng tôi thực hiện đề tài số hóa tủ sách trong 5 tháng và kế
Sinh viên
Công việc
Tìm hiểu tô
Thắm Hoahoạch thực hiện chỉ tiết trong bảng hình 1
Xây dựng bộ dữ
Tháng 2 |Tháng 3 |Tháng 4 | Thang 5Š | Tháng 6
liệu 4mm
| pháp thực nghiệm
Báo cáo Thắm, Hoa
Hình 1: Tóm tắt thực hiện đề tài trong 5 tháng.
xi
Trang 11MỤC LỤC
DANH MỤC BẢNG xiv DANH MUC HINH xv
TOM TAT KHOA LUAN 1
MO DAU 3
1 Chuong 1 TONG QUAN 7
ll Gidithidudétai 2 ee 7 1.2 Tínhứngdụngcủađềtà 8
13 Kétlan 2 eee 8 2 Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIẾNG VIỆT 10
21 Bài toán trích xuất thông tin trên bìa sách tiếng Việt 10
22 nhấchthứúc À AP cưy 11
2.3 Phương pháp đề xuất giải quyết bài toán 11
3 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN 13
3.1 Các công trình nghiên cứu trên ngôn ngữ nước ngoài 13
3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt 16
33 Kếtuận Q.2 eee 18 4 _ Chương 4 XÂY DỰNG BỘ DU LIEU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIENG VIỆT 19
4.1 Thuthậpdữliệu 2 ee 19 42 — Gánnhãndữliệu co 20 4.2.1 Hướng dẫn gán nhãn dữ liệu 20
42.2 — Quátrình gánnhãn dữ liệu 21
43 Phântchbộdữliệu 21
5 Chương 5 CÁC PHƯƠNG PHÁP TIẾPCẬN 23
51 Tiềnxửlýdđữliệu ee 24 5.1.1 Tiền xử ly chia dữ liệu tập huấn luyện, tập kiểm thử và tập đánh giá 24 5.1.2 Tiền xử lý dữ liệu cho mô hình phát hiện văn bản (TextDetection) 24
xii
Trang 125.1.3 Tiền xử lý dữ liệu cho mô hình Text Recognition 25
5.1.4 Tiền xử lý dữ liệu cho mô hình Object detection 27
5.2 Bài toán phát hiện chữ trên anh (Text Detection) 29
5.2.1 Hệ thống nhận dang chữ viết PaddleOCR 29
5.2.2 Mô hình EAST 29
5.2.3 Mô hình SAST 31
5.2.4 Mô hình CRAFT 33
5.3 Bài toán nhận diện chữ trên anh (Text Recognition) 34
5.3.1 Mô hình CRNN trong hệ thống PP-OCR 34
5.3.2 Mô hình SVTR-LCNet trong hệ thống PP-OCR 36
5.3.3 Thư viện VietOCR 37
5.4 Bài toán xử ly tổng hợp thông tin 38
5.4.1 Mô hình Yolov4 38
6 Chương 6 CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ 40
6.1 Cài dat, thucnghiém 40
6.1.1 Bài toán phát hiện văn ban (Text Detection) 40
6.1.2 Bài toán nhận diện văn bản 42
6.1.3 Phân loại va tổng hợp thongtin 43
6.2 Kết quả thực nghiệm và đánhgiá 46
6.2.1 Độ đo đánh giá 46
6.22 Kết quả thực nghiệm, phân tích và đánh gid 51
7 Chuong 7 KẾT LUẬN VÀ HƯỚNG PHATTRIEN 54
7.1 ẽố' \ / Ẳ®ẰG VÝ\ K “ááaa 54
72 HướngpháttriỂn Ặ.ẶVc 55
TÀI LIỆU THAM KHẢO 56
xiii
Trang 13\á© œ ¬l Ầ CC: +> C2) t =
DANH MỤC BANG
Các mô hình được được si dung 40
Tham số sử dụng huấn luyện các mô hình phát hiện văn ban 41
Tham số sử dụng huấn luyện các mô hình nhận diện văn ban 2 42
Tham số sử dụng huấn luyện các mô hình Yolov4 44
Minh hoa dữ liệu text sau khi xử lý được 45
Kết quả mô hình phát hiện văn ban (Text Detection) 51
Kết quả mô hình nhận diện văn ban (Text Recognition) 51
Kết quả mô hình Yolov4 sau xửlý - 52
Kết quả cuối cùng sau tất cả các bước xử ly 53
XIV
Trang 1411
12
13
14
15
16
17
18
DANH MỤC HÌNH
Tóm tắt thực hiện đề tài trong 5 tháng
Ví dụ mô tả đầu vào và đầu ra của bài toán trích xuất thông tin từ bìa sách tiếng Viet ee Sơ đồ chuỗi các phương pháp đề xuất giải quyết bài toán trích xuất thông tin từ bìa sách tiếng ViỆt ee Một số ví dụ về văn bản có cấu trúc Hình (a) ảnh chụp trang sách in Hình (b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân .Ặ.Ặ.ẶẶ ee Mot số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ
Một số hình ảnh ví dụ trong bộ dữ liệu COCO-text Nguồn: ICDAR2017 Robust Reading Challenge on COCO-Tlext
Vi du nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn: IC-DAR2017 Robust Reading Challenge on COCO-Text
Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn trong cuộc thi ICDAR 2019
Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa don trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình anh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021 MC-OCR Competition
Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competilon
10 hình anh của một bìa sách được chụp với các góc chụp va background Mô phỏng các bước gan nhãn ảnh bìasách
Lưu đồ khối thể hiện quy trình gan nhãn bộ dữ liệu Vi-BCI
Ảnh bìa sách và nhãn của
ảnh Hình mô phỏng tổng quan phương pháp
-Hình mô tả phân phối dữ liệu bộ dữ liệu Vi-BCIL
Minh họa kết quả mô hình phát hiện văn bản CRAFT trước và sau khi xoá background Q ee Hình minh họa ảnh trước và sau khicắtảnh
XV
XI
12
Trang 1520
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Hình mô tả phân phối dữ liệu bộ dữ liệu nhận diện văn bản
Hình mô tả nhãn cho bộ dữ liệu nhận diện vănbản
Minh hoạ nhãn sau khi chuẩn hoá cho mô hình Yolo
Hình thống kê thuật toán và hiệu suất hoạt động các mô hình phát hiện văn bản của PaddleOCR
Kiến trúc của FCN trong phát hiện văn bản .
So sánh các công trình trước đó với EAST, (a) Horizontal word detection and recognition pipeline [6]; (b) Multi-orient text detection pipeline[7]; (c) Multi-orient text detection pipeline [8] ; (d) Horizontal text detection using CTPN[9]; (e) EAST 2 ee eee So sánh kết quả khi sử dung hai mô hình: hình (a) mô hình EAST, hình (b) mô hìnhSAST Q ee Tổng quan kiến trúc mô hìnhSAST
Kiến trúc mô hình CRAFT Nguồn: Bài báo "Character Region Aware-ness for Text Detection"[4]
Kiến trúc mô hình CRNN công bố tại bài báo "PP-OCR: A Practical Ultra Lightweight OCR System"[10] vào năm 2015
Kiến trúc tổng thể của mô hình SVTR công bồ tại bài báo "SVTR: Scene Text Recognition with a Single Visual Model"[lI]
Kiến trúc mô hình SVTR-LCNet Nguồn: Bài báo "PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System"[12] Kiến trúc mô hình Transformer
-Hình so sánh DarkNet53 với CSPDarkNe53
Mô phỏng trước và sau khi huấn luyện mô hình SAST
Mô tả dau ra của mô hình nhận diện văn ban .
Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình Yolov4 cho bài toán phân loại đối tượng chứa văn bản
Mô phỏng cách tính tỉ lệ giao nhau giữa boundingbox của Yolo và box của mô hình phát hiện vắnbản
Mô phỏng toa độ tâm của box và gom nhóm các box
Hình mô phỏng cách tính độ đoloU
Ma trận nhằm lẫn phân loại đối tượng chứa văn bản
Minh hoạ kết quả đầu ra hệ thống của chúngtôi
XVI
Trang 16DANH MỤC TỪ VIẾT TẮT
Accfullseq Accuracy full sequence
Accperchar Accuracy per character
Accperword —= Accuracy per word
AP average precision
CAB Context Attention Block
CER Character error rate
CNN Convolutional Neural Network
CTC Connectionist Temporal Classification
CRAFT Character-Region Awareness For Text detection
CRNN Convolutional Recurrent Neural Network
EAST Efficient and Accurate Scene Text detection
FCN Fully Convolutional Network
Trang 17You Only Look Once version 4
XVili
Trang 18số hóa giúp tiết kiệm không gian lưu trữ và dễ dàng quản lý.
Theo thống kê của Thư viện Quốc gia Việt Nam, số lượng sách hàng năm đạt
khoảng 26.000 đầu sách, có tới 80% sách giáo khoa, giáo trình Hệ thống thư viện công cộng đã phát triển từ tỉnh tới huyện và đang vươn tới nhiều xã trên toàn quốc, khắp từ Bắc tới Nam, bao gồm 64 thư viện tỉnh, 587 thư viện huyện và khoảng 10.000
thư viện và tủ sách cơ sở ở xã Trong loại thư viện phục vụ công chúng rộng rãi còn
phải kể tới 10.000 tủ sách pháp luật xã và cũng khoảng trên 10.000 điểm bưu điện văn hoá xã Tại các vùng nông thôn Việt Nam đã có khoảng 3 vạn điểm đọc sách báo
cho người dân Quy mô của các thư viện tỉnh và huyện ngày càng được mở rộng về số
lượng bản sách, nhân viên phục vụ, trụ sở thư viện và kinh phí hoạt động Thêm vào
đó các loại cửa hàng sách đã phát triển rất nhanh trong mấy năm qua, đặc biệt ở các thành phố lớn Nhiều nhà sách với chuỗi cửa hàng bán sách ra đời, các cửa hàng bán
sách theo chuyên dé cũng moc lên rất nhiều, các siêu thị sách Cho đến nay chúng
ta đã có 12.000 cửa hàng sách và nhà sách tư nhân Xây dựng, phát triển hệ thống hỗ trợ các thư viện, nhà sách đang tự động hoá, chuyển đổi từ thư viện truyền thống sang
thư viện điện tử/thư viện số cần thiết và thực tế cho gia đoạn hiện nay.
Trong khóa luận này, chúng tôi xây dựng hệ thống trích xuất thông tin từ bìa sách
tiếng Việt như tác giả, tên sách, nhà xuất bản Hệ thống được xây dựng nên từ 3
Trang 19nhiệm vụ nhỏ bao gồm xác định vị trí chữ trên bìa sách (text detection), nhận dạng chữ (text recognition) va tong hợp thông tin Chúng tôi sử dụng mô hình EAST,
SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR
và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản được nhận dạng ở hai giai đoạn trước được tổng hợp, phân loại ra các trường thông tin
tác giả, tên sách, nhà xuất bản cụ thể bằng mô hình Yolov4 kết hợp phương pháp xử
lý của chúng tôi Đồng thời, chúng tôi xây dựng bộ dữ liệu ảnh gồm 7.875 bìa sách
tiếng Việt gán nhãn để thực hiện huấn luyện các mô hình Các mô hình huấn luyện
đạt được kết quả khả quan.
Trang 20Đặt van đề
Công nghệ ngày nay đã phát triển vượt bậc, làm cho cuộc sống của chúng ta trổ
nên tiện nghi hơn rất nhiều Tuy nhiên, khoa học - kỹ thuật công nghệ sẽ tiếp tục được
nâng lên và tối ưu hóa công việc con người trở nên đơn giản, nhẹ nhàng và tiết kiệm
hơn.
Sách là nơi lưu giữ những tinh hoa, kiến thức bổ ích Sách mở ra những chân trời mới, cung cấp nguồn kiến thức vô tận về mọi lĩnh vực trong cuộc sống Sách chứa đựng nguồn kiến thức khổng 16 và giúp con người giao lưu với thế giới bên ngoài, tiếp cận
với nền văn minh nhân loại.
Với lòng yêu sách và cũng là người yêu công nghệ và làm về công nghệ, chúng tôi
muốn thực hiện xây dựng một hệ thống sử dụng công nghệ OCR trong việc hỗ trợ
quản lý sách tiếng Việt Hệ thống chúng tôi xây dựng với mục tiêu hướng đến số hóa
tủ sách nhằm hỗ trợ các mô hình nhà sách, thư viện, tủ sách cá nhân trong việc ghi chép thông tin của các cuốn sách bằng cách ứng dụng OCR trích xuất thông bìa sách bao gồm tác giả, tên sách, nhà xuất bản , từ đó hỗ trợ con người quản lý sách cách dễ dàng và tiết kiệm.
Mục tiêu khóa luận
Trong khóa luận này, chúng tôi tập trung xây dựng bộ dữ liệu ảnh và thực hiện
huấn luyện các mô hình học máy trong việc trích xuất thông tin từ bìa sách Chúng
tôi đặt ra các mục tiêu như sau:
» Thứ nhất, chúng tôi tiến hành xây dựng bộ dữ liệu ảnh bìa sách với tổng số lượng
ảnh đặt ra là 7.000 ảnh được gán nhãn gồm vị trí văn bản trên bìa sách, nội dung
3
Trang 21văn bản, nhãn phân loại tên sách, tên tác giả, tên nhà xuât bản cho nội dung văn bản, nhãn đánh sô liên kêt nội dung văn bản.
» Thứ hai, xây dựng mô hình cho bài toán phát hiện văn bản trên bìa sách tiếng
Việt.
» Thứ ba, xây dung mô hình cho bài toán nhận diện văn bản trên bìa sách tiếng
Việt.
¢ Thứ tư, hực hiện xây dựng mô hình phân loại và tổng hợp thông tin thuộc nhóm
thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher).
Đối tượng và phạm vi nghiên cứu
« Đối tượng: Các mô hình học sâu cho bài toán phát hiện văn bản tiếng Việt trên
ảnh, các mô hình học sâu cho bài toán nhận dạng văn bản tiếng Việt trên ảnh và
mô hình phân loại văn bản tiếng Việt.
* Phạm vi: Đề tài chúng tôi tập trung nghiên cứu các mô hình phát hiện và nhận
dạng văn bản trên ảnh cho ngôn ngữ tiếng Việt Hình ảnh là các bìa sách tiếng
Việt Chúng tôi tập trung nghiên cứu giải quyết các van dé sau:
— Xây dựng bộ dữ liệu ảnh bìa sách tiếng Việt.
— Nghiên cứu và chạy thử nghiệm một số mô hình phổ biến phát hiện văn ban
trên bộ dữ liệu chúng tôi xây dựng Cac mô hình thực nghiệm là CRAFT[4],
SAST[13], EAST[14] của Paddle.
Kết quả nghiên cứu
Nghiên cứu của chúng tôi đạt được kết quả như sau:
* Xây dựng được bộ dữ liệu gồm 7.875 ảnh bìa sách tiếng Việt.
Trang 22* Thử nghiệm các mô hình học sâu phát hiện văn bản trên ảnh bìa sách bao gồm
mô hình CRAFT, mô hình EAST, SAST của Paddle và đạt kết quả cao nhất với
mô hình SAST với 80.73% với đo H-mean.
* Thử nghiệm các mô hình học sâu nhận diện văn bản trên ảnh bìa sách bao gồm
mô hình SVTR, CRNN của Paddle, mô hình TransformerOCR của VietOCR và
đạt kết quả cao nhất với mô hình TransformerOCR của VietOCR với 91.42% độ
chính xác trên ký tự, lần lượt đạt 13.85% và 4.78% trên độ đo WER và CER.
¢ Hệ thống trích xuất thông tin trên bìa sách tiếng Việt đạt độ chính xác 22.67%
với độ đo WER và 84.06% độ chính xác trên cấp độ từ.
Câu trúc khóa luận
Khóa luận gồm 7 chương với các nội dung chính sau:
* Chương 1: Tổng quan
Giới thiệu về lĩnh vực nghiên cứu về OCR hiện nay và tinh ứng dung của nó
trong cuộc sông hiện tại Đồng thời, trình bày thực trạng quản lý sách hiện nay
tại Việt Nam.
* Chương 2: Bài toán trích xuất trên bìa sách tiếng Việt
Trình bày đầu vào và đầu ra của bài toán trích xuất thông tin trên bìa sách tiếng
Việt Nêu các thách thức đặt ra của bài toán và hướng giải quyết.
¢ Chương 3: Các công trình nghiên cứu liên quan
Chúng tôi trình bày một số công trình nghiên cứu chúng tôi tham khảo có cả
ngôn ngữ nước ngoài và ngôn ngữ tiếng Việt.
* Chương 4: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên bìa sách tiếng Việt
Trình bày chi tiết hình thức bộ dữ liệu xây dựng, cách thu thập va gán nhãn cho
bộ dữ liệu ảnh bìa sách Quy trình gán nhãn dữ liệu và đưa ra một số phân tích
về bộ dữ liệu xây dựng.
Trang 23« Chương 5: Các phương pháp tiếp cận
Trình bày các phương pháp và mô hình dùng huấn luyện cho phát hiện văn bản
trên bìa sách, nhận diện văn bản trên bìa sách, tổng hợp thông tin bìa sách.
s Chương 6: Cai đặt, thực nghiệm và đánh giá
Trình bày các thức cài đặt các mô hình thực nghiệm và đánh giá kết quả thực
nghiệm.
* Chương 7: Kết luận và hướng phát triển
Trang 241 Chương 1 TONG QUAN
1.1 Giới thiệu đề tài
Ở nước ta trong mấy chục năm qua, văn hoá đọc đã có những bước phát triển vượt
bậc Điều đó thể hiện ở những con số sau đây: trước năm 1975, cả hai miền Bắc và Nam xuất bản hàng năm được khoảng chưa đầy 4.000 tên sách, ngày nay hàng năm xuất bản khoảng xấp xỉ 25.000 tên sách, tăng gấp 6 lần, gần đây tốc độ gia tăng hàng năm khoảng 10% Cả nước hiện nay đang xuất bản khoảng gần 400 tên báo, tạp chí, nhiều báo có số lượng xuất bản mỗi số lên tới 500.000 bản Chính vì thế cần giải pháp
để hỗ trợ việc quản lý sách cho những cửa hàng, thư viện và cá nhân là cần thiết, cũng
từ đó hướng đến tự động hoá, chuyển đổi từ thư viện truyền thống sang thư viện điện tử/thư viện sé.
Hiện nay khi thời đại khoa học công nghệ đang ngày càng phát triển, có thể dễ
dàng nhận thấy công nghệ OCR hiện đã được ứng dụng rộng rãi trong đời sống, trong nhiều lĩnh vực khác nhau Công nghệ OCR thường được dùng phổ biến nhất đó là
trong các máy scanner tại các văn phòng Hiện nay, các máy scan cơ bản chỉ có thể
quét được các hình ảnh và trả chúng về những hình ảnh dạng số hoá Chính những
lý do thực tế này, chúng tôi thực hiện đề tài này để đóng góp một phần công sức cho cộng đồng nghiên cứu về xử lý ảnh cũng như cộng đồng yêu sách ở Việt Nam Đề tài trích xuất thông tin trên ảnh chụp bìa sách tiếng Việt với đầu vào là hình ảnh bìa sách
và dau ra là thông tin tên tác giả, tên sách và tên nhà xuất bản Trong dé tài này chúng
tôi giới thiệu bộ dữ liệu ảnh gồm 7.875 ảnh chụp bìa sách đã gán nhãn Chúng tôi xây dựng hệ thống trích xuất thông tin trên bìa gồm tên tác giả, tên sách, tên nhà xuất bản bằng cách giải quyết 3 bài toán sau: (1) phát hiện văn bản trên ảnh bìa sách, (2) nhận
dạng văn bản trên ảnh bìa sách, (3) tổng hợp, phân loại nội dung văn bản.
Trang 251.2 Tinh ứng dụng của đề tài
Nghiên cứu của chúng tôi mang đến một số đóng góp cho cộng đồng xử lý ảnh va
tính ứng dụng trong việc quản lý thư viện, cửa hàng bán sách, tủ sách cá nhân Trong lĩnh vực xử lý ảnh nói chung và mảng OCR nói riêng, bộ dữ liệu chúng tôi xây dựng
gồm 7,875 ảnh chụp các bìa sách tiếng Việt phục vụ nghiên cứu và huấn luyện được
mô hình phát hiện chữ tiếng Việt trên ảnh và nhận dạng chữ tiếng Việt trên ảnh Ứng
dụng cho những hệ thống có thực hiện nhiệm vụ nhận dạng chữ tiếng Việt thông qua
hình ảnh.
Ứng dụng chính mà chúng tôi hướng đến khi thực hiện đề tài này là xây dựng một
hệ thống số hóa tủ sách hay ứng dụng hỗ trợ trích xuất các thông tin của sách trên
bìa sách Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản, những thông tin này giống như địa chỉ để người đọc tìm kiếm đến một cuốn sách.
Trong các thư viện, nhà sách hay tủ sách cá nhân khi muốn sao lưu và thống kê quản
lý số lượng sách trong kho, điều tất nhiên phải ghi lại các thông tin trên bìa sách về tên sách, tên tác giả, nhà xuất bản Tuy nhiên với số lượng sách khổng lồ trong thư
viện hay các nhà sách cần ứng dụng hỗ trợ thực hiện công việc sao lưu này một cách
nhanh chóng.Ngoài tiết kiệm được thời gian, các tài liệu, văn bản được số hóa sẽ giúp tiết kiệm không gian lưu trữ và dé dang quản lý.
143 Kếtluận
Nhìn chung, bài toán OCR đã và đang được đẩy mạnh nghiên cứu và ứng dụng
nhiều trong cuộc sống Đặc biệt, OCR trong việc giải quyết các bài toán về nhận diện chữ viết trong hình ảnh tao ra nhiều giá trị cho cuộc sống con người trong xu thé số hóa hiện nay Áp dụng OCR xây dựng một hệ thống trích xuất thông tin từ sách hỗ trợ cho việc quản lý sách trong thư viện, nhà sách hay tủ sách cá nhân giúp tiết kiệm được thời gian cũng như không gian lưu trữ, giúp người dùng sắp xếp quản lý sách một cách chuyên nghiệp và thuận hơn Đồng thời, qua quá trình xây dựng nghiên cứu
Trang 26về dé tài đóng góp phần nhỏ vào công cuộc nghiên cứu chuyển đổi công nghệ số, đặc biệt là trong nhận dạng chữ cho thế giới nói chung và Việt Nam nói riêng.
Trang 272_ Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN
TRÊN BÌA SÁCH TIÊNG VIỆT
Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản được trích xuất ra các trường thông tin qua các bước (1) tìm vị trí các văn bản có
trên ảnh bìa sách (text detection), (2) nhận dạng các văn bản dưới dạng ảnh thành nội
dung dưới dạng chuỗi (text recognition), (3) phân loại các chuỗi thông tin về đúng các trường tác giả, tên sách, nhà xuất bản.
2.1 Bài toán trích xuât thông tin trên bìa sách tiêng Việt
Bài toán trích xuất thông tin trên bìa sách tiếng Việt có đầu vào với đầu ra như sau:
* Đầu vào: Ảnh chụp bìa sách tiếng Việt
« Đầu ra: Thông tin các trường tác giả, tên sách, nhà xuất bản.
Trang 28Nhìn vào hình 2, hình bên trái là đầu vào của hệ thống hình ảnh bìa sách tiếng Việt
được chụp bằng điện thoại Bên trái là kết quả của hệ thống gồm chi tiết các thông tin
tên sách, tên tác giả, tên nhà xuat ban.
2.2 Thách thức
OCR là một bài toán được nghiên cứu và ứng dụng trong thực tế tuy nhiên bài toán chúng tôi đặt ra có một số thách thức Dữ liệu là điều kiện cần để thực hiện bất kỳ
một mô hình học máy, tuy nhiên dữ liệu để giải quyết các bài toán OCR trong tiếng
Việt rất ít, đặc biệt qua khảo sát thấy được, bài toán của chúng tôi thực hiện chưa có công bé dữ liệu nào Từ đó đặt ra thách thức cho chúng tôi, cần xây dựng một bộ dữ liệu ảnh chụp bìa sách tiếng Việt và gán nhãn đề làm đầu vào cho các mô hình máy
học Trong bài toán phát hiện và nhận dạng chữ viết phổ biến những dạng văn bản có phông chữ cố định và dạng phông chữ phổ biến cụ thể như bài toán trích xuất thông
tin trên hóa đơn, tuy nhiên các văn bản xuất hiện trên bìa sách là văn bản phi cấu trúc.
Văn bản đa dạng về bố cục, phông chữ và background phức tạp Thêm vào đó, các công trình nghiên cứu về bài toán nhận dạng văn bản trên hình ảnh có cấu trúc
phức tạp rất ít, đặc biệt cho tiếng Việt Từ những thách thức đặt ra, chúng tôi quyết định thực hiện đề tài này biến những thách thức thành cơ hội được nghiên cứu và thực
nghiệm tạo ra bộ dữ liệu, các mô hình có thể một phần đóng góp vào những ứng dụng phục vụ trong cuộc sống, cũng như một phan thúc day quá trình cuộc cách mạng công nghệ của Việt Nam và thé giới.
«2e
2.3 Phương pháp đề xuât giải quyét bài toán
Dựa vào phân tích, đánh giá các điều kiện cần và đủ để giải quyết bài toán trích xuất thông trên bìa sách mà chúng tôi đặt ra, chúng tôi đề xuất các phương pháp đề từng bước giải quyết các van dé như sau:
s Xây dựng bộ dữ liệu anh bìa sách, bộ dữ liệu đủ lớn đạt 7.000 ảnh và gan nhãn.
11
Trang 29Nhãn dữ liệu là tọa độ bounding box văn bản có trên bìa sách và nội dung văn bản có trong bounding box.
¢ Huấn luyện mô hình cho nhiệm vụ phát hiện văn bản trên ảnh bìa sách (text detection) các mô hình chúng tôi đề xuất sử dung CRAFT , mô hình SAST,
EAST của Paddle.
¢ Huấn luyện mô hình cho nhiệm vụ nhận dạng văn bản trên ảnh bìa sách (text
recognition) các mô hình chúng tôi dé xuất sử dụng mô hình nhận dạng văn ban
SVTR, CRNN của Paddle, mô hình transformerOCR của VietOCR.
¢ Huấn luyện mô hình YOLOv4 phát hiện vùng đối tượng văn bản thuộc nhóm thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher).
Xử lý tong hợp
thông tin.
Phát hiện văn bản Thực hiện xử lý tổng hợp mảnh
thông tin tên sách, tên tác giả, tên
Huấn luyện mô hình CRAFT, SAST, nhà xuất bản.
EAST cho nhiệm vụ phát hiện văn
bản trên bìa sách.
@ ® @ ©
Xây dựng dữ liệu C Quản Nhận dạng văn Po Guốn:
Xây dựng bộ dữ liệu bìa sách bản
khoảng 7.000 ảnh
Huấn luyện mô hình SVTR, CRNN,
TransformerOCR cho nhiệm vụ nhận diện văn bản trên bìa sách.
Hình 3: Sơ đồ chuỗi các phương pháp dé xuất giải quyết bài toán trích xuất thông tin
từ bìa sách tiếng Việt.
12
Trang 303 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN
QUAN
Dạng ảnh chứa văn bản xử lý trong bài toán OCR được chia 2 dạng: ảnh văn bản
có cau trúc và văn bản phi cấu trúc Van bản có cấu trúc là văn bản dưới dạng đánh máy, có hàng lối, kích cỡ chữ, phông chữ đồng nhất, ví dụ như các trang sách, các hóa
đơn, chứng minh nhân dân Văn bản phi cấu trúc là văn bản không có cấu trúc hàng
thích hợp, ảnh nền chữ phức tạp, các chữ trong văn bản không có phông chữ và kích
cỡ đồng nhất, ví dụ như ảnh bìa sách, ảnh các biển quảng cáo, , hình 4, 5
4 COM BAT BUU
1 SUON CHIEN KOO
Hình 4: Một số ví dụ về văn ban có cau trúc Hình (a) anh chụp trang sách in Hình
(b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân.
3.1 Cac công trình nghiên cứu trên ngôn ngữ nước ngoài
Bài toán OCR được đẩy mạnh nghiên cứu trên thế giới đặc biệt là tiếng Anh và các
ngôn ngữ khác như Trung, Hàn, Nhật Các công trình nghiên cứu OCR về ngôn ngữ nước ngoài kể đến những bộ dữ liệu xây dựng để giải quyết những bài toán này.
Đặc biệt, có rất nhiều bộ dữ liệu được công bồ trong các cuộc thi toàn cầu với mục
đích tìm kiếm những cách giải quyết bài toán OCR với các bộ dữ liệu này từ những
người tham gia đồng thời phổ biến, đẩy mạnh công cuộc nghiên cứu, phát triển công
nghệ OCR trên toàn cầu Hằng năm, ICDAR (International Conference on Document
13
Trang 31(a) (b)
Hình 5: Một số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ.
Analysis and Recognition) đưa ra những bộ dữ liệu cũng như bài toán về nhận dạng
chữ trên ảnh ICDAR 2017 mở thử thách phát hiện và nhận dạng chữ trên ảnh cảnh,
dựa trên bộ dữ liệu ảnh cảnh chứa văn bản lớn nhất COCO-text[15] - một số hình ảnh ví dụ hình 6, đây là bộ dữ liệu được xây dựng dựa trên bộ dữ liệu nổi tiếng MS COCO[16] chứa hình ảnh cảnh phức tạp hằng ngày Các hình ảnh này thu thập ảnh cảnh vật và văn bản chỉ là đối tượng được xuất hiện trong cảnh đó do đó bộ dữ liệu chưa rất đa dạng các kiểu văn bản Bộ dữ liệu có 63.686 ảnh Mỗi ảnh trong bộ
Trang 32dữ liệu COCO-text được gán nhãn như sau: (1) vị trí của của bounding-box chữa văn
bản, (2) nhãn phân loại chữ in bằng máy hay chữ viết tay, (3) nhãn phân loại văn bản
có thể đọc và văn bản không thể đọc, (4) nhãn phân loại tiếng Anh, không là tiếng
Anh, (5) nội dung văn bản có thể đọc, ví dụ hình7 Mỗi bounding-box là hình chữ
nhật gán vị trí văn bản trên ảnh ở cấp độ từ Phương pháp đã được những người tham
gia sử dụng cho nhiệm vụ phát hiện chữ trên ảnh (text localization hay text detection)
trong nhiệm vụ trích xuất thông tin từ hòa đơn này là mô hình deep learning CNN
đánh giá trên độ đo AP(Average Precision) với IoU > 0.75 đạt 32.10 dẫn đầu những
người tham gia.
Trong cuộc thi ICDAR 2019, bài toán mới được đưa ra không chỉ dừng lại ở phat
Hình 7: Vi dụ nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn:
IC-DAR2017 Robust Reading Challenge on COCO-Text.
hiện va nhận dạng chữ trên ảnh, mà cần trích xuất được văn bản đó thuộc trường dữ
liệu nào với những dạng văn bản có cấu trúc như hóa đơn bán hàng Bài toán trích xuất hóa đơn với bộ dữ liệu lớn tập hợp các ảnh hóa đơn tiếng Anh,một số ví dụ hình
8 Mục đích khi đặt ra thử thách với bộ dữ liệu hóa đơn này là có thể trích xuất được thông tin của những dạng văn bản có cấu trúc trên ảnh phục vụ nhiều ứng dụng và
dịch vụ trong việc lưu trữ hiệu quả, lập chỉ mục nhanh và phân tích tài liệu Những
15
Trang 33điều này đóng vai trò quan trọng trong việc xử lý nhanh các tài liệu giấy bằng cách tự động hóa thúc đẩy xây dựng văn phòng tự động hóa trong nhiều lĩnh vực tài chính, kế toán, thuế Với thử thách này, ban tổ chức đưa ra 3 nhiệm vụ nhỏ xử lý trên bộ dữ liệu
như sau: (1) Phát hiện chữ trên hóa đơn, (2) Nhận dạng chữ trên hóa đơn, (3) trích
xuất các trường thông tin trên hóa đơn.
tan chay yee
\ PT
1C MARKETING SOW BHD
RO: H
44300 BATANG KALI, SELANGOR
Tải: CP-605? Osim Fax 0-605 7 S678
Total
Fe
Hình 8: Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn
trong cuộc thi ICDAR 2019.
3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt
Trong những năm gần đây, Việt Nam cũng đang đẩy mình hòa nhập với sự phát triển công nghệ toàn cầu, đặc biệt tình hình nghiên cứu, ứng dụng trong lĩnh vực công
nghệ thông tin ngày càng có nhiều bước ngoặt lớn cũng như những thành tựu đạt được.
Trong lĩnh vực xử lý ngôn ngữ tự nhiên và xử lý ảnh, nhiều cuộc thi được mở ra hằng năm với những bài toán rất thú vị và nhu cầu trong cuộc sống thực tế đối với ngôn ngữ tiếng Việt Bài toán OCR cũng được đặc biệt quan tâm và đem vào trong những cuộc
thi để tìm kiếm giải pháp từ người tham gia Trong cuộc thi RIVE 2021 MC-OCR,
16
Trang 34bài toán đặt ra trích xuất thông tin từ hóa đơn chụp bằng điện thoại Bài toán chia làm hai nhiệm vụ nhỏ (1) phân loại chất lượng hình ảnh hóa đơn - hình 9, (2) trích xuất
4 thông tin hóa đơn bao gồm tên cửa hàng, địa chỉ cửa hàng, thời gian thanh toán, số tiền thanh toán - hình 10
Kết thúc cuộc thi, nhiều nhóm tham gia đã có những kết quả đáng mong đợi cùng
Dau vào Dau ra
Hình 9: Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021
Hình 10: Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong
cuộc thi RIVE 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên
trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competition.
với những phương pháp hiệu quả được công bồ tại bài báo[17] Đối với nhiệm vụ 1 kết
17
Trang 35quả dẫn đầu với RMSE bằng 0.1 với mô hình người tham gia sử dụng EfficientNet Đối với nhiệm vụ 2, cũng là nhiệm vụ chính mà cuộc thi hướng tới, kết quả người tham dự đạt được cao nhất là 0.22 với độ đo Character Error Rate (CER) và phương
pháp sử dụng là mô hình YOLOvS và VietOCR Với bước nhận dang chữ thi VietOCR
rõ ràng đang là mô hình tốt nhất trên tiếng Việt và đây cũng là mô hình tất cả các đội
trong top 5 đều sử dụng trong cuộc thi này.
3.3 Kếtluận
Nhìn chung, OCR đã và đang ngày càng được đẩy mạnh nghiên cứu cũng như ứng
dụng vào thực tế cuộc sống của trên toàn thế giới và Việt Nam Tầm quan trọng của OCR cũng ngày càng được thấy rõ khi ngày càng có nhiều dạng và thử thách được đặt
ra để giải quyết cho bài toán OCR Đặc biệt OCR cho tiếng Việt vẫn còn nhiều thách
thức như sau các bộ dữ liệu phục vụ cho bài toán OCR số lượng còn ít và chưa có tính
đa dạng, còn rất ít những mô hình đề xuất cũng như thư viện hỗ trợ trong quá trình xử
lý thực hiện giải quyết bài toán OCR.
18
Trang 364 Chương 4 XÂY DỰNG BO DU LIEU CHO BÀI
TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH TIÊNG VIỆT
4.1 Thu thập dữ liệu
Các ảnh bìa sách được thu thập từ hai nguồn chính là ảnh các bìa sách trong thư
viện, nhà sách bằng điện thoại và ảnh thu thập từ các trang web bán sách tiki - trang
thương mại điện tử Việt Nam, các trang review sách các hình ảnh được đăng tải trên
Facebook Điện thoại sử dụng chụp ảnh bìa sách là những điện thoại thông minh của
các hãng phổ biến Iphone, Samsung, Oppo với độ phân giải ở ngưỡng 3000x4000
pixels Mỗi bìa sách được chụp khoảng 10 ảnh với các góc chụp và background khác
nhau, ví dụ hình 11.
Sau hai tuần thu thập dữ liệu, chúng tôi có được tổng ảnh bìa sách thu thập gần hơn
19
Trang 3738.000 ảnh trong đó 7.786 ảnh bìa sách chụp bằng điện thoại Ảnh thu thập từ các
trang web bán sách và Facebook hơn 30.000 ảnh, tuy nhiên trong số ảnh này có nhiềutam ảnh không phải hình ảnh bìa sách hoặc những bìa sách không còn đủ thông tin
Do đó, chúng tôi tiền hành lọc và loại bỏ số ảnh không thể sử dụng và giữ lại 14.154ảnh đủ tiêu chuẩn Do đó, số lượng ảnh đạt yêu cầu chúng tôi có được sau khi chọn
lọc là 21.940 ảnh bìa sách để thực hiện gán nhãn
4.2 Gan nhãn dữ liệu
4.2.1 Hướng dẫn gan nhãn dữ liệu
Trong quá trình gán nhãn để đảm bảo được chất lượng dữ liệu các người tham gia
gán nhãn dữ liệu đều tuân thủ theo hướng dẫn gán nhãn Công cụ gán nhãn chúngtôi sử dụng là PaddleOCR[5], công cụ này giúp gán nhãn dữ liệu một cách tối ưu do
công cụ có hỗ trợ gan các bounding box dạng hình chữ nhật và dạng hình đa giác, đặc
biệt thích hợp với dữ liệu của chúng tôi Người tham gia gán nhãn một ảnh bìa sách
cần thực hiện 4 bước: (1) xác định vị bounding box cho văn bản trên ảnh, (2) gán nội
dung văn bản cho mỗi bounding box, (3) gán nhãn phân loại Title, Author, Publishercho các nội dung văn bản trong bounding box, (4) đánh số nối các nội dung thuộc
từng trường Title, Author, Publisher, hình 12 mô tả các bước gán nhãn O bước 1 do các văn bản bìa sách sắp xếp không theo một quy định nào nên các bounding box cho
các văn bản cần được linh hoạt hình dạng sao cho bounding box bao càng khớp vớivùng hình ảnh càng tốt nhưng phải đảm bảo được các tiêu chí sau:
* Các bounding box phải bao được hết đối tượng văn bản trên ảnh tuy nhiên cầnhạn chế tối đa những khoảng thừa không thuộc văn bản đó
* Các bounding box được gan theo cấp độ dòng
Trong bước 2, nội dung văn bản cần gán chính xác từ chữ hoa đến chữ thường Tiếpđến bước 3, các nội dung văn bản sẽ được gán nhãn phân loại Title, Author, Publisher
và Other Nhãn Other dành cho những trường hợp thông tin không thuộc tác giả, tên
20
Trang 38sách hay nhà xuất bản Bước cuối cùng các văn bản trên bìa sách được gán theo cấp
độ dòng nên do đó sẽ có nhiều nhãn Title, Author, Publisher do đó nội dung cùngnhãn sẽ được đánh số thứ tự để liên kết với nhau
Bước (1)
(NHÀ XUẤT BAN HỘI NHÀ VÃ!
Hình 12: Mô phỏng các bước gán nhãn ảnh bìa sách.
4.2.2 Quá trình gan nhãn dữ liệu
Quá trình gán nhãn của chúng tôi thực hiện 5 vòng, mỗi vòng gán 1.600 ảnh chia
đều cho 7 người Trong quá trình gán nhãn, những người tham gia gán nhãn phát hiện
trường hợp đặc biệt chưa có trong bản hướng dẫn gán nhãn, người tham gia gán nhãn
có trách nhiệm thông báo và thảo luận trường hợp đó với nhóm và bản hướng dẫn gán
nhãn luôn được cập nhật sau mỗi lần thảo luận Để đảm bảo chất lượng cho bộ dữ
liệu, những ảnh thiếu chất lượng như mờ, nhòe, bị cắt thiếu nội dung sé được người
tham gia gán nhãn phát hiện và loại bỏ khỏi tập dữ liệu Kết thúc mỗi vòng gán nhãn,
các tập dữ liệu của thành viên gán nhãn sẽ được kiểm tra lại bởi một thành viên khác
Các lỗi gán nhãn sai được phát hiện lúc kiểm tra lại sẽ được sửa và ghi lai các lỗi sai
đó để thông báo để đào tạo cách gán nhãn lại cho các thành viên, từ đó các thành viên
có thể làm tốt hơn ở vòng tiếp theo, hình 13
4.3 Phân tích bộ dữ liệu
Sau 5 vòng gán nhãn, tập dữ liệu có 7.875 ảnh đã được gán nhãn Nhãn của các ảnh
gồm tọa độ bounding box, nội dung của ảnh văn bản được bounding box, nhãn phânloại nội dung( Title, Author, Publisher) và số đánh nối các nội dung thuộc các nhãn
21
Trang 39hiện quy trình gan nhãn bộ dữ liệu Vi-BCI.
phân loại, hình 14 ví dụ về một ảnh mẫu và nhãn trong tập dữ liệu Sau khi thống kê,
7.875 ảnh bìa sách được gán nhãn có hơn 67.000 bounding box được gán Chúng tôi
chia bộ dữ liệu lớn thành 3 tập dữ liệu: dữ liệu huấn luyện, dữ liệu kiểm thử, dữ liệu
Trang 405 Chương 5 CÁC PHƯƠNG PHÁP TIẾP CAN
Thông qua việc tìm hiểu và nghiên cứu các công trình liên quan về nhận diện, tríchxuất thông tin từ ảnh trên thế giới cũng như trong nước Chúng tôi đã thực nghiệmcác mô hình học sâu tiên tiến, hiện đại để tìm ra mô hình mang lại kết quả tối ưunhất Sở dĩ chúng tôi sử dụng các mô hình học sâu hiện đại vì các bài toán liênquan để giải quyết vấn đề đặt ra đã được nghiên cứu và cho ra khá nhiều mô hình
hiện đại Trong khóa luận này, chúng tôi cài đặt các mô hình học sâu hiện đại như: EAST, SAST, CRAFT, EasyOCR, TransformerOCR, CRNN, SVTR, Yolov4 Ngoài
việc thực nghiệm các mô hình trên, chúng tôi đã tiền xử lý bằng mô hình Detectron2
để tăng hiệu suất của mô hình Hình 15 bên dưới thể hiện cấu trúc tổng quan của
phương pháp mà chúng tôi thực hiện trong khoá luận này.
Quá trình huấn luyện s `
Phát hiện van bản )
Dữ liệu { Tiền xử lý dữ liệu | —» | Nhận diện văn bản ) (Các mô hình đãi
huấn luyện > ~ ( "huấn luyện
(Phat hiện đối tượng |
Huấn luyện mô hình
_( Phát hiện văn ban )
„ Nhận diện văn ban) _—_—_ „Ít lý tổng hợp thông tin Kết qua đầu ra
mm
Phát hiện đối tượng
—
Tiền xử lý dữ liệu
Sử dụng mô hình đã huấn luyện
Hình 15: Hình mô phỏng tổng quan phương pháp
23