+ Tạo bộ dữ liệu: Chúng tôi sử dụng công cụ gán nhãn PaddleOCR dé gan nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường nào trong ba trường: Tên sách, tên tác giả, tê
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
VO KIEU HOA — 18520767
NGUYEN THI THÁM - 18521384
KHOA LUAN TOT NGHIEP
TRICH XUAT THONG TIN TREN
BIA SÁCH TIENG VIỆT
INFORMATION EXTRACTION FROM VIETNAMESE BOOK COVER IMAGES
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS BO TRONG HOP
ThS TA THU THUY
TP HO CHi MINH, 2022
Trang 2THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày
¬ cence een eeeenes của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
—= eee eee eee ee - Chủ tịch
Qe ccc HH nu kh hà - Thư ký
e ees - Uy Vién
Trang 3LỜI CẢM ƠN
Lời đầu tiên chúng em chân thành gửi lời cảm ơn đến quý Thầy/Cô trong Khoa Khoa
học và Kỹ thuật Thông tin thuộc Trường Dai học Công Nghệ Thông Tin - Dai hoc
Quốc Gia Thành Phố Hồ Chí Minh đã tận tình giúp đỡ chúng em trong quá trình họctập, nghiên cứu và tạo điều kiện để chúng em thực hiện Khóa luận Tốt nghiệp Đặc
biệt, chúng em xin cảm ơn sâu sắc đến thầy Đỗ Trọng Hợp cùng cô Tạ Thu Thủy đã
dành nhiều thời gian, hết lòng hỗ trợ và hướng dẫn tận tình cho nhóm chúng em từkiến thức và quy trình thực hiện trong suốt thời gian làm Khóa luận Tốt nghiệp Cuốicùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và anh chị đã luôn ủng hộ,động viên và đồng hành cùng chúng em trong cuộc sống cũng như trong quá trình học
tập tại Dai học Công Nghệ Thông Tin.
Thành phố Hồ Chí Minh, ngày tháng năm 2022
Tac gia khóa luậnNguyễn Thị Thắm - Võ Kiều Hoa
Trang 4ĐỀ CƯƠNG CHI TIET
TÊN ĐỀ TÀI: TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIẾNG VIỆT.
TÊN ĐỀ TÀI (tiếng Anh): INFORMATION EXTRACTION FROM VIETNAMESE
BOOK COVER IMAGES.
Cán bộ hướng dẫn:
TS Đỗ Trọng Hợp
ThS Tạ Thu Thủy
Thời gian thực hiện: Từ ngày 10/02/2022 đến ngày 10/07/2022
Sinh viên thực hiện:
— Nghiên cứu các mô hình, các kỹ thuật liên quan cho bài toán trên.
— Chạy thực nghiệm các mô hình và các kỹ thuật để kiểm chứng độ chính xác
và đánh giá hiệu suất của các mô hình đã thực nghiệm
— Cải thiện độ chính xác của mô hình và chọn ra mô hình tốt nhất cho bộ dữ
liệu.
— Xây dựng ứng dụng hỗ trợ quản lý sách cho người dùng.
¢ Pham vi nghiên cứu:
— Miễn dữ liệu ảnh là anh tự chụp bìa sách Tiếng Việt, nguén thu thập là ảnh
bìa sách được chụp từ nhà sách, thư viện.
Vv
Trang 5— Chúng tôi chon bìa sách Tiếng Việt vì hiện nay dữ liệu sách Tiếng Việt ngày
một nhiều mà các nghiên cứu trên nó còn nhiều hạn chế Mặt khác, chưa có
bộ dữ liệu bìa sách Tiếng Việt nào có thể đáp ứng nhu cầu nghiên cứu và ứng
dụng.
» Các công trình nghiên cứu liên quan:
— Bai báo ở tạp chí khoa học Da Lạt: “VIETNAMESE TEXT EXTRACTION
FROM BOOK COVERS”[I] Nghiên cứu nhận dạng văn bản tiếng Việt từ
ảnh bìa sách Các bước xử lý bao gồm: tiền xử lý ảnh bìa sách ở đầu vào,định vị các vùng chứa văn bản, áp dụng ki thuật nhận dạng ký tự quang hoc
(OCR), sử dụng từ điển để nâng cao độ chính xác của văn bản nhận diện
được Ở bước tiền xử lý ảnh đầu vào bao gồm các kĩ thuật: skew,
de-noise, enhance, crop,remove background Ở bước detection va OCR, tác gia
huấn luyện với mô hình Tesseract sau đó sử dung từ điển để chuẩn hóa vanbản đầu ra.Kết quả đạt được tốt nhất với §2% accuracy (ảnh đầu vào kíchthước tối thiểu 300px mỗi chiều)
- Bai báo khoa học “FUNSD: A Dataset for Form Understanding in Noisy
Đầu vào là các mẫu đơn đã được điền nội dung, dau ra trích xuất được thông
tin dưới dạng quan hệ khóa-giá tri( key-value) với khóa(key) là các từ khóa
được in sẵn trên đơn và giá trị(value) là nội dung được điển vào tương ứngvới khóa Nghiên cứu thực hiện 3 nhiệm vụ và kết quả tương ứng:
1 ext detection: Sử dụng 4 phương pháp Tesseract, EAST, Google Vision,
Faster R-CNN đạt kết quả cao nhất với mô hình Faster R-CNN với Recall
bang 84.8%, Fl-score bằng 0.76%
2 Text recognition với OCR: Sử dụng 2 phương pháp Tesseract và Google
Vision va dat két qua OCR bang 94.4%
3 Form understanding: với ba nhiệm vu nhỏ Nhiệm vu nhóm từ( word
vi
Trang 6grouping) đạt ARI(the adjusted index) là 0.41% với phương pháp Google
Vision, với nhiệm vu nhận dạng thực thé (entity labeling) đạt F1-score
bằng 0.57%, nhiệm vụ liên kết thực thé (entity linking) đạt E1-score bằng
0.04%.
* Đối tượng:
— Bài toán trích xuất thông tin trên bìa sách Tiếng Việt.
— Ngôn ngữ Tiếng Việt.
— Các hình ảnh chụp bìa sách Tiếng Việt chứa các nội dung: Tên sách, tên tác
giả, tên nhà xuất bản
¢ Phương pháp thực hiện:
— Xây dựng tập dữ liệu:
+ Thu thập dữ liệu: các hình ảnh chụp bìa sách được chụp thủ công bằng
nhiều thiết bị điện thoại di động
+ Tạo bộ dữ liệu: Chúng tôi sử dụng công cụ gán nhãn PaddleOCR dé gan
nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường
nào trong ba trường: Tên sách, tên tác giả, tên nhà xuất bản
— Bài toán: số hóa tủ sách - trích xuất thông tin sách từ ảnh bìa sách Tiếng
Việt.
+ Đầu vào: ảnh bìa sách.
+ Đầu ra: Thông tin của sách gồm: tên sách, tên tác giả, tên nhà xuất bản.
— Nghiên cứu phương pháp thực nghiệm: bài toán được thực hiện bởi ba nhiệm
vụ chính: text detection, text recognition, form understanding( word ing, semantic entity labeling)
group-+ Text detection: Đối với bài toán text detection chúng tôi sử dụng nhiều
mô hình như: EasyOCRI3], Craft[4], PAN, PaddleOCR[5]dé so sánh,
vil
Trang 7Tên tác giả: NGUYEN THÀNH VÁN -
DƯƠNG HIẾU ĐẢU
Tên sách: Cơ Nhiệt đại
cương
đánh giá và tìm ra mô hình tốt nhất với bộ dữ liệu Sử dụng độ đo đánh
giá loU để đo độ khớp của bounding box dự đoán so với bounding box
thực tế
AreaoƒOverlap
loU =
“ Areao fUnion
Trong đó Area of Overlap, Area of Union lần lượt là diện tích phần
giao, hợp giữa 2 bounding box (thực tế và dự đoán) Đối với các
bounding box dự đoán có IoU >= 0.5 được coi là khớp Trong trườnghợp có nhiều bounding box thỏa mãn, bounding box có IoU lớn nhất
sẽ được chon (True Positive — TP); các bounding box còn lại được
tính là (False Positive — FP) False Negative - FN: trường hợp tôn tại
bounding box thực tế nhưng mô hình không detect được.
- Precision và Recall để đo độ chính xác và độ phủ của mô hình text detection.
TP TP
Precision = ————.,, Recall = —————
TP+FP TP+FN
Viii
Trang 8- Độ đo H-mean là trung bình điều hòa của Precision va Recall.
2.Precision.Recall Hmean = —
Precision + Recall
+ Text recognition: Ở bài toán này chúng tôi sử dụng hai mô hình EasyOCR
và VietOCR Trong đó EasyOCR là mô hình pre-train hỗ trợ hơn 80
ngôn ngữ trong đó có Tiếng Việt VietOCR là mô hình pre-train trên
Tiếng Việt được huấn luyện trên tập dữ liệu gồm 1 triệu ảnh, bao gồm
đa dạng loại ảnh Chúng tôi sử dụng độ đo CER(character error rate) vaWER(word error rate) CER và WER là hai độ đo được sử dụng phổ biến
trong bài toán OCR.
€ CER =
trong do Ic, D_ec, S_c lan lượt là số kí tự chèn, xóa, thay thế so với
groundtruth.
ly + Dy + Sw
Ww WER=
trong đói w,D_w,sS w lần lượt là số kí từ bị chèn, xóa, thay thế so
với chuỗi groundtruth.
+ Form understanding
- word grouping: Mỗi bia sách, các thông tin của bia sách đặc biệt là tên
cuốn sách được thiết kế rời rạc, nhiều hình dạng trong quá trình gánnhãn thì tên của một bìa sách có thể phải dùng đến nhiều bounding
box để gán Do đó task này thực hiện ghép các văn bản trong cùng
một nhãn về thành câu có nghĩa Độ đo đánh giá sử dụng ARI (theadjusted index) là một độ đo phổ biến dùng để tính hiệu suất phân
nhóm, là một biến thé của chỉ số Rand index Giả sử C là phép gan
1X
Trang 9nhãn đung của các đối tượng, K là bộ phân cụm thì a,b được địnhnghĩa như sau: a là số lượng các cặp điểm ở cùng một tập trên C vàcùng một tập trên K Còn b là số lượng các cặp điểm ở các tập khácnhau trên C và ở các tập khác nhau trên K Chỉ số Rand index là:
a+b
cnsam ples 2
KI=
trong đó,
Chaam ples 2
là tổng số lượng các cặp có thể ghép trong tap dữ liệu (không phânbiệt thứ tự) - tổ hợp chập 2 của n Tuy nhiên, chỉ số RI không dambảo rằng các phép gán nhãn ngẫu nhiên sẽ có giá trị gần bằng 0 (đặc
biệt nếu số cụm có cùng độ lớn với số lượng mẫu) Để tránh được hạn chế này, ARI thực hiện chiết khấu RI dự kiến — E(RI) của các phép
gán nhãn ngẫu nhiên, với công thức:
này là phân loại đúng thông tin của cuốn sách về đúng nhãn tương
ứng: Tên sách, Tên tác giả, Tên nhà xuất bản Độ đo sử dụng đánh giá
là Precision, Recall, F1-score.
+ Ngoài ra chúng tôi sử dụng mô hình Detectron2 để thực hiện tiền xử lý
background của ảnh bìa sách.
+ Kết qua mong đợi:
— Xây dựng được bộ dữ liệu anh bìa sách khoảng 10.000 ảnh chụp bìa sách
phục vụ cho bài toán sô hóa tủ sách.
X
Trang 10- Thực nghiệm được nhiều mô hình, sử dụng các kỹ thuật xử lý để nâng cao
kết quả mô hình, tìm được mô hình tốt nhất với bộ dữ liệu Kết quả dự kiếnvới độ đo đánh giá h-mean, fl-score từ 75% trở lên và CER, WER tôi đa
25%.
- Xây dựng được ứng dụng trích xuất thông tin từ ảnh chụp bìa sách để phục
vụ cho việc quản lý sách.
Kế hoạch thực hiện: chúng tôi thực hiện đề tài số hóa tủ sách trong 5 tháng và kế
hoạch thực hiện chi tiết trong bảng hình 1
Nghiên cứu phươn ýgh P ¬ 8 Thăm Hoa
pháp thực nghiệm
Báocáo |ThmHa | — | | | | |
Hình 1: Tóm tắt thực hiện đề tài trong 5 tháng
XI
Trang 11MỤC LỤC
DANH MỤC BANG xiv
DANH MUC HINH XV
TOM TAT KHOA LUAN 1
MO DAU 3
1 Chuong 1 TONG QUAN 7
1.1 Giới thiệu đềtài 7
12 — Tínhứng dụng của đềtà 8
1.3 Kếtluận ey TS 8 2 Chương 2 BÀI TOÁN TRÍCH XUÂT THÔNG TIN TRÊN BÌA SÁCH TIENG VIỆT 10
2.1 Bài toán trích xuất thông tin trên bìa sách tiếng Viet 2 10
2.2 chước SO AP «ư 11
2.3 Phương pháp đề xuất giải quyết bài toán 11
3 _ Chương 3 CÁC CONG TRÌNH NGHIÊN CỨU LIEN QUAN 13
3.1 Các công trình nghiên cứu trên ngôn ngữ nước ngoài 13
3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt 16
3.3 Kétluan QQ Q Q Q Qua 18 4 _ Chương 4 XÂY DUNG BO DU LIEU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIÊNG VIỆT 19
4I Thuthậpdữliệu 19
42 Gánnhãndữliệu 20
4.2.1 Hướng dẫn gán nhãn dữ liệu 20
4.2.2 Quá trình gan nhãn dữ liệu 21
43 Phân tích bộ dữ liệu "¬ 21 5 _ Chương 5 CÁC PHƯƠNG PHÁP TIÊPCẬN 23
5I Tiềnxửlýdữliệu 24
5.1.1 Tiền xử lý chia dữ liệu tập huấn luyện, tap kiểm thử và tập đánh giá 24
5.1.2 Tiền xử ly dữ liệu cho mô hình phát hiện văn ban (TlextDetection) 24
XI
Trang 125.1.4
Tiền xử ly dữ liệu cho mô hình Text Recognition
Tiền xử ly dữ liệu cho mô hình Object detection
5.2 Bài toán phát hiện chữ trên anh (Text Detection)
5.2.1 Hệ thống nhận dạng chữ viết PaddleOCR
5.2.2 Mô hìnhEAST
5.2.3 Mô hình SAST
5.2.4 Mô hình CRAFT
5.3 Bài toán nhận diện chữ trên ảnh (Text Recognition)
5.3.1 Mô hình CRNN trong hệ thống PP-OCR
5.3.2 Mô hình SVTR-LCNet trong hệ thống PP-OCR 5.3.3 Thư viện Vie€tOCR
5.4 Bài toán xử lý tổng hợp
thôngtin -5.4.1 Mô hình Yolov4
6 Chương 6 CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ
6.1 Cài dat, thucnghiém
6.1.1 6.1.2 6.1.3 Bài toán phát hiện van ban (Text Detection) Bài toán nhận diện vanban
Phân loại và tổng hợp thongtin
62 — Kếtquảthực nghiệm vàđánhgiá
6.2.1 6.2.2 Độ do đánh giá
Kết quả thực nghiệm, phân tích và đánh gid
7 Chương7 KET LUẬN VÀ HƯỚNG PHÁTTRIỂN
71 Kết luận 72 Hướngpháttriển
TÀI LIỆU THAM KHẢO
xiii
25 27 29 29 29
31 33 34 34 36 37 38 38 40
40
40
42
43 46 46 51 54 54 55 56
Trang 13\á© œ ¬l Ầ CC: +> C2) t =
DANH MỤC BANG
Các mô hình được được si dung 40
Tham số sử dụng huấn luyện các mô hình phát hiện văn ban 41
Tham số sử dụng huấn luyện các mô hình nhận diện văn ban 2 42
Tham số sử dụng huấn luyện các mô hình Yolov4 44
Minh hoa dữ liệu text sau khi xử lý được 45
Kết quả mô hình phát hiện văn ban (Text Detection) 51
Kết quả mô hình nhận diện văn ban (Text Recognition) 51
Kết quả mô hình Yolov4 sau xửlý - 52
Kết quả cuối cùng sau tất cả các bước xử ly 53
XIV
Trang 1411
12
13
14
15
16
17
18
DANH MỤC HÌNH
Tóm tắt thực hiện đề tài trong 5 tháng
Ví dụ mô tả đầu vào và đầu ra của bài toán trích xuất thông tin từ bìa sách tiếng Viet ee Sơ đồ chuỗi các phương pháp đề xuất giải quyết bài toán trích xuất thông tin từ bìa sách tiếng ViỆt ee Một số ví dụ về văn bản có cấu trúc Hình (a) ảnh chụp trang sách in Hình (b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân .Ặ.Ặ.ẶẶ ee Mot số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ
Một số hình ảnh ví dụ trong bộ dữ liệu COCO-text Nguồn: ICDAR2017 Robust Reading Challenge on COCO-Tlext
Vi du nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn: IC-DAR2017 Robust Reading Challenge on COCO-Text
Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn trong cuộc thi ICDAR 2019
Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa don trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình anh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021 MC-OCR Competition
Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competilon
10 hình anh của một bìa sách được chụp với các góc chụp va background Mô phỏng các bước gan nhãn ảnh bìasách
Lưu đồ khối thể hiện quy trình gan nhãn bộ dữ liệu Vi-BCI
Ảnh bìa sách và nhãn của
ảnh Hình mô phỏng tổng quan phương pháp
-Hình mô tả phân phối dữ liệu bộ dữ liệu Vi-BCIL
Minh họa kết quả mô hình phát hiện văn bản CRAFT trước và sau khi xoá background Q ee Hình minh họa ảnh trước và sau khicắtảnh
XV
XI
12
Trang 1520
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Hình mô tả phân phối dữ liệu bộ dữ liệu nhận diện văn bản
Hình mô tả nhãn cho bộ dữ liệu nhận diện vănbản
Minh hoạ nhãn sau khi chuẩn hoá cho mô hình Yolo
Hình thống kê thuật toán và hiệu suất hoạt động các mô hình phát hiện văn bản của PaddleOCR
Kiến trúc của FCN trong phát hiện văn bản
So sánh các công trình trước đó với EAST, (a) Horizontal word detection and recognition pipeline [6]; (b) Multi-orient text detection pipeline[7]; (c) Multi-orient text detection pipeline [8] ; (d) Horizontal text detection using CTPN[9]; (e) EAST 2 ee eee So sánh kết quả khi sử dung hai mô hình: hình (a) mô hình EAST, hình (b) mô hìnhSAST Q ee Tổng quan kiến trúc mô hìnhSAST
Kiến trúc mô hình CRAFT Nguồn: Bài báo "Character Region Aware-ness for Text Detection"[4]
Kiến trúc mô hình CRNN công bố tại bài báo "PP-OCR: A Practical Ultra Lightweight OCR System"[10] vào năm 2015
Kiến trúc tổng thể của mô hình SVTR công bồ tại bài báo "SVTR: Scene Text Recognition with a Single Visual Model"[lI]
Kiến trúc mô hình SVTR-LCNet Nguồn: Bài báo "PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System"[12] Kiến trúc mô hình Transformer
-Hình so sánh DarkNet53 với CSPDarkNe53
Mô phỏng trước và sau khi huấn luyện mô hình SAST
Mô tả dau ra của mô hình nhận diện văn ban
Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình Yolov4 cho bài toán phân loại đối tượng chứa văn bản
Mô phỏng cách tính tỉ lệ giao nhau giữa boundingbox của Yolo và box của mô hình phát hiện vắnbản
Mô phỏng toa độ tâm của box và gom nhóm các box
Hình mô phỏng cách tính độ đoloU
Ma trận nhằm lẫn phân loại đối tượng chứa văn bản
Minh hoạ kết quả đầu ra hệ thống của chúngtôi
XVI
Trang 16DANH MỤC TỪ VIẾT TẮT
Accfullseq Accuracy full sequence
Accperchar Accuracy per character
Accperword —= Accuracy per word
AP average precision
CAB Context Attention Block
CER Character error rate
CNN Convolutional Neural Network
CTC Connectionist Temporal Classification
CRAFT Character-Region Awareness For Text detection
CRNN Convolutional Recurrent Neural Network
EAST Efficient and Accurate Scene Text detection
FCN Fully Convolutional Network
FP False Positive
FN False Negative
ICDAR International Conference on Document Analysis and Recognition
IoU Intersection over Union
XVI
Trang 17Optical Character Recognition
recurrent neural networks
Single-Shot Arbitrarily-Shaped Text detection
State of the Art
Single Visual Text Recognition
True Positive
Text border offset
Text center line
Text Center offset
Text vertex offset
Word error rate
You Only Look Once version 4
XVili
Trang 18số hóa giúp tiết kiệm không gian lưu trữ và dễ dàng quản lý.
Theo thống kê của Thư viện Quốc gia Việt Nam, số lượng sách hàng năm đạt
khoảng 26.000 đầu sách, có tới 80% sách giáo khoa, giáo trình Hệ thống thư việncông cộng đã phát triển từ tỉnh tới huyện và đang vươn tới nhiều xã trên toàn quốc,
khắp từ Bắc tới Nam, bao gồm 64 thư viện tỉnh, 587 thư viện huyện và khoảng 10.000
thư viện và tủ sách cơ sở ở xã Trong loại thư viện phục vụ công chúng rộng rãi còn
phải kể tới 10.000 tủ sách pháp luật xã và cũng khoảng trên 10.000 điểm bưu điện văn hoá xã Tại các vùng nông thôn Việt Nam đã có khoảng 3 vạn điểm đọc sách báo
cho người dân Quy mô của các thư viện tỉnh và huyện ngày càng được mở rộng về sốlượng bản sách, nhân viên phục vụ, trụ sở thư viện và kinh phí hoạt động Thêm vào
đó các loại cửa hàng sách đã phát triển rất nhanh trong mấy năm qua, đặc biệt ở các thành phố lớn Nhiều nhà sách với chuỗi cửa hàng bán sách ra đời, các cửa hàng bán
sách theo chuyên dé cũng moc lên rất nhiều, các siêu thị sách Cho đến nay chúng
ta đã có 12.000 cửa hàng sách và nhà sách tư nhân Xây dựng, phát triển hệ thống hỗtrợ các thư viện, nhà sách đang tự động hoá, chuyển đổi từ thư viện truyền thống sang
thư viện điện tử/thư viện số cần thiết và thực tế cho gia đoạn hiện nay.
Trong khóa luận này, chúng tôi xây dựng hệ thống trích xuất thông tin từ bìa sách
tiếng Việt như tác giả, tên sách, nhà xuất bản Hệ thống được xây dựng nên từ 3
Trang 19nhiệm vụ nhỏ bao gồm xác định vị trí chữ trên bìa sách (text detection), nhận dạng chữ (text recognition) va tong hợp thông tin Chúng tôi sử dụng mô hình EAST, SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR
và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản được nhận dạng ở hai giai đoạn trước được tổng hợp, phân loại ra các trường thông tin
tác giả, tên sách, nhà xuất bản cụ thể bằng mô hình Yolov4 kết hợp phương pháp xử
lý của chúng tôi Đồng thời, chúng tôi xây dựng bộ dữ liệu ảnh gồm 7.875 bìa sách
tiếng Việt gán nhãn để thực hiện huấn luyện các mô hình Các mô hình huấn luyện
đạt được kết quả khả quan
Trang 20Đặt van đề
Công nghệ ngày nay đã phát triển vượt bậc, làm cho cuộc sống của chúng ta trổ
nên tiện nghi hơn rất nhiều Tuy nhiên, khoa học - kỹ thuật công nghệ sẽ tiếp tục được
nâng lên và tối ưu hóa công việc con người trở nên đơn giản, nhẹ nhàng và tiết kiệm
hơn.
Sách là nơi lưu giữ những tinh hoa, kiến thức bổ ích Sách mở ra những chân trời mới, cung cấp nguồn kiến thức vô tận về mọi lĩnh vực trong cuộc sống Sách chứa đựng nguồn kiến thức khổng 16 và giúp con người giao lưu với thế giới bên ngoài, tiếp cận
với nền văn minh nhân loại
Với lòng yêu sách và cũng là người yêu công nghệ và làm về công nghệ, chúng tôi
muốn thực hiện xây dựng một hệ thống sử dụng công nghệ OCR trong việc hỗ trợ
quản lý sách tiếng Việt Hệ thống chúng tôi xây dựng với mục tiêu hướng đến số hóa
tủ sách nhằm hỗ trợ các mô hình nhà sách, thư viện, tủ sách cá nhân trong việc ghichép thông tin của các cuốn sách bằng cách ứng dụng OCR trích xuất thông bìa sách
bao gồm tác giả, tên sách, nhà xuất bản , từ đó hỗ trợ con người quản lý sách cách dễdàng và tiết kiệm
Mục tiêu khóa luận
Trong khóa luận này, chúng tôi tập trung xây dựng bộ dữ liệu ảnh và thực hiệnhuấn luyện các mô hình học máy trong việc trích xuất thông tin từ bìa sách Chúngtôi đặt ra các mục tiêu như sau:
» Thứ nhất, chúng tôi tiến hành xây dựng bộ dữ liệu ảnh bìa sách với tổng số lượng
ảnh đặt ra là 7.000 ảnh được gán nhãn gồm vị trí văn bản trên bìa sách, nội dung
3
Trang 21văn bản, nhãn phân loại tên sách, tên tác giả, tên nhà xuât bản cho nội dung văn
bản, nhãn đánh sô liên kêt nội dung văn bản.
» Thứ hai, xây dựng mô hình cho bài toán phát hiện văn bản trên bìa sách tiếng
Việt.
» Thứ ba, xây dung mô hình cho bài toán nhận diện văn bản trên bìa sách tiếng
Việt.
¢ Thứ tư, hực hiện xây dựng mô hình phân loại và tổng hợp thông tin thuộc nhóm
thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher)
Đối tượng và phạm vi nghiên cứu
« Đối tượng: Các mô hình học sâu cho bài toán phát hiện văn bản tiếng Việt trên
ảnh, các mô hình học sâu cho bài toán nhận dạng văn bản tiếng Việt trên ảnh và
mô hình phân loại văn bản tiếng Việt.
* Phạm vi: Đề tài chúng tôi tập trung nghiên cứu các mô hình phát hiện và nhận
dạng văn bản trên ảnh cho ngôn ngữ tiếng Việt Hình ảnh là các bìa sách tiếng
Việt Chúng tôi tập trung nghiên cứu giải quyết các van dé sau:
— Xây dựng bộ dữ liệu ảnh bìa sách tiếng Việt
— Nghiên cứu và chạy thử nghiệm một số mô hình phổ biến phát hiện văn ban
trên bộ dữ liệu chúng tôi xây dựng Cac mô hình thực nghiệm là CRAFT[4],
SAST[13], EAST[14] của Paddle.
Kết quả nghiên cứu
Nghiên cứu của chúng tôi đạt được kết quả như sau:
* Xây dựng được bộ dữ liệu gồm 7.875 ảnh bìa sách tiếng Việt
Trang 22* Thử nghiệm các mô hình học sâu phát hiện văn bản trên ảnh bìa sách bao gồm
mô hình CRAFT, mô hình EAST, SAST của Paddle và đạt kết quả cao nhất với
mô hình SAST với 80.73% với đo H-mean.
* Thử nghiệm các mô hình học sâu nhận diện văn bản trên ảnh bìa sách bao gồm
mô hình SVTR, CRNN của Paddle, mô hình TransformerOCR của VietOCR và
đạt kết quả cao nhất với mô hình TransformerOCR của VietOCR với 91.42% độ
chính xác trên ký tự, lần lượt đạt 13.85% và 4.78% trên độ đo WER và CER
¢ Hệ thống trích xuất thông tin trên bìa sách tiếng Việt đạt độ chính xác 22.67%
với độ đo WER và 84.06% độ chính xác trên cấp độ từ.
Câu trúc khóa luận
Khóa luận gồm 7 chương với các nội dung chính sau:
* Chương 1: Tổng quan
Giới thiệu về lĩnh vực nghiên cứu về OCR hiện nay và tinh ứng dung của nó
trong cuộc sông hiện tại Đồng thời, trình bày thực trạng quản lý sách hiện nay
tại Việt Nam.
* Chương 2: Bài toán trích xuất trên bìa sách tiếng Việt
Trình bày đầu vào và đầu ra của bài toán trích xuất thông tin trên bìa sách tiếng
Việt Nêu các thách thức đặt ra của bài toán và hướng giải quyết.
¢ Chương 3: Các công trình nghiên cứu liên quan
Chúng tôi trình bày một số công trình nghiên cứu chúng tôi tham khảo có cả
ngôn ngữ nước ngoài và ngôn ngữ tiếng Việt.
* Chương 4: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên bìa sáchtiếng Việt
Trình bày chi tiết hình thức bộ dữ liệu xây dựng, cách thu thập va gán nhãn cho
bộ dữ liệu ảnh bìa sách Quy trình gán nhãn dữ liệu và đưa ra một số phân tích
về bộ dữ liệu xây dựng
Trang 23« Chương 5: Các phương pháp tiếp cận
Trình bày các phương pháp và mô hình dùng huấn luyện cho phát hiện văn bản
trên bìa sách, nhận diện văn bản trên bìa sách, tổng hợp thông tin bìa sách.
s Chương 6: Cai đặt, thực nghiệm và đánh giá
Trình bày các thức cài đặt các mô hình thực nghiệm và đánh giá kết quả thực
nghiệm.
* Chương 7: Kết luận và hướng phát triển
Trang 241 Chương 1 TONG QUAN
1.1 Giới thiệu đề tài
Ở nước ta trong mấy chục năm qua, văn hoá đọc đã có những bước phát triển vượt
bậc Điều đó thể hiện ở những con số sau đây: trước năm 1975, cả hai miền Bắc và
Nam xuất bản hàng năm được khoảng chưa đầy 4.000 tên sách, ngày nay hàng nămxuất bản khoảng xấp xỉ 25.000 tên sách, tăng gấp 6 lần, gần đây tốc độ gia tăng hàngnăm khoảng 10% Cả nước hiện nay đang xuất bản khoảng gần 400 tên báo, tạp chí,nhiều báo có số lượng xuất bản mỗi số lên tới 500.000 bản Chính vì thế cần giải pháp
để hỗ trợ việc quản lý sách cho những cửa hàng, thư viện và cá nhân là cần thiết, cũng
từ đó hướng đến tự động hoá, chuyển đổi từ thư viện truyền thống sang thư viện điệntử/thư viện sé
Hiện nay khi thời đại khoa học công nghệ đang ngày càng phát triển, có thể dễ
dàng nhận thấy công nghệ OCR hiện đã được ứng dụng rộng rãi trong đời sống, trongnhiều lĩnh vực khác nhau Công nghệ OCR thường được dùng phổ biến nhất đó là
trong các máy scanner tại các văn phòng Hiện nay, các máy scan cơ bản chỉ có thể
quét được các hình ảnh và trả chúng về những hình ảnh dạng số hoá Chính những
lý do thực tế này, chúng tôi thực hiện đề tài này để đóng góp một phần công sức chocộng đồng nghiên cứu về xử lý ảnh cũng như cộng đồng yêu sách ở Việt Nam Đề tàitrích xuất thông tin trên ảnh chụp bìa sách tiếng Việt với đầu vào là hình ảnh bìa sách
và dau ra là thông tin tên tác giả, tên sách và tên nhà xuất bản Trong dé tài này chúng
tôi giới thiệu bộ dữ liệu ảnh gồm 7.875 ảnh chụp bìa sách đã gán nhãn Chúng tôi xâydựng hệ thống trích xuất thông tin trên bìa gồm tên tác giả, tên sách, tên nhà xuất bản
bằng cách giải quyết 3 bài toán sau: (1) phát hiện văn bản trên ảnh bìa sách, (2) nhận
dạng văn bản trên ảnh bìa sách, (3) tổng hợp, phân loại nội dung văn bản.
Trang 251.2 Tinh ứng dụng của đề tài
Nghiên cứu của chúng tôi mang đến một số đóng góp cho cộng đồng xử lý ảnh va
tính ứng dụng trong việc quản lý thư viện, cửa hàng bán sách, tủ sách cá nhân Trong lĩnh vực xử lý ảnh nói chung và mảng OCR nói riêng, bộ dữ liệu chúng tôi xây dựnggồm 7,875 ảnh chụp các bìa sách tiếng Việt phục vụ nghiên cứu và huấn luyện được
mô hình phát hiện chữ tiếng Việt trên ảnh và nhận dạng chữ tiếng Việt trên ảnh Ứng
dụng cho những hệ thống có thực hiện nhiệm vụ nhận dạng chữ tiếng Việt thông qua
hình ảnh.
Ứng dụng chính mà chúng tôi hướng đến khi thực hiện đề tài này là xây dựng một
hệ thống số hóa tủ sách hay ứng dụng hỗ trợ trích xuất các thông tin của sách trên
bìa sách Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản, những thông tin này giống như địa chỉ để người đọc tìm kiếm đến một cuốn sách.
Trong các thư viện, nhà sách hay tủ sách cá nhân khi muốn sao lưu và thống kê quản
lý số lượng sách trong kho, điều tất nhiên phải ghi lại các thông tin trên bìa sách vềtên sách, tên tác giả, nhà xuất bản Tuy nhiên với số lượng sách khổng lồ trong thư
viện hay các nhà sách cần ứng dụng hỗ trợ thực hiện công việc sao lưu này một cách
nhanh chóng.Ngoài tiết kiệm được thời gian, các tài liệu, văn bản được số hóa sẽ giúptiết kiệm không gian lưu trữ và dé dang quản lý
143 Kếtluận
Nhìn chung, bài toán OCR đã và đang được đẩy mạnh nghiên cứu và ứng dụng
nhiều trong cuộc sống Đặc biệt, OCR trong việc giải quyết các bài toán về nhận diệnchữ viết trong hình ảnh tao ra nhiều giá trị cho cuộc sống con người trong xu thé số
hóa hiện nay Áp dụng OCR xây dựng một hệ thống trích xuất thông tin từ sách hỗ
trợ cho việc quản lý sách trong thư viện, nhà sách hay tủ sách cá nhân giúp tiết kiệm
được thời gian cũng như không gian lưu trữ, giúp người dùng sắp xếp quản lý sách
một cách chuyên nghiệp và thuận hơn Đồng thời, qua quá trình xây dựng nghiên cứu
Trang 26về dé tài đóng góp phần nhỏ vào công cuộc nghiên cứu chuyển đổi công nghệ số, đặcbiệt là trong nhận dạng chữ cho thế giới nói chung và Việt Nam nói riêng.
Trang 272_ Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN
TRÊN BÌA SÁCH TIÊNG VIỆT
Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bảnđược trích xuất ra các trường thông tin qua các bước (1) tìm vị trí các văn bản cótrên ảnh bìa sách (text detection), (2) nhận dạng các văn bản dưới dạng ảnh thành nộidung dưới dạng chuỗi (text recognition), (3) phân loại các chuỗi thông tin về đúng cáctrường tác giả, tên sách, nhà xuất bản
2.1 Bài toán trích xuât thông tin trên bìa sách tiêng Việt
Bài toán trích xuất thông tin trên bìa sách tiếng Việt có đầu vào với đầu ra như sau:
* Đầu vào: Ảnh chụp bìa sách tiếng Việt
« Đầu ra: Thông tin các trường tác giả, tên sách, nhà xuất bản
Trang 28Nhìn vào hình 2, hình bên trái là đầu vào của hệ thống hình ảnh bìa sách tiếng Việt
được chụp bằng điện thoại Bên trái là kết quả của hệ thống gồm chi tiết các thông tin
tên sách, tên tác giả, tên nhà xuat ban.
2.2 Thách thức
OCR là một bài toán được nghiên cứu và ứng dụng trong thực tế tuy nhiên bài toánchúng tôi đặt ra có một số thách thức Dữ liệu là điều kiện cần để thực hiện bất kỳ
một mô hình học máy, tuy nhiên dữ liệu để giải quyết các bài toán OCR trong tiếng
Việt rất ít, đặc biệt qua khảo sát thấy được, bài toán của chúng tôi thực hiện chưa cócông bé dữ liệu nào Từ đó đặt ra thách thức cho chúng tôi, cần xây dựng một bộ dữliệu ảnh chụp bìa sách tiếng Việt và gán nhãn đề làm đầu vào cho các mô hình máy
học Trong bài toán phát hiện và nhận dạng chữ viết phổ biến những dạng văn bản có phông chữ cố định và dạng phông chữ phổ biến cụ thể như bài toán trích xuất thông
tin trên hóa đơn, tuy nhiên các văn bản xuất hiện trên bìa sách là văn bản phi cấu trúc
Văn bản đa dạng về bố cục, phông chữ và background phức tạp Thêm vào đó,các công trình nghiên cứu về bài toán nhận dạng văn bản trên hình ảnh có cấu trúc
phức tạp rất ít, đặc biệt cho tiếng Việt Từ những thách thức đặt ra, chúng tôi quyết định thực hiện đề tài này biến những thách thức thành cơ hội được nghiên cứu và thực
nghiệm tạo ra bộ dữ liệu, các mô hình có thể một phần đóng góp vào những ứng dụngphục vụ trong cuộc sống, cũng như một phan thúc day quá trình cuộc cách mạng côngnghệ của Việt Nam và thé giới
«2e
2.3 Phương pháp đề xuât giải quyét bài toán
Dựa vào phân tích, đánh giá các điều kiện cần và đủ để giải quyết bài toán tríchxuất thông trên bìa sách mà chúng tôi đặt ra, chúng tôi đề xuất các phương pháp đềtừng bước giải quyết các van dé như sau:
s Xây dựng bộ dữ liệu anh bìa sách, bộ dữ liệu đủ lớn đạt 7.000 ảnh và gan nhãn.
11
Trang 29Nhãn dữ liệu là tọa độ bounding box văn bản có trên bìa sách và nội dung văn
bản có trong bounding box.
¢ Huấn luyện mô hình cho nhiệm vụ phát hiện văn bản trên ảnh bìa sách (textdetection) các mô hình chúng tôi đề xuất sử dung CRAFT , mô hình SAST,EAST của Paddle.
¢ Huấn luyện mô hình cho nhiệm vụ nhận dạng văn bản trên ảnh bìa sách (text
recognition) các mô hình chúng tôi dé xuất sử dụng mô hình nhận dạng văn banSVTR, CRNN của Paddle, mô hình transformerOCR của VietOCR.
¢ Huấn luyện mô hình YOLOv4 phát hiện vùng đối tượng văn bản thuộc nhómthông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher)
Xử lý tong hợp
thông tin.
Phát hiện văn bản Thực hiện xử lý tổng hợp mảnh
thông tin tên sách, tên tác giả, tên
Huấn luyện mô hình CRAFT, SAST, nhà xuất bản.
EAST cho nhiệm vụ phát hiện văn
bản trên bìa sách.
@ ® @ ©
Xây dựng dữ liệu C Quản Nhận dạng văn Po Guốn:
Xây dựng bộ dữ liệu bìa sách bản
khoảng 7.000 ảnh
Huấn luyện mô hình SVTR, CRNN,
TransformerOCR cho nhiệm vụ nhận diện văn bản trên bìa sách.
Hình 3: Sơ đồ chuỗi các phương pháp dé xuất giải quyết bài toán trích xuất thông tin
từ bìa sách tiếng Việt
12
Trang 303 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN
QUAN
Dạng ảnh chứa văn bản xử lý trong bài toán OCR được chia 2 dạng: ảnh văn bản
có cau trúc và văn bản phi cấu trúc Van bản có cấu trúc là văn bản dưới dạng đánhmáy, có hàng lối, kích cỡ chữ, phông chữ đồng nhất, ví dụ như các trang sách, các hóa
đơn, chứng minh nhân dân Văn bản phi cấu trúc là văn bản không có cấu trúc hàng
thích hợp, ảnh nền chữ phức tạp, các chữ trong văn bản không có phông chữ và kích
cỡ đồng nhất, ví dụ như ảnh bìa sách, ảnh các biển quảng cáo, , hình 4, 5
4 COM BAT BUU
1 SUON CHIEN KOO
3.1 Cac công trình nghiên cứu trên ngôn ngữ nước ngoài
Bài toán OCR được đẩy mạnh nghiên cứu trên thế giới đặc biệt là tiếng Anh và các
ngôn ngữ khác như Trung, Hàn, Nhật Các công trình nghiên cứu OCR về ngônngữ nước ngoài kể đến những bộ dữ liệu xây dựng để giải quyết những bài toán này
Đặc biệt, có rất nhiều bộ dữ liệu được công bồ trong các cuộc thi toàn cầu với mục
đích tìm kiếm những cách giải quyết bài toán OCR với các bộ dữ liệu này từ những
người tham gia đồng thời phổ biến, đẩy mạnh công cuộc nghiên cứu, phát triển công
nghệ OCR trên toàn cầu Hằng năm, ICDAR (International Conference on Document
13
Trang 31COCO[16] chứa hình ảnh cảnh phức tạp hằng ngày Các hình ảnh này thu thập ảnh
cảnh vật và văn bản chỉ là đối tượng được xuất hiện trong cảnh đó do đó bộ dữ liệuchưa rất đa dạng các kiểu văn bản Bộ dữ liệu có 63.686 ảnh Mỗi ảnh trong bộ
Trang 32dữ liệu COCO-text được gán nhãn như sau: (1) vị trí của của bounding-box chữa vănbản, (2) nhãn phân loại chữ in bằng máy hay chữ viết tay, (3) nhãn phân loại văn bản
có thể đọc và văn bản không thể đọc, (4) nhãn phân loại tiếng Anh, không là tiếng
Anh, (5) nội dung văn bản có thể đọc, ví dụ hình7 Mỗi bounding-box là hình chữ
nhật gán vị trí văn bản trên ảnh ở cấp độ từ Phương pháp đã được những người thamgia sử dụng cho nhiệm vụ phát hiện chữ trên ảnh (text localization hay text detection)
trong nhiệm vụ trích xuất thông tin từ hòa đơn này là mô hình deep learning CNN
đánh giá trên độ đo AP(Average Precision) với IoU > 0.75 đạt 32.10 dẫn đầu những
người tham gia.
Trong cuộc thi ICDAR 2019, bài toán mới được đưa ra không chỉ dừng lại ở phat
Hình 7: Vi dụ nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn:
IC-DAR2017 Robust Reading Challenge on COCO-Text.
hiện va nhận dạng chữ trên ảnh, mà cần trích xuất được văn bản đó thuộc trường dữ
liệu nào với những dạng văn bản có cấu trúc như hóa đơn bán hàng Bài toán tríchxuất hóa đơn với bộ dữ liệu lớn tập hợp các ảnh hóa đơn tiếng Anh,một số ví dụ hình
8 Mục đích khi đặt ra thử thách với bộ dữ liệu hóa đơn này là có thể trích xuất đượcthông tin của những dạng văn bản có cấu trúc trên ảnh phục vụ nhiều ứng dụng vàdịch vụ trong việc lưu trữ hiệu quả, lập chỉ mục nhanh và phân tích tài liệu Những
15
Trang 33điều này đóng vai trò quan trọng trong việc xử lý nhanh các tài liệu giấy bằng cách tự
động hóa thúc đẩy xây dựng văn phòng tự động hóa trong nhiều lĩnh vực tài chính, kếtoán, thuế Với thử thách này, ban tổ chức đưa ra 3 nhiệm vụ nhỏ xử lý trên bộ dữ liệu
như sau: (1) Phát hiện chữ trên hóa đơn, (2) Nhận dạng chữ trên hóa đơn, (3) trích
xuất các trường thông tin trên hóa đơn
tan chay yee
\ PT
1C MARKETING SOW BHD
RO: H
44300 BATANG KALI, SELANGOR
Tải: CP-605? Osim Fax 0-605 7 S678
Total
Fe
Hình 8: Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn
trong cuộc thi ICDAR 2019.
3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt
Trong những năm gần đây, Việt Nam cũng đang đẩy mình hòa nhập với sự pháttriển công nghệ toàn cầu, đặc biệt tình hình nghiên cứu, ứng dụng trong lĩnh vực công
nghệ thông tin ngày càng có nhiều bước ngoặt lớn cũng như những thành tựu đạt được.
Trong lĩnh vực xử lý ngôn ngữ tự nhiên và xử lý ảnh, nhiều cuộc thi được mở ra hằng
năm với những bài toán rất thú vị và nhu cầu trong cuộc sống thực tế đối với ngôn ngữtiếng Việt Bài toán OCR cũng được đặc biệt quan tâm và đem vào trong những cuộc
thi để tìm kiếm giải pháp từ người tham gia Trong cuộc thi RIVE 2021 MC-OCR,
16
Trang 34bài toán đặt ra trích xuất thông tin từ hóa đơn chụp bằng điện thoại Bài toán chia làm
hai nhiệm vụ nhỏ (1) phân loại chất lượng hình ảnh hóa đơn - hình 9, (2) trích xuất
4 thông tin hóa đơn bao gồm tên cửa hàng, địa chỉ cửa hàng, thời gian thanh toán, sốtiền thanh toán - hình 10
Kết thúc cuộc thi, nhiều nhóm tham gia đã có những kết quả đáng mong đợi cùng
Dau vào Dau ra
Hình 9: Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnhhóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầuvào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021MC-OCR Competition.
Dau vào Đâu ra
Hình 10: Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong
cuộc thi RIVE 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên
trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competition
với những phương pháp hiệu quả được công bồ tại bài báo[17] Đối với nhiệm vụ 1 kết
17
Trang 35quả dẫn đầu với RMSE bằng 0.1 với mô hình người tham gia sử dụng EfficientNet.
Đối với nhiệm vụ 2, cũng là nhiệm vụ chính mà cuộc thi hướng tới, kết quả ngườitham dự đạt được cao nhất là 0.22 với độ đo Character Error Rate (CER) và phươngpháp sử dụng là mô hình YOLOvS và VietOCR Với bước nhận dang chữ thi VietOCR
rõ ràng đang là mô hình tốt nhất trên tiếng Việt và đây cũng là mô hình tất cả các đội
trong top 5 đều sử dụng trong cuộc thi này
3.3 Kếtluận
Nhìn chung, OCR đã và đang ngày càng được đẩy mạnh nghiên cứu cũng như ứng
dụng vào thực tế cuộc sống của trên toàn thế giới và Việt Nam Tầm quan trọng củaOCR cũng ngày càng được thấy rõ khi ngày càng có nhiều dạng và thử thách được đặt
ra để giải quyết cho bài toán OCR Đặc biệt OCR cho tiếng Việt vẫn còn nhiều thách
thức như sau các bộ dữ liệu phục vụ cho bài toán OCR số lượng còn ít và chưa có tính
đa dạng, còn rất ít những mô hình đề xuất cũng như thư viện hỗ trợ trong quá trình xử
lý thực hiện giải quyết bài toán OCR
18
Trang 364 Chương 4 XÂY DỰNG BO DU LIEU CHO BÀI
TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH
TIÊNG VIỆT
4.1 Thu thập dữ liệu
Các ảnh bìa sách được thu thập từ hai nguồn chính là ảnh các bìa sách trong thư
viện, nhà sách bằng điện thoại và ảnh thu thập từ các trang web bán sách tiki - trang
thương mại điện tử Việt Nam, các trang review sách các hình ảnh được đăng tải trên
Facebook Điện thoại sử dụng chụp ảnh bìa sách là những điện thoại thông minh của
các hãng phổ biến Iphone, Samsung, Oppo với độ phân giải ở ngưỡng 3000x4000
pixels Mỗi bìa sách được chụp khoảng 10 ảnh với các góc chụp và background khác
nhau, ví dụ hình 11.
Sau hai tuần thu thập dữ liệu, chúng tôi có được tổng ảnh bìa sách thu thập gần hơn
19
Trang 3738.000 ảnh trong đó 7.786 ảnh bìa sách chụp bằng điện thoại Ảnh thu thập từ các
trang web bán sách và Facebook hơn 30.000 ảnh, tuy nhiên trong số ảnh này có nhiềutắm ảnh không phải hình ảnh bìa sách hoặc những bìa sách không còn đủ thông tin
Do đó, chúng tôi tiễn hành lọc và loại bỏ số ảnh không thể sử dụng và giữ lại 14.154
ảnh đủ tiêu chuẩn Do đó, số lượng ảnh đạt yêu cầu chúng tôi có được sau khi chọn
lọc là 21.940 ảnh bìa sách để thực hiện gán nhãn.
4.2 Gan nhãn dư liệu
4.2.1 Hướng dẫn gan nhãn dữ liệu
Trong quá trình gán nhãn để đảm bảo được chất lượng dữ liệu các người tham gia
gán nhãn dif liệu đều tuân thủ theo hướng dẫn gán nhãn Công cu gán nhãn chúngtôi sử dụng là PaddleOCR[5], công cụ này giúp gán nhãn dữ liệu một cách tối ưu do
công cụ có hỗ trợ gán các bounding box dạng hình chữ nhật và dạng hình đa giác, đặc
biệt thích hợp với dữ liệu của chúng tôi Người tham gia gán nhãn một ảnh bìa sáchcần thực hiện 4 bước: (1) xác định vi bounding box cho văn bản trên ảnh, (2) gán nội
dung văn bản cho mỗi bounding box, (3) gán nhãn phân loại Title, Author, Publisher
cho các nội dung văn bản trong bounding box, (4) đánh số nối các nội dung thuộc
từng trường Title, Author, Publisher, hình 12 mô tả các bước gan nhãn Ở bước 1 do
các văn bản bìa sách sắp xếp không theo một quy định nào nên các bounding box chocác văn bản cần được linh hoạt hình dạng sao cho bounding box bao càng khớp vớivùng hình ảnh càng tốt nhưng phải đảm bảo được các tiêu chí sau:
* Các bounding box phải bao được hết đối tượng văn bản trên ảnh tuy nhiên cầnhạn chế tối đa những khoảng thừa không thuộc văn bản đó
* Các bounding box được gán theo cấp độ dòng
Trong bước 2, nội dung văn bản cần gán chính xác từ chữ hoa đến chữ thường Tiếpđến bước 3, các nội dung văn ban sẽ được gan nhãn phân loại Title, Author, Publisher
và Other Nhãn Other dành cho những trường hợp thông tin không thuộc tác giả, tên
20
Trang 38sách hay nhà xuất bản Bước cuối cùng các văn bản trên bìa sách được gán theo cấp
độ dòng nên do đó sẽ có nhiều nhãn Title, Author, Publisher do đó nội dung cùngnhãn sẽ được đánh số thứ tự để liên kết với nhau
INHIEU TÁC GIẢ/author/0
Nguyễn Bùi Vợi/tie/0
Bước (2), (3), (4) | với tinh đời/title/1
ITIỀU LUẬN PHÊ BÌNH(title/2 INHÀ XUẤT BAN HỘI NHÀ VĂN/publisher/0
Hình 12: Mô phỏng các bước gán nhãn ảnh bìa sách.
4.2.2 Quá trình gan nhãn dw liệu
Quá trình gán nhãn của chúng tôi thực hiện 5 vòng, mỗi vòng gán 1.600 ảnh chia
đều cho 7 người Trong quá trình gán nhãn, những người tham gia gán nhãn phát hiện
trường hợp đặc biệt chưa có trong bản hướng dẫn gán nhãn, người tham gia gán nhãn
có trách nhiệm thông báo và thảo luận trường hợp đó với nhóm và bản hướng dẫn gán nhãn luôn được cập nhật sau mỗi lần thảo luận Để đảm bảo chất lượng cho bộ dữ
liệu, những ảnh thiêu chất lượng như mờ, nhòe, bị cắt thiếu nội dung sẽ được người
tham gia gán nhãn phát hiện và loại bỏ khỏi tập dữ liệu Kết thúc mỗi vòng gán nhãn,
các tập dữ liệu của thành viên gán nhãn sẽ được kiểm tra lại bởi một thành viên khác.
Các lỗi gán nhãn sai được phát hiện lúc kiểm tra lại sẽ được sửa và ghi lại các lỗi sai
đó để thông báo để đào tạo cách gán nhãn lại cho các thành viên, từ đó các thành viên
có thể làm tốt hơn ở vòng tiếp theo, hình 13
4.3 Phân (ích bộ dư liệu
Sau 5 vòng gán nhãn, tập dữ liệu có 7.875 ảnh đã được gán nhãn Nhãn của các ảnhgồm tọa độ bounding box, nội dung của ảnh văn bản được bounding box, nhãn phânloại nội dung( Title, Author, Publisher) và số đánh nối các nội dung thuộc các nhãn
21
Trang 39Hình 13: Lưu đồ khối thể hiện quy trình gán nhãn bộ dữ liệu Vi-BCI.
phân loại, hình 14 ví dụ về một ảnh mẫu và nhãn trong tập dữ liệu Sau khi thống kê,
7.875 anh bìa sách được gan nhãn có hơn 67.000 bounding box được gan Chúng tôichia bộ dif liệu lớn thành 3 tập dữ liệu: dữ liệu huấn luyện, dữ liệu kiểm thử, dữ liệuđánh giá với tỷ lệ 8: 1:1.
Trang 405 Chương 5 CÁC PHƯƠNG PHÁP TIẾP CAN
Thông qua việc tìm hiểu và nghiên cứu các công trình liên quan về nhận diện, tríchxuất thông tin từ ảnh trên thế giới cũng như trong nước Chúng tôi đã thực nghiệm
các mô hình học sâu tiên tiến, hiện đại để tìm ra mô hình mang lại kết quả tối ưu
nhất Sở dĩ chúng tôi sử dụng các mô hình học sâu hiện đại vì các bài toán liênquan để giải quyết vấn đề đặt ra đã được nghiên cứu và cho ra khá nhiều mô hình
hiện đại Trong khóa luận này, chúng tôi cài đặt các mô hình học sâu hiện đại như: EAST, SAST, CRAFT, EasyOCR, TransformerOCR, CRNN, SVTR, Yolov4 Ngoài
việc thực nghiệm các mô hình trên, chúng tôi đã tiền xử ly bằng mô hình Detectron2
để tăng hiệu suất của mô hình Hình 15 bên dưới thể hiện cấu trúc tổng quan của
phương pháp mà chúng tôi thực hiện trong khoá luận này.
Quá trình huấn luyện
¡|_ Phát hiện văn ban ||
ị Phát hiện văn ban | |
NETO CIE IO Cen 32D; — Xử lý tổng hợp thông tin Kết quả đầu ra
Dữ liệu
đánh giá
Tiền xử lý dữ liệu
¡ | Phát hiện đối tượng | |
Hình 15: Hình mô phỏng tổng quan phương pháp.
23