Khóa luận tốt nghiệp Khoa học dữ liệu: Trích xuất thông tin trên bìa sách Tiếng Việt

Chúng tôi sử dụng mô hình EAST,SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản đ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

VÕ KIEU HOA - 18520767 NGUYEN THỊ THÁM - 18521384

KHÓA LUẬN TÓT NGHIỆP

TRÍCH XUẤT THONG TIN TREN

BIA SACH TIENG VIET

INFORMATION EXTRACTION FROM

VIETNAMESE BOOK COVER IMAGES

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

ThS TA THU THUY

TP HO CHi MINH, 2022

Trang 2

THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày

fee beee eee eeeeee eee của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

| rer rn reas - Chu tich

Qe Q22 n nh này - Thư ký

¬ een ee ee - Ủy Viên

Trang 3

LỜI CẢM ƠN

Lời đầu tiên chúng em chân thành gửi lời cảm ơn đến quý Thầy/Cô trong Khoa Khoa

học và Kỹ thuật Thông tin thuộc Trường Đại học Công Nghệ Thông Tin - Đại học

Quốc Gia Thành Phó Hồ Chí Minh đã tận tình giúp đỡ chúng em trong quá trình họctập, nghiên cứu và tạo điều kiện để chúng em thực hiện Khóa luận Tốt nghiệp Đặcbiệt, chúng em xin cảm ơn sâu sắc đến thầy Dé Trọng Hợp cùng cô Tạ Thu Thủy đãdành nhiều thời gian, hết lòng hỗ trợ và hướng dẫn tận tình cho nhóm chúng em từ

kiến thức và quy trình thực hiện trong suốt thời gian làm Khóa luận Tốt nghiệp Cuối

cùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và anh chị đã luôn ủng hộ,

động viên và đồng hành cùng chúng em trong cuộc sông cũng như trong quá trình học

tập tại Đại học Công Nghệ Thông Tin.

Thành phố Hồ Chí Minh, ngày tháng năm 2022

Tac giả khóa luậnNguyễn Thị Thắm - Võ Kiều Hoa.

Trang 4

ĐỀ CƯƠNG CHI TIẾT

TÊN DE TÀI: TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIENG VIET.

TEN DE TAI (tiéng Anh): INFORMATION EXTRACTION FROM VIETNAMESE

BOOK COVER IMAGES.

Cán bộ hướng dẫn:

TS Đỗ Trọng Hợp

ThS Tạ Thu Thủy

Thời gian thực hiện: Từ ngày 10/02/2022 đến ngày 10/07/2022

Sinh viên thực hiện:

— Nghiên cứu các mô hình, các kỹ thuật liên quan cho bài toán trên.

— Chạy thực nghiệm các mô hình và các kỹ thuật để kiểm chứng độ chính xác

và đánh giá hiệu suất của các mô hình đã thực nghiệm

— Cải thiện độ chính xác của mô hình và chọn ra mô hình tốt nhất cho bộ dữ

liệu.

— Xây dựng ứng dụng hỗ trợ quản lý sách cho người dùng.

» Pham vi nghiên cứu:

— Miền dữ liệu ảnh là ảnh tự chụp bìa sách Tiếng Việt, nguồn thu thập là ảnh

bìa sách được chụp từ nhà sách, thư viện.

V

Trang 5

— Chúng tôi chọn bìa sách Tiếng Việt vì hiện nay dữ liệu sách Tiếng Việt ngàymột nhiều mà các nghiên cứu trên nó còn nhiều hạn chế Mặt khác, chưa có

bộ dữ liệu bìa sách Tiếng Việt nào có thể đáp ứng nhu cầu nghiên cứu và ứng

dụng.

s Các công trình nghiên cứu liên quan:

— Bài báo ở tạp chí khoa học Da Lạt: “VIETNAMESE TEXT EXTRACTION

FROM BOOK COVERS”[I] Nghiên cứu nhận dạng văn ban tiếng Việt từảnh bìa sách Các bước xử lý bao gồm: tiền xử lý ảnh bìa sách ở đầu vào,

định vị các vùng chứa văn bản, áp dụng kĩ thuật nhận dạng ký tự quang học

(OCR), sử dụng từ điển để nâng cao độ chính xác của văn bản nhận diện

được Ở bước tiền xử lý ảnh đầu vào bao gồm các kĩ thuật: skew,

de-noise, enhance, crop,remove background Ở bước detection va OCR, tác gia

huấn luyện với mô hình Tesseract sau đó sử dung từ điển để chuẩn hóa vănbản đầu ra.Kết quả đạt được tốt nhất với 82% accuracy (ảnh đầu vào kíchthước tối thiểu 300px mỗi chiều)

— Bài báo khoa học “FUNSD: A Dataset for Form Understanding in Noisy

Scanned Documents”[2] nghiên cứu trích xuất thông tin từ các mẫu đơn.Đầu vào là các mẫu đơn đã được điền nội dung, đầu ra trích xuất được thông

tin dưới dạng quan hệ khóa-giá trị( key-value) với khóa(key) là các từ khóa

được in sẵn trên đơn và giá trị(value) là nội dung được điền vào tương ứngvới khóa Nghiên cứu thực hiện 3 nhiệm vụ và kết quả tương ứng:

1 ext detection: Sử dụng 4 phương pháp Tesseract, EAST, Google Vision,

Faster R-CNN đạt kết quả cao nhất với mô hình Faster R-CNN với Recall

bằng 84.8%, F1-score bằng 0.76%.

2 Text recognition với OCR: Sử dụng 2 phương pháp Tesseract và Google

Vision và đạt kết quả OCR bằng 94.4%

3 Form understanding: với ba nhiệm vụ nhỏ Nhiệm vụ nhóm từ( word

vi

Trang 6

grouping) đạt ARI(the adjusted index) là 0.41% với phương pháp Google

Vision, với nhiệm vụ nhận dạng thực thé (entity labeling) đạt Fl-score

bang 0.57%, nhiệm vụ liên kết thực thé (entity linking) đạt F1-score bằng

0.04%.

« Đối tượng:

~ Bài toán trích xuất thông tin trên bìa sách Tiếng Việt

— Ngôn ngữ Tiếng Việt

= Các hình ảnh chụp bìa sách Tiếng Việt chứa các nội dung: Tên sách, tên tácgiả, tên nhà xuất bản

s Phương pháp thực hiện:

— Xây dựng tập dữ liệu:

+ Thu thập dữ liệu: các hình ảnh chụp bìa sách được chụp thủ công bằng

nhiều thiết bị điện thoại di động

+ Tao bộ dữ liệu: Chúng tôi sử dụng công cu gan nhãn PaddleOCR dé gan

nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường

nào trong ba trường: Tên sách, tên tác giả, tên nhà xuất bản

~— Bài toán: số hóa tủ sách - trích xuất thông tin sách từ ảnh bìa sách Tiếng

Việt.

+ Đầu vào: ảnh bìa sách.

+ Đầu ra: Thông tin của sách gồm: tên sách, tên tác giả, tên nhà xuất bản.

— Nghiên cứu phương pháp thực nghiệm: bài toán được thực hiện bởi ba nhiệm

vụ chính: text detection, text recognition, form understanding( word

group-ing, semantic entity labeling)

+ Text detection: Đối với bài toán text detection chúng tôi sử dụng nhiều

mô hình như: EasyOCR[3], Craft[4], PAN, PaddleOCR[5]để so sánh,

Vii

Trang 7

e Tên tác giả: NGUYEN

THÀNH VÁN DƯƠNG HIẾU BAU

-e _ Tên sách: Cơ Nhiệt đại

đánh giá và tìm ra mô hình tốt nhất với bộ dữ liệu Sử dụng độ đo đánh

giá IoU để đo độ khớp của bounding box dự đoán so với bounding box

bounding box dự đoán có IoU >= 0.5 được coi là khớp Trong trường

hợp có nhiều bounding box thỏa mãn, bounding box có IoU lớn nhất

sẽ được chon (True Positive — TP); các bounding box còn lại được

tính là (False Positive — FP) False Negative - FN: trường hợp tôn taibounding box thực tế nhưng mô hình không detect được

- Precision va Recall để đo độ chính xác và độ phủ của mô hình text

detection.

so TP TP

Precision = TP ap Reeall = TPLFN

viii

Trang 8

- Độ đo H-mean là trung bình điều hòa của Precision và Recall.

Hmea 2.Precision.Recall

mean ==———————

Precision + Recall

+ Text recognition: Ở bài toán này chúng tôi sử dung hai mô hình EasyOCR

và VietOCR Trong đó EasyOCR là mô hình pre-train hỗ trợ hơn 80

ngôn ngữ trong đó có Tiếng Việt VietOCR là mô hình pre-train trên

Tiếng Việt được huấn luyện trên tập dữ liệu gồm 1 triệu ảnh, bao gồm

đa dạng loại ảnh Chúng tôi sử dụng độ đo CER(character error rate) và

WER(word error rate) CER va WER là hai độ đo được sử dụng phổ biến

trong bài toán OCR.

- word grouping: Mỗi bìa sách, các thông tin của bìa sách đặc biệt là tên

cuốn sách được thiết kế rời rạc, nhiều hình dạng trong quá trình gánnhãn thì tên của một bìa sách có thể phải dùng đến nhiều bounding

box để gán Do đó task này thực hiện ghép các văn bản trong cùng

một nhãn về thành câu có nghĩa Độ đo đánh giá sử dụng ARI (theadjusted index) là một độ đo phổ biến dùng để tính hiệu suất phân

nhóm, là một biến thể của chỉ số Rand index Giả sử C là phép gán

1X

Trang 9

nhãn đung của các đối tượng, K là bộ phân cụm thì a,b được địnhnghĩa như sau: a là số lượng các cặp điểm ở cùng một tập trên C vàcùng một tập trên K Còn b là số lượng các cặp điểm ở các tập khác

nhau trên C và ở các tập khác nhau trên K Chỉ số Rand index là:

bảo rằng các phép gán nhãn ngẫu nhiên sẽ có giá trị gần bằng 0 (đặc

biệt nều số cụm có cùng độ lớn với số lượng mẫu) Để tránh được hạnchế này, ARI thực hiện chiết khấu RI dự kiến — E(RI) của các phép

gán nhãn ngẫu nhiên, với công thức:

R1 — E[RI]

ARI = ————

max(RI) — E[RI]

- semantic entity labeling: Sau khi có được thông tin văn bản của cuốn

sách là đầu ra của các task nói trên, công việc thực hiện ở nhiệm vụnày là phân loại đúng thông tin của cuốn sách về đúng nhãn tươngứng: Tên sách, Tên tác giả, Tên nhà xuất bản Độ đo sử dụng đánh giá

là Precision, Recall, F1-score.

+ Ngoài ra chúng tôi sử dụng mô hình Detectron2 để thực hiện tiền xử lý

background của ảnh bìa sách.

+ Kết quả mong đợi:

— Xây dựng được bộ dữ liệu ảnh bìa sách khoảng 10.000 ảnh chụp bìa sách

phục vụ cho bài toán số hóa tủ sách

x

Trang 10

— Thực nghiệm được nhiều mô hình, sử dụng các kỹ thuật xử lý để nâng caokết quả mô hình, tìm được mô hình tốt nhất với bộ dữ liệu Kết quả dự kiếnvới độ do đánh giá h-mean, fl-score từ 75% trở lên và CER, WER tối đa

25%.

— Xây dựng được ứng dụng trích xuất thông tin từ ảnh chụp bìa sách để phục

vụ cho việc quản lý sách.

KẾ hoạch thực hiện: chúng tôi thực hiện đề tài số hóa tủ sách trong 5 tháng và kế

Sinh viên

Công việc

Tìm hiểu tô

Thắm Hoahoạch thực hiện chỉ tiết trong bảng hình 1

Xây dựng bộ dữ

Tháng 2 |Tháng 3 |Tháng 4 | Thang 5Š | Tháng 6

liệu 4mm

| pháp thực nghiệm

Báo cáo Thắm, Hoa

Hình 1: Tóm tắt thực hiện đề tài trong 5 tháng.

xi

Trang 11

MỤC LỤC

DANH MỤC BẢNG xiv DANH MUC HINH xv

TOM TAT KHOA LUAN 1

MO DAU 3

1 Chuong 1 TONG QUAN 7

ll Gidithidudétai 2 ee 7 1.2 Tínhứngdụngcủađềtà 8

13 Kétlan 2 eee 8 2 Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIẾNG VIỆT 10

21 Bài toán trích xuất thông tin trên bìa sách tiếng Việt 10

22 nhấchthứúc À AP cưy 11

2.3 Phương pháp đề xuất giải quyết bài toán 11

3 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN 13

3.1 Các công trình nghiên cứu trên ngôn ngữ nước ngoài 13

3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt 16

33 Kếtuận Q.2 eee 18 4 _ Chương 4 XÂY DỰNG BỘ DU LIEU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIENG VIỆT 19

4.1 Thuthậpdữliệu 2 ee 19 42 — Gánnhãndữliệu co 20 4.2.1 Hướng dẫn gán nhãn dữ liệu 20

42.2 — Quátrình gánnhãn dữ liệu 21

43 Phântchbộdữliệu 21

5 Chương 5 CÁC PHƯƠNG PHÁP TIẾPCẬN 23

51 Tiềnxửlýdđữliệu ee 24 5.1.1 Tiền xử ly chia dữ liệu tập huấn luyện, tập kiểm thử và tập đánh giá 24 5.1.2 Tiền xử lý dữ liệu cho mô hình phát hiện văn bản (TextDetection) 24

xii

Trang 12

5.1.3 Tiền xử lý dữ liệu cho mô hình Text Recognition 25

5.1.4 Tiền xử lý dữ liệu cho mô hình Object detection 27

5.2 Bài toán phát hiện chữ trên anh (Text Detection) 29

5.2.1 Hệ thống nhận dang chữ viết PaddleOCR 29

5.2.2 Mô hình EAST 29

5.2.3 Mô hình SAST 31

5.2.4 Mô hình CRAFT 33

5.3 Bài toán nhận diện chữ trên anh (Text Recognition) 34

5.3.1 Mô hình CRNN trong hệ thống PP-OCR 34

5.3.2 Mô hình SVTR-LCNet trong hệ thống PP-OCR 36

5.3.3 Thư viện VietOCR 37

5.4 Bài toán xử ly tổng hợp thông tin 38

5.4.1 Mô hình Yolov4 38

6 Chương 6 CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ 40

6.1 Cài dat, thucnghiém 40

6.1.1 Bài toán phát hiện văn ban (Text Detection) 40

6.1.2 Bài toán nhận diện văn bản 42

6.1.3 Phân loại va tổng hợp thongtin 43

6.2 Kết quả thực nghiệm và đánhgiá 46

6.2.1 Độ đo đánh giá 46

6.22 Kết quả thực nghiệm, phân tích và đánh gid 51

7 Chuong 7 KẾT LUẬN VÀ HƯỚNG PHATTRIEN 54

7.1 ẽố' \ / Ẳ®ẰG VÝ\ K “ááaa 54

72 HướngpháttriỂn Ặ.ẶVc 55

TÀI LIỆU THAM KHẢO 56

xiii

Trang 13

\á© œ ¬l Ầ CC: +> C2) t =

DANH MỤC BANG

Các mô hình được được si dung 40

Tham số sử dụng huấn luyện các mô hình phát hiện văn ban 41

Tham số sử dụng huấn luyện các mô hình nhận diện văn ban 2 42

Tham số sử dụng huấn luyện các mô hình Yolov4 44

Minh hoa dữ liệu text sau khi xử lý được 45

Kết quả mô hình phát hiện văn ban (Text Detection) 51

Kết quả mô hình nhận diện văn ban (Text Recognition) 51

Kết quả mô hình Yolov4 sau xửlý - 52

Kết quả cuối cùng sau tất cả các bước xử ly 53

XIV

Trang 14

11

12

13

14

15

16

17

18

DANH MỤC HÌNH

Tóm tắt thực hiện đề tài trong 5 tháng

Ví dụ mô tả đầu vào và đầu ra của bài toán trích xuất thông tin từ bìa sách tiếng Viet ee Sơ đồ chuỗi các phương pháp đề xuất giải quyết bài toán trích xuất thông tin từ bìa sách tiếng ViỆt ee Một số ví dụ về văn bản có cấu trúc Hình (a) ảnh chụp trang sách in Hình (b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân .Ặ.Ặ.ẶẶ ee Mot số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ

Một số hình ảnh ví dụ trong bộ dữ liệu COCO-text Nguồn: ICDAR2017 Robust Reading Challenge on COCO-Tlext

Vi du nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn: IC-DAR2017 Robust Reading Challenge on COCO-Text

Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn trong cuộc thi ICDAR 2019

Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa don trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình anh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021 MC-OCR Competition

Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competilon

10 hình anh của một bìa sách được chụp với các góc chụp va background Mô phỏng các bước gan nhãn ảnh bìasách

Lưu đồ khối thể hiện quy trình gan nhãn bộ dữ liệu Vi-BCI

Ảnh bìa sách và nhãn của

ảnh Hình mô phỏng tổng quan phương pháp

-Hình mô tả phân phối dữ liệu bộ dữ liệu Vi-BCIL

Minh họa kết quả mô hình phát hiện văn bản CRAFT trước và sau khi xoá background Q ee Hình minh họa ảnh trước và sau khicắtảnh

XV

XI

12

Trang 15

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Hình mô tả phân phối dữ liệu bộ dữ liệu nhận diện văn bản

Hình mô tả nhãn cho bộ dữ liệu nhận diện vănbản

Minh hoạ nhãn sau khi chuẩn hoá cho mô hình Yolo

Hình thống kê thuật toán và hiệu suất hoạt động các mô hình phát hiện văn bản của PaddleOCR

Kiến trúc của FCN trong phát hiện văn bản .

So sánh các công trình trước đó với EAST, (a) Horizontal word detection and recognition pipeline [6]; (b) Multi-orient text detection pipeline[7]; (c) Multi-orient text detection pipeline [8] ; (d) Horizontal text detection using CTPN[9]; (e) EAST 2 ee eee So sánh kết quả khi sử dung hai mô hình: hình (a) mô hình EAST, hình (b) mô hìnhSAST Q ee Tổng quan kiến trúc mô hìnhSAST

Kiến trúc mô hình CRAFT Nguồn: Bài báo "Character Region Aware-ness for Text Detection"[4]

Kiến trúc mô hình CRNN công bố tại bài báo "PP-OCR: A Practical Ultra Lightweight OCR System"[10] vào năm 2015

Kiến trúc tổng thể của mô hình SVTR công bồ tại bài báo "SVTR: Scene Text Recognition with a Single Visual Model"[lI]

Kiến trúc mô hình SVTR-LCNet Nguồn: Bài báo "PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System"[12] Kiến trúc mô hình Transformer

-Hình so sánh DarkNet53 với CSPDarkNe53

Mô phỏng trước và sau khi huấn luyện mô hình SAST

Mô tả dau ra của mô hình nhận diện văn ban .

Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình Yolov4 cho bài toán phân loại đối tượng chứa văn bản

Mô phỏng cách tính tỉ lệ giao nhau giữa boundingbox của Yolo và box của mô hình phát hiện vắnbản

Mô phỏng toa độ tâm của box và gom nhóm các box

Hình mô phỏng cách tính độ đoloU

Ma trận nhằm lẫn phân loại đối tượng chứa văn bản

Minh hoạ kết quả đầu ra hệ thống của chúngtôi

XVI

Trang 16

DANH MỤC TỪ VIẾT TẮT

Accfullseq Accuracy full sequence

Accperchar Accuracy per character

Accperword —= Accuracy per word

AP average precision

CAB Context Attention Block

CER Character error rate

CNN Convolutional Neural Network

CTC Connectionist Temporal Classification

CRAFT Character-Region Awareness For Text detection

CRNN Convolutional Recurrent Neural Network

EAST Efficient and Accurate Scene Text detection

FCN Fully Convolutional Network

Trang 17

You Only Look Once version 4

XVili

Trang 18

số hóa giúp tiết kiệm không gian lưu trữ và dễ dàng quản lý.

Theo thống kê của Thư viện Quốc gia Việt Nam, số lượng sách hàng năm đạt

khoảng 26.000 đầu sách, có tới 80% sách giáo khoa, giáo trình Hệ thống thư viện công cộng đã phát triển từ tỉnh tới huyện và đang vươn tới nhiều xã trên toàn quốc, khắp từ Bắc tới Nam, bao gồm 64 thư viện tỉnh, 587 thư viện huyện và khoảng 10.000

thư viện và tủ sách cơ sở ở xã Trong loại thư viện phục vụ công chúng rộng rãi còn

phải kể tới 10.000 tủ sách pháp luật xã và cũng khoảng trên 10.000 điểm bưu điện văn hoá xã Tại các vùng nông thôn Việt Nam đã có khoảng 3 vạn điểm đọc sách báo

cho người dân Quy mô của các thư viện tỉnh và huyện ngày càng được mở rộng về số

lượng bản sách, nhân viên phục vụ, trụ sở thư viện và kinh phí hoạt động Thêm vào

đó các loại cửa hàng sách đã phát triển rất nhanh trong mấy năm qua, đặc biệt ở các thành phố lớn Nhiều nhà sách với chuỗi cửa hàng bán sách ra đời, các cửa hàng bán

sách theo chuyên dé cũng moc lên rất nhiều, các siêu thị sách Cho đến nay chúng

ta đã có 12.000 cửa hàng sách và nhà sách tư nhân Xây dựng, phát triển hệ thống hỗ trợ các thư viện, nhà sách đang tự động hoá, chuyển đổi từ thư viện truyền thống sang

thư viện điện tử/thư viện số cần thiết và thực tế cho gia đoạn hiện nay.

Trong khóa luận này, chúng tôi xây dựng hệ thống trích xuất thông tin từ bìa sách

tiếng Việt như tác giả, tên sách, nhà xuất bản Hệ thống được xây dựng nên từ 3

Trang 19

nhiệm vụ nhỏ bao gồm xác định vị trí chữ trên bìa sách (text detection), nhận dạng chữ (text recognition) va tong hợp thông tin Chúng tôi sử dụng mô hình EAST,

SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR

và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản được nhận dạng ở hai giai đoạn trước được tổng hợp, phân loại ra các trường thông tin

tác giả, tên sách, nhà xuất bản cụ thể bằng mô hình Yolov4 kết hợp phương pháp xử

lý của chúng tôi Đồng thời, chúng tôi xây dựng bộ dữ liệu ảnh gồm 7.875 bìa sách

tiếng Việt gán nhãn để thực hiện huấn luyện các mô hình Các mô hình huấn luyện

đạt được kết quả khả quan.

Trang 20

Đặt van đề

Công nghệ ngày nay đã phát triển vượt bậc, làm cho cuộc sống của chúng ta trổ

nên tiện nghi hơn rất nhiều Tuy nhiên, khoa học - kỹ thuật công nghệ sẽ tiếp tục được

nâng lên và tối ưu hóa công việc con người trở nên đơn giản, nhẹ nhàng và tiết kiệm

hơn.

Sách là nơi lưu giữ những tinh hoa, kiến thức bổ ích Sách mở ra những chân trời mới, cung cấp nguồn kiến thức vô tận về mọi lĩnh vực trong cuộc sống Sách chứa đựng nguồn kiến thức khổng 16 và giúp con người giao lưu với thế giới bên ngoài, tiếp cận

với nền văn minh nhân loại.

Với lòng yêu sách và cũng là người yêu công nghệ và làm về công nghệ, chúng tôi

muốn thực hiện xây dựng một hệ thống sử dụng công nghệ OCR trong việc hỗ trợ

quản lý sách tiếng Việt Hệ thống chúng tôi xây dựng với mục tiêu hướng đến số hóa

tủ sách nhằm hỗ trợ các mô hình nhà sách, thư viện, tủ sách cá nhân trong việc ghi chép thông tin của các cuốn sách bằng cách ứng dụng OCR trích xuất thông bìa sách bao gồm tác giả, tên sách, nhà xuất bản , từ đó hỗ trợ con người quản lý sách cách dễ dàng và tiết kiệm.

Mục tiêu khóa luận

Trong khóa luận này, chúng tôi tập trung xây dựng bộ dữ liệu ảnh và thực hiện

huấn luyện các mô hình học máy trong việc trích xuất thông tin từ bìa sách Chúng

tôi đặt ra các mục tiêu như sau:

» Thứ nhất, chúng tôi tiến hành xây dựng bộ dữ liệu ảnh bìa sách với tổng số lượng

ảnh đặt ra là 7.000 ảnh được gán nhãn gồm vị trí văn bản trên bìa sách, nội dung

3

Trang 21

văn bản, nhãn phân loại tên sách, tên tác giả, tên nhà xuât bản cho nội dung văn bản, nhãn đánh sô liên kêt nội dung văn bản.

» Thứ hai, xây dựng mô hình cho bài toán phát hiện văn bản trên bìa sách tiếng

Việt.

» Thứ ba, xây dung mô hình cho bài toán nhận diện văn bản trên bìa sách tiếng

Việt.

¢ Thứ tư, hực hiện xây dựng mô hình phân loại và tổng hợp thông tin thuộc nhóm

thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher).

Đối tượng và phạm vi nghiên cứu

« Đối tượng: Các mô hình học sâu cho bài toán phát hiện văn bản tiếng Việt trên

ảnh, các mô hình học sâu cho bài toán nhận dạng văn bản tiếng Việt trên ảnh và

mô hình phân loại văn bản tiếng Việt.

* Phạm vi: Đề tài chúng tôi tập trung nghiên cứu các mô hình phát hiện và nhận

dạng văn bản trên ảnh cho ngôn ngữ tiếng Việt Hình ảnh là các bìa sách tiếng

Việt Chúng tôi tập trung nghiên cứu giải quyết các van dé sau:

— Xây dựng bộ dữ liệu ảnh bìa sách tiếng Việt.

— Nghiên cứu và chạy thử nghiệm một số mô hình phổ biến phát hiện văn ban

trên bộ dữ liệu chúng tôi xây dựng Cac mô hình thực nghiệm là CRAFT[4],

SAST[13], EAST[14] của Paddle.

Kết quả nghiên cứu

Nghiên cứu của chúng tôi đạt được kết quả như sau:

* Xây dựng được bộ dữ liệu gồm 7.875 ảnh bìa sách tiếng Việt.

Trang 22

* Thử nghiệm các mô hình học sâu phát hiện văn bản trên ảnh bìa sách bao gồm

mô hình CRAFT, mô hình EAST, SAST của Paddle và đạt kết quả cao nhất với

mô hình SAST với 80.73% với đo H-mean.

* Thử nghiệm các mô hình học sâu nhận diện văn bản trên ảnh bìa sách bao gồm

mô hình SVTR, CRNN của Paddle, mô hình TransformerOCR của VietOCR và

đạt kết quả cao nhất với mô hình TransformerOCR của VietOCR với 91.42% độ

chính xác trên ký tự, lần lượt đạt 13.85% và 4.78% trên độ đo WER và CER.

¢ Hệ thống trích xuất thông tin trên bìa sách tiếng Việt đạt độ chính xác 22.67%

với độ đo WER và 84.06% độ chính xác trên cấp độ từ.

Câu trúc khóa luận

Khóa luận gồm 7 chương với các nội dung chính sau:

* Chương 1: Tổng quan

Giới thiệu về lĩnh vực nghiên cứu về OCR hiện nay và tinh ứng dung của nó

trong cuộc sông hiện tại Đồng thời, trình bày thực trạng quản lý sách hiện nay

tại Việt Nam.

* Chương 2: Bài toán trích xuất trên bìa sách tiếng Việt

Trình bày đầu vào và đầu ra của bài toán trích xuất thông tin trên bìa sách tiếng

Việt Nêu các thách thức đặt ra của bài toán và hướng giải quyết.

¢ Chương 3: Các công trình nghiên cứu liên quan

Chúng tôi trình bày một số công trình nghiên cứu chúng tôi tham khảo có cả

ngôn ngữ nước ngoài và ngôn ngữ tiếng Việt.

* Chương 4: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên bìa sách tiếng Việt

Trình bày chi tiết hình thức bộ dữ liệu xây dựng, cách thu thập va gán nhãn cho

bộ dữ liệu ảnh bìa sách Quy trình gán nhãn dữ liệu và đưa ra một số phân tích

về bộ dữ liệu xây dựng.

Trang 23

« Chương 5: Các phương pháp tiếp cận

Trình bày các phương pháp và mô hình dùng huấn luyện cho phát hiện văn bản

trên bìa sách, nhận diện văn bản trên bìa sách, tổng hợp thông tin bìa sách.

s Chương 6: Cai đặt, thực nghiệm và đánh giá

Trình bày các thức cài đặt các mô hình thực nghiệm và đánh giá kết quả thực

nghiệm.

* Chương 7: Kết luận và hướng phát triển

Trang 24

1 Chương 1 TONG QUAN

1.1 Giới thiệu đề tài

Ở nước ta trong mấy chục năm qua, văn hoá đọc đã có những bước phát triển vượt

bậc Điều đó thể hiện ở những con số sau đây: trước năm 1975, cả hai miền Bắc và Nam xuất bản hàng năm được khoảng chưa đầy 4.000 tên sách, ngày nay hàng năm xuất bản khoảng xấp xỉ 25.000 tên sách, tăng gấp 6 lần, gần đây tốc độ gia tăng hàng năm khoảng 10% Cả nước hiện nay đang xuất bản khoảng gần 400 tên báo, tạp chí, nhiều báo có số lượng xuất bản mỗi số lên tới 500.000 bản Chính vì thế cần giải pháp

để hỗ trợ việc quản lý sách cho những cửa hàng, thư viện và cá nhân là cần thiết, cũng

từ đó hướng đến tự động hoá, chuyển đổi từ thư viện truyền thống sang thư viện điện tử/thư viện sé.

Hiện nay khi thời đại khoa học công nghệ đang ngày càng phát triển, có thể dễ

dàng nhận thấy công nghệ OCR hiện đã được ứng dụng rộng rãi trong đời sống, trong nhiều lĩnh vực khác nhau Công nghệ OCR thường được dùng phổ biến nhất đó là

trong các máy scanner tại các văn phòng Hiện nay, các máy scan cơ bản chỉ có thể

quét được các hình ảnh và trả chúng về những hình ảnh dạng số hoá Chính những

lý do thực tế này, chúng tôi thực hiện đề tài này để đóng góp một phần công sức cho cộng đồng nghiên cứu về xử lý ảnh cũng như cộng đồng yêu sách ở Việt Nam Đề tài trích xuất thông tin trên ảnh chụp bìa sách tiếng Việt với đầu vào là hình ảnh bìa sách

và dau ra là thông tin tên tác giả, tên sách và tên nhà xuất bản Trong dé tài này chúng

tôi giới thiệu bộ dữ liệu ảnh gồm 7.875 ảnh chụp bìa sách đã gán nhãn Chúng tôi xây dựng hệ thống trích xuất thông tin trên bìa gồm tên tác giả, tên sách, tên nhà xuất bản bằng cách giải quyết 3 bài toán sau: (1) phát hiện văn bản trên ảnh bìa sách, (2) nhận

dạng văn bản trên ảnh bìa sách, (3) tổng hợp, phân loại nội dung văn bản.

Trang 25

1.2 Tinh ứng dụng của đề tài

Nghiên cứu của chúng tôi mang đến một số đóng góp cho cộng đồng xử lý ảnh va

tính ứng dụng trong việc quản lý thư viện, cửa hàng bán sách, tủ sách cá nhân Trong lĩnh vực xử lý ảnh nói chung và mảng OCR nói riêng, bộ dữ liệu chúng tôi xây dựng

gồm 7,875 ảnh chụp các bìa sách tiếng Việt phục vụ nghiên cứu và huấn luyện được

mô hình phát hiện chữ tiếng Việt trên ảnh và nhận dạng chữ tiếng Việt trên ảnh Ứng

dụng cho những hệ thống có thực hiện nhiệm vụ nhận dạng chữ tiếng Việt thông qua

hình ảnh.

Ứng dụng chính mà chúng tôi hướng đến khi thực hiện đề tài này là xây dựng một

hệ thống số hóa tủ sách hay ứng dụng hỗ trợ trích xuất các thông tin của sách trên

bìa sách Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản, những thông tin này giống như địa chỉ để người đọc tìm kiếm đến một cuốn sách.

Trong các thư viện, nhà sách hay tủ sách cá nhân khi muốn sao lưu và thống kê quản

lý số lượng sách trong kho, điều tất nhiên phải ghi lại các thông tin trên bìa sách về tên sách, tên tác giả, nhà xuất bản Tuy nhiên với số lượng sách khổng lồ trong thư

viện hay các nhà sách cần ứng dụng hỗ trợ thực hiện công việc sao lưu này một cách

nhanh chóng.Ngoài tiết kiệm được thời gian, các tài liệu, văn bản được số hóa sẽ giúp tiết kiệm không gian lưu trữ và dé dang quản lý.

143 Kếtluận

Nhìn chung, bài toán OCR đã và đang được đẩy mạnh nghiên cứu và ứng dụng

nhiều trong cuộc sống Đặc biệt, OCR trong việc giải quyết các bài toán về nhận diện chữ viết trong hình ảnh tao ra nhiều giá trị cho cuộc sống con người trong xu thé số hóa hiện nay Áp dụng OCR xây dựng một hệ thống trích xuất thông tin từ sách hỗ trợ cho việc quản lý sách trong thư viện, nhà sách hay tủ sách cá nhân giúp tiết kiệm được thời gian cũng như không gian lưu trữ, giúp người dùng sắp xếp quản lý sách một cách chuyên nghiệp và thuận hơn Đồng thời, qua quá trình xây dựng nghiên cứu

Trang 26

về dé tài đóng góp phần nhỏ vào công cuộc nghiên cứu chuyển đổi công nghệ số, đặc biệt là trong nhận dạng chữ cho thế giới nói chung và Việt Nam nói riêng.

Trang 27

2_ Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN

TRÊN BÌA SÁCH TIÊNG VIỆT

Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản được trích xuất ra các trường thông tin qua các bước (1) tìm vị trí các văn bản có

trên ảnh bìa sách (text detection), (2) nhận dạng các văn bản dưới dạng ảnh thành nội

dung dưới dạng chuỗi (text recognition), (3) phân loại các chuỗi thông tin về đúng các trường tác giả, tên sách, nhà xuất bản.

2.1 Bài toán trích xuât thông tin trên bìa sách tiêng Việt

Bài toán trích xuất thông tin trên bìa sách tiếng Việt có đầu vào với đầu ra như sau:

* Đầu vào: Ảnh chụp bìa sách tiếng Việt

« Đầu ra: Thông tin các trường tác giả, tên sách, nhà xuất bản.

Trang 28

Nhìn vào hình 2, hình bên trái là đầu vào của hệ thống hình ảnh bìa sách tiếng Việt

được chụp bằng điện thoại Bên trái là kết quả của hệ thống gồm chi tiết các thông tin

tên sách, tên tác giả, tên nhà xuat ban.

2.2 Thách thức

OCR là một bài toán được nghiên cứu và ứng dụng trong thực tế tuy nhiên bài toán chúng tôi đặt ra có một số thách thức Dữ liệu là điều kiện cần để thực hiện bất kỳ

một mô hình học máy, tuy nhiên dữ liệu để giải quyết các bài toán OCR trong tiếng

Việt rất ít, đặc biệt qua khảo sát thấy được, bài toán của chúng tôi thực hiện chưa có công bé dữ liệu nào Từ đó đặt ra thách thức cho chúng tôi, cần xây dựng một bộ dữ liệu ảnh chụp bìa sách tiếng Việt và gán nhãn đề làm đầu vào cho các mô hình máy

học Trong bài toán phát hiện và nhận dạng chữ viết phổ biến những dạng văn bản có phông chữ cố định và dạng phông chữ phổ biến cụ thể như bài toán trích xuất thông

tin trên hóa đơn, tuy nhiên các văn bản xuất hiện trên bìa sách là văn bản phi cấu trúc.

Văn bản đa dạng về bố cục, phông chữ và background phức tạp Thêm vào đó, các công trình nghiên cứu về bài toán nhận dạng văn bản trên hình ảnh có cấu trúc

phức tạp rất ít, đặc biệt cho tiếng Việt Từ những thách thức đặt ra, chúng tôi quyết định thực hiện đề tài này biến những thách thức thành cơ hội được nghiên cứu và thực

nghiệm tạo ra bộ dữ liệu, các mô hình có thể một phần đóng góp vào những ứng dụng phục vụ trong cuộc sống, cũng như một phan thúc day quá trình cuộc cách mạng công nghệ của Việt Nam và thé giới.

«2e

2.3 Phương pháp đề xuât giải quyét bài toán

Dựa vào phân tích, đánh giá các điều kiện cần và đủ để giải quyết bài toán trích xuất thông trên bìa sách mà chúng tôi đặt ra, chúng tôi đề xuất các phương pháp đề từng bước giải quyết các van dé như sau:

s Xây dựng bộ dữ liệu anh bìa sách, bộ dữ liệu đủ lớn đạt 7.000 ảnh và gan nhãn.

11

Trang 29

Nhãn dữ liệu là tọa độ bounding box văn bản có trên bìa sách và nội dung văn bản có trong bounding box.

¢ Huấn luyện mô hình cho nhiệm vụ phát hiện văn bản trên ảnh bìa sách (text detection) các mô hình chúng tôi đề xuất sử dung CRAFT , mô hình SAST,

EAST của Paddle.

¢ Huấn luyện mô hình cho nhiệm vụ nhận dạng văn bản trên ảnh bìa sách (text

recognition) các mô hình chúng tôi dé xuất sử dụng mô hình nhận dạng văn ban

SVTR, CRNN của Paddle, mô hình transformerOCR của VietOCR.

¢ Huấn luyện mô hình YOLOv4 phát hiện vùng đối tượng văn bản thuộc nhóm thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher).

Xử lý tong hợp

thông tin.

Phát hiện văn bản Thực hiện xử lý tổng hợp mảnh

thông tin tên sách, tên tác giả, tên

Huấn luyện mô hình CRAFT, SAST, nhà xuất bản.

EAST cho nhiệm vụ phát hiện văn

bản trên bìa sách.

@ ® @ ©

Xây dựng dữ liệu C Quản Nhận dạng văn Po Guốn:

Xây dựng bộ dữ liệu bìa sách bản

khoảng 7.000 ảnh

Huấn luyện mô hình SVTR, CRNN,

TransformerOCR cho nhiệm vụ nhận diện văn bản trên bìa sách.

Hình 3: Sơ đồ chuỗi các phương pháp dé xuất giải quyết bài toán trích xuất thông tin

từ bìa sách tiếng Việt.

12

Trang 30

3 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN

QUAN

Dạng ảnh chứa văn bản xử lý trong bài toán OCR được chia 2 dạng: ảnh văn bản

có cau trúc và văn bản phi cấu trúc Van bản có cấu trúc là văn bản dưới dạng đánh máy, có hàng lối, kích cỡ chữ, phông chữ đồng nhất, ví dụ như các trang sách, các hóa

đơn, chứng minh nhân dân Văn bản phi cấu trúc là văn bản không có cấu trúc hàng

thích hợp, ảnh nền chữ phức tạp, các chữ trong văn bản không có phông chữ và kích

cỡ đồng nhất, ví dụ như ảnh bìa sách, ảnh các biển quảng cáo, , hình 4, 5

4 COM BAT BUU

1 SUON CHIEN KOO

Hình 4: Một số ví dụ về văn ban có cau trúc Hình (a) anh chụp trang sách in Hình

(b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân.

3.1 Cac công trình nghiên cứu trên ngôn ngữ nước ngoài

Bài toán OCR được đẩy mạnh nghiên cứu trên thế giới đặc biệt là tiếng Anh và các

ngôn ngữ khác như Trung, Hàn, Nhật Các công trình nghiên cứu OCR về ngôn ngữ nước ngoài kể đến những bộ dữ liệu xây dựng để giải quyết những bài toán này.

Đặc biệt, có rất nhiều bộ dữ liệu được công bồ trong các cuộc thi toàn cầu với mục

đích tìm kiếm những cách giải quyết bài toán OCR với các bộ dữ liệu này từ những

người tham gia đồng thời phổ biến, đẩy mạnh công cuộc nghiên cứu, phát triển công

nghệ OCR trên toàn cầu Hằng năm, ICDAR (International Conference on Document

13

Trang 31

(a) (b)

Hình 5: Một số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ.

Analysis and Recognition) đưa ra những bộ dữ liệu cũng như bài toán về nhận dạng

chữ trên ảnh ICDAR 2017 mở thử thách phát hiện và nhận dạng chữ trên ảnh cảnh,

dựa trên bộ dữ liệu ảnh cảnh chứa văn bản lớn nhất COCO-text[15] - một số hình ảnh ví dụ hình 6, đây là bộ dữ liệu được xây dựng dựa trên bộ dữ liệu nổi tiếng MS COCO[16] chứa hình ảnh cảnh phức tạp hằng ngày Các hình ảnh này thu thập ảnh cảnh vật và văn bản chỉ là đối tượng được xuất hiện trong cảnh đó do đó bộ dữ liệu chưa rất đa dạng các kiểu văn bản Bộ dữ liệu có 63.686 ảnh Mỗi ảnh trong bộ

Trang 32

dữ liệu COCO-text được gán nhãn như sau: (1) vị trí của của bounding-box chữa văn

bản, (2) nhãn phân loại chữ in bằng máy hay chữ viết tay, (3) nhãn phân loại văn bản

có thể đọc và văn bản không thể đọc, (4) nhãn phân loại tiếng Anh, không là tiếng

Anh, (5) nội dung văn bản có thể đọc, ví dụ hình7 Mỗi bounding-box là hình chữ

nhật gán vị trí văn bản trên ảnh ở cấp độ từ Phương pháp đã được những người tham

gia sử dụng cho nhiệm vụ phát hiện chữ trên ảnh (text localization hay text detection)

trong nhiệm vụ trích xuất thông tin từ hòa đơn này là mô hình deep learning CNN

đánh giá trên độ đo AP(Average Precision) với IoU > 0.75 đạt 32.10 dẫn đầu những

người tham gia.

Trong cuộc thi ICDAR 2019, bài toán mới được đưa ra không chỉ dừng lại ở phat

Hình 7: Vi dụ nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn:

IC-DAR2017 Robust Reading Challenge on COCO-Text.

hiện va nhận dạng chữ trên ảnh, mà cần trích xuất được văn bản đó thuộc trường dữ

liệu nào với những dạng văn bản có cấu trúc như hóa đơn bán hàng Bài toán trích xuất hóa đơn với bộ dữ liệu lớn tập hợp các ảnh hóa đơn tiếng Anh,một số ví dụ hình

8 Mục đích khi đặt ra thử thách với bộ dữ liệu hóa đơn này là có thể trích xuất được thông tin của những dạng văn bản có cấu trúc trên ảnh phục vụ nhiều ứng dụng và

dịch vụ trong việc lưu trữ hiệu quả, lập chỉ mục nhanh và phân tích tài liệu Những

15

Trang 33

điều này đóng vai trò quan trọng trong việc xử lý nhanh các tài liệu giấy bằng cách tự động hóa thúc đẩy xây dựng văn phòng tự động hóa trong nhiều lĩnh vực tài chính, kế toán, thuế Với thử thách này, ban tổ chức đưa ra 3 nhiệm vụ nhỏ xử lý trên bộ dữ liệu

như sau: (1) Phát hiện chữ trên hóa đơn, (2) Nhận dạng chữ trên hóa đơn, (3) trích

xuất các trường thông tin trên hóa đơn.

tan chay yee

\ PT

1C MARKETING SOW BHD

RO: H

44300 BATANG KALI, SELANGOR

Tải: CP-605? Osim Fax 0-605 7 S678

Total

Fe

Hình 8: Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn

trong cuộc thi ICDAR 2019.

3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt

Trong những năm gần đây, Việt Nam cũng đang đẩy mình hòa nhập với sự phát triển công nghệ toàn cầu, đặc biệt tình hình nghiên cứu, ứng dụng trong lĩnh vực công

nghệ thông tin ngày càng có nhiều bước ngoặt lớn cũng như những thành tựu đạt được.

Trong lĩnh vực xử lý ngôn ngữ tự nhiên và xử lý ảnh, nhiều cuộc thi được mở ra hằng năm với những bài toán rất thú vị và nhu cầu trong cuộc sống thực tế đối với ngôn ngữ tiếng Việt Bài toán OCR cũng được đặc biệt quan tâm và đem vào trong những cuộc

thi để tìm kiếm giải pháp từ người tham gia Trong cuộc thi RIVE 2021 MC-OCR,

16

Trang 34

bài toán đặt ra trích xuất thông tin từ hóa đơn chụp bằng điện thoại Bài toán chia làm hai nhiệm vụ nhỏ (1) phân loại chất lượng hình ảnh hóa đơn - hình 9, (2) trích xuất

4 thông tin hóa đơn bao gồm tên cửa hàng, địa chỉ cửa hàng, thời gian thanh toán, số tiền thanh toán - hình 10

Kết thúc cuộc thi, nhiều nhóm tham gia đã có những kết quả đáng mong đợi cùng

Dau vào Dau ra

Hình 9: Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021

Hình 10: Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong

cuộc thi RIVE 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên

trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competition.

với những phương pháp hiệu quả được công bồ tại bài báo[17] Đối với nhiệm vụ 1 kết

17

Trang 35

quả dẫn đầu với RMSE bằng 0.1 với mô hình người tham gia sử dụng EfficientNet Đối với nhiệm vụ 2, cũng là nhiệm vụ chính mà cuộc thi hướng tới, kết quả người tham dự đạt được cao nhất là 0.22 với độ đo Character Error Rate (CER) và phương

pháp sử dụng là mô hình YOLOvS và VietOCR Với bước nhận dang chữ thi VietOCR

rõ ràng đang là mô hình tốt nhất trên tiếng Việt và đây cũng là mô hình tất cả các đội

trong top 5 đều sử dụng trong cuộc thi này.

3.3 Kếtluận

Nhìn chung, OCR đã và đang ngày càng được đẩy mạnh nghiên cứu cũng như ứng

dụng vào thực tế cuộc sống của trên toàn thế giới và Việt Nam Tầm quan trọng của OCR cũng ngày càng được thấy rõ khi ngày càng có nhiều dạng và thử thách được đặt

ra để giải quyết cho bài toán OCR Đặc biệt OCR cho tiếng Việt vẫn còn nhiều thách

thức như sau các bộ dữ liệu phục vụ cho bài toán OCR số lượng còn ít và chưa có tính

đa dạng, còn rất ít những mô hình đề xuất cũng như thư viện hỗ trợ trong quá trình xử

lý thực hiện giải quyết bài toán OCR.

18

Trang 36

4 Chương 4 XÂY DỰNG BO DU LIEU CHO BÀI

TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH TIÊNG VIỆT

4.1 Thu thập dữ liệu

Các ảnh bìa sách được thu thập từ hai nguồn chính là ảnh các bìa sách trong thư

viện, nhà sách bằng điện thoại và ảnh thu thập từ các trang web bán sách tiki - trang

thương mại điện tử Việt Nam, các trang review sách các hình ảnh được đăng tải trên

Facebook Điện thoại sử dụng chụp ảnh bìa sách là những điện thoại thông minh của

các hãng phổ biến Iphone, Samsung, Oppo với độ phân giải ở ngưỡng 3000x4000

pixels Mỗi bìa sách được chụp khoảng 10 ảnh với các góc chụp và background khác

nhau, ví dụ hình 11.

Sau hai tuần thu thập dữ liệu, chúng tôi có được tổng ảnh bìa sách thu thập gần hơn

19

Trang 37

38.000 ảnh trong đó 7.786 ảnh bìa sách chụp bằng điện thoại Ảnh thu thập từ các

trang web bán sách và Facebook hơn 30.000 ảnh, tuy nhiên trong số ảnh này có nhiềutam ảnh không phải hình ảnh bìa sách hoặc những bìa sách không còn đủ thông tin

Do đó, chúng tôi tiền hành lọc và loại bỏ số ảnh không thể sử dụng và giữ lại 14.154ảnh đủ tiêu chuẩn Do đó, số lượng ảnh đạt yêu cầu chúng tôi có được sau khi chọn

lọc là 21.940 ảnh bìa sách để thực hiện gán nhãn

4.2 Gan nhãn dữ liệu

4.2.1 Hướng dẫn gan nhãn dữ liệu

Trong quá trình gán nhãn để đảm bảo được chất lượng dữ liệu các người tham gia

gán nhãn dữ liệu đều tuân thủ theo hướng dẫn gán nhãn Công cụ gán nhãn chúngtôi sử dụng là PaddleOCR[5], công cụ này giúp gán nhãn dữ liệu một cách tối ưu do

công cụ có hỗ trợ gan các bounding box dạng hình chữ nhật và dạng hình đa giác, đặc

biệt thích hợp với dữ liệu của chúng tôi Người tham gia gán nhãn một ảnh bìa sách

cần thực hiện 4 bước: (1) xác định vị bounding box cho văn bản trên ảnh, (2) gán nội

dung văn bản cho mỗi bounding box, (3) gán nhãn phân loại Title, Author, Publishercho các nội dung văn bản trong bounding box, (4) đánh số nối các nội dung thuộc

từng trường Title, Author, Publisher, hình 12 mô tả các bước gán nhãn O bước 1 do các văn bản bìa sách sắp xếp không theo một quy định nào nên các bounding box cho

các văn bản cần được linh hoạt hình dạng sao cho bounding box bao càng khớp vớivùng hình ảnh càng tốt nhưng phải đảm bảo được các tiêu chí sau:

* Các bounding box phải bao được hết đối tượng văn bản trên ảnh tuy nhiên cầnhạn chế tối đa những khoảng thừa không thuộc văn bản đó

* Các bounding box được gan theo cấp độ dòng

Trong bước 2, nội dung văn bản cần gán chính xác từ chữ hoa đến chữ thường Tiếpđến bước 3, các nội dung văn bản sẽ được gán nhãn phân loại Title, Author, Publisher

và Other Nhãn Other dành cho những trường hợp thông tin không thuộc tác giả, tên

20

Trang 38

sách hay nhà xuất bản Bước cuối cùng các văn bản trên bìa sách được gán theo cấp

độ dòng nên do đó sẽ có nhiều nhãn Title, Author, Publisher do đó nội dung cùngnhãn sẽ được đánh số thứ tự để liên kết với nhau

Bước (1)

(NHÀ XUẤT BAN HỘI NHÀ VÃ!

Hình 12: Mô phỏng các bước gán nhãn ảnh bìa sách.

4.2.2 Quá trình gan nhãn dữ liệu

Quá trình gán nhãn của chúng tôi thực hiện 5 vòng, mỗi vòng gán 1.600 ảnh chia

đều cho 7 người Trong quá trình gán nhãn, những người tham gia gán nhãn phát hiện

trường hợp đặc biệt chưa có trong bản hướng dẫn gán nhãn, người tham gia gán nhãn

có trách nhiệm thông báo và thảo luận trường hợp đó với nhóm và bản hướng dẫn gán

nhãn luôn được cập nhật sau mỗi lần thảo luận Để đảm bảo chất lượng cho bộ dữ

liệu, những ảnh thiếu chất lượng như mờ, nhòe, bị cắt thiếu nội dung sé được người

tham gia gán nhãn phát hiện và loại bỏ khỏi tập dữ liệu Kết thúc mỗi vòng gán nhãn,

các tập dữ liệu của thành viên gán nhãn sẽ được kiểm tra lại bởi một thành viên khác

Các lỗi gán nhãn sai được phát hiện lúc kiểm tra lại sẽ được sửa và ghi lai các lỗi sai

đó để thông báo để đào tạo cách gán nhãn lại cho các thành viên, từ đó các thành viên

có thể làm tốt hơn ở vòng tiếp theo, hình 13

4.3 Phân tích bộ dữ liệu

Sau 5 vòng gán nhãn, tập dữ liệu có 7.875 ảnh đã được gán nhãn Nhãn của các ảnh

gồm tọa độ bounding box, nội dung của ảnh văn bản được bounding box, nhãn phânloại nội dung( Title, Author, Publisher) và số đánh nối các nội dung thuộc các nhãn

21

Trang 39

hiện quy trình gan nhãn bộ dữ liệu Vi-BCI.

phân loại, hình 14 ví dụ về một ảnh mẫu và nhãn trong tập dữ liệu Sau khi thống kê,

7.875 ảnh bìa sách được gán nhãn có hơn 67.000 bounding box được gán Chúng tôi

chia bộ dữ liệu lớn thành 3 tập dữ liệu: dữ liệu huấn luyện, dữ liệu kiểm thử, dữ liệu

Trang 40

5 Chương 5 CÁC PHƯƠNG PHÁP TIẾP CAN

Thông qua việc tìm hiểu và nghiên cứu các công trình liên quan về nhận diện, tríchxuất thông tin từ ảnh trên thế giới cũng như trong nước Chúng tôi đã thực nghiệmcác mô hình học sâu tiên tiến, hiện đại để tìm ra mô hình mang lại kết quả tối ưunhất Sở dĩ chúng tôi sử dụng các mô hình học sâu hiện đại vì các bài toán liênquan để giải quyết vấn đề đặt ra đã được nghiên cứu và cho ra khá nhiều mô hình

hiện đại Trong khóa luận này, chúng tôi cài đặt các mô hình học sâu hiện đại như: EAST, SAST, CRAFT, EasyOCR, TransformerOCR, CRNN, SVTR, Yolov4 Ngoài

việc thực nghiệm các mô hình trên, chúng tôi đã tiền xử lý bằng mô hình Detectron2

để tăng hiệu suất của mô hình Hình 15 bên dưới thể hiện cấu trúc tổng quan của

phương pháp mà chúng tôi thực hiện trong khoá luận này.

Quá trình huấn luyện s `

Phát hiện van bản )

Dữ liệu { Tiền xử lý dữ liệu | —» | Nhận diện văn bản ) (Các mô hình đãi

huấn luyện > ~ ( "huấn luyện

(Phat hiện đối tượng |

Huấn luyện mô hình

_( Phát hiện văn ban )

„ Nhận diện văn ban) _—_—_ „Ít lý tổng hợp thông tin Kết qua đầu ra

mm

Phát hiện đối tượng

—

Tiền xử lý dữ liệu

Sử dụng mô hình đã huấn luyện

Hình 15: Hình mô phỏng tổng quan phương pháp

23

Tiêu đề	Trích xuất thông tin trên bìa sách Tiếng Việt
Tác giả	Vừ Kiều Hoa, Nguyễn Thị Thắm
Người hướng dẫn	TS. Đỗ Trọng Hợp, ThS. Tạ Thu Thủy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	82
Dung lượng	36,78 MB