1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Trích xuất các đặc trưng sử dụng mô hình học sâu ứng dụng trong hệ thống phát hiện xâm nhập

82 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích xuất thông tin trên bìa sách tiếng Việt
Tác giả Vừ Kiều Hoa, Nguyễn Thị Thắm
Người hướng dẫn TS. Đỗ Trọng Hợp, ThS. Tạ Thu Thủy
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 82
Dung lượng 53,01 MB

Nội dung

+ Tạo bộ dữ liệu: Chúng tôi sử dụng công cụ gán nhãn PaddleOCR dé gan nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường nào trong ba trường: Tên sách, tên tác giả, tê

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

VO KIEU HOA — 18520767

NGUYEN THI THÁM - 18521384

KHOA LUAN TOT NGHIEP

TRICH XUAT THONG TIN TREN

BIA SÁCH TIENG VIỆT

INFORMATION EXTRACTION FROM VIETNAMESE BOOK COVER IMAGES

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS BO TRONG HOP

ThS TA THU THUY

TP HO CHi MINH, 2022

Trang 2

THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày

¬ cence een eeeenes của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

—= eee eee eee ee - Chủ tịch

Qe ccc HH nu kh hà - Thư ký

e ees - Uy Vién

Trang 3

LỜI CẢM ƠN

Lời đầu tiên chúng em chân thành gửi lời cảm ơn đến quý Thầy/Cô trong Khoa Khoa

học và Kỹ thuật Thông tin thuộc Trường Dai học Công Nghệ Thông Tin - Dai hoc

Quốc Gia Thành Phố Hồ Chí Minh đã tận tình giúp đỡ chúng em trong quá trình họctập, nghiên cứu và tạo điều kiện để chúng em thực hiện Khóa luận Tốt nghiệp Đặc

biệt, chúng em xin cảm ơn sâu sắc đến thầy Đỗ Trọng Hợp cùng cô Tạ Thu Thủy đã

dành nhiều thời gian, hết lòng hỗ trợ và hướng dẫn tận tình cho nhóm chúng em từkiến thức và quy trình thực hiện trong suốt thời gian làm Khóa luận Tốt nghiệp Cuốicùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và anh chị đã luôn ủng hộ,động viên và đồng hành cùng chúng em trong cuộc sống cũng như trong quá trình học

tập tại Dai học Công Nghệ Thông Tin.

Thành phố Hồ Chí Minh, ngày tháng năm 2022

Tac gia khóa luậnNguyễn Thị Thắm - Võ Kiều Hoa

Trang 4

ĐỀ CƯƠNG CHI TIET

TÊN ĐỀ TÀI: TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIẾNG VIỆT.

TÊN ĐỀ TÀI (tiếng Anh): INFORMATION EXTRACTION FROM VIETNAMESE

BOOK COVER IMAGES.

Cán bộ hướng dẫn:

TS Đỗ Trọng Hợp

ThS Tạ Thu Thủy

Thời gian thực hiện: Từ ngày 10/02/2022 đến ngày 10/07/2022

Sinh viên thực hiện:

— Nghiên cứu các mô hình, các kỹ thuật liên quan cho bài toán trên.

— Chạy thực nghiệm các mô hình và các kỹ thuật để kiểm chứng độ chính xác

và đánh giá hiệu suất của các mô hình đã thực nghiệm

— Cải thiện độ chính xác của mô hình và chọn ra mô hình tốt nhất cho bộ dữ

liệu.

— Xây dựng ứng dụng hỗ trợ quản lý sách cho người dùng.

¢ Pham vi nghiên cứu:

— Miễn dữ liệu ảnh là anh tự chụp bìa sách Tiếng Việt, nguén thu thập là ảnh

bìa sách được chụp từ nhà sách, thư viện.

Vv

Trang 5

— Chúng tôi chon bìa sách Tiếng Việt vì hiện nay dữ liệu sách Tiếng Việt ngày

một nhiều mà các nghiên cứu trên nó còn nhiều hạn chế Mặt khác, chưa có

bộ dữ liệu bìa sách Tiếng Việt nào có thể đáp ứng nhu cầu nghiên cứu và ứng

dụng.

» Các công trình nghiên cứu liên quan:

— Bai báo ở tạp chí khoa học Da Lạt: “VIETNAMESE TEXT EXTRACTION

FROM BOOK COVERS”[I] Nghiên cứu nhận dạng văn bản tiếng Việt từ

ảnh bìa sách Các bước xử lý bao gồm: tiền xử lý ảnh bìa sách ở đầu vào,định vị các vùng chứa văn bản, áp dụng ki thuật nhận dạng ký tự quang hoc

(OCR), sử dụng từ điển để nâng cao độ chính xác của văn bản nhận diện

được Ở bước tiền xử lý ảnh đầu vào bao gồm các kĩ thuật: skew,

de-noise, enhance, crop,remove background Ở bước detection va OCR, tác gia

huấn luyện với mô hình Tesseract sau đó sử dung từ điển để chuẩn hóa vanbản đầu ra.Kết quả đạt được tốt nhất với §2% accuracy (ảnh đầu vào kíchthước tối thiểu 300px mỗi chiều)

- Bai báo khoa học “FUNSD: A Dataset for Form Understanding in Noisy

Đầu vào là các mẫu đơn đã được điền nội dung, dau ra trích xuất được thông

tin dưới dạng quan hệ khóa-giá tri( key-value) với khóa(key) là các từ khóa

được in sẵn trên đơn và giá trị(value) là nội dung được điển vào tương ứngvới khóa Nghiên cứu thực hiện 3 nhiệm vụ và kết quả tương ứng:

1 ext detection: Sử dụng 4 phương pháp Tesseract, EAST, Google Vision,

Faster R-CNN đạt kết quả cao nhất với mô hình Faster R-CNN với Recall

bang 84.8%, Fl-score bằng 0.76%

2 Text recognition với OCR: Sử dụng 2 phương pháp Tesseract và Google

Vision va dat két qua OCR bang 94.4%

3 Form understanding: với ba nhiệm vu nhỏ Nhiệm vu nhóm từ( word

vi

Trang 6

grouping) đạt ARI(the adjusted index) là 0.41% với phương pháp Google

Vision, với nhiệm vu nhận dạng thực thé (entity labeling) đạt F1-score

bằng 0.57%, nhiệm vụ liên kết thực thé (entity linking) đạt E1-score bằng

0.04%.

* Đối tượng:

— Bài toán trích xuất thông tin trên bìa sách Tiếng Việt.

— Ngôn ngữ Tiếng Việt.

— Các hình ảnh chụp bìa sách Tiếng Việt chứa các nội dung: Tên sách, tên tác

giả, tên nhà xuất bản

¢ Phương pháp thực hiện:

— Xây dựng tập dữ liệu:

+ Thu thập dữ liệu: các hình ảnh chụp bìa sách được chụp thủ công bằng

nhiều thiết bị điện thoại di động

+ Tạo bộ dữ liệu: Chúng tôi sử dụng công cụ gán nhãn PaddleOCR dé gan

nhãn nội dung chữ nhận dạng trên bìa sách và nội dung đó thuộc trường

nào trong ba trường: Tên sách, tên tác giả, tên nhà xuất bản

— Bài toán: số hóa tủ sách - trích xuất thông tin sách từ ảnh bìa sách Tiếng

Việt.

+ Đầu vào: ảnh bìa sách.

+ Đầu ra: Thông tin của sách gồm: tên sách, tên tác giả, tên nhà xuất bản.

— Nghiên cứu phương pháp thực nghiệm: bài toán được thực hiện bởi ba nhiệm

vụ chính: text detection, text recognition, form understanding( word ing, semantic entity labeling)

group-+ Text detection: Đối với bài toán text detection chúng tôi sử dụng nhiều

mô hình như: EasyOCRI3], Craft[4], PAN, PaddleOCR[5]dé so sánh,

vil

Trang 7

Tên tác giả: NGUYEN THÀNH VÁN -

DƯƠNG HIẾU ĐẢU

Tên sách: Cơ Nhiệt đại

cương

đánh giá và tìm ra mô hình tốt nhất với bộ dữ liệu Sử dụng độ đo đánh

giá loU để đo độ khớp của bounding box dự đoán so với bounding box

thực tế

AreaoƒOverlap

loU =

“ Areao fUnion

Trong đó Area of Overlap, Area of Union lần lượt là diện tích phần

giao, hợp giữa 2 bounding box (thực tế và dự đoán) Đối với các

bounding box dự đoán có IoU >= 0.5 được coi là khớp Trong trườnghợp có nhiều bounding box thỏa mãn, bounding box có IoU lớn nhất

sẽ được chon (True Positive — TP); các bounding box còn lại được

tính là (False Positive — FP) False Negative - FN: trường hợp tôn tại

bounding box thực tế nhưng mô hình không detect được.

- Precision và Recall để đo độ chính xác và độ phủ của mô hình text detection.

TP TP

Precision = ————.,, Recall = —————

TP+FP TP+FN

Viii

Trang 8

- Độ đo H-mean là trung bình điều hòa của Precision va Recall.

2.Precision.Recall Hmean = —

Precision + Recall

+ Text recognition: Ở bài toán này chúng tôi sử dụng hai mô hình EasyOCR

và VietOCR Trong đó EasyOCR là mô hình pre-train hỗ trợ hơn 80

ngôn ngữ trong đó có Tiếng Việt VietOCR là mô hình pre-train trên

Tiếng Việt được huấn luyện trên tập dữ liệu gồm 1 triệu ảnh, bao gồm

đa dạng loại ảnh Chúng tôi sử dụng độ đo CER(character error rate) vaWER(word error rate) CER và WER là hai độ đo được sử dụng phổ biến

trong bài toán OCR.

€ CER =

trong do Ic, D_ec, S_c lan lượt là số kí tự chèn, xóa, thay thế so với

groundtruth.

ly + Dy + Sw

Ww WER=

trong đói w,D_w,sS w lần lượt là số kí từ bị chèn, xóa, thay thế so

với chuỗi groundtruth.

+ Form understanding

- word grouping: Mỗi bia sách, các thông tin của bia sách đặc biệt là tên

cuốn sách được thiết kế rời rạc, nhiều hình dạng trong quá trình gánnhãn thì tên của một bìa sách có thể phải dùng đến nhiều bounding

box để gán Do đó task này thực hiện ghép các văn bản trong cùng

một nhãn về thành câu có nghĩa Độ đo đánh giá sử dụng ARI (theadjusted index) là một độ đo phổ biến dùng để tính hiệu suất phân

nhóm, là một biến thé của chỉ số Rand index Giả sử C là phép gan

1X

Trang 9

nhãn đung của các đối tượng, K là bộ phân cụm thì a,b được địnhnghĩa như sau: a là số lượng các cặp điểm ở cùng một tập trên C vàcùng một tập trên K Còn b là số lượng các cặp điểm ở các tập khácnhau trên C và ở các tập khác nhau trên K Chỉ số Rand index là:

a+b

cnsam ples 2

KI=

trong đó,

Chaam ples 2

là tổng số lượng các cặp có thể ghép trong tap dữ liệu (không phânbiệt thứ tự) - tổ hợp chập 2 của n Tuy nhiên, chỉ số RI không dambảo rằng các phép gán nhãn ngẫu nhiên sẽ có giá trị gần bằng 0 (đặc

biệt nếu số cụm có cùng độ lớn với số lượng mẫu) Để tránh được hạn chế này, ARI thực hiện chiết khấu RI dự kiến — E(RI) của các phép

gán nhãn ngẫu nhiên, với công thức:

này là phân loại đúng thông tin của cuốn sách về đúng nhãn tương

ứng: Tên sách, Tên tác giả, Tên nhà xuất bản Độ đo sử dụng đánh giá

là Precision, Recall, F1-score.

+ Ngoài ra chúng tôi sử dụng mô hình Detectron2 để thực hiện tiền xử lý

background của ảnh bìa sách.

+ Kết qua mong đợi:

— Xây dựng được bộ dữ liệu anh bìa sách khoảng 10.000 ảnh chụp bìa sách

phục vụ cho bài toán sô hóa tủ sách.

X

Trang 10

- Thực nghiệm được nhiều mô hình, sử dụng các kỹ thuật xử lý để nâng cao

kết quả mô hình, tìm được mô hình tốt nhất với bộ dữ liệu Kết quả dự kiếnvới độ đo đánh giá h-mean, fl-score từ 75% trở lên và CER, WER tôi đa

25%.

- Xây dựng được ứng dụng trích xuất thông tin từ ảnh chụp bìa sách để phục

vụ cho việc quản lý sách.

Kế hoạch thực hiện: chúng tôi thực hiện đề tài số hóa tủ sách trong 5 tháng và kế

hoạch thực hiện chi tiết trong bảng hình 1

Nghiên cứu phươn ýgh P ¬ 8 Thăm Hoa

pháp thực nghiệm

Báocáo |ThmHa | — | | | | |

Hình 1: Tóm tắt thực hiện đề tài trong 5 tháng

XI

Trang 11

MỤC LỤC

DANH MỤC BANG xiv

DANH MUC HINH XV

TOM TAT KHOA LUAN 1

MO DAU 3

1 Chuong 1 TONG QUAN 7

1.1 Giới thiệu đềtài 7

12 — Tínhứng dụng của đềtà 8

1.3 Kếtluận ey TS 8 2 Chương 2 BÀI TOÁN TRÍCH XUÂT THÔNG TIN TRÊN BÌA SÁCH TIENG VIỆT 10

2.1 Bài toán trích xuất thông tin trên bìa sách tiếng Viet 2 10

2.2 chước SO AP «ư 11

2.3 Phương pháp đề xuất giải quyết bài toán 11

3 _ Chương 3 CÁC CONG TRÌNH NGHIÊN CỨU LIEN QUAN 13

3.1 Các công trình nghiên cứu trên ngôn ngữ nước ngoài 13

3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt 16

3.3 Kétluan QQ Q Q Q Qua 18 4 _ Chương 4 XÂY DUNG BO DU LIEU CHO BÀI TOÁN TRÍCH XUẤT THONG TIN TREN BIA SÁCH TIÊNG VIỆT 19

4I Thuthậpdữliệu 19

42 Gánnhãndữliệu 20

4.2.1 Hướng dẫn gán nhãn dữ liệu 20

4.2.2 Quá trình gan nhãn dữ liệu 21

43 Phân tích bộ dữ liệu "¬ 21 5 _ Chương 5 CÁC PHƯƠNG PHÁP TIÊPCẬN 23

5I Tiềnxửlýdữliệu 24

5.1.1 Tiền xử lý chia dữ liệu tập huấn luyện, tap kiểm thử và tập đánh giá 24

5.1.2 Tiền xử ly dữ liệu cho mô hình phát hiện văn ban (TlextDetection) 24

XI

Trang 12

5.1.4

Tiền xử ly dữ liệu cho mô hình Text Recognition

Tiền xử ly dữ liệu cho mô hình Object detection

5.2 Bài toán phát hiện chữ trên anh (Text Detection)

5.2.1 Hệ thống nhận dạng chữ viết PaddleOCR

5.2.2 Mô hìnhEAST

5.2.3 Mô hình SAST

5.2.4 Mô hình CRAFT

5.3 Bài toán nhận diện chữ trên ảnh (Text Recognition)

5.3.1 Mô hình CRNN trong hệ thống PP-OCR

5.3.2 Mô hình SVTR-LCNet trong hệ thống PP-OCR 5.3.3 Thư viện Vie€tOCR

5.4 Bài toán xử lý tổng hợp

thôngtin -5.4.1 Mô hình Yolov4

6 Chương 6 CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ

6.1 Cài dat, thucnghiém

6.1.1 6.1.2 6.1.3 Bài toán phát hiện van ban (Text Detection) Bài toán nhận diện vanban

Phân loại và tổng hợp thongtin

62 — Kếtquảthực nghiệm vàđánhgiá

6.2.1 6.2.2 Độ do đánh giá

Kết quả thực nghiệm, phân tích và đánh gid

7 Chương7 KET LUẬN VÀ HƯỚNG PHÁTTRIỂN

71 Kết luận 72 Hướngpháttriển

TÀI LIỆU THAM KHẢO

xiii

25 27 29 29 29

31 33 34 34 36 37 38 38 40

40

40

42

43 46 46 51 54 54 55 56

Trang 13

\á© œ ¬l Ầ CC: +> C2) t =

DANH MỤC BANG

Các mô hình được được si dung 40

Tham số sử dụng huấn luyện các mô hình phát hiện văn ban 41

Tham số sử dụng huấn luyện các mô hình nhận diện văn ban 2 42

Tham số sử dụng huấn luyện các mô hình Yolov4 44

Minh hoa dữ liệu text sau khi xử lý được 45

Kết quả mô hình phát hiện văn ban (Text Detection) 51

Kết quả mô hình nhận diện văn ban (Text Recognition) 51

Kết quả mô hình Yolov4 sau xửlý - 52

Kết quả cuối cùng sau tất cả các bước xử ly 53

XIV

Trang 14

11

12

13

14

15

16

17

18

DANH MỤC HÌNH

Tóm tắt thực hiện đề tài trong 5 tháng

Ví dụ mô tả đầu vào và đầu ra của bài toán trích xuất thông tin từ bìa sách tiếng Viet ee Sơ đồ chuỗi các phương pháp đề xuất giải quyết bài toán trích xuất thông tin từ bìa sách tiếng ViỆt ee Một số ví dụ về văn bản có cấu trúc Hình (a) ảnh chụp trang sách in Hình (b) ảnh chụp hóa đơn điện tử Hình (c) ảnh chụp mặt sau chứng minh nhân dân .Ặ.Ặ.ẶẶ ee Mot số ví dụ về văn bản phi cấu trúc Hình (a) ảnh chụp bìa sách Hình (b) Ảnh chụp biển một cửa hàng bán lẻ

Một số hình ảnh ví dụ trong bộ dữ liệu COCO-text Nguồn: ICDAR2017 Robust Reading Challenge on COCO-Tlext

Vi du nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn: IC-DAR2017 Robust Reading Challenge on COCO-Text

Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn trong cuộc thi ICDAR 2019

Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnh hóa don trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình anh hóa đơn đầu vào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021 MC-OCR Competition

Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competilon

10 hình anh của một bìa sách được chụp với các góc chụp va background Mô phỏng các bước gan nhãn ảnh bìasách

Lưu đồ khối thể hiện quy trình gan nhãn bộ dữ liệu Vi-BCI

Ảnh bìa sách và nhãn của

ảnh Hình mô phỏng tổng quan phương pháp

-Hình mô tả phân phối dữ liệu bộ dữ liệu Vi-BCIL

Minh họa kết quả mô hình phát hiện văn bản CRAFT trước và sau khi xoá background Q ee Hình minh họa ảnh trước và sau khicắtảnh

XV

XI

12

Trang 15

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Hình mô tả phân phối dữ liệu bộ dữ liệu nhận diện văn bản

Hình mô tả nhãn cho bộ dữ liệu nhận diện vănbản

Minh hoạ nhãn sau khi chuẩn hoá cho mô hình Yolo

Hình thống kê thuật toán và hiệu suất hoạt động các mô hình phát hiện văn bản của PaddleOCR

Kiến trúc của FCN trong phát hiện văn bản

So sánh các công trình trước đó với EAST, (a) Horizontal word detection and recognition pipeline [6]; (b) Multi-orient text detection pipeline[7]; (c) Multi-orient text detection pipeline [8] ; (d) Horizontal text detection using CTPN[9]; (e) EAST 2 ee eee So sánh kết quả khi sử dung hai mô hình: hình (a) mô hình EAST, hình (b) mô hìnhSAST Q ee Tổng quan kiến trúc mô hìnhSAST

Kiến trúc mô hình CRAFT Nguồn: Bài báo "Character Region Aware-ness for Text Detection"[4]

Kiến trúc mô hình CRNN công bố tại bài báo "PP-OCR: A Practical Ultra Lightweight OCR System"[10] vào năm 2015

Kiến trúc tổng thể của mô hình SVTR công bồ tại bài báo "SVTR: Scene Text Recognition with a Single Visual Model"[lI]

Kiến trúc mô hình SVTR-LCNet Nguồn: Bài báo "PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System"[12] Kiến trúc mô hình Transformer

-Hình so sánh DarkNet53 với CSPDarkNe53

Mô phỏng trước và sau khi huấn luyện mô hình SAST

Mô tả dau ra của mô hình nhận diện văn ban

Minh hoạ ảnh và đầu ra sau khi dự đoán bằng mô hình Yolov4 cho bài toán phân loại đối tượng chứa văn bản

Mô phỏng cách tính tỉ lệ giao nhau giữa boundingbox của Yolo và box của mô hình phát hiện vắnbản

Mô phỏng toa độ tâm của box và gom nhóm các box

Hình mô phỏng cách tính độ đoloU

Ma trận nhằm lẫn phân loại đối tượng chứa văn bản

Minh hoạ kết quả đầu ra hệ thống của chúngtôi

XVI

Trang 16

DANH MỤC TỪ VIẾT TẮT

Accfullseq Accuracy full sequence

Accperchar Accuracy per character

Accperword —= Accuracy per word

AP average precision

CAB Context Attention Block

CER Character error rate

CNN Convolutional Neural Network

CTC Connectionist Temporal Classification

CRAFT Character-Region Awareness For Text detection

CRNN Convolutional Recurrent Neural Network

EAST Efficient and Accurate Scene Text detection

FCN Fully Convolutional Network

FP False Positive

FN False Negative

ICDAR International Conference on Document Analysis and Recognition

IoU Intersection over Union

XVI

Trang 17

Optical Character Recognition

recurrent neural networks

Single-Shot Arbitrarily-Shaped Text detection

State of the Art

Single Visual Text Recognition

True Positive

Text border offset

Text center line

Text Center offset

Text vertex offset

Word error rate

You Only Look Once version 4

XVili

Trang 18

số hóa giúp tiết kiệm không gian lưu trữ và dễ dàng quản lý.

Theo thống kê của Thư viện Quốc gia Việt Nam, số lượng sách hàng năm đạt

khoảng 26.000 đầu sách, có tới 80% sách giáo khoa, giáo trình Hệ thống thư việncông cộng đã phát triển từ tỉnh tới huyện và đang vươn tới nhiều xã trên toàn quốc,

khắp từ Bắc tới Nam, bao gồm 64 thư viện tỉnh, 587 thư viện huyện và khoảng 10.000

thư viện và tủ sách cơ sở ở xã Trong loại thư viện phục vụ công chúng rộng rãi còn

phải kể tới 10.000 tủ sách pháp luật xã và cũng khoảng trên 10.000 điểm bưu điện văn hoá xã Tại các vùng nông thôn Việt Nam đã có khoảng 3 vạn điểm đọc sách báo

cho người dân Quy mô của các thư viện tỉnh và huyện ngày càng được mở rộng về sốlượng bản sách, nhân viên phục vụ, trụ sở thư viện và kinh phí hoạt động Thêm vào

đó các loại cửa hàng sách đã phát triển rất nhanh trong mấy năm qua, đặc biệt ở các thành phố lớn Nhiều nhà sách với chuỗi cửa hàng bán sách ra đời, các cửa hàng bán

sách theo chuyên dé cũng moc lên rất nhiều, các siêu thị sách Cho đến nay chúng

ta đã có 12.000 cửa hàng sách và nhà sách tư nhân Xây dựng, phát triển hệ thống hỗtrợ các thư viện, nhà sách đang tự động hoá, chuyển đổi từ thư viện truyền thống sang

thư viện điện tử/thư viện số cần thiết và thực tế cho gia đoạn hiện nay.

Trong khóa luận này, chúng tôi xây dựng hệ thống trích xuất thông tin từ bìa sách

tiếng Việt như tác giả, tên sách, nhà xuất bản Hệ thống được xây dựng nên từ 3

Trang 19

nhiệm vụ nhỏ bao gồm xác định vị trí chữ trên bìa sách (text detection), nhận dạng chữ (text recognition) va tong hợp thông tin Chúng tôi sử dụng mô hình EAST, SAST và CRAFT cho giai đoạn phát hiện chữ trên bìa sách, mô hình CRNN, SVTR

và TransformerOCR cho giai đoạn nhận dạng chữ, cuối cùng các nội dung văn bản được nhận dạng ở hai giai đoạn trước được tổng hợp, phân loại ra các trường thông tin

tác giả, tên sách, nhà xuất bản cụ thể bằng mô hình Yolov4 kết hợp phương pháp xử

lý của chúng tôi Đồng thời, chúng tôi xây dựng bộ dữ liệu ảnh gồm 7.875 bìa sách

tiếng Việt gán nhãn để thực hiện huấn luyện các mô hình Các mô hình huấn luyện

đạt được kết quả khả quan

Trang 20

Đặt van đề

Công nghệ ngày nay đã phát triển vượt bậc, làm cho cuộc sống của chúng ta trổ

nên tiện nghi hơn rất nhiều Tuy nhiên, khoa học - kỹ thuật công nghệ sẽ tiếp tục được

nâng lên và tối ưu hóa công việc con người trở nên đơn giản, nhẹ nhàng và tiết kiệm

hơn.

Sách là nơi lưu giữ những tinh hoa, kiến thức bổ ích Sách mở ra những chân trời mới, cung cấp nguồn kiến thức vô tận về mọi lĩnh vực trong cuộc sống Sách chứa đựng nguồn kiến thức khổng 16 và giúp con người giao lưu với thế giới bên ngoài, tiếp cận

với nền văn minh nhân loại

Với lòng yêu sách và cũng là người yêu công nghệ và làm về công nghệ, chúng tôi

muốn thực hiện xây dựng một hệ thống sử dụng công nghệ OCR trong việc hỗ trợ

quản lý sách tiếng Việt Hệ thống chúng tôi xây dựng với mục tiêu hướng đến số hóa

tủ sách nhằm hỗ trợ các mô hình nhà sách, thư viện, tủ sách cá nhân trong việc ghichép thông tin của các cuốn sách bằng cách ứng dụng OCR trích xuất thông bìa sách

bao gồm tác giả, tên sách, nhà xuất bản , từ đó hỗ trợ con người quản lý sách cách dễdàng và tiết kiệm

Mục tiêu khóa luận

Trong khóa luận này, chúng tôi tập trung xây dựng bộ dữ liệu ảnh và thực hiệnhuấn luyện các mô hình học máy trong việc trích xuất thông tin từ bìa sách Chúngtôi đặt ra các mục tiêu như sau:

» Thứ nhất, chúng tôi tiến hành xây dựng bộ dữ liệu ảnh bìa sách với tổng số lượng

ảnh đặt ra là 7.000 ảnh được gán nhãn gồm vị trí văn bản trên bìa sách, nội dung

3

Trang 21

văn bản, nhãn phân loại tên sách, tên tác giả, tên nhà xuât bản cho nội dung văn

bản, nhãn đánh sô liên kêt nội dung văn bản.

» Thứ hai, xây dựng mô hình cho bài toán phát hiện văn bản trên bìa sách tiếng

Việt.

» Thứ ba, xây dung mô hình cho bài toán nhận diện văn bản trên bìa sách tiếng

Việt.

¢ Thứ tư, hực hiện xây dựng mô hình phân loại và tổng hợp thông tin thuộc nhóm

thông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher)

Đối tượng và phạm vi nghiên cứu

« Đối tượng: Các mô hình học sâu cho bài toán phát hiện văn bản tiếng Việt trên

ảnh, các mô hình học sâu cho bài toán nhận dạng văn bản tiếng Việt trên ảnh và

mô hình phân loại văn bản tiếng Việt.

* Phạm vi: Đề tài chúng tôi tập trung nghiên cứu các mô hình phát hiện và nhận

dạng văn bản trên ảnh cho ngôn ngữ tiếng Việt Hình ảnh là các bìa sách tiếng

Việt Chúng tôi tập trung nghiên cứu giải quyết các van dé sau:

— Xây dựng bộ dữ liệu ảnh bìa sách tiếng Việt

— Nghiên cứu và chạy thử nghiệm một số mô hình phổ biến phát hiện văn ban

trên bộ dữ liệu chúng tôi xây dựng Cac mô hình thực nghiệm là CRAFT[4],

SAST[13], EAST[14] của Paddle.

Kết quả nghiên cứu

Nghiên cứu của chúng tôi đạt được kết quả như sau:

* Xây dựng được bộ dữ liệu gồm 7.875 ảnh bìa sách tiếng Việt

Trang 22

* Thử nghiệm các mô hình học sâu phát hiện văn bản trên ảnh bìa sách bao gồm

mô hình CRAFT, mô hình EAST, SAST của Paddle và đạt kết quả cao nhất với

mô hình SAST với 80.73% với đo H-mean.

* Thử nghiệm các mô hình học sâu nhận diện văn bản trên ảnh bìa sách bao gồm

mô hình SVTR, CRNN của Paddle, mô hình TransformerOCR của VietOCR và

đạt kết quả cao nhất với mô hình TransformerOCR của VietOCR với 91.42% độ

chính xác trên ký tự, lần lượt đạt 13.85% và 4.78% trên độ đo WER và CER

¢ Hệ thống trích xuất thông tin trên bìa sách tiếng Việt đạt độ chính xác 22.67%

với độ đo WER và 84.06% độ chính xác trên cấp độ từ.

Câu trúc khóa luận

Khóa luận gồm 7 chương với các nội dung chính sau:

* Chương 1: Tổng quan

Giới thiệu về lĩnh vực nghiên cứu về OCR hiện nay và tinh ứng dung của nó

trong cuộc sông hiện tại Đồng thời, trình bày thực trạng quản lý sách hiện nay

tại Việt Nam.

* Chương 2: Bài toán trích xuất trên bìa sách tiếng Việt

Trình bày đầu vào và đầu ra của bài toán trích xuất thông tin trên bìa sách tiếng

Việt Nêu các thách thức đặt ra của bài toán và hướng giải quyết.

¢ Chương 3: Các công trình nghiên cứu liên quan

Chúng tôi trình bày một số công trình nghiên cứu chúng tôi tham khảo có cả

ngôn ngữ nước ngoài và ngôn ngữ tiếng Việt.

* Chương 4: Xây dựng bộ dữ liệu cho bài toán trích xuất thông tin trên bìa sáchtiếng Việt

Trình bày chi tiết hình thức bộ dữ liệu xây dựng, cách thu thập va gán nhãn cho

bộ dữ liệu ảnh bìa sách Quy trình gán nhãn dữ liệu và đưa ra một số phân tích

về bộ dữ liệu xây dựng

Trang 23

« Chương 5: Các phương pháp tiếp cận

Trình bày các phương pháp và mô hình dùng huấn luyện cho phát hiện văn bản

trên bìa sách, nhận diện văn bản trên bìa sách, tổng hợp thông tin bìa sách.

s Chương 6: Cai đặt, thực nghiệm và đánh giá

Trình bày các thức cài đặt các mô hình thực nghiệm và đánh giá kết quả thực

nghiệm.

* Chương 7: Kết luận và hướng phát triển

Trang 24

1 Chương 1 TONG QUAN

1.1 Giới thiệu đề tài

Ở nước ta trong mấy chục năm qua, văn hoá đọc đã có những bước phát triển vượt

bậc Điều đó thể hiện ở những con số sau đây: trước năm 1975, cả hai miền Bắc và

Nam xuất bản hàng năm được khoảng chưa đầy 4.000 tên sách, ngày nay hàng nămxuất bản khoảng xấp xỉ 25.000 tên sách, tăng gấp 6 lần, gần đây tốc độ gia tăng hàngnăm khoảng 10% Cả nước hiện nay đang xuất bản khoảng gần 400 tên báo, tạp chí,nhiều báo có số lượng xuất bản mỗi số lên tới 500.000 bản Chính vì thế cần giải pháp

để hỗ trợ việc quản lý sách cho những cửa hàng, thư viện và cá nhân là cần thiết, cũng

từ đó hướng đến tự động hoá, chuyển đổi từ thư viện truyền thống sang thư viện điệntử/thư viện sé

Hiện nay khi thời đại khoa học công nghệ đang ngày càng phát triển, có thể dễ

dàng nhận thấy công nghệ OCR hiện đã được ứng dụng rộng rãi trong đời sống, trongnhiều lĩnh vực khác nhau Công nghệ OCR thường được dùng phổ biến nhất đó là

trong các máy scanner tại các văn phòng Hiện nay, các máy scan cơ bản chỉ có thể

quét được các hình ảnh và trả chúng về những hình ảnh dạng số hoá Chính những

lý do thực tế này, chúng tôi thực hiện đề tài này để đóng góp một phần công sức chocộng đồng nghiên cứu về xử lý ảnh cũng như cộng đồng yêu sách ở Việt Nam Đề tàitrích xuất thông tin trên ảnh chụp bìa sách tiếng Việt với đầu vào là hình ảnh bìa sách

và dau ra là thông tin tên tác giả, tên sách và tên nhà xuất bản Trong dé tài này chúng

tôi giới thiệu bộ dữ liệu ảnh gồm 7.875 ảnh chụp bìa sách đã gán nhãn Chúng tôi xâydựng hệ thống trích xuất thông tin trên bìa gồm tên tác giả, tên sách, tên nhà xuất bản

bằng cách giải quyết 3 bài toán sau: (1) phát hiện văn bản trên ảnh bìa sách, (2) nhận

dạng văn bản trên ảnh bìa sách, (3) tổng hợp, phân loại nội dung văn bản.

Trang 25

1.2 Tinh ứng dụng của đề tài

Nghiên cứu của chúng tôi mang đến một số đóng góp cho cộng đồng xử lý ảnh va

tính ứng dụng trong việc quản lý thư viện, cửa hàng bán sách, tủ sách cá nhân Trong lĩnh vực xử lý ảnh nói chung và mảng OCR nói riêng, bộ dữ liệu chúng tôi xây dựnggồm 7,875 ảnh chụp các bìa sách tiếng Việt phục vụ nghiên cứu và huấn luyện được

mô hình phát hiện chữ tiếng Việt trên ảnh và nhận dạng chữ tiếng Việt trên ảnh Ứng

dụng cho những hệ thống có thực hiện nhiệm vụ nhận dạng chữ tiếng Việt thông qua

hình ảnh.

Ứng dụng chính mà chúng tôi hướng đến khi thực hiện đề tài này là xây dựng một

hệ thống số hóa tủ sách hay ứng dụng hỗ trợ trích xuất các thông tin của sách trên

bìa sách Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bản, những thông tin này giống như địa chỉ để người đọc tìm kiếm đến một cuốn sách.

Trong các thư viện, nhà sách hay tủ sách cá nhân khi muốn sao lưu và thống kê quản

lý số lượng sách trong kho, điều tất nhiên phải ghi lại các thông tin trên bìa sách vềtên sách, tên tác giả, nhà xuất bản Tuy nhiên với số lượng sách khổng lồ trong thư

viện hay các nhà sách cần ứng dụng hỗ trợ thực hiện công việc sao lưu này một cách

nhanh chóng.Ngoài tiết kiệm được thời gian, các tài liệu, văn bản được số hóa sẽ giúptiết kiệm không gian lưu trữ và dé dang quản lý

143 Kếtluận

Nhìn chung, bài toán OCR đã và đang được đẩy mạnh nghiên cứu và ứng dụng

nhiều trong cuộc sống Đặc biệt, OCR trong việc giải quyết các bài toán về nhận diệnchữ viết trong hình ảnh tao ra nhiều giá trị cho cuộc sống con người trong xu thé số

hóa hiện nay Áp dụng OCR xây dựng một hệ thống trích xuất thông tin từ sách hỗ

trợ cho việc quản lý sách trong thư viện, nhà sách hay tủ sách cá nhân giúp tiết kiệm

được thời gian cũng như không gian lưu trữ, giúp người dùng sắp xếp quản lý sách

một cách chuyên nghiệp và thuận hơn Đồng thời, qua quá trình xây dựng nghiên cứu

Trang 26

về dé tài đóng góp phần nhỏ vào công cuộc nghiên cứu chuyển đổi công nghệ số, đặcbiệt là trong nhận dạng chữ cho thế giới nói chung và Việt Nam nói riêng.

Trang 27

2_ Chương 2 BÀI TOÁN TRÍCH XUẤT THONG TIN

TRÊN BÌA SÁCH TIÊNG VIỆT

Trên bìa sách có những thông tin chính bao gồm tác giả, tên sách, nhà xuất bảnđược trích xuất ra các trường thông tin qua các bước (1) tìm vị trí các văn bản cótrên ảnh bìa sách (text detection), (2) nhận dạng các văn bản dưới dạng ảnh thành nộidung dưới dạng chuỗi (text recognition), (3) phân loại các chuỗi thông tin về đúng cáctrường tác giả, tên sách, nhà xuất bản

2.1 Bài toán trích xuât thông tin trên bìa sách tiêng Việt

Bài toán trích xuất thông tin trên bìa sách tiếng Việt có đầu vào với đầu ra như sau:

* Đầu vào: Ảnh chụp bìa sách tiếng Việt

« Đầu ra: Thông tin các trường tác giả, tên sách, nhà xuất bản

Trang 28

Nhìn vào hình 2, hình bên trái là đầu vào của hệ thống hình ảnh bìa sách tiếng Việt

được chụp bằng điện thoại Bên trái là kết quả của hệ thống gồm chi tiết các thông tin

tên sách, tên tác giả, tên nhà xuat ban.

2.2 Thách thức

OCR là một bài toán được nghiên cứu và ứng dụng trong thực tế tuy nhiên bài toánchúng tôi đặt ra có một số thách thức Dữ liệu là điều kiện cần để thực hiện bất kỳ

một mô hình học máy, tuy nhiên dữ liệu để giải quyết các bài toán OCR trong tiếng

Việt rất ít, đặc biệt qua khảo sát thấy được, bài toán của chúng tôi thực hiện chưa cócông bé dữ liệu nào Từ đó đặt ra thách thức cho chúng tôi, cần xây dựng một bộ dữliệu ảnh chụp bìa sách tiếng Việt và gán nhãn đề làm đầu vào cho các mô hình máy

học Trong bài toán phát hiện và nhận dạng chữ viết phổ biến những dạng văn bản có phông chữ cố định và dạng phông chữ phổ biến cụ thể như bài toán trích xuất thông

tin trên hóa đơn, tuy nhiên các văn bản xuất hiện trên bìa sách là văn bản phi cấu trúc

Văn bản đa dạng về bố cục, phông chữ và background phức tạp Thêm vào đó,các công trình nghiên cứu về bài toán nhận dạng văn bản trên hình ảnh có cấu trúc

phức tạp rất ít, đặc biệt cho tiếng Việt Từ những thách thức đặt ra, chúng tôi quyết định thực hiện đề tài này biến những thách thức thành cơ hội được nghiên cứu và thực

nghiệm tạo ra bộ dữ liệu, các mô hình có thể một phần đóng góp vào những ứng dụngphục vụ trong cuộc sống, cũng như một phan thúc day quá trình cuộc cách mạng côngnghệ của Việt Nam và thé giới

«2e

2.3 Phương pháp đề xuât giải quyét bài toán

Dựa vào phân tích, đánh giá các điều kiện cần và đủ để giải quyết bài toán tríchxuất thông trên bìa sách mà chúng tôi đặt ra, chúng tôi đề xuất các phương pháp đềtừng bước giải quyết các van dé như sau:

s Xây dựng bộ dữ liệu anh bìa sách, bộ dữ liệu đủ lớn đạt 7.000 ảnh và gan nhãn.

11

Trang 29

Nhãn dữ liệu là tọa độ bounding box văn bản có trên bìa sách và nội dung văn

bản có trong bounding box.

¢ Huấn luyện mô hình cho nhiệm vụ phát hiện văn bản trên ảnh bìa sách (textdetection) các mô hình chúng tôi đề xuất sử dung CRAFT , mô hình SAST,EAST của Paddle.

¢ Huấn luyện mô hình cho nhiệm vụ nhận dạng văn bản trên ảnh bìa sách (text

recognition) các mô hình chúng tôi dé xuất sử dụng mô hình nhận dạng văn banSVTR, CRNN của Paddle, mô hình transformerOCR của VietOCR.

¢ Huấn luyện mô hình YOLOv4 phát hiện vùng đối tượng văn bản thuộc nhómthông tin tên sách(Title), tên tác giả(Author), tên nhà xuất ban(Publisher)

Xử lý tong hợp

thông tin.

Phát hiện văn bản Thực hiện xử lý tổng hợp mảnh

thông tin tên sách, tên tác giả, tên

Huấn luyện mô hình CRAFT, SAST, nhà xuất bản.

EAST cho nhiệm vụ phát hiện văn

bản trên bìa sách.

@ ® @ ©

Xây dựng dữ liệu C Quản Nhận dạng văn Po Guốn:

Xây dựng bộ dữ liệu bìa sách bản

khoảng 7.000 ảnh

Huấn luyện mô hình SVTR, CRNN,

TransformerOCR cho nhiệm vụ nhận diện văn bản trên bìa sách.

Hình 3: Sơ đồ chuỗi các phương pháp dé xuất giải quyết bài toán trích xuất thông tin

từ bìa sách tiếng Việt

12

Trang 30

3 Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN

QUAN

Dạng ảnh chứa văn bản xử lý trong bài toán OCR được chia 2 dạng: ảnh văn bản

có cau trúc và văn bản phi cấu trúc Van bản có cấu trúc là văn bản dưới dạng đánhmáy, có hàng lối, kích cỡ chữ, phông chữ đồng nhất, ví dụ như các trang sách, các hóa

đơn, chứng minh nhân dân Văn bản phi cấu trúc là văn bản không có cấu trúc hàng

thích hợp, ảnh nền chữ phức tạp, các chữ trong văn bản không có phông chữ và kích

cỡ đồng nhất, ví dụ như ảnh bìa sách, ảnh các biển quảng cáo, , hình 4, 5

4 COM BAT BUU

1 SUON CHIEN KOO

3.1 Cac công trình nghiên cứu trên ngôn ngữ nước ngoài

Bài toán OCR được đẩy mạnh nghiên cứu trên thế giới đặc biệt là tiếng Anh và các

ngôn ngữ khác như Trung, Hàn, Nhật Các công trình nghiên cứu OCR về ngônngữ nước ngoài kể đến những bộ dữ liệu xây dựng để giải quyết những bài toán này

Đặc biệt, có rất nhiều bộ dữ liệu được công bồ trong các cuộc thi toàn cầu với mục

đích tìm kiếm những cách giải quyết bài toán OCR với các bộ dữ liệu này từ những

người tham gia đồng thời phổ biến, đẩy mạnh công cuộc nghiên cứu, phát triển công

nghệ OCR trên toàn cầu Hằng năm, ICDAR (International Conference on Document

13

Trang 31

COCO[16] chứa hình ảnh cảnh phức tạp hằng ngày Các hình ảnh này thu thập ảnh

cảnh vật và văn bản chỉ là đối tượng được xuất hiện trong cảnh đó do đó bộ dữ liệuchưa rất đa dạng các kiểu văn bản Bộ dữ liệu có 63.686 ảnh Mỗi ảnh trong bộ

Trang 32

dữ liệu COCO-text được gán nhãn như sau: (1) vị trí của của bounding-box chữa vănbản, (2) nhãn phân loại chữ in bằng máy hay chữ viết tay, (3) nhãn phân loại văn bản

có thể đọc và văn bản không thể đọc, (4) nhãn phân loại tiếng Anh, không là tiếng

Anh, (5) nội dung văn bản có thể đọc, ví dụ hình7 Mỗi bounding-box là hình chữ

nhật gán vị trí văn bản trên ảnh ở cấp độ từ Phương pháp đã được những người thamgia sử dụng cho nhiệm vụ phát hiện chữ trên ảnh (text localization hay text detection)

trong nhiệm vụ trích xuất thông tin từ hòa đơn này là mô hình deep learning CNN

đánh giá trên độ đo AP(Average Precision) với IoU > 0.75 đạt 32.10 dẫn đầu những

người tham gia.

Trong cuộc thi ICDAR 2019, bài toán mới được đưa ra không chỉ dừng lại ở phat

Hình 7: Vi dụ nhãn được gan trong bộ dữ liệu COCO-text Nguồn: Nguồn:

IC-DAR2017 Robust Reading Challenge on COCO-Text.

hiện va nhận dạng chữ trên ảnh, mà cần trích xuất được văn bản đó thuộc trường dữ

liệu nào với những dạng văn bản có cấu trúc như hóa đơn bán hàng Bài toán tríchxuất hóa đơn với bộ dữ liệu lớn tập hợp các ảnh hóa đơn tiếng Anh,một số ví dụ hình

8 Mục đích khi đặt ra thử thách với bộ dữ liệu hóa đơn này là có thể trích xuất đượcthông tin của những dạng văn bản có cấu trúc trên ảnh phục vụ nhiều ứng dụng vàdịch vụ trong việc lưu trữ hiệu quả, lập chỉ mục nhanh và phân tích tài liệu Những

15

Trang 33

điều này đóng vai trò quan trọng trong việc xử lý nhanh các tài liệu giấy bằng cách tự

động hóa thúc đẩy xây dựng văn phòng tự động hóa trong nhiều lĩnh vực tài chính, kếtoán, thuế Với thử thách này, ban tổ chức đưa ra 3 nhiệm vụ nhỏ xử lý trên bộ dữ liệu

như sau: (1) Phát hiện chữ trên hóa đơn, (2) Nhận dạng chữ trên hóa đơn, (3) trích

xuất các trường thông tin trên hóa đơn

tan chay yee

\ PT

1C MARKETING SOW BHD

RO: H

44300 BATANG KALI, SELANGOR

Tải: CP-605? Osim Fax 0-605 7 S678

Total

Fe

Hình 8: Một số hình ảnh hóa đơn trong bộ dữ liệu trích xuất thông tin từ hóa đơn

trong cuộc thi ICDAR 2019.

3.2 Các công trình nghiên cứu trên ngôn ngữ tiếng Việt

Trong những năm gần đây, Việt Nam cũng đang đẩy mình hòa nhập với sự pháttriển công nghệ toàn cầu, đặc biệt tình hình nghiên cứu, ứng dụng trong lĩnh vực công

nghệ thông tin ngày càng có nhiều bước ngoặt lớn cũng như những thành tựu đạt được.

Trong lĩnh vực xử lý ngôn ngữ tự nhiên và xử lý ảnh, nhiều cuộc thi được mở ra hằng

năm với những bài toán rất thú vị và nhu cầu trong cuộc sống thực tế đối với ngôn ngữtiếng Việt Bài toán OCR cũng được đặc biệt quan tâm và đem vào trong những cuộc

thi để tìm kiếm giải pháp từ người tham gia Trong cuộc thi RIVE 2021 MC-OCR,

16

Trang 34

bài toán đặt ra trích xuất thông tin từ hóa đơn chụp bằng điện thoại Bài toán chia làm

hai nhiệm vụ nhỏ (1) phân loại chất lượng hình ảnh hóa đơn - hình 9, (2) trích xuất

4 thông tin hóa đơn bao gồm tên cửa hàng, địa chỉ cửa hàng, thời gian thanh toán, sốtiền thanh toán - hình 10

Kết thúc cuộc thi, nhiều nhóm tham gia đã có những kết quả đáng mong đợi cùng

Dau vào Dau ra

Hình 9: Mô tả đầu vào và đầu ra của nhiệm vụ (1) phân loại chất lượng hình ảnhhóa đơn trong cuộc thi RIVF 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầuvào và cột bên trái là nhãn phân loại chất lượng của hình ảnh đó Nguồn: RIVF2021MC-OCR Competition.

Dau vào Đâu ra

Hình 10: Mô tả đầu vào và đầu ra của nhiệm vụ (2) trích xuất 4 thông tin hóa đơn trong

cuộc thi RIVE 2021 MC-OCR Cột bên trái là hình ảnh hóa đơn đầu vào và cột bên

trái 4 thông tin trích xuất trong hóa đơn Nguồn: RIVF2021 MC-OCR Competition

với những phương pháp hiệu quả được công bồ tại bài báo[17] Đối với nhiệm vụ 1 kết

17

Trang 35

quả dẫn đầu với RMSE bằng 0.1 với mô hình người tham gia sử dụng EfficientNet.

Đối với nhiệm vụ 2, cũng là nhiệm vụ chính mà cuộc thi hướng tới, kết quả ngườitham dự đạt được cao nhất là 0.22 với độ đo Character Error Rate (CER) và phươngpháp sử dụng là mô hình YOLOvS và VietOCR Với bước nhận dang chữ thi VietOCR

rõ ràng đang là mô hình tốt nhất trên tiếng Việt và đây cũng là mô hình tất cả các đội

trong top 5 đều sử dụng trong cuộc thi này

3.3 Kếtluận

Nhìn chung, OCR đã và đang ngày càng được đẩy mạnh nghiên cứu cũng như ứng

dụng vào thực tế cuộc sống của trên toàn thế giới và Việt Nam Tầm quan trọng củaOCR cũng ngày càng được thấy rõ khi ngày càng có nhiều dạng và thử thách được đặt

ra để giải quyết cho bài toán OCR Đặc biệt OCR cho tiếng Việt vẫn còn nhiều thách

thức như sau các bộ dữ liệu phục vụ cho bài toán OCR số lượng còn ít và chưa có tính

đa dạng, còn rất ít những mô hình đề xuất cũng như thư viện hỗ trợ trong quá trình xử

lý thực hiện giải quyết bài toán OCR

18

Trang 36

4 Chương 4 XÂY DỰNG BO DU LIEU CHO BÀI

TOÁN TRÍCH XUẤT THÔNG TIN TRÊN BÌA SÁCH

TIÊNG VIỆT

4.1 Thu thập dữ liệu

Các ảnh bìa sách được thu thập từ hai nguồn chính là ảnh các bìa sách trong thư

viện, nhà sách bằng điện thoại và ảnh thu thập từ các trang web bán sách tiki - trang

thương mại điện tử Việt Nam, các trang review sách các hình ảnh được đăng tải trên

Facebook Điện thoại sử dụng chụp ảnh bìa sách là những điện thoại thông minh của

các hãng phổ biến Iphone, Samsung, Oppo với độ phân giải ở ngưỡng 3000x4000

pixels Mỗi bìa sách được chụp khoảng 10 ảnh với các góc chụp và background khác

nhau, ví dụ hình 11.

Sau hai tuần thu thập dữ liệu, chúng tôi có được tổng ảnh bìa sách thu thập gần hơn

19

Trang 37

38.000 ảnh trong đó 7.786 ảnh bìa sách chụp bằng điện thoại Ảnh thu thập từ các

trang web bán sách và Facebook hơn 30.000 ảnh, tuy nhiên trong số ảnh này có nhiềutắm ảnh không phải hình ảnh bìa sách hoặc những bìa sách không còn đủ thông tin

Do đó, chúng tôi tiễn hành lọc và loại bỏ số ảnh không thể sử dụng và giữ lại 14.154

ảnh đủ tiêu chuẩn Do đó, số lượng ảnh đạt yêu cầu chúng tôi có được sau khi chọn

lọc là 21.940 ảnh bìa sách để thực hiện gán nhãn.

4.2 Gan nhãn dư liệu

4.2.1 Hướng dẫn gan nhãn dữ liệu

Trong quá trình gán nhãn để đảm bảo được chất lượng dữ liệu các người tham gia

gán nhãn dif liệu đều tuân thủ theo hướng dẫn gán nhãn Công cu gán nhãn chúngtôi sử dụng là PaddleOCR[5], công cụ này giúp gán nhãn dữ liệu một cách tối ưu do

công cụ có hỗ trợ gán các bounding box dạng hình chữ nhật và dạng hình đa giác, đặc

biệt thích hợp với dữ liệu của chúng tôi Người tham gia gán nhãn một ảnh bìa sáchcần thực hiện 4 bước: (1) xác định vi bounding box cho văn bản trên ảnh, (2) gán nội

dung văn bản cho mỗi bounding box, (3) gán nhãn phân loại Title, Author, Publisher

cho các nội dung văn bản trong bounding box, (4) đánh số nối các nội dung thuộc

từng trường Title, Author, Publisher, hình 12 mô tả các bước gan nhãn Ở bước 1 do

các văn bản bìa sách sắp xếp không theo một quy định nào nên các bounding box chocác văn bản cần được linh hoạt hình dạng sao cho bounding box bao càng khớp vớivùng hình ảnh càng tốt nhưng phải đảm bảo được các tiêu chí sau:

* Các bounding box phải bao được hết đối tượng văn bản trên ảnh tuy nhiên cầnhạn chế tối đa những khoảng thừa không thuộc văn bản đó

* Các bounding box được gán theo cấp độ dòng

Trong bước 2, nội dung văn bản cần gán chính xác từ chữ hoa đến chữ thường Tiếpđến bước 3, các nội dung văn ban sẽ được gan nhãn phân loại Title, Author, Publisher

và Other Nhãn Other dành cho những trường hợp thông tin không thuộc tác giả, tên

20

Trang 38

sách hay nhà xuất bản Bước cuối cùng các văn bản trên bìa sách được gán theo cấp

độ dòng nên do đó sẽ có nhiều nhãn Title, Author, Publisher do đó nội dung cùngnhãn sẽ được đánh số thứ tự để liên kết với nhau

INHIEU TÁC GIẢ/author/0

Nguyễn Bùi Vợi/tie/0

Bước (2), (3), (4) | với tinh đời/title/1

ITIỀU LUẬN PHÊ BÌNH(title/2 INHÀ XUẤT BAN HỘI NHÀ VĂN/publisher/0

Hình 12: Mô phỏng các bước gán nhãn ảnh bìa sách.

4.2.2 Quá trình gan nhãn dw liệu

Quá trình gán nhãn của chúng tôi thực hiện 5 vòng, mỗi vòng gán 1.600 ảnh chia

đều cho 7 người Trong quá trình gán nhãn, những người tham gia gán nhãn phát hiện

trường hợp đặc biệt chưa có trong bản hướng dẫn gán nhãn, người tham gia gán nhãn

có trách nhiệm thông báo và thảo luận trường hợp đó với nhóm và bản hướng dẫn gán nhãn luôn được cập nhật sau mỗi lần thảo luận Để đảm bảo chất lượng cho bộ dữ

liệu, những ảnh thiêu chất lượng như mờ, nhòe, bị cắt thiếu nội dung sẽ được người

tham gia gán nhãn phát hiện và loại bỏ khỏi tập dữ liệu Kết thúc mỗi vòng gán nhãn,

các tập dữ liệu của thành viên gán nhãn sẽ được kiểm tra lại bởi một thành viên khác.

Các lỗi gán nhãn sai được phát hiện lúc kiểm tra lại sẽ được sửa và ghi lại các lỗi sai

đó để thông báo để đào tạo cách gán nhãn lại cho các thành viên, từ đó các thành viên

có thể làm tốt hơn ở vòng tiếp theo, hình 13

4.3 Phân (ích bộ dư liệu

Sau 5 vòng gán nhãn, tập dữ liệu có 7.875 ảnh đã được gán nhãn Nhãn của các ảnhgồm tọa độ bounding box, nội dung của ảnh văn bản được bounding box, nhãn phânloại nội dung( Title, Author, Publisher) và số đánh nối các nội dung thuộc các nhãn

21

Trang 39

Hình 13: Lưu đồ khối thể hiện quy trình gán nhãn bộ dữ liệu Vi-BCI.

phân loại, hình 14 ví dụ về một ảnh mẫu và nhãn trong tập dữ liệu Sau khi thống kê,

7.875 anh bìa sách được gan nhãn có hơn 67.000 bounding box được gan Chúng tôichia bộ dif liệu lớn thành 3 tập dữ liệu: dữ liệu huấn luyện, dữ liệu kiểm thử, dữ liệuđánh giá với tỷ lệ 8: 1:1.

Trang 40

5 Chương 5 CÁC PHƯƠNG PHÁP TIẾP CAN

Thông qua việc tìm hiểu và nghiên cứu các công trình liên quan về nhận diện, tríchxuất thông tin từ ảnh trên thế giới cũng như trong nước Chúng tôi đã thực nghiệm

các mô hình học sâu tiên tiến, hiện đại để tìm ra mô hình mang lại kết quả tối ưu

nhất Sở dĩ chúng tôi sử dụng các mô hình học sâu hiện đại vì các bài toán liênquan để giải quyết vấn đề đặt ra đã được nghiên cứu và cho ra khá nhiều mô hình

hiện đại Trong khóa luận này, chúng tôi cài đặt các mô hình học sâu hiện đại như: EAST, SAST, CRAFT, EasyOCR, TransformerOCR, CRNN, SVTR, Yolov4 Ngoài

việc thực nghiệm các mô hình trên, chúng tôi đã tiền xử ly bằng mô hình Detectron2

để tăng hiệu suất của mô hình Hình 15 bên dưới thể hiện cấu trúc tổng quan của

phương pháp mà chúng tôi thực hiện trong khoá luận này.

Quá trình huấn luyện

¡|_ Phát hiện văn ban ||

ị Phát hiện văn ban | |

NETO CIE IO Cen 32D; — Xử lý tổng hợp thông tin Kết quả đầu ra

Dữ liệu

đánh giá

Tiền xử lý dữ liệu

¡ | Phát hiện đối tượng | |

Hình 15: Hình mô phỏng tổng quan phương pháp.

23

Ngày đăng: 03/11/2024, 18:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN