Khóa luận tốt nghiệp Khoa học máy tính: Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin từ danh thiếp

Chương 2CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Mở đầu Ở chương này nhóm sẽ làm rõ các khái niệm và thách thức liên quan đến bài toán trích xuất thông tin thẻ danh thiếp, đồng thời tìm hiểu một số

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TÔ VIẾT ANH - 1850471

PHẠM DUY GIÁC NGUYÊN - 18521162

KHOÁ LUẬN TỐT NGHIỆP

NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ PHƯƠNG

PHÁP CHO BÀI TOÁN RÚT TRÍCH THÔNG TIN

TỪ DANH THIẾP

EVALUATING SEVERAL METHODS FOR BUSINESS CARD

EXTRACTION PROBLEM

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUGNG DAN

TS MALTIEN DUNG ThS ĐỒ VAN TIEN

TP HO CHÍ MINH, 2022

Trang 2

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số

ngay Công nghệ Thông tin.

của Hiệu trưởng Trường Dai học

1 6E ⁄⁄22277 - Chủ tịch.

2 4 - Thư ký.

Ậ SẾP GP ty, - Uỷ viên.

4 #P, BH Ƒ me - Uỷ viên.

Trang 3

LỜI CẢM ƠN

Đầu tiên, nhóm xin chân thành cảm ơn TS Mai Tiến Dũng và ThS

Đỗ Văn Tiến, hai thầy đã dẫn dắt nhóm tận tình với những góp ý cực

kỳ thiết yếu để nhóm hoàn thành khoá luận một cách tốt nhất.

Nhóm xin cảm ơn Ban chủ nhiệm Khoa, Ban giám hiệu Nhà trường

tạo điều kiện cho nhóm thực hiện trong tình dịch bệnh Covid-19 kéodài, cũng như hỗ trợ các thiết bị cần thiết để nhóm tổ chức được các

thí nghiệm đánh giá Ngoài ra những lời nhận xét từ thành viên câu

lạc bộ AI đã chỉ ra những điểm còn thiếu xót trong bài thuyết trình

mà nhóm cần khắc phục Dành lời cảm ơn sâu sắc tới bạn Phan Thị

Kim Khoa, sinh viên khoá 13 ngành Khoa học máy tính, đã hỗ trợ

nhóm trong quá trình thu thập dữ liệu.

Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới những thầy cô đãgiảng dạy chúng em trong suốt thời gian học tập tại trường Đại học

Công nghệ Thông tin.

Cuối cùng, nhóm xin cảm ơn gia đình luôn động viên và là chỗ dựa

vững chắc cho chúng em xuyên suốt quá trình thực hiện khóa luận

TP Hồ Chí Minh, tháng 1 năm 2022

Trang 4

Mục lục

Danh sách hình vẽ

Danh sách bảng

Danh mục từ viết tắt

1 TONG QUAN

11

1.2

1.3

1.4

Giới thi Na vất

Mục tiêu và phạm vi nghiêncứu

1.2.1 Mụctiu Ặ Q Q Q Q ee 122 Phamvi 2.2 2.0000 ee ee eee Dong góp của khoáluận

Cấu trúc khóaluận

-2 CÁC NGHIÊN CỨU LIEN QUAN 21 2.2 2.3 M6 dau ee eee Bài toán rút trích thông tin thé danh thiếp

Một số hướng tiếp cận phổ biến

23.1 Xácđịnhthểdanhthếp

23.2 Nhận diệnvănbản

iii

li

vii

xi

Trang 5

MỤC LỤC

2.3.2.1 Bài toán phát hiện vănbản 12

2.3.2.2 Bài toán nhận diện vănbản 14

24 Kếtchương Qua 15 3 NGHIÊN CỨU VÀ DANH GIÁ MỘT SỐ PHƯƠNG PHAP CHO BÀI TOÁN RUT TRÍCH THONG TIN TU DANH THIẾP 17 3.1 Xác định vị trí danh thiếp 17

3.1.1 Xác định vị tri thẻ danh thiếp bằng phương pháp xử lý hìnhảnh 17

3.1.1.1 Pháthêệncạnh 18

3.1.1.2 Pháthiện đường thẳng 20

3.1.1.3 Hệ thống xếp hạng hai bước 21

3.1.2 Xác định vị trí thẻ danh thiếp bằng phương pháp học sâu 23 3.2 Pháthiện vănbản 25

3.2.1 Nhóm các phương pháp theo hướng tiếp cận từ trên xuống 26 3.2.1.1 Phương pháp TextFuseNet 26

3.2.1.2 PhươngphápPMTD 28

3.2.2 Nhóm các phương pháp theo hướng tiếp cận từ dưới lên 31 3.2.2.1 PhươngphápCRAFT 31

3.2.2.2 PhuongphdpDB 34

3.2.2.3 PhươngphápPAN 37

3.2.2.4 PhươngphápPSENet 41

3.3 Nhandiénvinban cu 45 3.3.1 VietOCR 0.0.2 eee eee 45 3.3.1.1 Kiến trúc AtenionOCR 45

3.3.1.2 Kién trúc TransformerOCR 46

3.3.2 TesseractOCR 2 2 02 ee eee 47

iv

Trang 6

MỤC LỤC

4_ THỰC NGHIỆM VÀ DANH GIÁ 51

41 MỞđầu 2 eee 51

4.2 Xây dựng bộ dữ liệu 51

4.2.1 Quátrình thu thập dữliệu - 51

4.2.2 Cách thức thựchiện 52

4.2.3 Quátrìnhgánnhãn 52

4.3 Méts6dddodanhgid 2.2.0 0 eee 53 4.3.1 Độ đo đánh giá cho giai đoạn xác định vi trí thé danh thiếp 54 43.1.1 loÓ Qua 54 4.3.1.2 MeanloU 55

4.3.2 Độ do đánh giá cho giai đoạn phát hiện van ban 56

4.3.2.1 Recall va Precision theo giao thức TedEval 56

43.2077 HmEarmt $@ j / 61

4.3.3 Độ do đánh giá cho giai đoạn nhận diện vin ban 61

4.3.3.1 Accuracy 0.0.00 0000.4 61 4.3.3.2 Levenshtein 62

44 Kétquavadắnh gid 2 ee eee 62 4.4.1 Kétquathucnghiém 62

4.4.1.1 Giai đoạn xác định vị trí thẻ danh thiép 63

4.4.1.2 Giai đoạn phát hiện văn bản 64

4.4.1.3 Giai đoạn nhận diện vănbản 66

442 Đánhgi Q Q Q Q Q Q Q Q 68

45 Kétchuong 2.0.0.0 Q Q Q Q Q na 73

5 XÂY DUNG HỆ THONG MINH HOA 75

51 Mổđầu ee 75

52 Sơđồhệthống 20 0.0.0.0 ee 75

5.3 Giao diện sửdụng Ặ eee ee 76

Trang 8

Ví dụ minh họa cho hệ thống nhận diện thé danh thiép 2

Su da dang của các thẻ danh thiếp về mẫu, kiểu dáng và ngôn ngữ § Lỗi phát sinh trong quá trình số hoá thẻ danh thiép §

Bồ cục phức tap gây khó khăn cho hệ thống nhận diện va rút

trích thôngtin - 10

Kết quả sau khi sử dụng phương pháp phát hiện cạnh Canny 11 Trường hợp phương pháp Canny không giải quyết được 11 Hướng tiếp cận cho bài toán phát hiện và nhận diện văn bản 12 Chuỗi ảnh tương ứng với đặc trưng mà MSER rut trích theo sự

thay đổi ngưỡng c 13 Cách xác định bề rộng chữ trong phương pháp SWT 14 Mot số cách tiếp cận chính của bài toán phát hiện văn ban l5

Kết quả thu được từ bước phát hiện cạnh 19

Các cực đại địa phương được lựa chọn từ hình ảnh nghịch đảo

FHT của phần giữa hìnhảnh 20

Kết quả tự thí nghiệm từ bước phát hiện đường thẳng 21

Kiến trúc tổng quan của U-Net - 24 Kiến trúc quy trình xử lý tổng quan của phương pháp TextFuseNet 27 Hình ảnh minh hoạ các nhãn theo chuẩn ICDAR2015 29

vii

Trang 9

DANH SÁCH HÌNH VẼ

3.7

3.8

3.9

3.10

3.11

3.12

3.13

3.14

3.15

3.16

3.17

3.18

3.19

3.20

3.21

3.22

3.23

3.24

3.25

3.26

3.27

4.1

4.2

Ưu điểm của phương pháp PMTD so với các phương pháp còn

lại dựa trên MaskR-CNN 29

Kiến trúc tổng quan của PMTD 30

Sơ đồ minh hoạ kiến tric CRAFT 32

Minh hoa quá trình tạo nhãn gốc của phương pháp CRAFT 33

Minh hoạ tổng quan quá trình huấn luyện của phương pháp CRAFT Q2 34 Quy trình xử lý truyền thống sovớiDB 35

Kiến trúc tổng quát của phương phdpDB 36

Biểu đồ minh hoạ hàm nhị phân hoá khả vi với hàm nhị phân hoá tiêu chuẩn ⁄⁄⁄ 6 éX À 38

Quy trình xử lý tổng quan của PAN 38

Kiến trúc tổng quan củaPAN - 39

Cấu tạo chi tiếtcủaFPEM 40

Cấu tạo chi tiếtcủaFFM Al Kết quả của các phương pháp phát hiện chữ khác nhau 42

Quy trình xử lý tổng quan của PSENet 43

Minh hoa thuật toán mở rộng luy tién 44

Minh họa mô hình AttentionOC trong thư viện VietOCR 46

Duỗi thang feature maps để phù hợp với đầu vào mô hìnhLSTM_ 47 MôhìnhLSTM 47

Minh họa mô hình TransfomerOCR trong thư viện VietOCR 48

Mô hình Transformer 49

Quá trình nhận diện văn bản của TeseeractOCR 50

Tám thư mục ảnh thẻ danh thiếp sau khichụp 53

Một số phông nền được chụp cùng với thé danh thiép 54

Viil

Trang 10

Giao diện web banđầu 77

Giao diện trả kết quả thông tin được rút trích từ danh thiép 78

1X

Trang 11

Các phương pháp phat hiện van bản được khảo sat và đánh giá 26

Minh hoa bang so khớp dưới dạng kýhiệu 58 Kết qua đánh giá của phương pháp Advanced Hough-based method

và U-Net trên bộ dữ liệu VBC-583 64

Kết quả các phương pháp được huấn luyện với bộ dữ liệu

IC-DAR2015 và đánh giá trên bộ dữ liệu VBC-583 65

Kết quả các phương pháp được huấn luyện và đánh giá với bộ

dữ liệu VBC-583_ Ặ.Ặ QC 65

Kết quả về tốc độ thực thi và tài nguyên sử dụng của các phương

pháp với bộ dữ liệu VBC-583 66

Kết quả các phương pháp được huấn luyện với pretrained model

của tác gia và đánh giá với bộ dữ liệu VBC-583_ 67

Kết quả các phương pháp được huấn luyện và đánh giá với bộ

dữ liệu VBC-583_ QC 67

Kết quả về tốc độ thực thi và tài nguyên sử dụng của các phương

pháp với bộ dữ liệu VBC-583 68

Trang 12

Danh mục từ viết tắt

Từ viết tắt | Nội dung

OCR Optical Character Recognition FHT Fast Hough Transform

Rol Region of interest

FP False positive FPN Feature pyramid network

RPN Region proposal network

MSER Maximally Stable Regions

CTPN Connectionist Text Proposal Network SWT Stroke Width Transform

EAST Accurate Scene Text Detector

SSD Single Shot Detection HOG Histogram of Oriented Gradients RNN Recurrent Neural Network

CNN Convolutional Neural Network

RGB Red Green Blue PMTD Pyramid Mask Text Detector EAST Efficient and Accurate Scene Text Detector CRAFT Character Region Awareness For Text detection

DB Differentiable Binarization PAN Pixel Aggregation Network FPEM Feature Pyramid Enhancement Module FFM Feature Fusion Module

PSENet Progressive Scale Expansion Network

LSTM Long short-term memory

loU Intersection over Union

TedEval Text detection Evaluation

GT Ground Truth API Application Programming Interface

XI

Trang 13

TÓM TẮT KHÓA LUẬN

Ngày nay, việc trao đổi thông tin liên lạc để thiết lập các mối quan

hệ trong công việc hay bạn bè ngày càng trở nên phổ biến, nổi bậttrong số đó là văn hóa trao đổi danh thiếp Danh thiếp là cách để giới

thiệu về bản thân một cách nhanh chóng, ngắn gọn, đơn giản trong

giao tiếp giúp giữ liên lạc với mọi người một cách thuận tiện Bat kể

là giám đốc, nhân viên văn phòng hoặc tài xế lái xe thì việc trao đổi

danh thiếp thể hiện sự chuyên nghiệp đối công việc cũng như con

người Theo một thống kê mới nhất của tờ Nihon Kaizai, người Nhật

sử dụng trung bình 20 danh thiếp mỗi ngày Những con số trên có thể cho thấy nhu cầu sử dụng thẻ danh thiếp ngày càng phổ biến, từ

đó dẫn đến nhu cầu quản lý và truy van thông tin Vì vậy, việc số hóathẻ danh thiếp sẽ giúp việc quản lý và truy van dé dàng, tiện dụng

hơn.

Hiện nay trên thị trường đã có rất nhiều công ty cũng như tổ chức đãcho ra mắt sản phẩm nhận diện thẻ danh thiếp ví dụ như: ABBYY,Camcard, xContact, Tuy nhiên hầu hết các hệ thống này đều sửdụng cho các loại danh thiếp nước ngoài, công nghệ và phương pháp

sử dụng bên trong của các hệ thống này không được công bố vànhững hệ thống này không được hỗ trợ trên ngôn ngữ tiếng việt

Chính vì những lý do trên, nhóm đã quyết định nghiên cứu và giải

quyết bài toán trích xuất thông tin từ thẻ danh thiếp và áp dụng cho

ngôn ngữ tiếng việt.

Trang 14

Trong lĩnh vực thị giác máy tính, có khá nhiều phương pháp để giảiquyết bài toán này, đặc biệt hướng tiếp cận học sâu (Deep Learning)gần đây đã mang lại hiệu quả ứng dụng thực tế cao Việc lựa chọnphương pháp phù hợp cho từng bài toán con và kết hợp thành hệthống với độ chính xác cao, tốc độ xử lý nhanh cũng là một thử thách

lớn.

Tóm lại, khóa luận này đã thực hiện những nội dung sau:

« Tìm hiểu tổng quan về bài toán rút trích thông tin từ thé danh

thiếp tiếng Việt và một số bài toán con tương ứng

* Cài đặt, huấn luyện và đánh giá một số phương pháp tiên tiến

nhất hiện nay tương ứng từng bài toán con bao gồm: Advanced

Hough-based method và U-Net cho bài toán xác định vị trí thẻ; TextFuseNet, PMTD, CRAFT, DB, PAN và PSENet cho bài toán phát hiện văn bản; VietOCR và TesseractOCR cho bài toán nhận diện văn bản.

« Thu thập, gán nhãn và xây dựng bộ dữ liệu VBC-583 về danh

thiếp tiếng Việt Phục vụ công việc đánh giá một số phương

pháp cho từng bài toán con tương ứng.

» Xây dựng ứng dụng web minh họa trích xuất thông tin thẻ danh

thiếp với 3 phương pháp phù hợp nhất là Advanced

Hough-based method, PAN và VietOCR-AttentionOCR.

Từ khóa: Business Card Recognition, Deep Learning, Vietnamese

OCR system

Trang 15

Chương 1

TỔNG QUAN

1.1 Giới thiệu

Thẻ danh thiếp là một loại thiếp nhỏ chứa thông tin cá nhân như: họ & tên,

số điện thoại, email, Với nhu cầu sử dụng danh thiếp ngày càng nhiều dẫn đếnnhu cầu tìm kiếm, quản lý và truy vấn thông tin, do đó số hóa thẻ danh thiếp là

việc thiết yếu để giúp người dùng quản lý thông tin từ danh thiếp Số hoá dữ liệu

danh thiếp bằng phương pháp OCR (Optical Character Recognition) sẽ giúp cho

việc quản lý và truy xuất thông tin trở nên nhanh chóng và dễ dàng hơn, góp

phần giảm thiểu chi phí và tối ưu nguồn lực

Danh thiếp là loại thẻ có nhiều định dạng khác nhau, đa dạng về bố cục,màu sắc, phông chữ - không cô định giống như chứng minh thu, do đó đây sẽ làthách thức lớn cho việc trích xuất thông tin một cách chính xác Hiện nay, tuy

đã có một số hệ thống, ứng dụng di động trích xuất thông tin từ danh thiếp đã

được triển khai và giải quyết bài toán này như ABBYY Business Card Reader,

CamCard, nhưng đây đều là những sản phẩm thương mại mang tính bảo mậtcao, chưa được công bố cu thể về phương pháp thực hiện Da số các ứng dụngphổ biến này được thiết kế để nhận diện trên thẻ danh thiếp nước ngoài và chưađạt hiệu quả tốt trên danh thiếp chứa ký tự tiếng Việt Ngoài ra các nghiên cứu

Trang 16

1 TONG QUAN

gan đây tập trung chủ yếu vào ứng dung di động [1, 2, 3] chưa đánh giá được suhiệu quả của các mô hình máy học tiên tiến hiện nay Kèm theo đó là sự thiếuhụt các bộ dữ liệu liên quan đến danh thiếp, đặc biệt là danh thiếp Việt Nam

Vì vậy trong dé tài này nhóm đã xây dựng bộ dữ liệu thẻ danh thiếp tiếng Việt,tìm hiểu và đánh giá các phương pháp khác nhau nhằm mục đích tìm ra phươngpháp phù hợp nhất và xây dựng hệ thống minh họa cho bài toán

Name: Nguyễn Tiến Dũng

dob: Sales Manager

Company: Công ty Cé phần Sao

Việt Ô tô

P.14 Q TẤn Dạ CONG Được 1“ | Mobile: +84907992616

(TP HCM

I8 SAO VIỆT Q ựp VẤN Email: tiendungva@gmail.com

Address: Số 113 Trương Công

Định, P.14, Q Tân Bình, TP HCM

Ảnh đâu vào Kết quả

Hình 1.1: Ví dụ minh họa cho hệ thống nhận diện thẻ danh thiếp

1.2 Mục tiêu và phạm vi nghiên cứu

1.21 Mục tiêu

Nhóm tập trung giải quyết bài toán nhận diện văn bản Tiếng việt có trong

hình ảnh Để hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thé sau:

* Tìm hiểu tổng quan bài toán rút trích thông tin từ danh thiếp, và khảo sát

các phương pháp phù hợp cho từng bài toán con bên trong Từ đó lựa chọn

được một số phương pháp hiệu quả hiện nay để áp dụng vào việc rút trích

các thông tin quan trọng.

« Thu thập, gan nhãn và xây dựng tập dữ liệu về danh thiếp với mục đích

Trang 17

1 TONG QUAN

phục vụ việc huan luyện các mô hình hoc sâu có liên quan cũng như đánh

giá sự hiệu quả trên bộ dữ liệu lần này

* Cài đặt và đánh giá một số phương pháp tiên tiến nhất hiện nay tương ứng

cho từng bài toán con trên bộ dữ liệu đã xây dựng.

¢ Xây dựng ứng dụng minh họa dựa trên phương pháp mang lại hiệu quả cao

nhất từ kết quả đã đánh giá

1.2.2 Pham vi

Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung vào dữ

liệu thẻ danh thiếp sử dụng chữ cái latinh được thu thập ở Việt Nam Ảnh đầu

vào chỉ chứa một thẻ và thông tin văn bản được thể hiện rõ ràng.

1.3 Dong góp của khoá luận

Qua thời gian thực hiện, đề tài khoá luận của nhóm có những đóng góp sau:

* Bộ dữ liệu về thẻ danh thiếp Việt Nam được gan nhãn cho ba bài toán con:

xác định thẻ, phát hiện văn bản và nhận diện văn bản Ngoài ra còn có thể

ứng dụng cho bài toán truy vấn ảnh

« Tài liệu báo cáo tổng hợp các kết quả đánh giá và phân tích của từng

phương pháp cho bài toán trích xuất thông tin từ danh thiếp

¢ Hệ thống minh họa rút trích thông tin từ thẻ tiếng Việt được xây dựng dựa

trên ba phương pháp đạt độ chính xác cao nhất trong thực nghiệm

1.4 Cấu trúc khóa luận

Chương 1: Tổng quan.

Trang 18

1 TONG QUAN

Chương 2: Các nghiên cứu liên quan.

Chương 3: Nghiên cứu và đánh giá một số phương pháp cho bài toán rúttrích thông tin từ danh thiếp

Chương 4: Thực nghiệm và đánh giá.

Chương 5: Xây dựng hệ thống minh hoạ

Chương 6: Kết luận và hướng phát triển

Trang 19

Chương 2

CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Mở đầu

Ở chương này nhóm sẽ làm rõ các khái niệm và thách thức liên quan đến bài

toán trích xuất thông tin thẻ danh thiếp, đồng thời tìm hiểu một số phương pháp

và hướng tiếp cận hiện nay Nhóm đã khảo sát một số phương pháp nghiên cứu

đã từng được áp dụng từ trước đến nay, từ đó có thể đưa ra nhận xét ưu và nhược

điểm của từng phương pháp.

2.2 Bài toán rút trích thông tin thẻ danh thiếp

Nhiều tổ chức và doanh nghiệp hiện nay cần có đầy đủ thông tin khách hàng

để phục vụ việc liên lạc, chạy tiếp thị - quảng cáo, hay làm thủ tục giấy tờ Điều

này đòi hỏi khách hàng phải cung cấp một số tài liệu mà doanh nghiệp yêu cầu

để họ có thể xác nhận danh tính cũng như thu thập được các thông tin có liên

quan Điển hình có thể thấy như việc trao đổi danh thiếp ở các ngân hàng, khu

du lịch, khách sạn, là tương đối nhiều Thông thường các thông tin từ khách

hàng dưới dạng thẻ danh thiếp trực tiếp hay ảnh chụp đòi hỏi các doanh nghiệpcần có bước kiểm tra, phân loại thông tin, bước trích xuất các thông tin quan

Trang 20

2 Các nghiên cứu liên quan.

7T

1

trọng như "họ và tên", "địa chỉ", "nghề nghiệp", và sau cùng bước nhập liệuvào các phần mềm quản lý

Trước sự phát triển của các phương pháp học sâu cùng với sự cải thiện của

công nghệ OCR, các giải pháp tự động hay bán tự động liên quan đến việc trích

xuất thông tin từ tài liệu đang được áp dụng rộng rãi và dần được ứng dụng vào

việc rút trích thông thông tin từ danh thiếp Xu hướng này cho thấy các ưu điểmvượt trội so với các thao tác thủ công truyền thống như:

‹ Trich xuất thông tin: Thông tin có thé dễ dàng thu được từ ảnh chụp thẻ

danh thiếp và lưu trữ vào một nguồn có thể sử dụng lâu dài Các thông tin

thu được chủ yếu ở dạng văn bản hoặc số Điều này giúp các các doanhnghiệp tổ chức dữ liệu theo các cách khác nhau, tạo điều kiện cho việc sắpxếp hay chọn lọc thông tin

* Tốc độ nhanh và hiệu quả: Việc số hoá thông tin diễn ra khá nhanh giúp

các doanh nghiệp, tổ chức tiết kiệm được thời gian và nguồn nhân lực.Hiện nay chỉ mat khoảng vài giây để chup/quét thẻ danh thiếp và truy xuấtcác thông tin liên quan Sự chuyển dịch dần qua số hoá thông tin thay vì

nhập liệu và xác minh thông tin một cách thủ công là nhờ các hướng tiếp

cận dựa trên học sâu đang phát triển gần đây

* Hạn chế phat sinh dữ liệu lỗi: Với sự tiến bộ trong công nghệ và sức

mạnh tính toán của máy tính ngày nay cho phép thu thập dữ liệu, xử lý dữ

liệu mà ít phát sinh lỗi Khả năng xảy ra lỗi có thể được giảm thiểu bằng

cách áp dụng các hệ thống tự động hoá này kết hợp với việc kiểm tra của

con người ở bước cuối cùng trên quy trình trích xuất thông tin.

+ Dễ dàng tích hợp vào các hệ thong khác nhau: Các giải pháp số hoá có

thể dễ dàng tích hợp vào bất cứ hệ thống nào Ví dụ một mô hình được

huấn luyện cho việc nhận diện thông tin có thể triển khai lên một trang

Trang 21

Web nơi mà người dùng sẽ tải lên được rất nhiều ảnh cùng một lúc Hay

triển khai trên một thiết bị di động, ở đây người dùng có thể chụp và lựa

chọn ảnh phù hợp Kết quả có thể trả về theo định dạng phù hợp và một số

tính năng riêng đi kèm.

Ngày nay, các phương pháp học sâu được ứng dụng để giải quyết rất nhiềubài toán ở các lĩnh vực khác nhau Nhưng vẫn tổn tại một số thách thức mà cácnhà nguyên cứu, các nhà phát triển phần mềm cần phải giải quyết như xây dựngcác mô hình phải có chất lượng tốt, kết quả từ các mô hình phải có độ chính xác

cao Dé đạt được điều đó, phải tiến hành giảm thiểu độ lỗi phát sinh từ mô hình

học sâu hay về mặt công nghệ, kỹ thuật Đối với bài toán "Rút trích thông tin từdanh thiếp" có thể kể đến các vấn đề như:

* Da dạng về mẫu, kiểu dáng và đa ngôn ngữ: Thông thường, các thẻ danh

thiếp sẽ khác nhau cả về font chữ và bố cục thiết kế (Hình 2.1) Các ký tự

từ các font chữ khác khau sẽ có những đặc trưng riêng về cấu tạo và cách

thức thể hiện, có thể kể đến như chữ có chân, chữ không chân, chữ nghệ

thuật, chữ thư pháp, Điều này gây khó khăn trong việc nhận diện các ký

tự, các từ một cách chính xác Thẻ danh thiếp sẽ mang đặc trưng của chủ

sở hữu, với mục đích truyền đạt được lĩnh vực, nghề nghiệp của cá nhân

hay tổ chức đó Vì vậy không thể nhận diện thẻ danh thiếp từ một bố cụcquy định sẵn Thi thoảng một số thẻ danh thiếp được trình bày dưới nhiều

ngôn ngữ khác nhau cùng một lúc Hay nói cách khác, việc sử dụng bộ dữ

liệu có phạm vi rộng, có sự đa dạng lớn để huấn luyện mô hình thì khả

năng cao mô hình thu được sẽ kém hiệu quả.

* Hướng va độ nghiêng của chữ: Dé có thể số hoá được tài liệu hay thẻ

danh thiếp thì chúng cần được quét hay chụp ảnh bằng các thiết bị như

máy quét và camera sao cho tài liệu song song với mặt phẳng của cảm

Trang 22

NGUY€N HUU THONG

DH of Corporate Customer Department

Corporate Customer Department

(84) 931168168 §

thong.nh@mobifone.vn 2

MobiFone Corporation MOBIFONE SERVICE COMPANY

BRANCH NO 2

wwuLmobifone.vn

MMIB Truong Son St, Ward I4, District IO

Ho Chi Minh City

NI GSA REN ala Aan | ==— 11

Hình 2.1: Sự đa dạng của các thẻ danh thiếp về mẫu, kiểu dáng và ngôn ngữ

biến (sensor) Nhưng việc chụp ảnh thủ công với camera hay một số thiết

bị khác có thể gây ra sự sai lệch về hướng hay bị xoay một góc khôngmong muốn (Hình 2.2) Các thiết bị di động hiện nay có các cảm biến

hướng giúp người dùng nhận biết và điều chỉnh để cho kết quả phù hợp

Đối với trường hợp tài liệu hay thé danh thiếp bị xoay một góc lớn có

thể làm giảm độ chính xác của mô hình phát hiện và nhận diện chữ Tuy

nhiên có một số phương pháp có thể khắc phụ được vấn đề này như RASTalgorithm [4], Hough transform [5]

ag Gena ty Cô phân Viên thông

“Nhân viên kinh doanh.

(a) Ảnh danh thiếp chụp sai hướng (b) Ảnh danh thiếp với thẻ bị xoay

Hình 2.2: Lỗi phát sinh trong quá trình số hoá thẻ danh thiếp

Trang 23

‹ Bo cục phức tạp: bố cục hình ảnh có thể được xác định bởi môi trường

xung quanh nơi mà thẻ danh thiếp được được chụp Bao gồm một số yếu tố

mà gây khó khăn cho hệ thống nhận diện như ánh sáng (không đồng đềuhay trên và dưới mức quy định), độ tương phản, góc chụp hình, bố cục nềnxung quanh, các vật thể che khuất thẻ danh thiếp, (Hình 2.3) Thông tinđược trích xuất từ thẻ danh thiếp có bố cục phức tạp khiến cho việc xử lý

gặp khó khăn Cách khắc phục tạm thời có thể kể đến như phải đảm bảo

hình ảnh được tiền xử lý trước khi huấn luyện hay thực hiện gán nhãn mộtcách chính xác Về điều kiện ánh sáng có thể áp dụng một số filter (bộ lọc)

mà giúp làm nổi bật được chữ trên ảnh, hay thực hiện phân ngưỡng trắng

đen giữa chữ và nền ảnh bằng phương pháp Otsu [6]

2.3 Một số hướng tiếp cận phổ biến

2.3.1 Xác định thẻ danh thiếp

Xác định vị trí thẻ danh thiếp từ ảnh đầu vào là bước xử lý tách thẻ danhthiếp khỏi hình nền nhiễu thông tin, giúp tăng hiệu quả quá trình nhận diện văn

bản sau đó và tăng tốc độ xử lý Phương pháp phát hiện cạnh Canny [7, 8, 3]

là phương pháp xử lý ảnh phổ biến được áp dụng cho bài toán phát hiện cạnhcủa thẻ danh thiếp Dựa vào thông tin cạnh phát hiện được có thể dùng để táchthẻ danh thiếp ra khỏi hình nền từ ảnh đầu vào giúp tăng hiệu quả cho giai đoạn

phát hiện và nhận diện chữ Với hình ảnh đầu vào, phương pháp phát hiện cạnh

Canny sẽ trích xuất đường viền lớn nhất [9, 10, 11] để thu về được một hình tứgiác tương ứng với thẻ danh thiếp (Hình 2.4) Sau khi xác định được vị trí thẻ

danh thiếp, vùng nền sẽ được loại bỏ bằng phương pháp Projective Transform

[12, 13] và đầu ra cuối cùng quá trình xử lý sé là ảnh chỉ chứa thẻ danh thiếp,

hình ảnh này được sử dụng làm đầu vào cho bước tiếp theo.

Trang 24

Hình 2.3: Bố cục phức tạp gây khó khăn cho hệ thống nhận diện và rút trích thông tin

Tuy nhiên, đối với những ảnh đầu vào có thẻ danh thiếp màu tương tự với

phông nền thì phương pháp Canny sẽ gặp khó khăn trong việc xác định đường

viền của thẻ Một trường hợp khác thẻ danh thiếp có khung hình chữ nhật nhỏtrong thẻ danh thiếp sẽ hoặc những đường viễn trong thiết kế gây nhầm lẫn đó

là đường viền của danh thiếp (Hình 2.5)

2.3.2 Nhận diện van bản

Bài toán nhận diện văn bản hay còn được gọi là nhận diện ký tự quang học

(OCR - Optical Character Recognition) Với đầu vào của bài toán là hình ảnh

10

Trang 25

Toshi ati Isai

Poster tienen Te: eee

(a) Màu thẻ trùng với phông nên (b) Cạnh trong thẻ gây nhiễu thông tin

Hình 2.5: Trường hợp phương pháp Canny không giải quyết được

chứa nội dung văn bản và đầu ra là đoạn văn bản được trích xuất từ hình ảnhtrên Bài toán này có hai hướng tiếp cận chính (Hình 2.6) là:

» Step-wise [14] (Tach biệt): Quá trình phát hiện và nhận diện văn ban được

chia thành từng bài toán con nhỏ gối nhau, đầu ra của mô-đun này sẽ là đầuvào của mô-đun ngay sau đó Các bài toán con bao gồm: localization, ver-

ification, segmentation va recognition Mô-đun localization sé tim những

vùng có xác suất chứa văn bản trong ảnh, sau đó mô-đun verification séphân loại liệu rằng có phải là văn bản hay không từ đó xác định được cácvùng chứa văn bản Đầu vào của mô-đun segmentation và recognition sé

là đầu ra của mô-đun trước đó, từ đó xác định những pixel thuộc văn bản

để nhận diện và cho ra kết quả văn bản tương ứng ảnh đầu vào ban đầu

« Integrated [14] (Tích hợp): Ở hướng tiếp cận này sé không tách biệt quá

11

Trang 26

trình xử lý, thay vào đó các mô-đun sẽ được tích hợp thành một mô hình thực hiện duy nhất thay vì chia thành hai bài toán độc lập [15, 16].

Step-wise

Text detection Text recognition

Imagery — Localization — Verification Segmentation — Recognition |} —— Strings

Integrated

Text detection & recognition

Imagery

or ROIs Localization Segmentation Recognition E——— Strings

Hình 2.6: Hướng tiếp cận cho bài toán phát hiện và nhận diện văn ban

Với hướng tiếp cận Step-wise, có thể điều chỉnh và tối ưu kết quả ở từngmô-đun riêng biệt - điều mà ở hướng tiếp cận Integrated không làm được Vìvậy nhóm quyết định lựa chọn hướng tiếp cận Step-wise để chia nhỏ ra từng bàitoán con, sau đó huấn luyện và đánh giá từng mô-đun để mang lại hiệu quả cao

hơn.

2.3.2.1 Bài toán phát hiện văn ban

* Hướng tiếp cận đặc trưng hand-crafted: Ở hướng tiếp cận này chủ yếu

tập trung vào các đặc trưng cơ bản trong ảnh kỹ thuật số Một số phương

pháp nổi bật như: Maximally Stable Regions (MSER) [17] sử dụng các

pixel tương đồng màu sắc liên kết nhau và màu sắc phải tương phản với

hình nền để rút trích đặc trưng đối tượng (Hình 2.7), Stroke Width

Trans-form (SWT) [18] dựa trên phép biến đổi về bề rộng chữ (Hình 2.8) để xácđịnh vị trí văn bản trong ảnh Các phương pháp này có lợi thế về tốc độ

tính toán ra các đặc trưng trong ảnh một cách nhanh chóng và chi phí bộ

nhớ ít, tuy nhiên độ chính xác không cao vì dễ nhầm lẫn với những thông

tin nhiễu.

12

Trang 27

* Hướng tiếp cận đặc trưng học sâu: Với hướng tiếp cận học sâu, các

phương pháp phát hiện văn bản đa dạng hơn về cách tiếp cận như: Phát

hiện từng ký tự một (character-level), phát hiện từng từ một (word-level), phát hiện từng dòng một (line-level) (Hình 2.9) Các nghiên cứu ứng dụng

đặc trưng học sâu gần đây đã mang hiệu quả hơn rất nhiều so với hướngtiếp cận trên, bởi vì chúng có khả năng học từ dữ liệu nên không bị ảnhhưởng quá nhiều bởi các yếu tố khách quan khác Một số phương pháp nổi

bật là Connectionist Text Proposal Network (CTPN) [19], Efficient and Accurate Scene Text Detector (EAST) [20] Ngoài ra các phương pháp

phát hiện đối tượng khác như SSD [21], Faster R-CNN [22] cũng có thể

thực hiện được nhiệm vụ này Những phương pháp trên đạt độ chính xác

cao hơn các phương pháp thuộc hướng tiếp cận đặc trưng hand-crafted,nhưng ngược lại sẽ tốn nhiều bộ nhớ lưu trữ và vẫn chưa đạt được độ chính

xác cao trong việc xác định các dâu thanh trong ngôn ngữ tiêng viét.

13

Trang 28

as

5

(a) (b)

Hình 2.8: Cách xác định bề rộng chữ trong phương pháp SWT

2.3.2.2 Bài toán nhận diện văn ban

- Hướng tiếp cận đặc trưng hand-crafted: Dựa trên sự phân bố về cường

độ màu sắc và hướng của cạnh, phương pháp Histogram of Oriented

Gra-dients (HOG) [23, 24] có thể rút ra đặc trưng của vật thể Phương pháp

HOG [24] có tốc độ xử lý nhanh nhưng dễ bị nhiễu bởi những kiểu chữđặc biệt hoặc góc chụp đa dạng làm cho ảnh đầu vào có chất lượng thấp

dẫn đến kết quả nhận diện đạt độ chính xác không cao.

* Hướng tiếp cận đặc trưng học sâu: Các phương pháp nhận diện văn

bản gần đây chủ yếu được xây dựng trên mạng hồi quy (Recurrent Neural

Network- RNN) [25] RNN là một mô hình mang Deep Learning dùng

trong xử lý thông tin dạng chuỗi Mạng RNN có đầu ra phụ thuộc vào các

14

Trang 29

'amazoncouk:amaZ0ncouk

N.CO.UK NOW Celiver

Character detection Word Detection

Hình 2.9: Một số cách tiếp cận chính của bài toán phát hiện văn ban

phép tính trước đó Do đó, mạng RNN có thể nhớ các thông tin được tính

toán trước đó Với bài toán nhận diện văn bản, đa số các phương pháp kết

hợp mô hình mạng tích chập (Convolutional Neural Network - CNN) để

trích xuất đặc trưng trong ảnh và mô hình mạng hồi quy để phát sinh vănbản từ những đặc trưng đó [26, 27], ngoài ra còn có một số phương pháp

sử dụng kỹ thuật Attention [28] tim sự tương quan giữa các từ trong câu dé

tăng độ chính xác cho quá trình nhận diện văn bản [29, 14, 30] Bài toán

nhận diện văn bản ngày càng phổ biến kèm theo đó là sự phát triển một số

thư viện hỗ trợ, trong đó TesseractOCR [3i] là thư viện nổi bật đã được

Google tài trợ và được xem là một trong những công cụ OCR mã nguồn

mở chính xác nhất Tuy nhiên đối với những loại văn bản đặc thù có kiểu

chữ đặc biệt trong thẻ danh thiếp tiếng việt thì hầu hết các phương pháp

trên chưa mang lại độ chính xác cao.

2.4 Kết chương

Qua chương này, nhóm đã khảo sát và tìm hiểu các phương pháp phổ biếncho từng bài toán con cụ thể, qua đó nhận thấy được những vấn đề tồn đọng khi

áp dụng cho bài toán thẻ danh thiếp Từ đó chọn ra được các phương pháp tương

ứng với các bài toán con để thực hiện đánh giá và phân tích trên dif liệu thẻ danh

thiếp tiếng Việt Đối với giai đoạn phát hiện văn bản, nhóm sẽ thực hiện một

15

Trang 30

số phương pháp tiên tiến hiện nay như: TextFuseNet [32], PMTD [33], CRAFT

[34], DB [35], PAN [36], PSENet [37] và trong giai đoạn nhận diện chữ, thư

viện VietOCR [38] là thư viện thích hợp nhất cho nhận diện văn bản tiếng việt,thư viện bao gồm cả hai kiến trúc TransformerOCR và AttentionOCR có thể sử

dụng để giải quyết các bài toán liên quan đến OCR Sau đó nhóm thực hiện việc

đánh giá và phân tích các phương pháp trên cho bộ dữ liệu danh thiếp tiếng Việt

và chọn ra phương pháp phù hợp nhất tương ứng từng giai đoạn để xây dựng ứng

dụng minh họa.

16

Trang 31

Chương 3

NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT

SỐ PHƯƠNG PHÁP CHO BÀI TOÁN

RÚT TRÍCH THÔNG TIN TỪ DANH

THIẾP

3.1 Xác định vi trí danh thiếp

3.1.1 Xác định vi trí thé danh thiếp bằng phương pháp xử lý hình

ảnh

Với hướng tiếp cận xác định vị trí thẻ danh thiếp bằng phương pháp xử lý hình

ảnh, nhóm đã thực hiện khảo sát và quyết định tìm hiểu, đánh giá Advanced

Hough-based method (phương pháp dựa trên thuật toán Hough cải tiến) đượccông bồ bởi nhóm tác giả Tropin và các cộng sự [5]

Trong phương pháp này, tác giả đi giải quyết bài toán có phát biểu như sau:

Cho tài liệu là một hình chữ nhật phẳng với tỉ lệ ? giữa các cạnh đã biết nhưng

không biết trước nội dung của tài liệu, hình ảnh được chụp từ camera có thể xác

định được tiêu cự ƒ và vị trí trung tâm của hình Kết quả thu được là hình ảnh chỉ

17

Trang 32

3 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin

từ danh thiệp.

chứa duy nhất một tài liệu với tỉ lệ cạnh kể trên Advanced Hough-based method

sẽ bao gồm các bước theo trình tự phát hiện cạnh, phát hiện đường thẳng, hệ

thống xếp hạng 2 bước mà nhóm trình bày ở các mục tương ứng sau đây

3.1.1.1 Phát hiện cạnh

Để giảm nhiễu trong quá trình xử lý, hình ảnh sẽ được nén đẳng hướng saocho cạnh ngắn nhất có kích thước 240px Nhằm phân chia được các cạnh có xuhướng theo chiều ngang với các cạnh có xu hướng theo chiều dọc, ảnh sẽ được

xử lý thành hai quá trình riêng biệt Trình tự tìm các cạnh có xu hướng theo

chiều ngang được mô tả như sau:

« Đầu tiên ảnh sẽ được áp dụng kỹ thuật Morphology theo từng kênh mau

Cu thể phép toán Opening với kích thước biên 1 pixel được áp dụng, đi

kèm sau đó là phép toán Closing với kích thước tương tự Như vậy các giá

trị cực tiểu và cực đại địa phương trong phạm vi 2 pixel sẽ được lọc.

¢ Sau đó, hình ảnh được tính đạo ham theo trục Y (áp dụng bộ lọc với kernel

(1; -1)) Kết quả thu được từ 3 kênh màu RGB sẽ được tính trung bình theo

từng vị trí pixel nhằm thu được một kênh duy nhất

» Kế tiếp, thuật toán Non-maximum suppression được thực hiện trên mỗi

một cột (cau trúc các phan tử có độ rộng là 1 pixel) cho các vị tri pixel cógiá trị tuyệt đối của đạo hàm lớn hơn 1

» Từ kết quả trên, các miễn liên thông theo chiều ngang sẽ được thu thập: với

mỗi pixel, ba vị tri pixel liền kề bên trái và ba vị tri pixel liền kể bên phải

sẽ được xem xét là lân cận Những thành phần liên thông này sẽ được lọc

theo kích thước để bỏ đi những thành phần liên thông nhỏ mà có thể gâynhiễu: tất cả các thành phần liên thông có kích thước nhỏ hơn 10% giữa (i)

18

Trang 33

từ danh thiệp.

kích thước của miễn liên thông lớn nhất và (ii) một nửa chiều ngang của

hình sẽ bị bỏ đi.

* Cuối cùng, các cạnh được làm mờ bằng hàm Gaussian theo phương doc

(hay nói cách khác, hàm Gaussian áp dụng trên mỗi cột).

eee aad,

(a) Ảnh thí nghiệm từ tập dit liệu MIDV-500 (b) Bản đồ phác hoạ các cạnh có xu hướng

[29] theo chiều ngang (màu xanh lục) và các cạnh

có xu hướng theo chiều dọc (màu đỏ) dựa trên

thí nghiệm tự hiện thực

Hình 3.1: Kết quả thu được từ bước phát hiện cạnh

Quá trình tìm các cạnh có xu hướng theo chiều dọc sẽ được thực hiện theocách tương tự quá trình tìm các cạnh có xu hướng theo chiều ngang Kết quả đạt

được từ bước phát hiện cạnh được minh hoa trong hình 3.1.

19

Trang 34

từ danh thiệp.

3.1.1.2 Phát hiện đường thẳng

Ở bước này, dựa trên kết thu được gồm hai bản đồ cạnh trước đó, sẽ cho ra kết

quả là hai tập hợp đường thẳng: có xu hướng theo chiều ngang và có xu hướng

theo chiều dọc

Hình 3.2: Các cực đại địa phương được lựa chọn từ hình ảnh nghịch đảo FHT của phần

giữa hình ảnh Đường thẳng thể hiện cạnh thực tế của tài liệu được tô màu đỏ tía [5]

Giả sử hình ảnh có kích thước chiều cao lớn hơn kích thước chiều ngang

Để tìm kiếm được các đường thẳng có xu hướng theo chiều doc một cách chính

xác, hình ảnh cần được chia làm ba phần bằng nhau Thuật toán Fast Hough

Transform (FHT) [40] sẽ được áp dụng trên cả ba phần nhằm xác định được giá

trị cực đại toàn cục trên ba phần đó Tiếp theo, 15 cực đại địa phương sẽ được

lựa chọn lần lượt trên mỗi phan theo qua tắc sau (i) giá trị cực đại địa phương

phải đạt ngưỡng thấp nhất là 20% giá trị cực đại toàn cục và (ii) cực đại địa

phương đó phải nằm cách xa hơn 10 pixel khoảng cách Euclide so với cực đại

địa phương đã được chọn trước đó (hình 3.2) Sau cùng, áp dụng nghịch đảo

FHT lên tập các cực đại để chuyển chúng sang đường thẳng

20

Trang 35

từ danh thiệp.

Hình 3.3: Kết quả tự thí nghiệm từ bước phát hiện đường thẳng Bao gồm 45 đường

thẳng có xu hướng theo chiều dọc (màu đỏ) và 15 đường thẳng có xu hướng theo chiều

ngang (màu xanh lục)

Như vậy có tổng 45 đường thang có xu hướng theo chiều doc Các đường

thang có xu hướng theo chiều ngang được thực hiện tương tự nhưng áp dụng

FHT lên toàn bộ hình và chi chọn ra 15 điểm cực đại tương ứng 15 đường thang

(hình 3.3).

3.1.1.3 Hệ thong xếp hạng hai bước

Hình thành và chọn lọc các hình tứ giác:

Các hình tứ giác thể hiện hình dạng của tài liệu được hình thành bằng cách

bắt cặp 2 đường thẳng từ tập các đường thẳng có xu hướng theo chiều ngang và

2 đường thẳng từ tập các đường thẳng có xu hướng theo chiều dọc

Nhằm xử lý trường hợp tài liệu có một cạnh nằm ngoài khung hình, mộtcạnh bị che khuất một phần hay bị che khuất hoàn khiến cho bước xử lý trước

21

Trang 36

từ danh thiệp.

đó không tim được day đủ các đường thẳng Tác giả kế thừa nghiên cứu trước

đó [41] để có thể khôi phục được cạnh bị mất từ ba cạnh còn lại thông qua môhình camera Mô hình này đòi hỏi cần biết trước tỉ lệ ¢ của tài liệu, tiêu cự ƒ

của camera và toa độ điểm trung tâm của hình Như vậy ngoài việc hình thành

tứ giác bằng 4 đường thẳng, có thể hình thành tứ giác từ 3 đường thang đã tinhtoán kèm 1 đường thang được khôi phục

Sau khi hình thành được các tứ giác mà thể hiện hình dạng của tài liệu, các

tứ giác này được loc theo điểm số đồng mức (contour score) nhằm chọn ra K tứ

giác tiềm năng Theo nghiên cứu trước đó của tác giả [42], độ đo này dựa trêntính liên tục đạo hàm của đường đồng mức dọc theo cạnh b của tứ giác g, gồm

các thành phần: cường độ của các cạnh nằm bên trong tứ giác w, cường độ của

các cạnh nằm bên ngoài tứ giác w”, tỉ lệ các pixel có giá trị khác 0 c trên bản đồ

cạnh dọc theo b Công thức độ đo được tính như sau:

C TỔ }„) w(b)

T1=Eui(1=e0)) BY GD)

Trong đó w’ (b) là tong cường độ cạnh của các đoạn ma (i) nằm bên trên cùng

đường thắng với b, (ii) không giao với nhau, (iii) có 1 điểm chung với b và (iv)

Ở bước này 2K tứ giác được sắp xếp dựa theo sự kết hợp tuyến tính của điểm

số đồng mức (contour score) và điểm số tương phản (contrast score) Trong đó,

điểm số tương phan dựa trên khoảng cách x7 (Chi-square) giữa histogram 3

kênh màu RGB của vùng bên trong và vùng bên ngoài tứ giác Tứ giác có điểm

số kết hợp cao nhất sẽ là kết quả của phương pháp này

22

Trang 37

từ danh thiệp.

3.1.2 Xác định vị trí thé danh thiếp bằng phương pháp học sâu

Theo khảo sát của nhóm tác giả Tropin [5], các phương pháp học sâu hiện

nay được ứng dụng để giải quyết bài toán xác định vị trí thẻ danh thiếp có thể

chia làm hai nhóm dựa theo ý tưởng: phát hiện vùng nổi bật và phát hiện các góc

của thẻ danh thiếp Với nhóm các phương pháp phát hiện vùng nổi bật đặc trưng

là các phương pháp phân đoạn, thực hiện phân tách vùng hình ảnh thẻ danh thiếpvới vùng ảnh nền Ngược lại, nhóm các phương pháp phát hiện góc phần đông

là các phương pháp phát hiện đối tượng bằng mang CNN kết hợp với vùng Rol

(Region of Interest - vùng quan tâm) Tuy nhiên, các phương pháp phát hiện góc

suy cho cùng là để bổ trợ cho việc tìm kiếm các cạnh của thẻ, tương tự phương

pháp phát hiện cạnh Advanced Hough-base mà nhóm đã trình bày trước đó Do

đó, trong các phương pháp học sâu thực hiện giải quyết bài toán xác định vị tríthẻ danh thiếp này, nhóm thực hiện tìm hiểu phương pháp phát hiện vùng nổi

bật dựa trên phân đoạn.

Các phương pháp phân đoạn được đề xuất gần đây để giải quyết bài toán phânđoạn đối tượng thường dựa trên cải tiến mạng nơ-ron U-Net như [43, 44, 45].Nhưng các phương pháp này không cung cấp mã nguồn hỗ trợ cho việc đánh

giá trong dé tài của nhóm Vì vậy, nhóm thực hiện tìm hiểu và đánh giá phương

pháp U-Net đầu tiên [46] khi áp dụng vô bài toán xác định vị trí thẻ danh thiếp

Phương pháp U-Net được dé xuất bởi nhóm tác giả Ronneberger cùng các

cộng sự [46] có kiến trúc được xây dựng dựa trên phương pháp FCN [47] trước

đó Tác giả tiến hành điều chỉnh và mở rộng kiến trúc FCN để có thể hoạt động

với ít hình ảnh huấn luyện hơn và trả về các phân đoạn chính xác hơn Ý tưởng

chính của FCN vẫn được duy trì là bổ sung vào mạng co (contracting network)

các lớp kế tiếp, trong đó các phép toán gdp (pooling) được thay bằng phép toán

tăng mẫu (upsampling) Vì vậy những lớp này sẽ tăng kích thước của kết quả

đầu ra Để có thể xác định được vị trí, các đặc trưng từ nhánh co được kết hợp

23

Trang 38

sử dụng các lớp kết nối đầy đủ (fully connected layer) mà chỉ dùng các lớp tích

x

oo i đi

Hình 3.4: Kiến trúc tổng quan của U-Net [46]

Kiến trúc mạng của U-Net được minh hoạ trong 3.4 U-Net bao gồm mộtnhánh co (bên trái) và một nhánh mở rộng (bên phải) Nhánh co có kiến trúctương tự như các mạng tích chập phổ biến Trong đó bao gồm các lớp tích chập

3x3 được sử dụng lặp di lặp lại (các lớp tích chập không thêm padding) Theo

sau mỗi lớp tích chập là một hàm phi tuyến ReLU cùng với toán tử gộp cực đại

24

Trang 39

từ danh thiệp.

(max pooling) có sải bước là 2 nhằm giảm kích thước mẫu Ở mỗi bước giảm

mẫu, số lượng kênh đặc trưng sẽ được gấp đôi Ngược lại, ở mỗi bước trongnhánh mé rộng sẽ chứa bản đồ đặc trưng đã được tăng mẫu, theo sau bởi một lớptích chập 2x2 (up-convolution) có vai trò làm giảm một nửa số kênh đặc trưng.Kết quả của phép tăng mẫu được nối với bản đồ đặc trưng tương ứng từ nhánh

co (bản đồ đặc trưng này đã được cắt cho đúng kích thước) và cùng đi qua mộtlớp tích chập 3x3 theo sau bởi ReLU Việc cắt đặc trưng từ nhánh co là cần thiết

vì các điểm ảnh ở viền bị mất mát mỗi lần đi qua lớp tích chập Ở lớp cuối cùng,

tích chập 1x1 được sử dung để ánh xạ 64 kênh đặc trưng thành số lượng lớpmong muốn Như vậy, tổng cộng kiến trúc U-Net có 23 lớp tích chập

3.2 Phát hiện văn ban

Việc đọc văn bản trong các hình ảnh tự nhiên, hình ảnh cảnh đang trở thành

chủ dé hấp dẫn dạo gần đây bởi vì khả năng ứng dung rộng rãi, như là điềuhướng robot, tạo tiêu đề ảnh tự động, truy xuất hình ảnh, Trong đó phát hiện

văn bản là điều kiện kiện tiên quyết của các hệ thống đọc văn bản như vậy Bài

toán phát hiện văn bản này đã thu hút rất nhiều sự chú ý của cộng đồng thị giác

máy tính trong những năm trở lại đây Tuy nhiên, những thách thức sự đa dạng

về ánh sáng, biến dạng về góc nhìn và sự phức tạp của bố cục xung quanh dẫn

tới khó khăn trong việc phát hiện chữ Hơn nữa các đặc trưng văn bản cũng làm

tăng thử thách cho việc phát hiện chữ, những van dé này đã được nhóm trình bàychi tiết ở mục 2.2

Để giải quyết các thử thách trên, rất nhiều phương pháp được đề xuất từ theocác hướng tiếp cận khác nhau Theo như khảo sát từ nhóm tác giả Dai cùng các

cộng sự [48], nhìn chung các phương pháp thịnh hành hiện nay có thể chia làm

hai nhóm Nhóm thứ nhất là các phương pháp theo hướng tiếp cận từ trên xuống,

các phương pháp này thực hiện phân đoạn nhị phân hoặc thực hiện hồi quy các

25

Trang 40

từ danh thiệp.

đường viễn văn bản từ vùng đối tượng được dé xuất Nhóm còn lại là các phươngpháp theo hướng tiếp cận từ dưới lên Với ý tưởng dự đoán các đơn vị nhỏ, đơn

vị địa phương (như là điểm ảnh, các miễn liên thông, ) và một số thông tin

bổ trợ, sau đó nhóm các đơn vị kể trên thành một đối tượng văn bản Theo từnghướng tiếp cận, nhóm thực hiện khảo sát, đánh giá một số phương pháp kể tên

trong bảng 3.1 và được trình bày trong các mục dưới đây.

Hướng tiêp cận Phương pháp

Từ trên xuống TextFuseNet [32]

Bang 3.1: Các phương pháp phát hiện van bản được khảo sat và đánh gia

3.2.1 Nhóm các phương pháp theo hướng tiếp cận từ trên xuống

Các phương pháp phát hiện văn bản theo hướng tiếp cận từ trên xuống thựchiện phân đoạn nhị phân hoặc hồi quy các đường viền dựa trên vùng đối tượngđược đề xuất Trong đó, các phương pháp dựa trên phân đoạn nổi trội hơn cả.Được truyền cảm hứng từ MaskRCNN [49], các phương pháp này thực hiện phânđoạn ngữ nghĩa cấp độ điểm ảnh cho tất cả điểm ảnh có trong vùng đề xuất Hơn

nữa các phương pháp này chỉ tập trung vào việc làm giàu các biểu diễn đặc trưng hoặc hướng tới kết quả phân đoạn tốt hơn Nhóm thực sẽ hiện đánh giá hai đại

diện của hướng tiếp cận này bao gồm TextFuseNet [32] và PMTD [33]

3.2.1.1 Phương pháp TextFuseNet

TextFuseNet [32] được truyền cảm hứng từ phương pháp Mask R-CNN [49]

nhưng ứng dụng qua bài toán phát hiện văn bản Phương pháp này mô hình hoá

26

Tiêu đề	Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin từ danh thiếp
Tác giả	Tô Viết Anh, Phạm Duy Giác Nguyên
Người hướng dẫn	TS. Mai Tiến Dũng, ThS. Đỗ Văn Tiến
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	103
Dung lượng	61,74 MB