Chương 2CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Mở đầu Ở chương này nhóm sẽ làm rõ các khái niệm và thách thức liên quan đến bài toán trích xuất thông tin thẻ danh thiếp, đồng thời tìm hiểu một số
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TÔ VIẾT ANH - 1850471
PHẠM DUY GIÁC NGUYÊN - 18521162
KHOÁ LUẬN TỐT NGHIỆP
NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ PHƯƠNG
PHÁP CHO BÀI TOÁN RÚT TRÍCH THÔNG TIN
TỪ DANH THIẾP
EVALUATING SEVERAL METHODS FOR BUSINESS CARD
EXTRACTION PROBLEM
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUGNG DAN
TS MALTIEN DUNG ThS ĐỒ VAN TIEN
TP HO CHÍ MINH, 2022
Trang 2DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số
ngay Công nghệ Thông tin.
của Hiệu trưởng Trường Dai học
1 6E ⁄⁄22277 - Chủ tịch.
2 4 - Thư ký.
Ậ SẾP GP ty, - Uỷ viên.
4 #P, BH Ƒ me - Uỷ viên.
Trang 3LỜI CẢM ƠN
Đầu tiên, nhóm xin chân thành cảm ơn TS Mai Tiến Dũng và ThS
Đỗ Văn Tiến, hai thầy đã dẫn dắt nhóm tận tình với những góp ý cực
kỳ thiết yếu để nhóm hoàn thành khoá luận một cách tốt nhất.
Nhóm xin cảm ơn Ban chủ nhiệm Khoa, Ban giám hiệu Nhà trường
tạo điều kiện cho nhóm thực hiện trong tình dịch bệnh Covid-19 kéodài, cũng như hỗ trợ các thiết bị cần thiết để nhóm tổ chức được các
thí nghiệm đánh giá Ngoài ra những lời nhận xét từ thành viên câu
lạc bộ AI đã chỉ ra những điểm còn thiếu xót trong bài thuyết trình
mà nhóm cần khắc phục Dành lời cảm ơn sâu sắc tới bạn Phan Thị
Kim Khoa, sinh viên khoá 13 ngành Khoa học máy tính, đã hỗ trợ
nhóm trong quá trình thu thập dữ liệu.
Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới những thầy cô đãgiảng dạy chúng em trong suốt thời gian học tập tại trường Đại học
Công nghệ Thông tin.
Cuối cùng, nhóm xin cảm ơn gia đình luôn động viên và là chỗ dựa
vững chắc cho chúng em xuyên suốt quá trình thực hiện khóa luận
TP Hồ Chí Minh, tháng 1 năm 2022
Trang 4Mục lục
Mục lục
Danh sách hình vẽ
Danh sách bảng
Danh mục từ viết tắt
1 TONG QUAN
11
1.2
1.3
1.4
Giới thi Na vất
Mục tiêu và phạm vi nghiêncứu
1.2.1 Mụctiu Ặ Q Q Q Q ee 122 Phamvi 2.2 2.0000 ee ee eee Dong góp của khoáluận
Cấu trúc khóaluận
-2 CÁC NGHIÊN CỨU LIEN QUAN 21 2.2 2.3 M6 dau ee eee Bài toán rút trích thông tin thé danh thiếp
Một số hướng tiếp cận phổ biến
23.1 Xácđịnhthểdanhthếp
23.2 Nhận diệnvănbản
iii
li
vii
xi
Trang 5MỤC LỤC
2.3.2.1 Bài toán phát hiện vănbản 12
2.3.2.2 Bài toán nhận diện vănbản 14
24 Kếtchương Qua 15 3 NGHIÊN CỨU VÀ DANH GIÁ MỘT SỐ PHƯƠNG PHAP CHO BÀI TOÁN RUT TRÍCH THONG TIN TU DANH THIẾP 17 3.1 Xác định vị trí danh thiếp 17
3.1.1 Xác định vị tri thẻ danh thiếp bằng phương pháp xử lý hìnhảnh 17
3.1.1.1 Pháthêệncạnh 18
3.1.1.2 Pháthiện đường thẳng 20
3.1.1.3 Hệ thống xếp hạng hai bước 21
3.1.2 Xác định vị trí thẻ danh thiếp bằng phương pháp học sâu 23 3.2 Pháthiện vănbản 25
3.2.1 Nhóm các phương pháp theo hướng tiếp cận từ trên xuống 26 3.2.1.1 Phương pháp TextFuseNet 26
3.2.1.2 PhươngphápPMTD 28
3.2.2 Nhóm các phương pháp theo hướng tiếp cận từ dưới lên 31 3.2.2.1 PhươngphápCRAFT 31
3.2.2.2 PhuongphdpDB 34
3.2.2.3 PhươngphápPAN 37
3.2.2.4 PhươngphápPSENet 41
3.3 Nhandiénvinban cu 45 3.3.1 VietOCR 0.0.2 eee eee 45 3.3.1.1 Kiến trúc AtenionOCR 45
3.3.1.2 Kién trúc TransformerOCR 46
3.3.2 TesseractOCR 2 2 02 ee eee 47
iv
Trang 6MỤC LỤC
4_ THỰC NGHIỆM VÀ DANH GIÁ 51
41 MỞđầu 2 eee 51
4.2 Xây dựng bộ dữ liệu 51
4.2.1 Quátrình thu thập dữliệu - 51
4.2.2 Cách thức thựchiện 52
4.2.3 Quátrìnhgánnhãn 52
4.3 Méts6dddodanhgid 2.2.0 0 eee 53 4.3.1 Độ đo đánh giá cho giai đoạn xác định vi trí thé danh thiếp 54 43.1.1 loÓ Qua 54 4.3.1.2 MeanloU 55
4.3.2 Độ do đánh giá cho giai đoạn phát hiện van ban 56
4.3.2.1 Recall va Precision theo giao thức TedEval 56
43.2077 HmEarmt $@ j / 61
4.3.3 Độ do đánh giá cho giai đoạn nhận diện vin ban 61
4.3.3.1 Accuracy 0.0.00 0000.4 61 4.3.3.2 Levenshtein 62
44 Kétquavadắnh gid 2 ee eee 62 4.4.1 Kétquathucnghiém 62
4.4.1.1 Giai đoạn xác định vị trí thẻ danh thiép 63
4.4.1.2 Giai đoạn phát hiện văn bản 64
4.4.1.3 Giai đoạn nhận diện vănbản 66
442 Đánhgi Q Q Q Q Q Q Q Q 68
45 Kétchuong 2.0.0.0 Q Q Q Q Q na 73
5 XÂY DUNG HỆ THONG MINH HOA 75
51 Mổđầu ee 75
52 Sơđồhệthống 20 0.0.0.0 ee 75
5.3 Giao diện sửdụng Ặ eee ee 76
Trang 8Ví dụ minh họa cho hệ thống nhận diện thé danh thiép 2
Su da dang của các thẻ danh thiếp về mẫu, kiểu dáng và ngôn ngữ § Lỗi phát sinh trong quá trình số hoá thẻ danh thiép §
Bồ cục phức tap gây khó khăn cho hệ thống nhận diện va rút
trích thôngtin - 10
Kết quả sau khi sử dụng phương pháp phát hiện cạnh Canny 11 Trường hợp phương pháp Canny không giải quyết được 11 Hướng tiếp cận cho bài toán phát hiện và nhận diện văn bản 12 Chuỗi ảnh tương ứng với đặc trưng mà MSER rut trích theo sự
thay đổi ngưỡng c 13 Cách xác định bề rộng chữ trong phương pháp SWT 14 Mot số cách tiếp cận chính của bài toán phát hiện văn ban l5
Kết quả thu được từ bước phát hiện cạnh 19
Các cực đại địa phương được lựa chọn từ hình ảnh nghịch đảo
FHT của phần giữa hìnhảnh 20
Kết quả tự thí nghiệm từ bước phát hiện đường thẳng 21
Kiến trúc tổng quan của U-Net - 24 Kiến trúc quy trình xử lý tổng quan của phương pháp TextFuseNet 27 Hình ảnh minh hoạ các nhãn theo chuẩn ICDAR2015 29
vii
Trang 9DANH SÁCH HÌNH VẼ
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
3.23
3.24
3.25
3.26
3.27
4.1
4.2
Ưu điểm của phương pháp PMTD so với các phương pháp còn
lại dựa trên MaskR-CNN 29
Kiến trúc tổng quan của PMTD 30
Sơ đồ minh hoạ kiến tric CRAFT 32
Minh hoa quá trình tạo nhãn gốc của phương pháp CRAFT 33
Minh hoạ tổng quan quá trình huấn luyện của phương pháp CRAFT Q2 34 Quy trình xử lý truyền thống sovớiDB 35
Kiến trúc tổng quát của phương phdpDB 36
Biểu đồ minh hoạ hàm nhị phân hoá khả vi với hàm nhị phân hoá tiêu chuẩn ⁄⁄⁄ 6 éX À 38
Quy trình xử lý tổng quan của PAN 38
Kiến trúc tổng quan củaPAN - 39
Cấu tạo chi tiếtcủaFPEM 40
Cấu tạo chi tiếtcủaFFM Al Kết quả của các phương pháp phát hiện chữ khác nhau 42
Quy trình xử lý tổng quan của PSENet 43
Minh hoa thuật toán mở rộng luy tién 44
Minh họa mô hình AttentionOC trong thư viện VietOCR 46
Duỗi thang feature maps để phù hợp với đầu vào mô hìnhLSTM_ 47 MôhìnhLSTM 47
Minh họa mô hình TransfomerOCR trong thư viện VietOCR 48
Mô hình Transformer 49
Quá trình nhận diện văn bản của TeseeractOCR 50
Tám thư mục ảnh thẻ danh thiếp sau khichụp 53
Một số phông nền được chụp cùng với thé danh thiép 54
Viil
Trang 10Giao diện web banđầu 77
Giao diện trả kết quả thông tin được rút trích từ danh thiép 78
1X
Trang 11Các phương pháp phat hiện van bản được khảo sat và đánh giá 26
Minh hoa bang so khớp dưới dạng kýhiệu 58 Kết qua đánh giá của phương pháp Advanced Hough-based method
và U-Net trên bộ dữ liệu VBC-583 64
Kết quả các phương pháp được huấn luyện với bộ dữ liệu
IC-DAR2015 và đánh giá trên bộ dữ liệu VBC-583 65
Kết quả các phương pháp được huấn luyện và đánh giá với bộ
dữ liệu VBC-583_ Ặ.Ặ QC 65
Kết quả về tốc độ thực thi và tài nguyên sử dụng của các phương
pháp với bộ dữ liệu VBC-583 66
Kết quả các phương pháp được huấn luyện với pretrained model
của tác gia và đánh giá với bộ dữ liệu VBC-583_ 67
Kết quả các phương pháp được huấn luyện và đánh giá với bộ
dữ liệu VBC-583_ QC 67
Kết quả về tốc độ thực thi và tài nguyên sử dụng của các phương
pháp với bộ dữ liệu VBC-583 68
Trang 12Danh mục từ viết tắt
Từ viết tắt | Nội dung
OCR Optical Character Recognition FHT Fast Hough Transform
Rol Region of interest
FP False positive FPN Feature pyramid network
RPN Region proposal network
MSER Maximally Stable Regions
CTPN Connectionist Text Proposal Network SWT Stroke Width Transform
EAST Accurate Scene Text Detector
SSD Single Shot Detection HOG Histogram of Oriented Gradients RNN Recurrent Neural Network
CNN Convolutional Neural Network
RGB Red Green Blue PMTD Pyramid Mask Text Detector EAST Efficient and Accurate Scene Text Detector CRAFT Character Region Awareness For Text detection
DB Differentiable Binarization PAN Pixel Aggregation Network FPEM Feature Pyramid Enhancement Module FFM Feature Fusion Module
PSENet Progressive Scale Expansion Network
LSTM Long short-term memory
loU Intersection over Union
TedEval Text detection Evaluation
GT Ground Truth API Application Programming Interface
XI
Trang 13TÓM TẮT KHÓA LUẬN
Ngày nay, việc trao đổi thông tin liên lạc để thiết lập các mối quan
hệ trong công việc hay bạn bè ngày càng trở nên phổ biến, nổi bậttrong số đó là văn hóa trao đổi danh thiếp Danh thiếp là cách để giới
thiệu về bản thân một cách nhanh chóng, ngắn gọn, đơn giản trong
giao tiếp giúp giữ liên lạc với mọi người một cách thuận tiện Bat kể
là giám đốc, nhân viên văn phòng hoặc tài xế lái xe thì việc trao đổi
danh thiếp thể hiện sự chuyên nghiệp đối công việc cũng như con
người Theo một thống kê mới nhất của tờ Nihon Kaizai, người Nhật
sử dụng trung bình 20 danh thiếp mỗi ngày Những con số trên có thể cho thấy nhu cầu sử dụng thẻ danh thiếp ngày càng phổ biến, từ
đó dẫn đến nhu cầu quản lý và truy van thông tin Vì vậy, việc số hóathẻ danh thiếp sẽ giúp việc quản lý và truy van dé dàng, tiện dụng
hơn.
Hiện nay trên thị trường đã có rất nhiều công ty cũng như tổ chức đãcho ra mắt sản phẩm nhận diện thẻ danh thiếp ví dụ như: ABBYY,Camcard, xContact, Tuy nhiên hầu hết các hệ thống này đều sửdụng cho các loại danh thiếp nước ngoài, công nghệ và phương pháp
sử dụng bên trong của các hệ thống này không được công bố vànhững hệ thống này không được hỗ trợ trên ngôn ngữ tiếng việt
Chính vì những lý do trên, nhóm đã quyết định nghiên cứu và giải
quyết bài toán trích xuất thông tin từ thẻ danh thiếp và áp dụng cho
ngôn ngữ tiếng việt.
Trang 14Trong lĩnh vực thị giác máy tính, có khá nhiều phương pháp để giảiquyết bài toán này, đặc biệt hướng tiếp cận học sâu (Deep Learning)gần đây đã mang lại hiệu quả ứng dụng thực tế cao Việc lựa chọnphương pháp phù hợp cho từng bài toán con và kết hợp thành hệthống với độ chính xác cao, tốc độ xử lý nhanh cũng là một thử thách
lớn.
Tóm lại, khóa luận này đã thực hiện những nội dung sau:
« Tìm hiểu tổng quan về bài toán rút trích thông tin từ thé danh
thiếp tiếng Việt và một số bài toán con tương ứng
* Cài đặt, huấn luyện và đánh giá một số phương pháp tiên tiến
nhất hiện nay tương ứng từng bài toán con bao gồm: Advanced
Hough-based method và U-Net cho bài toán xác định vị trí thẻ; TextFuseNet, PMTD, CRAFT, DB, PAN và PSENet cho bài toán phát hiện văn bản; VietOCR và TesseractOCR cho bài toán nhận diện văn bản.
« Thu thập, gán nhãn và xây dựng bộ dữ liệu VBC-583 về danh
thiếp tiếng Việt Phục vụ công việc đánh giá một số phương
pháp cho từng bài toán con tương ứng.
» Xây dựng ứng dụng web minh họa trích xuất thông tin thẻ danh
thiếp với 3 phương pháp phù hợp nhất là Advanced
Hough-based method, PAN và VietOCR-AttentionOCR.
Từ khóa: Business Card Recognition, Deep Learning, Vietnamese
OCR system
Trang 15Chương 1
TỔNG QUAN
1.1 Giới thiệu
Thẻ danh thiếp là một loại thiếp nhỏ chứa thông tin cá nhân như: họ & tên,
số điện thoại, email, Với nhu cầu sử dụng danh thiếp ngày càng nhiều dẫn đếnnhu cầu tìm kiếm, quản lý và truy vấn thông tin, do đó số hóa thẻ danh thiếp là
việc thiết yếu để giúp người dùng quản lý thông tin từ danh thiếp Số hoá dữ liệu
danh thiếp bằng phương pháp OCR (Optical Character Recognition) sẽ giúp cho
việc quản lý và truy xuất thông tin trở nên nhanh chóng và dễ dàng hơn, góp
phần giảm thiểu chi phí và tối ưu nguồn lực
Danh thiếp là loại thẻ có nhiều định dạng khác nhau, đa dạng về bố cục,màu sắc, phông chữ - không cô định giống như chứng minh thu, do đó đây sẽ làthách thức lớn cho việc trích xuất thông tin một cách chính xác Hiện nay, tuy
đã có một số hệ thống, ứng dụng di động trích xuất thông tin từ danh thiếp đã
được triển khai và giải quyết bài toán này như ABBYY Business Card Reader,
CamCard, nhưng đây đều là những sản phẩm thương mại mang tính bảo mậtcao, chưa được công bố cu thể về phương pháp thực hiện Da số các ứng dụngphổ biến này được thiết kế để nhận diện trên thẻ danh thiếp nước ngoài và chưađạt hiệu quả tốt trên danh thiếp chứa ký tự tiếng Việt Ngoài ra các nghiên cứu
Trang 161 TONG QUAN
gan đây tập trung chủ yếu vào ứng dung di động [1, 2, 3] chưa đánh giá được suhiệu quả của các mô hình máy học tiên tiến hiện nay Kèm theo đó là sự thiếuhụt các bộ dữ liệu liên quan đến danh thiếp, đặc biệt là danh thiếp Việt Nam
Vì vậy trong dé tài này nhóm đã xây dựng bộ dữ liệu thẻ danh thiếp tiếng Việt,tìm hiểu và đánh giá các phương pháp khác nhau nhằm mục đích tìm ra phươngpháp phù hợp nhất và xây dựng hệ thống minh họa cho bài toán
Name: Nguyễn Tiến Dũng
dob: Sales Manager
Company: Công ty Cé phần Sao
Việt Ô tô
P.14 Q TẤn Dạ CONG Được 1“ | Mobile: +84907992616
(TP HCM
I8 SAO VIỆT Q ựp VẤN Email: tiendungva@gmail.com
Address: Số 113 Trương Công
Định, P.14, Q Tân Bình, TP HCM
Ảnh đâu vào Kết quả
Hình 1.1: Ví dụ minh họa cho hệ thống nhận diện thẻ danh thiếp
1.2 Mục tiêu và phạm vi nghiên cứu
1.21 Mục tiêu
Nhóm tập trung giải quyết bài toán nhận diện văn bản Tiếng việt có trong
hình ảnh Để hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thé sau:
* Tìm hiểu tổng quan bài toán rút trích thông tin từ danh thiếp, và khảo sát
các phương pháp phù hợp cho từng bài toán con bên trong Từ đó lựa chọn
được một số phương pháp hiệu quả hiện nay để áp dụng vào việc rút trích
các thông tin quan trọng.
« Thu thập, gan nhãn và xây dựng tập dữ liệu về danh thiếp với mục đích
Trang 171 TONG QUAN
phục vụ việc huan luyện các mô hình hoc sâu có liên quan cũng như đánh
giá sự hiệu quả trên bộ dữ liệu lần này
* Cài đặt và đánh giá một số phương pháp tiên tiến nhất hiện nay tương ứng
cho từng bài toán con trên bộ dữ liệu đã xây dựng.
¢ Xây dựng ứng dụng minh họa dựa trên phương pháp mang lại hiệu quả cao
nhất từ kết quả đã đánh giá
1.2.2 Pham vi
Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung vào dữ
liệu thẻ danh thiếp sử dụng chữ cái latinh được thu thập ở Việt Nam Ảnh đầu
vào chỉ chứa một thẻ và thông tin văn bản được thể hiện rõ ràng.
1.3 Dong góp của khoá luận
Qua thời gian thực hiện, đề tài khoá luận của nhóm có những đóng góp sau:
* Bộ dữ liệu về thẻ danh thiếp Việt Nam được gan nhãn cho ba bài toán con:
xác định thẻ, phát hiện văn bản và nhận diện văn bản Ngoài ra còn có thể
ứng dụng cho bài toán truy vấn ảnh
« Tài liệu báo cáo tổng hợp các kết quả đánh giá và phân tích của từng
phương pháp cho bài toán trích xuất thông tin từ danh thiếp
¢ Hệ thống minh họa rút trích thông tin từ thẻ tiếng Việt được xây dựng dựa
trên ba phương pháp đạt độ chính xác cao nhất trong thực nghiệm
1.4 Cấu trúc khóa luận
Chương 1: Tổng quan.
Trang 181 TONG QUAN
Chương 2: Các nghiên cứu liên quan.
Chương 3: Nghiên cứu và đánh giá một số phương pháp cho bài toán rúttrích thông tin từ danh thiếp
Chương 4: Thực nghiệm và đánh giá.
Chương 5: Xây dựng hệ thống minh hoạ
Chương 6: Kết luận và hướng phát triển
Trang 19Chương 2
CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Mở đầu
Ở chương này nhóm sẽ làm rõ các khái niệm và thách thức liên quan đến bài
toán trích xuất thông tin thẻ danh thiếp, đồng thời tìm hiểu một số phương pháp
và hướng tiếp cận hiện nay Nhóm đã khảo sát một số phương pháp nghiên cứu
đã từng được áp dụng từ trước đến nay, từ đó có thể đưa ra nhận xét ưu và nhược
điểm của từng phương pháp.
2.2 Bài toán rút trích thông tin thẻ danh thiếp
Nhiều tổ chức và doanh nghiệp hiện nay cần có đầy đủ thông tin khách hàng
để phục vụ việc liên lạc, chạy tiếp thị - quảng cáo, hay làm thủ tục giấy tờ Điều
này đòi hỏi khách hàng phải cung cấp một số tài liệu mà doanh nghiệp yêu cầu
để họ có thể xác nhận danh tính cũng như thu thập được các thông tin có liên
quan Điển hình có thể thấy như việc trao đổi danh thiếp ở các ngân hàng, khu
du lịch, khách sạn, là tương đối nhiều Thông thường các thông tin từ khách
hàng dưới dạng thẻ danh thiếp trực tiếp hay ảnh chụp đòi hỏi các doanh nghiệpcần có bước kiểm tra, phân loại thông tin, bước trích xuất các thông tin quan
Trang 202 Các nghiên cứu liên quan.
7T
1
trọng như "họ và tên", "địa chỉ", "nghề nghiệp", và sau cùng bước nhập liệuvào các phần mềm quản lý
Trước sự phát triển của các phương pháp học sâu cùng với sự cải thiện của
công nghệ OCR, các giải pháp tự động hay bán tự động liên quan đến việc trích
xuất thông tin từ tài liệu đang được áp dụng rộng rãi và dần được ứng dụng vào
việc rút trích thông thông tin từ danh thiếp Xu hướng này cho thấy các ưu điểmvượt trội so với các thao tác thủ công truyền thống như:
‹ Trich xuất thông tin: Thông tin có thé dễ dàng thu được từ ảnh chụp thẻ
danh thiếp và lưu trữ vào một nguồn có thể sử dụng lâu dài Các thông tin
thu được chủ yếu ở dạng văn bản hoặc số Điều này giúp các các doanhnghiệp tổ chức dữ liệu theo các cách khác nhau, tạo điều kiện cho việc sắpxếp hay chọn lọc thông tin
* Tốc độ nhanh và hiệu quả: Việc số hoá thông tin diễn ra khá nhanh giúp
các doanh nghiệp, tổ chức tiết kiệm được thời gian và nguồn nhân lực.Hiện nay chỉ mat khoảng vài giây để chup/quét thẻ danh thiếp và truy xuấtcác thông tin liên quan Sự chuyển dịch dần qua số hoá thông tin thay vì
nhập liệu và xác minh thông tin một cách thủ công là nhờ các hướng tiếp
cận dựa trên học sâu đang phát triển gần đây
* Hạn chế phat sinh dữ liệu lỗi: Với sự tiến bộ trong công nghệ và sức
mạnh tính toán của máy tính ngày nay cho phép thu thập dữ liệu, xử lý dữ
liệu mà ít phát sinh lỗi Khả năng xảy ra lỗi có thể được giảm thiểu bằng
cách áp dụng các hệ thống tự động hoá này kết hợp với việc kiểm tra của
con người ở bước cuối cùng trên quy trình trích xuất thông tin.
+ Dễ dàng tích hợp vào các hệ thong khác nhau: Các giải pháp số hoá có
thể dễ dàng tích hợp vào bất cứ hệ thống nào Ví dụ một mô hình được
huấn luyện cho việc nhận diện thông tin có thể triển khai lên một trang
Trang 212 Các nghiên cứu liên quan.
Web nơi mà người dùng sẽ tải lên được rất nhiều ảnh cùng một lúc Hay
triển khai trên một thiết bị di động, ở đây người dùng có thể chụp và lựa
chọn ảnh phù hợp Kết quả có thể trả về theo định dạng phù hợp và một số
tính năng riêng đi kèm.
Ngày nay, các phương pháp học sâu được ứng dụng để giải quyết rất nhiềubài toán ở các lĩnh vực khác nhau Nhưng vẫn tổn tại một số thách thức mà cácnhà nguyên cứu, các nhà phát triển phần mềm cần phải giải quyết như xây dựngcác mô hình phải có chất lượng tốt, kết quả từ các mô hình phải có độ chính xác
cao Dé đạt được điều đó, phải tiến hành giảm thiểu độ lỗi phát sinh từ mô hình
học sâu hay về mặt công nghệ, kỹ thuật Đối với bài toán "Rút trích thông tin từdanh thiếp" có thể kể đến các vấn đề như:
* Da dạng về mẫu, kiểu dáng và đa ngôn ngữ: Thông thường, các thẻ danh
thiếp sẽ khác nhau cả về font chữ và bố cục thiết kế (Hình 2.1) Các ký tự
từ các font chữ khác khau sẽ có những đặc trưng riêng về cấu tạo và cách
thức thể hiện, có thể kể đến như chữ có chân, chữ không chân, chữ nghệ
thuật, chữ thư pháp, Điều này gây khó khăn trong việc nhận diện các ký
tự, các từ một cách chính xác Thẻ danh thiếp sẽ mang đặc trưng của chủ
sở hữu, với mục đích truyền đạt được lĩnh vực, nghề nghiệp của cá nhân
hay tổ chức đó Vì vậy không thể nhận diện thẻ danh thiếp từ một bố cụcquy định sẵn Thi thoảng một số thẻ danh thiếp được trình bày dưới nhiều
ngôn ngữ khác nhau cùng một lúc Hay nói cách khác, việc sử dụng bộ dữ
liệu có phạm vi rộng, có sự đa dạng lớn để huấn luyện mô hình thì khả
năng cao mô hình thu được sẽ kém hiệu quả.
* Hướng va độ nghiêng của chữ: Dé có thể số hoá được tài liệu hay thẻ
danh thiếp thì chúng cần được quét hay chụp ảnh bằng các thiết bị như
máy quét và camera sao cho tài liệu song song với mặt phẳng của cảm
Trang 222 Các nghiên cứu liên quan.
NGUY€N HUU THONG
DH of Corporate Customer Department
Corporate Customer Department
(84) 931168168 §
thong.nh@mobifone.vn 2
MobiFone Corporation MOBIFONE SERVICE COMPANY
BRANCH NO 2
wwuLmobifone.vn
MMIB Truong Son St, Ward I4, District IO
Ho Chi Minh City
NI GSA REN ala Aan | ==— 11
Hình 2.1: Sự đa dạng của các thẻ danh thiếp về mẫu, kiểu dáng và ngôn ngữ
biến (sensor) Nhưng việc chụp ảnh thủ công với camera hay một số thiết
bị khác có thể gây ra sự sai lệch về hướng hay bị xoay một góc khôngmong muốn (Hình 2.2) Các thiết bị di động hiện nay có các cảm biến
hướng giúp người dùng nhận biết và điều chỉnh để cho kết quả phù hợp
Đối với trường hợp tài liệu hay thé danh thiếp bị xoay một góc lớn có
thể làm giảm độ chính xác của mô hình phát hiện và nhận diện chữ Tuy
nhiên có một số phương pháp có thể khắc phụ được vấn đề này như RASTalgorithm [4], Hough transform [5]
ag Gena ty Cô phân Viên thông
“Nhân viên kinh doanh.
(a) Ảnh danh thiếp chụp sai hướng (b) Ảnh danh thiếp với thẻ bị xoay
Hình 2.2: Lỗi phát sinh trong quá trình số hoá thẻ danh thiếp
Trang 232 Các nghiên cứu liên quan.
‹ Bo cục phức tạp: bố cục hình ảnh có thể được xác định bởi môi trường
xung quanh nơi mà thẻ danh thiếp được được chụp Bao gồm một số yếu tố
mà gây khó khăn cho hệ thống nhận diện như ánh sáng (không đồng đềuhay trên và dưới mức quy định), độ tương phản, góc chụp hình, bố cục nềnxung quanh, các vật thể che khuất thẻ danh thiếp, (Hình 2.3) Thông tinđược trích xuất từ thẻ danh thiếp có bố cục phức tạp khiến cho việc xử lý
gặp khó khăn Cách khắc phục tạm thời có thể kể đến như phải đảm bảo
hình ảnh được tiền xử lý trước khi huấn luyện hay thực hiện gán nhãn mộtcách chính xác Về điều kiện ánh sáng có thể áp dụng một số filter (bộ lọc)
mà giúp làm nổi bật được chữ trên ảnh, hay thực hiện phân ngưỡng trắng
đen giữa chữ và nền ảnh bằng phương pháp Otsu [6]
2.3 Một số hướng tiếp cận phổ biến
2.3.1 Xác định thẻ danh thiếp
Xác định vị trí thẻ danh thiếp từ ảnh đầu vào là bước xử lý tách thẻ danhthiếp khỏi hình nền nhiễu thông tin, giúp tăng hiệu quả quá trình nhận diện văn
bản sau đó và tăng tốc độ xử lý Phương pháp phát hiện cạnh Canny [7, 8, 3]
là phương pháp xử lý ảnh phổ biến được áp dụng cho bài toán phát hiện cạnhcủa thẻ danh thiếp Dựa vào thông tin cạnh phát hiện được có thể dùng để táchthẻ danh thiếp ra khỏi hình nền từ ảnh đầu vào giúp tăng hiệu quả cho giai đoạn
phát hiện và nhận diện chữ Với hình ảnh đầu vào, phương pháp phát hiện cạnh
Canny sẽ trích xuất đường viền lớn nhất [9, 10, 11] để thu về được một hình tứgiác tương ứng với thẻ danh thiếp (Hình 2.4) Sau khi xác định được vị trí thẻ
danh thiếp, vùng nền sẽ được loại bỏ bằng phương pháp Projective Transform
[12, 13] và đầu ra cuối cùng quá trình xử lý sé là ảnh chỉ chứa thẻ danh thiếp,
hình ảnh này được sử dụng làm đầu vào cho bước tiếp theo.
Trang 242 Các nghiên cứu liên quan.
Hình 2.3: Bố cục phức tạp gây khó khăn cho hệ thống nhận diện và rút trích thông tin
Tuy nhiên, đối với những ảnh đầu vào có thẻ danh thiếp màu tương tự với
phông nền thì phương pháp Canny sẽ gặp khó khăn trong việc xác định đường
viền của thẻ Một trường hợp khác thẻ danh thiếp có khung hình chữ nhật nhỏtrong thẻ danh thiếp sẽ hoặc những đường viễn trong thiết kế gây nhầm lẫn đó
là đường viền của danh thiếp (Hình 2.5)
2.3.2 Nhận diện van bản
Bài toán nhận diện văn bản hay còn được gọi là nhận diện ký tự quang học
(OCR - Optical Character Recognition) Với đầu vào của bài toán là hình ảnh
10
Trang 252 Các nghiên cứu liên quan.
Toshi ati Isai
Poster tienen Te: eee
(a) Màu thẻ trùng với phông nên (b) Cạnh trong thẻ gây nhiễu thông tin
Hình 2.5: Trường hợp phương pháp Canny không giải quyết được
chứa nội dung văn bản và đầu ra là đoạn văn bản được trích xuất từ hình ảnhtrên Bài toán này có hai hướng tiếp cận chính (Hình 2.6) là:
» Step-wise [14] (Tach biệt): Quá trình phát hiện và nhận diện văn ban được
chia thành từng bài toán con nhỏ gối nhau, đầu ra của mô-đun này sẽ là đầuvào của mô-đun ngay sau đó Các bài toán con bao gồm: localization, ver-
ification, segmentation va recognition Mô-đun localization sé tim những
vùng có xác suất chứa văn bản trong ảnh, sau đó mô-đun verification séphân loại liệu rằng có phải là văn bản hay không từ đó xác định được cácvùng chứa văn bản Đầu vào của mô-đun segmentation và recognition sé
là đầu ra của mô-đun trước đó, từ đó xác định những pixel thuộc văn bản
để nhận diện và cho ra kết quả văn bản tương ứng ảnh đầu vào ban đầu
« Integrated [14] (Tích hợp): Ở hướng tiếp cận này sé không tách biệt quá
11
Trang 262 Các nghiên cứu liên quan.
trình xử lý, thay vào đó các mô-đun sẽ được tích hợp thành một mô hình thực hiện duy nhất thay vì chia thành hai bài toán độc lập [15, 16].
Step-wise
Text detection Text recognition
Imagery — Localization — Verification Segmentation — Recognition |} —— Strings
Integrated
Text detection & recognition
Imagery
or ROIs Localization Segmentation Recognition E——— Strings
Hình 2.6: Hướng tiếp cận cho bài toán phát hiện và nhận diện văn ban
Với hướng tiếp cận Step-wise, có thể điều chỉnh và tối ưu kết quả ở từngmô-đun riêng biệt - điều mà ở hướng tiếp cận Integrated không làm được Vìvậy nhóm quyết định lựa chọn hướng tiếp cận Step-wise để chia nhỏ ra từng bàitoán con, sau đó huấn luyện và đánh giá từng mô-đun để mang lại hiệu quả cao
hơn.
2.3.2.1 Bài toán phát hiện văn ban
* Hướng tiếp cận đặc trưng hand-crafted: Ở hướng tiếp cận này chủ yếu
tập trung vào các đặc trưng cơ bản trong ảnh kỹ thuật số Một số phương
pháp nổi bật như: Maximally Stable Regions (MSER) [17] sử dụng các
pixel tương đồng màu sắc liên kết nhau và màu sắc phải tương phản với
hình nền để rút trích đặc trưng đối tượng (Hình 2.7), Stroke Width
Trans-form (SWT) [18] dựa trên phép biến đổi về bề rộng chữ (Hình 2.8) để xácđịnh vị trí văn bản trong ảnh Các phương pháp này có lợi thế về tốc độ
tính toán ra các đặc trưng trong ảnh một cách nhanh chóng và chi phí bộ
nhớ ít, tuy nhiên độ chính xác không cao vì dễ nhầm lẫn với những thông
tin nhiễu.
12
Trang 272 Các nghiên cứu liên quan.
* Hướng tiếp cận đặc trưng học sâu: Với hướng tiếp cận học sâu, các
phương pháp phát hiện văn bản đa dạng hơn về cách tiếp cận như: Phát
hiện từng ký tự một (character-level), phát hiện từng từ một (word-level), phát hiện từng dòng một (line-level) (Hình 2.9) Các nghiên cứu ứng dụng
đặc trưng học sâu gần đây đã mang hiệu quả hơn rất nhiều so với hướngtiếp cận trên, bởi vì chúng có khả năng học từ dữ liệu nên không bị ảnhhưởng quá nhiều bởi các yếu tố khách quan khác Một số phương pháp nổi
bật là Connectionist Text Proposal Network (CTPN) [19], Efficient and Accurate Scene Text Detector (EAST) [20] Ngoài ra các phương pháp
phát hiện đối tượng khác như SSD [21], Faster R-CNN [22] cũng có thể
thực hiện được nhiệm vụ này Những phương pháp trên đạt độ chính xác
cao hơn các phương pháp thuộc hướng tiếp cận đặc trưng hand-crafted,nhưng ngược lại sẽ tốn nhiều bộ nhớ lưu trữ và vẫn chưa đạt được độ chính
xác cao trong việc xác định các dâu thanh trong ngôn ngữ tiêng viét.
13
Trang 282 Các nghiên cứu liên quan.
as
5
(a) (b)
Hình 2.8: Cách xác định bề rộng chữ trong phương pháp SWT
2.3.2.2 Bài toán nhận diện văn ban
- Hướng tiếp cận đặc trưng hand-crafted: Dựa trên sự phân bố về cường
độ màu sắc và hướng của cạnh, phương pháp Histogram of Oriented
Gra-dients (HOG) [23, 24] có thể rút ra đặc trưng của vật thể Phương pháp
HOG [24] có tốc độ xử lý nhanh nhưng dễ bị nhiễu bởi những kiểu chữđặc biệt hoặc góc chụp đa dạng làm cho ảnh đầu vào có chất lượng thấp
dẫn đến kết quả nhận diện đạt độ chính xác không cao.
* Hướng tiếp cận đặc trưng học sâu: Các phương pháp nhận diện văn
bản gần đây chủ yếu được xây dựng trên mạng hồi quy (Recurrent Neural
Network- RNN) [25] RNN là một mô hình mang Deep Learning dùng
trong xử lý thông tin dạng chuỗi Mạng RNN có đầu ra phụ thuộc vào các
14
Trang 292 Các nghiên cứu liên quan.
'amazoncouk:amaZ0ncouk
N.CO.UK NOW Celiver
Character detection Word Detection
Hình 2.9: Một số cách tiếp cận chính của bài toán phát hiện văn ban
phép tính trước đó Do đó, mạng RNN có thể nhớ các thông tin được tính
toán trước đó Với bài toán nhận diện văn bản, đa số các phương pháp kết
hợp mô hình mạng tích chập (Convolutional Neural Network - CNN) để
trích xuất đặc trưng trong ảnh và mô hình mạng hồi quy để phát sinh vănbản từ những đặc trưng đó [26, 27], ngoài ra còn có một số phương pháp
sử dụng kỹ thuật Attention [28] tim sự tương quan giữa các từ trong câu dé
tăng độ chính xác cho quá trình nhận diện văn bản [29, 14, 30] Bài toán
nhận diện văn bản ngày càng phổ biến kèm theo đó là sự phát triển một số
thư viện hỗ trợ, trong đó TesseractOCR [3i] là thư viện nổi bật đã được
Google tài trợ và được xem là một trong những công cụ OCR mã nguồn
mở chính xác nhất Tuy nhiên đối với những loại văn bản đặc thù có kiểu
chữ đặc biệt trong thẻ danh thiếp tiếng việt thì hầu hết các phương pháp
trên chưa mang lại độ chính xác cao.
2.4 Kết chương
Qua chương này, nhóm đã khảo sát và tìm hiểu các phương pháp phổ biếncho từng bài toán con cụ thể, qua đó nhận thấy được những vấn đề tồn đọng khi
áp dụng cho bài toán thẻ danh thiếp Từ đó chọn ra được các phương pháp tương
ứng với các bài toán con để thực hiện đánh giá và phân tích trên dif liệu thẻ danh
thiếp tiếng Việt Đối với giai đoạn phát hiện văn bản, nhóm sẽ thực hiện một
15
Trang 302 Các nghiên cứu liên quan.
số phương pháp tiên tiến hiện nay như: TextFuseNet [32], PMTD [33], CRAFT
[34], DB [35], PAN [36], PSENet [37] và trong giai đoạn nhận diện chữ, thư
viện VietOCR [38] là thư viện thích hợp nhất cho nhận diện văn bản tiếng việt,thư viện bao gồm cả hai kiến trúc TransformerOCR và AttentionOCR có thể sử
dụng để giải quyết các bài toán liên quan đến OCR Sau đó nhóm thực hiện việc
đánh giá và phân tích các phương pháp trên cho bộ dữ liệu danh thiếp tiếng Việt
và chọn ra phương pháp phù hợp nhất tương ứng từng giai đoạn để xây dựng ứng
dụng minh họa.
16
Trang 31Chương 3
NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT
SỐ PHƯƠNG PHÁP CHO BÀI TOÁN
RÚT TRÍCH THÔNG TIN TỪ DANH
THIẾP
3.1 Xác định vi trí danh thiếp
3.1.1 Xác định vi trí thé danh thiếp bằng phương pháp xử lý hình
ảnh
Với hướng tiếp cận xác định vị trí thẻ danh thiếp bằng phương pháp xử lý hình
ảnh, nhóm đã thực hiện khảo sát và quyết định tìm hiểu, đánh giá Advanced
Hough-based method (phương pháp dựa trên thuật toán Hough cải tiến) đượccông bồ bởi nhóm tác giả Tropin và các cộng sự [5]
Trong phương pháp này, tác giả đi giải quyết bài toán có phát biểu như sau:
Cho tài liệu là một hình chữ nhật phẳng với tỉ lệ ? giữa các cạnh đã biết nhưng
không biết trước nội dung của tài liệu, hình ảnh được chụp từ camera có thể xác
định được tiêu cự ƒ và vị trí trung tâm của hình Kết quả thu được là hình ảnh chỉ
17
Trang 323 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
chứa duy nhất một tài liệu với tỉ lệ cạnh kể trên Advanced Hough-based method
sẽ bao gồm các bước theo trình tự phát hiện cạnh, phát hiện đường thẳng, hệ
thống xếp hạng 2 bước mà nhóm trình bày ở các mục tương ứng sau đây
3.1.1.1 Phát hiện cạnh
Để giảm nhiễu trong quá trình xử lý, hình ảnh sẽ được nén đẳng hướng saocho cạnh ngắn nhất có kích thước 240px Nhằm phân chia được các cạnh có xuhướng theo chiều ngang với các cạnh có xu hướng theo chiều dọc, ảnh sẽ được
xử lý thành hai quá trình riêng biệt Trình tự tìm các cạnh có xu hướng theo
chiều ngang được mô tả như sau:
« Đầu tiên ảnh sẽ được áp dụng kỹ thuật Morphology theo từng kênh mau
Cu thể phép toán Opening với kích thước biên 1 pixel được áp dụng, đi
kèm sau đó là phép toán Closing với kích thước tương tự Như vậy các giá
trị cực tiểu và cực đại địa phương trong phạm vi 2 pixel sẽ được lọc.
¢ Sau đó, hình ảnh được tính đạo ham theo trục Y (áp dụng bộ lọc với kernel
(1; -1)) Kết quả thu được từ 3 kênh màu RGB sẽ được tính trung bình theo
từng vị trí pixel nhằm thu được một kênh duy nhất
» Kế tiếp, thuật toán Non-maximum suppression được thực hiện trên mỗi
một cột (cau trúc các phan tử có độ rộng là 1 pixel) cho các vị tri pixel cógiá trị tuyệt đối của đạo hàm lớn hơn 1
» Từ kết quả trên, các miễn liên thông theo chiều ngang sẽ được thu thập: với
mỗi pixel, ba vị tri pixel liền kề bên trái và ba vị tri pixel liền kể bên phải
sẽ được xem xét là lân cận Những thành phần liên thông này sẽ được lọc
theo kích thước để bỏ đi những thành phần liên thông nhỏ mà có thể gâynhiễu: tất cả các thành phần liên thông có kích thước nhỏ hơn 10% giữa (i)
18
Trang 333 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
kích thước của miễn liên thông lớn nhất và (ii) một nửa chiều ngang của
hình sẽ bị bỏ đi.
* Cuối cùng, các cạnh được làm mờ bằng hàm Gaussian theo phương doc
(hay nói cách khác, hàm Gaussian áp dụng trên mỗi cột).
eee aad,
(a) Ảnh thí nghiệm từ tập dit liệu MIDV-500 (b) Bản đồ phác hoạ các cạnh có xu hướng
[29] theo chiều ngang (màu xanh lục) và các cạnh
có xu hướng theo chiều dọc (màu đỏ) dựa trên
thí nghiệm tự hiện thực
Hình 3.1: Kết quả thu được từ bước phát hiện cạnh
Quá trình tìm các cạnh có xu hướng theo chiều dọc sẽ được thực hiện theocách tương tự quá trình tìm các cạnh có xu hướng theo chiều ngang Kết quả đạt
được từ bước phát hiện cạnh được minh hoa trong hình 3.1.
19
Trang 343 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
3.1.1.2 Phát hiện đường thẳng
Ở bước này, dựa trên kết thu được gồm hai bản đồ cạnh trước đó, sẽ cho ra kết
quả là hai tập hợp đường thẳng: có xu hướng theo chiều ngang và có xu hướng
theo chiều dọc
Hình 3.2: Các cực đại địa phương được lựa chọn từ hình ảnh nghịch đảo FHT của phần
giữa hình ảnh Đường thẳng thể hiện cạnh thực tế của tài liệu được tô màu đỏ tía [5]
Giả sử hình ảnh có kích thước chiều cao lớn hơn kích thước chiều ngang
Để tìm kiếm được các đường thẳng có xu hướng theo chiều doc một cách chính
xác, hình ảnh cần được chia làm ba phần bằng nhau Thuật toán Fast Hough
Transform (FHT) [40] sẽ được áp dụng trên cả ba phần nhằm xác định được giá
trị cực đại toàn cục trên ba phần đó Tiếp theo, 15 cực đại địa phương sẽ được
lựa chọn lần lượt trên mỗi phan theo qua tắc sau (i) giá trị cực đại địa phương
phải đạt ngưỡng thấp nhất là 20% giá trị cực đại toàn cục và (ii) cực đại địa
phương đó phải nằm cách xa hơn 10 pixel khoảng cách Euclide so với cực đại
địa phương đã được chọn trước đó (hình 3.2) Sau cùng, áp dụng nghịch đảo
FHT lên tập các cực đại để chuyển chúng sang đường thẳng
20
Trang 353 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
Hình 3.3: Kết quả tự thí nghiệm từ bước phát hiện đường thẳng Bao gồm 45 đường
thẳng có xu hướng theo chiều dọc (màu đỏ) và 15 đường thẳng có xu hướng theo chiều
ngang (màu xanh lục)
Như vậy có tổng 45 đường thang có xu hướng theo chiều doc Các đường
thang có xu hướng theo chiều ngang được thực hiện tương tự nhưng áp dụng
FHT lên toàn bộ hình và chi chọn ra 15 điểm cực đại tương ứng 15 đường thang
(hình 3.3).
3.1.1.3 Hệ thong xếp hạng hai bước
Hình thành và chọn lọc các hình tứ giác:
Các hình tứ giác thể hiện hình dạng của tài liệu được hình thành bằng cách
bắt cặp 2 đường thẳng từ tập các đường thẳng có xu hướng theo chiều ngang và
2 đường thẳng từ tập các đường thẳng có xu hướng theo chiều dọc
Nhằm xử lý trường hợp tài liệu có một cạnh nằm ngoài khung hình, mộtcạnh bị che khuất một phần hay bị che khuất hoàn khiến cho bước xử lý trước
21
Trang 363 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
đó không tim được day đủ các đường thẳng Tác giả kế thừa nghiên cứu trước
đó [41] để có thể khôi phục được cạnh bị mất từ ba cạnh còn lại thông qua môhình camera Mô hình này đòi hỏi cần biết trước tỉ lệ ¢ của tài liệu, tiêu cự ƒ
của camera và toa độ điểm trung tâm của hình Như vậy ngoài việc hình thành
tứ giác bằng 4 đường thẳng, có thể hình thành tứ giác từ 3 đường thang đã tinhtoán kèm 1 đường thang được khôi phục
Sau khi hình thành được các tứ giác mà thể hiện hình dạng của tài liệu, các
tứ giác này được loc theo điểm số đồng mức (contour score) nhằm chọn ra K tứ
giác tiềm năng Theo nghiên cứu trước đó của tác giả [42], độ đo này dựa trêntính liên tục đạo hàm của đường đồng mức dọc theo cạnh b của tứ giác g, gồm
các thành phần: cường độ của các cạnh nằm bên trong tứ giác w, cường độ của
các cạnh nằm bên ngoài tứ giác w”, tỉ lệ các pixel có giá trị khác 0 c trên bản đồ
cạnh dọc theo b Công thức độ đo được tính như sau:
C TỔ }„) w(b)
T1=Eui(1=e0)) BY GD)
Trong đó w’ (b) là tong cường độ cạnh của các đoạn ma (i) nằm bên trên cùng
đường thắng với b, (ii) không giao với nhau, (iii) có 1 điểm chung với b và (iv)
Ở bước này 2K tứ giác được sắp xếp dựa theo sự kết hợp tuyến tính của điểm
số đồng mức (contour score) và điểm số tương phản (contrast score) Trong đó,
điểm số tương phan dựa trên khoảng cách x7 (Chi-square) giữa histogram 3
kênh màu RGB của vùng bên trong và vùng bên ngoài tứ giác Tứ giác có điểm
số kết hợp cao nhất sẽ là kết quả của phương pháp này
22
Trang 373 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
3.1.2 Xác định vị trí thé danh thiếp bằng phương pháp học sâu
Theo khảo sát của nhóm tác giả Tropin [5], các phương pháp học sâu hiện
nay được ứng dụng để giải quyết bài toán xác định vị trí thẻ danh thiếp có thể
chia làm hai nhóm dựa theo ý tưởng: phát hiện vùng nổi bật và phát hiện các góc
của thẻ danh thiếp Với nhóm các phương pháp phát hiện vùng nổi bật đặc trưng
là các phương pháp phân đoạn, thực hiện phân tách vùng hình ảnh thẻ danh thiếpvới vùng ảnh nền Ngược lại, nhóm các phương pháp phát hiện góc phần đông
là các phương pháp phát hiện đối tượng bằng mang CNN kết hợp với vùng Rol
(Region of Interest - vùng quan tâm) Tuy nhiên, các phương pháp phát hiện góc
suy cho cùng là để bổ trợ cho việc tìm kiếm các cạnh của thẻ, tương tự phương
pháp phát hiện cạnh Advanced Hough-base mà nhóm đã trình bày trước đó Do
đó, trong các phương pháp học sâu thực hiện giải quyết bài toán xác định vị tríthẻ danh thiếp này, nhóm thực hiện tìm hiểu phương pháp phát hiện vùng nổi
bật dựa trên phân đoạn.
Các phương pháp phân đoạn được đề xuất gần đây để giải quyết bài toán phânđoạn đối tượng thường dựa trên cải tiến mạng nơ-ron U-Net như [43, 44, 45].Nhưng các phương pháp này không cung cấp mã nguồn hỗ trợ cho việc đánh
giá trong dé tài của nhóm Vì vậy, nhóm thực hiện tìm hiểu và đánh giá phương
pháp U-Net đầu tiên [46] khi áp dụng vô bài toán xác định vị trí thẻ danh thiếp
Phương pháp U-Net được dé xuất bởi nhóm tác giả Ronneberger cùng các
cộng sự [46] có kiến trúc được xây dựng dựa trên phương pháp FCN [47] trước
đó Tác giả tiến hành điều chỉnh và mở rộng kiến trúc FCN để có thể hoạt động
với ít hình ảnh huấn luyện hơn và trả về các phân đoạn chính xác hơn Ý tưởng
chính của FCN vẫn được duy trì là bổ sung vào mạng co (contracting network)
các lớp kế tiếp, trong đó các phép toán gdp (pooling) được thay bằng phép toán
tăng mẫu (upsampling) Vì vậy những lớp này sẽ tăng kích thước của kết quả
đầu ra Để có thể xác định được vị trí, các đặc trưng từ nhánh co được kết hợp
23
Trang 383 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
sử dụng các lớp kết nối đầy đủ (fully connected layer) mà chỉ dùng các lớp tích
x
oo i đi
Hình 3.4: Kiến trúc tổng quan của U-Net [46]
Kiến trúc mạng của U-Net được minh hoạ trong 3.4 U-Net bao gồm mộtnhánh co (bên trái) và một nhánh mở rộng (bên phải) Nhánh co có kiến trúctương tự như các mạng tích chập phổ biến Trong đó bao gồm các lớp tích chập
3x3 được sử dụng lặp di lặp lại (các lớp tích chập không thêm padding) Theo
sau mỗi lớp tích chập là một hàm phi tuyến ReLU cùng với toán tử gộp cực đại
24
Trang 393 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
(max pooling) có sải bước là 2 nhằm giảm kích thước mẫu Ở mỗi bước giảm
mẫu, số lượng kênh đặc trưng sẽ được gấp đôi Ngược lại, ở mỗi bước trongnhánh mé rộng sẽ chứa bản đồ đặc trưng đã được tăng mẫu, theo sau bởi một lớptích chập 2x2 (up-convolution) có vai trò làm giảm một nửa số kênh đặc trưng.Kết quả của phép tăng mẫu được nối với bản đồ đặc trưng tương ứng từ nhánh
co (bản đồ đặc trưng này đã được cắt cho đúng kích thước) và cùng đi qua mộtlớp tích chập 3x3 theo sau bởi ReLU Việc cắt đặc trưng từ nhánh co là cần thiết
vì các điểm ảnh ở viền bị mất mát mỗi lần đi qua lớp tích chập Ở lớp cuối cùng,
tích chập 1x1 được sử dung để ánh xạ 64 kênh đặc trưng thành số lượng lớpmong muốn Như vậy, tổng cộng kiến trúc U-Net có 23 lớp tích chập
3.2 Phát hiện văn ban
Việc đọc văn bản trong các hình ảnh tự nhiên, hình ảnh cảnh đang trở thành
chủ dé hấp dẫn dạo gần đây bởi vì khả năng ứng dung rộng rãi, như là điềuhướng robot, tạo tiêu đề ảnh tự động, truy xuất hình ảnh, Trong đó phát hiện
văn bản là điều kiện kiện tiên quyết của các hệ thống đọc văn bản như vậy Bài
toán phát hiện văn bản này đã thu hút rất nhiều sự chú ý của cộng đồng thị giác
máy tính trong những năm trở lại đây Tuy nhiên, những thách thức sự đa dạng
về ánh sáng, biến dạng về góc nhìn và sự phức tạp của bố cục xung quanh dẫn
tới khó khăn trong việc phát hiện chữ Hơn nữa các đặc trưng văn bản cũng làm
tăng thử thách cho việc phát hiện chữ, những van dé này đã được nhóm trình bàychi tiết ở mục 2.2
Để giải quyết các thử thách trên, rất nhiều phương pháp được đề xuất từ theocác hướng tiếp cận khác nhau Theo như khảo sát từ nhóm tác giả Dai cùng các
cộng sự [48], nhìn chung các phương pháp thịnh hành hiện nay có thể chia làm
hai nhóm Nhóm thứ nhất là các phương pháp theo hướng tiếp cận từ trên xuống,
các phương pháp này thực hiện phân đoạn nhị phân hoặc thực hiện hồi quy các
25
Trang 403 Nghiên cứu và đánh giá một số phương pháp cho bài toán rút trích thông tin
từ danh thiệp.
đường viễn văn bản từ vùng đối tượng được dé xuất Nhóm còn lại là các phươngpháp theo hướng tiếp cận từ dưới lên Với ý tưởng dự đoán các đơn vị nhỏ, đơn
vị địa phương (như là điểm ảnh, các miễn liên thông, ) và một số thông tin
bổ trợ, sau đó nhóm các đơn vị kể trên thành một đối tượng văn bản Theo từnghướng tiếp cận, nhóm thực hiện khảo sát, đánh giá một số phương pháp kể tên
trong bảng 3.1 và được trình bày trong các mục dưới đây.
Hướng tiêp cận Phương pháp
Từ trên xuống TextFuseNet [32]
Bang 3.1: Các phương pháp phát hiện van bản được khảo sat và đánh gia
3.2.1 Nhóm các phương pháp theo hướng tiếp cận từ trên xuống
Các phương pháp phát hiện văn bản theo hướng tiếp cận từ trên xuống thựchiện phân đoạn nhị phân hoặc hồi quy các đường viền dựa trên vùng đối tượngđược đề xuất Trong đó, các phương pháp dựa trên phân đoạn nổi trội hơn cả.Được truyền cảm hứng từ MaskRCNN [49], các phương pháp này thực hiện phânđoạn ngữ nghĩa cấp độ điểm ảnh cho tất cả điểm ảnh có trong vùng đề xuất Hơn
nữa các phương pháp này chỉ tập trung vào việc làm giàu các biểu diễn đặc trưng hoặc hướng tới kết quả phân đoạn tốt hơn Nhóm thực sẽ hiện đánh giá hai đại
diện của hướng tiếp cận này bao gồm TextFuseNet [32] và PMTD [33]
3.2.1.1 Phương pháp TextFuseNet
TextFuseNet [32] được truyền cảm hứng từ phương pháp Mask R-CNN [49]
nhưng ứng dụng qua bài toán phát hiện văn bản Phương pháp này mô hình hoá
26