UIT-DANH MỤC TỪ VIẾT TÁTSTT | Từ viết tắt Ý nghĩa 01 Al Tri tuệ nhân tao — Artificial Intelligence M6 hinh mang no ron nhan tao Convolution Neural Network 05 cv Thị giác máy tính — Compu
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
LÊ THANH LỰC
PHÁT HIỆN DOI TƯỢNG TREN AN PHAM TIENG VIET
SU DUNG MANG HOC SAU
LUAN VAN THAC SI
NGANH CONG NGHE THONG TIN
MA SO: 8.48.02.01
TP HO CHi MINH, 2023
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
NGƯỜI HƯỚNG DAN KHOA HỌC:
TS NGUYEN TAN TRAN MINH KHANG
TP HO CHi MINH, 2023
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất đến TS Nguyễn Tan Trần Minh Khang
Trong quá trình thực hiện khóa luận, tôi đã nhận được sự quan tâm giúp đỡ, hướng
dẫn rất tận tình và tâm huyết của Thay Không chỉ có kiến thức chuyên môn, Thay
truyền đạt cho tôi rat nhiều kỹ năng, kiến thức khác giúp tôi có cái nhìn sâu sắc hơn
về sự nghiệp, học tập và xã hội
Tir những kiến thức các Thay truyền dat, tôi nhận ra thé nào mới là nghiên cứukhoa học đúng cách, tầm quan trọng của nghiên cứu khoa học, cũng như cách truyềntải nội dung nghiên cứu của mình đến người đọc, người nghe Sự quan tâm hướng
dẫn tận tình và kiến thức các Thay truyén đạt là động lực mạnh mẽ giúp tôi hoàn
thành khóa luận này
Bén cạnh đó, tôi xin gửi lời cảm ơn đến anh Võ Duy Nguyên, bạn Nguyễn Trọng,
Thuan, cùng các bạn sinh viên trong nhóm nghiên cứu UIT-Together Nhờ những
thảo luận, đóng góp rất tích cực của các Thay, các anh chị, các ban trong nhóm đãgiúp tôi có nhiều ý tưởng dé thử nghiệm
Xin chúc những điều tốt đẹp nhát sẽ luôn đồng hành cùng mọi người
Trang 4LỜI CAM ĐOAN Tôi xin cam đoan dé tài luận văn thạc sĩ “Phát hiện đối tượng trên ấn phẩm tiếng việt sử dụng mạng học sâu” là công trình nghiên cứu của tôi dưới sự hướng dẫn của TS Nguyễn Tan Trần Minh Khang Mọi thông tin trích dẫn trong luận văn đềuđược chú thích và liệt kê đầy đủ trong các tài liệu tham khảo Các số liệu và kết quảnghiên cứu được trình bảy trong luận văn là trung thực và chưa từng được công bố
trong bắt cứ công trình nghiên cứu nao, ngoại trừ bài báo do tôi làm tác giả va các tư
liệu được trích dẫn trong tài liệu tham khảo.
Học viên thực hiện
oe
Trang 5MỤC LỤC
NHỮNG DONG GÓP CHÍNH : 2 222222222112.errrrrrrorlChương 1 TONG QUAN c2 62 12222t1tttttttrrrrrererireoo.2!
1.1 Đặt vấn đỀ on nghe nu ueeoeeoo2
1⁄2 Phát biểu bài toán ::: 22 222222222221211101111211.1.1.0.0eee2
1.4 Mục tiêu và phạm vi của luận văn - 5à eects eens
1.5 Bố cục của luận văn -222 2222222222212 22 rrrereeeeeeeeo.£
Chương 2 CÁC NGHIÊN CỨU LIEN QUAN 22¿2¿2222222222zzzz-z Ổ2.1 Các hướng tiếp cận truyền thong teeters
2.2 Các hướng tiếp cận dựa trên học sâu : ¿5:25 S222Sv2vzxsEvsrrxrrrrssrsrev F
Chương 3 PHƯƠNG PHÁP PHÁT HIỆN DOI TƯỢNG DỰA TREN HỌC SAU93.1 Bài toán phát hiện đối tượng —
3.1.2 Phân loại wd 3.1.3 Mang no-ron tích chập _ 11
3.1.4 Ung dụng " 13.1.5 Một số phương pháp phát hiện đối tượng tiên tiến 123.2 Các thành phan của bộ phát hiện đối tượng -. . scccccsc 7
5.212: DÄCKDOHC cuc (60066652 0001063 0060105 0 6x30 L01133010023230030322211613400166113310L1409
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 2scscseseces 3
4.1 Bộ dữ liệu UIT-DODV-Ext 2s 2 2222222211.38 4.2 Tiêu chí đánh giá - 22c 22c 2 2rirerierrierirree 40
Trang 64.2.1 mean Average Precision (ImAT) 5 ccccscccxcekceriereevee
443 Cài đặt thực nghi6m oo cece ses St St tt tre
44 Kết quả thực nghiệm, đánh giá và ban luận s55
Chương 5 DE XUẤT CẢI TIỀN VÀ ĐÁNH GIÁ KET QUẢ 5.1 Mô hình phát hiện đối tượng trên an phẩm tiếng Việt - CasGRoIENet
5.1.1 Guided Anchoring
S12 CASGROLENC oo cesccceccces cece cess seees essences neseeeceiseeeesneseieneaneeseneeeaeeeee
5.2 Đánh giá kết qua đề xuất
5.3 Phân tích kết quả dé xuất
Chương 6 KET LUẬN VA HƯỚNG PHÁT TRIỂN -::22222222222:26.1 Kết luận
6.2 Hướng phát triển 222222222222222122111111211221211111222222111 xeTÀI LIEU THAM KHẢO
PHU LUC - BÀI BÁO
PHU LUC - QUYÉT ĐỊNH THÀNH LẬP HỘI PHU LUC - NHẬN XÉT :::::: 2112112122122 PHU LUC - YÊU CÂU CHỈNH SỬA VA BANG GIẢI TRÌNH
ĐỎNG 2252:5: 40
44
44 44 44 46 46 46 50
Trang 7DANH MỤC HÌNHHình 1-1: Minh họa bài toán phát hiện đối tượng trên ấn phẩm tiếng Việt 3Hình 1-2 Các thách thức đến từ yếu tố bên ngoài trên ảnh tài liéu
Hình 2-1 Minh họa cho hướng tiếp cận truyền thống của bài toán phát hiện đối tượng
trên ảnh tài liệu [5] 26 Hình 2-2 Minh hoa cho hướng tiép cận dựa trên của bai toán phát hiện đôi tượng trên
Ar R0
Hình 3-1 Minh hoa framework của thuật toán phát hiện đối tượng Hai giai đoạn .10
Hình 3-2 Kiến trúc R-CNN [29] 1111 1arreeessee 12)Hình 3-3 Kiến trúc Fast R-CNN [30] 222 2 22222222zeeeeeeee.#Hình 3-4 Kiến trúc Faster R-CNN [8] 14Hình 3-5 Kết quả dự đoán của mô hình phát hiện đối tượng được huấn luyện tại các
Hình 3-6 So sánh Cascade R-CNN và các phương pháp trước đó [9] 17
Hình 3-7 Kiến trúc tong quan của CARAFE [10] -: : .-sssccs .- T8Hình 3-8 Cơ chế hoạt động của Generic Rol Extractor (GRoIE) [11] 21Hình 3-9 Minh họa cơ chế hoạt động của Lưới kim tự tháp đặc trưng (Feature
Pyramid Grids - FPG) [12] 5:55:22: 5tSt2xEtttrrsrrrrerrrrrrrrrrero.2
Hình 3-10 Các cầu hình mô-đun chú ý cho nghiên cứu thực nghiệm [13] 28Hình 3-11 Kiến trúc mang High Resolution Net (HRNet) [14] 29
Hình 3-12 Tổng quan của Split-Attention Block [15] - - -3!
Hình 4-1 Một số mẫu trong bộ dit liệu UIT-DODV-Ext -. -.-.-35
Hình 4-2 Đường cong Preeision-Reeall - c2 5ccccceccecceeceereeee.42)
Hình 5-1 Chiến lược neo có hướng dẫn (guided anchoring scheme) [35] 47Hình 5-2 Tổng quan về kiến trúc mô hình CasGRolENet : —
Hình 5-3 Minh họa một số trường hợp dự đoán tot trên mô hình CasGRolENet (hộp
màu xanh lá cây: bảng, hộp màu xanh lam: hình và hộp màu đỏ: chú thích) 53
Hình 5-4 Minh họa một số trường hợp dự đoán chưa tốt trên mô hình CasGRoIENet
(hộp màu xanh lá cây: bang, hộp màu xanh lam: hình và hộp màu đỏ: chú thích) .54
Trang 8DANH MỤC BẰNGBang 4-1 Thống kê thông tin ảnh trên bộ dữ liệu UIT-DODV-Ext [32] 36Bang 4-2 Thống kê số lượng đối tượng trên bộ dữ liệu UIT-DODV-Ext [32] 37Bảng 4-3 Kết quả thực nghiệm trên bộ dữ liệu UIT-DODV-Ext (%) Thử nghiệm với
neck va backbone được tiền hành với Faster R-CNN (cầu hình mặc định) Kết quả tốt
nhất được tô màu đồ c eterrrrrrerrrrrrrrrreeoesaoo.44Bảng 5-1 So sánh kết quả đề xuất với thực nghiệm cơ sở bộ dữ liệu UTT-DODV-Ext
(%) Kết quả tốt nhất được tô màu đỏ -2-25cccccccc.ST
Bảng 5-2 So sánh kết quả dé xuất với các kết qua state-of-the-art trên bộ đữ liệu DODV-Ext (%) Kết quả tốt nhất được tô màu đỏ -:222:2cccc- 52
Trang 9UIT-DANH MỤC TỪ VIẾT TÁT
STT | Từ viết tắt Ý nghĩa
01 Al Tri tuệ nhân tao — Artificial Intelligence
M6 hinh mang no ron nhan tao
Convolution Neural Network
05 cv Thị giác máy tính — Computer Vision
Doc hiểu đối tượng tài liệu dạng ảnh
06 DIU
— Document Image Understanding
07 DL Học sâu — Deep Learning
Mô hình mạng trích xuất đặc trưng Kim tự tháp
08 FPN
— Feature Pyramid Network
Độ chính xác trung bình
09 mAP/AP " i
- Average Precision / mean Average Precision
10 OD Phat hiện đồi tượng — Object Detection
Tai liệu định dang di động
11 PDE
— Portable Document Format
12 POD Phát hiện đối tượng trang — Page Object Detection
13 RPN Mang dé xuất khu vực — Region Proposal Network
Thuật toán dé xuất khu vực có chọn lọc
14 Ss
— Selective Search
15 Rol Region of Interests — Vùng quan tâm
16 R-CNN Region-Based Convolutional Neural Networks
Trang 10STT Từ viết tắt Ý nghĩa
17 CARAFE Content-Aware ReAssembly of FEatures
18 GRolE Generic Rol Extractor
19 NAS Neural Architecture Search
20 HRNet High Resolution Net
Trang 11NHỮNG ĐÓNG GÓP CHÍNH
Nội dung luận văn đã tom tắt và hệ thống lại kiến thức về bài toán phát hiện đối
tượng, giới thiệu và phân tích xu hướng phát triển của các phương pháp phát hiện đối
tượng trong ảnh tài liệu sử dụng phương pháp học sâu.
Trinh bày các phương pháp phát hiện đối tượng dựa trên học sâu và các mô-đun
trong một máy dò (neck và backbone) Cụ thé là 02 phương pháp phát hiện đói tượng
(Faster R-CNN, Cascade R-CNN), 03 neck (CARAFE, GroIE, FPG), 04 backbone
(Generalized Attention, HRNet, ResNeSt, ResNet strikes back) Thực hiện huấnluyện và đánh gia các phương pháp trên hai bộ dữ liệu tai liệu dang ảnh tiếng Việt —UIT-DODV-Ext Qua kết quả thực nghiệm, chúng tôi đề xuất cải thiện kết quả và
đánh giá kết quả của những dé xuất đó
Kết quả của nghiên cứu đã được chấp nhận trình bày báo cáo và bài báo được
đăng trong kỷ yếu Hội nghị khoa học quốc tế "NAFOSTED Conference onInformation and Computer Science "— NICS 2022 với tựa dé "Page Object Detection
in Vietnamese Document Images with Novel Approach”
Trang 12Chương 1 TONG QUAN
Nội dung chương này trình bày phân đặt van đề, phát biểu tông quan về bàitoán, các thách thức gặp phải, mục tiêu - phạm vi của luận văn và cuối cùng là bé
cục cua luận văn.
1.1 Dat van dé
Quyết tâm của Việt Nam trong việc thúc day xu hướng toàn cầu về chuyền déi
kỹ thuật số được thé hiện trong tuyên bố của các nhà lãnh đạo, nhận thức chung củangười dân và các hành động trên thực tế Do đó, chúng ta đã chứng kiến sự phổ biến
ngày cảng tăng của các tải liệu tiếng Việt trên các nền tâng như Facebook và báo điện
tử Chuyên đổi số đang trở thành xu hướng chủ đạo tại Việt Nam Các tài liệu tiếng
Việt đã được số hóa (ví dụ: văn bản hành chính, bài báo khoa học, sách giáo khoa)
có sẵn trên nền tảng Internet Do đó, chúng ta cần các thuật toán có thể hiểu tải liệu
và được tích hợp vào thiết bị di động Hơn nữa, tiếng Việt là một ngôn ngữ
Austroasiatic dựa trên bảng chữ cái Latinh có thêm các ký hiệu dấu và các ký tự phụ
Tiếng Việt là tiếng mẹ đẻ của 99 triệu người Việt Nam va 4,5 triệu người Việt Nam
nhập cư trên khắp thê giới Vì vậy, các nghiên cứu trong lĩnh vực thị giác máy tínhliên quan đến tiếng Việt vẫn tồn tại những thách thức lớn
1.2 Phát biểu bài toán
Phân tích hình ảnh tài liệu [1]-[4] là một thử thách lớn trên thé giới, bao gồmnhiều nhiệm vụ như phát hiện đối tượng trên ảnh tài liệu (page object detection) [5],trả lời câu hỏi trực quan (visual question answering) [6], nhận dạng cau trúc bố cục(layout structure recognition) [7] Phát hiện đối tượng trên ảnh tài liệu là một van dénghiên cứu quan trọng với nhiều loại ứng dụng, từ việc phát hiện và hiểu các thànhphan chính trong tai liệu Đặc biệt, các hệ thông trích xuất thông tin chỉ được thé hiệnđầy đủ khi nhận diện được nội dung văn bản bằng nhận diện ký tự quang học (opticalcharacter recognition) từ vi trí thích hợp của các đối tượng Dé đạt được điều nay,chúng ta cần một mô hình dé phát hiện và định vị vị trí của các các đối tượng nhưbảng, hình, chú thích Bài toán phát hiện đối tượng trên ấn phẩm tiếng Việt được trình
Trang 13bảy tại Hình 1-1 Nhiệm vụ được đặt ra trong de tải nay la phải xây dựng mô hình cóthé phát hiện đối tượng như linh, bang, chú thích tir hình anh dau vao là bai báo khoa
học hoặc sách giao khoa.
Đầu vào Đầu ra
Hình 1-1: Minh họa bai toán phát hiện đối tượng trên an phẩm tiếng Việt
1⁄3 Cac thách thức.
Hình 1-2 Các thách thức đến từ yêu tố bên ngoài trên ảnh tải liệu
Trong những năm gan đây, mang học sâu dang trở thành cách tiếp cận chínhcho bai toán nay Tuy nhiên, nó vẫn phải đổi mat với những thách thức phát sinh tir
Trang 14các yếu tố bên ngoài được thé hiện tại Hình 1-2 (vi dụ: độ nghiêng, độ mờ, độ nhiễu,
độ chiếu sáng, sự che khuat, ) và các yếu tố bên trong của cấu trúc và bố cục trong
các mẫu khác nhau
Bên cạnh các yêu tô bên ngoài, còn phải kể đến các yêu tó bên trong bao gồm
bồ cục phức tạp (trang một cột và nhiều cột) và sự đa dạng của các đối tượng (kiểu
phông chữ, cỡ chữ và định dạng nội dung) Do đó, máy dò phải thích ứng với các
biến thể cao của tài liệu
Ngoài cách thách thức về dữ liệu, bai toán này cũng gặp những khó khăn về mặt
kỹ thuật và tài nguyên Hiện nay, có rất nhiều toán học sâu tiên tiến vì vậy đòi hỏi
cần phải nghiên cứu cài đặt một cách thận trọng đề tối ưu với các tài nguyên hiện có
1.4 Mục tiêu và phạm vi của luận văn
“Trong phạm vi một dé tai luận văn thạc sĩ, mục tiêu chính của luận văn nay là:
(1) Tìm hiểu tổng quan về bài toán phát hiện đối tượng trong tải liệu dang ảnh
(2)Tìm hiểu và hệ thống lại về các mạng học sâu phát hiện đối tượng, các
mô-dun trong một máy dò (neck và backbone) Cụ thê là 02 phương pháp phát
hiện đối tượng (Faster R-CNN [8], Cascade R-CNN [9]), 03 neck (CARAFE
[10], GrolE [11], FPG [12]), 04 backbone (Generalized Attention [13], HRNet [14], ResNeSt [15], ResNet strikes back [16]).
(3) Thực nghiệm đánh giá các phương pháp đã tìm hiểu cho bài toán phát hiệnđối tượng trên án phẩm tiếng Việt trên bộ dữ liệu UIT-DODV-Ext [7] Đánhgiá hiệu suất của các mô hình theo độ đo mean Average Precision (mAP)
Dua trên kết quả thực nghiệm cơ sở, giới thiệu mô hình CasGRolENet dé
cải thiện mAP trên bộ dữ liệu UIT-DODV-Ext.
1.5 Bồ cục của luận văn
Luận văn được bé cục bao gồm 06 chương, nội dung chính của từng chương như sau:
Trang 15Chương 1: Tổng quan Giới thiệu tổng quan về nội dung đề tài luận văn bao.gồm: đặt van đề, phát biểu bài toán, mục tiêu và phạm vi nghiên cứu.
Chương 2: Các nghiên cứu liên quan Trong chương 2, luận văn trình bày
phần khảo sát và tìm hiểu các nghiên cứu liên quan đến bài toán
Chương 3: Phương pháp phát hiện đối tượng dua trên học sâu Trongchương này, luận văn sẽ tập trung trình bày các phương pháp phát hiện đốitượng dựa trên học sâu tiên tiến
Chương 4: Thực nghiệm và đánh giá Chương này sẽ giới thiệu về bộ dữ
liệu được sử dụng trong luận văn Cài đặt và đánh giá thực nghiệm các
phương pháp đã tìm hiểu ở Chương 3
Chương 5: Dé xuất cải tiến và đánh giá kết qua Chương này trình bày đềxuất cải tiền dựa trên những quan sát thu được từ kết quả thực nghiệm cơ sở
và đánh giá kết quả của đề xuất đó
Chương 6: Kết luận và hướng phat trién Cuôi cing, Chương 6 sẽ tổng kết
lại những kết quả đã đạt được của khóa luận, bàn luận thêm những ý tưởng
và hướng phát triển cho đề tài luận văn
Trang 16Chương 2, CÁC NGHIÊN CỨU LIÊN QUAN
Như đã giới thiệu ở Chương 1, luận văn nay tập trung vào bài toán phat hiện
đối tượng trong tải liệu dạng ảnh Do đó, nội dung Chương 2 giới thiệu sơ nét về các
hướng tiếp cận liên quan đến bài toán Cho đến thời điểm hiện nay thi bài toán pháthiện đổi tượng trong anh tài liệu có hai hưởng tiếp cận chính đỏ là truyền thông và
dựa trên các mang hoe sâu.
2.1 Các hướng tiếp cận truyền thong
HMM, SVM
Predicted Page Objects
Hinh 2-1 Minh họa cho hưởng tiếp cận truyền thông của bai toán phát hiện đối
tượng trên ảnh tài liệu [5]
Các phương pháp tiếp cận truyền thông tân dụng các kỹ thuật xử lý, trích xuất
đặc trưng hình ảnh truyền thông hoặc dựa trên rule-based dé rút trich đặc trưng (Hình
2-1) Năm 1995, các nha nghiên cửu đã áp dụng hai phương pháp chỉnh là dựa trên
kết cầu (texture-based) [17], [18] va hình dang (shape-based) [19] [20] [21] Cho dénnăm 2002, Cesarini và công sự [22] đã đẻ xuất phương pháp phát hiện bang dựa vaocác đường ké ngang dọc, sau đó xác định khu vực can quan tâm được bao quanh bởi
những đường nay Năm 2005, Gatos va công sự [23] đã giới thiệu một phiên bản cải
tiên của phương pháp trên bang cách thêm phát hiên các điểm giao nhau để giảm cácsai sot khi phát hiện các vùng ứng viên Mặc du đã đạt được rất nhiều tiễn bộ lớn, tuy
Trang 17nhiên các phương pháp phát hiện doi tượng trang truyền thông vẫn còn tôn tại nhiềuvan dé nhur phat hién lỗi, bị bỏ sót.
2.2 Các hướng tiếp cận dựa trên học sâu
Grouping and Input Document Feature Extraction Predicted Page
Preprocessing Backbonetechniques” =Ế
Hình 2-2 Minh họa cho hướng tiếp cận dựa trên của bài toán phát hiện doi tượng
trên ảnh tải liệu [5].
Vi sự giới han của các phương pháp truyền thông, hưởng tiếp can nay dang danđược thay thẻ bằng các phương pháp dựa trên học sâu Trong những năm gần đây,nhiều phương pháp dựa trên học sâu dé phát hiện đối tượng đã xuất hiện va mang lạinhững cải tiên hiệu suất kha tốt Trong đỏ, co những mô hình học sâu đã được thiết
kế riêng cho bài toán phát hiện đổi tượng trên tải liệu dạng ảnh Các phương phápdựa trên học sâu thường sử dụng mạng CNN dé tạo ra các ban đỏ đặc trưng không
gian từ các hình anh tải liệu đầu vào (Hình 2-2), Nói cách khác, mạng CNN được sử
dung đẻ làm backbone cho các phương pháp phát hiện đổi tượng
Các phương pháp học sâu lần đầu tiên được giới thiệu từ những năm 2016 trở
đi với dé xuất sử dụng CNN dé xác định từng vùng dé xuất có chửa bang hay khôngcủa Hao vả cộng sự [24] Năm 2017, Yang vả công sự [25] dé xuất mang Multimodel
Full CNN cho phan đoạn trang đẻ phát hiện các dai tượng bang, hình và các đỗi tượng
khác trong trang Ngoải ra, He và công sự [18] cũng đã dé xuất Multi scale multi-taskFCN dé phát hiện các vùng và đường viễn của bang, sử dung kết qua phát hiện đường
Trang 18viền dé cải thiện nhiệm vụ phát hiện đối tượng bảng Năm 2018, Li và cộng sự [26]lần đầu tiên sử dụng các phương pháp phân tích bố cục dé xác định các vùng bangứng viên, đặc biệt trong đề xuất này là áp dung Conditional Random Field — CRF vàCNN dé phân loại thành các công thức, bảng, hình hoặc đô thị Năm 2019, Qasim và
cộng sự [27] đã dé xuất một kiến trúc dựa trên mạng đồ thị như một hướng mới để
nhận diện bảng Tác giả lập luận rằng mạng đồ thị là một lựa chọn tự nhiên cho những
van dé này và khám phá hai mang nơ-ron đồ thi dựa trên gradient Năm 2020, Prasad
và công sự [28] đã đề xuất CascadeTabNet: một mô hình dựa trên Mạng phân giải
cao với CNN và mặt nạ phân tang dé phát hiện các vùng của đối tượng bảng và nhậndiện đồng thời các ô (cell) cấu trúc từ các bảng được phát hiện
Trang 19Chương 3 PHƯƠNG PHÁP PHÁT HIEN BOI TƯỢNG DỰA TREN
HỌC SÂU
Trong chương này, chúng tôi tập trung giới thiệu vé tong quan về các phươngpháp phát hiện đối tượng
Phân tích và nhận dạng tài liệu là một lĩnh vực của thị giác máy tính do đó nó
cũng chịu ảnh hưởng rat nhiều bởi học sâu Nhiều nghiên cứu đã bắt dau áp dụng cácphương pháp dựa trên học sâu cho nhiệm vụ phát hiện đối tượng trong ảnh tài liệu.Trong các phương pháp này, các tài liệu PDF thường được biến đổi thành các tranghình ảnh, sau đó sử dụng mạng học sâu dé huần luyện và phát hiện đối tượng Phươngpháp phát hiện đồi tượng dựa trên học sâu
3.1 Bài toán phát hiện đối tượng
3.11 Giới thiệu
Phát hiện đối tượng (object detection) mô tả một tập hợp các nhiệm vu thị giácmáy tinh (computer vision) Cụ thé, bài toán nay có liên quan đến hai nhiệm vụ chính
là định vị vị trí của các đối tượng (localization) và phân lớp (classification)
¢ Dinh vị đối tượng (localization): xác định vị trí xuất hiện của các đối tượng
trong ảnh và thẻ hiện vị trí của chúng bằng hộp giới hạn (bounding - box)
e Phan lớp đối tượng (classification): dự đoán nhãn của một đối tượng (tại mỗi
vị trí được xác định có chứa đối tượng sẽ được dự đoán đối tượng đó là đối
tượng nào).
3.12 Phân loại
Thông thường, thuật toán phát hiện đối tượng được phân chia thành hai nhómchính với những điểm khác biệt cơ bản sau
¢ Hai giai đoạn: điền hình là các phương pháp thuộc họ các mô hình R-CNN,
Mask R-CNN Các phương pháp này thuộc nhóm thuật toán phát hiện đối
tượng Hai giai đoạn vì mô hình phải thực hiện sẽ thực hiện 2 phần gồm trích
Trang 20chon (extract) các vùng trên anh củ khả năng chứa đối tượng dựa vảo các
hộp neo (anchor box), sau đó sẽ thực hiện tiếp phân loại đổi tượng vả định
vị trí Đặc điểm chung của các thuật toản thuộc nhỏm nay lả dé cao về độchính xác thay vi tốc độ Cụ thé hơn, khung lam việc (framework) của thuậttoán phát hiện đổi tượng Hai giải đoạn bao gồm các thành phần chính minhhọa trong Hình 3-1 Cụ thé, nó bao gồm một mô-đun xương sống(backbone), cổ (neck) va dau (head) với các nhiệm vụ cụ thé Mé-dun xươngsống khai thác các đặc trưng ở các độ phân giải khác nhau, trích xuất các đặctrưng can thiết của nó Sau đó, mé-dun neck hợp nhất đặc trưng trích xuất tirxương song Cudi cùng, may dò có nhiều mé-dun dau phát hiện các đối
tượng,
đoạn.
© One-stage: điển hình với các phương pháp thuộc họ họ YOLO, SSD,
Restina Đôi với nhóm thuật toán này, mô hình sẽ không cỏ phan rút trích
các vùng đặc trưng như Hai giai đoạn Các mô hinh One-stawe xem bai toản
phát hiện đối tượng như một bai toán hỏi quy và dựa trên pre-define box dé
phát hiện đối tượng, Đặc điểm của các mô hình One-stage là có sự đánh đổi
giữa tốc độ và đô chính xác, khi đạt được tốc độ suy nhanh hơn nhưng
thường kém hơn so với Hai giai đoạn.
10
Trang 213.13 Mạng no-ron tích chập
Mạng nơ-ron tích chập (CNN) là một trong những yếu tố quyết định sự thành
công của một mô hình phát hiện đối tượng, khi nó đóng vai trò như một xương sống
(backbone) dé rút trích đặc trưng CNN bao gồm các tang: tầng tích chập(convolution), tang tổng hợp (pooling) và tang liên kết day đủ (fully connected)
¢ _ Tầng tích chập: thực hiện nhiệm vụ trích xuất đặc trưng bang cách sử dungmột bộ lọc dé tìm kiếm và trích xuất những thông tin quan trọng từ dữ liệuđầu vào, đồng thời giảm số chiều cho các lớp ân tiếp theo Sau đó, các giátrị đầu ra sẽ được tính toán bằng các hàm kích hoạt (activated function) như
ReLU, tanh, sigmoid.
¢ Tang tổng hợp: tang tông hop làm giảm số chiều cho dữ liệu đầu vào hay
đồng nghĩa với giảm số lượng tham só, rút ngắn được thời gian huấn luyện
dé hạn chế overfitting Tang tông hợp sử dụng bộ lọc trượt qua dữ liệu đầu
vào dé trích xuất đặc trưng cần thiết với MaxPooling hoặc AveragePooling
Trong đó, MaxPooling lấy giá trị cao nhất trong vùng của bộ lọc đi qua còn
AveragePooling sẽ tính toán giá trị trung bình trong vùng bộ lọc đi qua.
« _ Tầng liên kết day đủ: từ kết quả dau ra của tầng tong hợp sẽ là một ma trận
ở dang hai hoặc ba chiều Sau đó, các ma trận này trước khi đưa vô tang FC
sẽ được làm phăng (flatten) thành một vector đặc trưng
3.1.4 Ung dụng
Phát hiện phương tiện giao thông dé giám sát, phân luồng giao thông
Phat hiện nguy hiểm trên xe không người lái
Nhận diện ký tự quang học hoặc trong điều kiện tự nhiên
1I
Trang 223.1.5 Một số phương pháp phát hiện dỗi tượng tiên tién
3.1.5.1 Faster R-CNN
(a) R-CNN
RCH Regions with CNN features
] warped reel 7|acroplan? no.
R-CNN được giới thiệu lần đầu vào 2014 bởi Ross Girshick và cộng sự [29] ở
UC Berkeley trong bai bao “Rich feature hierarchies for accurate object detection and
semantic segmentation” R-CNN là một thuật toán kha đơn giản gém hai bước thựchiện chính Đầu tiên, sử dụng thuật toán Selective Search dé di tìm các vùng dé xuất.Sau đó sir dụng CNN đẻ trích xuất đặc trưng tử những hộp giới hạn đỏ Kiến trúc củaR-CNN gỗm ba thành phan chính như tại Hình 3-2:
© Vùng dé xuất (region proposal): Thuật toán Selective Search trích xuất rakhoảng 2000 vùng dé xuất (Rol) tir hình anh đầu vào, đây là vùng có khả
năng chứa đối tượng
© Trich chon đặc trưng (feature rxtractor): Trích xuất các đặc trưng giúp nhận
điện hình ảnh từ các vùng dé xuất thông qua các mang CNN, Trong quá trìnhtrích xuất đặc trưng, mỗi lần truyền các Rol sẽ được tình chỉnh kích thước
(resize) dé phù hợp với kích thước đầu vào của mang CNN Sau khi tinhtoán, mỗi Rol sẽ có được các vector đặc trưng
Trang 23e Phan loại (classifier): Các vector đặc trưng sẽ được đưa vào mô hình SVM
để phân loại Bên cạnh đó các đặc trưng cũng được dùng đề dự đoán 4 offsetsvalues cho mỗi cạnh Các vector đặc trưng sẽ đưa vào thuật toán pre-trained
SVM phân lớp cho đối tượng và hồi quy (regression) Bounding Box
(b) Fast R-CNN
Nam 2015, Fast R-CNN [30] được giới thiệu bởi cùng nhóm tac giả voi R-CNN
để giải quyết một số hạn chế và xây dựng một thuật toán phát hiện đối tượng nhanh
hơn Kiến trúc Fast R-CNN được minh họa tại Hình 3-3 bao gồm mạng CNN làmbackbone, Rol Pooling layer, Classifier và Bounding-box Regression Cách tiếp cậncủa Fast R-CNN tương tự R-CNN Tuy nhiên, thay vì đưa các đề xuất khu vực vào
CNN (sau khi dùng SS chọn lọc các Rol), Fast R-CNN cho bức ảnh vào ConvNet
(một vài lớp convolutional và max pooling) trích xuất convolutional feature map Sau
đó, các vùng đề xuất sẽ được lấy ra từ các convolutional feature map tương ứng Tiếptheo các vùng đề xuất sẽ được đưa vào các lớp Flatten đã được thêm vào dé duỗi
thành các vector đặc trưng và 2 lớp FCs được thêm vào đề dự đoán lớp của các vùng
đề xuất cũng như giá trị offset của hộp giới hạn Tuy nhiên giá trị của các vùng đề
xuất là không giống nhau do đó khi flatten sẽ ra các vector đặc trưng có kích thước
khác nhau vì vậy Region of Interest (Rol) pooling ra đời Điểm khác biệt của Rol
pooling so với max pooling va average pooling là nó không quan tâm kích thước của
tensor input và luôn cho ra output có kích thước được định nghĩa từ trước.
13
Trang 24Outputs: bbox
softmax regressor
Rol featurefeature map VECEOF me oj
Hinh 3-3 Kiến trúc Fast R-CNN [30]
(c) Faster R-CNNN
Faster CNN là phiên bản cải tiên dựa trên phiên bản tién nhiệm là Fast
R-CNN [30] va R-R-CNN |29] với mục dich hướng tới phát hiện đối tượng theo thời gian
thực với mang để xuất khu vực RPN như được mình họa tại Hình 3-4
comv agers
Hình 3-4 Kiến trúc Faster R-CNN [8]
Tương tự như các mạng phát hiện đối tượng trước đó, Faster R-CNN cũng chotoàn bộ hình anh đầu vào qua ConvNet để hình thành ban đỗ đặc trưng (feature map)
Tuy nhiên, Faster R-CNN đã loại bỏ đi thuật toán để xuất khu vực Selective Search
va đã đạt được tốc độ xắp xi thời gian thực thông qua mạng dé xuất vùng (RPN) RPN
Trang 25đã được thêm trực tiếp vào sau lớp tích chập cuỗi củng để tạo ra các đề xuất khu vựcmột cách trực tiếp thay vi phải được xử lý qua thuật toan trung gian Cụ thẻ, RPN
nhận dau vào là bản dé đặc trưng (feature map) được trích xuất từ ConvNet Sau do,cửa số trượt được sử dụng dé trượt trên bản dé đặc trưng tai mỗi vị trí RPN sẽ thực
hiện dự đoán vị trí cho k hộp tham chiều hay con được gọi là neo (anchor box) Các
hộp neo được xác định bằng tọa độ vị trí trung tâm (Xeense, cenray) cùng với chiều
dai và chiều réng (width, height) Tại mỗi hộp neo, RPN dự đoán phan loại đẻ phân
loại có phải là đối tương hay không (background/foreground) và hỏi quy dé hỏi quy
vị trí vùng có khả năng chứa đối tượng Tiếp theo, các đẻ xuất khu vực được tinhchỉnh kích thước bằng Rol Pooling va thực hiện phan dự đoán (classifier) vả hai quy
(regression):
¢ Nhánh phan loại có € + 1 đơn vị cho C lớp của bai toán va 1 lớp nên
(background) Các veetor đặc trưng được truyền qua Softmax dự đoán điểm
số phân lớp (classifier score) va lớp của đổi tượng
¢ Nhánh hoi quy hép giới han (bounding box regression) ding đẻ tinh chỉnh
các hộp được dự đoán thu được từ RPN.
Trang 26© Mô hình bị overfitting do các mẫu đương tinh (positive sample) biến mattheo cấp số nhân khi ngưỡng IoU tăng lên.
¢ Su không phù hợp về chat lượng thời gian suy luận giữa bộ phát hiện va các
đề xuất đầu vào (huấn luyện ở ngưỡng IoU cao hon/thap hơn nhưng kiểmtra ở ngưỡng IoU thấp hon/cao hơn),
Do đó, Cascade R-CNN được Zhaowei Cai, Nuno Vasconcelos [9] giới thiệu déhướng đến phát hiện đối tượng chất lượng cao Faster R-CNN thường sử dụng loU
dé xác định các mẫu tích cực (positive) và tiêu cực (negative) cho các hộp giới han,
tuy nhiên các máy dò này thường được huấn luyện với một ngưỡng IoU khá thấp
(thường là 0.5) và thường tạo ra các phát hiện nhiễu như được minh họa tại Hình 3-5(a) Trong khi đó, sự khan hiếm của các vùng tích cực khi tăng giá trị IoU lên caomột cách đột ngột (Hình 3-5(b)) sé làm cho khả năng phát hiện đói tượng có xu hướnggiảm Vì vậy, việc phát hiện đối tượng ở ngưỡng IoU nào cũng cũng đều có tính đối
nghịch cao.
Cascade R-CNN tiếp cận van đề trên với một máy dò bao gồm các giai đoạn
được chọn lọc tuần tự hon Cascade R-CNN được huấn luyện một cách tuần tự, sửdụng dau ra của giai đoạn trước dé huấn luyện tại giai đoạn tiếp theo Cu thé, nó đượcthiết kế theo quy tắc phân tầng dựa trên quan sát rằng IoU đầu ra gần như luôn tốthơn IoU dau vào Tác giả lập luận cho điều này có nghĩa là đầu ra của bộ phát hiệnđối tượng được huấn luyện ở một ngưỡng IoU nhất định là một phân phối tốt dé hudn
luyện IoU ở ngưỡng cao hon Vì vậy, điểm nỗi bật của Cascade R-CNN là quy trình
resampling khi các head khác nhau được sử dụng ở các giai đoạn khác nhau
(H1,H2, H3) (Hình 3-6(đ)) và mỗi head được thiết kế cho một ngưỡng IoU từ nhỏđến lớn Khi hoạt động theo cơ chế này, chuỗi các máy dò sẽ thích ứng với IoU ngàycàng cao hơn dé có thê loại bỏ đi van đề overfitting trong quá trình huần luyện
Cascade R-CNN phân tách nhiệm vụ hồi quy một chuỗi các bước đơn giản hơn
và xem như nhiệm vụ hồi quy theo từng giai đoạn Cascade Regression là một quy
trình lầy mẫu lại (resampling) dé cung cấp các mẫu dương tính cho giai đoạn tiếp
16
Trang 27theo, Caseade Regression có nhiều bộ hỏi quy đặc biệt [, fra, } được tôi ưu chocác phân phối được resampling ở các giai đoạn khác nhau (giai đoạn trước đỏ) Nhữngkhác biệt nay khiển cho quá trình định vị chính xác hơn Iterative Bbox (Hình 3-6(b)).
1 [: so [:}m [: xa
(a) Faster R-ƠNN — (bị Iterative RBax ut inference feb Integral Lows (d1 Cascade R-CNN
Hinh 3-6 So sánh Cascade R-CNN va các phương pháp trước đỏ [9].
Đối với phân lớp, vi phân phổi ban dau (của RPN) thường nghiên nhiều vẻ các
trường hợp có chất lượng thấp khiển cho việc học các bộ phân loại chất lượng cao sẽkhông được hiệu qua dẫn den việc học các bộ phan loại có chất lượng cao hơn khônghiểu quả Cascade R-CNN khắc phục van dé nay bằng cách dựa vào CascadeRegression như một cơ chế resampling dựa trên một bộ hỏi quy hép được huần luyện
cho một u nhất định có xu hướng tạo ra các hộp giới hạn có loU cao hơn Tại mỗigiải đoạn t, R-CNN bao gểm một bộ phân lớp hy va hỏi quy f; được tôi ưu hóa cho
ngưỡng loU tt (wŸ > ut).
3.2 Các thành phan của bộ phát hiện đối tượng
3.21 Neck
3.2.1.1 Content-Aware ReAssembly of FEatures (CARAFE)
Feature Pyramid Network, U-Net va Stacked Hourglass đã hoạt đông một cach
hiệu qua nhờ vào việc lay mẫu đặc trưng (feature upsampling) Thiết kế nay rất quantrọng đổi với các tác vụ dự đoán day đặc như phát hiện đổi tượng vả phân đoạn ngữnghĩa Các toan tử lầy mẫu đặc trưng được sử dụng rộng rãi nhất là các phép tinh lắnggiéng gan nhất (nearest neighbor) vả nội suy song tuyến (bilinear interpolations),chúng đều áp dung khoảng cách không gian giữa các pixel để hướng dan quá trình
lay mẫu Tuy nhiên, láng giêng gan nhất và nội suy song tuyển chỉ xem xét vùng lần
17
Trang 28cận pixel phụ, không năm bắt được thông tin ngữ nghĩa phong phú được yêu câu bởicác nhiệm vụ dy đoán day đặc Một lộ trình khác hưởng tới việc lẫy mẫu thích ứng
la giải mã (deconvolution) Một lớp giải mã hoạt đông như một toán tử nghịch đảo
của một lớp tich chap, lớp nảy học một tập hợp cáe kernel lấy mẫu bat khả agnostic) Tuy nhiên, nó cỏ hai nhược điểm lớn Thử nhất, một toán tử giải mã đặt
(instance-cùng một kernel trên toan bộ hình anh làm hạn chê khả năng trong việc thích ung với
¡ mã đi kẻm với một số lượng
lớn tham số Do đó, Jiagqi Wang và công sự [10] đã dé xuất CARAFE để lay mẫu mộtban đỗ đối tượng đặc trưng Tai mỗi vị trí, CARAFE có the tận dụng thông tin cơ bản
để dự đoán các kernel được lắp rap lại (reassembly kernels) vả tập hợp lại các đặccác biến thé địa phương (local variations), Thứ hai,
trưng bên trong một khu vực lan cân được xác định trước Nhờ thông tin có được,
CARAFE có thé sử dụng một kernel lắp ráp lại (reassembly kernel) một cách thích
nghi va được tôi ưu hóa ở các địa phương (local) khác nhau va đạt được hiệu suất tốthơn so với các toán tử lây mẫu chính thông
Spat
(a) Công thức
CARAEE hoạt động như một toán tử lắp ráp lại (reassembly operator) với các
hạt nhân (kernel) nhận biết thông tin (content), CARAFE bao gồm hai bước Bước
18
Trang 29đầu tiên là dự đoán một hạt nhân được lắp ráp lại cho mỗi vị trí đích phù hợp với
thông tin của nó và bước thứ hai là tập hợp lại các đặc trưng với các hạt nhân được
dự đoán Cụ thể, với bản đồ đặc trưng X có kích thước C x H x W và tỷ lệ mẫu ơ(o là một số nguyên) CARAFE sẽ tạo ra một bản dé đặc trưng mới X’ có kích thước
C x oH x øW Đối với bat kỳ vị trí mục tiêu nào 1’ = (i',j") của đầu ra X’, cómột vị trí nguồn tương ứng Í = (i,j) tai đầu vào X, trong doi = |L'/ø],j =U”/ø| và N (X,,k) là vùng conk x k của X trung tâm tại vi trí L, tức là lang giéng
của X).
Trong bước dau tiên, mô-đun dự đoán hạt nhân (kernel prediction module) tý
dự đoán một hạt nhân có vi trí ( loeation-wise kernel) W„ cho mỗi vị trí l’, dựa trênlân cận của X, ¢ là mô-đun lắp ráp lại (reassembly module) nhận biết nội dung sẽ kết
hợp lại hàng xóm của X; với hạt nhân I,,:
Wy = (NỢ,Kencoaer)
Xử = PINK, kup), Wr)
(b) Mé-dun dự đoán hạt nhân
Mô-đun dự đoán hạt nhân (kernel prediction module) tạo ra các hạt nhân được.
lắp ráp lại theo cách nhận biết thông tin Mỗi vi trí nguồn trên X tương ứng với ? vị
trí đích trên X” Mỗi vị trí đích yêu cầu một Kup k„„ dé rap lại hạt nhân, trong đóKyp là hạt nhân trước khi lắp ráp lại, m6-dun nay sẽ xuất ra các hạt nhân được lắp
ráp lại có kích thước C„„ x H x W, trong đó Cy, = ø?kặp trở lên Mô-đun dự đoán
hạt nhân bao gồm ba mô-đun phụ: bộ nén kênh (channel compressor), bộ mã hóathông tin (content encoder) và bộ chuẩn hóa hạt nhân (kernel normalizer) như trongHình 3-7 Bộ nén kênh còn làm giảm kênh của bản dé đặc trưng đầu vào Sau đó, bộ
mã hóa thông tin sẽ lấy bản đồ đặc trưng nén làm đầu vào và mã hóa thông tin dé tạo
ra các hạt nhân lắp ráp lại Cuối cùng, bộ chuẩn hóa hạt nhân áp dụng softmax chomỗi hạt nhân được lắp ráp lại
19
Trang 30(c) Mé-dun lắp ráp lại nhận biết thông tin
Với mỗi hạt nhân W/ được lắp ráp lại, mô-đun lắp ráp lại nhận biết thông tin
(content-aware reassembly module) sẽ tập hợp lại các đặc trưng trong một vùng địa
phương (local) thông qua hàm ø Đối với vị trí mục tiêu U’ và vùng hình vuông tươngứng N (X;, kyp) có tâm tại l = (i,j), việc lắp ráp lại được thê hiện , như sau (r =
3.2.1.2 Generic Rol Extractor (GRoIE)
Trích xuất Khu vực quan tâm (Rol) đóng một vai trò quan trọng trong các mangphát hiện đối tượng khi thực hiện trích xuất một tập hợp con các đặc trưng từ một lớpmạng kim tự tháp đặc trưng (FPN) được gắn trên đầu đường trục (backbone) Tuynhiên, việc trích xuất này bị hạn chế sức mạnh khi tất cả các đặc trưng theo quy mô
cụ thé được giữ lại Trong khi đó, tat cả các lớp của FPN đều giữ lại những thông tinhữu ích Do đó, Leonardo Rossi và cộng sự [11] đã đề xuất Generic Rol Extractor
(GRoIE) bao gồm các khói xây dựng không cục bộ và cơ ché chú ý dé tăng hiệu suất
GRoIE bao gồm 04 mô-đun chính: mô-đun gộp vùng quan tâm (Rol pooler module),mô-đun tiền xử ly (pre-processing module), mô-đun tổng hợp (aggregation module),
mô-đun hậu xử ly (post-processing module) như trong Hình 3-8
Khung làm việc của GRoIE bắt đầu từ một khu vực do RPN đề xuất, đối vớimỗi quy mô, một Rol có kích thước có định được tổng hợp từ khu vực Trước tiên Nbản đồ đối tượng được xử lý trước riêng biệt và sau đó được hợp nhất thành một bản
20
Trang 31đỗ đặc trưng Cuối cùng, hậu xử lý được áp dụng đề trích xuất thông tin global Kiểntrúc nay cho phép đóng góp như nhau ở mỗi quy mô va được hưởng lợi từ thông tin
Hinh 3-8 Cơ chế hoạt động của Generic Rol Extractor (GRoIE) [11]
(a) Mé-dun gộp vùng quan tam
Đây là mô-đun thực hiện max pooling trên vùng quan tâm không đồng nhất dé
có được biểu điển có kích thước cỗ định Rol Align được cho là thích hợp nhất vi nolam giảm một vùng ban đỏ doi tượng hình chữ nhật bằng cách chia Rol ban dau trong,các hộp bằng nhau va áp dụng nội suy song tuyên (bilinear interpolation) bên trongmỗi hộp được dự đoản
(b) Mé-dun tiền xử lý
Mục tiêu của mé-dun nay là áp dung một bản đô tông hợp sơ bộ cho các vùngđược gộp chung, Điều này mang lại cho mạng một mức độ tự do bỏ sung dành riêng
cho từng tỷ lệ hình ảnh Mô-đun này được dành đẻ xử lý trước các bản đô đặc trưng,
va thường được lay bằng một lớp tích chập được liên kết với mỗi tỷ lẻ hình ảnh
Trang 32(4) Mô-ẩun hậu xử lý
Đây là một bước xây dựng bé sung được áp dụng cho các đặc trưng đã hợp nhất
Điều này cho phép mạng học các đặc trưng một cách toàn diện Dé tăng cường sức
mạnh thông tin của Rol cuối cùng, ba loại mô-đun đã được xem xét đề xử lý hậu xử
lý: lớp chập, lớp không cục bộ (non-local) và lớp chú ý (attention).
3.2.1.3 Feature Pyramid Grids (FPG)
Mang kim tự tháp đặc trưng đã được áp dụng rộng rãi trong các tài liệu về phathiện đối tượng dé cải thiện các biểu diễn đối tượng nhằm xử lý tốt hơn các biến thể
về tỷ lệ FPN tăng cường ConvNets với con đường thứ hai từ trên xuống và các kết
nối bên dé làm phong phú các đặc trưng có độ phân giải cao với thông tin ngữ nghĩa
từ các đặc trưng có hân giải tháp hơn Trong khi đó, NAS-FPN cho phép xácđịnh không gian tìm kiếm cho kiến trúc hình chóp mô-đun và áp dụng phương pháphọc tăng cường dé tìm kiếm kiến trúc hoạt động tốt nhát và Auto-FPN cho phép dé
xuất không gian tìm kiếm mới cho cả FPN và đầu hộp Kai Chen và cộng sự [12] đã
đề xuất Lưới kim tự tháp đặc trưng (Feature Pyramid Grids - FPG), một mạng hình
tháp đặc trưng đa đường sâu đại diện cho không gian tỷ lệ đặc trưng như một lưới
thông thường gồm các đường song song được hợp nhát bởi các kết nói bên đa hướnggiữa chúng FPG làm phong phú thêm cách biéu diễn đặc trưng phân cấp được xâydựng bên trong theo lộ trình xương sóng của ConvNet với nhiều đường dẫn kim tựtháp song song Ở cấp độ cao, FPG là sự tổng quát hóa sâu hơn của FPN từ một đến
p theo một cấu trúc kết nói bên day đặc Khác với FPN, tat cả các con đường riêng lẻ
được xây dựng theo cách từ dưới lên, tương tự như con đường xương sống đi từ hình
ảnh đầu vào đến đầu ra dự đoán Để tạo thành một mạng lưới các kim tự tháp đặctrưng, các đường đi của kim tự tháp được đan xen với nhiều kết nối bên khác nhaunhư trong Hình 3-9, ca trên quy mô cũng như trong phạm vi dé cho phép trao đôithông tin qua tat cả các cấp
22
Trang 33Hình 3-9 Minh hoa cơ chế hoạt động của Lưới kim tự tháp đặc trưng (Feature
Pyramid Grids - FPG) [12].
(a) Đường trục
Đường trục (backbone pathway) có thể là đại điện đặc trưng phân cấp của bất
ky ConvNet nao dé phân loại hình ảnh, nó giống với những gi được sử dụng như con
đường từ dưới lên trong FPN Đường trục trong FPG co các bản đỏ đặc trưng của các
ty lệ nhỏ dan từ hình anh dau vào den đầu ra
(b) Đường kim tự tháp
Các giai đoạn xương sống (backbone) sâu hơn, gan với lớp phân loại của mangbiểu thị ngữ nghĩa mức cao, nhưng ở độ phân giải thắp, trong khi các đặc trưng ở giaiđoạn dau chỉ liên quan chủ yêu đến ngữ nghĩa nhưng định vị chính xác do độ phângiải tốt của chúng Mục tiêu của các con đường kim tự tháp là xây đựng các đặc trưngphân giải tốt với thông tin ngữ nghĩa mạnh mẽ Một con đường kim tự tháp duy nhấtliên tiếp đưa ra các vi dụ vẻ các đặc trưng sâu hơn của độ phân giải thấp hơn đến độphân giải cao hơn ở các giai đoạn đầu, nhằm mục đích truyền thông tin ngữ nghĩa
ngược về đầu vào mạng, song song với con đường xương sống (chuyền tiếp)
Trang 34¢ Nhiều con đường kim tự tháp (Multiple pyramid pathways) FPG mở
rộng ý tưởng này bằng cách có nhiều đường hình chóp (p > 1)song songvới mục đích là làm phong phú thêm khả năng của mạng đề xây dựng mộtđại diện mạnh mẽ với độ phân giải tốt trên các chiều không gian và khả năng
phân biệt cao, bằng cách sử dụng song song nhiều đường kim tự tháp Các
đường kim tự tháp được xây dựng theo cách từ dưới lên, song song với
đường trục (và đặc trưng kim tự tháp có độ phân giải cao nhất đầu tiên được.lấy từ giai đoạn đường trục tương ứng) Các kết nói theo đường kim tự thápđược ký hiệu là SameUp trong Hình 3-9 Sự hiện diện của nhiều con đường
là chìa khóa cho khái niệm FPG vì nó cho phép mạng xây dựng các đặc trưng
kim tự tháp mạnh mẽ hơn Bên cạnh đó, để tạo thành Lưới kim tự tháp đặctrưng sâu, p đường dẫn kim tự tháp riêng lẻ được đan xen với các kết nối
bên khác nhau.
¢ Dung lượng kênh thấp (Low channel capacity) Đường dẫn kim tự tháp
trở nên nhẹ bằng cách giảm dung lượng kênh của chúng Cụ thể, các conđường kim tự tháp sử dụng dung lượng kênh thâp hơn đáng kể so với sốlượng kênh của giai đoạn cuối cùng trong con đường xương sống Do đó,việc giảm dung lượng kênh trong các con đường kim tự tháp có thé làm chonhiều con đường trở nên rất hiệu quả về mặt tính toán
(c) Kết nối bên
Mục đích của kết nói bên là làm phong phú các đặc trưng với luồng thông tin
đa hướng multi-directional hay còn gọi là ngữ nghĩa trong không gian tỷ lệ và cho.
phép học đặc trưng phân cấp phức tạp trên các quy mô khác nhau Các kết nói trên
quy mô lớn được sử dung trong phạm vi giữa các con đường liền kề Liên quan đếnđiều này, p đường dẫn kim tự tháp song song của chúng ta với các kết nối bên giữaxác định Lưới kim tự tháp đặc trưng Các kết nối bên của đặc phân loại thành 4 loại
khác nhau theo các giai đoạn đặc trưng bắt đầu và kết thúc của chúng, được biểu thị
là trong Hình 3-9:
24
Trang 35® Across-pathway same-stage (AcrossSame, -*).
® Across-pathway bottom-up connection (AcrossUp, -ˆ).
« Across-pathway top-down (AcrossDown, }.
« Across-pathway skip connection (AcrossSkip, _).
3.2.2 Backbone
3.2.2.1, Generalized Attention
Co chế chủ ý (attention mechanisms) đã trở thành một yếu tổ tang hợp phố biến
trong các mang no-ron sâu, tuy nhiên Xizhou Zhu vả cộng sự [13] cho rằng vẫn chưa
có xác định nao ve việc các yêu tô ảnh hưởng và phương pháp khác nhau đổi với việctinh toán sự chú ý từ các yeu tổ này ảnh hưởng đến mỗi hình thức như the nào Do
đó, ho đã trình bay một nghiên cứu thực nghiệm dua trên các yếu tô gây chú ÿ khônggian khác nhau trong một công thức chú ¥ tong quát, bao gồm sự chủ y trước đây của
transformer cũng như các mé-dun tích chập đồng (dynamic convolution) vả tích chap
biển dang (deformable convolution) phổ biến Phân tích thực nghiệm nay cho thấyrằng cỏ nhiều chỗ dé cai thiện việc thiết ké các oo chế chú ý không gian trong cácmạng sâu Những phát hiện đó được sit dung dé tạo ra một só bước tiễn ban đầu theo
hướng nay.
(a) Công thức chú ý tổng quát
Đưa ra một phan tử truy van vả một tập hợp các phan tử chính, một ham chủ ý
sẽ tông hop một cách thích ứng các nội dung chỉnh và được ghi vào các trọng số cha
ý dé đo lường tinh tương thich của các cặp khóa truy vẫn (query-key pairs) Dé cho
phép mô hình tham gia vao các nội dung chính từ các không gian con biểu diễn khácnhau và các vị trí khác nhau, kết quả đầu ra của nhiều chức năng chú ý (heads) được
tổng hợp tuyến tinh với các trong số có thé học được Cụ thẻ, cho g lập chỉ mục mộtphan tử truy vẫn có nội dung 2, va k lập chỉ mục một phan tử khỏa có nội dung xy.Sau đó, đặc trưng chú ý nhiều dau (multi-head) y, được tinh la:
25
Trang 36Trong sự chú ý của bộ mã hóa-giải mã (encoder-decoder), khóa và truy vấn là
từ hai tập hợp phân tử khác nhau Trong khi đó, trong tự chú ý (self-attention), khóa
và truy van là từ cùng một tập hợp các phan tử
và do đó có tính động đối với đầu vào Khóa và các phan tử truy van là từ cùng một
tập hợp Nó cũng có thê được kết hợp vào công thức tạo sự chú ý được tông hợp hóathế hệ như một sự khởi tạo đặc biệt của sự tự chú ý, trong đó trọng số của sự chú ý
tính toán như sau:
An "(qk Xq) = G(k,q + Pm + WnXq)
26
Trang 37trong đỏ p,, cũng biéu thi một độ lệch xác định trước va w2,x„ tham chiều nộidung truy van x, tới một độ lệch biển dang ac mã hóa thành một vecte có thé họcđược w2 G (a, b) li nội suy song tuyển trong không gian N — d, cỏ thé được câu taothành các nội suy song tuyến 1 chiều là G (a,b) = [N21 g(a„,b„), trong đó a, vàb„ biểu thị chiều thứ n của a và b tương ứng, và Ø(đ„,b„) = max (0,1 = |an =
bm |).
Trong tich chập có thẻ biên dang, các yếu tô chú ¥ là nội dung truy vẫn vả vị trí
tương đối Vùng khóa hỗ trợ Ny có thẻ trai dai trên tat cả các phan tử dau vao do các
độ lệch cỏ thẻ học được, trong khi các trọng số khác 0 được ký hiệu vao một tập hopthưa thớt các phân tử chỉnh nơi thực hiện nội suy song tuyển
(4) Tích chân động
Tich chập động được dé xuất dé đặt lại mé-dun chú ý của Transformer, Tích
chap động được xây dựng dựa trên tich chap phân tách theo chiều sâu (depth-wiseseparable convolution) với trọng số động được chia sẻ, được dự doan dựa trên nội
dung truy van Trong tích chap phân tách theo chiều sâu, một tích chập được tích lũy
thừa thành một tích chap theo chiêu sâu va một tích chập 1 x 1 được gọi là
point-wise convolution, dé giảm tinh toan vả kích thước mô hình va nó chi sử dụng một bộ
lọc duy nhất cho mỗi kênh dau vảo Trong tích chập đông trong kernel cho phép chaptheo chiều sâu được loại bo đông trước các đặc trưng dau vào theo sau là Softmaxcũng như không bj sai lệch Dé tiết kiểm tính toán, các kênh đầu vao được chia thành
nhiều nhóm, trong đó mỗi nhóm có cùng trong số kernel động, Tích chập động cũng
có thé được tích hop với cơ chế chủ ý tong quát với thay đối nhỏ trong mỗi kênh đặctrưng đầu vào ld một chú ý riêng biệt
Cin
Vy = oy wy APTM*TM(4, ke, Xq) * Xe]
cml - ket,
trong đó c liệt ké các kênh của các đặc trưng đầu vào (tông công là các kênh
Cin) x„„„ biểu thị giá trị đặc trưng tại kênh thứ c của x, vả W, là tich chập 1 x 1.
27
Trang 38AgTMTM« (q, k, xq) la trong số chú ý được chỉ định bởi kernel động trong phép chap
theo chiều sâu, được viết đưới dạng:
K,„iƑƒk=q+
Anh (q,k,x,) = { he ¿hi Py
trong đó p; biểu thị vị trí lay mẫu thứ / trong kernel động va Kj, la trong sốkernel tương img Trọng số không chủ ý được gan cho các khỏa bên ngoài kerrnel
“Trọng số kernel Kj, được dự đoán từ các đặc trưng đầu vào vả được chia sẻ giữa các
kênh trong củng một nhóm, như:
số phản tử trong kernel động,
Trong tích chập động, việc gan sự chú y dựa trên nội dung truy van vả yếu tổ vịtrí tương đối Vùng khóa chuyển giao cho khỏa hỗ trợ Q, bi giới hạn trong một cửa
số cục bộ xung quanh vị tri truy van được bao phủ bởi kernel động.
(e) Tích hợp mé-dun chú ý vào mang học sâu
Hinh 3-10 Các cau hình mö-đun chủ ý cho nghiên cửu thực nghiệm [13]
Trang 39Xizhou Zhu vả cộng sự đã kết hợp các cơ chế chú ý khác nhau vảo các mang
sâu dé nghiên cứu ảnh hưởng của chúng, thiết kể thực nghiệm được trình bay trong,Hình 3-10 Đổi với các nhiễm vụ phân đoạn ngữ nghĩa va phan đoạn doi tương,ResNet-50 được chon lam xương sống va chi cỏ cơ chế tự chú ý lả có liên quan Ba
cơ chế chú ý được kết hợp với khối dư Kiến trúc kết quả được gọi là “Khối dư cóchú ý” (“Attended Residual Block), được thé hiện trong Hình 3-10(a) Kiến trúc lưu
trữ mạng tuân theo mô hình cơ sở Transformer với mã hoa vị trí tương đổi với cả co
chế chủ ý tự chú ¥ vả bộ mã hỏa-giải mã đều co liên quan được thé hiện trong Hình
3-10(b) Đối với phan tich chập có thé biển dang của nó, đơn vị tích chập có the biểndang (với kích thước hạt nhân là 3) được đưa vao trước dau vào của mé-dun chú y
của Transformer Kiên trúc ket qua được gọi la "Transformer + Deformable”, được
hién thi trong Hinh 3-10(c)
feature cony down up
lí maps —* unit S samp Va samp.
bị
Hinh 3-11 Kiến trae mạng High Resolution Net (HRNet) [14]
Hau hết các mang CNN đều chuyên dau vào thông qua một mang bao gồm cácmạng con có độ phân giải cao đến thấp được kết nỗi theo chuỗi, sau đó nâng độ phân
giải lên Ke Sun vả công sự [14] đã giới thiệu một kiến trúc mới, đỏ là Mạng độ phân
giải cao (HRNet) HRNet có thê duy trì các biểu diễn độ phân giải cao trong toản bộ
29
Trang 40quá trình Cụ thé, HRNet bắt đầu từ mạng con có độ phân giải cao như giai đoạn đầu
tiên, dần dần thêm từng mạng con có độ phân giải cao đến thấp đề tạo thành nhiềugiai đoạn hơn và kết nối song song các mạng con đa độ phân giải Cuối cùng, các kếtnối được hợp nhất đa quy mô lặp di lặp lại bằng cách trao đôi thông tin trên các mạng
con đa độ phân giải song song liên tục trong toàn bộ quá trình Kiến trúc mạng HRNet
được minh họa tại Hình 3-11
(a) Các mang con da độ phân giải tuần tự
Gọi Noy là mang con trong giai đoạn thứ s var là chỉ số phân giải (Độ phân giải
1
P=
của nó là độ phân giải của mạng con đâu tiên).
(b) Mạng con da độ phân giải song song
Bắt đầu từ mạng con độ phân giải cao như là giai đoạn dau tiên, dần dần thêmtừng mạng con có độ phân giải cao đến thập và hình thành các giai đoạn mới Sau đó,kết nối song song các mạng con đa độ phân giải Do đó, độ phân giải cho các mạng
con song song của giai đoạn sau bao gồm các độ phân giải từ giai đoạn trước và một
độ phân giải thấp hơn nữa
(©) Tổng hợp đa quy mô lặp lại
Các đơn vị trao đôi (exchange units) được sử dụng trên các mạng con song song
sao cho mỗi mạng con lại nhận được thông tin từ các mạng con song song khác Đây
là một ví dụ cho thấy sơ đô thay đổi thông tin cũ
3.2.2.3 ResNeSt
Hang Zhang và cộng sự [15] cho rằng mô hình CNN có thé cải thiện biểu diénmạng dé phân loại hình ảnh thông qua một kiến trúc có thé nắm bắt các thuộc tinhnổi bật riêng lẻ cho các đặc trưng hình ảnh khác nhau Họ đã trình bày một kiến trúc
đơn giản kết hợp chiến lược chú ý theo kênh khôn ngoan (channel-wise attention) với
bố cục mạng đa đường dẫn (multi-path) Phương pháp này nắm bắt các mối tương
quan về đặc trưng trên nhiều kênh, trong khi vẫn duy trì việc gửi thể hiện độc lập
trong cấu trúc meta Dé làm được điều này, một mô-đun trong mạng thực hiện một
30