Khóa luận tốt nghiệp Khoa học máy tính: Tìm hiểu và đánh giá các phương pháp phát hiện đối tượng dựa trên transformer

Và ở trong dé tài này chúng tôi sẽ nghiên cứu về một trong những bài toán kinh điển nhất của thị giác máy tính là phát hiện đối tượng dựa trên Transformer.. Chính vì thế, trong khóa luận

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRƯƠNG ĐỨC VŨ

KHÓA LUẬN TÓT NGHIỆP

TÌM HIẾU VÀ ĐÁNH GIÁ MOT SO PHƯƠNG PHÁP

CU NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRƯƠNG ĐỨC VŨ - 18520194

KHÓA LUẬN TÓT NGHIỆP

TÌM HIẾU VÀ ĐÁNH GIÁC CÁC PHƯƠNG PHÁP PHÁT

HIEN DOI TƯỢNG DỰA TREN TRANSFORMER

CU NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHi MINH, 2021

Trang 3

DANH SÁCH HOI DONG BAO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 38/QD-DHCNTT

ngày 19/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 PGS.TS Lê Dinh Duy — Chủ tịch.

2 ThS Nguyễn Thanh Sơn — Thư ký.

3 TS Lê Minh Hưng - Ủy viên.

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHi MINH | CONG HÒA XÃ HOI CHỦ NGHĨA VIET NAM

TRUONG DAI HOC Độc Lập - Tự Do - Hanh Phúc CÔNG NGHỆ THÔNG TIN

TP HCM, ngay thang ndm

NHAN XET KHOA LUAN TOT NGHIEP

(CUA CAN BO HUONG DAN)

Tên khóa luận:

TÌM HIẾU VA ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIỆN DOI TƯỢNG

DỰA TRÊN TRANSFORMER

Nhóm SV thực hiện: Cán bộ hướng dẫn:

Trương Đức Vũ - 18520194 TS Nguyễn Vinh Tiệp

Đánh giá Khóa luận

I Về cuốn báo cáo:

Số trang - Số chương

So bảng sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét về hình thức cuôn báo cáo:

Trang 5

4 Về thái độ làm việc của sinh viên:

Diem từng sinh viên:

Trương Đức Vũ: -./10

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 6

ĐẠI HỌC QUOC GIA TP HO CHi MINH | CONG HÒA XÃ HOI CHỦ NGHĨA VIET NAM

TRUONG DAI HOC Độc Lập - Tự Do - Hanh Phúc CÔNG NGHỆ THÔNG TIN

TP HCM, ngay thang ndm

NHAN XET KHOA LUAN TOT NGHIEP

(CUA CAN BO PHAN BIEN)

Tên khóa luân:

TÌM HIẾU VA ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIỆN DOI TƯỢNG

DỰA TRÊN TRANSFORMERNhóm SV thực hiên: Can bô phản biên:

Trương Đức Vũ - 18520194 TS Lê Minh Hưng

Đánh giá Khóa luận

I Về cuốn báo cáo:

Số trang - Số chương

So bảng sô liệu Sô hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét về hình thức cuôn báo cáo:

Trang 7

4 Về thái độ làm việc của sinh viên:

Diem từng sinh viên:

Trương Đức Vũ: -./10

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 8

LỜI CẢM ƠN

Trước hết, chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến Thay TS Nguyễn

Vinh Tiệp - người thầy đã dẫn dắt, truyền đạt những kiến thức bổ ích và

vô cùng cần thiết trên chặng đường nghiên cứu từ những bước chân đầu

tiên Thầy đã dạy cho chúng tôi từ cách nhìn nhận vấn đề, định hướng tư

duy, hỗ trợ trong lúc tìm giải pháp, luôn động viên, khích lệ cho những ý

tưởng mới cũng như trong suốt quá trình học tập, nghiên cứu và thực hiệnkhóa luận này D6 không chỉ là những góp ý hết sức quý báu trong quátrình thực hiện luận văn này mà còn là hành trang tiếp bước cho chúng tôi

trong quá trình học tập và lập nghiệp sau này Xin chân thành cảm ơn các

anh Nguyễn Thành Danh, anh Nguyễn Vũ Anh Khoa, anh Lưu Đức Tuấntrong Phòng Thí Nghiệm Truyền Thông Da Phương Tiện (MMLAB), đã

ở bên, giúp đỡ cho chúng tôi có cơ hội tiếp xúc, mở rộng và phát triển kiến

thức không chỉ là chuyên ngành mà còn ở nhiều lĩnh vực khác Những đóng

góp, chỉnh sửa quý báu của các bạn là một phần không thể thiếu để có thể

hoàn thành tốt khóa luận này Chúng tôi cũng xin gửi lời cảm ơn sâu sắc tớiPhong Thí Nghiệm Truyền Thông Da phương tiện (MMLAB), Khoa Khoahọc Máy tính, trường Đại học Công nghệ Thông tin và quý thầy cô đã hỗ

trợ chúng tôi trong suốt thời gian thực hiện khóa luận Hơn hết chúng tôi

muốn bày tỏ lòng biết ơn sâu sắc đến gia đình của mình đã, đang và sẽ

luôn là nguồn động lực, là chỗ dựa giúp chúng tôi có thể vững bước trên

con đường mà mình đã chọn Mặc dù đã cố gắng hoàn thành khóa luận

trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi

những thiếu sót Chúng tôi rất mong nhận được sự thông cảm, góp ý vàtận tình chỉ bảo của quý thầy cô và các bạn Một lần nữa chúng tôi xin

chân thành cảm on!

Trang 9

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TEN DE TÀI: TÌM HIỂU VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIEN DOI

TƯỢNG DỰA TRÊN TRANSFORMER.

TÊN ĐÈ TÀI TIENG ANH: RESEARCH AND EVALUATION OF

TRANSFORMER-BASED OBJECT DETECTION METHODS.

Ngôn ngữ thực hiện: Tiếng Việt.

Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp.

Thời gian thực hiện: Từ ngày: /2021 đến ngày /2021.

Sinh viên thực hiện:

Trương Đức Vũ Lớp: KHTN2018

Email: 18520194 @gm.uit.edu.vn Dién thoai: 0364544354

Nội dung dé tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết

quả mong đợi của dé tài)

A Mô tả bài toán:

Transformers là một kiến trúc học sâu đã trở nên phố biến trong những năm gan đây.

Mô hình này dựa trên một cơ chế đơn giản nhưng mạnh mẽ được gọi là Attention, cho phép các mô hình trí tuệ nhân tạo tập trung có chọn lọc vào một số phần nhất định của

dir liệu dau vào và do đó suy luận hiệu quả hơn Transformer đã được áp dụng rộng rãi

Trang 10

trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) như mô hình ngôn ngữ (language

modeling), dịch máy (machine translation) và cũng đã được mở rộng sang các nhiệm

vụ khác như nhận dạng giọng nói, học tăng cường Và cả thị giác máy tính cũng bị

cuốn theo cuộc cách mạng Transformer.

Và ở trong dé tài này chúng tôi sẽ nghiên cứu về một trong những bài toán kinh điển nhất của thị giác máy tính là phát hiện đối tượng dựa trên Transformer Được biết, bài

toán phát hiện đối tượng dựa trên Transformer là mô hình loại bỏ nhiều thiết kế bang

tay (NMS - Non-maximum Suppression va cac điểm neo — anchor) trong kiến trúc.

Bên cạnh đó, mô hình kiến trúc không dựa trên mạng Convolutional mà thay thế CNN

và RNN bằng cơ chế tự chú ý “Self-Attention” mà van mang lại hiệu suất cạnh tranh.

Nhưng mô hình vẫn có mộ số hạn chế như là thời gian hội tụ rất chậm và hiệu suất còn hạn chế trên đối tượng nhỏ.

Trong đề tài này, nhóm chúng tôi sẽ tìm hiểu và đánh giá các phương pháp phát hiện

đối tượng dựa trên Transformer.

Faster R-CNN

Coarse

Proposals

Crop Classify and Deduplicate

(RolAlign) refine proposals

on Coarse proposals (NMS)

DETR

Trang 11

B Đối tượng và phạm vi nghiên cứu:

- Chung tôi cải đặt, chạy thí nghiệm dựa trên bộ dữ liệu ADTC27K trên các mô hình

trong phạm vi nghiên cứu.

- Đề tài tập trung xoay quanh bài toán phát hiện đối tượng dựa trên mô hình

Transformer Các biến thể, các mô hình liên quan (DETR, FASTER RCNN,

Deformable DETR, UP-DETR ).

C Muc tiéu:

- Tim hiểu tổng quan về bai toán phát hiện đối tượng dựa trên Transformer về các

hướng tiếp cận, ưu nhược điểm của từng loại.

- So sánh đánh giá các phương pháp phát hiện đối tượng dựa trên Transformer.

- Tìm hiểu điểm yếu và các phương pháp cải tiến.

D Phương phát thực hiện:

Nội dung 1: Khảo sát nhóm bai toán phát hiện đối tượng dựa trên Transformer.

Phương pháp thực hiện: Cài đặt, chạy thí nghiệm, so sánh các phương pháp phát

hiện đối tượng dựa trên Transformer được công bó Tìm hiểu cách thực hiện, phân tích ưu, khuyết điểm của từng phương pháp (được nhắc tới ở phần phạm vi đề tài) Nội dung 2: Đề xuất phương pháp cải tiến thuật toán.

Phương pháp thực hiện: Với kết quả đánh giá từ nội dung 1, tiến hành đề ra các

phương án cải tiến nhằm tăng hiệu suất của (những) thuật toán hiện tại.

E Kết quả mong đợi:

-_ Báo cáo phân tích, so sánh các phương pháp cho bài toán phát hiện đối tượng dựa

trên Transformer.

- Báo cáo phương pháp đề xuất cải thiện.

Kế hoạch thực hién:(M6 td tóm tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

Nội dung 1: tháng 8-11 năm 2021.

Trang 12

- Thang 8: Tìm hiéu mô hình DETR, Deformable DETR, UP-DETR và các kiến thức

- Tháng 11: Từ bảng kết quả so sánh giữa các mô hình và qua việc phân tích ưu

nhược điểm trong mỗi mô hình, tiến hành đề xuất phương pháp cải tiến và thực

hiện.

Tổng hợp kết quả và viết báo cáo: tháng 12 năm 2021.

Xác nhận của CBHD TP HCM, ngày tháng năm 2021

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Trương Đức Vũ

Trang 13

2 Vv

TOM TAT

Transformer đã trở thành mô hình thống tri trong các bai toán về xử ly

ngôn ngữ tự nhiên, nhờ khả năng pretrain trên một lượng lớn dữ liệu, sau

đó chuyển sang các nhiệm vụ nhỏ hơn, cụ thể hơn thông qua tỉnh chỉnh.

Transformer trong thị giác máy tính là nỗ lực lớn đầu tiên áp dung mô hìnhTransformer thuần túy trực tiếp cho hình ảnh làm đầu vào, và kết quả chothấy rằng so với Convolutional Network, kiến trúc dựa trên Transformer

cũng có thể đạt được kết quả cạnh tranh trong các nhiệm vụ phân loại điểm chuẩn Tuy nhiên, độ phức tạp tính toán của toán tử Attention vì vậy

chúng ta bị giới hạn ở các đầu vào có độ phân giải thấp Dối với các tác

vụ phức tạp hơn như phát hiện hoặc phân đoạn, việc duy trì độ phân giải

đầu vào cao là rất quan trọng để đảm bảo rằng các mô hình có thể xác

định đúng và phản ánh các chỉ tiết nhỏ trong đầu ra của chúng Điều này

đương nhiên đặt ra câu hỏi rằng liệu các kiến trúc dựa trên Transformer

trong thị giác máy tính có khả năng cải tiến để giải quyết các vấn đề còn

tồn động hay không Chính vì thế, trong khóa luận này, chúng tôi đã tìm

hiểu tổng quan về bài toán phát hiện đối tượng dựa trên Transformer, ứng

dụng của bài toán vào thực tế và một số các công trình nghiên cứu khác

Thách thức, khó khăn trong tác vụ phát hiện đối tượng trên Transformer.

Trong các mô hình liên quan, chúng tôi cũng đã chỉ ra một số mô hình nổi

bật và cách từng mô hình cải tiến so với mô hình bàn đầu Bên cạnh đó,

chúng tôi đã tiến hành thiết lập thực nghiệm trên các bộ dữ liệu VOC 2012

và ADTC27K để làm rõ hơn các luận điểm.

Trang 14

2.3.1 Transformer Backbonel

2.3.2 ‘Transformer Neck} 0.0.0 00.0000 ee ee

co ON ¬I GO OF WO WHO mm nh

Trang 15

4.3 Thiết lap thinghiém) 0 0 00000,

4.4 Trực quan hóa kết qua) Ặ Q SẺ

26 26 30 31 ải

32

39

35

38 40 42

44

44 44 46 47

49

50

56 56

9í

60

Trang 16

Danh sách hình vẽ

1.1 Picomixer STA (Smart Traffic Analyzer) Phần mềm phân tích giao

thông đường bộ và bộ đếm phương tiện Hệ thống chuyên nghiệp cho

thu thập dữ liệu, phát hiện sự cố và lập kế hoạch cho an toàn đường bộdựa trên thị giác nhân tạo (trí tuệ nhân tạo và xử lý video) biến bất kỳcamera giám sát giao thông nào thành mot A.I tiên tiến

Điểm chuẩn của các mô hình phát hiện đối tượng thời gian thực theo

thời gian suy luận, mô hình hoạt động hàng đầu gan đây nhất là YOLOv4| 4

13 Một số ứng dụng của AI vào đời sống Ảnh được tham khảo từ nhiều

2.1 Cấu trúc của lớp Attention Bên trái: Scaled Dot-Product Attention

Bên phải: Multi-Head Attention Mechanism Ảnh được lấy từ [11l|

2.2 Kiến trúc đầy đủ của mô hình Transformer Hình ảnh được lấy từ

Ta 14

2.3 Phân loại phát hiện đối tượng dựa trên Transformer

2.4 Hướng tiếp cận của phát hiện đối tượng dựa trên Transformer (a) Nhiệm

vụ phát hiện đối tượng được xây dựng như nhiệm vụ dự đoán dự đoán

tập hợp thông qua Transformer (DETR 6|) (b) Loại bỏ backbone CNN

trong mô hình phát hiện đối tượng dựa trên Transformer (ViT-FRCNN

11

Trang 17

2.6 Minh họa về bộ phát hiện đối tượng Deformable DETR được đề xuất.

Hình được lấy từ [58]} 2 19

2.7 Bộ mã hóa của mô hình Adaptive Clustering Transformer Hình ảnh

được lấy từ BZ) ee 20

2.8 Tổng quan mô hình YOLOS Hình ảnh lấy từ

3.1 Các hệ thống phát hiện hai giai đoạn truyền thống, chang hạn như Faster

R-CNN, dự đoán các hộp giới hạn đối tượng bằng cách lọc qua một số

lượng lớn các vùng ứng viên, thường là một chức năng của các tính năng CNN Mỗi khu vực đã chọn được sử dụng trong các bước tỉnh chỉnh,

bao gồm việc cắt ở vị trí được xác định bởi khu vực, phân loại từng khu

vực một cách độc lập và tinh chỉnh vi trí của nó Cuối cùng, một bước

Non-maximum Suppression được áp dụng để loại bỏ các hộp trùng lặp.

DETR đơn giản hóa quy trình phát hiện bằng cách tận dụng kiến trúc

Transformer tiêu chuẩn để thực hiện các hoạt động (có khả năng không thể phân biệt được) đặc trưng cho việc phát hiện đối tượng theo truyền

ND 27

3.2 Kiến trúc của DETR Hình được lay từ [6|

3.3 Kiến trúc Transformer của DETR Hình được lay từ [6]

3.4 Minh họa mô đun được đề xuất tronglÐ8| Deformable Attention

3.5 Cách xây dựng bản đồ đối tượng nhiều tỷ lệ (multi-scale feature map)

re x

3.6 Quy trình tong thể về Spatially Modulated Co-precision (SMCA) với sự

Self-Attention trong phạm vi nội bộ, sự Self-Attention trên nhiều quy

mô, điều chế không gian và mé-dun Attention lựa chọn tỷ lệ

Attention được mã hóa bằng các màu khác nhau cho các đối tượng khác

nhau Bộ giải mã thường chú ý đến các chi của đối tượng, chẳng hạn

như chân và đầu Hình được lấy từ [6l| 39

iv

Trang 18

3.8 Minh hoa Spatial attention map trong cross-attention của bộ giải mã

DETR Hàng đầu tiên trong hình bên dưới là kết quả của Conditional

DETR [30], hàng thứ hai là kết quả của việc huấn luyện DETR trong 50epochs và hàng thứ ba là kết quả của việc huấn luyện DETR trong 500epochs Vi DETR sử dụng Multi-Head Attention, mỗi cột ở đây tương

3.9 Giao diện ứng dụng demo Ung dụng web được thiết kế trên thư viện

Dash và có sử dụng một số công cụ của Plotly trong Python

4.1 Một số ảnh từ tập dữ liệu ADTC27K

4.2 Ví dụ về việc áp dụng các phương pháp làm tăng cường dữ liệu

4.3 Trực quan hóa một số kết quả tốt trên bộ dữ liệu kiểm tra ADTC27K.

Các ảnh trên hầu hết là vào ban ngày, các phương tiện không quá đôngđúc và độ lớn của các đối tượng là tương đối lớn

4.4 Trực quan hóa một số kết quả xấu trên bộ dữ liệu kiểm tra ADTC27K.

Các ảnh trên phần lớn là vào buổi tối, khi có điều kiện ảnh kém chất

lượng, các phương tiện rất dày đặc

4.5 Trực quan hóa một số kết quả bên ngoài tập dữ liệu.Dánh giá khả năng

tổng quát hóa của mô hình Các hình ảnh lựa chọn không có trong tập huấn luyện và kiểm tra của ADTC27K Với nhiều trường hợp khác nhau như ở ảnh (a) là hình ảnh lấy từ buổi tối, có chất lượng ảnh thấp, ảnh (b)

có chất lượng tốt, các đối tượng lớn, rõ ràng Ảnh (c) có nhiều phương

tiện nhưng không quá đông đúc như ảnh (d).|

46 Ở đây chúng ta hình dung trọng số Attention của lớp bộ giải mã cuối

cùng Diều này tương ứng với việc trực quan hóa, đối với mỗi đối tượng

được phát hiện, phần nào của hình ảnh mà mô hình đang xem xét để

54

Trang 19

mô hình được đào tạo, tập trung vào một số điểm trong hình ảnh Bộ

mã hóa dường như đã tách các phiên bản, điều này có khả năng đơn

giản hóa việc trích xuất đối tượng và bản địa hóa cho bộ giải mã Bộ mã

hóa Self - Attention cho một tập hợp các điểm tham chiếu Bộ mã hóa

có thể phân loại các phiên bản riêng lẻ Các dự đoán được thực hiện với

mô hình DETR Resnet-50 trên hình ảnh bộ đánh giái 55

vì

Trang 20

Danh sách bang

2.1 So sánh kết quả một số mô hình CNN và một số mô hình dựa trên

Transformer Backbone Kết quả được dự đoán trên tập Val của bộ dữ

2.2 So sánh giữa các mô hình Transformer và một số đại diện tiêu biểu của

CNN trên tập đánh giá của bộ dit liệu COCO2017 “GPUs”: đề cập tớithời gian huấn luyện và số lượng, loại GPU đã sử dung; "Multi Scale":

áp dung đa quy mô cho đầu vào nếu vJ

4.1 So sánh việc sử dung đầu vào có multi-scale giữa các mô hình

4.2 Đánh giá một số phương pháp phát hiện đối tượng dựa trên Transformer

4.3 Mối liên hệ giữa FPS, số lượng tham số và độ chính xác của các mô hình

DETR, Deformable DETR, SMCA DETR, Conditional DETR.

vii

50

Trang 21

thực, chẳng hạn như hệ thống nhận dạng khuôn mặt, máy phiên dịch, xe tự lái, giám

sát an toàn và AlphaGo, tất cả những ứng dụng này đang làm cho trí tuệ nhân tạo

không thể thiếu trong cuộc sống hàng ngày của chúng ta (Một số ứng dụng về AI trong

đời sống Hinh{L.3) Hưởng lợi từ sự phát triển của thiết bi di động, phương tiện truyền

thông xã hội và mạng di động tốc độ cao, có số lượng dữ liệu hình ảnh ngày càng tănglên theo cấp số nhân Ví dụ, giám đốc phòng nghiên cứu AI của Facebook Yann LeCun

đã từng nói rằng gần như 1 tỷ ảnh mới được đăng tải lên Facebook mỗi ngày trong

năm 2016 || Điều này làm cho nó ngày càng khó khăn hơn cho con người để quản lý tất cả di liệu này theo cách thủ công Do đó, thiết kế hệ thống máy tính để tự động

xử lý và hiểu số lượng lớn dữ liệu trở thành một ý tưởng thực tế Tuy nhiên, người ta

thường thừa nhận rằng, máy tính thực hiện các nhiệm vụ được xác định bởi các côngthức và quy tắc trong toán học, như là tính toán, lưu trữ và tìm kiếm Nhưng đó là

thách thức đối với máy móc để giải quyết các vấn đề trực quan và trừu tượng, chẳng

hạn như nhận dạng hình ảnh Diéu này do cái gọi là khoảng cách ngữ nghĩa giữa con

Thttps://www.youtube.com/watch?v=vlQomVlaNFg

Trang 22

người và máy, tức là các tệp hình ảnh được lưu trữ dưới dạng dữ liệu pixel cấp thấp

trên máy, nhưng thông tin ngữ nghĩa cấp cao được yêu cầu để phân tích hình ảnh Và các nghiên cứu trong lĩnh vực thị giác máy tính hiện nay là tìm cách làm thế nào để thu hẹp khoảng cách này và dạy cho máy móc hiểu hình ảnh Trong đề tài này, chúng tôi sẽ tìm hiểu một số mô hình về bài toán phát hiện đối tượng.

Hình 1.1: Picomixer STA (Smart Traffic Analyzer) Phần mềm phân tích giao thông

đường bộ và bộ đếm phương tiện Hệ thống chuyên nghiệp cho quản lý giao thông Đô

thị / Đường bộ (và Quản lý Đường cao tốc) Dé thu thập dữ liệu, phát hiện sự cố và

lập kế hoạch cho an toàn đường bộ dựa trên thị giác nhân tạo (trí tuệ nhân tạo và xử

lý video) biến bất kỳ camera giám sát giao thông nào thành một A.I tiên tiến

1.2 Tổng quan bài toán

1.2.1 Định nghĩa bài toán

Phát hiện đối tượng là một nhiệm vụ quan trọng của máy tính được sử dụng để

phát hiện các đối tượng trực quan thuộc các lớp nhất định (ví dụ: con người, động vật,

ô tô, tòa nhà, Trong ảnh kỹ thuật số như ảnh hoặc video Mục tiêu của phát hiện

đối tượng là xây dựng mô hình tính toán cung cấp các thông tin cần thiết cơ bản nhất

cho các ứng dụng thị giác máy tính.

Trang 23

Phát hiện đối tượng là một trong những van đề cơ bản của thị giác máy tính Nó tao

cơ sở cho nhiều tác vụ thị giác máy tính khác, chẳng hạn như chú thích hình ảnh, theo dõi đối tượng, Các ứng dụng phát hiện đối tượng cụ thể bao gồm phát hiện người đi

bộ, đếm người, nhận diện khuôn mặt, phát hiện văn bản, phát hiện tư thế hoặc nhậndạng biển số

Trong vài năm gần đây, những tiến bộ nhanh chóng của kỹ thuật học sâu đã thúc

đẩy rất nhiều động lực phát hiện đối tượng Với mạng học sâu và sức mạnh tính

toán của GPU, hiệu suất của bộ phát hiện và theo dõi đối tượng đã được cải thiện

đáng kể, đạt được những bước đột phá đáng kể trong phát hiện đối tượng Do đó, Mang Convolutional Neural Networks (CNN) da tré thanh tiéu chuan

để giải quyết nhiệm vu này, và có nhiều máy dò dua trên CNN đã được đề xuất

[25] Và từ day, các máy phát hiện đối tượng hiện đại dành được

phân loại thành hai loại: phương pháp tiếp cận một giai đoạn và phương pháp tiếp cận

hai giai đoạn.

Phương pháp tiếp cận hai giai đoạn: Trong bộ phát hiện đối tượng hai giai đoạn, cácvùng đối tượng được đề xuất bằng cách sử dụng các đặc trưng sâu (deep) trước khicác đặc trưng này được sử dụng cho việc phân loại cũng như các hộp giới hạn cho cácđối tượng mục tiêu

e Kiến trúc hai giai đoạn liên quan đến việc đề xuất vùng đối tượng với các phương

pháp thị giác thông thường hoặc mạng học sâu, tiếp theo là phân loại đối tượngdựa trên các tính năng được trích xuất từ vùng được đề xuất với hồi quy hộp

giới hạn.

e Phương pháp hai giai đoạn đạt được độ chính xác phát hiện cao nhất nhưng

thường chậm hơn Do có nhiều bước suy luận trên mỗi hình ảnh, hiệu suất(khung hình trên giây) không tốt bằng máy dò một giai đoạn

e Các mô hình phát hiện hai giai đoạn khác bao gồm Region Convolutional Neural

Network (R-CNN) với Faster R-CNN hoặc Mask R-CNN [17] Sự phát triển

mới nhất nhất của RCNN là Granulated R-CNN BI]

Trang 24

Jul'17 Jan'18 Jul 18 Jan'19 Jul'19 Jan '20 Jul '20 Jan '21 Jul'21

Other models -®- Models with lowest inference time, ms

Hình 1.2: Điểm chuẩn của các mô hình phát hiện đối tượng thời gian thực theo thời

gian suy luận, mô hình hoạt động hàng đầu gần đây nhất là YOLOv4

e Trong mô hình phát hiện đối tượng hai giai đoạn, đầu tiên nó sẽ tìm vùng quan

tâm và sử dụng vùng đã cắt này để phân loại Tuy nhiên, các mô hình nhiều giai

đoạn như vậy thường không thể đào tạo từ đầu đến cuối bởi vì việc cắt xén là

một hoạt động không thể phân biệt được.

Phương pháp tiếp cận một giai đoạn: Trong bộ phát hiện đối tượng một giai đoạn, môhình sẽ dự đoán các hộp giới hạn trên hình ảnh mà không có bước đề xuất vùng Quá

trình này tiêu tốn ít thời gian hơn và do đó có thể được sử dụng trong các ứng dụngthời gian thực.

e Máy dò đối tượng một giai đoạn uu tiên tốc độ suy luận nhanh nhưng không tốt

trong việc nhận dạng các đối tượng có hình dạng bất thường hoặc một nhóm cácđối tượng nhỏ

e Các máy dò một giai đoạn phổ biến nhất bao gồm YOLO [33], SSD và

RetinaNet [25] Các công cụ phát hiện thời gian thực mới nhất là

YOLOv4-Scaled [45] (2020) và YOLOR [đổ| (2021).

Trong hơn một năm trở lại đây, có nhiều mô hình được hình thành ma không thuộc

vào bất kỳ phương pháp nào đã kể trên Đó chính là việc áp dụng mô hình Transformer

[44] đã rất quen thuộc trong các bài toán xử lý ngôn ngữ tự nhiên vào để xử lý cácnhiệm vụ về hình ảnh Đặc biệt là trong bài toán phát hiện đối tượng cái mà nhómchúng tôi sẽ tìm hiểu trong khóa luận này.

Trang 25

1.2.2 Thách thức

Mặc dù hiệu suất tuyệt vời từ các mô hình Transformer và các tính năng nổi bật thú

vị của chúng, có một số thách thức liên quan đến khả năng ứng dụng của chúng đốivới ứng dụng trong thực tế Các thử thách quan trọng nhất bao gồm yêu cầu về lượnglớn dit liệu đào tạo và chi phi tính toán cao liên quan và một số đặc tính liên quan tới

mô hình Transformer.

e Chỉ phí tính toán cao: Một thế mạnh của các mô hình Transformer là tính

linh hoạt của chúng để mở rộng đến mô hình có độ phức tạp và tham số cao.

Mặc dù đây là một đặc tính đáng chú ý cho phép đào tạo các mô hình có kíchthước khổng lồ Do đó, điều này dẫn đến việc phát sinh chi phí huấn luyện môhình và chi phí suy luận cao.

e Yêu cầu dữ liệu lớn: Vì các kiến trúc Transformer vốn dĩ không mã hóa các độ

lệch quy nạp (Inductive biad?) để xử lý dữ liệu trực quan Do vậy, chúng thường

yêu cầu lượng lớn dữ liệu để tìm ra các quy tắc cơ bản dành riêng cho phương

thức Ví dụ, một CNN có sẵn bản dịch bất biến, chia sẻ trọng số và bất biến quy

mô một phần do hoạt động gộp hoặc khối xử lý Multi-scale Tuy nhiên, mang

Transformer cần phải tự mình tìm ra các khái niệm cụ thể về hình ảnh này từ

các ví dụ đào tạo Điều này dẫn đến thời gian đào tạo dài hơn, yêu cầu tính toán

tăng đáng kể và bộ dữ liệu lớn để xử lý.

1.3 Lý do thực hiện đề tài

Các trường hợp sử dụng liên quan đến phát hiện đối tượng rất đa dạng Gần như không

giới hạn những cách làm cho máy tính giống con người để tự động hóa các tác vụ thủ

công hoặc tạo ra các sản phẩm và dịch vụ mới do AI hỗ trợ Nó đã được thực hiệntrong các chương trình thị giác máy tính được sử dụng cho một loạt các ứng dụng, từsản xuất, thể thao đến phân tích năng suất Ngày nay, nhận dạng đối tượng là cốt lõi

của hầu hết các phần mềm và chương trình AT dựa trên thị giác Phát hiện đối tượng

2Induetive bias (hay learning bias) của một thuật toán học tập là tập hợp các giả định mà người học sử dụng để dự đoán kết quả đầu ra của các đầu vào nhất định mà nó chưa gặp phải.

Trang 26

đóng một vai trò quan trọng trong việc tìm hiểu hiện trường, vốn phổ biến trong các

trường hợp sử dung an ninh, giao thông, y tế và quân sự (Hình 1.3).

e Phát hiện phương tiện với AI trong Giao thông vận tải Nhận dang đối tượng

được sử dụng để phát hiện và đếm các phương tiện để phân tích giao thông hoặc

để phát hiện 6 tô dừng ở khu vực nguy hiểm, chang hạn như trên đường ngang

hoặc đường cao tốc

e Phát hiện tính năng y tế trong Chăm sóc sức khỏe Phát hiện vật thể đã cho

phép tạo ra nhiều đột phá trong cộng đồng y tế Bởi vì chan đoán y tế chủ yếu

dựa vào nghiên cứu hình ảnh, quét và chụp ảnh, phát hiện đối tượng liên quan

đến chụp CT và MRI trở nên cực kỳ hữu ích để chấn đoán bệnh, ví du với thuật

toán máy học để phát hiện khối u.

e Phát hiện đối tượng trong Bán lẻ Các hệ thông đếm người được bố trí có chiến

lược trong nhiều cửa hàng bán lẻ được sử dụng để thu thập thông tin về cách

khách hàng dành thời gian và lượng khách hàng đặt chân đến Phân tích khách

hàng dựa trên AI để phát hiện va theo dõi khách hàng bằng camera giúp hiểu rõ

về tương tác của khách hàng và trải nghiệm của khách hàng, tối ưu hóa bố cục

cửa hàng và giúp hoạt động hiệu quả hơn Một trường hợp sử dụng phổ biến là

phát hiện hàng đợi để giảm thời gian chờ đợi trong các cửa hàng bán lẻ.

e Lái xe tự động Ô tô tự lái phụ thuộc vào khả năng phát hiện đối tượng để nhận

ra người đi bộ, biển báo giao thông, các phương tiện khac, Ví du, Autopilot AI

của Tesla sử dụng rất nhiều tính năng phát hiện đối tượng để nhận biết các mối

đe dọa từ môi trường và xung quanh như xe đang tới hoặc chướng ngại vật.

e Phát hiện động vật trong Nông nghiệp Phát hiện đối tượng được sử dụng trong

nông nghiệp cho các nhiệm vụ như đếm, theo dõi động vật và đánh giá chất lượng

nông sản Sản phẩm bị hư hỏng có thể được phát hiện khi đang xử lý bằng cácthuật toán máy học.

Trang 27

1.4 Mục tiêu đề tài

Trong phần trên, chúng tôi đã trình bày một số phương pháp của mô hình phát hiệnđối tượng cũng như ứng dụng của chúng vào đời sống Trong đề tài này, chúng tôi có

các mục tiêu chính như sau:

e Tìm hiểu tổng quan bài toán phát hiện đối tượng Ỏ đây, chúng tôi sẽ chỉ ra các

hướng tiếp cận của bài toán phát hiện đối tượng, các mô hình tiêu biểu cho từng

loại tiếp cận và các ứng dụng vào thực tế của mô hình phát hiện đối tượng cũng

sẽ được đưa ra.

e Nghiên cứu một số mô hình tiêu biểu của bài toán phát hiện đối tượng dựa trên

mô hình Transformer.

e Thiết lập thực nghiệm Ứng với từng mô hình, để làm rõ hơn các nghiên cứu

trên, việc thiết lập các mô hình và làm thí nghiệm giúp chúng tôi chứng minh

các giả thuyết

1.5 Đóng góp chính của đề tài

Tổng quan về bài toán phát hiện đối tượng dựa trên Transformer và một số biến thếcủa nó.

e Nghiên cứu tổng quan về bài toán phát hiện đối tượng theo một giai đoạn, hai

giai đoạn Tìm hiểu chi tiết bài toán phát hiện đối tượng dựa trên Transformer

và các biến thể

e Thiết lập thực nghiệm trên bộ dữ liệu ADTC27K và so sánh, đánh giá kết quả

trên từng mô hình.

e Tài liệu chỉ tiết về các mô hình đã tìm hiểu, các ý tưởng, cách cài đặt, cách thiết

lập thực nghiệm và kết quả thực nghiệm

Trang 28

1.6 Bồ cục

Cấu trúc của luận văn này bao gồm:

e Chương 1: Tổng quan Giới thiệu tổng quan về bài toán phát hiện đối tượng

dựa trên Transformer [44], bao gồm tổng quan bài toán, lý do thực hiện đề tài,

mục tiêu cũng như đóng góp chính của bài toán.

e Chương 2: Các công trình liên quan Đầu tiên xem qua lại mô hình Transformer

đầu tiên Sau đó sẽ đi tìm hiểu các mô hình phát hiện đối tượng dựa trên

Transformer dựa trên các hượng tiếp cận

e Chương 3: DETR và các biến thể Trình bày về dữ liệu, cách tiền xử lý dữ

liệu, kiến trúc chi tiết của DETR và một số biến thể của nó Giới thiệu về chương

trình demo và hướng dẫn sửa dụng nó.

e Chương 4: Đánh giá thực nghiệm Trình bày bày kết quả đạt được của đề

tài trên cả hình ảnh và số liệu

e Chương 5: Kết luận Chương này tóm tắt lại một số nội dung và đánh giá

tổng kết của đề tài, bên cạnh đó đề ra một số hướng phát triển của đề tài trongtương lai.

Trang 29

(b) Trong y tế, các mô hình AI giúp bác sỹ

phan tích các hình ảnh chụp CT một cách

chính xác và nhanh chóng hơn.

| (d) Xe tự lái dang là một xu hướng của thé

(c) Trong ngành bán lẻ, các trợ lý có thể giúp 8iới và Ai giúp xe phát hiên các vật thể xong chủ các cửa hàng tự động tư van sản phẩm quanh nhanh chong roi truyền tín hiệu de tự

cho khách hàng động lái xe.

—— eS |

Ss

—, = = >> Na sau

(f) Trong công nghiệp sản xuât, nhờ có AI,

(e) Trong nông nghiệp, các camera tích hợp các công đoạn hầu như được tiến hành tự

AI sẽ tự động chụp ảnh mùa vụ và đưa ra động Nhờ đó tăng hiệu suất sản xuất lên

một số lời khuyên cho người nông dân về tình nhiều lần

trạng của cây trồng hiện tại, giúp phát hiện

kịp thời sâu bệnh và tăng năng suất sản

phẩm tạo ra

Hình 1.3: Một số ứng dụng của AI vào đời sống Ảnh được tham khảo từ nhiều nguồn.

Trang 30

dụng trong các bài toán phát hiện đối tượng thay cho các mô hình truyền thống khác.

Ngoài ra, chúng tôi sẽ nhắc lại mốt số kiến thức của mô hình Transformer đầu tiên [44]

để phục vụ cho việc đễ dàng hiểu các mô hình phát hiện đối tượng liên quan Chúng

tôi cũng sẽ phân tích các loại mô hình phát hiện đối tượng dựa trên Transformer dựatrên một số tiêu chí phân loại

2.2 Transformer

Đầu tiên, hãy đánh giá ngắn gon về Transformer, sau đó giới thiệu một số bài báo gầnđây về Transformer trong bài toán phát hiện đối tượng Trong số đó, ViT được

sử dụng để phan loại hình ảnh va DETR [6| và các biến thể của nó được sử dung để

phát hiện đối tượng Có thể thấy qua những bài báo này, mô hình Transformer trong

lĩnh vực thị giác máy tính đã bắt đầu hình thành Tiếp theo, chúng tôi sẽ mô tả bốn

thành phần chính và cung cấp một cái nhìn tổng quan về kiến trúc của Transformer

được giới thiệu đầu tiên ở [44]

10

Trang 31

2.2.1 Cơ chế Attention

Là một thành phần thiết yếu của Transformer, cơ chế Attention có thể được nhóm

thành hai phần

e Một lớp chuyển đổi ánh xạ các chuỗi đầu vào X € IR"zX% Y € JR"›*% thành ba

vecto tuần tự khác nhau (truy vấn Q, khóa K và giá trị V), trong đó n và d làchiều dài và kích thước của chuỗi dau vào, tương ứng Mỗi vectơ được tạo dưới

dạng:

Q=XW®,K =YW*,V=YW’, (2.1)

trong đó W9 € R&* WK € RYXt và WY € RY*@" là các ma trận tuyến

tính, đ" là chiều của giá tri Truy vấn được chiếu từ X, trong khi khóa và giá tri

được chiếu từ Y Lược đồ đầu vào hai trình tự này được sử dụng để gọi là cơ chế cross-attention (tam dịch: chú ý chéo) Cụ thể, nó có thể được coi là self-attention

(tam dich: tự chú ý) khi Y = X Ngoài ra, cơ chế Self - Attention được áp dụngcho cả bộ mã hóa và bộ giải mã, trong khi những cơ chế Cross - Attention chiđược sử dụng bên trong bộ giải mã.

e Lép Attention, như trong Hình tổng hợp rõ ràng truy vấn với khóa tương

ứng, gán chúng cho giá trị và cập nhật vectơ đầu ra Có thể xây dựng quy trình

trên thành một công thức thống nhất như sau:

QKT

Vad.

Attention(Q, K,V) = Softmax( )V, (2.2)

tại đó trọng số Attention được tạo ra bởi một dot-product hoạt động giữa truy

van và khóa, một hệ số tỷ lệ Vd, và softmax được cung cấp để dịch trọng số Attention vào một phân phối chuẩn hóa Kết quả là trọng số được gán cho các

phần tử tương ứng của giá trị, do đó mang lại vectơ đầu ra cuối cùng.

11

Trang 32

Hình 2.1: Cau trúc của lớp Attention Bên trái: Scaled Dot-Product Attention Bên

phải: Multi-Head Attention Mechanism Ảnh được lấy từ 44]

2.2.2 Cơ chế Multi-Head Attention

Do không gian con của tính năng bi han chế, mô hình hóa khả năng của khối Attentionmột đầu là rất bình thường Để giải quyết van đề này, 44] đã đề xuất cơ chế Multi-

Head Attention cho phép xử lý tuyến tính các đầu vào tại nhiều đặc trưng của khônggian con và xử lý chúng bởi một số đầu Attention độc lập và các đầu Attention nàydiễn ra một cách song song với nhau Các vectơ kết quả được nối và ánh xạ tới vecto

cuối cùng đầu ra Quá trình Multi-Head Attention nà có thể được xây dựng bằng côngthức như sau:

Qi = XW%, kK, = XW Vi, = XW"

Z, = Attention(Q;, Ki,Vi),i = [1,2, , h] (2.3) MultiHead(Q, K,V) = Concat(Z,, Z2, ,Z,)W°?

trong đó h là số đầu (Head-Attention), W? € R'de%4moaet biểu thị ma trận đầu ra

dự kiến Z; biểu thị cho đầu ra tương ứng của mỗi đầu, We € ]R“»setx% WR c

12

Trang 33

connection convolution (tạm dịch: kết nối thưa thớt của tích chập) cơ chế Attentionnhiều đầu phân tách đầu vào thành Attention độc lập h đầu và tích hợp từng vectơ

đặc điểm đầu song song mà không có thêm chi phí tính toán, Multi - Head Attention

làm phong phú thêm sự đa dạng của không gian con đối tượng

2.2.3 Feed-Forward Networks (FFN)

Dau ra của Multi-Head Attention sau đó được đưa vào hai mang chuyển tiếp (FFN)

liên tiếp với ham activation ReLU như sau:

FƑFPN(z) = RELU(Wz + b1)Wa + be (2.4)

Lớp Feed-Forward Networks này có thể được xem như một phép chập điểm khôn ngoan

khi xử lý từng vị trí như nhau nhưng sử dụng các tham số khác nhau giữa mỗi lớp

2.2.4 Mã hóa vị trí

Vi Transformer và cơ chế Attention hoạt động trên embedding đầu vào đồng thời và

giống nhau, vì vậy, thứ tự của trình tự bị bỏ quên Dể sử dụng thông tin tuần tự, giải

pháp được đưa ra ở đây là nối thêm một vector vị trí vào các đầu vào do đó sinh ra

thuật ngữ mã hóa vi trí Có nhiều cách chon để mã hóa vị trí Một vi dụ điển hình là lựa chọn các hàm sin và cos được biểu diễn như công thức dưới đây:

Trang 34

a a

Positional Positional

Input Output Embedding Embedding

Hình [2.2] cho thấy kiến trúc bộ mã hóa-giải mã tổng thể của mô hình Transformer Cu

thể, Transformer bao gồm N = 6 khối mã hóa liên tiếp, mỗi khối được cấu tạo của hai lớp con Một lớp Multi-Head Attention tổng hợp mối quan hệ trong các lần embedding

của bộ mã hóa Một lớp Feed - Forward Network về vị trí trích xuất đại diện tính năng

Đối với bộ giải mã, nó cũng liên quan đến sáu khối liên tiếp theo chồng bộ mã hóa

So với bộ mã hóa, mỗi khối bộ giải mã thêm vào một lớp Cross - Attention nhiều đầu

để tổng hợp bộ giải mã nhúng và đầu ra của bộ mã hóa, trong đó Y tương ứng với cái trước, và X là cái sau như được hiển thị trong Công thức (2.1).

Hơn nữa, tất cả các lớp con trong bộ mã hóa và bộ giải mã đều triển khai một kết nối residual và lớp Chuẩn hóa [I] để nâng cao khả năng mở rộng của Transformer Dé

ghi lại thông tin tuần tự, mỗi embedding đầu vào được đính kèm với thông tin mã hóa

vị trí ở đầu bộ mã hóa Cuối cùng, một lớp tuyến tính và một ham activation softmaxđược sử dụng cho dự đoán từ tiếp theo

14

Trang 35

( Sparse ) Deformable

Attention DETR, ACT

Detector Conditional DETR Spatial Prior

Hình 2.3: Phân loại phát hiện đối tượng dựa trên Transformer

Là một mô hình ngôn ngữ hồi quy, Transformer có nguồn gốc từ các tác vụ dịch máy.Dua ra một chuỗi các từ, Transformer vectơ hóa chuỗi đầu vào thành các embedding

từ, thêm mã hóa vị trí và cung cấp chuỗi vectơ kết quả cho một bộ mã hóa Trong quá

trình đào tạo, như được minh họa trong Hình|Ð.2| tác giả của Transformer [44] đã thiết

kế hoạt động mask theo quy tắc tác vụ tự động hồi quy mà vị trí hiện tại chỉ có thể

phụ thuộc vào các đầu ra vị trí trước đó Dựa trên mask này, bộ giải mã Transformer

có thể xử lý song song chuỗi đầu vào Trong thời gian suy luận, chuối từ dự đoán trước

đó được xử lý bởi cùng một hoạt động sẽ được đưa vào bộ giải mã để tạo ra từ tiếp

theo.

2.3 Phát hiện đối tượng dựa trên Transformer

Các máy dò đối tượng truyền thống chủ yếu được xây dựng dựa trên CNN, nhưng

tính năng của bài toán phát hiện đối tượng dựa trên Transformer đã thu hút được sự

quan tâm đáng kể gần đây do khả năng nổi bật của nó Một số phương pháp phát

hiện đối tượng đã cố gắng sử dụng cơ chế Self - Attention của Transformer và sau đó

nâng cao các mô-đun cụ thể cho các mô hình hiện đại Các phương pháp phát hiện

15

Trang 36

Hình 2.4: Hướng tiếp cận của phát hiện đối tượng dựa trên Transformer (a) Nhiệm

vụ phát hiện đối tượng được xây dựng như nhiệm vụ dự đoán dự đoán tập hợp thông

qua Transformer (DETR |6]) (b) Loại bỏ backbone CNN trong mô hình phát hiện

đối tượng dựa trên Transformer (ViT-FRCNN BỊ)

đối tượng dựa trên Transformer có thể được phân loại thành hai nhóm chính: phương

pháp dự đoán tập hợp dựa trên Transformer(Transformer Neck) và phương pháp chỉ

sử dung backbone là Transformer(Transformer Backbone), như được trình bay trong

Hình

Trong đề tài này, chúng tôi sẽ tập trung đi vào nhóm thứ nhất đó chính là phươngpháp dự đoán tập hợp dựa trên Transformer Trước tiên, chúng tôi xem xét DETR[6], một bộ phát hiện Transformer đầu tiên cung cấp một đại diện mới là truy vấnđối tượng (object query), xây dựng công thức phát hiện đối tượng như một bài toán

dự đoán Do độ chính xác thấp trên các vật thể nhỏ và hội tụ chậm, có nhiều nỗ lực

để cải thiện máy dò Transformer từ ba khía cạnh: cơ chế Attention thưa thớt (sparse

attention), spatial prior và thiết kế lại cấu trúc (structural redesign) Ngoài ra, chúng

tôi xem xét việc ứng dụng của việc tự học có giám sát (Self-Supervised Learning).

16

Trang 37

Backbone (M) FLOPs AP APs) AP; APs APy AP,

Resnet50 [18] 38 239 39.0 58.4 41.8 224 42.8 51.6

Resnet101 57 315 40.9 60.1 44.0 23.7 45.0 53.8 ResNeXt101-32x4d 56 319 41.4 61.0 443 23.9 45.5 53.7

ResNeXt101-64x4d [51] 94 473 41.8 61.5 444 25.2 45.4 546PVTv1-Large [48] 71 345 43.4 636 46.1 261 46.0 59.5ViL-Base [B5] 67 443 44.7 656 47.6 29.9 48.0 58.1

Swin-Base 98 477 45.8 664 49.1 29.1 494 60.3

Focal-Base [53} 101 514 46.9 67.8 50.3 31.9 503 61.5

Bang 2.1: So sánh kết quả một số mô hình CNN và một số mô hình dựa trên

Transformer Backbone Kết quả được dự đoán trên tập Val của bộ dit liệu COCO

2017, được huấn luyện với đầu vào đa quy mô (multi-scale).

2.3.1 Transformer Backbone

Đã có nhiều backbone được áp dung cho các mô hình Transformer trong thi giác máy

tính [12] 6] Các backbone này có thé dé dàng kết hợp vào các khuôn khổ khác nhau (ví du: Mask R-CNN [f7], RetinaNet [25], DETR [6], v.v.) để thực hiện các nhiệm

vụ dự đoán dày đặc Ngoài những cải tiến chung, một phần trong số chúng cũng có

lợi cho các nhiệm vụ dự đoán dày đặc Cấu trúc phân cấp, như PVT [48], xây dựng

Transformer như một quá trình phân giải từ cao đến thấp để tìm hiểu các tính năng

đa quy mô Cau trúc nâng cao cục bộ xây dựng đường trục như một sự kết hợp cục bộ

với toàn cục để trích xuất hiệu quả các phụ thuộc trực quan trong phạm vi ngắn và

dài và tránh chi phí tính toán bậc hai, chẳng hạn như Swin Transformer [28], ViL

va Focal Transformer [53] Bảng [2.1] so sánh các mô hình nay dựa trên các khuôn khổ

khác nhau trong các nhiệm vụ dự đoán dày đặc Backbone dựa trên Transformer tốt

hơn các mô hình CNN hiện đại từ 2-6,8%, điều này chứng tỏ hiệu quả của Transformer

đối với dự đoán dày đặc Tương tự với FPN [24], Zhang et al đề xuất Feature PyramidTransformer (FPT) [54] dành riêng cho các nhiệm vụ dự báo dày đặc, bằng cách kết

hợp các đặc tính của non-local và Multi-scale Ñó thúc day ba thành phan cơ chế Attention để mô hình hóa các tương tác trên cả không gian và quy mô, bao gồm cơ chế

Self-Attention, cơ chế Cross-Attention từ trên xuống và cơ chế tự Cross-Attention từdưới lên FPT đóng vai trò là trụ cột chung cho các nhiệm vụ dự đoán dày đặc nhằm

đạt được sự thúc đẩy hơn nữa trên nhiều mô hình mới và có kết quả tốt nhất hiện nay.

17

Trang 38

Convolutional Set of Transformer neural — image encoder-

network features decoder

Hình 2.5: Tổng quan về kiến trúc của DETR Hình được lấy từ [6|

2.3.2 Transformer Neck

Khác với Transformer Backbone, Transformer Neck thường có backbone khác so với

Transformer Ví dụ, trong DETR [6] tác giả đã sử dung backbone 50 và

Resnet-101 để rút trích đặc trưng từ hình ảnh sau đó mới cho đầu ra đi vào Transformer Tiếp

theo, để phân tích các mô hình của Transformer Neck, ta có thể chia thành 5 hướng

tiếp cận như sau:

Mô hình phát hiện đối tượng đầu tiên dựa vào Transformer

DEtection TRansformer (DETR |6]) là mô hình phát hiện đối tượng dựa trên Transformer

đầu tiên loại bỏ các biểu diễn được thiết kế thủ công như là và hậu xử lý

non-maximum suppression(NMS) Thay vào đó mô hình DETR sẽ phát hiện trực tiếp

tất cả các đối tượng bằng cách đưa vào truy vấn đối tượng (object query) và tập hợp

dự đoán (set prediction) Cụ thé hơn, DETR sử dụng bộ mã hóa - giải mã như trong

mô hình Transformer gốc [44] và feed forward network (FFN) làm phần đầu cho dự

đoán (Mô hình chi tiết trong hình |3.2).

18

Trang 39

DETR với Sparse Attention

Trong DETR, sự tương tác day đặc giữa embeddings bộ giải mã và các tinh năng toàncầu sẽ tiêu tốn rất nhiều tài nguyên tính toán và làm chậm sự hội tụ của DETR Do

đó, một số nghiên cứu được tiến hành nhằm mục đích thiết kế cơ chế Attention thưa

thớt phụ thuộc vào dit liệu để giải quyết vấn đề này, chang hạn như Deformable DETR

và ACT [57]

Deformable DETR [58]: Lay cảm hứng từ [7] mô hình Deformable DETR [58] ra đời

và cải thiện đáng kể thời gian huấn luyện so với mô hình tiền nhiệm DETR Deformable

DETR thay thé cơ chế Attention trong DETR bằng Attention Deformable, làm cho bộ

dò của mô hình Deformable DETR hiệu qua hơn va tăng tốc độ hội tụ lên 10 lần.

ACT [57]: Bằng cách hình dung ban đồ Attention của mô hình DETR, quan sát rằngcác phần tử gần giống nhau về mặt ngữ nghĩa và gần giống nhau về mặt không gian

luôn có một bản đồ Attention tương tự trong bộ mã hóa [57] Dé loại bỏ các truy van

19

Trang 40

Input Images Object Queries

Encoder Decoder Prediction

Hình 2.7: Bộ mã hóa của mô hình Adaptive Clustering Transformer Hình anh được

lấy từ

thừa của bộ mã hóa, mô hình Adaptive Clustering Transformer - ACT được để xuất Dựa trên việc sử dụng E2LS [10], ACT có thể tự động phân cụm các truy vấn thành các nguyên mẫu khác nhau, sau đó được sử dụng để ước lượng một bản đồ Attention

khóa truy vấn bằng cách truyền phát từng nguyên mẫu tới các truy vấn tương ứng của

chúng (Hinh[2.7) So với DETR, ACT giảm 15 GFLOPs và AP chỉ giảm 0.7

DETR với Spatial Attention

Không giống như anchor hoặc các biểu diễn khác được tạo trực tiếp bởi nội dung và

các tính năng về hình học, truy vấn đối tượng mô hình hóa hoàn toàn thông tin không

gian với khởi tạo ngẫu nhiên, có thể có liên quan yếu với hộp giới hạn Gần đây, cácphương pháp chính của ứng dung Spatial Attention [14] 30] và bộ do hai giai đoạn vớikhởi tao toa độ hình học [58} [52]

SMCA [14]: Dé nâng cao mối quan hệ của truy vấn đối tượng và hộp giới hạn với

không gian thực nghiệm trước đó, SMCA được đề xuất lược đồ một giai đoạn được

gọi là Spatially Modulated Co-Attention (SMCA) để ước tính không gian của từng đối tượng truy vấn một cách rõ ràng Cụ thể, SMCA dự đoán động tâm ban đầu và

tỷ lệ của hộp tương ứng với từng truy vấn đối tượng, tạo bản đồ trọng số giống như

Gaussian, sau đó nhân với bản đồ Cross-Attention tương ứng Hơn nữa, SMCA tận

20

Tiêu đề	Tìm Hiểu Và Đánh Giá Các Phương Pháp Phát Hiện Đối Tượng Dựa Trên Transformer
Tác giả	Trương Đức Vũ
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	86
Dung lượng	61 MB