1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Phân đoạn vật thể trong video với hướng tiếp cận attention

89 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân đoạn vật thể trong video với hướng tiếp cận attention
Tác giả Nguyễn Văn A, Nguyễn Văn B, Nguyễn Văn C
Người hướng dẫn TS. Nguyễn Vinh Tiệp
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Định dạng
Số trang 89
Dung lượng 55,1 MB

Nội dung

Phương pháp này sử dụng các thông tin chuyển động theo không-thời gian và sự xuất hiện giống nhau của các đối tượng giữa các video frame để phân đoạn một cách tự động.. Với việc phân đoạ

Trang 3

Danh sách hội đồng bảo vệ khóa luận

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

35/QD-ĐHCNTT ngày 17 tháng 01 năm 2022 của Hiệu trưởng Trường Đại học Công

nghệ Thông tin.

1 Chủ tịch: TS Mai Tiến Dũng

2 Thư ký: ThS Đỗ Văn Tiến

3 Ủy viên: TS Lê Minh Hưng

Trang 4

Loi cam on

Lời đầu tiên xin được dành lời cảm ơn chân thành đến giảng viên hướng dẫn tiền

sĩ Nguyễn Vinh Tiệp, người thầy đã chỉ bảo nhiệt tình, hướng dẫn nhóm chúng

tôi trên con đường nghiên cứu Thầy đã dẫn dắt, dạy bảo chúng tôi trong suốt

quá trình học tập và nghiên cứu thực hiện khóa luận này Những ý kiến của thầy

đã giúp nhóm hoàn thiện được bài khóa luận và có thêm nhiều kinh nghiệm học

hỏi.

Xin cảm ơn anh Nguyễn Thành Danh, anh Nguyễn Vũ Anh Khoa đã giúp đỡ,

góp ý cho nhóm chúng tôi rất nhiều trong quá trình chỉnh sửa khóa luận.

Nhóm xin chân thành cảm ơn phòng Thí Nghiệm Truyền Thông Đa Phương

Tiện MMLAB và các thầy cô đã hỗ trợ nhóm trong suốt quá trình học tập và

nghiên cứu Chúng tôi xin được gửi lòng biết ơn sâu sắc đến gia đình và bạn bè

của chúng tôi, họ là nguồn động lực thúc đẩy chúng tôi xuyên suốt con đường

học tập.

Trang 5

Tóm tắt nội dung

Phân đoạn đối tượng trong video (Video object segmentation) là một bài toán

cơ bản trong Thị giác máy tính đang thu hút rất nhiều sự chú ý trong cộng đồng

bởi tính ứng dụng cao trong chỉnh sửa, phân tích video, ứng dụng trong xe tự

lái Nhiệm vụ chính là phân tách pixels thuộc đối tượng (foreground object) và các pixels trong phông nền (background) trong tất cả các frames của một video Trong nghiên cứu này, hướng tiếp cận là bán giám sát (semi-supervised) với đầu vào là chuỗi các video frames và object mask của frame đầu tiên, và nhiệm vụ

là phân tách đối tượng cho các frame còn lại Bài toán đối mặt với rất nhiều thử thách so với phân tách đồi tượng trong hình ảnh vì đối tượng trong video sẽ thay đổi rất nhiều theo thời gian và sự thay đổi giữa các frame với nhau Vấn

đề cốt lõi của Phân đoạn đối tượng bán giám sát trong video là khám phá được

sự phụ thuộc giữa các frame trong video và cả pixels trong từng frame Sự phụ

thuộc này được biểu diễn bởi 2 mối quan hệ: Thời gian (temporal relationships)

và Không gian (spatial relationships) Môi quan hệ thời gian thể hiện sự phụ

thuộc của đối tượng giữa các frame với nhau, điều này rất quan trọng để có thể

làm rõ sự thay đổi của các đặc trưng của đối tượng qua thời gian Trong khi

đó mối quan hệ không gian là mỗi quan hệ giữa các pixels trong cùng 1 frame,

chứa các thông tin về vi trí và hình dang của đối tượng trong frame đó Cơ chế

Attention ban đầu được giới thiệu để giải quyết một số vấn đề cho cái bài toán

về xử lý ngôn ngữ tự nhiên vì khả năng tận dụng sự liên hệ giữa các từ trong câu.

Tuy nhiên gần đây, các hướng tiếp cận sử dụng cơ chế Attention trong thị giác

máy tính đã đạt được kết quả rất tốt trong các bài toán về Nhận diện đối tượng

(Object Detection) và Phân đoạn ngữ nghĩa trong hình ảnh (Image Semantic

Segmentation) Trong bài nghiên cứu này, nhóm sẽ làm rõ các hướng tiếp cận

Trang 6

theo cơ chế Attention cho bai toán Phân đoạn đối tượng trong video và tác động

của cơ chế Attention đối với việc khám phá các mối quan hệ của các pixels trong

các frame Cùng với đó là đưa ra các nhận định, đánh giá, so sánh giữa các mô

hình áp dung cơ chế Attention và dé xuất những cải tiến cải thiện.

Trang 7

Muc luc

Lời Cam Ơn iv

Tom tắt nội dung M

2.2.1 Phương pháp Nhận diện (Detection based approach) 20

2.2.2 Phương pháp Lan Truyền (Propagation based approach) 21

3 _ Các phương pháp ứng dụng cơ chế Attetion trong Phân đoạn đối tượng video 26

3.1 Phương pháp So khớp đặc trưng theo không-thời gian 26

3.1.1 Tổngquan ee 26

3.1.2 Cơ chế Non-local Attention va Non-local Neural Network 26

3.1.3 Mô hình Space Time Memory Nework 30

3.1.4 Những cải tiến với mô hình Space-Time Correspondence Networks 36

3.2 Phương pháp Vision Transformer 41

Trang 8

Mục lục viii

3.2.1 Tongquan ee

3.2.2 Cơ chế Self-Attention trong xử ly ảnh với mô hình DETR

3.2.3 Mô hình TransVOS Q Q HQ ko 3.24 Cảitếnmôhình Ặ.ẶẶ QẶ ee eee 4 Thực nghiệm 4.1 Tập dữ liệu sử dụng trong quá trình huấn luyện

4.1.1 Tập dữ liệu ảnhtnh ẶẶẶẶVẶSẶS 4.1.2 Tập dữ liệu Phân đoạn đối tượng trong video DAVIS2017

42 Độđođánhglá Ặ HQ HH HQ HH và 43 Thực nghiệm và đánhgliá ẶẶ ee ee eee 43.1 Cấu hìnhthựcnghệm

4.3.2 Thong số cài đặt cho các môhình

-4.4 So sánh, đánh giá kết quả thực nghiệm các môhình

4.4.1 Kết quả đánh giá thực nghiệm cdc môhình

4.4.2 Kết quả trực quan

thựcnghiệm -5 Kếtluận 5.1 Tổngkết

5.2 _ Hướng nghiên cứu trong tương lai

Tài liệu tham khảo

41

42

45 52

56 56 56

57

58

59

59

59

60 61 64

69

69

70

71

Trang 9

Vi du về ảnh và trực quan object segmetationmask_ 2

Self-driving car - äa Á ee 3

Trực quan các mối quan hệ giữa các pixels trong chuỗi video frame (Ngu6n:[32]) 5

CONVOLUTION LAYER: bộ lọc tích chập sẽ quét qua toàn bộ ma trận anh

gốc và nhân tích chập với vùng tương ứng để tạo ra feauture map (Nguôn:[23]) 8FULLY CONNECTED LAYER: Toàn bộ các pixels sẽ được làm phẳng và mỗi

pixels đó được kết nối đến tất cả các neurons.(Nguén:[30]) 8

CNN #“ £ < -\À / 8

Residual Block (Ngu6n:[17]) oo 0 yo Pa a 10

Convolutional Block: Nối tat được bổ sung lớp tích chập (Ngu6n:[12]) 10

Residual block trong ResNet50 (Nguồn:| 17]) re ẰẶŸ 11 Kién tric ResNet50 (N gu6n:[27]) > ptt re 12

Cấu trúc Key-Value Memory Network (Nguồn:[39]) 14Cấu trúc của mô hình sequence-to-sequence khi áp dung cơ chế Attention Các

khối màu xanh dương là Encoder, màu đỏ là Decoder (Nguồn:[l]) 15Luông tính toán của Self-Attention trong một chuỗi đầu vào Việc tính toán tại

mỗi time-steps là độc lập với nhau vì vậy có thể được thực hiện song song 17

Minh họa cho 2 công thức tính cơ chế Self-Attention (Nguồn:[40]) ¬ eee 19

Sơ đồ quá trình huấn luyện của OSVOS (Nguồn:[3]) 20

Trang 10

Danh sách hình vẽ x

2.13 So đồ mô tả kết qua inference của mạng so khớp pixels (Nguén:[38]) Ở đây 2

đầu vào Frame mục tiêu và Frame tham khảo được đưa vào 2 luồng search vàquery với các lớp tích chập ở 2 luồng sẽ chia sẻ trọng số với nhau (màu xanh

dương) Thông tin tương quan ở mức độ pixels giữa query và search sẽ được các

lớp Kết nối đầy đủ (màu đỏ) tính toán từ các đặc trưng đã được trích xuất trước

đó Cuối cùng, việc kết nối các đối tượng và loại bỏ thông tin nhiễu sẽ được thực

hiện thông qua các lớp tích chập và phân loại từng pixel vào foreground hoặc background (màu xanh lá cây) Ặ.Ặ.Ặ ee 21

2.14 Kiến trúc FlowNet.(Nguồn:[l6]) - 222.15 Minh họa cho quá trình lan truyền object mask trong mô hình mạng MaskTrack

(N guỗn:[34]) Với mỗi frame, object mask của frame trước sẽ được thêm vào

đầu vào lúc này có 4 chiều (RGB và binary mask) - 232.16 Kiến trúc Deeplab-VGG16 (Nguồn:[5]) 232.17 Sơ đồ minh hoa cho mô hình [46] Initializer là một mang feed-forward dùng

để encode frame đầu tiên và object mask cho trước Frame mới được thêm vàotheo thời gian và ConvLSTM được cập nhật xuyên suốt chuỗi video 242.18 Cả 2 luồng encoder xây dựng dựa trên ResNet50 [17] và được chia sẻ trọng số

cho nhau Decoder là các refinement module được thay đổi các lớp tích chập

bằng các Residual blocks [17] (Nguồn:[31]) 24

2.19 Minh họa quá trình huấn luyện của mô hình [31] Hàm mắt mát được tính toán

ở mỗi bước nhảy và việc cập nhật mô hình dược thực hiện bởi phương pháp lan

truyền ngược theo thời gian (back-probagation-through-time) 25

Trang 11

xuất độc lập với các objectmask_ - 37

Các khu vực được tô màu với điểm "tương đồng nhất" trong mỗi độ đo (Nguồn:[8]) 41

Sơ đồ minh họa kiến trúc của DETR (Nguồn:|4]) 42Chi tiết cấu trúc của Transformer module trong DETR (Nguồn:|4]) 43Kiến trúc TransVOS (Ngu6n:[28]) Đường mũi tên đứt đoạn minh hoa cho skip

CONN€C[OT Ặ Ặ Q Q Q HQ HQ HH ung kg ko 45

Khối Transformer Encoder và Decoder trong mô hình TransVOS 47

Attention map của Encoder tại 4 vị trí Mỗi vị trí sẽ chú ý vào những vùng khác

nhau, những vùng có màu vàng đậm là những vùng được chú ý nhiều nhất 48Qúa trình thực hiện phân đoạn đối tượng của mô hình TransVOS (Nguén:[28]) 50Minh họa của quá trình quét lớp deformable convolution 3 x 3 (Ngu6én:[13]) 53Minh hoa cho Deformable Attention module (Nguồn:[48]) 54

Frame 28 va object mask trong video Lab-coat của DAVIS-2017 (Ngu6n:[35]) 63Object mask phân đoạn 1 đối tượng được dự đoán của từng mô hình cho các

frame 1-11-24-33-48 trong video Breakdance của DAVIS-2017 [35] 64

Object mask phân đoạn da đối tượng được dự đoán của từng mô hình cho các

frame 1-11-24-52-64 trong video bike-packing cua DAVIS-2017 [35] 65

Một số kết quả trực quan của mô hình Deformable TransVOS 66

Ví dụ về trường hợp các mô hình theo phương pháp so khớp không thời giannhận diện đối 0/9500 TT 67Trường hợp cả 3 mô hình đều cùng phân vùng sai 68

Trang 12

So sánh kích thước của tập dữ liệu DAVIS-2016 và DAVIS-2017 57

Bảng kết quả thực nghiệm các mô hình pretrain trên tập đánh giá DAVIS-2017 61Bảng kết quả thực nghiệm các mô hình chỉ huấn luyện trên tập trainset của

DAVIS-2017 ORR Œ 0 a Se www we ee 61Bảng kết quả thực nghiệm các mô hình khi được huấn luyện day đủ qua ca 2

giai đoạn trên tập đánh giá của DAVIS-2017 62

Bảng kết quả thực nghiệm của TransVOS và mô hình đề xuất DeformableTransVOS ẨÁ “vua - - - (se - / .- -. 62

Kết quả J&F mean của TransVOS va Deformable TransVOS cho từng nhãn củavideo Lab-coat trong DAVIS-2017 63

Trang 13

Convolutional Neuron Network Transformer for Video Object Segmentation

xiii

Trang 14

Ma trận quan hệ

Bộ mã hóa

Bộ giải mã Quá trình chạy thực nghiệm dự đoán của mô hình

Huấn luyện trước trên một bộ dữ liệu lớn

Nhân tích chập

Hồi quy

xiv

Trang 15

Chương 1

11 Tổng quan

Video là một trong những nguồn dữ liệu đa phương tiện vô cùng quan trọng, bao gồm tậphợp của một chuỗi hình ảnh có thứ tự và có sự liên kết với nhau Các video thông thường sẽ cónhững chủ thể chính thể hiện chủ dé và nội dung mà video muốn truyền tải Với việc kết hợpcác chuỗi hình ảnh, video cung cấp lượng thông tin đầy đủ hơn nhiều so với hình ảnh tĩnh cũng

vì vậy mà dung lượng của video lớn hơn rất nhiều Trong những năm gần đây với sự phát triểnnhanh chóng của Internet, nguồn dữ liệu video ngày càng rộng lớn và trở nên vô cùng quantrọng với tiềm năng khai thác thông tin rất lớn Dé có thể phân tích, lưu trữ và sử dụng nguồn

đữ liệu video hiệu quả, nội dung thông tin của video có thể được khai thác thông qua việc phân

đoạn và theo dõi đối tượng chính trong video

1.1.1 Phan đoạn đối tượng trên video và ứng dụng

Phân đoạn đối tượng là một trong những bài toán cơ bản trong lĩnh vực thị giác máy tínhvới mục tiêu là nhận diện và phát hiện các đối tượng trong một bức ảnh ở mức độ pixels bằngcách phân biệt các pixels trong một frame vào 2 tập hợp: pixels biểu diễn đối tượng và pixelsnam trong vùng nền Trong đó, các pixels biểu diễn đối tượng khác nhau cũng được được phânbiệt với nhau và những pixels không liên quan đến đối tượng được xếp chung vào thành vùngnên, từ đó xây dựng nên object segmentation mask Object segmentation mask là một kênh matrận với các điểm cùng biểu diễn một đối tượng thì sẽ có cùng một giá trị và phân biệt với hậucảnh và các đối tượng khác Việc xây dựng object mask chính xác giúp phân biệt các đối tượnggiống nhau, loại bỏ các cảnh nền phức tạp và hỗ trợ cho việc nhận diện, theo dõi đối tượng

Trang 16

Chương 1 Giới Thiệu 2

(A) Ảnh RGB gốc (B) Object segmentation mask

HÌNH 1.1: Ví dụ về ảnh và object segmetation mask.

Nhiệm vụ chính của Phân đoạn đối tượng trong video (Video Object Segmentation) là phân đoạn các đối tượng cụ thể trong toàn bộ chuỗi video frame với các object mask được bổ sung

tự động hoặc thủ công Hiện nay VOS được chia làm ba hướng tiếp cận: Phân đoạn đối tượng không giám sát (Unsupervised VOS), Phân đoạn đối tượng bán giám sát (Semi-supervised VOS) và Phân đoạn đối tượng bằng tương tác (Interactive VOS) Đôi với Phân đoạn đối tượng không giám sát, thuật toán có thể xây dựng object mask bằng phương pháp bottom-up mà không cần sự hỗ trợ từ người dùng hay object mask cho trước Phương pháp này sử dụng các thông tin chuyển động theo không-thời gian và sự xuất hiện giống nhau của các đối tượng giữa các video frame để phân đoạn một cách tự động Ngược lại, Phân đoạn đói tượng bằng tương tác yêu cầu object mask được người dùng tạo thủ công ở một vai frame Phan đoạn đối tượng bán giám sát

có thể xem như là hướng tiếp cận nằm giữa 2 hướng tiếp cận trên, yêu cầu object mask có sẵn ở frame đầu tiên để xác định đối tượng và tự động phân đoạn cho toàn bộ các frame còn lại trong chuỗi video Trong bài nghiên cứu này, nhóm sẽ tập trung vào các phương pháp sử dụng cơ chế Attention theo hướng tiếp cận bán giám sát.

Phân đoạn đối tượng trong video có rất nhiều ứng dụng thực tế bao gồm ứng dụng trong Xe

tự lái, Tóm tắt nội dung video, Nén video ở định dang cao, Nhận diện hành động và tương tác.

Xe tự lái

Hiện nay xe tự lái đang dần trở nên phổ biến và là xu hướng nghiên cứu của rất nhiều hãng xe

trên thé giới Trong các tình huống giao thông phức tạp, với rất nhiều đối tượng có thể xuất hiện

trên đường, phần mềm trong xe cần phải được cung cấp các thông tin về bối cảnh một cách chỉ

Trang 17

Chương 1 Giới Thiệu 3

tiết và chính xác Với việc phân đoạn được các đối tượng trong video, mô hình AI trong xe tự lái

có thể phân biệt được các nội dung ngữ nghĩa (ví dụ: pixels đại diện cho ô tô, người đi đường)

cũng như các đối tượng khác nhau (ví du: pixels đại điện cho các loại phương tiện khác nhau) Với việc phát hiện các đối tượng ở mức độ pixels, các thông tin về hình dang object được khai thác để có thể cải thiện việc theo dõi đối tượng từ đó giúp cho việc tự động điều chỉnh tốc độ

cũng như khả năng đánh lái của xe chính xác hơn.

Nén video 6 dinh dang cao

Các dữ liệu video thường có dung lượng rất lớn so với các dữ liệu da phương tiện khác như ảnh hoặc âm thanh, vì vậy để có thể chia sẻ, lưu trữ và sử dụng hiệu quả, dữ liệu video cần phải được nén lại nhưng vẫn phải giữ được chất lượng hình ảnh Nén dữ liệu video là quá trình mã hóa một tập tin video bằng các thuật toán để giảm thiểu dung lượng video Nén video thường được thực hiện bằng cách loại bỏ các hình ảnh, âm thanh hoặc cảnh trong video mà lặp đi lặp lại Trong lĩnh vực này, VOS được sử dụng trong chuẩn mã hóa video MPEG-4 để trích xuất các nội dung

đặc trưng Cụ thể, VOS có thể mã hóa cảnh quay trong video dưới dạng ảnh tĩnh thu được sau

khi bù đắp các chuyển động của đối tượng bằng cách tận dụng các đặc trưng nội dung cung cấp bởi chuẩn MPEG-4.

Tom tat video

Với việc số lượng video trên Internet là vô cùng lớn và đang ngày càng tăng dẫn đến nhu cầu

Trang 18

Chương 1 Giới Thiệu 4

cho việc truy vấn video nhanh chóng cũng ngày càng cấp thiết Tóm tắt video với mục tiêu là

tổng quát kho video rộng lớn trên Internet một cách hiệu quả, là một trong những giải pháp nhận

được rất nhiều sự quan tâm gần đây Mục tiêu của Tóm tắt video là tổng hợp những cảnh quay quan trọng trong những videos có cùng chủ đề Trong những video có cùng một chủ đề, các nội

dung hình ảnh quan trọng thường xuất hiện nhiều lần trong các videos đó, tần suất xuất hiệncủa các nội dung này có thể được sử dụng để đánh giá cảnh quay nào là quan trọng Các phương

pháp VOS được áp dụng trong Tóm tắt video nhằm khám phá và phân loại các đồi tượng trong nhiều videos khác nhau từ đó cung cấp các đặc trưng nội dung hỗ trợ trong Tóm tắt video.

1.1.2 Thách thức

Nhìn chung, các bài toán về Phân đoạn đối tượng trong video có rất nhiều van đề khó khăn

và thách thức Đối tượng trong video rất đa dạng, có thể là con người, động vật hoặc dé vật vớinhiều hình dạng, màu sắc khác nhau Không những vậy, trong một số video, các đối tượng khácnhau còn có thể có hình dạng giống nhau và thường có sự liên kết với nhau trong các videoframe, điều nay gây ra rất nhiều khó khăn cho việc nhận dạng và phân biệt các đối tượng Bốicảnh trong video cũng rat đa dạng và có nhiều chỉ tiết gây nhiễu Trong Phan đoạn đối tượngbán giám sát, thường sẽ được cung cấp object mask cho frame đầu tiên và tự động phân đoạnđối tượng cho các frame tiếp theo, tuy nhiên trong video, các đối tượng sẽ biến đổi hình dạng,góc độ theo từng frame khiến cho việc phân đoạn chính xác được đối tượng gặp rất nhiều thửthách Ngoài ra, một số yêu tố của video như độ phân giải thấp, chuyển động bị nhòe, góc độ

da dạng, cũng là những yếu tổ gây ảnh hưởng tới kết quả của Phân đoạn đối tượng Cảnh nềncũng là một trong những tác nhân gây ảnh hưởng đến kết quả phân đoạn, đối với những video có

độ phân giải cao, những chi tiết trong cảnh nền có thể gây nhiễu và khiến cho mô hình bị nhằmlẫn với đối tượng Các phương pháp Phân đoạn đối tượng trong video thường phải xử lý nhiềuframe một lần để có thể sử dụng thông tin nội dung trong nhiều video frames vì vậy thườngtiêu tốn rất nhiều tài nguyên để tính toán Để các mô hình VOS có thể nhận diện được nhiềuđối tượng, thông thường các mô hình sẽ được pretrain trên các tập dữ liệu ảnh đối tượng tĩnh cóobject mask, các ảnh này sẽ được xử lý và biến đổi để tạo thành một video nhỏ chỉ gồm hai hay

ba frames, điều này giúp cải thiện kết quả của các mô hình tuy nhiên cũng khiến cho việc huấnluyện tốn rất nhiều thời gian

Trang 19

Chương 1 Giới Thiệu 5

hệ thời gian chính là mỗi quan hệ giữa các pixels trong các frame khác nhau, mang thông tin về

sự liên quan giữa các đối tượng giữa các frame, điều này là vô cùng cần thiết để mô hình có thểhọc được sự thay đổi đặc trưng của đối tượng theo từng frame Mdi quan hệ không gian là mỗiquan hệ giữa các pixels trong cùng một frame chứa thông tin về vị trí, hình dạng của đối tượng

giúp nhận dạng và phân đoạn thành obJect mask chính xác.

(A) Mỗi quan hệ thời gian (B) Méi quan hệ không gian

HÌNH 1.3: Trực quan các mối quan hệ giữa các pixels trong chuỗi video frame

(Nguồn:[32])

Trong Mạng nơ ron thần kinh nhân tạo (Artificial Neural Network), một cấu trúc mô hình

mô phỏng theo cách bộ não con người hoạt động, cơ chế Attention được lấy ý tưởng từ cách bộ

não nhìn sự vật, sử dụng để tập trung vào các đặc trưng có liên quan đến chủ thể chính và bỏ quanhững thứ còn lại Ban đầu cơ chế Attention được sử dụng để cải thiện các hệ thống dịch thuậttheo cấu trúc encoder decoder (Encoder Decoder-based neural machine translation system) va

Trang 20

Chương 1 Giới Thiệu 6

sau nay được áp dụng trong các bài toán thị giác máy tính với việc có thé làm rõ được các mốiliên hệ giữa các pixels trong ảnh đầu vào Cơ chế Attention cho phép mô hình chú ý và hiểuđược mức độ quan trọng của từng phần của câu hoặc ảnh một cách rõ ràng Đối với Phân đoạn

đối tượng trong video, cơ chế này chính là chìa khóa để có thể tận dụng hiệu quả các mối quan

hệ thời gian và không gian giữa các pixels.

Trong bài nghiên cứu này, mục tiêu của nhóm là:

* Tìm hiểu tổng quan về bài toán Phân đoạn đối tượng trong video

* Tìm hiểu tổng quan về 2 cơ chế Attention sử dụng cho xử lý ảnh video: Non-local

Atten-tion [43] và Self-AttenAtten-tion [40].

» Nghiên cứu các phương pháp sử dụng cơ chế Attention cho bài toán Phân đoạn đối tượng

trong video: So khớp đặc trưng theo không-thời gian (Matching Spatial-Temporal

Infor-mation) va Vision Transformer.

* Tiến hành thực nghiệm và đánh giá

1.3 Đóng gop của đề tai

Những đóng góp chính của đề tài này:

s Tap trung nghiên cứu và phân tích các mô hình dựa trên phương pháp sử dụng cơ chế

At-tention: Space Time Memory Network (STM) [32] cùng với mô hình cải tiến Space Time

Correspondence Network (STCN) [8] và Video Object Segmentation with Transformer (TransVOS) [28]

* Tiến hành thực nghiệm trên tập dữ liệu anh tinh và tập dữ liệu DAVIS 2017 [35] Đánh

giá kết quả của các mô hình trên tập Validation của DAVIS 2017

¢ So sánh, đánh giá wu, nhược điểm của các mô hình

« Giới thiệu hướng tiếp cận sử dụng cơ chế Deformable Attention cho bài toán Phân đoạn

vật thể trong video.

Trang 21

Chương 2

Nghiên cứu liên quan

Chương này sẽ tổng hợp những kiến thức nền tảng và giới thiệu chung về các hướng tiếp cậnliên quan cho bài toán Phân đoạn đối tượng trong video Trong phần kiến thức nền tảng, chúngtôi sẽ tổng quát lại các kiến thức cơ bản về mạng Tích chập (Convolution Neural Network) và

mô hình mạng sử dụng cho việc trích xuất đặc trưng cho ảnh là ResNet, cùng với đó là cơ chế lưutrữ đặc trưng của Memory Network Trong phần các hướng tiếp cận, chúng tôi sẽ giới thiệu tổngquan về các nghiên cứu liên quan đến Phân đoạn đối tượng trong video theo phương pháp họcbán giám sát với hai hướng tiếp cận cơ bản bao gồm Phương pháp học Lan truyền (Propagationbased approach) và Phương pháp Nhận diện (Detection based approach).

2.1 Kiến thức nền tang

2.1.1 Mang Residual Neural Network (ResNet)

Trong những năm gần day, Convolutional Neural Network (CNN) hay Mang tích chap đượcxem là kiến trúc mang then chốt trong các ứng dụng thuộc lĩnh vực thị giác máy tinh CNN

là một kiến trúc mạng nơ ron nhân tạo bao gồm nhiều lớp tích chập (Convolution), lớp gộp(Pooling) và lớp kết nối (Fully connected)

Về mặt kĩ thuật, khi sử dụng mô hình CNN để huấn luyện hoặc dự đoán, hình ảnh đầu vào

sẽ được đưa vào một loạt các lớp Convolution với bộ lọc (filter) với hàm kích hoạt phi tuyến để

trích xuất các đặc trưng của tấm ảnh và lớp Pooling dé chat lọc các thông tin hữu ích, loại bỏ

thông tin gây nhiễu Mỗi một lớp sau khi thông qua hàm kích hoạt sé tạo ra thông tin trừu tượng

hơn cho các lớp tiếp theo Lớp ở sau là kết quả sau khi nhân tích chập từ lớp trước đó nhờ vậy sẽtạo ra được một mạng với các kết nối cục bộ, nói cách khác mỗi neuron ở lớp kế tiếp được tạo ra

từ kết quả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước nó Sau đó được tổng hợp

Trang 22

Chương 2 Nghiên cứu liên quan 8

v.

L Convolution filter l

Source pixel Target pixel

HÌNH 2.1: CONVOLUTION LAYER: bộ lọc tích chập sẽ quét qua toàn bộ ma

trận ảnh gốc và nhân tích chập với vùng tương ứng để tao ra feauture map.

HINH 2.2: FULLY CONNECTED LAYER: Toàn bộ các pixels sẽ được làm phẳng

và mỗi pixels đó được kết nối đến tat cả các neurons.(Nguôn:[30])

lại bằng lớp Fully Connected và áp dụng hàm softmax để phân loại đối tượng trong ảnh Trong

quá trình huấn luyện, mạng CNN sẽ tự động học và tìm ra trọng số tối ưu cho các filter

FEATURE LEARNING CLASSIFICATION

HÌNH 2.3: Ví du minh họa về một mang CNN cơ bản (Nguôn:[14])

Đối với các mạng tích chập, về lý thuyết mô hình sẽ có gắng học và điều chỉnh trọng số để trích xuất các đặc trưng theo các mức độ thấp, trung bình, cao Càng nhiều lớp hay mô hình

càng sâu thì càng có thể trích xuất các đặc trưng ở mức độ cao (high-level features) Quá trình

Trang 23

Chương 2 Nghiên cứu liên quan 9

học được diễn ra dựa trên thuật toán được gọi là lan truyền ngược (Backprobagation) Ý tưởng

của thuật toán này là sé đi ngược từ đầu ra kết qua (output) về lại các lớp ẩn (hidden layers) vàtính toán gradient tương ứng với các cost function tương ứng cho từng trọng số của các lớp cho

tới lớp đầu vào Gradient Descent được sử dụng để tối ưu hàm mất mát và cập nhật lại trong

số Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các trọng số của mô hình mạngđược hội tụ Thông thường chúng ta sẽ có một hyperparameter (số Epoch - số lần mà toàn bộtập dữ liệu huấn luyện được duyệt qua một lần và trọng số được cập nhật) định nghĩa cho sốlượng vòng lặp để thực hiện quá trình này Nếu số lượng vòng lặp quá nhỏ thì mô hình có thể

sẽ không cho ra kết quả tốt và ngược lại thời gian huấn luyện mô hình sẽ lâu nếu số lượng vònglặp quá lớn Tuy nhiên, trong thực tế Gradients thường sẽ có giá trị nhỏ dần khi đi xuống cáclớp thấp hơn vì vậy trọng số các lớp đầu ở mô hình mạng thay đổi rất ít hoặc không thay đổidẫn đến việc học ở các lớp này không hiệu quả Trong quá trình huấn luyện, kết quả ban đầu sẽtốt dần nhưng khi đến một epoch nhất định, Gradients trở nên quá nhỏ hoặc bằng 0 dẫn đến kếtquả là các cập nhật thực hiện bởi Gradients Descent không làm thay đổi nhiều trọng số của cáclớp đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt Hiện tượng nhưvậy gọi là Vanishing Gradients Và ResNet [17] ra đời để giải quyết hiện tượng này

Residual Block

ResNet [17] hay Residual Network mang đến giải pháp cho việc xây dựng một mô hình mangsâu với việc sử dụng các nồi tắt (Skip Connections) xuyên qua một hoặc nhiều lớp Convolution.Một khối như vậy được gọi là Residual Block[17] hay Identity Block

Khi không có các nối tắt, đầu vào ’x’ nhân với trọng số của lớp và cộng thêm bias Di qua

hàm kích hoạt Relu F() sẽ có đầu ra:

Trang 24

Chương 2 Nghiên cứu liên quan 10

weight layer

x

identity

HÌNH 2.4: Residual Block (Ngu6n:[17])

lớp đầu vào khi di qua một khối Residual: Indentity mapping (lan truyền qua Identity connect)

và Residual mapping (lan truyền qua các lớp) Khi lan truyền qua Residual mapping, giá trị

gradient mới được tính toán và trọng số các lớp được cập nhật Ở những lớp dau, giá trị gradient

này quá nhỏ và để ngăn quá trình tính toán gradient, gradient sẽ được lan truyền qua Indentitymapping và bỏ qua khối Residual này Khi không gặp phải trọng số nào, giá trị gradient đượcbảo toàn nhờ đó giá trị gradient này đến được các lớp ở đầu và cập nhật trọng số chính xác ở cáclớp đó.

28 x 29X128

Si E(x) +x

Convolutional Block

HÌNH 2.5: Convolutional Block: Nối tắt được bổ sung lớp tích chập (Nguồn:[12])

Đối với việc thực hiện nối tắt, đầu vào và đầu ra phải có cùng kích thước hay x và F(x) phải

có cùng chiều Khi x và F(x) khác chiều, một lớp tích chập 1x1 được sử dụng để thay đổi chiều

của x khi đi qua nối tắt (Hình 2.5).

Trang 25

Chương 2 Nghiên cứu liên quan 11

ResNet-50

ResNet [17] (Residual Network) được giới thiệu đến công chúng vào năm 2015 và thậm chi

đã giành được vị trí thứ 1 trong cuộc thi ILSVRC 2015 với ti lệ lỗi top 5 chỉ 3.57 % Khôngnhững thế nó còn đứng vị trí đầu tiên trong cuộc thi ILSVRC and COCO 2015 với ImageNetDetection, ImageNet localization, Coco detection và Coco segmentation Hiện tại thì có ratnhiều biến thể của kiến trúc ResNet tùy vào kích thước của các lớp trong mô hình va số lượng

lớp của mô hình như ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet- 152,

ResNet-50 bao gồm 48 lớp tích chập cùng với 1 lớp max pooling và 1 lớp average pooling Vớiviệc mô hình mạng có nhiều lớp tích chập, các khối Residual trong ResNet-50 được thiết kếtheo dạng bottleneck, mỗi khối sẽ bao gồm 3 lớp tích chập theo thứ tự conv 1x1, conv 3x3, conv1x1.

HÌNH 2.6: Residual block trong ResNet50 (Ngu6n:[17])

Tất cả các phiên bản ResNet đều có kiến trúc gồm 2 lớp ban đầu là conv7x7 và maxpooling3x3 sau đó là các khối Residual được chia làm 4 phần (stage) Đối với ResNet-50, stage 1 có

3 khối Residual, stage 2 có 4 khối, stage 3 có 6 khối và stage 4 có 3 khối Qua mỗi stage, kíchthước đầu vào sẽ giảm đi một nửa và chiều sâu tăng lên gấp đôi 256 -> 512 -> 1024 -> 2048

Trong nghiên cứu này, chúng tôi sẽ tập trung vào mô hình ResNet-50 được pretrain trên bộ

dữ liệu ImageNet [15] và sử dụng mô hình như một module cho bước trích xuất đặc trưng từ

video frame.

Trang 26

Chương 2 Nghiên cứu liên quan 12

Anwsering), nơi bộ nhớ dài hạn hoạt động hiệu quả như một cơ sở tri thức (động).

Câu trúc

Một Memmory Network bao gồm một bộ nhớ m ( thực chất là một mảng các đối tượng đượcđánh chỉ mục mi) và 4 thành phan I, G, O và R như sau:

I: (Input feature map) - chuyển đổi đầu vào thành các biểu diễn đặc trưng bên trong

G: (generalization) - cập nhật những memories cũ với đầu vào mới Điều này được gọi là tổngquát hóa vì có cơ hội cho mạng nén và tổng quát hóa các memory của nó ở giai đoạn này chomột số mục đích sử dụng trong tương lai

O: (output feature map) — tạo ra một đầu ra mới (trong không gian biểu diễn các đặc trưng), vớiđầu vào mới và trạng thái bộ nhớ hiện tại

R: (response) - chuyển dau ra thành định dang response ( phản hồi) mong muốn Ví dụ: một

response dạng văn bản (text) hoặc một hành động (action).

Trang 27

Chương 2 Nghiên cứu liên quan 13

Cho một đầu vào x (ví dụ: một ký tự đầu vào, từ hoặc câu tùy thuộc vào mức độ chi tiết đượcchọn, hình ảnh hoặc tín hiệu âm thanh), mô hình sẽ đi theo luồng như sau:

1 Chuyển đổi x thành biểu diễn đối tượng bên trong /(x)

2 1 Cập nhật memory mi với đầu vào mới: m; = G (m;,/(x),m) „Vi,

3 Tính toán các đặc điểm đầu ra o với đầu vào mới và bộ nhớ: ø = O(I(x),m)

4 Cuối cùng, giải mã các đặc điểm đầu ra o để đưa ra phản hồi cuối cùng: r = R(o)

Quá trình này được áp dụng ở cả thời gian traning và test, néu có sự khác biệt giữa các giai đoạnnhư vậy, tức là các memories cũng được lưu trữ tại thời điểm kiểm tra, nhưng các tham số mô

hình của I, G, O và R không được cập nhật.

Key-Value Memory Network

Key-Value Memory Network [39] là một mô hình dựa trên Memory Network [44] đã được

chứng minh là hữu ích cho nhiều tác vụ QA Cặp Key-Value Memory là sự tổng quát hóa cáchngữ cảnh (ví dụ: cơ sở kiến thức hoặc tài liệu được đọc) được lưu trữ trong Memory Việc tra cứu(addressing) giai đoạn dựa trên Key Memory trong khi giai đoạn đọc và đưa ra kết quả trả về sửdụng Value Memory Điều này mang lại cho cả hai tính linh hoạt cao hơn để người dùng có thể

mã hóa kiến thức trước đây về nhiệm vụ của họ và cũng mang lại sự hiệu quả hơn trong mô hìnhthông qua các phép chuyển đổi quan trọng giữa Key và Value Một thuộc tính quan trọng nữacủa mô hình là toàn bộ mô hình có thể được huấn luyện với các phép biến đổi key-value trongkhi vẫn sử dụng phương pháp lan truyền ngược tiêu chuẩn thông qua sự giảm dần tốc độ trong

gradient descent.

Mô hình trên được các tác giả đề xuất dựa trên kiến trúc mang End-to-end memory network

[39] Ý tưởng chung của cả hai mô hình là coi Memory như là một mảng (có thể rất lớn ) chứa

các khe cắm có thể encode cả sự phụ thuộc ngắn hạn và dài hạn Tại thời điểm kiểm tra, người

ta đưa ra một truy vấn (ví dụ: câu hỏi trong các task QA), được sử dụng để giải quyết và đọc lặp

đi lặp lại từ bộ nhớ tìm kiếm thông tin liên quan để trả lời câu hỏi Tại mỗi bước, thông tin thuthập từ memory được tích lũy vào truy van ban đầu để xây dựng ngữ cảnh cho vòng tiếp theo

Ở lần lặp cuối cùng, ngữ cảnh được truy xuất cuối cùng và truy vấn gần đây nhất được kết hợp

thành các tính năng để dự đoán đầu ra

Trang 28

Chương 2 Nghiên cứu liên quan 14

! Knowledge ¡ wrt tt eee ee , Reo kv kv kv kev

Souce fT = ! ii Vid Bix Viz) Bis Yn) Baas Pig) Bane Yaw)

h

mơơm Key-Value Memories

HÌNH 2.8: Cấu trúc Key-Value Memory Network (Nguôn:[39])

Trong KV-MemNN [29], các phần tử của Memory là cặp vectơ (kị,vị), , (k„,v„) Toàn bộthao tác addressing và reading memory bao gồm ba bước:

« Key Hashing: câu hỏi có thể được chọn trước một tập hợp con nhỏ của mảng có thể lớn.Điều này được thực hiện bằng cách sử dụng một chỉ mục đảo ngược tìm thấy một tập hợp

con (1,1) (kg, V„„) của những Memory có kích thước N trong đó khóa chia sẻ ít

nhất một từ với câu hỏi có tần suất f<=1000 (để bỏ qua các stop word)

* Key Addressing: trong quá trình addressing, mỗi thành phan của Memory được chỉ định

một xác suất liên quan bằng cách so sánh câu hỏi với mỗi key :

Trang 29

Chương 2 Nghiên cứu liên quan 15

2.1.3 Cơ chế Attention

Tổng quan

Cơ chế Attention lần đầu được giới thiệu trong việc cải thiện các mô hình của bài toán dịch

máy (Neural Machine Translation) [2] Trong bài toán này, các mô hình sequence-to-sequence

với kiến trúc encoder-decoder thường được sử dụng, với nhiệm vụ từ một chuỗi ban đầu ở ngônngữ này sẽ tạo ra một chuỗi ở ngôn ngữ khác Hai khối encoder và decoder đều được tạo thành

từ các lớp RNN Encoder với đầu vào là ngôn ngữ gốc và xử lý cho ra đầu ra là một vector biểudiễn duy nhất còn gọi là context vector (vector ngữ cảnh) Vector này tóm gọn toàn bộ lượngthông tin từ đầu vào mà Decoder sẽ sử dụng cùng với các trạng thái ẩn và từ trước đó để dự đoáncho từ tiếp theo cho đầu ra của Decoder

Với việc Encoder phải nén toàn bộ thông tin từ chuỗi đầu vào vào một vector cô định khiến cho

mô hình khi thực hiện trên các câu dài không tốt vì nó sẽ bỏ qua một phần thông tin nào đó.Ngoài ra, Decoder chỉ nhận một context vector đầu vào duy nhất mặc dù tại mỗi time-step, cácphần khác nhau của chuỗi có thể mang nhiêu thông tin có ích hơn các phần khác

Cơ chế Attention ra đời cho phép mô hình dịch máy có thể nhìn toàn bộ thông tin của chuỗiđầu và dựa vào ngữ cảnh để chú ý đến các từ quan trọng có tác động đến từ mục tiêu để dịch.Attention đơn giản là một vector ngữ cảnh có thể tương tác với toàn bộ các vector trong trạngthái ẩn của Encoder theo từng time-step

| am a student <s> Je suis étudiant

HÌNH 2.9: Cấu trúc của mô hình sequence-to-sequence khi áp dụng cơ chế

Atten-tion Các khối màu xanh dương là Encoder, màu đỏ là Decoder (Ngu6n:[1])

Trang 30

Chương 2 Nghiên cứu liên quan 16

Tại mỗi time-step t ở Decoder:

1. Nhận vector trạng thái ẩn của Decoder h, và tat cả vector trạng thái ẩn của Encoder hy

2 Tính điểm Attention Với mỗi trạng thái ẩn trong Encoder, điểm Attention được tính nhằm

thể hiện sự liên quan đối với vector trạng thái ẩn của Decoder trong time-step Cụ thể là

một phương trình nhận đầu vào là h; và hs và trả về một giá trị vô hướng score (hị.h,).

3 Tính Attention weight với đầu vào là các điểm Attention

exp (score (J;,h;))

exp (=- score (,.ñ2))

Os = (2.6)

4 Vector ngữ cảnh c, được tinh bằng tổng của Attention weight 2.6 nhân với các vector trang

thái ẩn của Encoder

1S}

C= ` 0h, (2.7)

=1

5 Các vector attention a, (các khối mau đỏ ở trên cùng trong HÌNH 2.9) dùng để tính đầu

ra của Decoder được tính bằng vector ngữ cảnh c; 2.7 va vector trạng thái ẩn của Decoder

h, 6 time-step tương ứng.

Các công thức tinh điểm Attention:

Tên cơ chế Công thức tính điểm Attention

Content-base Attention score (Ay, hs) = cosine (sr, hs)

Addictive score (hị.h,) = vị tanh (Wa [m:ñ.])

Dot-product score (h,,h) = hj hs

General score (h,,h;) = hị Wahs

BANG 2.1: Bảng công thức tinh điểm Attention cho từng cơ chế.

Về tổng quan, cơ chế Attention được chia làm 2 loại:

* Hard Attention: thay vì tính trung bình trọng số của tất cả các vector trạng thái ẩn thì

nó sử dụng điểm attention để lựa chọn vị trí của vector trạng thái ẩn thích hợp nhất

Hard attention thường được huấn luyện bằng các sử dụng phương pháp học tăng cường

(Reinforcement Learning) Ưu điểm của cơ chế là chi phí tính toán thấp vì chỉ chú ý vàomột phần thông tin tuy nhiên khó hội tụ và cần nhiều kĩ thuật để huấn luyện

Trang 31

Chương 2 Nghiên cứu liên quan 17

* Soft Attention: là cơ chế học trong số để chú ý trên tất cả các phần thông tin cần thiết

của đầu vào Sử dụng điểm attention như là trọng số để tính toán ra vector bối cảnh và môhình có thể tự học để tự điều chỉnh trọng số nhờ vào Backprobagation Tuy nhiên, vì tính

toán trên toàn bộ đầu vào thì đối với ứng dụng liên quan đến ảnh chỉ phí tính toán sẽ rất

tốn kém khi ảnh lớn

Self-Attention

Self-Attention [40] hay Intra-Attention là một dạng cơ chế của Soft Attention cho phép một

từ hoặc một phần trong đầu vào tương tác với tất cả các phần tử trong đầu vào từ đó giúp môhình học được phần nào nên được chú ý nhiều hơn Mục đích chính của các cơ chế Attention làkhả năng so sánh sự tương quan giữa một phần tử với các thành phần còn lại nhằm làm rõ sựliên quan giữa chúng trong ngữ cảnh cụ thể Đối với Self-Attention chính là giữa từ hiện tại và

các từ trước nó, như trong hình 2.10, việc tính toán cho y3 dựa trên sự so khớp giữa x với các

đầu vào trước đó và chính x3

Self-Attention

Layer

HÌNH 2.10: Luéng tính toán của Self-Attention trong một chuỗi đầu vào Việc tính

toán tại mỗi time-steps là độc lập với nhau vì vậy có thể được thực hiện song song.

Cùng với Self-Attention là sự ra đời của kiến trúc mạng Transformer cho phép thay thế hoàntoàn kiến trúc hồi quy RNN bằng các mô hình Kết nối đầy đủ Mô hình Transformer đã loại

bỏ khái niệm về các vector trạng thái ẩn, memory và thay thế bằng các vector Keys, Query,

Values Khái niệm về Keys, Query, Values trong Self-Attention cũng có thể được hiểu theo việc

mô phỏng các hệ thống truy vấn, trong đó Querys sẽ được so khớp với từng phần tử trong Keys

nhằm trả về kết quả Values phù hợp Các vector này được tạo bằng cách nhân vector đầu vào

với các ma trận trọng số W(Q), W(K), W(V) có thể cập nhật trong quá trình huấn luyện Trọng

Trang 32

Chương 2 Nghiên cứu liên quan 18

số Attention được tinh bằng công thức Scaled Dot-product Attention Kết quả dau ra được tính bằng tổng vector Values nhân với mỗi giá trị trong Attention map với mục đích bảo toàn giá trị

vectơ của các từ cần được chú ý và loại bỏ vectơ của các từ không liên quan

OKT Attention (Q,K,V) = softmax Vi V (2.8)

k

Trong đó đ, là chiều sâu của vector Keys Việc thêm tỉ lệ (scale) với dy là cần thiết, vì với

công thức dot product attention thông thường, nếu giá trị của dy quá lớn, dot product sé cho rakết quả rất lớn dẫn đến hàm so ftmax bị đẩy đến những vùng có gradient quá nhỏ

Multi-head Attention

Thay vi chỉ thực hiện một phép tinh attention với đ„„„„¡ chiều vector keys, values và queries,

việc ánh xạ tuyến tính các vector keys, queries, values ¡ lần với các phép chiếu khác nhau thànhcác chiều dy, dy, dy chiều tỏ ra hiệu quả hơn Với mỗi phiên bản tuyến tính của queries, keys,

values các phép tính attention được thực hiện song song, dẫn đến d, chiều kết quả đầu ra Sau

đó, được kết nối lai và qua một phép ánh xạ tuyến tính trả về kết quả cuối cùng

Multi-head Attention [40] cho phép mô hình có thể tiếp cận các thông tin ở những chiều không

gian khác nhau ở những vị trí khác nhau Multi-head attention có thể hiểu là một phép tính gộp

attention với mỗi head là một phép tinh attention 2.8

MultiHead (Q,K,V) = Concat (head ¡, , head ,) W?

(2.9)

Với head ; = Attention (ow? Kw vwy)

Trong đó, phép chiếu tuyến tính là các ma trận trong số W,2 € JRđmôhimh Xá, WK € Remo ion de, WY c

IRmô hình Xế và WO c IRhÂXđmeél | h là số lớp attention.

Trang 33

Chương 2 Nghiên cứu liên quan 19

Scaled Dot-Product

Attention 2

(A) Scaled dot-product attention (B) Multi-head attention

HÌNH 2.11: Minh họa cho 2 công thức tinh cơ ché Self-Attention (Nguồn:[40])

2.2 Các hướng tiếp cận cho bài toán VOS theo phương pháp

học bán giám sát

Phân đoạn đối tượng trong video theo phương pháp học bán giám sát là phương pháp phânđoạn mô hình mà trong đó sẽ được cho trước object mask mẫu của frame đầu tiên và mô hình

sẽ tự động phân đoạn cho toàn bộ các frame còn lại Phương pháp này được chia thành 2 hướng

tiếp cận chính: Đồ thi theo không-thời gian (spatio-temporal graph) và Phân đoạn đối tượng bángiám sát dựa trên kiến trúc CNN (CNN based semi-supervised VOS) Tuy nhiên với việc các

mô hình CNN hoạt động rất tốt trong lĩnh vực phân đoạn hình ảnh, hướng tiếp cận xây dựng

mô hình dựa trên kiến trúc CNN tỏ ra vượt trội hơn Trong hướng tiếp cận này, dựa trên việc xử

lý thông tin chuyển động của đối tượng, được phân thành 2 phương pháp là Phương pháp LanTruyén (Propagation based approach) và Phương pháp Nhận diện (Detection based approach).Đây cũng là 2 phương pháp có anh hưởng rất lớn đối với các phương pháp khác trong Phân đoạnđối tượng trong video bán giám sát

Trang 34

Chương 2 Nghiên cứu liên quan 20

2.2.1 Phương pháp Nhận diện (Detection based approach)

Ý tưởng chính của phương pháp này là bỏ qua các thông tin chuyển động theo thời gian, thực

hiện nhận diện ở mức độ pixel và phân đoạn đối tượng ở từng frame dựa trên việc fine-tuning

mô hình sử dụng object mask cho trước ở frame đầu tiên One-shot Video Object Segmentation(OSVOS) [3] là mô hình cơ bản nhất trong phương pháp này với cách thức thực hiện khá đơn

giản.

1 Sử dụng một mô hình CNN đã được pretrain trên tập dữ liệu lớn.

2 Loại bỏ các lớp kết nối đầy đủ ở cuối mô hình

3 Sử dụng một hàm tính loss mới ví dụ: pixel-wise sigmoid balanced cross entropy, Mục

dich là phân loại từng pixels thuộc về đối tượng hay cảnh nền

4 Mô hình CNN ban đầu trở thành mô hình Fully Connected Network (FCN) và huấn luyện

mô hình FCN này trên tập dữ liệu VOS.

5 One-shot Training: Trong quá trình Inference, với mỗi chuỗi video frames và object

mask cho trước ở frame đầu, mô hình sẽ được khởi tạo với trọng số sau khi huấn luyện ởbước 4 và finetune dựa trên frame đầu tiên

Base Network

Pre-trained on ImageNet

Lo

sre

Parent Network Test Network

Trained on DAVIS training set Fine-tuned on frame 1 of test sequence

of test sequence

Results on frame N

HÌNH 2.12: Sơ đồ quá trình huấn luyện của OSVOS (Nguồn:[3])

Kết quả của quá trình này là các mô hình độc lập, chỉ có thể sử dụng cho mỗi video cụ thể

vì với mỗi video, mô hình sẽ được finetune dựa trên object mask của frame đầu và xảy ra hiệntượng overfit Mô hình chỉ đạt được kết quả tốt nếu sự xuất hiện của đối tượng và cảnh nềnkhông bị biến đổi quá nhiều trong các chuỗi video frame Để có thể học được thay đổi của đốitượng, các phương pháp cải tiến như finetuning online [41] hay lan truyền các segmentation

Trang 35

Chương 2 Nghiên cứu liên quan 21

mask thô dựa vào pairwise similarity giữa các frame [10] giúp cải thiện kết quả rất tốt

Một cách tiếp cận khác là biểu diễn Phân đoạn đối tượng trong video dưới dạng một bài

toán so khớp pixels để ước tính sự xuất hiện đối tượng với các chuỗi hình ảnh Mô hình so khớp

pixel cho Phân đoạn đối tượng trong video [38] sẽ phân biệt các vùng đối tượng với cảnh nềndựa trên độ tương đồng ở mức độ pixel giữa 2 đơn vị đối tượng

Frame t

Frame 1

HÌNH 2.13: Sơ đồ mô tả kết qua inference của mạng so khớp pixels

(Nguồn:[38]) Ở đây 2 đầu vào Frame mục tiêu và Frame tham khảo được đưa

vào 2 luồng search và query với các lớp tích chập ở 2 luồng sẽ chia sẻ trọng số

với nhau (màu xanh dương) Thông tin tương quan ở mức độ pixels giữa query và

search sẽ được các lớp Kết nối đầy đủ (màu đỏ) tính toán từ các đặc trưng đã được trích xuất trước đó Cuối cùng, việc kết nối các đồi tượng và loại bỏ thông

tin nhiễu sẽ được thực hiện thông qua các lớp tích chập và phân loại từng pixel

vào foreground hoặc background (màu xanh lá cây).

Hạn chế của mô hình này là khối lượng tính toán rất lớn, để giải quyết van dé này mô hình[6] cải tiến xem việc so khớp pixels là một bài toán truy van pixels trong không gian Embedding

và mô hình VideoMatch [21] học cách so khớp các đặc trưng được rút trích với template cho

trước mà không cần ghi nhớ sự xuất hiện của đối tượng

2.2.2 Phương pháp Lan Truyền (Propagation based approach)

Tổng quan, Phương pháp Lan truyền hay Phân đoạn dựa trên thông tin chuyển động based method) tận dụng các kết nối tạm thời trong chuyển động của đối tượng Có 2 cách tiếp

(Motion-cận trong phương pháp này:

Trang 36

Chương 2 Nghiên cứu liên quan 22

* Xây dựng mạng kết hợp với optical flow Optical flow là phương pháp ước tính chuyển

động của đối tượng trong một chuỗi hình ảnh nhằm xác định hướng chuyển động của

pixel Optical flow rất quan trọng trong giai đoạn đầu của mô tả video và thường được

ứng dụng trong Phân đoạn đối tượng trong video để duy trì sự ổn định trong chuyển

động Các mô hình VOS này sử dụng optical flow như gợi ý để theo dõi pixel theo thời

gian nhằm thiết lập các kết nối tạm thời Các mô hình như SegFlow [11], MoNet [45], PReMVOS [26] được xây dựng theo kiến trúc 2 luồng: luồng Phân đoạn màu sắc và luồng

optical flow sử dụng FlowNet [16].

HÌNH 2.14: Kiến trúc FlowNet (Ngu6n:[16])

Để có thể khai phá các gợi ý về chuyển động, các mô hình này thường nhận 2 hoặc 3 đầu

vào, bao gồm frame mục tiêu cần phân đoạn và các frames liền kề trước đó Mô hình [22]giới thiệu kiến trúc mạng song phương tạm thời (temporal bilateral network) lan truyền

các video frames với optical flow được xem như đặc trưng bổ sung Mô hình [19] sử dụng

active contour trên optical flow để phân đoạn các đối tượng chuyển động

Để có thể nắm bắt các kết nối mạch lạc theo thời gian, một số mô hình tận dụng kiến trúc

RNN để mô hình hóa việc lan truyền object mask với optical flow RNN thường được sử

dụng trong các bài toán sequence-to-sequence nhờ vào khả năng học được các phụ thuộc

lâu dài trong dữ liệu mang tính tuần tự MaskRNN [20] xây dựng mô hình dựa trên kiếntrúc RNN với việc kết hợp từng frame trong đầu ra của luồng Phân đoạn nhị phân (BinarySegmentation) và luồng localization với optical flow

* Cách tiếp cận khác là sử dụng mang CNN để hoc object mask được tái tao từ frame mụctiêu cho frame kế tiếp hay nói cách khác là lan truyền object mask được tạo từ frame trướccho frame hiện tai.

Mô hình mang MaskTrack [34] được xây dựng dựa trên kiến trúc Deeplab-Vgg16 đượchuấn luyện từ đầu trên bộ dữ liệu ảnh tĩnh kết hợp giữa Phân đoạn ngữ nghĩa (Semantic

Trang 37

Chương 2 Nghiên cứu liên quan 23

Input frame ¢

Refined mask /

Mask estimate /-7

HÌNH 2.15: Minh họa cho quá trình lan truyền object mask trong mô hình mang

MaskTrack (Nguồn:[34]) Với mỗi frame, object mask của frame trước sẽ được

thêm vào đầu vào lúc này có 4 chiều (RGB và binary mask)

Segmentation) và Phân đoạn đối tượng Vì là bộ dữ liệu ảnh tĩnh nên object mask ở đầu

vào được tạo bởi các biến đổi nhỏ trên ground true annotation của từng ảnh

(a) Atrous Spatial

HINH 2.16: Kiến trúc Deeplab-VGG16 (Ngu6n:[5])

Một số mô hình khác theo hướng tiếp cận Lan truyền object mask của frame trước tận

dụng các thông tin về chuyển động tạm thời của vùng bounding box bằng cách theo dõi

đối tượng giữa các frame

Việc học đặc trưng không-thời gian dài hạn là vô cùng quan trọng trong việc phân tích video Tuy nhiên các phương pháp ở trên thường phụ thuộc vào các kĩ thuật phân đoạn trên ảnh tĩnh và việc thu thập thông tin phụ thuộc tạm thời (temporal dependency) cho phân đoạn video phải dựa vào các mô hình optical flow đã được pretrain.

Để giải quyết vấn đề này, một số mô hình được xây dựng dựa trên sự kết hợp giữa CNN và

RNN cụ thể là LSTM cũng được áp dụng cho Phân đoạn đối tượng trong video Mô hình

[46] được xây dựng dựa trên ý tưởng từ kiến trúc Convolutional Encoder-Decoder LSTM

Việc sử dung Convolutional LSTM giúp bảo toàn các thông tin không gian trong dữ liệu

và có thể học được các phụ thuộc dài hạn nhờ vào kiến trúc của RNN

Trang 38

Chương 2 Nghiên cứu liên quan 24

ConvLSTM ConvLSTM eee ConvLSTM ConvLSTM

Decoder

t=0 t=1 t=2 t=T-2 t=T-1

HÌNH 2.17: Sơ đồ minh họa cho mô hình [46] Jnitializer là một mạng

feed-forward dùng để encode frame đầu tiên và object mask cho trước Frame mới được thêm vào theo thời gian và ConvLSTM được cập nhật xuyên suốt chuỗi video.

Mô hình [31] cũng là một mô hình đáng chú ý với việc tận dụng các lợi thé của cả 2phương pháp Lan truyền và Nhận diện Với việc sử dụng kiến trúc 2 luồng encoder-decoder nhằm sử dụng object mask được lan truyền từ frame trước cho frame sau và

frame tham khảo (reference) hay frame đầu tiên với object mask chính xác nhằm cung

cấp thêm thông tin để mô hình nhận diện đối tượng tốt hơn

Skip connections Residual Block

conv] res2 res3

Siamese encoder Global Convolution Block Refinement Module

HÌNH 2.18: Cả 2 luồng encoder xây dựng dựa trên ResNet50 [17] va được chia sẻ

trọng số cho nhau Decoder là các refinement module được thay đổi các lớp tích

chập bằng các Residual blocks [17] (Nguồn:[3 I ])

Nhờ đó, mô hình có thể nhận diện được đối tượng trong frame mục tiêu bằng cách so

Trang 39

Chương 2 Nghiên cứu liên quan 25

khớp với frame tham khảo và theo dõi được sự chuyển động của đối tượng từ frame trước

đó Mô hình được chứng minh hoạt động hiệu quả mà không cần huấn luyện trực tuyếnhay các bước hậu xử lý, vì vậy mô hình đạt được tốc độ inference rất tốt

Trong quá trình huấn luyện, mô hình được kết nối hồi quy qua thời gian và đầu ra dướidạng kết quả softmax mask của frame trước được thêm vào frame sau

HÌNH 2.19: Minh hoa quá trình huấn luyện của mô hình [31] Ham mat mát được

tính toán ở mỗi bước nhảy và việc cập nhật mô hình dược thực hiện bởi phương

pháp lan truyền ngược theo thời gian (back-probagation-through-time).

Reference Stream

Trang 40

Chương 3

Các phương pháp ứng dụng cơ chế

Attetion trong Phan đoạn doi tượng video

3.1 Phuong pháp So khớp đặc trưng theo không-thời gian

3.1.1 Tổng quan

Hiện nay, các kết quả đánh giá tốt nhất đều đạt được bởi các mô hình sử dụng phương

pháp so khớp pixel (matching-based method) Tổng quát phương pháp này thực hiện so khớp

đặc trưng giữa các frame để tái tạo lại các đối tượng đối tượng Mô hình Space-time Memory

Network (STM [32]) giới thiệu phương pháp sử dung memory để lưu trữ các đặc trưng của các

frame trước và áp dụng cơ chế Non-local Attention [43] để truy vấn thông tin trong Memory.Trong các mô hình học bán giám sát của Phân đoạn đối tượng trong video, mô hình Space-timecorrespondence network (STCN) [8] dựa trên kiến trúc STM [32] dang là mô hình mang lạihiệu suất và độ chính xác cao nhất

3.1.2 Cơ chế Non-local Attention và Non-local Neural Network

Định nghĩa

Trong việc xử lí các loại dữ liệu mang tính chất liên tục và tuần tự như là văn bản, âm thanh,

video bằng các mạng học sâu thì việc thu được những phụ thuộc dài hạn mang vai trò rất quan

trọng Cả hai cách xử lí là convolution và recurrent đều xử lí các đặc trưng local chỉ theo khônggian hoặc thời gian, vì thế việc thu nhận được các phụ thuộc dài hạn dựa vào các cách xử lí nàyđược lặp đi lặp lại và xuyên suốt bộ dữ liệu Cách làm này có hạn chế là chi phí tính toán lớn vàkhó tối ưu

Ngày đăng: 23/10/2024, 01:53